Home » Technologie » Big Data » Spark und Hadoop: Das müssen CIOs wissen

Spark und Hadoop: Das müssen CIOs wissen

Tech Page One

Spark und Hadoop: Das müssen CIOs wissen

 

Nach allgemeiner Auffassung gibt es aktuell nur eine Plattform für Big Data-Projekte. Hadoop wird derart oft in einem Atemzug mit Big Data genannt, dass die beiden Begriffe mittlerweile fast zu Synonymen geworden sind, die sich beliebig gegeneinander austauschen lassen.

Doch dies ändert sich jetzt allmählich. In den vergangenen Jahren ist mit Apache Spark eine andere Technologie aufgekommen, die sich anschickt, das Big Data-Framework der Zukunft zu werden. Wie schneiden die beiden Angebote im Vergleich ab und welches ist besser?

Diese Frage ist nicht leicht zu beantworten, da die beiden Plattformen nicht exakt für dieselben Aufgaben ausgelegt sind. Sie können zusammenarbeiten – und werden tatsächlich auch häufig miteinander eingesetzt. Da es sich zudem bei beiden um Open Source-Plattformen handelt und kein wirtschaftlicher Druck herrscht, können Sie auch nicht wirklich als Konkurrenzprodukte bezeichnet werden. Natürlich werden die Produkte von Unternehmen genutzt, doch viele Firmen setzen beide Plattformen ein.

Eine Rivalität im eigentlichen Sinne gibt es also nicht. Tatsächlich hat einer der Mitentwickler von Hadoop, Matt Cutting, auf einer Hadoop Konferenz im März dieses Jahres angedeutet, dass die Bedeutung von Hadoop künftig zurückgehen und diejenige von Spark parallel zunehmen werde. Seiner Ansicht nach wird Spark die Stapelverarbeitungssoftware MapReduce ersetzen; in diesem Szenario jedoch würden Spark und Hadoop zusammen eingesetzt werden.

Verteilter Massenspeicher

Spark und Hadoop: Das müssen CIOs wissenEin Problem von Spark besteht darin, dass die Plattform über kein eigenes verteiltes Speichersystem verfügt. Dadurch ist eine Spark Bereitstellung bei vielen Big Data-Projekten schwierig, weil ein eigenes verteiltes Speichersystem die Verarbeitung riesiger Datensätze im Petabyte-Bereich auf herkömmlichen Festplatten ermöglicht, ohne dass dafür individuell eingerichtete Geräte erforderlich wären. Andererseits ist Spark bei der Echtzeitverarbeitung und beim Maschinenlernen deutlich leistungsstärker als Hadoop. Wer also Anwendungen einsetzt, deren Daten sofort verarbeitet werden müssen, ist mit Spark entschieden besser beraten als mit Hadoop.

Das ist nur ein Beispiel für die unterschiedlichen Funktionen, die Hadoop und Spark übernehmen. Sie können getrennt voneinander arbeiten, aber gemeinsam bereitgestellt werden. In erster Linie müssen Sie sich klarmachen, dass der wesentliche Zweck von Frameworks wie Hadoop oder Spark darin besteht, den Prozess der Informationserfassung zu verbessern.

Schnellere Verarbeitung

Moderne Unternehmen wollen genauere Informationen, und das schnell und kosteneffizient. Sie werden sich für die Methoden entscheiden, die ihnen am besten helfen, dieses Ziel zu erreichen. Wenn Ihr Unternehmen beispielsweise mit großen Datensätzen arbeitet, die sich alle in strukturierten, SQL-basierten Datenbanken befinden, dann ist Hadoop ein akzeptables Framework für Ihre Zwecke. Wenn Sie jedoch auch mit sozialen Netzwerken oder Videoclips umgehen, mit anderen Worten also unstrukturierte Daten verarbeiten, dann wird Spark höchstwahrscheinlich die bessere Wahl sein.

Es gilt, die passende Lösung für den jeweiligen Einsatzzweck auszuwählen. Das wichtigste Merkmal beider Plattformen ist, dass sie für Big Data-Projekte benötigt werden – und solche Projekte werden für die meisten Organisationen zukünftig äußerst wichtig sein.

 

 

Maxwell Cooter

Maxwell Cooter

Max ist ein freiberuflicher Journalist, der über eine große Bandbreite von IT-Themen schreibt. Er war Gründer und Herausgeber von Cloud Pro, einer der ersten Publikationen, die sich speziell mit der Cloud beschäftigten. Darüber hinaus war er Gründer und Herausgeber von Techworld (IDG) und davor Redakteur bei Network Week. Seine Beiträge wurden in IDG Direct, dem SC Magazine, in Computer Weekly, in Computer Reseller News, dem Internet Magazine, der PC Business World und vielen weiteren Publikationen veröffentlicht. Darüber hinaus trat er bei vielen Konferenzen als Redner auf und hat als Kommentator für die BBC, ITN und den Computer-Fernsehkanal CNBC gearbeitet.

Neueste Beiträge:

 

Tags: Big Data, Technologie