Hadoop

Was ist Hadoop?

Apache Hadoop ist eine Open-Source-Software für das Speichern und Analysieren riesiger Mengen von strukturierten und unstrukturierten Daten – Terabyte oder mehr an E-Mails, Sensordaten, Serverprotokollen, Twitter-Feeds, GPS-Signalen oder was immer man sich sonst noch vorstellen kann. Hadoop kann große, chaotische Datasets verarbeiten und daraus Einsichten und Antworten gewinnen – das erklärt den Wirbel um diese Software.

Eine kurze Geschichte zu Hadoop

Hadoop wurde 2005 von Mike Cafarella und Doug Cutting (der es nach dem Spielzeugelefanten seines Sohns benannt hat) geschaffen und war ursprünglich für Suchdaten im Zusammenhang mit dem Web gedacht. Heute ist es ein von der Community entwickeltes Open-Source-Projekt der Apache Software Foundation, das in allen möglichen Organisationen und Branchen eingesetzt wird. Microsoft arbeitet aktiv an der Entwicklung in der Community mit.

Microsoft
Microsoft hat im letzten Jahr mehr als 6.000 Entwicklungsstunden aufgebracht, um Code hierfür zu entwickeln und in Zusammenarbeit mit der Open-Source-Community für mehrere Hadoop-Projekte Innovationen voranzutreiben. Darüber hinaus haben wir dedizierte Mitarbeiter, die sich um die Weiterentwicklung von Hadoop kümmern. Chris Douglas, Mitarbeiter von Microsoft, ist der Vorsitzende der Apache Working Group für Hadoop.

–David Campbell, Microsoft Fellow und CTO

Ausgelegt für herkömmliche Server und Big Data

Ein Grund für die Beliebtheit von Hadoop ist einfach seine Wirtschaftlichkeit. Die Verarbeitung großer Datasets setzte bisher Supercomputer und andere teure und spezielle Hardware voraus. Hadoop bietet zuverlässige, skalierbare und verteilte Rechenleistungen auf Servern, die in der Branche zum Standard gehören, sodass Sie selbst Petabyte von Daten mit nur geringem Budget verarbeiten können. Hadoop wurde außerdem im Hinblick auf Skalierbarkeit entwickelt, die von einem einzigen Server bis zu Tausenden von Rechnern möglich ist. Fehler werden auf Anwendungsebene erkannt und beseitigt, was für mehr Zuverlässigkeit sorgt.

Virginia Tech
Forscher an der Virginia Tech verwenden Hadoop, um in Petabyte von Daten nach DNA für neue Krebstherapien und Antibiotika zu suchen.

Einblicke durch alle möglichen Arten von Daten

Nach Schätzung existieren bis zu 80 Prozent der Daten, mit denen Organisationen heute zu tun haben, nicht in Form von hübsch geordneten Spalten und Zeilen. Stattdessen ist es ein unstrukturierter Haufen von E-Mails, Feeds in sozialen Medien, Satellitenbildern, GPS-Signalen, Serverprotokollen und anderen nicht relationalen Dateien. Hadoop kann mit fast jeder Datei und jedem Format umgehen – ein weiterer großer Vorteil. Unternehmen können also Fragen stellen, die sie niemals für möglich gehalten hätten.

Barcelona
Indem wir Windows Azure, HDInsight und SQL Server 2012 verwenden, können wir durch Big Data, die wir aus Feeds in sozialen Medien, GPS-Signalen und Regierungssystemen erhalten, Business Intelligence nahezu in Echtzeit sammeln, analysieren und generieren.

–Luis Sanz Marco, Stadt Barcelona

Sehen Sie sich an, wie die Stadt Barcelona Hadoop mit Microsoft Azure verwendet

Warum Hadoop in der Cloud?

Sie können Hadoop in einem traditionellen lokalen Datencenter bereitstellen. Einige Unternehmen, darunter Microsoft, bieten Hadoop auch als Clouddienst an. Eine Frage stellt sich hier direkt: Warum Hadoop in der Cloud verwenden? Es gibt einen guten Grund, weshalb eine wachsende Anzahl von Organisationen diese Option wählt.

Die Cloud spart Zeit und Geld

Open Source heißt nicht kostenlos. Die lokale Bereitstellung von Hadoop erfordert immer noch Server sowie Mitarbeiter, die sich mit Hadoop auskennen, um sie einzurichten, anzupassen und zu warten. Ein Clouddienst ermöglicht das Aufsetzen eines Hadoop-Clusters in Minuten ohne Vorlaufkosten.

Virginia Tech
Sehen Sie sich an, wie an der Virginia Tech die Microsoft-Cloud genutzt wird, anstatt Millionen von Dollar für die Einrichtung eines eigenen Supercomputer-Centers auszugeben.

Die Cloud ist flexibel und schnell skalierbar

In der Microsoft Azure Cloud bezahlen Sie nur für Rechenleistung und Speicher, den Sie auch tatsächlich nutzen – dann, wenn Sie ihn nutzen. Setzen Sie ein Hadoop-Cluster auf, analysieren Sie Ihre Daten und schließen Sie es wieder. Damit fallen auch keine Kosten mehr an.

NHS
Wir haben den Azure HDInsight-Cluster schnell ans Laufen gebracht und Daten aus sechs Jahren in nur wenigen Stunden verarbeitet. Anschließend haben wird den Cluster wieder abgeschaltet: Durch die Verarbeitung der Daten in der Cloud war dies sehr kostengünstig.

–Paul Henderson, National Health Service (Großbritannien)

Durch die Cloud werden Sie flink

Hadoop-Cluster sind in Minuten eingerichtet – Knoten lassen sich nach Bedarf hinzufügen. Die Cloud bietet Organisationen sofortige Amortisation.

Chr Hansen
Es war einfach sehr viel schneller, das in der Cloud mit Windows Azure durchzuführen. Wir konnten in weniger als einer Woche die Lösung implementieren und beginnen, mit den Daten zu arbeiten.

–Morten Meldgaard, Chr. Hansen

HDInsight stellt sich vor: Hadoop in der Azure-Cloud

Microsoft Azure HDInsight ist ein 100 % auf Apache Hadoop basierender Dienst in der Azure-Cloud. Es bietet alle Vorteile von Hadoop plus die Möglichkeit der Integration von Excel, Ihren lokalen Hadoop-Clustern und der Microsoft-Umgebung mit Unternehmenssoftware und Diensten.

Was kann HDInsight für Sie tun?

Sehen Sie sich eine Einführung in HDInsight an