Navigation überspringen

Hadoop

Was ist Hadoop?

Apache Hadoop ist eine Open-Source-Software für das Speichern und Analysieren riesiger Mengen von strukturierten und unstrukturierten Daten – Terabyte oder mehr an E-Mails, Sensordaten, Serverprotokollen, Twitter-Feeds, GPS-Signalen oder was immer man sich sonst noch vorstellen kann. Hadoop kann große, chaotische Datasets verarbeiten und daraus Einsichten und Antworten gewinnen – das erklärt den Wirbel um diese Software.

Eine kurze Geschichte zu Hadoop

Hadoop wurde 2005 von Mike Cafarella und Doug Cutting (der es nach dem Spielzeugelefanten seines Sohns benannt hat) geschaffen und war ursprünglich für Suchdaten im Zusammenhang mit dem Web gedacht. Heute ist es ein von der Community entwickeltes Open-Source-Projekt der Apache Software Foundation, das in allen möglichen Organisationen und Branchen eingesetzt wird. Microsoft arbeitet aktiv an der Entwicklung in der Community mit.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow und CTO

Ausgelegt für herkömmliche Server und Big Data

Ein Grund für die Beliebtheit von Hadoop ist einfach seine Wirtschaftlichkeit. Die Verarbeitung großer Datasets setzte bisher Supercomputer und andere teure und spezielle Hardware voraus. Hadoop bietet zuverlässige, skalierbare und verteilte Rechenleistungen auf Servern, die in der Branche zum Standard gehören, sodass Sie selbst Petabyte von Daten mit nur geringem Budget verarbeiten können. Hadoop wurde außerdem im Hinblick auf Skalierbarkeit entwickelt, die von einem einzigen Server bis zu Tausenden von Rechnern möglich ist. Fehler werden auf Anwendungsebene erkannt und beseitigt, was für mehr Zuverlässigkeit sorgt.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Einblicke durch alle möglichen Arten von Daten

Nach Schätzung existieren bis zu 80 Prozent der Daten, mit denen Organisationen heute zu tun haben, nicht in Form von hübsch geordneten Spalten und Zeilen. Stattdessen ist es ein unstrukturierter Haufen von E-Mails, Feeds in sozialen Medien, Satellitenbildern, GPS-Signalen, Serverprotokollen und anderen nicht relationalen Dateien. Hadoop kann mit fast jeder Datei und jedem Format umgehen – ein weiterer großer Vorteil. Unternehmen können also Fragen stellen, die sie niemals für möglich gehalten hätten.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Stadt Barcelona

Sehen Sie sich an, wie die Stadt Barcelona Hadoop mit Microsoft Azure verwendet

Warum Hadoop in der Cloud?

Sie können Hadoop in einem traditionellen lokalen Datencenter bereitstellen. Einige Unternehmen, darunter Microsoft, bieten Hadoop auch als Clouddienst an. Eine Frage stellt sich hier direkt: Warum Hadoop in der Cloud verwenden? Es gibt einen guten Grund, weshalb eine wachsende Anzahl von Organisationen diese Option wählt.

Die Cloud spart Zeit und Geld

Open Source heißt nicht kostenlos. Die lokale Bereitstellung von Hadoop erfordert immer noch Server sowie Mitarbeiter, die sich mit Hadoop auskennen, um sie einzurichten, anzupassen und zu warten. Ein Clouddienst ermöglicht das Aufsetzen eines Hadoop-Clusters in Minuten ohne Vorlaufkosten.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Die Cloud ist flexibel und schnell skalierbar

In der Microsoft Azure Cloud bezahlen Sie nur für Rechenleistung und Speicher, den Sie auch tatsächlich nutzen – dann, wenn Sie ihn nutzen. Setzen Sie ein Hadoop-Cluster auf, analysieren Sie Ihre Daten und schließen Sie es wieder. Damit fallen auch keine Kosten mehr an.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Großbritannien)

Durch die Cloud werden Sie flink

Hadoop-Cluster sind in Minuten eingerichtet – Knoten lassen sich nach Bedarf hinzufügen. Die Cloud bietet Organisationen sofortige Amortisation.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

HDInsight stellt sich vor: Hadoop in der Azure-Cloud

Microsoft Azure HDInsight ist ein 100 % auf Apache Hadoop basierender Dienst in der Azure-Cloud. Es bietet alle Vorteile von Hadoop plus die Möglichkeit der Integration von Excel, Ihren lokalen Hadoop-Clustern und der Microsoft-Umgebung mit Unternehmenssoftware und Diensten.

Was kann HDInsight für Sie tun?

Sehen Sie sich eine Einführung in HDInsight an