Hadoop

Wat is Hadoop?

Apache Hadoop is opensourcesoftware voor het opslaan en analyseren van grote hoeveelheden (terabytes of meer) gestructureerde en ongestructureerde gegevens, van e-mails tot sensorwaarden, serverlogs, Twitter-feeds, GPS-signalen en vrijwel alles wat u maar kunt bedenken. Met Hadoop kunt u grote, rommelige gegevenssets verwerken voor nieuwe inzichten en antwoorden, waarmee ook meteen alle ophef rond de software kan worden verklaard.

De geschiedenis van Hadoop in het kort

Hadoop werd in 2005 gemaakt door Mike Cafarella en Doug Cutting (die de software vernoemde naar het speelgoedolifantje van zijn zoon) en was oorspronkelijk bedoeld voor webgerelateerde zoekgegevens. Vandaag de dag is het een open-source, community-built project van de Apache Software Foundation dat wordt gebruik door verschillende organisaties en industrieën. Microsoft draag actief een steentje bij aan de ontwikkelingsinspanningen die door de community worden geleverd.

Microsoft
Microsoft heeft vorig jaar in samenwerking met de opensourcecommunity meer dan 6.000 uur aan engineering op de klok gezet met het aanleveren van code en het aanmoedigen van innovatie binnen een groot aantal Hadoop-projecten. Daarnaast hebben we committers op Hadoop en is Microsoft-medewerker Chris Douglas voorzitter van de Apache-werkgroep voor Hadoop.

–David Campbell, Microsoft Fellow en CTO

Servers voor dagelijks gebruik die zijn ontworpen voor big data

Eén reden voor de populariteit van Hadoop is de besparing die het oplevert. Voor het verwerken van big data-sets waren ooit supercomputers en andere dure, speciale hardware nodig. Hadoop maakt betrouwbare, schaalbare en gedistribueerde computing mogelijk op standaardservers, waardoor u met een klein budget petabytes aan gegevens kunt verwerken. Hadoop is daarnaast zodanig ontworpen dat het kan worden uitgebreid van één server naar duizenden machines. Daarnaast kunnen voor een betere betrouwbaarheid fouten op het niveau van de toepassing worden gedetecteerd en verwerkt.

Virginia Tech
Onderzoekers van Virginia Tech gebruiken Hadoop om petabytes aan DNA-gegevens te doorzoeken voor nieuwe kankertherapieën en antibiotica.

Inzicht in alle gegevenssoorten

Naar schatting wordt maar liefst 80 procent van de gegevens waar organisaties vandaag de dag mee te maken krijgen, niet netjes aangeleverd in kolommen en rijen. Vaak gaat het om een rommelige stortvloed aan e-mails, social-mediafeeds, satellietbeelden, gps-signalen, serverlogboeken en andere ongestructureerde, niet-gerelateerde bestanden. Met Hadoop kunnen vrijwel alle bestanden of bestandsindelingen (een ander groot voordeel) zodanig worden verwerkt dat organisaties vragen kunnen stellen die ze nooit voor mogelijk hadden gehouden.

Barcelona
Door Windows Azure, HDInsight en SQL Server 2012 te gebruiken, kunnen we bijna realtime BI verzamelen, analyseren en generen met Big Data van social-mediafeeds, gps-signalen en gegevens van overheidssystemen

–Luis Sanz Marco, Barcelona

Bekijk hoe Barcelona Hadoop gebruikt op Microsoft Azure

Waarom Hadoop in de cloud?

U kunt Hadoop implementeren in een traditioneel lokaal datacenter. Sommige bedrijven, waaronder Microsoft, bieden Hadoop ook als cloudgebaseerde service. Hierbij rijst de vraag: waarom zou u Hadoop in de cloud gebruiken? Hier volgen enkele redenen waarom steeds meer organisaties voor deze optie kiezen.

De cloud bespaart tijd en geld

Open source betekent niet gratis. De implementatie van Hadoop op locatie vereist nog steeds servers en Hadoop-experts om deze servers in te stellen, af te stemmen en te onderhouden. Met een cloudservice kunt u binnen enkele minuten een Hadoop-cluster maken zonder initiële kosten.

Virginia Tech
Bekijk hoe Virginia Tech de cloud van Microsoft gebruikt in plaats van miljoenen dollar uit te geven aan een eigen supercomputercentrum.

De cloud is flexibel en snel schaalbaar

In de Microsoft Azure-cloud betaalt u alleen voor de rekencapaciteit en de opslag die u op dat moment gebruikt. Maak een Hadoop-cluster, analyseer uw gegeven en sluit de cluster om de meter te stoppen.

NHS
We hebben de Azure HDInsight-cluster ingeschakeld en zes jaar aan gegevens verwerkt in slechts een paar uur. Vervolgens hebben we de cluster afgesloten. Hierdoor is de verwerking van gegevens in de cloud zeer betaalbaar.

–Paul Henderson, National Health Service (Verenigd Koninkrijk)

De cloud maakt u sneller

Maak binnen enkele minuten een Hadoop-cluster en voeg knooppunten toe wanneer dat nodig is. De cloud bewijst meteen zijn waarde voor organisaties.

Chr Hansen
Het was gewoon zoveel sneller om dit in de cloud te doen met Windows Azure. We konden in minder dan een week de oplossing implementeren en met gegevens werken.

–Morten Meldgaard, Chr. Hansen

Ontdek HDInsight: Hadoop in de Azure-cloud

Microsoft Azure HDInsight is een service in de Azure-cloud die 100% is gebaseerd op Apache Hadoop. De service biedt alle voordelen van Hadoop en kan daarnaast worden geïntegreerd met Excel, uw lokale Hadoop-clusters en het Microsoft-ecosysteem van zakelijke software en services.

Zie wat HDInsight voor u kan doen

Bekijk een introductie tot HDInsight