Navigatie overslaan

Hadoop

Wat is Hadoop?

Apache Hadoop is opensourcesoftware voor het opslaan en analyseren van grote hoeveelheden (terabytes of meer) gestructureerde en ongestructureerde gegevens, van e-mails tot sensorwaarden, serverlogs, Twitter-feeds, GPS-signalen en vrijwel alles wat u maar kunt bedenken. Met Hadoop kunt u grote, rommelige gegevenssets verwerken voor nieuwe inzichten en antwoorden, waarmee ook meteen alle ophef rond de software kan worden verklaard.

De geschiedenis van Hadoop in het kort

Hadoop werd in 2005 gemaakt door Mike Cafarella en Doug Cutting (die de software vernoemde naar het speelgoedolifantje van zijn zoon) en was oorspronkelijk bedoeld voor webgerelateerde zoekgegevens. Vandaag de dag is het een open-source, community-built project van de Apache Software Foundation dat wordt gebruik door verschillende organisaties en industrieën. Microsoft draag actief een steentje bij aan de ontwikkelingsinspanningen die door de community worden geleverd.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow en CTO

Servers voor dagelijks gebruik die zijn ontworpen voor big data

Eén reden voor de populariteit van Hadoop is de besparing die het oplevert. Voor het verwerken van big data-sets waren ooit supercomputers en andere dure, speciale hardware nodig. Hadoop maakt betrouwbare, schaalbare en gedistribueerde computing mogelijk op standaardservers, waardoor u met een klein budget petabytes aan gegevens kunt verwerken. Hadoop is daarnaast zodanig ontworpen dat het kan worden uitgebreid van één server naar duizenden machines. Daarnaast kunnen voor een betere betrouwbaarheid fouten op het niveau van de toepassing worden gedetecteerd en verwerkt.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Inzicht in alle gegevenssoorten

Naar schatting wordt maar liefst 80 procent van de gegevens waar organisaties vandaag de dag mee te maken krijgen, niet netjes aangeleverd in kolommen en rijen. Vaak gaat het om een rommelige stortvloed aan e-mails, social-mediafeeds, satellietbeelden, gps-signalen, serverlogboeken en andere ongestructureerde, niet-gerelateerde bestanden. Met Hadoop kunnen vrijwel alle bestanden of bestandsindelingen (een ander groot voordeel) zodanig worden verwerkt dat organisaties vragen kunnen stellen die ze nooit voor mogelijk hadden gehouden.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Barcelona

Bekijk hoe Barcelona Hadoop gebruikt op Microsoft Azure

Waarom Hadoop in de cloud?

U kunt Hadoop implementeren in een traditioneel lokaal datacenter. Sommige bedrijven, waaronder Microsoft, bieden Hadoop ook als cloudgebaseerde service. Hierbij rijst de vraag: waarom zou u Hadoop in de cloud gebruiken? Hier volgen enkele redenen waarom steeds meer organisaties voor deze optie kiezen.

De cloud bespaart tijd en geld

Open source betekent niet gratis. De implementatie van Hadoop op locatie vereist nog steeds servers en Hadoop-experts om deze servers in te stellen, af te stemmen en te onderhouden. Met een cloudservice kunt u binnen enkele minuten een Hadoop-cluster maken zonder initiële kosten.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

De cloud is flexibel en snel schaalbaar

In de Microsoft Azure-cloud betaalt u alleen voor de rekencapaciteit en de opslag die u op dat moment gebruikt. Maak een Hadoop-cluster, analyseer uw gegeven en sluit de cluster om de meter te stoppen.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Verenigd Koninkrijk)

De cloud maakt u sneller

Maak binnen enkele minuten een Hadoop-cluster en voeg knooppunten toe wanneer dat nodig is. De cloud bewijst meteen zijn waarde voor organisaties.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Ontdek HDInsight: Hadoop in de Azure-cloud

Microsoft Azure HDInsight is een service in de Azure-cloud die 100% is gebaseerd op Apache Hadoop. De service biedt alle voordelen van Hadoop en kan daarnaast worden geïntegreerd met Excel, uw lokale Hadoop-clusters en het Microsoft-ecosysteem van zakelijke software en services.

Zie wat HDInsight voor u kan doen

Bekijk een introductie tot HDInsight