Hadoop

Vad är Hadoop?

Apache Hadoop är ett program med öppen källkod för lagring och analys av massiva mängder strukturerade och ostrukturerade data, terabyte eller mer, av allt från e-postmeddelanden till sensoravläsning, serverloggar, Twitter-flöden, GPS-signaler eller så gott som vad som helst som du kan komma på. Hadoop kan bearbeta stora, röriga datauppsättningar för att ge inblickar och svar, vilket bidrar till att klargöra otydlig information.

En kort beskrivning av Hadoops historia

Hadoop skapades 2005 av Mike Cafarella och Doug Cutting (som valde namnet efter sonens leksakselefant) och var ursprungligen avsett för webbrelaterade sökdata. Idag är det ett communitybyggt projekt med öppen källkod hos Apache Software Foundation och används i alla typer av organisationer och branscher. Microsoft bidrar aktivt till utvecklingen av denna community.

Microsoft
Microsoft har registrerat över 6 000 arbetstimmar under det senaste året och checkat in kod och drivit innovationen framåt tillsammans med det community som arbetar med den öppna källkoden i en rad olika Hadoop-projekt. Dessutom har vi programmerare som ansvarar för källkoden i Hadoop och Microsoft-medarbetaren Chris Douglas är Apache Working Group Chair för Hadoop.

–David Campbell, Microsoft Fellow och CTO

Byggd för stordata, med vardagliga servar

En av orsakerna till Hadoops popularitet är enkel ekonomi. Förut krävdes superdatorer och annan dyr, specialiserad maskinvara för att behandla stordatauppsättningar. Med Hadoop blir tillförlitlig, skalbar och distribuerad databehandling möjlig på vanliga servrar, vilket tillåter dig att tackla data på flera petabyte med en mindre budget. Hadoop är också utformat för att vara skalbart från en enda server till tusentals datorer, och för att identifiera och hantera fel i programlagret för bättre tillförlitlighet.

Virginia Tech
Forskare vid Virginia Tech använder Hadoop för att gå igenom DNA-data på flera petabyte för nya cancerbehandlingar och antibiotika.

Insikter från alla typer av data

Det finns beräkningar som visar att så mycket som 80 procent av de data som organisationer hanterar idag inte är av den typen som är smidigt paketerad i kolumner och rader. Istället består de av en rörig lavin av e-postmeddelanden, flöden från sociala medier, satellitbilder, GPS-signaler, serverloggar och andra ostrukturerade, relationsfria filer. Hadoop kan hantera så gott som alla filformat – dess andra stora fördel – vilket innebär att organisationer kan ställa frågor de inte visste var möjliga.

Barcelona
Genom att använda Windows Azure, HDInsight och SQL Server 2012 kan vi samla in, analysera och generera BI nästan i realtid med Big Data som samlats in från flöden i sociala medier, GPS-signaler och data från myndighetssystem.

–Luis Sanz Marco, Barcelona stad

Ta en titt på hur Barcelona stad använder Hadoop i Microsoft Azure

Varför använda Hadoop i molnet?

Du kan distribuera Hadoop i ett traditionellt lokalt datacenter. En del företag – däribland Microsoft – erbjuder även Hadoop som en molnbaserad tjänst. En självklar fråga lyder: varför ska man använda Hadoop i molnet? Det här är orsakerna till att allt fler organisationer väljer detta alternativ.

Molnet sparar tid och pengar

Öppen källkod är inte detsamma som kostnadsfri. För att distribuera Hadoop lokalt behövs fortfarande servrar och duktiga Hadoop-experter som kan konfigurera, justera och underhålla dem. En molntjänst innebär att du kan skapa ett Hadoop-kluster på några minuter, utan några startkostnader.

Virginia Tech
Se hur Virginia Tech använder Microsofts moln istället för att betala miljontals dollar för att upprätta egna datacenter med superdatorer.

Molnet är flexibelt och skalas snabbt

I Microsoft Azure-molnet betalar du endast för den behandling och lagring du använder, när du använder den. Skapa ett Hadoop-kluster, analysera dina data och stäng sedan av klustret så stannar mätaren.

NHS
Vi kunde snabbt skapa ett Azure HDInsight-kluster och bearbeta data från sex år på bara några timmar, och sedan stängde vi av det &ellipsis; Genom att bearbeta data i molnet blev det mycket prisvärt.

–Paul Henderson, National Health Service (Storbritannien)

Med molnet blir man snabb

Skapa ett Hadoop-kluster på några minuter och lägg till noder på begäran. Molnet erbjuder organisationer omedelbar tid som genererar värde.

Chr Hansen
Det gick helt enkelt mycket snabbare att göra det i molnet med Windows Azure. Vi kunde implementera lösningen och börja arbeta med data på mindre än en vecka.

–Morten Meldgaard, Chr. Hansen

Vi presenterar HDInsight: Hadoop i Azure-molnet

Microsoft Azure HDInsight är en tjänst i Azure-molnet, till hundra procent baserad på Apache Hadoop. Den erbjuder alla fördelar hos Hadoop, plus möjligheten att integrera med Excel, med dina lokala Hadoop-kluster och med Microsofts ekosystem av programvaror och tjänster för företag.

Se vad HDInsight kan göra för dig

Titta på en presentation av HDInsight