Hopp over navigasjon

Hadoop

Hva er Hadoop?

Apache Hadoop er programvare med åpen kilde for lagring og analyse av massive mengder strukturerte og ustrukturerte data – terabyte eller mer – av alle typer data: e-poster, sensoravlesninger, serverlogger, Twitter-feeder, GPS-signaler og nær sagt alt annet det er mulig å forestille seg. Hadoop kan behandle store, uensartede datasett og gi innsikt og svar – noe som forklarer all viraken rundt det.

En kort historie om Hadoop

Hadoop ble skapt i 2005 av Mike Cafarella og Doug Cutting (som gav det navn etter sønnens lekeelefant). Det var opprinnelig ment for Internett-relaterte søkedata. I dag er det et prosjekt med åpen kilde, utviklet i fellesskap hos Apache Software Foundation, som brukes i alle typer organisasjoner og bransjer. Microsoft er en aktiv bidragsyter til den felles utviklingsinnsatsen.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, Microsoft Fellow og CTO

Utviklet for store data på vanlige servere

Én av grunnene til Hadoops popularitet er ganske enkelt økonomi. Tidligere var det nødvendig med superdatamaskiner og annen dyr, spesialisert maskinvare for å behandle store datasett. Hadoop muliggjør pålitelig, skalerbar, distribuert databehandling på servere som er standard i bransjen, slik at du kan håndtere petabyte med data og mer på mindre budsjetter. Hadoop er også utformet for å skalere fra én enkelt server til tusenvis av maskiner, og til å oppdage og håndtere feil på programnivå, noe som gir bedre pålitelighet.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Innsikt fra alle typer data

Enkelte beregninger tyder på at opptil 80 prosent av dataene som organisasjoner må håndtere i dag, ikke er av en type som er vakkert ordnet i kolonner og rader. I stedet kan de minne om et uoversiktlig katastrofeområde med e-poster, feeder på sosiale medier, satellittbilder, GPS-signaler, serverlogger og andre ustrukturerte, usammenhengende filer. Hadoop kan håndtere så godt som alle filer eller formater – systemets andre store fordel – så organisasjoner kan komme med spørsmål som de aldri kunne forestille seg var mulig.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, byrådet i Barcelona

Se hvordan byrådet i Barcelona bruker Hadoop på Microsoft Azure

Hvorfor Hadoop i skyen?

Du kan distribuere Hadoop i et tradisjonelt datasenter på stedet. Enkelte selskaper, inkludert Microsoft, tilbyr også Hadoop som en skybasert tjeneste. Et opplagt spørsmål melder seg: hvorfor bruke Hadoop i skyen? Dette er årsakene til at et stadig økende antall organisasjoner velger dette alternativet.

Med skyen sparer du tid og penger

Åpen kilde betyr ikke gratis. Distribuering av Hadoop lokalt krever fortsatt servere og kyndige Hadoop-eksperter til å konfigurere, finjustere og vedlikeholde dem. Med en skytjeneste kan du sette opp en Hadoop-klynge på få minutter uten innledende kostnader.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Skyen er fleksibel og skalerer raskt

I Microsoft Azure-skyen betaler du bare for databehandlingen og lagringen du bruker, når du bruker den. Sett opp en Hadoop-klynge, analyser dataene og deaktiver den etterpå for å stoppe måleren.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, den nasjonale helsetjenesten i Storbritannia

Skyen gjør deg rask og fleksibel

Du kan opprette en Hadoop-klynge på noen få minutter, og legge til noder etter behov. Skyen gir organisasjoner umiddelbart utbytte for tidsbruken.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Møt HDInsight: Hadoop i Azure-skyen

Microsoft Azure HDInsight er en tjeneste i Azure-skyen som er 100 % basert på Apache Hadoop. Den har alle fordelene som Hadoop har, pluss muligheten til å integrere med Excel, lokale Hadoop-klynger og Microsoft-økosystemet med forretningsprogramvare og -tjenester.

Se hva HDInsight kan gjøre for deg

Se en innføring i HDInsight