Navigáció kihagyása

Hadoop

Mi a Hadoop?

Az Apache Hadoop nagy mennyiségű, akár több terabájtnyi strukturált vagy strukturálatlan adat tárolására és elemzésére szolgáló, nyílt forráskódú szoftver. Az e-mailek, az érzékelőértékek, a kiszolgálónaplók, a Twitter-hírcsatornák, a GPS-jelek, tehát szinte minden elképzelhető adattípus kezelésére alkalmas. A Hadoop arra is képes, hogy nagyméretű, rendezetlen adathalmazokba nyújtson betekintést elemzés céljából, ezért is ilyen nagy az érdeklődés iránta.

A Hadoop keretrendszer rövid története

A Hadoop, amelyet 2005-ben hozott létre Mike Cafarella és Doug Cutting (aki kisfia játékelefántja után nevezte el az eszközt), eredetileg webspecifikus adatfeltáráshoz készült. Napjainkban a Hadoop az Apache Software Foundation nyílt forráskódú, közösség által fejlesztett projektje, amelyet számos szervezet és iparág is alkalmaz. A Microsoft aktívan támogatja a szoftver közösségi fejlesztését.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, a Microsoft vezető technológiai munkatársa

Big data kezelése szokványos kiszolgálókon

A Hadoop keretrendszer népszerűségének egyik oka egyszerű gazdasági számításokkal igazolható. Régen a nagyméretű adathalmazok (big data) feldolgozása szuperszámítógépeket és más költséges, különleges hardvert igényelt. A Hadoop keretrendszer ipari szabványoknak megfelelő kiszolgálókon futtatható megbízható, skálázható, elosztott számítástechnikai környezetet hoz létre, amely alacsonyabb költségek mellett teszi lehetővé az adatok akár petabájt szintű feldolgozását. A rugalmasan skálázható Hadoop-környezet, amely akár több ezer gépet is magában foglalhat, a nagyobb megbízhatóság érdekében már az alkalmazásréteg szintjén felismeri és kezeli az esetleges meghibásodásokat.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Betekintés bármilyen adatba

Egyes becslések szerint a különböző szervezetek által kezelt adattípusok legalább 80 százaléka nem könnyen illeszthetők be egy táblázat soraiba és oszlopaiba. Ezek ugyanis e-mailek, közösségi hírcsatornák, műholdképek, GPS-jelek, kiszolgálónaplók és más strukturálatlan, nem kapcsolódó fájlok rendezetlen halmazai. Itt kerül előtérbe a Hadoop másik nagy előnye: szinte bármilyen fájl vagy formátum kezelésére képes, így a szervezetek korábban elképzelhetetlennek tűnő kérdéseket tehetnek fel.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Barcelona

Videó: hogyan használja Barcelona a Hadoop keretrendszert a Microsoft Azure környezetében

Miért célszerűbb a Hadoop felhőbeli használata?

A Hadoop hagyományosan helyi adatközpontban helyezhető üzembe. A Hadoopot egyes vállalatok – beleértve a Microsoftot is – felhőalapú szolgáltatásként is kínálják. Magától értetődik a kérdés: milyen előnyökkel jár a Hadoop felhőbeli használata? Az alábbiakban azt ismertetjük, hogy miért választja egyre több szervezet ezt a megoldást.

A felhő időt és pénzt takarít meg

A nyílt forráskód nem jelent ingyenes használatot. A Hadoop helyi üzembe helyezésekor továbbra is kiszolgálókra és Hadoop-szakértőkre van szükség a beállításhoz, a behangoláshoz és a karbantartáshoz. A felhőalapú szolgáltatás segítségével kezdeti költségek nélkül, néhány perc alatt létrehozhat egy Hadoop-fürtöt.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

A felhő rugalmas és gyorsan méretezhető

A Microsoft Azure felhőben csak a ténylegesen felhasznált számítási és tárolási kapacitás után kell fizetnie. Hozzon létre egy Hadoop-fürtöt, elemezze a kívánt adatokat, majd állítsa le a fürtöt, így a használatmérő is leáll.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Egyesült Királyság)

A felhő a gyorsaság kulcsa

Néhány perc alatt létrehozhat egy Hadoop-fürtöt, majd igény szerint hozzáadhat csomópontokat. A felhő minden szervezet számára azonnali értékteremtést tesz lehetővé.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

HDInsight: Hadoop az Azure felhőben

A Microsoft Azure HDInsight egy teljes egészében Apache Hadoop-alapú Azure-felhőszolgáltatás. A Hadoop keretrendszer összes előnyét biztosítja, továbbá integrálható az Excellel, a helyi Hadoop-fürtökkel és a Microsoft üzletiszoftver- és szolgáltatási környezetével.

A HDInsight szolgáltatásban rejlő lehetőségek

Videó: bevezetés a HDInsight szolgáltatásba