Questions? Feedback? powered by Olark live chat software
Navigáció kihagyása

Hadoop

Mi a Hadoop?

Az Apache Hadoop nagy mennyiségű, akár több terabájtnyi strukturált vagy strukturálatlan adat tárolására és elemzésére szolgáló, nyílt forráskódú szoftver. Az e-mailek, az érzékelőértékek, a kiszolgálónaplók, a Twitter-hírcsatornák, a GPS-jelek, tehát szinte minden elképzelhető adattípus kezelésére alkalmas. A Hadoop arra is képes, hogy nagyméretű, rendezetlen adathalmazokba nyújtson betekintést elemzés céljából, ezért is ilyen nagy az érdeklődés iránta.

A Hadoop keretrendszer rövid története

A Hadoop, amelyet 2005-ben hozott létre Mike Cafarella és Doug Cutting (aki kisfia játékelefántja után nevezte el az eszközt), eredetileg webspecifikus adatfeltáráshoz készült. Napjainkban a Hadoop az Apache Software Foundation nyílt forráskódú, közösség által fejlesztett projektje, amelyet számos szervezet és iparág is alkalmaz. A Microsoft aktívan támogatja a szoftver közösségi fejlesztését.

Microsoft
A Microsoft több mint 6000 mérnökórát fordított fejlesztésre az elmúlt évben. Ennek során számos Hadoop-projekten kódfejlesztési és innovációs feladatokat végzett a nyílt forráskód köré szerveződött közösséggel együtt. Ezen túlmenően megbízottjaink is dolgoznak a Hadoop keretrendszeren, és Chris Douglas, a Microsoft alkalmazottja a Hadoop Apache-munkacsoportjának elnöke.

–David Campbell, a Microsoft vezető technológiai munkatársa

Big data kezelése szokványos kiszolgálókon

A Hadoop keretrendszer népszerűségének egyik oka egyszerű gazdasági számításokkal igazolható. Régen a nagyméretű adathalmazok (big data) feldolgozása szuperszámítógépeket és más költséges, különleges hardvert igényelt. A Hadoop keretrendszer ipari szabványoknak megfelelő kiszolgálókon futtatható megbízható, skálázható, elosztott számítástechnikai környezetet hoz létre, amely alacsonyabb költségek mellett teszi lehetővé az adatok akár petabájt szintű feldolgozását. A rugalmasan skálázható Hadoop-környezet, amely akár több ezer gépet is magában foglalhat, a nagyobb megbízhatóság érdekében már az alkalmazásréteg szintjén felismeri és kezeli az esetleges meghibásodásokat.

Virginia Tech
A Virginia Tech kutatói a Hadoop keretrendszer segítségével dolgozzák fel a DNS-adatok petabájtjait, hogy új rákterápiás gyógyszereket és antibiotikumokat találjanak.

Betekintés bármilyen adatba

Egyes becslések szerint a különböző szervezetek által kezelt adattípusok legalább 80 százaléka nem könnyen illeszthetők be egy táblázat soraiba és oszlopaiba. Ezek ugyanis e-mailek, közösségi hírcsatornák, műholdképek, GPS-jelek, kiszolgálónaplók és más strukturálatlan, nem kapcsolódó fájlok rendezetlen halmazai. Itt kerül előtérbe a Hadoop másik nagy előnye: szinte bármilyen fájl vagy formátum kezelésére képes, így a szervezetek korábban elképzelhetetlennek tűnő kérdéseket tehetnek fel.

Barcelona
A Windows Azure, a HDInsight és az SQL Server 2012 használatával a közösségi hírcsatornákból, GPS-jelekből és kormányzati rendszerekből gyűjtött nagyméretű (Big Data típusú) adatokból majdnem valós idejű üzleti intelligencia gyűjthető, elemezhető és generálható.

–Luis Sanz Marco, Barcelona

Videó: hogyan használja Barcelona a Hadoop keretrendszert a Microsoft Azure környezetében

Miért célszerűbb a Hadoop felhőbeli használata?

A Hadoop hagyományosan helyi adatközpontban helyezhető üzembe. A Hadoopot egyes vállalatok – beleértve a Microsoftot is – felhőalapú szolgáltatásként is kínálják. Magától értetődik a kérdés: milyen előnyökkel jár a Hadoop felhőbeli használata? Az alábbiakban azt ismertetjük, hogy miért választja egyre több szervezet ezt a megoldást.

A felhő időt és pénzt takarít meg

A nyílt forráskód nem jelent ingyenes használatot. A Hadoop helyi üzembe helyezésekor továbbra is kiszolgálókra és Hadoop-szakértőkre van szükség a beállításhoz, a behangoláshoz és a karbantartáshoz. A felhőalapú szolgáltatás segítségével kezdeti költségek nélkül, néhány perc alatt létrehozhat egy Hadoop-fürtöt.

Virginia Tech
Olvassa el, hogyan használja a Virginia Tech a Microsoft felhőjét, ahelyett, hogy dollármilliókat költene saját szuperszámítógépes központjának kialakítására.

A felhő rugalmas és gyorsan méretezhető

A Microsoft Azure felhőben csak a ténylegesen felhasznált számítási és tárolási kapacitás után kell fizetnie. Hozzon létre egy Hadoop-fürtöt, elemezze a kívánt adatokat, majd állítsa le a fürtöt, így a használatmérő is leáll.

NHS
Gyorsan létrehoztuk az Azure HDInsight-fürtöt, néhány óra alatt feldolgoztunk hat évnyi adatot, majd le is állítottuk a fürtöt. Az adatok felhőben történő feldolgozása rendkívül gazdaságosnak bizonyult.

–Paul Henderson, National Health Service (Egyesült Királyság)

A felhő a gyorsaság kulcsa

Néhány perc alatt létrehozhat egy Hadoop-fürtöt, majd igény szerint hozzáadhat csomópontokat. A felhő minden szervezet számára azonnali értékteremtést tesz lehetővé.

Chr Hansen
A végrehajtás egész egyszerűen sokkal gyorsabb volt a Windows Azure-os felhőben. Implementáltuk a megoldást, és egy héten belül el tudtuk kezdeni az adatokkal a munkát.

–Morten Meldgaard, Chr. Hansen

HDInsight: Hadoop az Azure felhőben

A Microsoft Azure HDInsight egy teljes egészében Apache Hadoop-alapú Azure-felhőszolgáltatás. A Hadoop keretrendszer összes előnyét biztosítja, továbbá integrálható az Excellel, a helyi Hadoop-fürtökkel és a Microsoft üzletiszoftver- és szolgáltatási környezetével.

Videó: bevezetés a HDInsight szolgáltatásba