Hadoop

Co je Hadoop?

Apache Hadoop je open-source software pro ukládání a analýzu ohromného množství strukturovaných a nestrukturovaných dat v řádech terabajtů a petabajtů – od e-mailů a údajů snímačů přes serverové protokoly, twitterové kanály, signály GPS až po cokoli, co si jenom umíte představit. Hadoop si poradí se zpracováním obrovských a neuspořádaných datových sad, které vám poskytnou hlubší vhled a umožní najít odpovědi na to, co se kolem děje.

Stručná historie Hadoopu

Hadoop původně vytvořili v roce 2005 Mike Cafarella a Doug Cutting (který ho pojmenoval po plyšovém slonovi svého syna) jako řešení pro data vyhledávaná na webu. Dnes se jedná o komunitní projekt typu open-source pod křídly organizace Apache Software Foundation, který slouží nejrůznějším organizacím a oborům. Microsoft se na komunitním vývoji řešení aktivně podílí.

Microsoft
V loňském roce Microsoft spolupracoval s komunitou open source na celé řadě projektů Hadoop a vykázal přes 6 000 hodin technické práce, která zahrnovala propojování kódu a vývoj inovací. Kromě toho máme pracovníky, kteří se zcela věnují Hadoopu, a Chris Douglas, zaměstnanec Microsoftu, je šéfem pracovní skupiny Apache pro Hadoop.

–David Campbell, vedoucí vývoje a technický ředitel, Microsoft

Zrozen pro velké objemy dat a běžné servery

Jedním z důvodů, proč je Hadoop tak oblíbený, je jednoduše ekonomická stránka. Zpracování velkých objemů dat kdysi vyžadovalo superpočítače a další nákladný specializovaný hardware. Díky Hadoopu totiž můžete na serverech splňujících oborové standardy vytvořit spolehlivé, škálovatelné a distribuované výpočetní prostředí, které vám umožní poprat se s petabajty dat a dalšími výzvami s nižším rozpočtem. Hadoop je taky navržený tak, aby se dal rozšířit z jednoho serveru na tisíce počítačů a aby z důvodu zajištění vyšší spolehlivosti detekoval a řešil chyby na úrovni aplikace.

Virginia Tech
Vědcům z virginské technické univerzity Hadoop umožňuje probírat se petabajty dat DNA při hledání nových způsobů léčby rakoviny a nových antibiotik.

Hlubší vhled do různých druhů dat

Podle některých odhadů se v dnešní době musí organizace potýkat s daty, která až z 80 % nejsou pěkně uspořádaná do sloupců a řádků. Místo úhledných tabulek se na ně valí neuspořádaná lavina e-mailů, kanálů ze sociálních médií, satelitních snímků, signálů GPS, serverových protokolů a dalších nestrukturovaných nerelačních souborů. Další velkou výhodou Hadoopu je to, že si umí poradit s téměř jakýmkoli souborem nebo formátem, takže organizace můžou pokládat dotazy, na které by dřív ani nepomyslely.

Barcelona
Prostřednictvím Windows Azure, HDInsight a SQL Serveru 2012 můžeme shromažďovat, analyzovat a generovat BI v téměř reálném čase s velkým objemem dat získaných z kanálů sociálních médií, signálů GPS a dat z vládních systémů.

–Luis Sanz Marco, Barcelona

Podívejte se, jak Barcelona využívá Hadoop na Microsoft Azure.

Proč Hadoop v cloudu?

Hadoop můžete nasadit v tradičním firemním datacentru. Některé společnosti, včetně Microsoftu, taky nabízí Hadoop jako cloudovou službu. Naskýtá se otázka: proč používat Hadoop v cloudu? Přečtěte si důvody, proč stále víc organizací volí právě tuto možnost.

Cloud šetří čas a peníze

Open source neznamená zadarmo. Nasazení Hadoopu ve firmě pořád vyžaduje servery, které musí nainstalovat, vyladit a spravovat školení experti na Hadoop. Cloudová služba vám umožňuje nahodit cluster Hadoop během pár minut bez počátečních nákladů.

Virginia Tech
Podívejte se, jak virginská technická univerzita používá cloud od Microsoftu k vytvoření vlastního supervýpočetního střediska místo výdajů v řádech miliónů dolarů.

Cloud je flexibilní a umožňuje rychlé škálování.

V cloudu Microsoft Azure platíte jenom za výpočetní služby a úložiště, které používáte, a to jenom tehdy, když je používáte. Nahoďte cluster Hadoop, zanalyzujte data, potom to vypněte a měřicí hodiny se zastaví.

NHS
My si rychle nahodíme cluster Azure HDInsight, během několika málo hodin zpracujeme data za šest let a pak to vypneme. Zpracování dat v cloudu je velice cenově dostupné.

–Paul Henderson, National Health Service (Spojené království)

S cloudem budete čipernější

Cluster Hadoop vytvoříte během pár minut a podle potřeby si pak můžete přidávat uzly. Cloud organizacím nabízí okamžité časové zhodnocení.

Chr Hansen
V cloudu pomocí Windows Azure to bylo jednoduše o moc rychlejší. Do týdne jsme implementovali řešení a začali pracovat s daty.

–Morten Meldgaard, Chr. Hansen

Seznamte se s HDInsight: Hadoop v cloudu Azure

Microsoft Azure HDInsight je služba v cloudu Azure, která je zcela založená na Apache Hadoopu. Nabízí všechny výhody Hadoopu a k tomu taky možnost integrace s Excelem, místními clustery Hadoop a ekosystémem obchodního softwaru a služeb od Microsoftu.

Podívejte se, co všechno HDInsight umí

Podívejte se na základní přehled služby HDInsight.