Přeskočit navigaci

Hadoop

Co je Hadoop?

Apache Hadoop je open-source software pro ukládání a analýzu ohromného množství strukturovaných a nestrukturovaných dat v řádech terabajtů a petabajtů – od e-mailů a údajů snímačů přes serverové protokoly, twitterové kanály, signály GPS až po cokoli, co si jenom umíte představit. Hadoop si poradí se zpracováním obrovských a neuspořádaných datových sad, které vám poskytnou hlubší vhled a umožní najít odpovědi na to, co se kolem děje.

Stručná historie Hadoopu

Hadoop původně vytvořili v roce 2005 Mike Cafarella a Doug Cutting (který ho pojmenoval po plyšovém slonovi svého syna) jako řešení pro data vyhledávaná na webu. Dnes se jedná o komunitní projekt typu open-source pod křídly organizace Apache Software Foundation, který slouží nejrůznějším organizacím a oborům. Microsoft se na komunitním vývoji řešení aktivně podílí.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, vedoucí vývoje a technický ředitel, Microsoft

Zrozen pro velké objemy dat a běžné servery

Jedním z důvodů, proč je Hadoop tak oblíbený, je jednoduše ekonomická stránka. Zpracování velkých objemů dat kdysi vyžadovalo superpočítače a další nákladný specializovaný hardware. Díky Hadoopu totiž můžete na serverech splňujících oborové standardy vytvořit spolehlivé, škálovatelné a distribuované výpočetní prostředí, které vám umožní poprat se s petabajty dat a dalšími výzvami s nižším rozpočtem. Hadoop je taky navržený tak, aby se dal rozšířit z jednoho serveru na tisíce počítačů a aby z důvodu zajištění vyšší spolehlivosti detekoval a řešil chyby v aplikační vrstvě.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Hlubší vhled do různých druhů dat

Podle některých odhadů se v dnešní době musí organizace potýkat s daty, která až z 80 % nejsou pěkně uspořádaná do sloupců a řádků. Místo úhledných tabulek se na ně valí neuspořádaná lavina e-mailů, kanálů ze sociálních médií, satelitních snímků, signálů GPS, serverových protokolů a dalších nestrukturovaných nerelačních souborů. Další velkou výhodou Hadoopu je to, že si umí poradit s téměř jakýmkoli souborem nebo formátem, takže organizace můžou pokládat dotazy, na které by dřív ani nepomyslely.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Barcelona

Podívejte se, jak Barcelona využívá Hadoop na Microsoft Azure.

Proč Hadoop v cloudu?

Hadoop můžete nasadit v tradičním firemním datacentru. Některé společnosti, včetně Microsoftu, taky nabízí Hadoop jako cloudovou službu. Naskýtá se otázka: proč používat Hadoop v cloudu? Přečtěte si důvody, proč stále víc organizací volí právě tuto možnost.

Cloud šetří čas a peníze

Open source neznamená zadarmo. Nasazení Hadoopu ve firmě pořád vyžaduje servery, které musí nainstalovat, vyladit a spravovat školení experti na Hadoop. Cloudová služba vám umožňuje nahodit cluster Hadoop během pár minut bez počátečních nákladů.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Cloud je flexibilní a umožňuje rychlé škálování.

V cloudu Microsoft Azure platíte jenom za výpočetní služby a úložiště, které používáte, a to jenom tehdy, když je používáte. Nahoďte cluster Hadoop, zanalyzujte data, potom to vypněte a měřicí hodiny se zastaví.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Spojené království)

S cloudem budete čipernější

Cluster Hadoop vytvoříte během pár minut a podle potřeby si pak můžete přidávat uzly. Cloud organizacím nabízí okamžité časové zhodnocení.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Seznamte se s HDInsight: Hadoop v cloudu Azure

Microsoft Azure HDInsight je služba v cloudu Azure, která je zcela založená na Apache Hadoopu. Nabízí všechny výhody Hadoopu a k tomu taky možnost integrace s Excelem, místními clustery Hadoop a ekosystémem obchodního softwaru a služeb od Microsoftu.

Podívejte se, co všechno HDInsight umí

Podívejte se na základní přehled služby HDInsight.