Pomiń nawigację

Usługa Hadoop

Co to jest usługa Hadoop?

Apache Hadoop to oprogramowanie typu open source do przechowywania i analizowania wielkich ilości danych posiadających strukturę lub bez struktury — terabajtów lub petabajtów danych dowolnego typu, od wiadomości e-mail, przez odczyty czujników, dzienniki serwerów, kanały informacyjne usługi Twitter i sygnały systemu GPS, do niemal wszystkiego, o czym można tylko pomyśleć. Usługa Hadoop umożliwia przetwarzanie dużych, nieuporządkowanych zestawów danych w celu wyciągania wniosków i uzyskiwania odpowiedzi wyjaśniających pozornie panujący w nich chaos.

Krótka historia usługi Hadoop

Usługa Hadoop została opracowana w 2005 roku przez Mike'a Cafarellę i Douga Cuttinga (który nazwał ją imieniem słonia-zabawki swojego syna) i była pierwotnie przeznaczona dla danych wyszukiwania związanych z siecią Web. Obecnie jest ona projektem typu open source tworzonym przez społeczność, należy do organizacji Apache Software Foundation i jest używana w organizacjach i branżach każdego typu. Firma Microsoft aktywnie uczestniczy w pracach deweloperskich tej społeczności.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–David Campbell, członek zarządu firmy Microsoft i dyrektor ds. technicznych

Stworzona dla standardowych serwerów obsługujących dane big data

Jedną z przyczyn popularności usługi Hadoop jest po prostu ekonomia. Przetwarzanie zestawów danych big data dawniej wymagało superkomputerów i innego drogiego, specjalistycznego sprzętu. Usługa Hadoop umożliwia niezawodne, skalowalne i rozproszone przetwarzanie danych na standardowych serwerach, co pozwala analizować petabajty danych, gdy jest dostępny skromny budżet. Ponadto usługa Hadoop została tak zaprojektowana, aby umożliwić skalowanie z jednego serwera na tysiące komputerów oraz wykrywanie i usuwanie awarii w warstwie aplikacji w celu podniesienia niezawodności.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Wyciąganie wniosków na podstawie wszystkich typów danych

Według niektórych szacunków około 80 procent danych, z którymi mają dzisiaj do czynienia organizacje, nie ma uporządkowanej struktury kolumn i wierszy. Zamiast tego są to nieuporządkowane zestawy wiadomości e-mail, kanałów informacji z mediów społecznościowych, obrazów satelitarnych, sygnałów GPS, dzienników serwerów i innych plików niezawierających relacji i nieposiadających struktury. Usługa Hadoop umożliwia obsługę niemal dowolnego pliku lub formatu — jest to jej kolejna ważna zaleta — organizacje mogą więc zadawać pytania, na które wcześniej nie można było uzyskać odpowiedzi.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Luis Sanz Marco, Urząd Miasta Barcelona

Obejrzyj, w jaki sposób miasto Barcelona korzysta z usługi Hadoop w systemie Microsoft Azure

Dlaczego warto korzystać z usługi Hadoop w chmurze?

Usługę Hadoop można wdrożyć w tradycyjnym lokalnym centrum danych. Niektóre firmy — w tym firma Microsoft — oferują również usługę Hadoop jako usługę opartą na chmurze. Nasuwa się oczywiste pytanie: dlaczego warto korzystać z usługi Hadoop w chmurze? Oto dlaczego coraz więcej organizacji decyduje się na tę opcję.

Oszczędność czasu i pieniędzy dzięki chmurze

Rozwiązanie typu open source nie oznacza braku kosztów. Lokalne wdrożenie usługi Hadoop nadal wymaga serwerów i doświadczonych ekspertów od usługi Hadoop, którzy muszą ją konfigurować, dostrajać i obsługiwać. Usługa w chmurze pozwala utworzyć klaster usługi Hadoop w ciągu kilku minut bez wydatków ponoszonych z góry.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Chmura: elastyczne rozwiązanie, które można szybko skalować

W chmurze na platformie Microsoft Azure płacisz tylko za faktycznie wykorzystane moce przetwarzania i magazyn. Możesz utworzyć klaster usługi Hadoop, przeanalizować dane, a następnie zamknąć ten klaster, aby zatrzymać licznik rozliczeń.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Paul Henderson, National Health Service (Wielka Brytania)

Większa sprawność w działaniu dzięki chmurze

Klaster usługi Hadoop można utworzyć w ciągu kilku minut, a później dodawać do niego węzły na żądanie. Chmura oferuje organizacjom bardzo krótkie czasy wykonywania operacji.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Morten Meldgaard, Chr. Hansen

Poznaj usługę HDInsight: usługa Hadoop w chmurze platformy Azure

Microsoft Azure HDInsight to usługa w chmurze platformy Azure w pełni oparta na usłudze Apache Hadoop. Oferuje ona wszystkie zalety usługi Hadoop, a ponadto możliwość integracji z programem Excel, lokalnymi klastrami usługi Hadoop oraz ekosystemem oprogramowania i usług biznesowych firmy Microsoft.

Zobacz, jakie korzyści usługa HDInsight może zaoferować dla Ciebie

Obejrzyj wprowadzenie do usługi HDInsight