Pomiń nawigację

Usługa Hadoop

Co to jest usługa Hadoop?

Apache Hadoop to oprogramowanie typu open source do przechowywania i analizowania wielkich ilości danych posiadających strukturę lub bez struktury — terabajtów lub petabajtów danych dowolnego typu, od wiadomości e-mail, przez odczyty czujników, dzienniki serwerów, kanały informacyjne usługi Twitter i sygnały systemu GPS, do niemal wszystkiego, o czym można tylko pomyśleć. Usługa Hadoop umożliwia przetwarzanie dużych, nieuporządkowanych zestawów danych w celu wyciągania wniosków i uzyskiwania odpowiedzi wyjaśniających pozornie panujący w nich chaos.

Krótka historia usługi Hadoop

Usługa Hadoop została opracowana w 2005 roku przez Mike'a Cafarellę i Douga Cuttinga (który nazwał ją imieniem słonia-zabawki swojego syna) i była pierwotnie przeznaczona dla danych wyszukiwania związanych z siecią Web. Obecnie jest ona projektem typu open source tworzonym przez społeczność, należy do organizacji Apache Software Foundation i jest używana w organizacjach i branżach każdego typu. Firma Microsoft aktywnie uczestniczy w pracach deweloperskich tej społeczności.

Microsoft
W firmie Microsoft zarejestrowano ponad 6000 godzin roboczych w ubiegłym roku poświeconych na tworzenie kodu i wprowadzanie innowacji w partnerstwie ze społecznością typu open source w ramach zakresu projektów związanych z usługą Hadoop. Ponadto firma Microsoft ma pracowników na stałe zaangażowanych w prace nad usługę Hadoop, a pracownik firmy Microsoft Chris Douglas jest przewodniczącym w organizacji Apache Working Group, który zajmuje się usługą Hadoop.

–David Campbell, członek zarządu firmy Microsoft i dyrektor ds. technicznych

Stworzona dla standardowych serwerów obsługujących dane big data

Jedną z przyczyn popularności usługi Hadoop jest po prostu ekonomia. Przetwarzanie zestawów danych big data dawniej wymagało superkomputerów i innego drogiego, specjalistycznego sprzętu. Usługa Hadoop umożliwia niezawodne, skalowalne i rozproszone przetwarzanie danych na standardowych serwerach, co pozwala analizować petabajty danych, gdy jest dostępny skromny budżet. Ponadto usługa Hadoop została tak zaprojektowana, aby umożliwić skalowanie z jednego serwera na tysiące komputerów oraz wykrywanie i usuwanie awarii w warstwie aplikacji w celu podniesienia niezawodności.

Virginia Tech
Za pomocą usługi Hadoop badacze z uczelni Virginia Tech przeszukują petabajty danych kodu DNA w poszukiwaniu nowych terapii nowotworowych i antybiotyków.

Wyciąganie wniosków na podstawie wszystkich typów danych

Według niektórych szacunków około 80 procent danych, z którymi mają dzisiaj do czynienia organizacje, nie ma uporządkowanej struktury kolumn i wierszy. Zamiast tego są to nieuporządkowane zestawy wiadomości e-mail, kanałów informacji z mediów społecznościowych, obrazów satelitarnych, sygnałów GPS, dzienników serwerów i innych plików niezawierających relacji i nieposiadających struktury. Usługa Hadoop umożliwia obsługę niemal dowolnego pliku lub formatu — jest to jej kolejna ważna zaleta — organizacje mogą więc zadawać pytania, na które wcześniej nie można było uzyskać odpowiedzi.

Barcelona
Korzystając z systemu Windows Azure, usługi HDInsight i programu SQL Server 2012, można gromadzić, analizować i generować dane analizy biznesowej niemal w czasie rzeczywistym na podstawie dużych ilości danych zebranych z kanałów informacyjnych w mediach społecznościowych, sygnałów GPS oraz danych z systemów rządowych.

–Luis Sanz Marco, Urząd Miasta Barcelona

Obejrzyj, w jaki sposób miasto Barcelona korzysta z usługi Hadoop w systemie Microsoft Azure

Dlaczego warto korzystać z usługi Hadoop w chmurze?

Usługę Hadoop można wdrożyć w tradycyjnym lokalnym centrum danych. Niektóre firmy — w tym firma Microsoft — oferują również usługę Hadoop jako usługę opartą na chmurze. Nasuwa się oczywiste pytanie: dlaczego warto korzystać z usługi Hadoop w chmurze? Oto dlaczego coraz więcej organizacji decyduje się na tę opcję.

Oszczędność czasu i pieniędzy dzięki chmurze

Rozwiązanie typu open source nie oznacza braku kosztów. Lokalne wdrożenie usługi Hadoop nadal wymaga serwerów i doświadczonych ekspertów od usługi Hadoop, którzy muszą ją konfigurować, dostrajać i obsługiwać. Usługa w chmurze pozwala utworzyć klaster usługi Hadoop w ciągu kilku minut bez wydatków ponoszonych z góry.

Virginia Tech
Zobacz, w jaki sposób uczelnia Virginia Tech korzysta z chmury firmy Microsoft zamiast wydawać miliony dolarów na założenie swojego własnego centrum przetwarzania dużych ilości danych.

Chmura: elastyczne rozwiązanie, które można szybko skalować

W chmurze na platformie Microsoft Azure płacisz tylko za faktycznie wykorzystane moce przetwarzania i magazyn. Możesz utworzyć klaster usługi Hadoop, przeanalizować dane, a następnie zamknąć ten klaster, aby zatrzymać licznik rozliczeń.

NHS
Szybko utworzyliśmy klaster usługi Azure HDInsight i przetworzyliśmy dane zebrane przez sześć lat w ciągu zaledwie kilku godzin. Następnie zamknęliśmy ten klaster. Dzięki wykorzystaniu chmury przetwarzanie danych okazało się wyjątkowo niedrogie.

–Paul Henderson, National Health Service (Wielka Brytania)

Większa sprawność w działaniu dzięki chmurze

Klaster usługi Hadoop można utworzyć w ciągu kilku minut, a później dodawać do niego węzły na żądanie. Chmura oferuje organizacjom bardzo krótkie czasy wykonywania operacji.

Chr Hansen
Po prostu mogliśmy zrobić to znacznie szybciej w chmurze przy użyciu systemu Windows Azure. Udało nam się zaimplementować rozwiązanie i rozpocząć pracę z danymi w ciągu niespełna tygodnia.

–Morten Meldgaard, Chr. Hansen

Poznaj usługę HDInsight: usługa Hadoop w chmurze platformy Azure

Microsoft Azure HDInsight to usługa w chmurze platformy Azure w pełni oparta na usłudze Apache Hadoop. Oferuje ona wszystkie zalety usługi Hadoop, a ponadto możliwość integracji z programem Excel, lokalnymi klastrami usługi Hadoop oraz ekosystemem oprogramowania i usług biznesowych firmy Microsoft.

Zobacz, jakie korzyści usługa HDInsight może zaoferować dla Ciebie

Obejrzyj wprowadzenie do usługi HDInsight