Questions? Feedback? powered by Olark live chat software
Pomiń nawigację

Platforma Apache Spark dla usługi Azure HDInsight

Platforma Apache Spark w chmurze dla wdrożeń o kluczowym znaczeniu

Co to jest platforma Apache Spark?

Apache Spark to platforma przetwarzania typu open source, która umożliwia uruchamianie aplikacji do analizowania danych na dużą skalę. Oparta na aparacie przetwarzania w pamięci platforma Spark zapewnia wysoką wydajność zapytań o dane big data. Wykorzystuje platformę równoległego przetwarzania danych, która utrwala dane w pamięci i na dysku, jeśli to konieczne. Dzięki temu platforma Spark zapewnia 100 razy większą szybkość i wspólny model wykonywania różnych zadań, takich jak procesy wyodrębniania, przekształcania i ładowania (ETL), operacje wsadowe, zapytania interakcyjne i inne operacje dotyczące danych w rozproszonym systemie plików usługi Hadoop (HDFS, Hadoop Distributed File System). Dzięki platformie Azure wdrażanie platformy Apache Spark jest łatwe, niedrogie i nie wymaga zakupu sprzętu ani konfiguracji oprogramowania oraz zapewnia pełne środowisko notesu umożliwiające tworzenie atrakcyjnych opisów i możliwość integracji z narzędziami analizy biznesowej partnerów.

Obejrzyj wideo z omówieniem

Jeden model wykonywania dla wielu zadań

Platforma Apache Spark korzysta z wspólnego modelu wykonywania wielu zadań, takich jak procesy ETL, zapytania wsadowe, zapytania interakcyjne, przesyłanie strumieniowe w czasie rzeczywistym, uczenie maszynowe i przetwarzanie wykresów danych przechowywanych w usłudze Azure Data Lake — magazyn. Dzięki temu platforma Spark dla usługi Azure HDInsight pozwala sprostać wyzwaniom związanym z danymi big data, takimi jak wykrywanie oszustw, analiza strumieni kliknięć, analiza finansowa, przetwarzanie danych telemetrycznych z podłączonych czujników i urządzeń (Internet rzeczy, IoT), analiza danych z sieci społecznościowych, zawsze włączone potoki ETL i monitorowanie sieci, niemal w czasie rzeczywistym.

Scenariusze interakcyjne z przetwarzaniem w pamięci

Obecnie użytkownicy nie chcą czekać minut, godzin czy dni — oczekują oni szybkich odpowiedzi na pytania. Platforma Apache Spark umożliwia to dzięki utrwalaniu danych w pamięci w celu osiągnięcia do 100 razy szybszego wykonywania zapytań podczas przetwarzania dużych zestawów danych na platformie Hadoop. To sprawia, że platforma Spark dla usługi Azure HDInsight nadaje się doskonale do przyspieszania działania aplikacji wymagających przetwarzania danych big data.

Natywne środowiska deweloperskie i zdalne debugowanie przy użyciu rozwiązania IntelliJ IDEA

Aby ułatwić opracowywanie zawartości na platformie Spark, wprowadziliśmy ścisłą integrację z rozwiązaniem IntelliJ IDEA w celu umożliwienia deweloperom tworzenia kodu, korzystając z obsługi natywnych narzędzi tworzenia zawartości języków Scala i Java. Możesz przeprowadzać debugowanie zdalne, co zapewnia elastyczność cyklu wdrażania oraz umożliwia przesłanie gotowej aplikacji do platformy Azure. Ponadto klastry Spark dla usługi HDInsight mają wstępnie załadowane najpopularniejsze biblioteki języka Python (Anaconda) do uczenia maszynowego.

Interakcyjne analizowanie danych big data przy użyciu narzędzi analizy biznesowej

Z myślą o analitykach biznesowych oferujemy integrację z usługą Power BI oraz innymi narzędziami analizy biznesowej, takimi jak Tableau, SAP Lumira i QlikView. Pozwala to tworzyć interakcyjne wizualizacje danych o dowolnym rozmiarze. Oprócz tradycyjnych pulpitów nawigacyjnych usługa Power BI udostępnia łącznik przesyłania strumieniowego zintegrowany z platformą Spark, aby umożliwić publikowanie zdarzeń w czasie rzeczywistym z funkcji przesyłania strumieniowego platformy Spark bezpośrednio w usłudze Power BI.

Gotowy do użycia notes

W odróżnieniu od innych ofert platformy Spark, które wymagają instalowania własnych notesów lub używania notesów własnościowych, platforma Spark dla usługi HDInsight zapewnia gotową integrację z rozwiązaniem Jupyter (iPython) — najpopularniejszym notesem typu „open source” na rynku. Pozwala to tworzyć opisy stanowiące połączenie kodu, równań statystycznych i wizualizacji w celu przedstawienia historii dotyczącej danych. Aby ułatwić klientom integrację, wspólnie ze społecznością rozwiązania Jupyter rozszerzyliśmy jądro w celu umożliwienia wykonywania zadań platformy Spark za pośrednictwem punktu końcowego REST, co daje duże możliwości analitykom danych.

Integracja z R Server — największą biblioteką analiz równoległych i uczenia maszynowego zgodną z językiem R

Platforma Spark dla usługi Azure HDInsight może być wykorzystywana jako mechanizm do uruchomienia serwera R Server, który oferuje największą bibliotekę analiz równoległych i uczenia maszynowego, stworzoną z myślą o współpracy z językiem R typu „open source”. Pozwala to wykorzystać znajomość języka R oraz skalę korporacyjną oferowaną przez serwer R Server działający na platformie Spark. Wielowątkowe biblioteki matematyczne i przejrzyste przetwarzanie równoległe w programie R Server w połączeniu z platformą Spark umożliwiają obsługę nawet 1000-krotnie większych ilości danych i zapewniają 50-krotnie wyższe szybkości niż w przypadku języka R typu „open source” — pomaga to w opracowywaniu dokładniejszych modeli zapewniających prognozy trafniejsze niż w przeszłości.

Gwarancja najwyższej dostępności w celu zachowania ciągłości działania

Aby umożliwić korzystanie z platformy Spark w najwyższej skali, firma Microsoft gwarantuje najwyższą w branży dostępność na poziomie 99,9% w ramach umowy SLA w celu zapewnienia ciągłości działania i ochrony przed katastrofą. Jest to możliwe dzięki współtworzeniu z firmą Cloudera projektu Livy mającego na celu opracowanie usługi sieci Web REST typu „open source” opartej na licencji oprogramowania Apache do zarządzania długimi kontekstami platformy Spark i przesyłania zadań platformy Spark. Dzięki tej nowej możliwości platforma Spark stanowi bardziej niezawodne zaplecze do uruchamiania interakcyjnych notesów i może być używana przez inne aplikacje na potrzeby ich obciążeń interakcyjnych.

Analizowanie dowolnych danych w dowolnym rozmiarze bez konieczności wprowadzania zmian przy wzroście rozmiaru danych

Aby umożliwić działanie platformy Spark w wybranej skali, zintegrowaliśmy ją z usługą Azure Data Lake — magazyn. Integracja jest dostępna wyłącznie dla produktu firmy Microsoft, dzięki czemu platforma Spark umożliwia przechowywanie i przetwarzanie danych skalowanych do dowolnego rozmiaru bez konieczności wprowadzania zmian w aplikacji wraz ze wzrostem ilości danych. Ponadto ta integracja pozwala na implementowanie kontroli dostępu do danych opartej na rolach na poziomie magazynu.

Przetwarzanie w czasie rzeczywistym dla scenariuszy w czasie rzeczywistym

Dzisiejszy, połączony świat jest definiowany przez duże zestawy danych dostarczanych w czasie rzeczywistym. Usługa Spark Stream dla usługi HDInsight nadaje się doskonale do użytku w wymagających scenariuszach w czasie rzeczywistym. Pozwala ona skorzystać z różnych scenariuszy, w tym związanych z Internetem rzeczy (IoT), takich jak zdalne zarządzanie i monitorowanie lub uzyskiwanie szczegółowych informacji z urządzeń, na przykład telefonów komórkowych lub samochodów połączonych z siecią komputerową.

Łatwa konfiguracja, szybkie uzyskiwanie wyników

Platforma Spark dla usługi HDInsight nie wymaga czasochłonnej instalacji lub konfiguracji. Zajmuje się tym system Azure. Umożliwia rozpoczęcie pracy w kilka minut i wdrażanie platformy Spark w chmurze bez kupowania nowego sprzętu i ponoszenia innych kosztów z góry.

Elastyczna wydajność umożliwiająca obsługę danych big data

Platforma Spark dla usługi HDInsight wykorzystuje możliwości chmury platformy Azure, ułatwiając tworzenie klastrów dowolnego rozmiaru w celu przetwarzania dowolnej ilości danych na żądanie. Opłaty są naliczane tylko za rzeczywiście wykorzystywane zasoby obliczeniowe i magazynowe.

Wypróbuj bezpłatnie usługę HDInsight