Przejdź do głównej zawartości

Co to jest data lake?

Dowiedz się więcej o różnicach między data lake i magazynami danych. Dowiedz się, jak utworzyć skalowalną podstawę dla wszystkich analiz na platformie Azure.

Definicja usługi Data Lake

Ten przewodnik wprowadzający przedstawia wiele korzyści i przypadków użycia data lake. Dowiedz się, co to jest magazyn typu data lake, dlaczego jest ważny i czym różni się od magazynu danych. Najpierw jednak zdefiniujmy data lake jako termin.

Data lake to centralne repozytorium, które pozyskuje i przechowuje duże woluminy danych w oryginalnej postaci. Dane mogą być następnie przetwarzane i używane jako podstawa dla różnych potrzeb analitycznych. Ze względu na otwartą skalowalną architekturę data lake może pomieścić wszystkie typy danych z dowolnego źródła, od ustrukturyzowanych (tabel bazy danych, arkuszy programu Excel), przez częściowo ustrukturyzowane (pliki XML, strony internetowe) do tych bez struktury (obrazy, pliki dźwiękowe, tweety), a wszystko to bez obniżania wierności. Pliki danych są zazwyczaj przechowywane w przygotowanych strefach (nieprzetworzone, oczyszczone i wyselekcjonowane), dzięki czemu różne typy użytkowników mogą używać danych w różnych formularzach, aby spełnić ich potrzeby. Magazyny data lake zapewniają spójność podstawowych danych w różnych aplikacjach, zasilając analizę danych big data, uczenie maszynowe, analizę predykcyjną i inne formy inteligentnych akcji.

Dlaczego magazyny typu data lake są ważne dla firm?

Dzisiejszy wysoce połączony świat oparty na szczegółowych informacjach nie byłby możliwy bez rozwiązań typu data lake. Dzieje się tak, ponieważ organizacje korzystają z kompleksowych platform data lake, takich jak Azure Data Lake, które zapewniają konsolidację, integrację, bezpieczeństwo i dostępność danych pierwotnych. Skalowalne narzędzia magazynu, takie jak Azure Data Lake Storage, mogą przechowywać i chronić dane w jednym miejscu centralnym, eliminując silosy przy optymalnych kosztach. Stanowi to podstawę dla użytkowników do wykonywania szerokiej gamy kategorii obciążeń, takich jak przetwarzanie danych big data, zapytania SQL, wyszukiwanie tekstu, analiza przesyłania strumieniowego i uczenie maszynowe. Następnie dane te można wykorzystać do przesyłania strumieniowego wizualizacji danych i potrzeb raportowania ad hoc. Nowoczesna, kompleksowa platforma danych, taka jak Azure Synapse Analytics, zaspokaja wszystkie potrzeby architektury danych big data skupionych wokół data lake.

Przypadki użycia usługi Data Lake

Dzięki dobrze zaprojektowanemu rozwiązaniu potencjał innowacji jest nieograniczony. Oto tylko kilka przykładów na to, jak organizacje z różnych branż wykorzystują platformy typu data lake do optymalizacji swojego rozwoju:

  • Przesyłanie strumieniowe multimediów. Firmy streamujące oparte na subskrypcji zbierają i przetwarzają szczegółowe informacje o zachowaniu klientów, których mogą używać do ulepszania algorytmu rekomendacji.
  • Finanse. Firmy inwestycyjne używają najbardziej aktualnych danych rynkowych, które są zbierane i przechowywane w czasie rzeczywistym, w celu efektywnego zarządzania ryzykiem portfela.
  • Opieka zdrowotna. Organizacje opieki zdrowotnej korzystają z danych big data w celu poprawy jakości opieki nad pacjentami. Szpitale używają dużych ilości danych historycznych w celu usprawniania ścieżek pacjentów, co powoduje lepsze wyniki i obniżone koszty opieki.
  • Sprzedawca detaliczny wielokanałowy. Sprzedawcy detaliczni używają magazynów data lake do przechwytywania i konsolidowania danych pochodzących z wielu punktów dotykowych, w tym urządzeń przenośnych, serwisów społecznościowych, czatów, przekazów ustnych i osobistych.
  • IoT. Czujniki sprzętowe generują duże ilości danych częściowo ustrukturyzowanych i tych bez struktury w otaczającym go świecie fizycznym. Magazyny data lake udostępniają centralne repozytorium, w którym te informacje mają być analizowane w przyszłości.
  • Cyfrowy łańcuch dostaw. Usługa Data Lake ułatwia producentom konsolidowanie różnych danych magazynowych, w tym systemów EDI, XML i JSON.
  • Sprzedaż. Badacze danych i inżynierowie sprzedaży często tworzą modele predykcyjne, aby pomóc w określeniu zachowania klientów i zmniejszeniu ogólnego współczynnika rezygnacji.

Usługa Data Lake a magazyn danych

Teraz wiesz, co to jest magazyn data lake, dlaczego jest ważny i jak jest używany w różnych organizacjach. Jaka jest różnica między magazynem data lake a magazynem danych? I kiedy należy używać jednego z nich zamiast drugiego?

Pomimo iż magazyny data lake i magazyny danych są podobne, ponieważ zarówno przechowują, jak i przetwarzają dane, to każdy z nich ma własne specjalizacje, a więc własne przypadki użycia. Dlatego często organizacja na poziomie przedsiębiorstwa uwzględnia data lake i magazyny danych w ekosystemie analiz. Oba repozytoria współpracują w celu utworzenia bezpiecznego, kompleksowego systemu do magazynowania, przetwarzania i szybszego pozyskiwania szczegółowych informacji.

Usługa Data Lake przechwytuje dane relacyjne i nierelacyjne z różnych źródeł — aplikacji biznesowych, aplikacji mobilnych, urządzeń IoT, mediów społecznościowych lub przesyłania strumieniowego — bez konieczności definiowania struktury lub schematu danych do czasu ich odczytania. Funkcja schematu podczas odczytu zapewnia, że dane dowolnego typu mogą być przechowywane w postaci nieprzetworzonej. W rezultacie magazyny data lake mogą przechowywać szeroką gamę typów danych, od ustrukturyzowanych przez częściowo ustrukturyzowane do tych bez struktury, na dowolną skalę. Ich elastyczny i skalowalny charakter ułatwia wykonywanie złożonych form analizy danych przy użyciu różnych typów narzędzi przetwarzania obliczeniowego, takich jak Apache Spark lub Azure Machine Learning.

Natomiast magazyn danych ma charakter relacyjny. Struktura lub schemat są modelowane lub wstępnie zdefiniowane według wymagań biznesowych i produktów, które są wyselekcjonowane, zgodne i zoptymalizowane pod kątem operacji zapytań SQL. Podczas gdy magazyny data lake przechowują dane wszystkich typów struktur, w tym danych pierwotnych i nieprzetworzonych, magazyn danych przechowuje dane, które zostały potraktowane i przekształcone z uwzględnieniem określonego celu, który następnie może być używany do raportowania analitycznego lub operacyjnego. Dzięki temu magazyny danych są idealne do tworzenia bardziej standaryzowanych form analizy biznesowej lub do obsługi przypadku użycia biznesowego, który został już zdefiniowany.

Niedostępne Data Lake Magazyn danych
Typ Ustrukturyzowane, częściowo ustrukturyzowane, bez struktury Ustrukturyzowane
Niedostępne Relacyjne, nierelacyjne Relacyjne
Schemat Schemat podczas odczytu Schemat przy zapisie
Format Pierwotne, nieprzefiltrowane Przetworzone, sprawdzone
Źródła Dane big data, IoT, media społecznościowe, przesyłanie strumieniowe danych Aplikacja, biznes, dane transakcyjne, raportowanie wsadowe
Skalowalność Łatwe skalowanie przy niskim koszcie Trudne i kosztowne do skalowania
Użytkownicy Badacze danych, inżynierowie danych Specjaliści magazynu danych, analitycy biznesowi
Przypadki użycia Uczenie maszynowe, analiza predykcyjna, analiza w czasie rzeczywistym Podstawowe raportowanie, BI

Repozytorium data lake a magazyn data lakehouse

Teraz już znasz różnicę między data lake a magazynem danych. Ale jaka jest różnica między data lake a magazynem data lakehouse? I czy trzeba mieć oba?

Mimo wielu zalet tradycyjny data lake nie jest bez swoich wad. Ponieważ magazyny data lake mogą pomieścić wszystkie typy danych ze wszystkich rodzajów źródeł, mogą wystąpić problemy związane z kontrolą jakości, uszkodzeniem danych i nieprawidłowym partycjonowaniem. Źle zarządzany magazyn data lake nie tylko obniża integralność danych, ale może także prowadzić do wąskich gardeł, wolnej wydajności i zagrożeń bezpieczeństwa.

W tym miejscu do gry wkracza magazyn data lakehouse. Magazyn data lakehouse to otwarte rozwiązanie magazynu oparte na standardach, które ma charakter wieloaspektowy. Może zaspokajać potrzeby badaczy danych i inżynierów przeprowadzających szczegółową analizę i przetwarzanie danych, a także potrzeby tradycyjnych specjalistów ds. magazynu danych, którzy opiekują się danymi i publikują je na potrzeby analiz biznesowych i raportowania. Piękno magazynu data lakehouse polega na tym, że każde obciążenie może bezproblemowo działać na data lake bez konieczności duplikowania danych do innej strukturalnie wstępnie zdefiniowanej bazy danych. Zapewnia to, że wszyscy pracują nad najbardziej aktualnymi danymi, jednocześnie zmniejszając nadmiarowość.

Magazyny danych lakehouse odnoszą się do wyzwań tradycyjnych magazynów typu data lake, dodając warstwę magazynu Delta Lake bezpośrednio na data lake w chmurze. Warstwa magazynu udostępnia elastyczną architekturę analityczną, która może obsługiwać transakcje ACID (atomowość, spójność, izolacja i trwałość) na potrzeby niezawodności danych, integracji przesyłania strumieniowego i zaawansowanych funkcji, takich jak przechowywanie wersji danych i wymuszanie schematu. Pozwala to na zakres działań analitycznych nad magazynem lake, a wszystko to bez obniżania spójności podstawowych danych. Chociaż wymaganie magazynu danych lakehouse zależy od tego, jak złożone są Twoje potrzeby, jej elastyczność i zakres sprawiają, że jest to optymalne rozwiązanie dla wielu organizacji w przedsiębiorstwach.

Niedostępne Data Lake Magazyn danych lakehouse
Typ Ustrukturyzowane, częściowo ustrukturyzowane, bez struktury Ustrukturyzowane, częściowo ustrukturyzowane, bez struktury
Niedostępne Relacyjne, nierelacyjne Relacyjne, nierelacyjne
Schemat Schemat podczas odczytu Schemat podczas odczytu, schemat przy zapisie
Format Nieprzetworzone, nieprzefiltrowane, przetworzone, wyselekcjonowane Pierwotne, nieprzefiltrowane, przetworzone, wyselekcjonowane, pliki w formacie delta
Źródła Dane big data, IoT, media społecznościowe, przesyłanie strumieniowe danych Dane big data, IoT, media społecznościowe, przesyłanie strumieniowe danych, aplikacja, biznes, dane transakcyjne, raportowanie wsadowe
Skalowalność Łatwe skalowanie przy niskim koszcie Łatwe skalowanie przy niskim koszcie
Użytkownicy Badacze danych Analitycy biznesowi, inżynierowie danych, badacze danych
Przypadki użycia Uczenie maszynowe, analiza predykcyjna Podstawowe raportowanie, BI, uczenie maszynowe, analiza predykcyjna

Co to jest architektura data lake?

Podstawowa data lake to repozytorium magazynu bez własnej architektury zestawu. Aby w pełni wykorzystać swoje możliwości, wymaga ona szerokiej gamy narzędzi, technologii i aparatów obliczeniowych, które pomagają zoptymalizować integrację, przechowywanie i przetwarzanie danych. Te narzędzia współpracują w celu utworzenia spójnie warstwowej architektury, która jest informowana przez dane big data i działa na data lake. Ta architektura może również tworzyć strukturę operacyjną magazynu danych lakehouse. Każda organizacja ma własną unikatową konfigurację, ale większość architektur magazynu danych lakehouse zawiera następujące funkcje:

  • Zarządzanie zasobami i orkiestracja. Menedżer zasobów umożliwia data lake spójne wykonywanie zadań przez przydzielenie odpowiedniej ilości danych, zasobów i mocy obliczeniowej do odpowiednich miejsc.
  • Łączniki zapewniające łatwy dostęp. Różnorodne przepływy pracy umożliwiają użytkownikom łatwy dostęp do potrzebnych im danych w wymaganej formie i udostępnianie ich.
  • Rzetelna analiza. Dobra usługa analizy powinna być szybka, skalowalna i rozproszona. Powinna także obsługiwać zróżnicowany zakres kategorii obciążeń w wielu językach.
  • Klasyfikacja danych. Profilowanie, katalogowanie i archiwizowanie danych ułatwia organizacjom śledzenie zawartości danych, ich jakości, lokalizacji i historii.
  • Procesy wyodrębniania, ładowania, przekształcania (ELT). ELT odwołuje się do procesów, przez które dane są wyodrębniane z wielu źródeł i ładowane do nieprzetworzonej strefy data lake, a następnie oczyszczane i przekształcane po wyodrębnieniu, aby aplikacje mogły je łatwo używać.
  • Zabezpieczenia i wsparcie. Narzędzia do ochrony danych, takie jak maskowanie, inspekcja, szyfrowanie i monitorowanie dostępu, zapewniają, że dane pozostaną bezpieczne i prywatne.
  • Ład i zarządzanie. Aby platforma data lake działała tak bezproblemowo, jak to możliwe, użytkownicy powinni być informowani o konfiguracji architektury oraz najlepszych rozwiązaniach dotyczących zarządzania danymi i operacjami.

Często zadawane pytania

  • Data lake to scentralizowane repozytorium, które pozyskuje, przechowuje i umożliwia przetwarzanie dużych woluminów danych w oryginalnej postaci. Może pomieścić wszystkie typy danych, które następnie są używane do wspomagania analizy danych big data, uczenia maszynowego i innych form inteligentnych akcji.

    Dowiedz się więcej o magazynach danych typu data lake

  • Organizacje z różnych branż, w tym handlu detalicznego, finansów i rozrywki, używają platform repozytoriów data lake do przechowywania danych, zbierania szczegółowych informacji i poprawiania ogólnej jakości swoich usług. Na przykład firmy inwestycyjne używają repozytoriów data lake do zbierania i przetwarzania danych rynkowych, co pozwala im efektywniej zarządzać ryzykiem portfelowym.
  • Magazyny data lake przechowują wszystkie typy danych pierwotnych, które mogą być następnie używane przez badaczy danych dla różnych projektów. Magazyny danych przechowują oczyszczone i przetworzone dane, które następnie mogą być używane do raportowania analitycznego lub operacyjnego, a także konkretnych przypadków użycia analizy biznesowej.

    Poznaj usługę data lake w stosunku do magazynów danych

  • Magazyn data lakehouse łączy elementy data lake i magazynu danych w celu utworzenia elastycznego, kompleksowego rozwiązania na potrzeby nauki o danychi analizy biznesowej.

    Dowiedz się więcej o magazynach data lakehouse

  • Bezwzględnie. Główne organizacje we wszystkich branżach korzystają z dużych ilości danych przechowywanych w magazynach data lake, aby wspomagać inteligentne działania, uzyskiwać szczegółowe informacje i rozwijać się.

    Odkryj korzyści z magazynów data lake

  • Zarządzanie dużymi woluminami danych, w tym danych pierwotnych i bez struktury, może być trudne, co prowadzi do wąskich gardeł, uszkodzenia danych, problemów z kontrolą jakości i problemów z wydajnością. Dlatego ważne jest, aby zachować dobry ład i praktyki zarządcze, aby ułatwić Ci bezproblemowe uruchamianie platformy repozytorium data lake.
  • Architektura data lake odnosi się do konkretnej konfiguracji narzędzi i technologii, która pomagają w utrzymaniu integracji, dostępności, organizacji i bezpieczeństwa danych z magazynów data lake.

    Poznaj najlepsze rozwiązania dotyczące architektury data lake

Bezpłatne konto

Wypróbuj bezpłatnie usługi Azure Przetwarzanie w chmurze przez maksymalnie 30 dni.

Płatność zgodnie z rzeczywistym użyciem

Rozpocznij pracę z cennikiem płatności zgodnie z rzeczywistym użyciem. Nie ma żadnych zobowiązań z góry — w każdej chwili możesz anulować.