Co to jest magazyn typu data lake?

Dowiedz się więcej o różnicach między magazynami typu data lake i magazynami danych. Dowiedz się, jak utworzyć skalowalną podstawę dla wszystkich analiz na platformie Azure.

Definicja magazynu typu data lake

W tym przewodniku wprowadzającym przedstawiono wiele korzyści i przypadków użycia magazynu typu data lake. Dowiedz się, co to jest magazyn typu data lake, dlaczego jest ważny, i odkryj różnicę między magazynami typu data lake i magazynami danych. Najpierw zdefiniujmy magazyn typu data lake jako termin.

Magazyn typu data lake to scentralizowane repozytorium, które pozyskuje i przechowuje duże ilości danych w oryginalnej postaci. Dane mogą być następnie przetwarzane i używane jako podstawa dla różnych potrzeb analitycznych. Ze względu na otwartą, skalowalną architekturę magazyn typu data lake może obsłużyć wszystkie typy danych z dowolnego źródła, od ustrukturyzowanych (tabel bazy danych, arkuszy programu Excel) po częściowo ustrukturyzowane (pliki XML, strony internetowe) do takich bez struktury (obrazy, pliki dźwiękowe, tweety), a wszystko to bez poświęcania wierności. Pliki danych są zwykle przechowywane w przygotowanych strefach, nieprzetworzonych, oczyszczonych i nadzorowanych, dzięki czemu różne typy użytkowników mogą korzystać z danych w różnych formach w celu spełnienia swoich potrzeb. Magazyny typu data lake zapewniają spójność podstawowych danych w różnych aplikacjach, obsługując analizę danych big data, uczenia maszynowego, analizę predykcyjną i inne formy inteligentnych działań.

Dlaczego magazyny typu data lake są ważne dla firm?

Dzisiejszy, wysoce połączony świat oparty na szczegółowych informacjach nie byłby możliwy bez pojawienia się rozwiązań data lake. Dzieje się tak, ponieważ organizacje polegają na kompleksowych platformach typu data lake, takich jak usługa Azure Data Lake, aby zapewnić skonsolidowane, zintegrowane, bezpieczne i dostępne dane pierwotne. Skalowalne narzędzia magazynu, takie jak usługa Azure Data Lake Storage, mogą przechowywać i chronić dane w jednym centralnym miejscu, eliminując silosy przy optymalnych kosztach. Stanowi to podstawę dla użytkowników do wykonywania wielu różnych kategorii obciążeń, takich jak przetwarzanie danych big data, zapytania SQL, wyszukiwanie tekstu, analiza przesyłania strumieniowego i uczenie maszynowe. Dane mogą być następnie używane do przesyłania strumieniowych wizualizacji danych i raportowania potrzeb ad hoc. Nowoczesna, kompleksowa platforma danych, taka jak Azure Synapse Analytics, zaspokaja pełne potrzeby architektury danych big data skoncentrowanej wokół magazynu typu data lake.

Przypadki użycia magazynu typu data lake

Dzięki dobrze zaprojektowanej architekturze potencjał innowacji jest nieograniczony. Oto kilka przykładów tego, jak organizacje w różnych branżach wykorzystują platformy typu data lake do optymalizacji swojego rozwoju:

Multimedia przesyłania strumieniowego. Firmy zajmujące się przesyłaniem strumieniowym oparte na subskrypcji zbierają i przetwarzają szczegółowe informacje o zachowaniu klientów, których mogą używać do ulepszania algorytmu rekomendacji.
Finanse. Firmy inwestycyjne korzystają z najbardziej aktualnych danych rynkowych, które są zbierane i przechowywane w czasie rzeczywistym, aby efektywnie zarządzać ryzykiem portfelowym.
Opieka zdrowotna. Organizacje opieki zdrowotnej polegają na danych big data w celu poprawy jakości opieki nad pacjentami. Szpitale wykorzystują ogromne ilości danych historycznych, aby usprawnić ścieżki pacjentów, co zapewnia lepsze wyniki i obniża koszty opieki.
Sprzedawca detaliczny wielokanałowy. Sprzedawcy detaliczni używają magazynów typu data lake do przechwytywania i konsolidowania danych pochodzących z wielu punktów dotykowych, w tym mobilnych, społecznościowych, czatu, przekazu ustnego i osobiście.
IoT. Czujniki sprzętowe generują ogromne ilości częściowo ustrukturyzowanych danych i danych bez struktury w otaczającym świecie fizycznym. Magazyny typu data lake zapewniają centralne repozytorium, w którym te informacje będą przechowywane na potrzeby przyszłej analizy.
Cyfrowy łańcuch dostaw. Magazyny typu data lake pomagają producentom konsolidować różne dane magazynowania, w tym systemy EDI, XML i JSON.
Sprzedaż. Analitycy danych i inżynierowie sprzedaży często tworzą modele predykcyjne, aby pomóc w określeniu zachowania klientów i zmniejszeniu ogólnego współczynnika rezygnacji.

Magazyn typu data lake a magazyn danych

Teraz wiesz, co to jest magazyn typu data lake, dlaczego jest ważny i jak jest używany w różnych organizacjach. Jaka jest jednak różnica między magazynem typu data lake a magazynem danych? A kiedy warto używać jednego zamiast drugiego?

Chociaż magazyny danych typu data lake i magazyny danych są podobne, ponieważ przechowują i przetwarzają dane, każdy z nich ma własne specjalizacje, a zatem własne przypadki użycia. Dlatego organizacja na poziomie przedsiębiorstwa często uwzględnia magazyn typu data lake i magazyn danych w ekosystemie analitycznym. Oba repozytoria współpracują ze sobą w celu utworzenia bezpiecznego, kompleksowego systemu magazynowania, przetwarzania i szybszego czasu uzyskiwania szczegółowych informacji.

Magazyn typu data lake przechwytuje zarówno dane relacyjne, jak i nierelacyjne z różnych źródeł, aplikacji biznesowych, aplikacji mobilnych, urządzeń IoT, mediów społecznościowych lub przesyłania strumieniowego, bez konieczności definiowania struktury lub schematu danych do momentu ich odczytania. Funkcja schemat przy odczycie zapewnia, że każdy typ danych może być przechowywany w postaci nieprzetworzonej. W związku z tym magazyny typu data lake mogą przechowywać różne typy danych, od ustrukturyzowanych po częściowo ustrukturyzowane i bez struktury, w dowolnej skali. Ich elastyczny i skalowalny charakter sprawia, że są one niezbędne do wykonywania złożonych form analizy danych przy użyciu różnych typów narzędzi przetwarzania obliczeniowego, takich jak Apache Spark lub Azure Machine Learning.

Z kolei magazyn danych ma charakter relacyjny. Struktura lub schemat jest modelowany lub wstępnie zdefiniowany według wymagań biznesowych i produktów, które są nadzorowane, zgodne i zoptymalizowane pod kątem operacji zapytań SQL. Magazyn typu data lake przechowuje dane wszystkich typów struktur, w tym danych pierwotnych i nieprzetworzonych, ale magazyn danych przechowuje dane, które zostały potraktowane i przekształcone z myślą o konkretnym celu, który następnie może służyć do tworzenia analiz lub raportowania operacyjnego. Dzięki temu magazyny danych idealnie nadają się do tworzenia bardziej ustandaryzowanych form analizy biznesowej lub do obsługi już zdefiniowanego przypadku użycia biznesowego.

	Magazyn typu data lake	Magazyn danych
Typ	Dane ustrukturyzowane, częściowo ustrukturyzowane i bez struktury	Ustrukturyzowane
	Relacyjne, nierelacyjne	Relacyjne
Schemat	Schemat przy odczycie	Schemat przy zapisie
Format	Pierwotne, niefiltrowane	Przetworzone, sprawdzone
Źródła	Dane big data, IoT, media społecznościowe, dane przesyłane strumieniowo	Aplikacja, firma, dane transakcyjne, raportowanie zbiorcze
Skalowalność	Łatwe skalowanie przy niskich kosztach	Trudne i drogie do skalowania
Użytkownicy	Badacze danych, inżynierowie danych	Specjaliści ds. magazynu danych, analitycy biznesowi
Przypadki użycia	Uczenie maszynowe, analiza predykcyjna, analiza w czasie rzeczywistym	Podstawowe raportowanie, analiza biznesowa

Magazyn typu data lake a magazyn data lakehouse

Teraz znasz różnicę między magazynem typu data lake a magazynem danych. Jaka jest jednak różnica między magazynem typu data lake a magazynem data lakehouse? I czy trzeba mieć oba?

Pomimo wielu zalet tradycyjny magazyn typu data lake nie jest bez wad. Ponieważ magazyny typu data lake mogą obsłużyć wszystkie typy danych ze wszystkich rodzajów źródeł, mogą wystąpić problemy związane z kontrolą jakości, uszkodzeniem danych i nieprawidłowym partycjonowaniem. Źle zarządzany magazyn typu data lake nie tylko pogarsza integralność danych, ale może również prowadzić do wąskich gardeł, niskiej wydajności i zagrożeń bezpieczeństwa.

W tym miejscu wchodzi w grę magazyn data lakehouse. Magazyn data lakehouse to otwarte, oparte na standardach rozwiązanie magazynu, które ma charakter wieloaspektowy. Może ona zaspokoić potrzeby analityków danych i inżynierów przeprowadzających szczegółową analizę i przetwarzanie danych, a także potrzeby tradycyjnych specjalistów ds. magazynu danych, którzy nadzorują i publikują dane na potrzeby analizy biznesowej i raportowania. Zaletą magazynu lakehouse jest to, że każde obciążenie może bezproblemowo działać w oparciu o magazyn typu data lake bez konieczności duplikowania danych do innej strukturalnie wstępnie zdefiniowanej bazy danych. Dzięki temu wszyscy pracują nad najbardziej aktualnymi danymi, jednocześnie zmniejszając nadmiarowość.

Magazyny data lakehouse rozwiązują problemy tradycyjnych magazynów typu data lake, dodając warstwę magazynu usługi Delta Lake bezpośrednio w oparciu o magazyn typu data lake w chmurze. Warstwa magazynu zapewnia elastyczną architekturę analityczną, która może obsługiwać transakcje ACID (niepodzielność, spójność, izolacja i trwałość) na potrzeby niezawodności danych, integracji przesyłania strumieniowego i zaawansowanych funkcji, takich jak przechowywanie wersji danych i wymuszanie schematu. Pozwala to na szereg działań analitycznych nad magazynem lake, a wszystko to bez naruszania spójności podstawowych danych. Chociaż konieczność magazynu lakehouse zależy od tego, jak złożone są Twoje potrzeby, jego elastyczność i zakres sprawiają, że jest to optymalne rozwiązanie dla wielu organizacji przedsiębiorstw.

	Magazyn typu data lake	Magazyn data lakehouse
Typ	Dane ustrukturyzowane, częściowo ustrukturyzowane i bez struktury	Dane ustrukturyzowane, częściowo ustrukturyzowane i bez struktury
	Relacyjne, nierelacyjne	Relacyjne, nierelacyjne
Schemat	Schemat przy odczycie	Schemat przy odczycie, schemat przy zapisie
Format	Nieprzetworzone, niefiltrowane, przetworzone, nadzorowane	Nieprzetworzone, niefiltrowane, przetworzone, nadzorowane, pliki w formacie delta
Źródła	Dane big data, IoT, media społecznościowe, dane przesyłane strumieniowo	Dane big data, IoT, media społecznościowe, dane przesyłane strumieniowo, aplikacja, firma, dane transakcyjne, raportowanie zbiorcze
Skalowalność	Łatwe skalowanie przy niskich kosztach	Łatwe skalowanie przy niskich kosztach
Użytkownicy	Badacze danych	Analitycy biznesowi, inżynierowie danych, analitycy danych
Przypadki użycia	Uczenie maszynowe, analiza predykcyjna	Podstawowe raporty, analiza biznesowa, uczenie maszynowe, analiza predykcyjna

Co to jest architektura magazynu typu data lake?

W swojej głównej części magazyn typu data lake to repozytorium magazynu bez własnej ustawionej architektury. Aby maksymalnie wykorzystać swoje możliwości, wymaga szerokiego zakresu narzędzi, technologii i aparatów obliczeniowych, które pomagają zoptymalizować integrację, przechowywanie i przetwarzanie danych. Te narzędzia współpracują ze sobą w celu utworzenia spójnie warstwowej architektury, która jest informowana przez dane big data i działa w oparciu o magazyn data lake. Ta architektura może również stanowić strukturę operacyjną magazynu data lakehouse. Każda organizacja ma własną unikatową konfigurację, ale większość architektur magazynu data lakehouse oferuje następujące funkcje:

Zarządzania zasobami i aranżacja. Menedżer zasobów umożliwia magazynowi typu data lake spójne wykonywanie zadań przez przydzielanie odpowiedniej ilości danych, zasobów i mocy obliczeniowej do odpowiednich miejsc.
Łączniki umożliwiające łatwy dostęp. Różne przepływy pracy umożliwiają użytkownikom łatwy dostęp do potrzebnych im danych i udostępnianie ich w postaci, w jakiej ich potrzebują.
Niezawodne analizy. Dobra usługa analityczna powinna być szybka, skalowalna i rozproszona. Powinna również obsługiwać różne kategorie obciążeń w wielu językach.
Klasyfikacja danych. Profilowanie, katalogowanie i archiwizowanie danych ułatwia organizacjom śledzenie zawartości danych, jakości, lokalizacji i historii.
Procesy wyodrębniania, ładowania, przekształcania (ELT). ELT odnosi się do procesów, za pomocą których dane są wyodrębniane z wielu źródeł i ładowane do nieprzetworzonej strefy magazynu typu data lake, a następnie czyszczone i przekształcane po wyodrębnieniu, aby aplikacje mogły z nich łatwo korzystać.
Zabezpieczenia i pomoc techniczna. Narzędzia ochrony danych, takie jak maskowanie, inspekcja, szyfrowanie i monitorowanie dostępu, zapewniają, że dane pozostają bezpieczne i prywatne.
Ład i zarządzanie. Aby platforma data lake działała tak płynnie, jak to tylko możliwe, użytkownicy powinni zostać przeszkoleni w zakresie jej konfiguracji architektonicznej, a także najlepszych praktyk w zakresie zarządzania danymi i operacjami.

Dodatkowe zasoby

Często zadawane pytania

Magazyn typu data lake to scentralizowane repozytorium, które pozyskuje, przechowuje i umożliwia przetwarzanie dużych ilości danych w oryginalnej postaci. Może ona obsługiwać wszystkie typy danych, które są następnie używane do obsługi analizy danych big data, uczenia maszynowego i innych form inteligentnych działań.

Dowiedz się więcej na temat magazynów typu data lake
Organizacje z różnych branż, w tym handlu detalicznego, finansów i rozrywki, używają platform data lake do przechowywania danych, zbierania szczegółowych informacji i poprawiania ogólnej jakości swoich usług. Na przykład firmy z branży inwestycyjnej używają magazynów typu data lake do zbierania i przetwarzania danych na rynek, co pozwala im efektywniej zarządzać ryzykiem portfelowym.
Magazyny typu data lake przechowują wszystkie typy danych pierwotnych, których analitycy danych mogą następnie używać w różnych projektach. Magazyny danych przechowują oczyszczone i przetworzone dane, które następnie mogą być używane do tworzenia raportów analitycznych lub operacyjnych, a także określonych przypadków użycia analizy biznesowej.

Eksplorowanie magazynów typu data lake a magazynów danych
Magazyn data lakehouse łączy elementy magazynu typu data lake i magazynu danych w celu utworzenia elastycznego, kompleksowego rozwiązania do nauki o danych i analizy biznesowej.

Dowiedz się więcej o magazynach data lakehouse
Oczywiście. Główne organizacje we wszystkich branżach polegają na ogromnych ilościach danych przechowywanych w magazynach typu data lake, aby obsługiwać inteligentne działania, uzyskiwać szczegółowe informacje i rozwijać się.

Odkryj zalety magazynów typu data lake
Zarządzanie dużymi ilościami danych, w tym danych pierwotnych i bez struktury, może być trudne, co prowadzi do wąskich gardeł, uszkodzenia danych, problemów z kontrolą jakości i problemów z wydajnością. Dlatego ważne jest, aby zachować dobry ład i praktyki zarządcze, aby ułatwić bezproblemowe uruchamianie platformy data lake.
Architektura magazynu typu data lake odnosi się do konkretnej konfiguracji narzędzi i technologii, które pomagają utrzymać dane z magazynu typu data lake zintegrowane, dostępne, zorganizowane i bezpieczne.

Eksplorowanie najlepszych rozwiązań dotyczących architektury magazynów typu data lake

Bezpłatne konto

Testuj bezpłatnie usługi przetwarzania w chmurze na platformie Azure przez maksymalnie 30 dni.

Wypróbuj bezpłatnie platformę Azure

Płatność zgodnie z rzeczywistym użyciem

Zacznij pracę, korzystając z cennika opartego na płatnościach zgodnie z rzeczywistym użyciem. Nie ma żadnych zobowiązań z góry — możesz zrezygnować w dowolnym momencie.

Zapoznaj się z płatnością zgodnie z rzeczywistym użyciem

Co to jest magazyn typu data lake?

Definicja magazynu typu data lake

Dlaczego magazyny typu data lake są ważne dla firm?

Przypadki użycia magazynu typu data lake

Magazyn typu data lake a magazyn danych

Magazyn typu data lake a magazyn data lakehouse

Co to jest architektura magazynu typu data lake?

Dodatkowe zasoby

Informacje

Pomysły na rozwiązania

Przewodniki

Seminaria internetowe

Często zadawane pytania