Co to jest magazyn danych?
Zacznijmy od zdefiniowania, czym jest magazyn danych i dlaczego warto korzystać z niego w organizacji.
Magazyn danych to scentralizowane repozytorium, które przechowuje ustrukturyzowane dane (tabele bazy danych, arkusze programu Excel) i częściowo ustrukturyzowane dane (pliki XML, strony internetowe) na potrzeby raportowania i analiz. Dane przepływają z różnych źródeł, takich jak systemy punktów sprzedaży, aplikacje biznesowe i relacyjne bazy danych, i zanim trafią do magazynu, są zazwyczaj czyszczone i standaryzowane. Ponieważ magazyn danych może przechowywać duże ilości informacji, zapewnia użytkownikom łatwy dostęp do wielu danych historycznych, których można używać do wyszukiwania i wizualizacji danych oraz innych form raportowania w analizie biznesowej.
Korzyści z magazynu danych
Niezawodny dostęp do danych, szczególnie gdy dane są gromadzone w miarę upływu czasu, pomaga użytkownikom podejmować trafniejsze i bardziej świadome decyzje co do sposobu kierowania organizacją. Jest on możliwy właśnie dzięki magazynom danych. Nie sposób wymienić wszystkich zalet stosowania magazynów danych w przedsiębiorstwie, ale najważniejsze z nich obejmują:
-
Konsolidowanie danych z wielu źródeł w jedno źródło prawdy
-
Przechowywanie i analizowanie długoterminowych danych historycznych obejmujących miesiące i lata
-
Oczyszczanie i transformowanie danych w taki sposób, aby były dokładne, spójne i ustandaryzowane w strukturze i formie
-
Skracanie czasu wykonywania zapytań przy zbieraniu danych i przetwarzaniu analiz, co poprawia ogólną wydajność różnych systemów
-
Wydajne ładowanie danych bez konieczności ponoszenia kosztów wdrożenia lub infrastruktury
-
Zabezpieczanie danych w taki sposób, aby były prywatne, chronione i bezpieczne
-
Przygotowywanie danych pod kątem analizy za pośrednictwem wyszukiwania danych, narzędzi do wizualizacji i innych form zaawansowanej analizy
Porównanie magazynu danych z magazynem data lake
Jest oczywiste, że magazyny danych są niezbędne do wykonywania operacji analitycznych w każdej organizacji. Jaka jest jednak różnica między magazynem danych a innymi typami repozytoriów danych, takimi jak magazyn typu data lake? I kiedy jeden ma przewagę nad drugim?
Jako repozytoria, magazyny danych oraz magazyny typu data lake przechowują i przetwarzają dane. Jednak mimo tego, że z pozoru mogą oferować te same funkcje, każdy z nich ma własne przypadki użycia. Dlatego organizacje często wdrażają oba systemy, tworząc w ten sposób kompleksowe rozwiązanie o szerokim zakresie zastosowań.
Magazyn danych ma charakter relacyjny. Oznacza to, że struktura lub schemat danych zależy od wstępnie zdefiniowanych wymagań firmy i produktu, które są nadzorowane oraz dopasowane i zoptymalizowane pod kątem operacji zapytań SQL. W związku z tym magazyny danych najlepiej nadają się do przechowywania danych przetworzonych pod kątem konkretnego zastosowania, takiego jak wyszukiwanie danych na potrzeby analizy biznesowej lub pozyskiwanie danych dla już zidentyfikowanego biznesowego przypadku użycia.
Podobnie jak magazyny danych, magazyny typu data lake przechowują dane ustrukturyzowane i częściowo ustrukturyzowane. Mogą też jednak obsługiwać pierwotne i nieprzetworzone dane z różnych źródeł nierelacyjnych, w tym aplikacji mobilnych, urządzeń IoT, mediów społecznościowych lub transmisji strumieniowych. Jest tak, ponieważ struktura lub schemat w magazynie typu data lake nie jest zdefiniowany do czasu odczytania danych. Ze względu na ich elastyczny, skalowalny charakter, magazyny typu data lake są często używane do wykonywania inteligentnych analiz danych, takich jak uczenie maszynowe.
Magazyn typu data lake | Magazyn danych | |
---|---|---|
Typ | Dane ustrukturyzowane, z częściową strukturą i bez struktury | Ustrukturyzowane |
Schemat | Schemat przy odczycie | Schemat przy zapisie |
Format | Pierwotne, niefiltrowane | Przetworzone, sprawdzone |
Źródła | Dane big data, IoT, media społecznościowe, dane przesyłane strumieniowo | Aplikacja, firma, dane transakcyjne, raportowanie zbiorcze |
Skalowalność | Łatwe i niedrogie skalowanie | Trudna, skalowanie jest kosztowne |
Użytkownicy | Badacze danych, inżynierowie danych | Specjaliści ds. magazynu danych, analitycy biznesowi |
Przypadki użycia | Uczenie maszynowe, analiza predykcyjna, analiza w czasie rzeczywistym | Podstawowe raportowanie, analiza biznesowa |
Architektura i projekt magazynu danych
Teraz, gdy już wiesz, dlaczego i kiedy warto zastosować magazyn danych, zobaczmy, jak on działa, przyglądając się projektowi magazynu danych. Magazyn danych to coś więcej niż tylko indywidualny silos działający samodzielnie. Jest to raczej wysoce ustrukturyzowany i starannie zaprojektowany system składający się z wielu warstw, które współdziałają z danymi — i między sobą — na różne sposoby. Zazwyczaj te warstwy obejmują:
Dolna warstwa
Dane są pozyskiwane z wielu źródeł, a następnie oczyszczane i przekształcane na użytek innych aplikacji w procesie zwanym wyodrębnianiem, przekształcaniem i ładowaniem (ETL). Dolna warstwa to również miejsce, w którym dane są przechowywane i optymalizowane, co skutkuje skróceniem czasu wykonywania zapytań i ogólną lepszą wydajnością.
Warstwa środkowa
W tym miejscu znajduje się aparat analityczny, znany również jako serwer przetwarzania analitycznego online (OLAP). Serwery OLAP szybko uzyskują dostęp do dużych ilości danych z magazynu danych, co daje błyskawiczne wyniki.
Najwyższa warstwa
Najwyższa warstwa to miejsce, gdzie interfejs frontonu wizualnie prezentuje przetworzone dane, do których analitycy mogą uzyskiwać dostęp i używać ich do wszystkich swoich potrzeb związanych z raportowaniem i samoobsługową analizą biznesową.
Jak utworzyć magazyn danych
Podczas projektowania i tworzenia magazynu danych ważne jest uwzględnienie celów organizacji, zarówno długoterminowych, jak i ad hoc, a także charakteru danych. Ile źródeł danych integrujesz? Czy planujesz automatyzację przepływów pracy? Jak będziesz eksplorować i analizować dane? Efekt prac będzie się różnić zależnie od złożoności Twoich potrzeb, ale typowy magazyn baz danych przedsiębiorstwa może składać się z następujących składników:
- Źródła danych, które wyodrębniają dane operacyjne z systemów punktów sprzedaży, aplikacji biznesowych i innych relacyjnych baz danych
- Obszar przejściowy, w którym dane są czyszczone i przekształcane na potrzeby magazynu lub scentralizowanego repozytorium
- Magazyn lub scentralizowane repozytorium, które przechowuje przetworzone dane operacyjne, metadane, dane podsumowania i dane pierwotne w celu ułatwienia dostępu użytkownikom
- Dodatkowe składnice danych, które pobierają dane ze scentralizowanego repozytorium i udostępniają ich podzbiory wybranym grupom użytkowników
- Piaskownica, której analitycy danych mogą używać do testowania nowych form eksploracji danych w środowisku chronionym
- Szeroka gama narzędzi do magazynowania danych, struktur i interfejsów API na potrzeby integracji, magazynowania, zapewniania wydajności i analiz
Narzędzia, oprogramowanie i zasoby magazynów danych
W dzisiejszym świecie, który kręci się wokół danych, wiele dużych firm programistycznych tworzy zdającą się nie mieć końca gamę oprogramowania magazynów danych, z których każde ma własny, specyficzny przypadek użycia. To może przytłaczać, ale w celu utworzenia spójnego i wydajnego rozwiązania warto zainwestować w odpowiednie narzędzia i technologie. Chociaż potrzeby każdej organizacji są inne, poniżej przedstawiono kilka podstawowych produktów magazynów danych, którym warto się przyjrzeć:
Magazynowanie danych w chmurze i chmurze hybrydowej
Ujednolicone, oparte na chmurze rozwiązanie do magazynowania danych, takie jak Azure Synapse Analytics, umożliwia organizacjom skalowanie, przetwarzanie i przechowywanie z większą szybkością i niższym kosztem.
Narzędzia do integracji danych
Potoki ETL umożliwiają użytkownikom tworzenie, planowanie i orkiestrację przepływów pracy, dzięki czemu dane źródłowe są automatycznie integrowane, oczyszczane i standaryzowane.
Magazyn obiektów
Rozwiązanie magazynu obiektów może przechowywać duże ilości danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych, dzięki czemu doskonale nadaje się do tymczasowego przechowywania danych źródłowych przed ich załadowaniem do magazynu.
Narzędzia do magazynowania
Rozwiązanie magazynu rozproszonego przechowuje duże zestawy danych w tabelach relacyjnych z magazynem kolumnowym. To znacznie obniża koszty, poprawia wydajność zapytań i przyspiesza uzyskiwanie szczegółowych informacji.
Narzędzia do poprawy wydajności
Aby podnieść wydajność swoich aplikacji, warto zastosować Apache Spark, czyli platformę przetwarzania równoległego typu open source obsługującą przetwarzanie w pamięci.
Zarządzanie zasobami i obciążeniami
Menedżer zasobów przydziela moc obliczeniową do obciążeń, dzięki czemu można odpowiednio ładować, analizować i eksportować dane oraz zarządzać nimi.
Modelowanie danych
Modelowanie danych łączy wiele źródeł danych w jeden model semantyczny, zapewniając ustrukturyzowany i uproszczony widok danych.
Narzędzia do analizy biznesowej
Narzędzia do analizy biznesowej pomagają dostarczać użytkownikom szczegółowe informacje w formie pulpitów nawigacyjnych, raportów i innych narzędzi do wizualizacji.
Funkcje zabezpieczeń i ochrony prywatności
Funkcje zabezpieczeń i zgodności, takie jak szyfrowanie danych, uwierzytelnianie użytkowników i monitorowanie dostępu, gwarantują, że dane są chronione.
Co się stało z usługą Azure SQL Data Warehouse?
Możliwości związane z usługą Azure SQL Data Warehouse są teraz funkcją usługi Azure Synapse Analytics nazywaną dedykowaną pulą SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać posiadane obciążenia usługi Azure SQL Data Warehouse przy użyciu funkcji dedykowanej puli SQL w usłudze Azure Synapse Analytics bez wprowadzania jakichkolwiek zmian. Klienci mogą również zacząć zarządzać danymi w istniejącym magazynie za pomocą usługi Azure Synapse Analytics, aby korzystać z zaawansowanych funkcji analitycznych, takich jak bezserwerowa eksploracja magazynu typu data lake oraz zintegrowane aparaty SQL i Apache Spark™ .
Często zadawane pytania
-
Magazyn danych to scentralizowane repozytorium, w którym przechowywane są dane ustrukturyzowane (tabele bazy danych, arkusze programu Excel) i dane częściowo ustrukturyzowane (pliki XML, strony internetowe) na potrzeby raportowania, analizy i innych form analizy biznesowej.
-
Korzystanie z magazynu danych daje wiele korzyści. Na przykład magazyn danych konsoliduje wiele źródeł danych w jedno źródło prawdy, którego organizacje mogą następnie używać do podejmowania bardziej świadomych decyzji dotyczących firmy i jej działania.
-
Magazyny danych przechowują dane ustrukturyzowane i częściowo ustrukturyzowane, które mogą być używane do wyszukiwania danych źródłowych, wizualizacji danych i w innych konkretnych przypadkach użycia analizy biznesowej. Magazyny typu data lake przechowują zróżnicowane typy danych pierwotnych, których analitycy danych mogą następnie używać do tworzenia różnych projektów.
-
Magazyn danych zwykle składa się z wielu warstw: warstwy dolnej, w której dane są zbierane i przechowywane, warstwy środkowej, w której dane są analizowane, i warstwy górnej, w której dane są wyświetlane i gdzie użytkownicy mogą do nich uzyskiwać dostęp oraz je analizować.
-
Podczas projektowania i tworzenia infrastruktury magazynu danych należy wziąć pod uwagę charakter danych i sposób, w jaki mają być przekształcane. Do częstych elementów typowej infrastruktury należą źródła danych, obszar przejściowy, sam magazyn, składnice danych, piaskownice i różne narzędzia do integracji.
-
Wiele dużych firm tworzących oprogramowanie oferuje teraz szeroką gamę produktów magazynu danych.
-
Te możliwości są teraz funkcją usługi Azure Synapse Analytics nazywaną dedykowaną pulą SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać tu swoje obciążenia bez wprowadzania jakichkolwiek zmian.
Dodatkowe zasoby
Bezpłatne konto
Testuj bezpłatnie usługi przetwarzania w chmurze na platformie Azure przez maksymalnie 30 dni.
Płatność zgodnie z rzeczywistym użyciem
Zacznij pracę, korzystając z cennika opartego na płatnościach zgodnie z rzeczywistym użyciem. Nie ma żadnych zobowiązań z góry — możesz zrezygnować w dowolnym momencie.