Trace Id is missing
Przejdź do głównej zawartości
Cztery osoby rozmawiające twarzą w twarz przy prezentacji na laptopie

Co to jest magazyn danych?

Dowiedz się, czym jest magazyn danych i jakie są zalety korzystania z niego, poznaj najlepsze rozwiązania do rozważenia w fazie projektowania i zobacz, jakie narzędzia zastosować, gdy w końcu przyjdzie czas na jego utworzenie.

Co to jest magazyn danych?

Zacznijmy od zdefiniowania, czym jest magazyn danych i dlaczego warto korzystać z niego w organizacji.

Magazyn danych to scentralizowane repozytorium, które przechowuje ustrukturyzowane dane (tabele bazy danych, arkusze programu Excel) i częściowo ustrukturyzowane dane (pliki XML, strony internetowe) na potrzeby raportowania i analiz. Dane przepływają z różnych źródeł, takich jak systemy punktów sprzedaży, aplikacje biznesowe i relacyjne bazy danych, i zanim trafią do magazynu, są zazwyczaj czyszczone i standaryzowane. Ponieważ magazyn danych może przechowywać duże ilości informacji, zapewnia użytkownikom łatwy dostęp do wielu danych historycznych, których można używać do wyszukiwania i wizualizacji danych oraz innych form raportowania w analizie biznesowej.

Dwie osoby sprawdzające dane raportu w tabeli

Korzyści z magazynu danych

Niezawodny dostęp do danych, szczególnie gdy dane są gromadzone w miarę upływu czasu, pomaga użytkownikom podejmować trafniejsze i bardziej świadome decyzje co do sposobu kierowania organizacją. Jest on możliwy właśnie dzięki magazynom danych. Nie sposób wymienić wszystkich zalet stosowania magazynów danych w przedsiębiorstwie, ale najważniejsze z nich obejmują:

Porównanie magazynu danych z magazynem data lake

Jest oczywiste, że magazyny danych są niezbędne do wykonywania operacji analitycznych w każdej organizacji. Jaka jest jednak różnica między magazynem danych a innymi typami repozytoriów danych, takimi jak magazyn typu data lake? I kiedy jeden ma przewagę nad drugim?

Jako repozytoria, magazyny danych oraz magazyny typu data lake przechowują i przetwarzają dane. Jednak mimo tego, że z pozoru mogą oferować te same funkcje, każdy z nich ma własne przypadki użycia. Dlatego organizacje często wdrażają oba systemy, tworząc w ten sposób kompleksowe rozwiązanie o szerokim zakresie zastosowań.

Magazyn danych ma charakter relacyjny. Oznacza to, że struktura lub schemat danych zależy od wstępnie zdefiniowanych wymagań firmy i produktu, które są nadzorowane oraz dopasowane i zoptymalizowane pod kątem operacji zapytań SQL. W związku z tym magazyny danych najlepiej nadają się do przechowywania danych przetworzonych pod kątem konkretnego zastosowania, takiego jak wyszukiwanie danych na potrzeby analizy biznesowej lub pozyskiwanie danych dla już zidentyfikowanego biznesowego przypadku użycia.

Podobnie jak magazyny danych, magazyny typu data lake przechowują dane ustrukturyzowane i częściowo ustrukturyzowane. Mogą też jednak obsługiwać pierwotne i nieprzetworzone dane z różnych źródeł nierelacyjnych, w tym aplikacji mobilnych, urządzeń IoT, mediów społecznościowych lub transmisji strumieniowych. Jest tak, ponieważ struktura lub schemat w magazynie typu data lake nie jest zdefiniowany do czasu odczytania danych. Ze względu na ich elastyczny, skalowalny charakter, magazyny typu data lake są często używane do wykonywania inteligentnych analiz danych, takich jak uczenie maszynowe.

plan pomocy technicznej dla całej organizacji
Magazyn typu data lake Magazyn danych
Typ

Dane ustrukturyzowane, z częściową strukturą i bez struktury
Relacyjne, nierelacyjne

Ustrukturyzowane
Relacyjne

Schemat

Schemat przy odczycie

Schemat przy zapisie

Format

Pierwotne, niefiltrowane

Przetworzone, sprawdzone

Źródła

Dane big data, IoT, media społecznościowe, dane przesyłane strumieniowo

Aplikacja, firma, dane transakcyjne, raportowanie zbiorcze

Skalowalność

Łatwe i niedrogie skalowanie

Trudna, skalowanie jest kosztowne

Użytkownicy

Badacze danych, inżynierowie danych

Specjaliści ds. magazynu danych, analitycy biznesowi

Przypadki użycia

Uczenie maszynowe, analiza predykcyjna, analiza w czasie rzeczywistym

Podstawowe raportowanie, analiza biznesowa

Osoba siedząca na krześle i pracująca na komputerze

Architektura i projekt magazynu danych

Teraz, gdy już wiesz, dlaczego i kiedy warto zastosować magazyn danych, zobaczmy, jak on działa, przyglądając się projektowi magazynu danych. Magazyn danych to coś więcej niż tylko indywidualny silos działający samodzielnie. Jest to raczej wysoce ustrukturyzowany i starannie zaprojektowany system składający się z wielu warstw, które współdziałają z danymi — i między sobą — na różne sposoby. Zazwyczaj te warstwy obejmują:

Dolna warstwa

Dane są pozyskiwane z wielu źródeł, a następnie oczyszczane i przekształcane na użytek innych aplikacji w procesie zwanym wyodrębnianiem, przekształcaniem i ładowaniem (ETL). Dolna warstwa to również miejsce, w którym dane są przechowywane i optymalizowane, co skutkuje skróceniem czasu wykonywania zapytań i ogólną lepszą wydajnością.

Warstwa środkowa

W tym miejscu znajduje się aparat analityczny, znany również jako serwer przetwarzania analitycznego online (OLAP). Serwery OLAP szybko uzyskują dostęp do dużych ilości danych z magazynu danych, co daje błyskawiczne wyniki.

Najwyższa warstwa

Najwyższa warstwa to miejsce, gdzie interfejs frontonu wizualnie prezentuje przetworzone dane, do których analitycy mogą uzyskiwać dostęp i używać ich do wszystkich swoich potrzeb związanych z raportowaniem i samoobsługową analizą biznesową.

Jak utworzyć magazyn danych

Podczas projektowania i tworzenia magazynu danych ważne jest uwzględnienie celów organizacji, zarówno długoterminowych, jak i ad hoc, a także charakteru danych. Ile źródeł danych integrujesz? Czy planujesz automatyzację przepływów pracy? Jak będziesz eksplorować i analizować dane? Efekt prac będzie się różnić zależnie od złożoności Twoich potrzeb, ale typowy magazyn baz danych przedsiębiorstwa może składać się z następujących składników:

  1. Źródła danych, które wyodrębniają dane operacyjne z systemów punktów sprzedaży, aplikacji biznesowych i innych relacyjnych baz danych
  2.  Obszar przejściowy, w którym dane są czyszczone i przekształcane na potrzeby magazynu lub scentralizowanego repozytorium
  3.  Magazyn lub scentralizowane repozytorium, które przechowuje przetworzone dane operacyjne, metadane, dane podsumowania i dane pierwotne w celu ułatwienia dostępu użytkownikom
  4. Dodatkowe składnice danych, które pobierają dane ze scentralizowanego repozytorium i udostępniają ich podzbiory wybranym grupom użytkowników
  5.  Piaskownica, której analitycy danych mogą używać do testowania nowych form eksploracji danych w środowisku chronionym
  6. Szeroka gama narzędzi do magazynowania danych, struktur i interfejsów API na potrzeby integracji, magazynowania, zapewniania wydajności i analiz
Osoba analizująca wykresy na laptopie i raporty danych na dwóch monitorach
Ekran laptopa z otwartymi wykresami

Narzędzia, oprogramowanie i zasoby magazynów danych

W dzisiejszym świecie, który kręci się wokół danych, wiele dużych firm programistycznych tworzy zdającą się nie mieć końca gamę oprogramowania magazynów danych, z których każde ma własny, specyficzny przypadek użycia. To może przytłaczać, ale w celu utworzenia spójnego i wydajnego rozwiązania warto zainwestować w odpowiednie narzędzia i technologie. Chociaż potrzeby każdej organizacji są inne, poniżej przedstawiono kilka podstawowych produktów magazynów danych, którym warto się przyjrzeć:

Magazynowanie danych w chmurze i chmurze hybrydowej

Ujednolicone, oparte na chmurze rozwiązanie do magazynowania danych, takie jak Azure Synapse Analytics, umożliwia organizacjom skalowanie, przetwarzanie i przechowywanie z większą szybkością i niższym kosztem.

Narzędzia do integracji danych

Potoki ETL umożliwiają użytkownikom tworzenie, planowanie i orkiestrację przepływów pracy, dzięki czemu dane źródłowe są automatycznie integrowane, oczyszczane i standaryzowane.

Magazyn obiektów

Rozwiązanie magazynu obiektów może przechowywać duże ilości danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych, dzięki czemu doskonale nadaje się do tymczasowego przechowywania danych źródłowych przed ich załadowaniem do magazynu.

Narzędzia do magazynowania

Rozwiązanie magazynu rozproszonego przechowuje duże zestawy danych w tabelach relacyjnych z magazynem kolumnowym. To znacznie obniża koszty, poprawia wydajność zapytań i przyspiesza uzyskiwanie szczegółowych informacji.

Narzędzia do poprawy wydajności

Aby podnieść wydajność swoich aplikacji, warto zastosować Apache Spark, czyli platformę przetwarzania równoległego typu open source obsługującą przetwarzanie w pamięci.

Zarządzanie zasobami i obciążeniami

Menedżer zasobów przydziela moc obliczeniową do obciążeń, dzięki czemu można odpowiednio ładować, analizować i eksportować dane oraz zarządzać nimi.

Modelowanie danych

Modelowanie danych łączy wiele źródeł danych w jeden model semantyczny, zapewniając ustrukturyzowany i uproszczony widok danych.

Narzędzia do analizy biznesowej

Narzędzia do analizy biznesowej pomagają dostarczać użytkownikom szczegółowe informacje w formie pulpitów nawigacyjnych, raportów i innych narzędzi do wizualizacji.

Funkcje zabezpieczeń i ochrony prywatności

Funkcje zabezpieczeń i zgodności, takie jak szyfrowanie danych, uwierzytelnianie użytkowników i monitorowanie dostępu, gwarantują, że dane są chronione.

Dwie rozmawiające osoby, osoba po prawej stronie trzyma laptopa

Co się stało z usługą Azure SQL Data Warehouse?

Możliwości związane z usługą Azure SQL Data Warehouse są teraz funkcją usługi Azure Synapse Analytics nazywaną dedykowaną pulą SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać posiadane obciążenia usługi Azure SQL Data Warehouse przy użyciu funkcji dedykowanej puli SQL w usłudze Azure Synapse Analytics bez wprowadzania jakichkolwiek zmian. Klienci mogą również zacząć zarządzać danymi w istniejącym magazynie za pomocą usługi Azure Synapse Analytics, aby korzystać z zaawansowanych funkcji analitycznych, takich jak bezserwerowa eksploracja magazynu typu data lake oraz zintegrowane aparaty SQL i Apache Spark™ .

Często zadawane pytania

  • Magazyn danych to scentralizowane repozytorium, w którym przechowywane są dane ustrukturyzowane (tabele bazy danych, arkusze programu Excel) i dane częściowo ustrukturyzowane (pliki XML, strony internetowe) na potrzeby raportowania, analizy i innych form analizy biznesowej.

  • Korzystanie z magazynu danych daje wiele korzyści. Na przykład magazyn danych konsoliduje wiele źródeł danych w jedno źródło prawdy, którego organizacje mogą następnie używać do podejmowania bardziej świadomych decyzji dotyczących firmy i jej działania.

  • Magazyny danych przechowują dane ustrukturyzowane i częściowo ustrukturyzowane, które mogą być używane do wyszukiwania danych źródłowych, wizualizacji danych i w innych konkretnych przypadkach użycia analizy biznesowej. Magazyny typu data lake przechowują zróżnicowane typy danych pierwotnych, których analitycy danych mogą następnie używać do tworzenia różnych projektów.

  • Magazyn danych zwykle składa się z wielu warstw: warstwy dolnej, w której dane są zbierane i przechowywane, warstwy środkowej, w której dane są analizowane, i warstwy górnej, w której dane są wyświetlane i gdzie użytkownicy mogą do nich uzyskiwać dostęp oraz je analizować.

  • Podczas projektowania i tworzenia infrastruktury magazynu danych należy wziąć pod uwagę charakter danych i sposób, w jaki mają być przekształcane. Do częstych elementów typowej infrastruktury należą źródła danych, obszar przejściowy, sam magazyn, składnice danych, piaskownice i różne narzędzia do integracji.

  • Wiele dużych firm tworzących oprogramowanie oferuje teraz szeroką gamę produktów magazynu danych.

  • Te możliwości są teraz funkcją usługi Azure Synapse Analytics nazywaną dedykowaną pulą SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać tu swoje obciążenia bez wprowadzania jakichkolwiek zmian.

Bezpłatne konto

Testuj bezpłatnie usługi przetwarzania w chmurze na platformie Azure przez maksymalnie 30 dni.

Płatność zgodnie z rzeczywistym użyciem

Zacznij pracę, korzystając z cennika opartego na płatnościach zgodnie z rzeczywistym użyciem. Nie ma żadnych zobowiązań z góry — możesz zrezygnować w dowolnym momencie.