Pomiń nawigację

Co to jest magazyn danych?

Dowiedz się, czym jest magazyn danych, jakie są jego zalety, jakie najlepsze rozwiązania warto rozważyć w fazie projektowania oraz jakie narzędzia należy wdrożyć, gdy przyjdzie czas tworzenia magazynu.

Co to jest magazyn danych?

Zdefiniujmy najpierw, czym jest magazyn danych i dlaczego warto go używać w organizacji.

Magazyn danych to scentralizowane repozytorium, w którym przechowywane są dane ustrukturyzowane (tabele bazy danych, arkusze programu Excel) i dane częściowo ustrukturyzowane (pliki XML, strony internetowe) na potrzeby raportowania i analizy. Dane są przesyłane z różnych źródeł, takich jak systemy obsługi sprzedaży, aplikacje biznesowe i relacyjne bazy danych, i zwykle zanim trafią do magazynu są czyszczone i standaryzowane. Ponieważ magazyn danych może przechowywać duże ilości informacji, zapewnia użytkownikom łatwy dostęp do wielu danych historycznych, które mogą być używane do wyszukiwania i wizualizacji danych oraz innych form raportowania w ramach analizy biznesowej.

Korzyści z magazynu danych

Wiarygodne dane, szczególnie jeśli są agregowane na przestrzeni czasu, pomagają użytkownikom podejmować mądrzejsze, bardziej świadome decyzje dotyczące zarządzania organizacją — umożliwiają to właśnie magazyny danych. Magazynowanie danych przedsiębiorstwa przynosi wiele korzyści — oto najistotniejsze zalety:

  • Konsolidowanie danych z wielu źródeł w jedno źródło informacji
  • Przechowywanie i analizowanie długoterminowych danych historycznych obejmujących miesiące i lata
  • Czyszczenie i przekształcanie danych, aby były dokładne, spójne i ustandaryzowane pod względem struktury i formy
  • Skracanie czasu wykonywania zapytań podczas zbierania danych i przetwarzania analiz, co poprawia ogólną wydajność we wszystkich systemach
  • Wydajne ładowanie danych bez konieczności ponoszenia kosztów wdrożenia lub infrastruktury
  • Zabezpieczanie danych, aby były one prywatne, chronione i bezpieczne
  • Przygotowywanie danych do analizy za pomocą wyszukiwania danych, narzędzi do wizualizacji i innych form zaawansowanej analizy

Magazyn danych a repozytorium data lake

Nie ulega wątpliwości, że magazyny danych są niezbędne do wykonywania operacji analitycznych w każdej organizacji. Jaka jest jednak różnica między magazynem danych a innymi typami repozytoriów danych, takimi jak data lake? Oraz kiedy jedno z repozytoriów powinno być stosowane zamiast drugiego?

Jako repozytoria, zarówno magazyny danych, jak i magazyny typu data lake, przechowują i przetwarzają dane. Mimo że mogą one oferować te same funkcje, każde z nich ma własne przypadki użycia. Dlatego organizacje często stosują oba systemy, aby stworzyć kompletne rozwiązanie, które może służyć do wielu różnych celów.

Magazyn danych ma charakter relacyjny. Oznacza to, że struktura lub schemat danych jest określany na podstawie wstępnie zdefiniowanych wymagań biznesowych i produktowych — wyselekcjonowanych, zgodnych i zoptymalizowanych pod kątem operacji zapytań SQL. W związku z tym magazyny danych nadają się najlepiej do przechowywania danych, które są przetwarzane w określonym celu, na przykład wyszukiwania danych na potrzeby analizy biznesowej lub pozyskiwanie biznesowych przypadków użycia, które zostały już zidentyfikowane.

Podobnie jak magazyny danych, repozytoria data lake przechowują ustrukturyzowane i częściowo ustrukturyzowane dane. Mogą one jednak obsługiwać również pierwotne i nieprzetworzone dane z różnych źródeł nierelacyjnych, w tym aplikacji mobilnych, urządzeń IoT, mediów społecznościowych lub przesyłania strumieniowego. Jest to możliwe, ponieważ struktura lub schemat w magazynie typu data lake nie są definiowane, dopóki dane nie zostaną odczytane. Ze względu na ich elastyczny, skalowalny charakter repozytoria data lake są często używane w przypadku inteligentnych form analizy danych, takich jak uczenie maszynowe.

Niedostępne Repozytorium data lake Magazyn danych
Typ Ustrukturyzowane, częściowo ustrukturyzowane, nieustrukturyzowane
Relacyjne, nierelacyjne
Ustrukturyzowane
Relacyjne
Schemat Schemat podczas odczytu Schemat podczas zapisu
Format Pierwotne, nieprzefiltrowane Przetworzone, sprawdzone
Źródła Dane big data, IoT, media społecznościowe, przesyłanie strumieniowe danych Aplikacja, biznes, dane transakcyjne, raportowanie wsadowe
Skalowalność Łatwe skalowanie przy niskim koszcie Trudne i kosztowne do skalowania
Użytkownicy Badacze danych, inżynierowie danych Specjaliści magazynu danych, analitycy biznesowi
Przypadki użycia Uczenie maszynowe, analiza predykcyjna, analiza w czasie rzeczywistym Podstawowe raportowanie, analiza biznesowa

Architektura i projekt magazynu danych

Teraz, gdy już wiesz, dlaczego i kiedy należy używać magazynu danych, przyjrzyjmy się, jak działa na podstawie projektu magazynu danych. Magazyn danych to coś więcej niż tylko jeden działający samodzielnie silos. Jest to wysoce ustrukturyzowany, starannie zaprojektowany system składający się z wielu warstw, które współdziałają z danymi — i ze sobą nawzajem — na różne sposoby. Zazwyczaj do tych warstw należą:

Dolna warstwa

Dane są pozyskiwane z wielu źródeł, a następnie oczyszczane i przekształcane, aby inne aplikacje mogły używać ich w procesie określanym jako wyodrębnianie, transformacja, ładowanie (ETL). Dolna warstwa to również miejsce, w którym dane są przechowywane i optymalizowane, co prowadzi do skrócenia czasu wykonywania zapytań i poprawienia ogólnej wydajności.

Warstwa środkowa

Tutaj znajdziesz aparat analizy, znany również jako serwer przetwarzania analitycznego online (OLAP). Serwery OLAP uzyskują szybko dostęp do dużych ilości danych z magazynu danych, dzięki czemu można błyskawicznie otrzymać wyniki.

Najwyższa warstwa

W najwyższej warstwie interfejs frontonu prezentuje przetworzone dane w formie wizualnej, a analitycy, którzy mają do nich dostęp, mogą z nich korzystać na potrzeby raportowania i samoobsługowej analizy biznesowej.

Jak utworzyć magazyn danych

Podczas projektowania i tworzenia magazynu danych należy wziąć pod uwagę cele organizacji, zarówno długoterminowe, jak i doraźne, a także charakter danych. Ile źródeł danych zostanie zintegrowanych? Czy planowana jest automatyzacja przepływów pracy? Jak będą badane i analizowane dane? Architektura będzie się różnić w zależności od złożoności potrzeb, ale typowy magazyn baz danych przedsiębiorstwa może składać się z następujących składników:

  1. Źródła danych, które wyodrębniają dane operacyjne z systemów obsługi sprzedaży, aplikacji biznesowych i innych relacyjnych baz danych
  2. Obszar tymczasowy, gdzie dane są czyszczone i przekształcane na potrzeby magazynu lub scentralizowanego repozytorium
  3. Magazyn lub scentralizowane repozytorium, w którym przechowywane są przetworzone dane operacyjne, metadane, dane podsumowania i dane pierwotne, aby ułatwić do nich dostęp użytkownikom
  4. Dodatkowe składnice danych, które pobierają dane ze scentralizowanego repozytorium i dostarczają je w podzbiorach wybranym grupom użytkowników
  5. Piaskownica, której badacze danych mogą używać do testowania nowych form badania danych w chronionym środowisku
  6. Szeroki wybór narzędzi do magazynowania danych, struktur i interfejsów API na potrzeby integracji, przechowywania, wydajności i analizy

Narzędzia, oprogramowanie i zasoby magazynu danych

W dzisiejszym świecie opartym na danych wielu dużych producentów oprogramowania może pochwalić się pozornie nieograniczoną gamą produktów związanych z magazynowaniem danych, z których każdy ma określony przypadek użycia. Może to wydawać się skomplikowane, ale aby utworzyć spójne rozwiązanie o wysokiej wydajności, warto zainwestować w odpowiednie narzędzia i technologie. Potrzeby organizacji mogą się różnić, ale warto przyjrzeć się kilku podstawowym produktom do magazynowania danych przedstawionym poniżej:

Magazynowanie danych w chmurze i w chmurze hybrydowej

Ujednolicone, chmurowe rozwiązanie do magazynowania danych, takie jak usługa Azure Synapse Analytics, umożliwia organizacjom szybsze i tańsze skalowanie, obliczanie i przechowywanie.

Narzędzia integracji danych

Potoki ETL (wyodrębniania, transformacji, ładowania) umożliwiają użytkownikom tworzenie, planowanie i organizowanie przepływów pracy, dzięki czemu dane źródłowe są automatycznie integrowane, oczyszczane i standaryzowane.

Magazyn obiektów

Rozwiązanie magazynu obiektów może przechowywać duże ilości ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych danych, co sprawia, że doskonale nadaje się do tymczasowego przechowywania danych źródłowych przed ich załadowaniem do magazynu.

Narzędzia do magazynowania danych

Rozwiązanie magazynu rozproszonego przechowuje duże zestawy danych w tabelach relacyjnych z magazynem kolumnowym. Obniża to znacznie koszty, zwiększa wydajność zapytań i przyspiesza uzyskiwanie szczegółowych informacji.

Narzędzia do oceny wydajności

Aby zwiększyć wydajność aplikacji, warto zastosować rozwiązanie Apache Spark — platformę przetwarzania równoległego typu open source obsługującą przetwarzanie w pamięci.

Zarządzanie zasobami i obciążeniami

Menedżer zasobów przydziela moc obliczeniową do obciążeń, dzięki czemu można odpowiednio ładować, analizować i eksportować dane oraz zarządzać nimi.

Modelowanie danych

Modelowanie danych łączy wiele źródeł danych w jeden model semantyczny, zapewniając ustrukturyzowany, zoptymalizowany widok danych.

Narzędzia analizy biznesowej

Narzędzia do analizy biznesowej pomagają dostarczać użytkownikom szczegółowe informacje w postaci pulpitów nawigacyjnych, raportów i innych narzędzi do wizualizacji danych.

Funkcje zabezpieczeń i prywatności

Funkcje zabezpieczeń i zgodności, takie jak szyfrowanie danych, uwierzytelnianie użytkowników i monitorowanie dostępu, zapewniają stałą ochronę danych.

Co się stało z usługą Azure SQL Data Warehouse?

Możliwości skojarzone z usługą Azure SQL Data Warehouse stanowią teraz funkcję usługi Azure Synapse Analytics określaną jako dedykowana pula SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać swoje istniejące obciążenia korzystając z funkcji dedykowanej puli SQL w usłudze Azure Synapse Analytics bez konieczności wprowadzania jakichkolwiek zmian. Klienci mogą również rozpocząć zarządzanie istniejącymi danymi magazynu za pomocą usługi Azure Synapse Analytics, aby korzystać z funkcji zaawansowanej analizy, takich jak eksploracja bezserwerowego repozytorium data lake oraz zintegrowane aparaty SQL i Apache Spark™.

Często zadawane pytania

  • Magazyn danych to scentralizowane repozytorium, które przechowuje ustrukturyzowane dane (tabele bazy danych, arkusze programu Excel) i dane częściowo ustrukturyzowane (pliki XML, strony internetowe) na potrzeby raportowania, analizy i innych form analizy biznesowej.

    Dowiedz się więcej o magazynach danych

  • Używanie magazynu danych przynosi wiele korzyści. Na przykład magazyn danych konsoliduje wiele źródeł danych w jedno źródło informacji, z którego organizacje mogą korzystać, aby podejmować bardziej świadome decyzje dotyczące działalności i operacji.

    Zapoznaj się z dodatkowymi korzyściami

  • Magazyny danych przechowują ustrukturyzowane i częściowo ustrukturyzowane dane, które mogą być używane do wyszukiwania danych źródłowych, wizualizacji danych i w innych szczególnych przypadkach użycia analizy biznesowej. Repozytoria data lake przechowują różne typy danych pierwotnych, które mogą być wykorzystywane przez badaczy danych w rozmaitych projektach.
  • Magazyn danych zwykle składa się z kilku warstw: dolnej — w której są zbierane i przechowywane dane, środkowej — w której dane są analizowane oraz najwyższej — w której dane są wyświetlane, aby użytkownicy mieli do nich dostęp i mogli je analizować.

    Odkryj architektury magazynów danych

  • Podczas projektowania i tworzenia infrastruktury magazynu danych należy wziąć pod uwagę charakter danych i pożądany sposób ich przekształcania. Zwykle typowe elementy infrastruktury obejmują źródła danych, obszar tymczasowy, sam magazyn, składnice danych, piaskownice i różne narzędzia integracji.

    Uzyskaj wskazówki dotyczące tworzenia magazynu danych

  • Wielu dużych producentów oprogramowania ma teraz w ofercie szeroką gamę produktów związanych z magazynowaniem danych.

    Zapoznaj się z narzędziami, oprogramowaniem i zasobami dla magazynów danych

  • Te możliwości stanowią teraz funkcję usługi Azure Synapse Analytics określaną jako dedykowana pula SQL. Dotychczasowi klienci usługi Azure SQL Data Warehouse mogą nadal uruchamiać swoje obciążenia w tym miejscu bez wprowadzania żadnych zmian.

    Dowiedz się więcej o usłudze Azure SQL Data Warehouse

Rozpocznij korzystanie z bezpłatnego konta platformy Azure

Bezpłatne korzystaj z popularnych usług analitycznych przez 12 miesięcy, nawet ponad 25 usług zawsze za darmo, i $200 środki do wykorzystania w ciągu pierwszych 30 dni.

Skontaktuj się ze specjalistą ds. sprzedaży platformy Azure

Uzyskaj porady dotyczące rozpoczęcia korzystania z analiz na platformie Azure. Zadawaj pytania, poznaj ceny i najlepsze rozwiązania oraz uzyskaj pomoc w projektowaniu rozwiązania spełniającego Twoje potrzeby.