Přeskočit navigaci

Co je datový sklad?

Seznamte se s tím, co je datový sklad, výhodami použití jednoho z nich, osvědčenými postupy, které je potřeba vzít v úvahu během fáze návrhu, a jaké nástroje je potřeba začlenit, až bude konečně čas na sestavení.

Co je datový sklad?

Nejprve si definujme, co je to datový sklad a proč byste ho mohli chtít ve vaší organizaci používat.

Datový sklad je centralizované úložiště, které ukládá strukturovaná data (databázové tabulky, excelové listy) a částečně strukturovaná data (soubory XML, webové stránky) pro účely vytváření sestav a analýz. Data přicházejí z různých zdrojů, jako jsou systémy prodejních míst, podnikové aplikace a relační databáze, a předtím, než se dostanou do skladu, jsou obvykle vyčištěna a standardizována. Protože datový sklad může uchovávat velké množství informací, poskytuje uživatelům snadný přístup k množství historických dat, která lze využít pro dolování dat, vizualizaci dat a dalším formám vytváření sestav business intelligence.

Výhody datového skladu

Spolehlivá data, zejména pokud jsou agregována v čase, pomáhají uživatelům činit chytřejší a informovanější rozhodnutí o způsobu řízení organizace ─ a to umožňují datové sklady. Výhod podnikových datových skladů je nespočet, ale mezi nejvýznamnější patří:

  • Konsolidace dat z více zdrojů do jediného zdroje pravdivých informací
  • Ukládání a analýza dlouhodobých historických dat trvající měsíce a roky
  • Čištění a transformace dat tak, aby byla přesná, konzistentní a standardizovaná ve struktuře a formě
  • Zkrácení doby dotazování při shromažďování dat a zpracování analýz, což zlepšuje celkový výkon napříč systémy
  • Efektivní načítání dat bez nutnosti řešit náklady na nasazení nebo infrastrukturu
  • Zabezpečení dat tak, aby byla soukromá, chráněná a bezpečná
  • Příprava dat pro analýzu prostřednictvím dolování dat, vizualizačních nástrojů a dalších forem pokročilých analýz

Datový sklad vs. datové jezero

Je jasné, že datové sklady jsou pro analytické operace každé organizace nezbytné. Jaký je však rozdíl mezi datovým skladem a jinými typy datových úložišť, jako je například datové jezero? A kdy by mělo být jedno z nich použito raději než druhé?

Datové sklady a datová jezera jako úložiště ukládají i zpracovávají data. Ačkoli se může zdát, že nabízejí stejné funkce, každý z nich má vlastní specifické případy použití. Proto organizace běžně zapojují oba systémy tak, aby tvořily ucelené komplexní řešení, které zvládne širokou škálu účelů.

Datový sklad je relační povahy. To znamená, že struktura nebo schéma dat je určena předem definovanými obchodními a produktovými požadavky, které jsou upraveny, přizpůsobeny a optimalizovány pro operace dotazů SQL. V důsledku toho se datové sklady nejlépe používají pro ukládání dat, která byla zpracována s ohledem na konkrétní účel, například pro dolování dat pro analýzu BI nebo pro získávání již identifikovaného obchodního případu užití.

Stejně jako datové sklady obsahují datová jezera strukturovaná a částečně strukturovaná data. Jsou však schopna pojmout i nezpracovaná a nezpracovaná data z různých nerelačních zdrojů, včetně mobilních aplikací, zařízení internetu věcí, sociálních médií nebo streamování. Je to proto, že struktura nebo schéma v datovém jezeře není definováno, dokud nejsou data načtena. Díky své flexibilní a škálovatelné povaze se datová jezera často používají k provádění inteligentních forem analýzy dat, jako je například strojové učení.

Není k dispozici Datové jezero Datový sklad
Typ Strukturované, částečně strukturované, nestrukturované
Relační, nerelační
Strukturované
Relační
Schéma Schéma při čtení Schéma při zápisu
Formát Nezpracováno, nefiltrováno Zpracované, prověřené
Zdroje Velké objemy dat, IoT, sociální média, streamování dat Aplikace, obchodní data, transakční data, dávkové generování sestav
Škálovatelnost Snadné škálování při nízkých nákladech Obtížné a nákladné škálování
Uživatelé Datoví vědci, datoví inženýři Specialisté na datové sklady, obchodní analytici
Případy použití Strojové učení, prediktivní analýza, analýza v reálném čase Základní generování sestav, BI

Architektura a návrh datového skladu

Když teď víte, proč a kdy byste měli datový sklad používat, podívejme se na to, jak datový sklad funguje, a to prostřednictvím návrhu datového skladu. Datový sklad je víc než jen jedno samostatně fungující silo. Je to spíše vysoce strukturovaný, pečlivě navržený systém složený z několika úrovní, které různými způsoby interagují s vašimi daty ─ a mezi sebou navzájem. Tyto úrovně obvykle zahrnují:

Dolní úroveň

Data jsou přijímána z různých zdrojů, poté jsou vyčištěna a transformována pro další aplikace v procesu zvaném extrakce, transformace a načítání (ETL). Spodní úroveň je také místem, kde se data ukládají a optimalizují, což vede ke zrychlení dotazů a celkově vyššímu výkonu.

Střední úroveň

Tady najdete analytický modul, označovaný také jako server OLAP (Online Analytical Processing). Servery OLAP přistupují k velkým objemům dat z datového skladu vysokou rychlostí, což vede k bleskově rychlým výsledkům.

Horní úroveň

V horní úrovni je front-endové rozhraní, které vizuálně prezentuje zpracovaná data, k nimž mohou analytici přistupovat a používat je pro všechny své potřeby vytváření sestav a samoobslužné BI.

Jak vytvořit datový sklad

Při navrhování a budování datového skladu je důležité vzít v úvahu cíle organizace, a to jak dlouhodobé, tak ad hoc, a také povahu dat. Kolik datových zdrojů integrujete? Plánujete automatizovat pracovní postupy? Jak budete data zkoumat a analyzovat? Vaše sestavení se bude lišit v závislosti na složitosti vašich potřeb, ale typický podnikový databázový sklad se může skládat z následujících komponent:

  1. Zdroje dat, které extrahují provozní data z prodejních systémů, obchodních aplikací a jiných relačních databází
  2. Odkládací prostor, kde se data čistí a transformují pro sklad nebo centralizované úložiště.
  3. Sklad nebo centralizované úložiště, které ukládá zpracovaná provozní data, metadata, souhrnná data, a nezpracovaná data pro snadný přístup uživatelů
  4. Přidání datových tržišť, která přebírají data z centralizovaného úložiště a poskytují je v dílčích sadách vybraným skupinám uživatelů.
  5. Sandbox, mohou datoví vědci používat k testování nových forem zkoumání dat v chráněném prostředí.
  6. Široká škála nástrojů pro datové sklady, architektury a rozhraní API pro integraci, ukládání, výkon a analýzu

Nástroje, software a prostředky datového skladu

V dnešním světě zaměřeném na data se spousta velkých softwarových společností může pochlubit zdánlivě nekonečnou řadou softwaru pro datové sklady, z nichž každý má svůj specifický případ použití. Může se to zdát náročné, ale abyste mohli vytvořit ucelené a vysoce výkonné řešení, budete chtít investovat do správných nástrojů a technologií. Potřeby každé organizace se liší, ale zde je několik základních produktů datového skladu, na které je třeba se zaměřit:

Cloudové a hybridní cloudové datové sklady

Jednotné cloudové řešení datových skladů, jako je Azure Synapse Analytics, dává organizacím možnost škálovat, vypočítat a ukládat rychleji a s nižšími náklady.

Nástroje pro integraci dat

Kanály ETL umožňují uživatelům vytvářet, plánovat a organizovat pracovní postupy tak, aby byla zdrojová data automaticky integrována, vyčištěna a standardizována.

Úložiště objektů

Řešení úložiště objektů může obsahovat velké objemy strukturovaných, částečně strukturovaných a nestrukturovaných dat, což je ideální pro ukládání zdrojových dat před jejich načtením do skladu.

Nástroje pro skladování

Řešení distribuovaného úložiště uchovává velké sady dat v relačních tabulkách se sloupcovým úložištěm. To výrazně snižuje náklady, zlepšuje výkonnost dotazů a zrychluje dobu potřebnou k získání přehledů.

Nástroje pro zvýšení výkonu

Pokud chcete zvýšit výkon aplikací, můžete začlenit Apache Spark, opensourcovou architekturu pro paralelní zpracování, která podporuje zpracování v paměti.

Správa prostředků a úloh

Správce prostředků přiděluje výpočetní výkon pracovním úlohám, abyste mohli odpovídajícím způsobem načítat, analyzovat, spravovat a exportovat data.

Modelování dat

Modelování dat kombinuje více zdrojů dat do jednoho sémantického modelu a poskytuje strukturované a zjednodušené zobrazení vašich dat.

Nástroje business intelligence

Nástroje obchodní analýzy pomáhají poskytovat přehledy uživatelům ve formě řídicích panelů, sestav a dalších vizualizačních nástrojů.

Funkce zabezpečení a ochrany osobních údajů

Funkce zabezpečení a dodržování předpisů, jako je šifrování dat, ověřování uživatelů a monitorování přístupu, zajišťují ochranu vašich dat.

Co se stalo se službou Azure SQL Data Warehouse?

Možnosti spojené s Azure SQL Data Warehouse jsou nyní funkcí Azure Synapse Analytics označované jako vyhrazený fond SQL. Stávající zákazníci služby Azure SQL Data Warehouse mohou nadále provozovat své stávající pracovní zátěže Azure SQL Data Warehouse pomocí funkce vyhrazeného fondu SQL v Azure Synapse Analytics, aniž by museli procházet jakýmikoli změnami. Zákazníci mohou také začít spravovat svá stávající data datového skladu pomocí nástroje Azure Synapse Analytics a využívat pokročilé analytické funkce, jako je bezserverový průzkum datových jezer a integrované moduly SQL a Apache Spark™.

Nejčastější dotazy

  • Datový sklad je centralizované úložiště, které uchovává strukturovaná data (databázové tabulky, Excelové listy) a částečně strukturovaná data (soubory XML, webové stránky) pro účely vytváření sestav, analýzy a dalších forem business intelligence.

    Další informace o datových skladech

  • Používání datového skladu má mnoho výhod. Datový sklad například konsoliduje více zdrojů dat do jediného zdroje pravdivých informací, který pak organizace mohou využít k informovanějšímu rozhodování o podnikání a provozu.

    Objevte další výhody

  • Datové sklady ukládají strukturovaná a částečně strukturovaná data, která se dají použít k dolování dat, vizualizaci dat a dalším konkrétním případům použití BI. Datová jezera ukládají různé typy nezpracovaných dat, které pak můžou datoví vědci použít pro různé projekty.
  • Datový sklad se obvykle skládá z několika úrovní: spodní úroveň, kde se shromažďují a ukládají data, střední úroveň, kde se data analyzují, a horní úroveň, kde se data zobrazují uživatelům a kde je mohou analyzovat.

    Objevte architektury datových skladů

  • Při navrhování a budování infrastruktury datového skladu je důležité zvážit povahu dat a způsob, jakým je chcete transformovat. Mezi běžné prvky typické sestavy patří zdroje dat, pracovní oblast, samotný sklad, datová tržiště, sandboxy a různé integrační nástroje.

    Získejte tipy, jak vytvořit datový sklad

  • Mnoho významných softwarových společností se dnes může pochlubit širokou škálou produktů pro datové sklady.

    Prozkoumejte nástroje, software a prostředky datového skladu

  • Tyto funkce jsou teď funkcí Azure Synapse Analytics označované jako vyhrazený fond SQL. Stávající zákazníci Azure SQL Data Warehouse zde mohou nadále provozovat své pracovní úlohy, aniž by museli procházet jakýmikoli změnami.

    Další informace o Azure SQL Data Warehouse

Začínáme s bezplatným účtem Azure

Využijte oblíbené analytické služby na 12 měsíců zdarma, více než 25 trvale bezplatných služeb,  a kredit ve výši $200, který můžete použít v průběhu vašich prvních 30 dnů.

Spojení s prodejním specialistou na Azure

Získejte rady, jak začít s analytikou v Azure. Zadávejte dotazy, zjistěte více o cenách a osvědčených postupech a získejte pomoc s navrhováním řešení, které odpovídá vašim potřebám.