Trace Id is missing
Přeskočit na hlavní obsah
Azure
Čtyři lidé diskutující tváří v tvář u prezentace na přenosném počítači

Co je to datový sklad?

Seznamte se s tím, co je to datový sklad, jaké jsou výhody jeho používání, jaké osvědčené postupy je třeba zvažovat během fáze návrhu a jaké nástroje použít, když konečně přijde čas takový sklad vytvořit.

Co je to datový sklad?

Nejprve definujme, co to datový sklad je a proč byste ho mohli chtít používat pro vaši organizaci.

Datový sklad je centralizované úložiště, které ukládá strukturovaná data (databázové tabulky, excelové listy) a částečně strukturovaná data (soubory XML, webové stránky) pro účely vytváření sestav a analýz. Data přicházejí z různých zdrojů, jako jsou systémy prodejních míst, podnikové aplikace a relační databáze, a obvykle se před přesunutím do skladu čistí a standardizují. Protože v datovém skladu může být uloženo velké množství informací, poskytuje uživatelům snadný přístup k velkému množství historických dat, která lze používat k dolování dat, vizualizaci dat a další formám poskytování informací business intelligence.

Dvě osoby kontrolující data sestavy v tabulce

Výhody datového skladu

Spolehlivá data, zejména pokud jsou agregovaná za určité období, pomáhají uživatelům dělat chytřejší a lépe informovaná rozhodnutí o způsobu řízení organizace – a to umožňují datové sklady. Podnikový datový sklad má mnoho výhod, ale mezi nejvýraznější výhody patří:

Datový sklad a datové jezero – srovnání

Je jasné, že datové sklady jsou nezbytné pro analytické operace jakékoli organizace. Jaký je ale rozdíl mezi datovým skladem a jinými typy úložišť dat, jako je třeba datové jezero? A kdy by měl být jeden z těchto typů úložišť upřednostněn před ostatními typy?

Datové sklady i datová jezera jako úložiště ukládají i zpracovávají data. I když se může zdát, že nabízejí stejné funkce, každý z těchto typů uložiště má své vlastní konkrétní případy použití. To je důvod, proč organizace běžně začleňují oba systémy, aby vytvořily ucelené komplexní řešení, které si dokáže poradit s mnoha různými účely.

Datový sklad má relační charakter. To znamená, že struktura nebo schéma dat jsou určeny předem definovanými obchodními a produktovými požadavky, které jsou kurátorovány, přizpůsobeny a optimalizovány pro operace dotazů SQL. Nejvhodnější využití datových skladů je proto pro ukládání dat, která byla zpracována ke konkrétním účelům, jako je dolování dat pro analýzy business intelligence nebo využití pro již identifikovaný obchodní případ použití.

Stejně jako datové sklady obsahují datová jezera strukturovaná a částečně strukturovaná data. Dokáží však také pojmout i neupravená a nezpracovaná data z různých nerelačních zdrojů včetně mobilních aplikací, zařízení IoT, sociálních médií nebo streamování. Je to proto, že struktura nebo schéma v datovém jezeře nejsou definovány, dokud nejsou data načtena. Díky své flexibilní a škálovatelné povaze se datová jezera často používají k provádění inteligentních forem analýzy dat, jako je například strojové učení.

plán podpory pro celou organizaci
Datové jezero Datový sklad
Typ

Strukturovaná, částečně strukturovaná, nestrukturovaná
Relační, nerelační

Strukturované
Relační

Schéma

Schéma při čtení

Schéma při zápisu

Formát

Nezpracovaná, nefiltrovaná

Zpracovaná, prověřená

Zdroje

Velké objemy dat, IoT, sociální média, streamovaná data

Aplikace, podniková, transakční data, dávkové generování sestav

Škálovatelnost

Snadné škálování s nízkými náklady

Obtížné a nákladné škálování

Uživatelé

Datoví vědci, datoví inženýři

Odborníci na datové sklady, obchodní analytici

Případy použití

Strojové učení, prediktivní analýza, analýza v reálném čase

Základní vytváření sestav, BI

Osoba, která sedí na židli a pracuje na stolním počítači

Architektura a návrh datového skladu

Když teď víte, proč a kdy byste měli datový sklad používat, můžeme se prostřednictvím návrhu datového skladu podívat na to, jak takový datový sklad funguje. Datový sklad je víc než jen jedno samostatně fungující silo. Jedná se spíše o vysoce strukturovaný, pečlivě navržený systém složený z více vrstev, které různými způsoby interagují s vašimi daty a mezi sebou navzájem. Tyto vrstvy obvykle zahrnují:

Spodní vrstva

Data jsou ingestována z různých zdrojů a pak jsou vyčištěna a transformována pro další použití v procesu označovaném jako extrakce, transformace a načítání (ETL). Ve spodní vrstvě se data také ukládají a optimalizují, což vede k rychlejší odezvě při dotazování a celkově lepšímu výkonu.

Střední vrstva

Tady najdete analytický modul, označovaný také jako server OLAP (Online Analytical Processing). Servery OLAP přistupují k velkým objemům dat z datového skladu vysokou rychlostí, což umožňuje velmi rychle získávat výsledky.

Horní vrstva

V horní vrstvě front-endové rozhraní vizuálně prezentuje zpracovaná data, ke kterým můžou přistupovat analytici a používat je pro veškeré potřeby vytváření sestav a samoobslužné získávání informací business intelligence.

Jak vytvořit datový sklad

Při návrhu a vytváření datového skladu je důležité vzít v úvahu cíle vaší organizace, a to dlouhodobé i jednorázové, a také povahu vašich dat. Kolik zdrojů dat integrujete? Plánujete automatizovat pracovní postupy? Jak budete data zkoumat a analyzovat? Vaše řešení se bude lišit v závislosti na komplexnosti vašich potřeb, ale typický podnikový databázový sklad se může skládat z následujících komponent:

  1. Zdroje dat, které získávají provozní data ze systémů prodejních míst, podnikových aplikací a jiných relačních databází.
  2. Pracovní oblast, kde se data čistí a transformují pro uložení do skladu nebo centralizovaného úložiště.
  3. Sklad nebo centralizované úložiště, ve kterém jsou uložena zpracovaná provozní data, metadata, souhrnná data a nezpracovaná data pro snadný přístup uživatelů.
  4. Přidání datových tržišť, která přebírají data z centralizovaného úložiště a poskytují je jako dílčí sady vybraným skupinám uživatelů.
  5. Prostředí sandboxu, které můžou datoví vědci používat k testování nových forem zkoumání dat v chráněném prostředí.
  6. Široká nabídka nástrojů pro datové sklady, architektur a rozhraní API k zajištění integrace, úložišť, výkonu a analýz.
Osoba analyzující grafy na přenosném počítači a datové sestavy na dvou monitorech
Obrazovka přenosného počítače s otevřenými grafy

Nástroje, software a zdroje pro datové sklady

V dnešním světě zaměřeném na data se mnoho velkých softwarových společností může chlubit zdánlivě nekonečnou nabídkou softwaru pro datové sklady, kdy každý má svůj specifický případ použití. Může to vypadat hrozivě, ale abyste mohli vytvořit ucelené a vysoce výkonné řešení, musíte investovat do správných nástrojů a technologií. Každá organizace má jiné potřeby, ale tady je několik základních produktů pro datové sklady, na které byste se měli zaměřit:

Skladování dat v cloudu a hybridním cloudu

Jednotné cloudové řešení pro skladování dat, jako je služba Azure Synapse Analytics, poskytuje organizacím možnost škálovat, výpočetně zpracovávat a ukládat data rychleji a s nižšími náklady.

Nástroje pro integraci dat

Kanály extrakce, transformace a načítání (ETL) umožňují uživatelům vytvářet, plánovat a orchestrovat pracovní postupy tak, aby byla zdrojová data automaticky integrována, čištěna a standardizována.

Úložiště objektů

Řešení úložiště objektů může pojmout velká množství strukturovaných, částečně strukturovaných i nestrukturovaných dat, což je ideální pro ukládání zdrojových dat před jejich načtením do skladu.

Nástroje pro skladování

Řešení distribuovaného úložiště uchovává velké sady dat v relačních tabulkách se sloupcovým úložištěm. To výrazně snižuje náklady, zlepšuje výkonnost dotazů a zkracuje dobu potřebnou k získávání přehledů.

Nástroje pro měření výkonu

Pokud chcete zvýšit výkon svých aplikací, můžete do nich začlenit Apache Spark, opensourcovou architekturu pro paralelní zpracování, která podporuje zpracování v paměti.

Správa prostředků a úloh

Správce prostředků přiděluje výpočetní výkon úlohám, abyste mohli odpovídajícím způsobem načítat, analyzovat, spravovat a exportovat data.

Modelování dat

Modelování dat kombinuje více zdrojů dat do jediného sémantického modelu a poskytuje strukturovaný a zjednodušený pohled na data.

Nástroje pro business intelligence

Nástroje pro obchodní analýzy pomáhají poskytovat uživatelům informace ve formě řídicích panelů, sestav a dalších vizualizačních nástrojů.

Funkce zabezpečení a ochrany osobních údajů

Funkce zabezpečení a dodržování předpisů, jako je šifrování dat, ověřování uživatelů a monitorování přístupu, zajišťují ochranu vašich dat.

Dvě osoby, které diskutují, a jedna osoba vpravo, která drží přenosný počítač

Co se stalo se službou Azure SQL Data Warehouse?

Funkce přidružené ke službě Azure SQL Data Warehouse jsou nyní součástí služby Azure Synapse Analytics a označují se jako vyhrazený fond SQL. Stávající zákazníci se službou Azure SQL Data Warehouse můžou dál provozovat své stávající úlohy služby Azure SQL Data Warehouse pomocí funkce vyhrazeného fondu SQL ve službě Azure Synapse Analytics, aniž by museli cokoli měnit. Zákazníci můžou také začít spravovat svá stávající data skladu pomocí služby Azure Synapse Analytics a využívat pokročilé analytické funkce, jako je průzkum bezserverových datových jezer a integrované moduly SQL a Apache Spark™.

Nejčastější dotazy

  • Datový sklad je centralizované úložiště, které uchovává strukturovaná data (databázové tabulky, excelové listy) a částečně strukturovaná data (soubory XML, webové stránky) pro účely vytváření sestav, analýzy a dalších forem business intelligence.

  • Používání datového skladu má mnoho výhod. Datový sklad může například konsolidovat více zdrojů dat do jediného zdroje pravdivých informací, který pak organizace můžou využívat k přijímání lépe informovaných rozhodnutí týkajících se firmy a provozu.

  • V datových skladech se ukládají strukturovaná a částečně strukturovaná data, která je možné používat jako zdroj pro dolování dat, vizualizaci dat a další specifické případy použití pro business intelligence. V datových jezerech se ukládají různé typy nezpracovaných dat, která pak můžou datoví vědci používat jako zdroj pro různé projekty.

  • Datový sklad se obvykle skládá z několika vrstev: spodní vrstvy, kde se data shromažďují a ukládají, střední vrstvy, kde se data analyzují, a horní vrstvy, kde se data zobrazují uživatelům, aby k nim mohli přistupovat a analyzovat je.

  • Při navrhování a vytváření infrastruktury datového skladu je důležité zvážit povahu dat a způsob, jakým je chcete transformovat. Mezi běžné prvky typického řešení patří zdroje dat, pracovní oblast, samotný sklad, datová tržiště, sandboxy a různé integrační nástroje.

  • Mnoho velkých softwarových společností se může chlubit širokou nabídkou produktů pro datové sklady.

  • Tyto funkce jsou nyní součástí služby Azure Synapse Analytics a označují se jako vyhrazený fond SQL. Stávající zákazníci se službou Azure SQL Data Warehouse tu můžou dál provozovat své úlohy , aniž by museli cokoli měnit.

Bezplatný účet

Vyzkoušejte si služby Azure Cloud Computing zdarma až po dobu 30 dní.

Průběžné platby

Začněte využívat průběžné platby. Nemusíte se předem k ničemu zavázat a zrušení je možné kdykoli.