Co je datové jezero?

Seznamte se s rozdíly mezi datovými jezery a datovými sklady. Zjistěte, jak vytvořit škálovatelný základ pro všechny vaše analýzy s využitím Azure.

Definice datového jezera

V tomto úvodním průvodci se seznámíte s mnoha výhodami a případy použití datového jezera. Zjistěte, co je datové jezero, proč je důležité, a objevte rozdíl mezi datovými jezery a datovými sklady. Nejprve ale definujme datové jezero jako termín.

Datové jezero je centralizované úložiště, které ingestuje a ukládá velké objemy dat v původní podobě. Data je pak možné zpracovat a použít jako základ pro různé analytické potřeby. Vzhledem ke své otevřené škálovatelné architektuře může datové jezero pojmout všechny typy dat z libovolného zdroje, od strukturovaných (databázové tabulky, listy Excel) až po částečně strukturované (soubory XML, webové stránky) až po nestrukturované (obrázky, zvukové soubory, tweety), a to vše bez dopadu na věrnost. Datové soubory se obvykle ukládají v nezpracovaných, vyčištěných a kurátorovaných zónách, aby různé typy uživatelů mohly data používat v různých formách, a aby vyhovovaly jejich potřebám. Datová jezera poskytují základní konzistenci dat napříč různými aplikacemi a podporují analýzu velkých objemů dat, strojového učení, prediktivní analýzy a další formy inteligentních akcí.

Proč jsou datová jezera důležitá pro firmy?

Dnešní vysoce propojený svět řízený přehledy by nebyl možný bez nástupu řešení nabízeného datového jezera. Je to proto, že organizace při konsolidaci, integraci, zabezpečení a přístupnosti nezpracovaných dat spoléhají na komplexní platformy datových jezer, jako je Azure Data Lake. Škálovatelné nástroje úložiště, jako jsou Azure Data Lake Storage, můžou uchovávat a chránit data na jednom centrálním místě a eliminovat sila za optimální náklady. To je základ pro uživatele, aby mohli provádět širokou škálu kategorií úloh, jako je zpracování velkých objemů dat, dotazy SQL, dolování textu, analýzy streamování a strojové učení. Data se pak dají použít k nasycení upstreamové vizualizace dat a k vytváření sestav v režimu ad hoc. Moderní komplexní datová platforma, jako je Azure Synapse Analytics, řeší kompletní potřeby architektury velkých objemů dat zaměřené na datové jezero.

Případy použití Data Lake

Díky dobře navrženému řešení je potenciál pro inovace nekonečný. Tady je několik příkladů toho, jak organizace v celé řadě odvětví využívají platformy datových jezer k optimalizaci svého růstu:

Streamovací média. Streamovací společnosti založené na předplatném shromažďují a zpracovávají přehledy o chování zákazníků, které mohou využít ke zlepšení svého algoritmu doporučení.
Finance. Investiční firmy využívají nejaktuálnější data o trhu, která se shromažďují a ukládají v reálném čase, k efektivní správě rizik portfolia.
Zdravotnictví. Zdravotnické organizace při zlepšování kvality péče o pacienty spoléhají na velké objemy dat. Nemocnice využívají obrovské množství historických dat ke zjednodušení cest pacientů napříč systémem, což vede k lepším výsledkům a snížení nákladů na péči.
Omnikanáloví prodejci. Prodejci používají datová jezera k zachytávání a konsolidaci dat přicházejících z několika styčných bodů, včetně mobilních, sociálních, chatovacích, z doporučení a osobně.
IoT (Internet věcí). Hardwarové senzory generují obrovské množství částečně strukturovaných a nestrukturovaných dat o okolním fyzickém světě. Datová jezera poskytují centrální úložiště pro tyto informace pro budoucí analýzu.
Digitální dodavatelský řetězec. Datová jezera pomáhají výrobcům konsolidovat různorodá data skladů, včetně systémů EDI, XML a JSON.
Prodeje. Datoví vědci a prodejní inženýři často vytvářejí prediktivní modely, které pomáhají určit chování zákazníků a snížit celkové úbytky.

Data Lake vs. datový sklad

Teď víte, co je datové jezero, proč je důležité a jak se používá v různých organizacích. Jaký je ale rozdíl mezi datovým jezerem a datovým skladem? A kdy je vhodné použít jedno a ne druhé?

I když jsou datová jezera a datové sklady podobné v tom, že ukládají i zpracovávají data, každá varianta je něčím výjimečná, a proto má vlastní případy použití. Proto je běžné, že organizace na podnikové úrovni do svého analytického ekosystému zahrne jak datové jezero tak i datový sklad. Obě úložiště spolupracují na vytvoření zabezpečeného komplexního systému pro ukládání, zpracování a rychlejší přehled.

Datové jezero zachycuje relační i nerelační data z různých zdrojů, od obchodních aplikací, mobilních aplikací, zařízení IoT, po sociální média nebo streamování, aniž by bylo nutné definovat strukturu nebo schéma dat, dokud se nepřečte. Při čtení schématu se zajistí, že jakýkoli typ dat může být uložen ve své nezpracované podobě. V důsledku toho mohou datová jezera obsahovat širokou škálu datových typů, od strukturovaných po částečně strukturovaná až nestrukturovaná, a to v libovolném měřítku. Jejich flexibilní a škálovatelná povaha je zásadní pro provádění složitých forem analýzy dat pomocí různých typů nástrojů pro zpracování výpočetních prostředků, jako jsou Apache Spark nebo Azure Machine Learning.

Datový sklad je naopak relační povahy. Struktura nebo schéma jsou vymodelované nebo předdefinované obchodními požadavky a požadavky na produkty, které jsou kurátorované, vyhovující a optimalizované pro operace dotazů SQL. Datové jezero uchovává data všech typů struktur, včetně nezpracovaných a nezpracovaných dat, kdežto datový sklad ukládá data, která byla zpracována a transformována s ohledem na konkrétní účel, který je pak možné použít ke zdrojové analýze nebo generování provozních sestav. Díky tomu jsou datové sklady ideální pro vytváření standardizovanějších forem analýzy BI nebo pro obsluhu již definovaného obchodního případu použití.

	Datové jezero	Datový sklad
Typ	Strukturovaná, částečně strukturovaná, nestrukturovaná	Strukturované
	Relační, nerelační	Relační
Schéma	Schéma při čtení	Schéma při zápisu
Formát	Nezpracované, nefiltrované	Zpracované, prověřené
Zdroje	Velké objemy dat, IoT, sociální média, streamovaná data	Aplikace, podniková, transakční data, dávkové generování sestav
Škálovatelnost	Snadné škálování s nízkými náklady	Obtížné a nákladné škálování
Uživatelé	Datoví vědci, datoví inženýři	Odborníci na datové sklady, obchodní analytici
Případy použití	Strojové učení, prediktivní analýza, analýza v reálném čase	Základní vytváření sestav, BI

Datové jezero vs. datové transakční jezero

Teď znáte rozdíl mezi datovým jezerem a datovým skladem. Jaký je ale rozdíl mezi datovým jezerem a datovým transakčním jezerem? A je potřeba mít obojí?

I když má tradiční datové jezero mnoho výhod, neobejde se ani bez nevýhod. Vzhledem k tomu, že datová jezera mohou pojmout všechny typy dat ze všech druhů zdrojů, může dojít k problémům souvisejícím s řízením kvality, poškozením dat a nesprávným dělením. Špatně spravované datové jezero nejen poškodí integritu dat, ale může také vést ke vzniku kritických bodů, pomalému výkonu a bezpečnostním rizikům.

V tomto bodě do hry vstupuje datové transakční jezero. Datové transakční jezero je řešení úložiště založené na otevřených standardech, které má mnoho podstaty. Dokáže řešit potřeby odborníků na data a inženýrů, kteří provádějí hloubkovou analýzu a zpracování dat, a také potřeby tradičních odborníků na datový sklad, kteří spravují a publikují data pro účely business intelligence a generování sestav. Výhodou transakčního jezera je to, že každá úloha může bez problémů pracovat nad datovým jezerem, aniž by bylo nutné duplikovat data do jiné strukturálně předdefinované databázedatabáze. Tím se zajistí, že všichni budou pracovat na nejaktuálnějších datech a zároveň se sníží redundance.

Datové transakční jezero řeší výzvy tradičních datových jezer přidáním vrstvy úložiště Delta Lake přímo nad cloudové datové jezero. Tato vrstva úložiště poskytuje flexibilní analytickou architekturu, která dokáže zpracovat transakce ACID (atomicita, konzistence, izolace a stálost) pro spolehlivost dat, integraci streamování a pokročilé funkce, jako je správa verzí dat a vynucování schématu. To umožňuje celou řadu analytických aktivit nad jezerem, aniž by to ohrozili konzistenci základních dat. I když nutnost použití jezera závisí na tom, jak složité jsou vaše potřeby, jeho flexibilita a rozsah z něj dělají optimální řešení pro mnoho podnikových organizací.

	Datové jezero	Datové transakční jezero
Typ	Strukturovaná, částečně strukturovaná, nestrukturovaná	Strukturovaná, částečně strukturovaná, nestrukturovaná
	Relační, nerelační	Relační, nerelační
Schéma	Schéma při čtení	Schéma pro čtení, schéma při zápisu
Formát	Nezpracované, nefiltrované, zpracované, kurátorované	Nezpracované, nefiltrované, zpracovávané, kurátorované, formátové soubory delta
Zdroje	Velké objemy dat, IoT, sociální média, streamovaná data	Velké objemy dat, IoT, sociální média, streamovaná data, aplikace, obchodní, transakční data, dávkové generování sestav
Škálovatelnost	Snadné škálování s nízkými náklady	Snadné škálování s nízkými náklady
Uživatelé	Odborníci na data	Obchodní analytici, datoví inženýři, odborníci na data
Případy použití	Strojové učení, prediktivní analýza	Základní vytváření sestav, BI, strojové učení, prediktivní analýza

Co je architektura datového jezera?

Jádrem datového jezera je úložiště, které nemá vlastní architekturu sady. Aby mohlo využívat funkce na maximum, vyžaduje širokou škálu nástrojů, technologií a výpočetních modulů, které pomáhají optimalizovat integraci, ukládání a zpracování dat. Tyto nástroje spolupracují na vytvoření uceleně vrstvené architektury, která je informovaná velkými objemy dat a běží nad datovým jezerem. Tato architektura může také tvořit provozní strukturu datového jezera. Každá organizace má svou vlastní jedinečnou konfiguraci, ale většina architektur datových transakčních jezer má následující vlastnosti:

Správa a orchestrace prostředků. Správce prostředků umožňuje datovému jezeře konzistentně spouštět úlohy přidělením správného množství dat, prostředků a výpočetního výkonu na správných místech.
Konektory pro snadný přístup. Různé pracovní postupy umožňují uživatelům snadno přistupovat k potřebným datům a sdílet je ve formě, ve které je potřebují.
Spolehlivé analýzy. Dobrá analytická služba by měla být rychlá, škálovatelná a distribuovaná. Měla by také podporovat různé kategorie úloh v různých jazycích.
Klasifikace dat. Profilace dat a jejich katalogování a archivace pomáhají organizacím sledovat obsah dat, kvalitu, umístění a historii.
Procesy ELT (Extract, load, transform). ELT představuje procesy, kterými se data extrahují z více zdrojů a načítají do nezpracované zóny datového jezera, a po extrakci se pak vyčistí a transformují, aby je aplikace mohly snadno používat.
Zabezpečení a podpora. Nástroje pro ochranu dat, jako je maskování, auditování, šifrování a monitorování přístupu, zajišťují, že vaše data zůstanou v bezpečí a soukromá.
Řízení a zásady správného řízení. Aby platforma datového jezera běžela co nejhladším způsobem, měli by se uživatelé poučit o její konfiguraci architektury a také o osvědčených postupech pro správu dat a provozu.

Další zdroje informací

Nejčastější dotazy

Datové jezero je centralizované úložiště, které ingestuje a ukládá velkém objemy dat, a umožňuje jejich zpracování v původní podobě. Dokáže pojmout všechny typy dat, které se pak používají k provádění analýz velkých objemů dat, strojového učení a dalších forem inteligentních akcí.

Další informace o datových jezerech
Organizace v různých odvětvích, včetně maloobchodu, financí a zábavy, používají platformy datových jezer k ukládání dat, získávání přehledů a zlepšování celkové kvality svých služeb. Investiční firmy například používají datová jezera ke shromažďování a zpracování dat po uvedení na trh, což jim umožňuje efektivněji spravovat rizika portfolia.
Datová jezera ukládají všechny typy nezpracovaných dat, které pak můžou datoví vědci použít pro různé projekty. Datové sklady ukládají vyčištěná a zpracovaná data, která se pak dají použít ke zdrojové analýze nebo provoznímu vytváření sestav, a také ke konkrétním případům použití BI.

Prozkoumání datových jezer a datových skladů
Datové transakční jezero kombinuje prvky datového jezera a datového skladu a vytváří flexibilní komplexní řešení pro datové vědy a business účely intelligence.

Další informace o datových transakčních jezerech
Jistě. Velké organizace ve všech odvětvích spoléhají na obrovské objemy dat uložených v datových jezerech, aby získaly inteligentní akce, získaly přehledy a rostly.

Objevte výhody datových jezer
Správa velkých objemů dat, včetně nezpracovaných a nestrukturovaných dat, může být obtížná, což může vést ke tvorbě kritických bodů, poškození dat, problémům s řízením kvality a problémům s výkonem. Proto je důležité udržovat dobré zásady správného řízení a postupy správy, které vám pomůžou bezproblémově provozovat vaši platformu datového jezera.
Architektura Data Lake označuje konkrétní konfiguraci nástrojů a technologií, které pomáhají udržovat data z datového jezera integrovaná, přístupná, uspořádaná a zabezpečená.

Projděte si osvědčené postupy pro architekturu datového jezera

Bezplatný účet

Vyzkoušejte si služby Azure Cloud Computing zdarma až po dobu 30 dní.

Vyzkoušet Azure zdarma

Průběžné platby

Začněte využívat průběžné platby. Nemusíte se předem k ničemu zavázat a zrušení je možné kdykoli.

Prozkoumejte průběžné platby

Co je datové jezero?

Definice datového jezera

Proč jsou datová jezera důležitá pro firmy?

Případy použití Data Lake

Data Lake vs. datový sklad

Datové jezero vs. datové transakční jezero

Co je architektura datového jezera?

Další zdroje informací

Informace k prozkoumání

Nápady na řešení

Příručky

Webináře

Nejčastější dotazy