Změna zachytávání dat ve službě Azure Data Factory a Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje zachytávání dat změn (CDC) ve službě Azure Data Factory.

Další informace najdete v přehledu služby Azure Data Factory nebo přehledu služby Azure Synapse.

Přehled

Když provádíte integraci dat a procesy ETL v cloudu, mohou vaše úlohy fungovat lépe a efektivněji, když čtete pouze zdrojová data, která se změnila od posledního spuštění kanálu, a ne vždy dotazování celé datové sady při každém spuštění. ADF poskytuje několik různých způsobů, jak snadno získat rozdílová data pouze z posledního spuštění.

Změna prostředku objektu pro vytváření dat

Nejjednodušším a nejrychlejším způsobem, jak začít pracovat v datové továrně pomocí CDC, je prostřednictvím prostředku Change Data Capture na úrovni továrny. V hlavním návrháři kanálu klikněte na Nový v části Prostředky továrny a vytvořte nový záznam změn dat. Prostředek objektu pro vytváření CDC poskytuje podrobné informace o konfiguraci, kde můžete vybrat zdroje a cíle, použít volitelné transformace a potom kliknutím na tlačítko Začít zahajovat zachytávání dat. S prostředkem CDC nemusíte navrhovat kanály ani aktivity toku dat. Během zpracování dat se vám také účtují pouze čtyři jádra toků dat pro obecné účely. Můžete nastavit upřednostňovanou latenci, kterou ADF použije k probuzení a vyhledání změněných dat. To je jediný čas, kdy se vám bude fakturovat. Prostředek CDC nejvyšší úrovně je také metoda ADF průběžného spouštění procesů. Kanály v ADF jsou pouze dávkové, ale prostředek CDC může běžet nepřetržitě.

Nativní zachytávání dat změn v mapování toku dat

Změněná data, včetně vložených, aktualizovaných a odstraněných řádků, je možné automaticky rozpoznat a extrahovat mapováním toku dat ADF ze zdrojových databází. K identifikaci změn nejsou potřeba žádné sloupce časového razítka ani ID, protože v databázích používá nativní technologii zachytávání dat změn. Když jednoduše zřetězíte zdrojovou transformaci a odkaz na transformaci jímky na datovou sadu databáze v toku dat mapování, uvidíte, že změny zdrojové databáze se automaticky použijí na cílovou databázi, abyste mohli snadno synchronizovat data mezi dvěma tabulkami. Můžete také přidat jakékoli transformace mezi jakoukoli obchodní logiku pro zpracování rozdílových dat. Při definování cíle dat jímky můžete v jímce nastavit operace vložení, aktualizace, upsertu a odstranění bez nutnosti transformace alter row, protože ADF dokáže automaticky rozpoznat tvůrce řádků.

Podporované konektory

Automatická přírůstková extrakce v mapování toku dat

Nově aktualizované řádky nebo aktualizované soubory je možné automaticky rozpoznat a extrahovat mapováním toku dat ADF ze zdrojových úložišť. Pokud chcete získat rozdílová data z databází, je přírůstkový sloupec nutný k identifikaci změn. Pokud chcete načíst nové soubory nebo aktualizované soubory jenom z úložiště úložiště, mapování toku dat ADF právě funguje přes čas poslední změny souborů.

Podporované konektory

Extrakce rozdílových dat spravovaných zákazníkem v kanálu

Vždy můžete vytvořit vlastní kanál pro extrakci rozdílových dat pro všechna podporovaná úložiště dat ADF, včetně použití aktivity vyhledávání, abyste získali hodnotu meze uloženou v tabulce externích ovládacích prvků, aktivitu kopírování nebo mapování aktivity toku dat, abyste mohli dotazovat rozdílová data proti sloupci časového razítka nebo ID, a aktivita SP zapisuje novou hodnotu meze zpět do tabulky externích ovládacích prvků pro příští spuštění. Pokud chcete načíst nové soubory jenom z úložiště úložiště, můžete buď odstranit soubory pokaždé, když byly přesunuty do cíle úspěšně, nebo využít čas dělení na oddíly nebo názvy souborů nebo čas poslední změny k identifikaci nových souborů.

Osvědčené postupy

Změna zachytávání dat z databází

  • Nativní zachytávání dat změn se vždy doporučuje jako nejjednodušší způsob, jak získat data změn. Přináší také mnohem menší zátěž zdrojové databázi, když ADF extrahuje data změn pro další zpracování.
  • Pokud vaše úložiště databází nejsou součástí seznamu konektorů ADF s podporou nativního zachytávání dat změn, doporučujeme zkontrolovat možnost automatické přírůstkové extrakce, ve které je potřeba zachytávat změny pouze vstupním přírůstkovým sloupcem. ADF se postará o zbytek včetně vytvoření dynamického dotazu pro rozdílové načítání a správu kontrolního bodu pro každé spuštění aktivity.
  • Extrakce rozdílových dat spravovaná zákazníkem v kanálu pokrývá všechny podporované databáze ADF a poskytuje flexibilitu pro kontrolu všeho sami.

Změna zachytávání souborů ze souborových úložišť

  • Pokud chcete načíst data ze služby Azure Blob Storage, Azure Data Lake Storage Gen2 nebo Azure Data Lake Storage Gen1, nabízí mapování toku dat možnost získat nové nebo aktualizované soubory jediným kliknutím. Jedná se o nejjednodušší a doporučený způsob, jak dosáhnout rozdílového zatížení z těchto úložišť založených na souborech při mapování toku dat.
  • Můžete získat další osvědčené postupy.

CheckPoint

Když povolíte nativní zachytávání dat změn nebo možnosti automatické přírůstkové extrakce v toku dat mapování ADF, pomůže ADF spravovat kontrolní bod, aby se zajistilo, že každé spuštění aktivity bude automaticky číst pouze zdrojová data, která se změnila od posledního spuštění kanálu. Ve výchozím nastavení je kontrolní bod propojený s názvem kanálu a aktivity. Pokud změníte název kanálu nebo název aktivity, kontrolní bod se resetuje, což vás povede k zahájení nebo získání změn odteď v dalším spuštění. Pokud chcete změnit název kanálu nebo název aktivity, ale přesto zachovat kontrolní bod, abyste získali změněná data z posledního spuštění automaticky, použijte k tomu vlastní klíč kontrolního bodu v aktivitě toku dat. Pravidlo pojmenování vlastního klíče kontrolního bodu je stejné jako propojené služby, datové sady, kanály a toky dat.

Při ladění kanálu funguje tato funkce stejně. Kontrolní bod se resetuje při aktualizaci prohlížeče během spuštění ladění. Jakmile budete spokojeni s výsledkem kanálu spuštění ladění, můžete pokračovat v publikování a aktivaci kanálu. V okamžiku, kdy poprvé aktivujete publikovaný kanál, se automaticky restartuje od začátku nebo od této chvíle dojde ke změnám.

V části monitorování máte vždy možnost znovu spustit kanál. Když to uděláte, změněná data se vždy zaznamenávají z předchozího kontrolního bodu vybraného kanálu.

Kurzy

Následující kurzy slouží ke spuštění zachytávání dat změn ve službě Azure Data Factory a Azure Synapse Analytics.

Šablony

Níže jsou uvedené šablony, které používají zachytávání dat změn ve službě Azure Data Factory a Azure Synapse Analytics.