Przechwytywanie zmian danych w usługach Azure Data Factory i Azure Synapse Analytics

Artykuł
12/09/2023

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano przechwytywanie zmian danych (CDC) w usłudze Azure Data Factory.

Aby dowiedzieć się więcej, zobacz Omówienie usługi Azure Data Factory lub Omówienie usługi Azure Synapse.

Omówienie

Podczas przeprowadzania integracji danych i procesów ETL w chmurze zadania mogą działać lepiej i efektywniej, gdy odczytujesz tylko dane źródłowe, które uległy zmianie od czasu ostatniego uruchomienia potoku, zamiast zawsze wykonywać zapytania dotyczące całego zestawu danych w każdym uruchomieniu. Usługa ADF oferuje wiele różnych sposobów łatwego pobierania danych różnicowych tylko z ostatniego uruchomienia.

Zmienianie zasobu fabryki przechwytywania danych

Najprostszym i najszybszym sposobem rozpoczęcia pracy w fabryce danych za pomocą usługi CDC jest zasób przechwytywania zmian danych na poziomie fabryki. W głównym projektancie potoku kliknij pozycję Nowy w obszarze Zasoby fabryki, aby utworzyć nowe przechwytywanie zmian danych. Zasób fabryki CDC udostępnia środowisko opisano konfigurację, w której można wybrać źródła i miejsca docelowe, zastosować opcjonalne przekształcenia, a następnie kliknąć przycisk Rozpocznij, aby rozpocząć przechwytywanie danych. W przypadku zasobu CDC nie trzeba projektować potoków ani działań przepływu danych. Opłaty są również naliczane tylko za cztery rdzenie przepływów danych ogólnego przeznaczenia podczas przetwarzania danych. Możesz ustawić preferowane opóźnienie, które będzie używane przez usługę ADF do wznawiania i wyszukiwania zmienionych danych. To jest jedyny czas, w którym zostanie naliczona opłata. Zasób cdC najwyższego poziomu jest również metodą ADF ciągłego uruchamiania procesów. Potoki w usłudze ADF są tylko wsadowe, ale zasób CDC może działać w sposób ciągły.

Natywne przechwytywanie danych zmian w przepływie danych mapowania

Zmienione dane, w tym wstawione, zaktualizowane i usunięte wiersze, można automatycznie wykrywać i wyodrębniać przez przepływ danych mapowania usługi ADF ze źródłowych baz danych. Do zidentyfikowania zmian nie są wymagane żadne kolumny sygnatury czasowej ani identyfikatorów, ponieważ w bazach danych są używane natywne technologie przechwytywania danych zmian. Po prostu łącząc przekształcenie źródła i przekształcenie ujścia do zestawu danych bazy danych w przepływie danych mapowania, można zobaczyć zmiany wprowadzone w źródłowej bazie danych, które mają zostać automatycznie zastosowane do docelowej bazy danych, dzięki czemu można łatwo synchronizować dane między dwiema tabelami. Można również dodać dowolne przekształcenia między dowolną logiką biznesową w celu przetwarzania danych różnicowych. Podczas definiowania miejsca docelowego danych ujścia można ustawić operacje wstawiania, aktualizowania, upsert i usuwania ujścia bez konieczności przekształcenia Alter Row, ponieważ usługa ADF może automatycznie wykrywać twórców wierszy.

Obsługiwane łączniki

Automatyczne wyodrębnianie przyrostowe w przepływie danych mapowania

Nowo zaktualizowane wiersze lub zaktualizowane pliki można automatycznie wykrywać i wyodrębniać przez przepływ danych mapowania usługi ADF z magazynów źródłowych. Aby uzyskać dane różnicowe z baz danych, do zidentyfikowania zmian wymagana jest kolumna przyrostowa. Jeśli chcesz załadować nowe pliki lub zaktualizować pliki tylko z magazynu magazynu, przepływ danych mapowania usługi ADF działa tylko przez czas ostatniej modyfikacji plików.

Obsługiwane łączniki

Wyodrębnianie danych różnicowych zarządzanych przez klienta w potoku

Zawsze możesz utworzyć własny potok wyodrębniania danych różnicowych dla wszystkich magazynów danych obsługiwanych przez usługę ADF, w tym przy użyciu działania wyszukiwania, aby uzyskać wartość limitu przechowywanego w zewnętrznej tabeli sterowania, działanie kopiowania lub działanie przepływu mapowania danych w celu wykonywania zapytań dotyczących danych różnicowych względem sygnatury czasowej lub kolumny identyfikatorów oraz działania sp w celu zapisania nowej wartości limitu z powrotem do tabeli kontroli zewnętrznej na potrzeby następnego uruchomienia. Jeśli chcesz załadować nowe pliki tylko z magazynu magazynu, możesz usuwać pliki za każdym razem po pomyślnym przeniesieniu do miejsca docelowego lub wykorzystać czas partycjonowany folder lub nazwy plików albo czas ostatniej modyfikacji, aby zidentyfikować nowe pliki.

Najlepsze praktyki

Zmienianie przechwytywania danych z baz danych

Natywne przechwytywanie danych zmian jest zawsze zalecane jako najprostszy sposób uzyskiwania danych zmian. Zwiększa to również znacznie mniejsze obciążenie źródłowej bazy danych, gdy usługa ADF wyodrębnia dane zmiany w celu dalszego przetwarzania.
Jeśli magazyny bazy danych nie są częścią listy łączników usługi ADF z natywną obsługą przechwytywania danych zmian, zalecamy sprawdzenie opcji automatycznego wyodrębniania przyrostowego, w której należy wprowadzić tylko kolumnę przyrostową w celu przechwycenia zmian. Usługa ADF zajmie się resztą, w tym tworzeniem dynamicznego zapytania na potrzeby ładowania różnicowego i zarządzaniem punktem kontrolnym dla każdego uruchomienia działania.
Wyodrębnianie danych różnicowych zarządzanych przez klienta w potoku obejmuje wszystkie obsługiwane bazy danych usługi ADF i zapewniają elastyczność samodzielnej kontroli nad wszystkimi elementami.

Przechwytywanie plików z magazynów opartych na plikach

Jeśli chcesz załadować dane z usługi Azure Blob Storage, Azure Data Lake Storage Gen2 lub Azure Data Lake Storage Gen1, przepływ mapowania danych zapewnia możliwość pobrania nowych lub zaktualizowanych plików tylko jednym kliknięciem. Najprostszym i zalecanym sposobem osiągnięcia obciążenia różnicowego z tych magazynów opartych na plikach w przepływie mapowania danych jest najprostszy i zalecany.
Możesz uzyskać więcej najlepszych rozwiązań.

Punkt kontrolny

Po włączeniu opcji przechwytywania danych zmian natywnych lub automatycznego wyodrębniania przyrostowego w przepływie danych mapowania usługi ADF usługa ADF pomaga zarządzać punktem kontrolnym, aby upewnić się, że każde uruchomienie działania automatycznie odczytuje tylko dane źródłowe, które uległy zmianie od czasu ostatniego uruchomienia potoku. Domyślnie punkt kontrolny jest powiązany z nazwą potoku i działania. Jeśli zmienisz nazwę potoku lub nazwę działania, punkt kontrolny zostanie zresetowany, co prowadzi do rozpoczęcia od początku lub pobrania zmian od teraz w następnym uruchomieniu. Jeśli chcesz zmienić nazwę potoku lub nazwę działania, ale nadal zachowaj punkt kontrolny, aby automatycznie uzyskać zmienione dane z ostatniego uruchomienia, użyj własnego klucza punktu kontrolnego w działaniu przepływu danych, aby to osiągnąć. Reguła nazewnictwa własnego klucza punktu kontrolnego jest taka sama jak połączone usługi, zestawy danych, potoki i przepływy danych.

Podczas debugowania potoku ta funkcja działa tak samo. Punkt kontrolny zostanie zresetowany podczas odświeżania przeglądarki podczas uruchamiania debugowania. Po zadowoleniu z wyniku potoku z przebiegu debugowania możesz przejść do przodu, aby opublikować i wyzwolić potok. W momencie, gdy po raz pierwszy wyzwalasz opublikowany potok, automatycznie uruchamia się ponownie od początku lub pobiera zmiany od teraz.

W sekcji monitorowania zawsze masz możliwość ponownego uruchomienia potoku. W tym przypadku zmienione dane są zawsze przechwytywane z poprzedniego punktu kontrolnego wybranego przebiegu potoku.

Samouczki

Poniżej przedstawiono samouczki umożliwiające rozpoczęcie przechwytywania zmian w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.

Szablony

Poniżej przedstawiono szablony do używania przechwytywania zmian danych w usłudze Azure Data Factory i usłudze Azure Synapse Analytics.

Replikowanie wielu obiektów z systemu SAP za pośrednictwem usługi SAP CDC

Dowiedz się, jak używać klucza punktu kontrolnego w działaniu przepływu danych.
Dowiedz się więcej o zasobie przechwytywania zmian danych usługi ADF.
Zapoznaj się z tworzeniem artefaktu CDC najwyższego poziomu.