Przyrostowe ładowanie danych ze źródłowego do docelowego magazynu danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W rozwiązaniu integracji danych przyrostowe (lub różnicowe) ładowanie danych po początkowym pełnym ładowaniu danych to powszechnie używany scenariusz. W samouczkach w tej sekcji opisano różne sposoby przyrostowego ładowania danych przy użyciu usługi Azure Data Factory.

Ładowanie danych różnicowych z bazy danych przy użyciu limitu

W takim przypadku należy zdefiniować limit w źródłowej bazie danych. Limit to kolumna, która zawiera znacznik czasu ostatniej aktualizacji lub klucz o zwiększającej się wartości. Rozwiązanie ładowania różnicowego służy do ładowania zmienionych danych między starą a nową wartością limitu. Na poniższym diagramie przedstawiono przepływ pracy dla tej metody:

Workflow for using a watermark

Aby uzyskać instrukcje krok po kroku, zobacz następujące samouczki:

Aby uzyskać informacje o szablonach, zobacz następujące elementy:

Ładowanie danych różnicowych z bazy danych SQL przy użyciu technologii Change Tracking

Technologia Change Tracking to rozwiązanie o małych wymaganiach w programie SQL Server i bazie danych Azure SQL Database, które zapewnia wydajny mechanizm śledzenia zmian na potrzeby aplikacji. Dzięki temu w aplikacji można łatwo zidentyfikować dane, które zostały wstawione, zaktualizowane lub usunięte.

Na poniższym diagramie przedstawiono przepływ pracy dla tej metody:

Workflow for using Change Tracking

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Ładowanie nowych i zmienionych plików tylko przy użyciu parametru LastModifiedDate

Nowe i zmienione pliki można skopiować tylko przy użyciu funkcji LastModifiedDate do magazynu docelowego. Usługa ADF przeskanuje wszystkie pliki z magazynu źródłowego, zastosuje filtr pliku według właściwości LastModifiedDate i skopiuje tylko nowy i zaktualizowany plik od ostatniego czasu do magazynu docelowego. Należy pamiętać, że jeśli zezwolisz usłudze ADF na skanowanie ogromnych ilości plików, ale skopiujesz tylko kilka plików do miejsca docelowego, będzie to nadal trwać długo z powodu procesu skanowania plików.

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Aby uzyskać informacje o szablonach, zobacz następujące elementy:

Załaduj nowe pliki tylko za pomocą partycjonowanego na podstawie czasu folderu lub nazwy pliku.

Możesz kopiować tylko nowe pliki, gdy pliki lub foldery zostały już poddane partycjonowaniu na podstawie czasu za pomocą informacji o kwancie czasu jako części nazwy pliku lub folderu (na przykład /rrrr/mm/dd/plik.csv). Jest to najbardziej wydajne podejście do przyrostowego ładowania nowych plików.

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Przejdź do następującego samouczka: