Przechwytywanie zmienionych danych z usługi Azure Data Lake Storage Gen2 do usługi Azure SQL Database przy użyciu zasobu przechwytywania zmian danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule użyjesz interfejsu użytkownika usługi Azure Data Factory, aby utworzyć zasób przechwytywania zmian danych (CDC). Zasób pobiera zmienione dane ze źródła usługi Azure Data Lake Storage Gen2 i dodaje je do usługi Azure SQL Database w czasie rzeczywistym.

W tym artykule omówiono sposób wykonywania następujących zadań:

  • Utwórz zasób CDC.
  • Monitorowanie aktywności cdC.

Możesz zmodyfikować i rozwinąć wzorzec konfiguracji w tym artykule.

Wymagania wstępne

Przed rozpoczęciem procedur opisanych w tym artykule upewnij się, że masz następujące zasoby:

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto platformy Azure.
  • Baza danych SQL. Usługa Azure SQL Database jest używana jako źródłowy magazyn danych. Jeśli nie masz bazy danych SQL, utwórz bazę danych w witrynie Azure Portal.
  • Konto magazynu. Usługa Delta Lake jest przechowywana w usłudze Azure Data Lake Storage Gen2 jako docelowy magazyn danych. Jeśli nie masz konta magazynu, zobacz Tworzenie konta magazynu, aby zapoznać się z krokami, które należy utworzyć.

Tworzenie artefaktu CDC

  1. Przejdź do okienka Autor w fabryce danych. Poniżej sekcji Potoki zostanie wyświetlony nowy artefakt najwyższego poziomu o nazwie Change Data Capture (wersja zapoznawcza).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Zatrzymaj wskaźnik myszy na przechwytywaniu zmian danych (wersja zapoznawcza) do momentu wyświetlenia trzech kropek. Następnie wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza) Akcje.

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Wybierz pozycję Nowa usługa CDC (wersja zapoznawcza). Ten krok otwiera okno wysuwane, aby rozpocząć proces z przewodnikiem.

    Screenshot of a list of change data capture actions.

  4. Zostanie wyświetlony monit o nadenie nazwy zasobowi CDC. Domyślnie nazwa to "adfcdc" z liczbą, która zwiększa się o 1. Możesz zastąpić tę nazwę domyślną wybraną nazwą.

    Screenshot of the text box to update the name of a resource.

  5. Użyj listy rozwijanej, aby wybrać źródło danych. W tym artykule wybierz pozycję RozdzielanyTekst.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Screenshot of the box to choose or create a linked service.

  7. Użyj obszaru Ustawienia źródła, aby opcjonalnie ustawić zaawansowane konfiguracje źródła, w tym ograniczniki kolumn i wierszy.

    Screenshot of advanced source settings to set delimiters.

    Jeśli te ustawienia źródłowe nie zostaną ręcznie edytowane, zostaną one ustawione na wartości domyślne.

  8. Użyj przycisku Przeglądaj, aby wybrać folder danych źródłowych.

    Screenshot of a folder icon to browse for a folder path.

  9. Po wybraniu ścieżki folderu wybierz pozycję Kontynuuj , aby ustawić element docelowy danych.

    Screenshot of the Continue button in the guided process to select data targets.

    Możesz dodać wiele folderów źródłowych przy użyciu przycisku plus (+). Inne źródła muszą również używać tej samej połączonej usługi, która została już wybrana.

  10. Wybierz wartość Typu docelowego przy użyciu listy rozwijanej. W tym artykule wybierz pozycję Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Zostanie wyświetlony monit o wybranie połączonej usługi. Utwórz nową połączoną usługę lub wybierz istniejącą.

    Screenshot of the box to choose or create a linked service to your data target.

  12. W przypadku tabel docelowych można utworzyć nową tabelę docelową lub wybrać istniejącą tabelę:

    • Aby utworzyć tabelę docelową, wybierz kartę Nowe jednostki , a następnie wybierz pozycję Edytuj nowe tabele.

      Screenshot of the tab to create new tables for your target.

    • Aby wybrać istniejącą tabelę, wybierz kartę Istniejące jednostki , a następnie użyj pola wyboru, aby wybrać tabelę. Użyj przycisku Podgląd, aby wyświetlić dane tabeli.

      Screenshot of the tab to choose tables for your target.

    Jeśli istniejące tabele w obiekcie docelowym mają pasujące nazwy, są domyślnie wybierane w obszarze Istniejące jednostki. Jeśli nie, nowe tabele z pasującymi nazwami są tworzone w obszarze Nowe jednostki. Ponadto można edytować nowe tabele za pomocą przycisku Edytuj nowe tabele .

  13. Możesz użyć pól wyboru, aby wybrać wiele tabel docelowych z bazy danych SQL. Po zakończeniu wybierania tabel docelowych wybierz pozycję Kontynuuj.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Zostanie wyświetlona nowa karta przechwytywania danych zmiany. Ta karta to studio CDC, w którym można skonfigurować nowy zasób.

    Screenshot of the change data capture studio.

    Nowe mapowanie jest tworzone automatycznie. Możesz zaktualizować opcje Tabela źródłowa i Docelowa tabela dla mapowania, korzystając z list rozwijanych.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Po wybraniu tabel ich kolumny są domyślnie mapowane z włączonym przełącznikiem Automatyczne mapowanie . Automatyczna mapa automatycznie mapuje kolumny według nazwy w ujściu, pobiera zmiany nowej kolumny po ewolucji schematu źródłowego i przepływa te informacje do obsługiwanych typów ujścia.

    Jeśli chcesz użyć automatycznej mapy i nie chcesz zmieniać żadnych mapowań kolumn, przejdź bezpośrednio do kroku 18.

    Screenshot of the toggle for automatic mapping turned on.

    Jeśli chcesz włączyć mapowania kolumn, wybierz mapowania i wyłącz przełącznik Automap . Następnie wybierz przycisk Mapowania kolumn, aby wyświetlić mapowania.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Możesz wrócić do automatycznego mapowania w dowolnym momencie, włączając przełącznik Automapa .

  16. Wyświetl mapowania kolumn. Użyj list rozwijanych, aby edytować mapowania kolumn dla metody mapowania, kolumny źródłowej i kolumny Target.

    Screenshot of the page for editing column mappings.

    Z poziomu tej strony można:

    • Dodaj więcej mapowań kolumn przy użyciu przycisku Nowe mapowanie . Użyj list rozwijanych, aby dokonać wyboru dla metody mapowania, kolumny źródłowej i kolumny Target.
    • Wybierz kolumnę Klucze , jeśli chcesz śledzić operację usuwania dla obsługiwanych typów ujścia.
    • Wybierz przycisk Odśwież w obszarze Podgląd danych, aby zwizualizować sposób przeglądania danych w miejscu docelowym.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Po zakończeniu mapowania wybierz przycisk strzałki, aby powrócić do głównej kanwy cdC.

    Screenshot of the button to go back to the table mapping page.

  18. Możesz dodać więcej mapowań typu source-to-target w jednym artefaktie CDC. Użyj przycisku Edytuj, aby dodać więcej źródeł danych i elementów docelowych. Następnie wybierz pozycję Nowe mapowanie i użyj list rozwijanych, aby ustawić nowe źródło i element docelowy. Automatyczne mapowanie można włączyć lub wyłączyć dla każdego z tych mapowań niezależnie.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Po zakończeniu mapowania ustaw opóźnienie cdC przy użyciu przycisku Ustaw opóźnienie .

    Screenshot of the Set Latency button at the top of the canvas.

  20. Wybierz opóźnienie usługi CDC, a następnie wybierz pozycję Zastosuj , aby wprowadzić zmiany.

    Domyślnie opóźnienie jest ustawione na 15 minut. W przykładzie w tym artykule użyto opcji czasu rzeczywistego dla opóźnienia. Opóźnienie w czasie rzeczywistym stale pobiera zmiany w danych źródłowych w odstępach czasu krótszym niż 1 minuta.

    W przypadku innych opóźnień (na przykład jeśli wybierzesz 15 minut), przechwytywanie zmian spowoduje przetworzenie danych źródłowych i odebranie wszelkich zmienionych danych od czasu ostatniego przetworzenia.

    Screenshot of the options for setting latency.

    Uwaga

    Jeśli obsługa jest rozszerzona na integrację danych przesyłanych strumieniowo (usługi Azure Event Hubs i źródła danych platformy Kafka), opóźnienie zostanie domyślnie ustawione na wartość Czasu rzeczywistego.

  21. Po zakończeniu konfigurowania usługi CDC wybierz pozycję Opublikuj wszystko , aby opublikować zmiany.

    Screenshot of the publish button at the top of the canvas.

    Uwaga

    Jeśli nie opublikujesz zmian, nie będzie można uruchomić zasobu usługi CDC. Przycisk Uruchom w następnym kroku będzie niedostępny.

  22. Wybierz pozycję Rozpocznij , aby rozpocząć uruchamianie przechwytywania danych zmian.

    Screenshot of the Start button at the top of the canvas.

Monitorowanie przechwytywania danych zmian

  1. Otwórz okienko Monitorowanie przy użyciu jednej z następujących metod:

    • Wybierz pozycję Monitoruj w witrynie Azure Portal.

      Screenshot of the Monitor button in the Azure portal.

    • Wybierz ikonę monitorowania z projektanta CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Wybierz pozycję Zmień przechwytywanie danych (wersja zapoznawcza), aby wyświetlić zasoby usługi CDC.

    Screenshot of the Change Data Capture button.

    Okienko Przechwytywanie zmian danych zawiera informacje Źródło, Cel, Stan i Ostatnio przetworzone w celu przechwycenia danych zmian.

    Screenshot of an overview of the change data capture monitoring page.

  3. Wybierz nazwę usługi CDC, aby wyświetlić więcej szczegółów. Możesz zobaczyć, ile zmian (wstawiania, aktualizowania lub usuwania) zostało odczytanych i zapisanych wraz z innymi informacjami diagnostycznymi.

    Screenshot of the detailed monitoring of a selected change data capture.

    Jeśli skonfigurujesz wiele mapowań w przechwytywaniu zmian danych, każde mapowanie będzie wyświetlane jako inny kolor. Wybierz pasek, aby wyświetlić szczegółowe informacje dla każdego mapowania, lub użyj informacji diagnostycznych w dolnej części okienka.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.