Przyrostowe kopiowanie nowych plików na podstawie nazwy pliku partycjonowanego w czasie przy użyciu narzędzia do kopiowania danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku utworzysz fabrykę danych za pomocą witryny Azure Portal. Następnie użyjesz narzędzia do kopiowania danych, aby utworzyć potok, który przyrostowo kopiuje nowe pliki na podstawie nazwy pliku partycjonowanego czasowo z usługi Azure Blob Storage do usługi Azure Blob Storage.

Uwaga

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

Ten samouczek obejmuje wykonanie następujących kroków:

  • Tworzenie fabryki danych.
  • Tworzenie potoku za pomocą narzędzia do kopiowania danych.
  • Monitorowanie uruchomień potoku i działań.

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.
  • Konto usługi Azure Storage: użyj usługi Blob Storage jako magazynu danych źródłowego i ujścia. Jeśli nie masz konta usługi Azure Storage, zobacz instrukcje podane w temacie Tworzenie konta magazynu.

Tworzenie dwóch kontenerów w usłudze Blob Storage

Przygotuj magazyn obiektów blob na potrzeby samouczka, wykonując następujące kroki.

  1. Utwórz kontener o nazwie source. Utwórz ścieżkę folderu jako 2021/07/15/06 w kontenerze. Utwórz pusty plik tekstowy i nadaj mu nazwę file1.txt. Przekaż plik1.txt do ścieżki folderu source/2021/07/15/06 na koncie magazynu. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

    upload files

    Uwaga

    Dostosuj nazwę folderu o godzinie UTC. Jeśli na przykład bieżąca godzina UTC to 6:10 w dniu 15 lipca 2021 r., możesz utworzyć ścieżkę folderu jako źródło/2021/07/15/06/ przez regułę source/{Year}/{Month}/{Day}/{Hour}/.

  2. Utwórz kontener o nazwie destination. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

Tworzenie fabryki danych

  1. W menu po lewej stronie wybierz pozycję Utwórz zasób>Integration>Data Factory:

    Data Factory selection in the "New" pane

  2. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa Twojej fabryki danych musi być globalnie unikatowa. Może zostać wyświetlony następujący komunikat o błędzie:

    New data factory error message for duplicate name.

    Jeśli zostanie wyświetlony komunikat o błędzie dotyczącym wartości nazwy, wprowadź inną nazwę dla fabryki danych. Na przykład użyj nazwy twojanazwaADFTutorialDataFactory. Artykuł Data Factory naming rules (Zasady nazewnictwa fabryki danych) zawiera zasady nazewnictwa artefaktów usługi Data Factory.

  3. Wybierz subskrypcję platformy Azure, w której utworzysz nową fabrykę danych.

  4. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    a. Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.

    b. Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  5. W obszarze Wersja wybierz wersję V2.

  6. W obszarze lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (np. usługi Azure Storage i SQL Database) oraz jednostki obliczeniowe (np. usługa Azure HDInsight) używane przez Twoją fabrykę danych mogą mieścić się w innych lokalizacjach i regionach.

  7. Wybierz pozycję Utwórz.

  8. Po zakończeniu tworzenia zostanie wyświetlona strona główna usługi Data Factory.

  9. Aby uruchomić interfejs użytkownika usługi Azure Data Factory na osobnej karcie, wybierz pozycję Otwórz na kafelku Otwórz usługę Azure Data Factory Studio .

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Tworzenie potoku za pomocą narzędzia do kopiowania danych

  1. Na stronie głównej usługi Azure Data Factory wybierz tytuł pozyskiwania , aby uruchomić narzędzie do kopiowania danych.

    Screenshot that shows the ADF home page.

  2. Na stronie Właściwości wykonaj następujące czynności:

    1. W obszarze Typ zadania wybierz pozycję Wbudowane zadanie kopiowania.

    2. W obszarze Harmonogram zadań lub harmonogram zadań wybierz pozycję Okno wirowania.

    3. W obszarze Cykl wprowadź 1 godzinę.

    4. Wybierz Dalej.

    Properties page

  3. Na stronie Źródłowy magazyn danych wykonaj następujące czynności:

    a. Wybierz pozycję + Nowe połączenie , aby dodać połączenie.

    b. Wybierz pozycję Azure Blob Storage z galerii, a następnie wybierz pozycję Kontynuuj.

    c. Na stronie Nowe połączenie (Azure Blob Storage) wprowadź nazwę połączenia. Wybierz subskrypcję platformy Azure i wybierz swoje konto magazynu z listy Nazwa konta magazynu. Przetestuj połączenie, a następnie wybierz pozycję Utwórz.

    Source data store page

    d. Na stronie Źródłowy magazyn danych wybierz nowo utworzone połączenie w sekcji Połączenie ion.

    e. W sekcji Plik lub folder przeglądaj i wybierz kontener źródłowy, a następnie wybierz przycisk OK.

    f. W obszarze Zachowanie ładowania plików wybierz pozycję Ładowanie przyrostowe: nazwy folderów/plików partycjonowanych czasowo.

    g. Zapisz ścieżkę folderu dynamicznego jako źródło/{rok}/{month}/{day}/{hour}/, a następnie zmień format, jak pokazano na poniższym zrzucie ekranu.

    h. Zaznacz pozycję Kopia binarna i wybierz przycisk Dalej.

    Screenshot that shows the configuration of Source data store page.

  4. Na stronie Docelowy magazyn danych wykonaj następujące kroki:

    1. Wybierz usługę AzureBlobStorage, która jest tym samym kontem magazynu co magazyn źródła danych.

    2. Przeglądaj i wybierz folder docelowy, a następnie wybierz przycisk OK.

    3. Zapisz ścieżkę folderu dynamicznego jako docelową/{rok}/{month}/{day}/{hour}/, a następnie zmień format, jak pokazano na poniższym zrzucie ekranu.

    4. Wybierz Dalej.

    Screenshot that shows the configuration of Destination data store page.

  5. Na stronie Ustawienia w obszarze Nazwa zadania wprowadź ciąg DeltaCopyFromBlobPipeline, a następnie wybierz przycisk Dalej. Interfejs użytkownika usługi Data Factory tworzy potok o określonej nazwie zadania.

    Screenshot that shows the configuration of settings page.

  6. Na stronie Podsumowanie sprawdź ustawienia, a następnie kliknij przycisk Dalej.

    Summary page

  7. Na stronie Wdrażanie wybierz pozycję Monitorowanie, aby monitorować potok (zadanie). Deployment page

  8. Zwróć uwagę, że karta Monitor po lewej stronie jest automatycznie wybrana. Musisz poczekać na uruchomienie potoku, gdy zostanie on wyzwolony automatycznie (około po godzinie). Po uruchomieniu wybierz link nazwy potoku DeltaCopyFromBlobPipeline , aby wyświetlić szczegóły przebiegu działania lub ponownie uruchomić potok. Wybierz pozycję Odśwież, aby odświeżyć listę.

    Screenshot shows the Pipeline runs pane.

  9. W potoku jest tylko jedno działanie (działanie kopiowania), dlatego na liście jest wyświetlana tylko jedna pozycja. Dostosuj szerokość kolumn źródłowych i docelowych (w razie potrzeby), aby wyświetlić więcej szczegółów, można zobaczyć, że plik źródłowy (plik1.txt) został skopiowany z pliku źródłowego/2021/07/07/15/06/ do lokalizacji docelowej/2021/07/15/06/ o tej samej nazwie pliku.

    Screenshot shows pipeline run details.

    Możesz również zweryfikować to samo za pomocą Eksplorator usługi Azure Storage (https://storageexplorer.com/), aby skanować pliki.

    Screenshot shows pipeline run details for the destination.

  10. Utwórz kolejny pusty plik tekstowy o nowej nazwie jako file2.txt. Przekaż plik file2.txt do ścieżki folderu source/2021/07/15/07 na koncie magazynu. Do wykonania tych zadań możesz użyć różnych narzędzi, takich jak Eksplorator usługi Azure Storage.

    Uwaga

    Być może trzeba będzie utworzyć nową ścieżkę folderu. Dostosuj nazwę folderu o godzinie UTC. Jeśli na przykład bieżąca godzina UTC to 7:30 w lipcu. 15th, 2021, można utworzyć ścieżkę folderu jako source/2021/07/15/07/ przez regułę {Year}/{Month}/{Day}/{Hour}/.

  11. Aby wrócić do widoku Uruchomienia potoku, wybierz pozycję Wszystkie uruchomienia potoków i poczekaj, aż ten sam potok zostanie wyzwolony ponownie automatycznie po kolejnej godzinie.

    Screenshot shows the All pipeline runs link to return to that page.

  12. Wybierz nowy link DeltaCopyFromBlobPipeline dla drugiego przebiegu potoku, a następnie wykonaj to samo, aby przejrzeć szczegóły. Zobaczysz, że plik źródłowy (plik2.txt) został skopiowany ze źródła/2021/07/15/07/ do lokalizacji docelowej/2021/07/15/07/ o tej samej nazwie pliku. Możesz również sprawdzić to samo przy użyciu Eksplorator usługi Azure Storage (https://storageexplorer.com/), aby skanować pliki w kontenerze docelowym.

Przejdź do następującego samouczka, aby dowiedzieć się więcej o przekształcaniu danych za pomocą klastra Spark na platformie Azure: