Kopiowanie nowych i zmienionych plików według właściwości LastModifiedDate za pomocą usługi Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano szablon rozwiązania, którego można użyć do kopiowania nowych i zmienionych plików tylko przez LastModifiedDate z magazynu opartego na plikach do magazynu docelowego.

Informacje o tym szablonie rozwiązania

Ten szablon najpierw wybiera nowe i zmienione pliki tylko według ich atrybutów LastModifiedDate, a następnie kopiuje te wybrane pliki z magazynu źródła danych do magazynu docelowego danych.

Szablon zawiera jedno działanie:

  • Kopiuj , aby skopiować nowe i zmienione pliki tylko przez LastModifiedDate z magazynu plików do magazynu docelowego.

Szablon definiuje sześć parametrów:

  • FolderPath_Source to ścieżka folderu, w której można odczytywać pliki z magazynu źródłowego. Musisz zastąpić wartość domyślną własną ścieżką folderu.
  • Directory_Source to ścieżka podfolderu, w której można odczytywać pliki z magazynu źródłowego. Musisz zastąpić wartość domyślną własną ścieżką podfolderu.
  • FolderPath_Destination to ścieżka folderu, w której chcesz skopiować pliki do magazynu docelowego. Musisz zastąpić wartość domyślną własną ścieżką folderu.
  • Directory_Destination to ścieżka podfolderu, w której chcesz skopiować pliki do magazynu docelowego. Musisz zastąpić wartość domyślną własną ścieżką podfolderu.
  • LastModified_From służy do wybierania plików, których atrybut LastModifiedDate jest po lub równy tej wartości daty/godziny. Aby wybrać tylko nowe pliki, które nie zostały skopiowane ostatnio, ta wartość daty/godziny może być godziną ostatniego wyzwolenia potoku. Wartość domyślną "2019-02-01T00:00:00Z" można zamienić na oczekiwaną wartość LastModifiedDate w strefie czasowej UTC.
  • LastModified_To służy do wybierania plików, których atrybut LastModifiedDate znajduje się przed tą wartością daty/godziny. Aby wybrać tylko nowe pliki, które nie zostały skopiowane w poprzednich uruchomieniach, ta wartość daty/godziny może być bieżącą godziną. Wartość domyślną "2019-02-01T00:00:00Z" można zamienić na oczekiwaną wartość LastModifiedDate w strefie czasowej UTC.

Jak używać tego szablonu rozwiązania

  1. Przejdź do galerii szablonów na karcie Tworzenie w usłudze Azure Data Factory, a następnie wybierz + przycisk Potok i na koniec Galeria szablonów.

    Zrzut ekranu przedstawiający sposób otwierania galerii szablonów na karcie Tworzenie w usłudze Azure Data Factory Studio.

  2. Wyszukaj szablon Copy new files only by LastModifiedDate (Kopiuj nowe pliki tylko według wartości LastModifiedDate), wybierz go, a następnie wybierz pozycję Kontynuuj.

    Zrzut ekranu przedstawiający sposób znajdowania i wybierania szablonu Kopiuj nowe pliki tylko według szablonu LastModifiedDate.

  3. Utwórz nowe połączenie z magazynem docelowym. Magazyn docelowy to miejsce, do którego chcesz skopiować pliki.

    Tworzenie nowego połączenia ze źródłem

  4. Utwórz nowe połączenie ze źródłowym magazynem magazynu. Źródłowy magazyn magazynu to miejsce, z którego chcesz skopiować pliki.

    Tworzenie nowego połączenia z miejscem docelowym

  5. Wybierz Użyj tego szablonu.

    Używanie tego szablonu

  6. Potok jest dostępny w panelu, jak pokazano w poniższym przykładzie:

    Pokaż potok

  7. Wybierz pozycję Debuguj, zapisz wartość parametrów i wybierz pozycję Zakończ. Na poniższej ilustracji ustawimy parametry w następujący sposób.

    • FolderPath_Source = folder źródłowy
    • Directory_Source = podfolder
    • FolderPath_Destination = folder docelowy
    • Directory_Destination = podfolder
    • LastModified_From = 2019-02-01T00:00:00Z
    • LastModified_To = 2019-03-01T00:00:00Z

    Przykład wskazuje, że pliki, które zostały ostatnio zmodyfikowane w przedziałach czasu (2019-02-01T00:00:00Z do 2019-03-01T00:00:00Z) zostaną skopiowane ze źródłowego folderu źródłowego/podfolderu ścieżki źródłowej do folderu docelowego ścieżki docelowej/podfolderu. Możesz zastąpić te czasy lub foldery własnymi parametrami.

    Uruchamianie potoku

  8. Przejrzyj wyniki. Do magazynu docelowego są kopiowane tylko ostatnio zmodyfikowane pliki w skonfigurowanym przedmowy.

    Przejrzyj wynik

  9. Teraz możesz dodać wyzwalacz okien stałoczasowych w celu zautomatyzowania tego potoku, aby potok zawsze mógł kopiować nowe i zmienione pliki tylko przez funkcję LastModifiedDate okresowo. Wybierz pozycję Dodaj wyzwalacz, a następnie wybierz pozycję Nowy/Edytuj.

    Zrzut ekranu przedstawiający opcję menu Nowy/Edytuj, która jest wyświetlana po wybraniu pozycji Dodaj wyzwalacz.

  10. W oknie Dodawanie wyzwalaczy wybierz pozycję + Nowy.

  11. Wybierz pozycję Okno wirowania dla typu wyzwalacza, ustaw wartość Co 15 minut jako cykl (można zmienić na dowolny czas interwału). Wybierz pozycję Tak w polu Aktywowano, a następnie wybierz przycisk OK.

    Tworzenie wyzwalacza

  12. Ustaw wartość parametrów przebiegu wyzwalacza w następujący sposób, a następnie wybierz pozycję Zakończ.

    • = FolderPath_Source folder źródłowy. Możesz zastąpić folder folderem w źródłowym magazynie danych.
    • = Directory_Source podfolder. Możesz zastąpić element podfolderem w źródłowym magazynie danych.
    • FolderPath_Destination folder docelowy = . Możesz zastąpić folder folderem w docelowym magazynie danych.
    • = Directory_Destination podfolder. Możesz zastąpić element podfolderem w docelowym magazynie danych.
    • = LastModified_From@trigger().outputs.windowStartTime. Jest to zmienna systemowa z wyzwalacza określająca czas ostatniego wyzwolenia potoku.
    • = LastModified_To@trigger().outputs.windowEndTime. Jest to zmienna systemowa z wyzwalacza określająca czas wyzwolenia potoku tym razem.

    Parametry wejściowe

  13. Wybierz pozycję Opublikuj wszystkie.

    Opublikuj wszystko

  14. Utwórz nowe pliki w folderze źródłowym magazynu źródeł danych. Teraz czekasz, aż potok zostanie wyzwolony automatycznie i tylko nowe pliki zostaną skopiowane do magazynu docelowego.

  15. Wybierz kartę Monitor w panelu nawigacyjnym po lewej stronie i poczekaj około 15 minut, jeśli cykl wyzwalacza został ustawiony na co 15 minut.

  16. Przejrzyj wyniki. Potok jest wyzwalany automatycznie co 15 minut, a tylko nowe lub zmienione pliki z magazynu źródłowego są kopiowane do magazynu docelowego w każdym przebiegu potoku.

    Zrzut ekranu przedstawiający wyniki zwracane po wyzwoleniu potoku.