Kopiowanie i przekształcanie danych na serwerze SFTP przy użyciu usługi Azure Data Factory lub Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób używania działania kopiowania do kopiowania danych z i do bezpiecznego serwera FTP (SFTP) oraz używania Przepływ danych do przekształcania danych na serwerze SFTP. Aby dowiedzieć się więcej, przeczytaj artykuł wprowadzający dotyczący usługi Azure Data Factory lub Azure Synapse Analytics.

Obsługiwane możliwości

Ten łącznik SFTP jest obsługiwany w przypadku następujących możliwości:

Obsługiwane możliwości IR
działanie Kopiuj (źródło/ujście) ① ②
Przepływ danych mapowania (źródło/ujście)
Działanie Lookup ① ②
Działanie GetMetadata ① ②
Działanie usuwania ① ②

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

W szczególności łącznik SFTP obsługuje następujące elementy:

  • Kopiowanie plików z i na serwer SFTP przy użyciu klucza publicznego Basic, SSH lub uwierzytelniania wieloskładnikowego.
  • Kopiowanie plików w formacie is lub przez analizowanie lub generowanie plików z obsługiwanymi formatami plików i koderami kompresji.

Wymagania wstępne

Jeśli magazyn danych znajduje się wewnątrz sieci lokalnej, sieci wirtualnej platformy Azure lub chmury prywatnej Amazon Virtual, musisz skonfigurować własne środowisko Integration Runtime , aby się z nim połączyć.

Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.

Możesz również użyć funkcji środowiska Integration Runtime zarządzanej sieci wirtualnej w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania własnego środowiska Integration Runtime.

Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.

Rozpocznij

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi SFTP przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę SFTP w interfejsie użytkownika witryny Azure Portal.

  1. Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj pozycję SFTP i wybierz łącznik SFTP.

    Screenshot of the SFTP connector.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Screenshot of configuration for an SFTP linked service.

szczegóły konfiguracji Połączenie or

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek specyficznych dla sfTP.

Właściwości połączonej usługi

Następujące właściwości są obsługiwane dla połączonej usługi SFTP:

Właściwości Opis Wymagania
type Właściwość type musi być ustawiona na Sftp. Tak
host Nazwa lub adres IP serwera SFTP. Tak
port Port, na którym nasłuchuje serwer SFTP.
Dozwolona wartość to liczba całkowita, a wartość domyślna to 22.
Nie.
skipHostKeyValidation Określ, czy pominąć walidację klucza hosta.
Dozwolone wartości to true i false (wartość domyślna).
Nie.
hostKeyFingerprint Określ odcisk palca klucza hosta. Tak, jeśli dla ustawienia "skipHostKeyValidation" ustawiono wartość false.
authenticationType Określ typ uwierzytelniania.
Dozwolone wartości to Basic, SshPublicKey i MultiFactor. Aby uzyskać więcej właściwości, zobacz sekcję Korzystanie z uwierzytelniania podstawowego. Aby zapoznać się z przykładami w formacie JSON, zobacz sekcję Use SSH public key authentication (Używanie uwierzytelniania za pomocą klucza publicznego SSH).
Tak
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Aby dowiedzieć się więcej, zobacz sekcję Wymagania wstępne . Jeśli środowisko Integration Runtime nie zostanie określone, usługa używa domyślnego środowiska Azure Integration Runtime. Nie.

Korzystanie z uwierzytelniania podstawowego

Aby użyć uwierzytelniania podstawowego , ustaw właściwość authenticationType na Podstawowa i określ następujące właściwości oprócz właściwości ogólnych łącznika SFTP, które zostały wprowadzone w poprzedniej sekcji:

Właściwości Opis Wymagania
userName Użytkownik, który ma dostęp do serwera SFTP. Tak
hasło Hasło użytkownika (userName). Oznacz to pole jako element SecureString w celu bezpiecznego przechowywania go lub odwołuj się do wpisu tajnego przechowywanego w magazynie kluczy platformy Azure. Tak

Przykład:

{
    "name": "SftpLinkedService",
    "properties": {
        "type": "Sftp",
        "typeProperties": {
            "host": "<sftp server>",
            "port": 22,
            "skipHostKeyValidation": false,
            "hostKeyFingerPrint": "ssh-rsa 2048 xx:00:00:00:xx:00:x0:0x:0x:0x:0x:00:00:x0:x0:00",
            "authenticationType": "Basic",
            "userName": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of integration runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Korzystanie z uwierzytelniania za pomocą klucza publicznego SSH

Aby użyć uwierzytelniania klucza publicznego SSH, ustaw właściwość "authenticationType" jako SshPublicKey i określ następujące właściwości oprócz ogólnych łącznika SFTP wprowadzone w ostatniej sekcji:

Właściwości Opis Wymagania
userName Użytkownik, który ma dostęp do serwera SFTP. Tak
privateKeyPath Określ ścieżkę bezwzględną do pliku klucza prywatnego, do którego może uzyskać dostęp środowisko Integration Runtime. Ma to zastosowanie tylko wtedy, gdy typ własnego środowiska Integration Runtime jest określony w obszarze "connectVia". Określ wartość privateKeyPath lub privateKeyContent.
privateKeyContent Zawartość klucza prywatnego SSH zakodowana w formacie Base64. Klucz prywatny SSH powinien mieć format OpenSSH. Oznacz to pole jako element SecureString w celu bezpiecznego przechowywania go lub odwołuj się do wpisu tajnego przechowywanego w magazynie kluczy platformy Azure. Określ wartość privateKeyPath lub privateKeyContent.
Hasło Określ hasło lub hasło, aby odszyfrować klucz prywatny, jeśli plik klucza lub zawartość klucza jest chroniona przez frazę dostępu. Oznacz to pole jako element SecureString w celu bezpiecznego przechowywania go lub odwołuj się do wpisu tajnego przechowywanego w magazynie kluczy platformy Azure. Tak, jeśli plik klucza prywatnego lub zawartość klucza jest chroniona przez frazę dostępu.

Uwaga

Łącznik SFTP obsługuje klucz RSA/DSA OpenSSH. Upewnij się, że zawartość pliku klucza rozpoczyna się od ciągu "-----BEGIN [RSA/DSA] PRIVATE KEY-----". Jeśli plik klucza prywatnego jest plikiem w formacie PPK, użyj narzędzia PuTTY, aby przekonwertować plik PPK na format OpenSSH.

Przykład 1: uwierzytelnianie SshPublicKey przy użyciu metody filePath klucza prywatnego

{
    "name": "SftpLinkedService",
    "properties": {
        "type": "Sftp",
        "typeProperties": {
            "host": "<sftp server>",
            "port": 22,
            "skipHostKeyValidation": true,
            "authenticationType": "SshPublicKey",
            "userName": "xxx",
            "privateKeyPath": "D:\\privatekey_openssh",
            "passPhrase": {
                "type": "SecureString",
                "value": "<pass phrase>"
            }
        },
        "connectVia": {
            "referenceName": "<name of integration runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Przykład 2: uwierzytelnianie SshPublicKey przy użyciu zawartości klucza prywatnego

{
    "name": "SftpLinkedService",
    "type": "Linkedservices",
    "properties": {
        "type": "Sftp",
        "typeProperties": {
            "host": "<sftp server>",
            "port": 22,
            "skipHostKeyValidation": true,
            "authenticationType": "SshPublicKey",
            "userName": "<username>",
            "privateKeyContent": {
                "type": "SecureString",
                "value": "<base64 string of the private key content>"
            },
            "passPhrase": {
                "type": "SecureString",
                "value": "<pass phrase>"
            }
        },
        "connectVia": {
            "referenceName": "<name of integration runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Korzystanie z uwierzytelniania wieloskładnikowego

Aby użyć uwierzytelniania wieloskładnikowego, które jest kombinacją podstawowych i SSH uwierzytelniania kluczy publicznych, określ nazwę użytkownika, hasło i informacje o kluczu prywatnym opisane w powyższych sekcjach.

Przykład: uwierzytelnianie wieloskładnikowe

{
    "name": "SftpLinkedService",
    "properties": {
        "type": "Sftp",
        "typeProperties": {
            "host": "<host>",
            "port": 22,
            "authenticationType": "MultiFactor",
            "userName": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            },
            "privateKeyContent": {
                "type": "SecureString",
                "value": "<base64 encoded private key content>"
            },
            "passPhrase": {
                "type": "SecureString",
                "value": "<passphrase for private key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of integration runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości zestawu danych

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz artykuł Zestawy danych.

Usługa Azure Data Factory obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Następujące właściwości są obsługiwane w przypadku protokołu SFTP w ustawieniach location w zestawie danych opartym na formacie:

Właściwości Opis Wymagania
type Właściwość type w obszarze location w zestawie danych musi być ustawiona na SftpLocation. Tak
folderPath Ścieżka do folderu. Jeśli chcesz użyć symbolu wieloznakowego do filtrowania folderu, pomiń to ustawienie i określ ścieżkę w ustawieniach źródła działań. Nie.
fileName Nazwa pliku w określonym folderPath. Jeśli chcesz używać symbolu wieloznakowego do filtrowania plików, pomiń to ustawienie i określ nazwę pliku w ustawieniach źródła działań. Nie.

Przykład:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<SFTP linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "SftpLocation",
                "folderPath": "root/folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines (Potoki ). Ta sekcja zawiera listę właściwości obsługiwanych przez źródło SFTP.

SFTP jako źródło

Usługa Azure Data Factory obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Następujące właściwości są obsługiwane w przypadku protokołu SFTP w ustawieniach storeSettings w źródle kopiowania opartym na formacie:

Właściwości Opis Wymagania
type Właściwość type w obszarze storeSettings musi być ustawiona na SftpRead Ustawienia. Tak
Lokalizowanie plików do skopiowania
OPCJA 1: ścieżka statyczna
Skopiuj z folderu/ścieżki pliku określonej w zestawie danych. Jeśli chcesz skopiować wszystkie pliki z folderu, dodatkowo określ wildcardFileName jako *.
OPCJA 2: symbol wieloznaczny
- symbol wieloznacznyFolderPath
Ścieżka folderu z symbolami wieloznacznymi do filtrowania folderów źródłowych.
Dozwolone symbole wieloznaczne to * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku); użyj polecenia ^ , aby uniknąć, jeśli rzeczywista nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz.
Aby uzyskać więcej przykładów, zobacz Przykłady filtrów folderów i plików.
Nie.
OPCJA 2: symbol wieloznaczny
- symbol wieloznacznyFileName
Nazwa pliku z symbolami wieloznacznymi w ramach określonego folderuPath/symbol wieloznacznyFolderPath do filtrowania plików źródłowych.
Dozwolone symbole wieloznaczne to * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku); użyj polecenia ^ , aby uciec, jeśli rzeczywista nazwa pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz. Aby uzyskać więcej przykładów, zobacz Przykłady filtrów folderów i plików.
Tak
OPCJA 3: lista plików
- fileListPath
Wskazuje, aby skopiować określony zestaw plików. Wskaż plik tekstowy zawierający listę plików, które chcesz skopiować (jeden plik na wiersz ze ścieżką względną do ścieżki skonfigurowanej w zestawie danych).
Jeśli używasz tej opcji, nie określaj nazwy pliku w zestawie danych. Aby uzyskać więcej przykładów, zobacz Przykłady listy plików.
Nie.
Ustawienia dodatkowe
Cykliczne Wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Gdy rekursywna jest ustawiona na wartość true, a ujście jest magazynem opartym na plikach, pusty folder lub podfolder nie jest kopiowany ani tworzony w ujściu.
Dozwolone wartości to true (wartość domyślna) i false.
Ta właściwość nie ma zastosowania podczas konfigurowania fileListPathelementu .
Nie.
deleteFilesAfterCompletion Wskazuje, czy pliki binarne zostaną usunięte z magazynu źródłowego po pomyślnym przeniesieniu do magazynu docelowego. Usunięcie pliku jest na plik, więc gdy działanie kopiowania nie powiedzie się, zobaczysz, że niektóre pliki zostały już skopiowane do miejsca docelowego i usunięte ze źródła, podczas gdy inne nadal pozostają w magazynie źródłowym.
Ta właściwość jest prawidłowa tylko w scenariuszu kopiowania plików binarnych. Wartość domyślna: false.
Nie.
modifiedDatetimeStart Pliki są filtrowane na podstawie atrybutu Ostatnia modyfikacja.
Pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy modifiedDatetimeStart i mniejszy niż modifiedDatetimeEnd. Czas jest stosowany do strefy czasowej UTC w formacie 2018-12-01T05:00:00Z.
Właściwości mogą mieć wartość NULL, co oznacza, że żaden filtr atrybutu pliku nie jest stosowany do zestawu danych. Jeśli modifiedDatetimeStart ma wartość data/godzina, ale modifiedDatetimeEnd ma wartość NULL, oznacza to, że wybrano pliki, których ostatnio zmodyfikowany atrybut jest większy lub równy wartości daty/godziny. Jeśli modifiedDatetimeEnd ma wartość typu data/godzina, ale modifiedDatetimeStart ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, są zaznaczone.
Ta właściwość nie ma zastosowania podczas konfigurowania fileListPathelementu .
Nie.
modifiedDatetimeEnd Jak wyżej. Nie.
enablePartitionDiscovery W przypadku plików podzielonych na partycje określ, czy analizować partycje ze ścieżki pliku i dodać je jako dodatkowe kolumny źródłowe.
Dozwolone wartości to false (wartość domyślna) i true.
Nie.
partitionRootPath Po włączeniu odnajdywania partycji określ bezwzględną ścieżkę katalogu głównego, aby odczytywać foldery podzielone na partycje jako kolumny danych.

Jeśli nie zostanie określony, domyślnie,
— Jeśli używasz ścieżki pliku w zestawie danych lub liście plików w źródle, ścieżka główna partycji jest ścieżką skonfigurowaną w zestawie danych.
— W przypadku używania filtru folderów wieloznacznych ścieżka główna partycji jest ścieżką podrzędną przed pierwszym symbolem wieloznacznymi.

Załóżmy na przykład, że ścieżka w zestawie danych zostanie skonfigurowana jako "root/folder/year=2020/month=08/day=27":
- Jeśli określisz ścieżkę główną partycji jako "root/folder/year=2020", działanie kopiowania wygeneruje dwie kolejne kolumny month i day z wartością "08" i "27" odpowiednio, oprócz kolumn wewnątrz plików.
— Jeśli nie określono ścieżki głównej partycji, nie zostanie wygenerowana żadna dodatkowa kolumna.
Nie.
maxConcurrent Połączenie ions Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. Nie.
disableChunking (wyłączanie fragmentowania) Podczas kopiowania danych z SFTP usługa próbuje najpierw uzyskać długość pliku, a następnie podzielić plik na wiele części i odczytać je równolegle. Określ, czy serwer SFTP obsługuje pobieranie długości pliku, czy też próby odczytu z określonego przesunięcia.
Dozwolone wartości to false (wartość domyślna), true.
Nie.

Przykład:

"activities":[
    {
        "name": "CopyFromSFTP",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "SftpReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv",
                    "disableChunking": false
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

SFTP jako ujście

Usługa Azure Data Factory obsługuje następujące formaty plików. Zapoznaj się z każdym artykułem, aby zapoznać się z ustawieniami opartymi na formacie.

Następujące właściwości są obsługiwane w przypadku protokołu SFTP w ustawieniach storeSettings w ujściu kopiowania opartego na formacie:

Właściwości Opis Wymagania
type Właściwość type w obszarze storeSettings musi być ustawiona na SftpWrite Ustawienia. Tak
copyBehavior Definiuje zachowanie kopiowania, gdy źródłem są pliki z magazynu danych opartego na plikach.

Dozwolone wartości to:
- PreserveHierarchy (wartość domyślna): Zachowuje hierarchię plików w folderze docelowym. Ścieżka względna pliku źródłowego do folderu źródłowego jest identyczna ze ścieżką względną pliku docelowego do folderu docelowego.
- FlattenHierarchy: Wszystkie pliki z folderu źródłowego znajdują się na pierwszym poziomie folderu docelowego. Pliki docelowe mają automatycznie wygenerowane nazwy.
- MergeFiles: Scala wszystkie pliki z folderu źródłowego do jednego pliku. Jeśli określono nazwę pliku, scalona nazwa pliku jest określoną nazwą. W przeciwnym razie jest to automatycznie wygenerowana nazwa pliku.
Nie.
maxConcurrent Połączenie ions Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. Nie.
useTempFileRename Określ, czy przekazywać pliki tymczasowe i zmieniać ich nazwy, czy bezpośrednio zapisywać w folderze docelowym lub lokalizacji pliku. Domyślnie usługa najpierw zapisuje dane w plikach tymczasowych, a następnie zmienia ich nazwę po zakończeniu przekazywania. Ta sekwencja pomaga (1) uniknąć konfliktów, które mogą spowodować uszkodzenie pliku, jeśli inne procesy zapisują się w tym samym pliku, i (2) upewnij się, że oryginalna wersja pliku istnieje podczas transferu. Jeśli serwer SFTP nie obsługuje operacji zmiany nazwy, wyłącz tę opcję i upewnij się, że nie masz współbieżnego zapisu do pliku docelowego. Aby uzyskać więcej informacji, zobacz poradę dotyczącą rozwiązywania problemów na końcu tej tabeli. L.p. Wartość domyślna to true.
operationTimeout Czas oczekiwania przed przekroczeniem limitu czasu każdego żądania zapisu na serwerze SFTP. Wartość domyślna to 60 minut (01:00:00). Nie.

Napiwek

Jeśli wystąpi błąd "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" lub "SftpOperationFail" podczas zapisywania danych w sfTP, a używany użytkownik SFTP ma odpowiednie uprawnienia, sprawdź, czy serwer SFTP obsługuje operację zmiany nazwy pliku działa. Jeśli tak nie jest, wyłącz opcję Przekaż z plikiem tymczasowym (useTempFileRename) i spróbuj ponownie. Aby dowiedzieć się więcej na temat tej właściwości, zobacz poprzednią tabelę. Jeśli używasz własnego środowiska Integration Runtime dla działanie Kopiuj, upewnij się, że używasz wersji 4.6 lub nowszej.

Przykład:

"activities":[
    {
        "name": "CopyToSFTP",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "BinarySink",
                "storeSettings":{
                    "type": "SftpWriteSettings",
                    "copyBehavior": "PreserveHierarchy"
                }
            }
        }
    }
]

Przykłady filtrów folderów i plików

W tej sekcji opisano zachowanie wynikające z używania filtrów wieloznacznych ze ścieżkami folderów i nazwami plików.

folderPath fileName Cykliczne Struktura folderu źródłowego i wynik filtru (pobierane są pliki pogrubione )
Folder* (puste, użyj wartości domyślnej) fałsz FolderA
    Plik1.csv
    Plik2.json
    Podfolder1
        Plik3.csv
        Plik4.json
        Plik5.csv
InnyfolderB
    Plik6.csv
Folder* (puste, użyj wartości domyślnej) prawda FolderA
    Plik1.csv
    Plik2.json
    Podfolder1
        Plik3.csv
        Plik4.json
        Plik5.csv
InnyfolderB
    Plik6.csv
Folder* *.csv fałsz FolderA
    Plik1.csv
    Plik2.json
    Podfolder1
        Plik3.csv
        Plik4.json
        Plik5.csv
InnyfolderB
    Plik6.csv
Folder* *.csv prawda FolderA
    Plik1.csv
    Plik2.json
    Podfolder1
        Plik3.csv
        Plik4.json
        Plik5.csv
InnyfolderB
    Plik6.csv

Przykłady listy plików

W tej tabeli opisano zachowanie, które wynika z używania ścieżki listy plików w źródle działanie Kopiuj. Przyjęto założenie, że masz następującą strukturę folderu źródłowego i chcesz skopiować pliki, które mają pogrubiony typ:

Przykładowa struktura źródła Zawartość w pliku FileListToCopy.txt Konfiguracja usługi Azure Data Factory
root
    FolderA
        Plik1.csv
        Plik2.json
        Podfolder1
            Plik3.csv
            Plik4.json
            Plik5.csv
    Metadane
        FileListToCopy.txt
Plik1.csv
Podfolder1/File3.csv
Podfolder1/File5.csv
W zestawie danych:
- Ścieżka folderu: root/FolderA

W źródle działanie Kopiuj:
- Ścieżka listy plików: root/Metadata/FileListToCopy.txt

Ścieżka listy plików wskazuje plik tekstowy w tym samym magazynie danych, który zawiera listę plików, które chcesz skopiować (jeden plik na wiersz, ze ścieżką względną do ścieżki skonfigurowanej w zestawie danych).

Właściwości przepływu mapowania danych

Podczas przekształcania danych w przepływach danych mapowania można odczytywać i zapisywać pliki z sfTP w następujących formatach:

Ustawienia specyficzne dla formatu znajdują się w dokumentacji dla tego formatu. Aby uzyskać więcej informacji, zobacz Przekształcanie źródła w przepływie mapowania danych i Przekształcanie ujścia w przepływie danych mapowania.

Uwaga

Walidacja klucza hosta SSH nie jest teraz obsługiwana w przepływie danych mapowania.

Uwaga

Aby uzyskać dostęp do lokalnego serwera SFTP, musisz użyć usługi Azure Data Factory lub zarządzanej sieci wirtualnej usługi Synapse przy użyciu prywatnego punktu końcowego. Zapoznaj się z tym samouczkiem , aby uzyskać szczegółowe instrukcje.

Przekształcanie źródła

W poniższej tabeli wymieniono właściwości obsługiwane przez źródło SFTP. Te właściwości można edytować na karcie Opcje źródła. W przypadku korzystania z wbudowanego zestawu danych zostaną wyświetlone dodatkowe ustawienia, które są takie same jak właściwości opisane w sekcji właściwości zestawu danych.

Nazwa/nazwisko opis Wymagania Dozwolone wartości Właściwość skryptu przepływu danych
Ścieżka symbolu wieloznakowego Użycie wzorca z symbolami wieloznacznymi spowoduje, że usługa ADF przeprowadzi pętlę przez każdy pasujący folder i plik w ramach jednej transformacji źródłowej. Jest to skuteczny sposób przetwarzania wielu plików w ramach jednego przepływu. Nie. Ciąg[] symbole wieloznacznePaths
Ścieżka główna partycji Jeśli foldery partycjonowane w źródle key=value plików mają format (na przykład year=2019), możesz przypisać najwyższy poziom drzewa folderów partycji do nazwy kolumny w strumieniu danych przepływu danych. Nie. String partitionRootPath
Zezwalaj na brak znalezionych plików Jeśli wartość true, błąd nie zostanie zgłoszony, jeśli nie znaleziono żadnych plików. Nie. true lub false ignoreNoFilesFound
Lista plików Jest to zestaw plików. Utwórz plik tekstowy zawierający listę plików ścieżki względnej do przetworzenia. Wskaż ten plik tekstowy. Nie. true lub false Filelist
Kolumna do przechowywania nazwy pliku Zapisz nazwę pliku źródłowego w kolumnie w danych. Wprowadź tutaj nową nazwę kolumny, aby zapisać ciąg nazwy pliku. Nie. String rowUrlColumn
Po zakończeniu Nie należy nic robić z plikiem źródłowym po uruchomieniu przepływu danych, usunięciu pliku źródłowego lub przeniesieniu pliku źródłowego. Ścieżki przenoszenia są względne. Nie. Usuń: true lub false
Przenieść: ['<from>', '<to>']
przeczyszczanie plików
moveFiles
Filtruj według ostatniej modyfikacji Możesz filtrować, które pliki są przetwarzane, określając zakres dat ostatniej modyfikacji. Wszystkie daty i godziny są w formacie UTC. Nie. Sygnatura czasowa Modifiedafter
Modifiedbefore

Przykład skryptu źródłowego SFTP

Jeśli używasz zestawu danych SFTP jako typu źródła, skojarzony skrypt przepływu danych to:

source(allowSchemaDrift: true,
	validateSchema: false,
	ignoreNoFilesFound: true,
	purgeFiles: true,
	fileList: true,
	modifiedAfter: (toTimestamp(1647388800000L)),
	modifiedBefore: (toTimestamp(1647561600000L)),
	partitionRootPath: 'partdata',
	wildcardPaths:['partdata/**/*.csv']) ~> SFTPSource

Przekształcenie ujścia

W poniższej tabeli wymieniono właściwości obsługiwane przez ujście SFTP. Te właściwości można edytować na karcie Ustawienia. W przypadku korzystania z wbudowanego zestawu danych zostaną wyświetlone dodatkowe ustawienia, które są takie same jak właściwości opisane w sekcji właściwości zestawu danych.

Nazwa/nazwisko opis Wymagania Dozwolone wartości Właściwość skryptu przepływu danych
Wyczyść folder Określa, czy folder docelowy zostanie wyczyszczone przed zapisaniem danych. Nie. true lub false truncate
Opcja Nazwa pliku Format nazewnictwa zapisanych danych. Domyślnie jeden plik na partycję w formacie part-#####-tid-<guid>. Nie. Wzorzec: ciąg
Na partycję: Ciąg[]
Nazwa pliku jako dane kolumny: Ciąg
Nazwa folderu jako dane kolumny: Ciąg
Dane wyjściowe do pojedynczego pliku: ['<fileName>']
filePattern
partitionFileNames
rowUrlColumn
rowFolderUrlColumn
partitionFileNames
Cudzysłowuj wszystko Określa, czy wszystkie wartości mają być ujęte w cudzysłów. Nie. true lub false quoteAll

Przykładowy skrypt ujścia SFTP

W przypadku użycia zestawu danych SFTP jako typu ujścia skojarzony skrypt przepływu danych to:

IncomingStream sink(allowSchemaDrift: true,
	validateSchema: false,
	filePattern:'loans[n].csv',
	truncate: true,
	skipDuplicateMapInputs: true,
	skipDuplicateMapOutputs: true) ~> SFTPSink

Właściwości działania wyszukiwania

Aby uzyskać informacje o właściwościach działania wyszukiwania, zobacz Działanie wyszukiwania.

Właściwości działania GetMetadata

Aby uzyskać informacje o właściwościach działania GetMetadata, zobacz Działanie GetMetadata.

Usuń właściwości działania

Aby uzyskać informacje o właściwościach działania Usuwania, zobacz Usuwanie działania.

Starsze modele

Uwaga

Następujące modele są nadal obsługiwane w celu zapewnienia zgodności z poprzednimi wersjami. Zalecamy użycie wcześniej omówionego nowego modelu, ponieważ interfejs użytkownika tworzenia zmienił się na generowanie nowego modelu.

Starszy model zestawu danych

Właściwości Opis Wymagania
type Właściwość type zestawu danych musi być ustawiona na FileShare. Tak
folderPath Ścieżka do folderu. Obsługiwany jest filtr wieloznaczny. Dozwolone symbole wieloznaczne to * (pasuje do zera lub większej liczby znaków) i ? (pasuje do zera lub pojedynczego znaku); użyj polecenia ^ , aby uciec, jeśli rzeczywista nazwa pliku ma symbol wieloznaczny lub znak ucieczki wewnątrz.

Przykłady: folder główny/podfolder/, zobacz więcej przykładów w przykładach filtru folderów i plików.
Tak
fileName Nazwa lub filtr symboli wieloznacznych dla plików w ramach określonego "folderPath". Jeśli nie określisz wartości dla tej właściwości, zestaw danych wskazuje wszystkie pliki w folderze.

W przypadku filtru dozwolone symbole wieloznaczne są * (dopasowywały zero lub więcej znaków) i ? (dopasowywały zero lub pojedynczy znak).
- Przykład 1: "fileName": "*.csv"
— Przykład 2: "fileName": "???20180427.txt"
Użyj ^ polecenia , aby uniknąć, jeśli rzeczywista nazwa folderu ma symbol wieloznaczny lub znak ucieczki wewnątrz.
Nie.
modifiedDatetimeStart Pliki są filtrowane na podstawie atrybutu Ostatnia modyfikacja. Pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy modifiedDatetimeStart i mniejszy niż modifiedDatetimeEnd. Czas jest stosowany do strefy czasowej UTC w formacie 2018-12-01T05:00:00Z.

Ogólna wydajność przenoszenia danych będzie miała wpływ na włączenie tego ustawienia, gdy chcesz filtrować pliki z dużej liczby plików.

Właściwości mogą mieć wartość NULL, co oznacza, że żaden filtr atrybutu pliku nie jest stosowany do zestawu danych. Jeśli modifiedDatetimeStart ma wartość data/godzina, ale modifiedDatetimeEnd ma wartość NULL, oznacza to, że wybrano pliki, których ostatnio zmodyfikowany atrybut jest większy lub równy wartości daty/godziny. Jeśli modifiedDatetimeEnd ma wartość typu data/godzina, ale modifiedDatetimeStart ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, są zaznaczone.
Nie.
modifiedDatetimeEnd Pliki są filtrowane na podstawie atrybutu Ostatnia modyfikacja. Pliki są wybierane, jeśli ich czas ostatniej modyfikacji jest większy lub równy modifiedDatetimeStart i mniejszy niż modifiedDatetimeEnd. Czas jest stosowany do strefy czasowej UTC w formacie 2018-12-01T05:00:00Z.

Ogólna wydajność przenoszenia danych będzie miała wpływ na włączenie tego ustawienia, gdy chcesz filtrować pliki z dużej liczby plików.

Właściwości mogą mieć wartość NULL, co oznacza, że żaden filtr atrybutu pliku nie jest stosowany do zestawu danych. Jeśli modifiedDatetimeStart ma wartość data/godzina, ale modifiedDatetimeEnd ma wartość NULL, oznacza to, że wybrano pliki, których ostatnio zmodyfikowany atrybut jest większy lub równy wartości daty/godziny. Jeśli modifiedDatetimeEnd ma wartość typu data/godzina, ale modifiedDatetimeStart ma wartość NULL, oznacza to, że pliki, których ostatnio zmodyfikowany atrybut jest mniejszy niż wartość daty/godziny, są zaznaczone.
Nie.
format Jeśli chcesz skopiować pliki w postaci między magazynami opartymi na plikach (kopiowanie binarne), pomiń sekcję formatowania zarówno w definicjach wejściowych, jak i wyjściowych zestawu danych.

Jeśli chcesz przeanalizować pliki w określonym formacie, obsługiwane są następujące typy formatów plików: TextFormat, JsonFormat, AvroFormat, OrcFormat i ParquetFormat. Ustaw właściwość type w formacie na jedną z tych wartości. Aby uzyskać więcej informacji, zobacz sekcje Format tekstu, Format JSON, Format Avro, Format Orc i Parquet format .
Nie (tylko w scenariuszu kopiowania binarnego)
kompresja Określ typ i poziom kompresji danych. Aby uzyskać więcej informacji, zobacz Obsługiwane formaty plików i koderów kompresji.
Obsługiwane typy to GZip, Deflate, BZip2 i ZipDeflate.
Obsługiwane poziomy są optymalne i najszybsze.
Nie.

Napiwek

Aby skopiować wszystkie pliki w folderze, określ tylko folderPath .
Aby skopiować pojedynczy plik o określonej nazwie, określ folderPath ze częścią folderu i fileName nazwą pliku.
Aby skopiować podzbiór plików w folderze, określ folderPath ze częścią folderu i fileName z filtrem wieloznacznymi.

Uwaga

Jeśli używasz właściwości fileFilter dla filtru pliku, nadal jest obsługiwana tak, jak to jest, ale zalecamy użycie nowej funkcji filtrowania dodanej do fileName od teraz.

Przykład:

{
    "name": "SFTPDataset",
    "type": "Datasets",
    "properties": {
        "type": "FileShare",
        "linkedServiceName":{
            "referenceName": "<SFTP linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "folder/subfolder/",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Starszy model źródłowy działanie Kopiuj

Właściwości Opis Wymagania
type Właściwość type źródła działanie Kopiuj musi być ustawiona na FileSystemSource Tak
Cykliczne Wskazuje, czy dane są odczytywane rekursywnie z podfolderów, czy tylko z określonego folderu. Gdy rekursywna jest ustawiona na wartość true , a ujście jest magazynem opartym na plikach, puste foldery i podfoldery nie zostaną skopiowane ani utworzone w ujściu.
Dozwolone wartości to true (wartość domyślna) i false
Nie.
maxConcurrent Połączenie ions Górny limit połączeń współbieżnych ustanowionych z magazynem danych podczas uruchamiania działania. Określ wartość tylko wtedy, gdy chcesz ograniczyć połączenia współbieżne. Nie.

Przykład:

"activities":[
    {
        "name": "CopyFromSFTP",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<SFTP input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "FileSystemSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia przez działanie Kopiuj, zobacz obsługiwane magazyny danych.