Programowanie i debugowanie iteracyjne przy użyciu potoków usługi Azure Data Factory i usługi Synapse Analytics

Artykuł
12/09/2023

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Usługi Azure Data Factory i Synapse Analytics obsługują iteracyjne programowanie i debugowanie potoków. Te funkcje umożliwiają przetestowanie zmian przed utworzeniem żądania ściągnięcia lub opublikowaniem ich w usłudze.

Aby zapoznać się z ośmiominutowym wprowadzeniem i pokazem tej funkcji, obejrzyj następujący film wideo:

Debugowanie potoku

Podczas tworzenia przy użyciu kanwy potoku możesz przetestować działania przy użyciu funkcji Debugowanie . Po uruchomieniu testów nie trzeba publikować zmian w usłudze przed wybraniem pozycji Debuguj. Ta funkcja jest przydatna w scenariuszach, w których chcesz upewnić się, że zmiany działają zgodnie z oczekiwaniami przed zaktualizowaniem przepływu pracy.

Debug capability on the pipeline canvas

Po uruchomieniu potoku na karcie Dane wyjściowe kanwy potoku można zobaczyć wyniki każdego działania.

Wyświetl wyniki przebiegów testu w oknie Dane wyjściowe kanwy potoku.

Output window of the pipeline canvas

Po pomyślnym zakończeniu przebiegu testu dodaj więcej działań do potoku i kontynuuj debugowanie w sposób iteracyjny. Możesz również anulować przebieg testu, gdy jest on w toku.

Ważne

Wybranie pozycji Debugowanie powoduje uruchomienie potoku. Jeśli na przykład potok zawiera działanie kopiowania, przebieg testu kopiuje dane ze źródła do miejsca docelowego. W związku z tym zalecamy używanie folderów testowych w działaniach kopiowania i innych działaniach podczas debugowania. Po debugowania potoku przejdź do rzeczywistych folderów, które mają być używane w normalnych operacjach.

Ustawianie punktów przerwania

Usługa umożliwia debugowanie potoku do momentu osiągnięcia określonego działania na kanwie potoku. Umieść punkt przerwania w działaniu, do którego chcesz przetestować, i wybierz pozycję Debuguj. Usługa zapewnia, że test jest uruchamiany tylko do momentu działania punktu przerwania na kanwie potoku. Ta funkcja Debuguj do czasu jest przydatna, gdy nie chcesz testować całego potoku, ale tylko podzestaw działań wewnątrz potoku.

Breakpoints on the pipeline canvas

Aby ustawić punkt przerwania, wybierz element na kanwie potoku. Opcja Debuguj do jest wyświetlana jako puste czerwone kółko w prawym górnym rogu elementu.

Before setting a breakpoint on the selected element

Po wybraniu opcji Debuguj do momentu zmieni się ona na wypełnione czerwone kółko, aby wskazać, że punkt przerwania jest włączony.

After setting a breakpoint on the selected element

Monitorowanie przebiegów debugowania

Po uruchomieniu przebiegu debugowania potoku wyniki będą wyświetlane w oknie Dane wyjściowe kanwy potoku. Karta danych wyjściowych będzie zawierać tylko ostatnie uruchomienie, które wystąpiło podczas bieżącej sesji przeglądarki.

Output window of the pipeline canvas

Aby wyświetlić widok historyczny przebiegów debugowania lub wyświetlić listę wszystkich aktywnych przebiegów debugowania, możesz przejść do środowiska Monitor .

Azure Data Factory
Synapse Analytics

Select the View active debug runs icon

Uwaga

Usługa utrzymuje tylko historię uruchamiania debugowania przez 15 dni.

Debugowanie przepływów danych mapowania

Przepływy mapowania danych umożliwiają tworzenie logiki przekształcania danych bez użycia kodu, która działa na dużą skalę. Podczas tworzenia logiki możesz włączyć sesję debugowania, aby interaktywnie pracować z danymi przy użyciu dynamicznego klastra Spark. Aby dowiedzieć się więcej, przeczytaj o trybie debugowania przepływu mapowania danych.

Aktywne sesje debugowania przepływu danych można monitorować w środowisku monitora .

View data flow debug sessions

Podgląd danych w projektancie przepływu danych i debugowaniu potoków przepływów danych jest przeznaczony do pracy z małymi próbkami danych. Jeśli jednak musisz przetestować logikę w potoku lub przepływie danych pod kątem dużych ilości danych, zwiększ rozmiar środowiska Azure Integration Runtime używanego w sesji debugowania z większą liczbie rdzeni i co najmniej obliczenia ogólnego przeznaczenia.

Debugowanie potoku za pomocą działania przepływu danych

Podczas wykonywania przebiegu potoku debugowania przy użyciu przepływu danych dostępne są dwie opcje użycia obliczeń. Możesz użyć istniejącego klastra debugowania lub użyć nowego klastra just in time dla przepływów danych.

Użycie istniejącej sesji debugowania znacznie zmniejszy czas uruchamiania przepływu danych, ponieważ klaster jest już uruchomiony, ale nie jest zalecany w przypadku złożonych lub równoległych obciążeń, ponieważ może się to nie powieść, gdy wiele zadań jest uruchamianych jednocześnie.

Użycie środowiska uruchomieniowego działania spowoduje utworzenie nowego klastra przy użyciu ustawień określonych w środowisku Integration Runtime każdego przepływu danych. Umożliwia to izolowanie każdego zadania i powinno być używane na potrzeby złożonych obciążeń lub testów wydajnościowych. Możesz również kontrolować czas wygaśnięcia w środowisku Azure IR, aby zasoby klastra używane do debugowania były nadal dostępne przez ten okres w celu obsługi dodatkowych żądań zadań.

Uwaga

Jeśli masz potok z przepływami danych wykonywanymi równolegle lub przepływami danych, które muszą być przetestowane z dużymi zestawami danych, wybierz pozycję "Użyj środowiska uruchomieniowego działania", aby usługa mogła używać środowiska Integration Runtime wybranego w działaniu przepływu danych. Umożliwi to wykonywanie przepływów danych w wielu klastrach i może obsługiwać równoległe wykonywanie przepływów danych.

Running a pipeline with a dataflow

Po przetestowaniu zmian podwyższ ich poziom do wyższych środowisk przy użyciu ciągłej integracji i ciągłego wdrażania.