Omówienie i architektura możliwości rozwiązania SAP CDC

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Dowiedz się więcej o możliwościach przechwytywania zmian (CDC) rozwiązania SAP w usłudze Azure Data Factory i poznaj architekturę.

Azure Data Factory to platforma integracji danych ETL i ELT jako usługa (PaaS). W przypadku integracji danych SAP usługa Data Factory oferuje obecnie sześć łączników ogólnej dostępności:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Wymagania dotyczące wyodrębniania danych

Łączniki SAP w usłudze Data Factory wyodrębniają dane źródłowe SAP tylko w partiach. Każda partia przetwarza istniejące i nowe dane w taki sam sposób. W trybie wyodrębniania danych wsadowych zmiany między istniejącymi i nowymi zestawami danych nie są identyfikowane. Ten typ trybu wyodrębniania nie jest optymalny, gdy masz duże zestawy danych, takie jak tabele z milionami lub miliardami rekordów, które często się zmieniają.

Możesz zachować aktualność i aktualność kopii danych SAP, często wyodrębniając pełny zestaw danych, ale takie podejście jest kosztowne i nieefektywne. Możesz również użyć ręcznego, ograniczonego obejścia, aby wyodrębnić głównie nowe lub zaktualizowane rekordy. W procesie nazywanym znakami wodnymi wyodrębnianie wymaga użycia kolumny znacznika czasu, monotonicznie rosnącej wartości i ciągłego śledzenia najwyższej wartości od ostatniego wyodrębnienia. Jednak niektóre tabele nie mają kolumny, której można użyć do oznaczania wodą. Ten proces nie identyfikuje również usuniętego rekordu jako zmiany w zestawie danych.

Możliwości usługi SAP CDC

Klienci firmy Microsoft wskazują, że potrzebują łącznika, który może wyodrębnić tylko różnicę między dwoma zestawami danych. W danych delta to każda zmiana zestawu danych, która jest wynikiem aktualizacji, wstawiania lub usuwania w zestawie danych. Łącznik wyodrębniania różnicowego używa funkcji przechwytywania zmian danych (CDC) SAP, która istnieje w większości systemów SAP w celu określenia różnicy w zestawie danych. Funkcje usługi SAP CDC w usłudze Data Factory używają struktury SAP Operational Data Provisioning (ODP) do replikowania różnicy w źródłowym zestawie danych SAP.

Ten artykuł zawiera ogólną architekturę możliwości rozwiązania SAP CDC w usłudze Azure Data Factory. Uzyskaj więcej informacji na temat możliwości rozwiązania SAP CDC:

Jak korzystać z możliwości usługi SAP CDC

Łącznik SAP CDC jest rdzeniem możliwości rozwiązania SAP CDC. Może łączyć się ze wszystkimi systemami SAP, które obsługują oprogramowanie ODP, w tym SAP ECC, SAP S/4HANA, SAP BW i SAP BW/4HANA. Rozwiązanie działa bezpośrednio w warstwie aplikacji lub pośrednio za pośrednictwem serwera replikacji poziomej SAP (SLT) jako serwera proxy. Nie polega na znakowaniu wodnym w celu pełnego lub przyrostowego wyodrębniania danych SAP. Dane wyodrębniane przez łącznik SAP CDC zawierają nie tylko tabele fizyczne, ale także obiekty logiczne tworzone przy użyciu tabel. Przykładem obiektu opartego na tabeli jest widok podstawowych usług DATA Services (ABAP, Advanced Business Application Programming) SAP Advanced Business Application Programming (ABAP).

Użyj łącznika SAP CDC z funkcjami usługi Data Factory, takimi jak działania przepływu mapowania danych i wyzwalacze okien stałoczasowych, aby uzyskać rozwiązanie replikacji SAP CDC o małych opóźnieniach w potoku zarządzanym przez siebie.

Architektura rozwiązania SAP CDC

Rozwiązanie SAP CDC w usłudze Azure Data Factory to łącznik między oprogramowaniem SAP i platformą Azure. Po stronie systemu SAP znajduje się łącznik SAP ODP, który wywołuje interfejs API ODP za pośrednictwem standardowych modułów remote Function Call (RFC), aby wyodrębnić pełne i różnicowe nieprzetworzone dane SAP.

Strona platformy Azure zawiera przepływ danych mapowania, który może przekształcać i ładować dane SAP do dowolnego ujścia danych obsługiwanego przez przepływy mapowania danych. Niektóre z tych opcji to miejsca docelowe magazynu, takie jak Azure Data Lake Storage Gen2 lub bazy danych, takie jak Azure SQL Database lub Azure Synapse Analytics. Działanie przepływu mapowania danych może również załadować wyniki w usłudze Data Lake Storage Gen2 w formacie różnicowym. Funkcja Delta Lake Time Travel umożliwia tworzenie migawek danych SAP przez określony okres. Przepływy danych potoku i mapowania można często uruchamiać przy użyciu wyzwalacza okna wirowania usługi Data Factory w celu replikowania danych SAP na platformie Azure z małym opóźnieniem i bez używania znaku wodnego.

Diagram of the architecture of the SAP CDC solution.

Aby rozpocząć, utwórz połączoną usługę SAP CDC, źródłowy zestaw danych sap CDC i potok z działaniem przepływu mapowania danych, w którym jest używany źródłowy zestaw danych SAP CDC. Aby wyodrębnić dane z oprogramowania SAP, wymagane jest własne środowisko Integration Runtime, które jest instalowane na komputerze lokalnym lub na maszynie wirtualnej z widokiem na systemy źródłowe SAP lub serwer SLT. Działanie przepływu mapowania danych jest uruchamiane w bezserwerowym klastrze usługi Azure Databricks lub Apache Spark albo w środowisku Azure Integration Runtime. Do skonfigurowania magazynu przejściowego należy skonfigurować działanie przepływu mapowania danych w celu zapewnienia bezproblemowej pracy własnego środowiska Integration Runtime z interfejsem Integration Runtime przepływu mapowania danych.

Łącznik SAP CDC używa struktury SAP ODP do wyodrębniania różnych typów źródeł danych, w tym:

  • Wyodrębniacze SAP, pierwotnie utworzone w celu wyodrębniania danych z rozwiązania SAP ECC i ładowania ich do systemu SAP BW
  • Widoki usługi CDS ABAP — nowy standard wyodrębniania danych dla oprogramowania SAP S/4HANA
  • Zestawy danych InfoProviders i InfoObjects w systemach SAP BW i SAP BW/4HANA
  • Tabele aplikacji SAP podczas korzystania z serwera replikacji SAP LT (SLT) jako serwera proxy

W tym procesie źródła danych SAP są dostawcami. Dostawcy działają w systemach SAP, aby utworzyć pełne lub przyrostowe dane w operacyjnej kolejce różnicowej (ODQ). Źródło przepływu danych mapowania jest subskrybentem funkcji ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Ponieważ odp całkowicie rozdziela dostawców od subskrybentów, każda dokumentacja systemu SAP, która oferuje konfiguracje dostawcy, ma zastosowanie do usługi Data Factory jako subskrybenta. Aby uzyskać więcej informacji na temat odp, zobacz Wprowadzenie do aprowizacji danych operacyjnych.

Wymagania wstępne i konfiguracja rozwiązania SAP CDC