Vysvětlení Apache Sparku pro vývojáře v U-SQL

Důležité

Azure Data Lake Analytics vyřazena 29. února 2024. Další informace najdete v tomto oznámení.

Pro analýzu dat může vaše organizace používat Azure Synapse Analytics nebo Microsoft Fabric.

Microsoft podporuje několik analytických služeb, jako jsou Azure Databricks, Azure HDInsight a Azure Data Lake Analytics. Od vývojářů se dozvídáme, že při vytváření analytických kanálů mají jasná preference opensourcových řešení. Abychom vývojářům V-SQL pomohli pochopit Apache Spark a jak můžete transformovat skripty U-SQL na Apache Spark, vytvořili jsme tyto doprovodné materiály.

Obsahuje kroky, které můžete provést, a několik alternativ.

Postup transformace U-SQL na Apache Spark

  1. Transformujte kanály orchestrace úloh.

    Pokud k orchestraci skriptů Azure Data Lake Analytics používáte Azure Data Factory, musíte je upravit, abyste mohli orchestrovat nové programy Sparku.

  2. Seznamte se s rozdíly mezi tím, jak U-SQL a Spark spravují data.

    Pokud chcete přesunout data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2, musíte zkopírovat data souboru i data uchováná v katalogu. Azure Data Lake Analytics podporuje jenom Azure Data Lake Storage Gen1. Další informace najdete v tématu Principy datových formátů Sparku.

  3. Transformujte skripty U-SQL na Spark.

    Před transformací skriptů U-SQL musíte zvolit analytickou službu. Mezi dostupné výpočetní služby patří:

    • Azure Data Factory Toky dat mapování toků dat jsou vizuálně navržené transformace dat, které umožňují datovým inženýrům vyvinout grafickou logiku transformace dat bez psaní kódu. I když nejsou vhodné ke spouštění složitých uživatelských kódů, můžou snadno představovat tradiční transformace toku dat podobné SQL.
    • Azure HDInsight Hive Apache Hive ve službě HDInsight je vhodný pro operace extrakce, transformace a načítání (ETL). To znamená, že skripty U-SQL přeložíte do Apache Hivu.
    • Moduly Apache Spark, jako jsou Azure HDInsight Spark nebo Azure Databricks . To znamená, že budete překládat skripty U-SQL do Sparku. Další informace najdete v tématu Principy datových formátů Sparku.

Upozornění

Azure Databricks i Azure HDInsight Spark jsou clusterové služby, nikoli bezserverové úlohy, jako je Azure Data Lake Analytics. Budete muset zvážit, jak zřídit clustery, abyste získali odpovídající poměr nákladů a výkonu, a jak spravovat jejich životnost, abyste minimalizovali náklady. Tyto služby mají různé charakteristiky výkonu s uživatelským kódem napsaným v .NET, takže budete muset buď napsat obálky, nebo přepsat kód v podporovaném jazyce. Další informace najdete v tématech Principy datových formátů Sparku, Principy konceptů kódu Apache Sparku pro vývojáře U-SQL, .NET pro Apache Spark.

Další kroky