• 2 min read

SQL Server 用 Spark 3.0 コネクタを使用してビッグ データ分析を高速化する (一般提供開始)

現在、Maven を介してアクセス可能な、SQL Server および Azure SQL 用 Apache Spark 3.0 互換 Apache Spark コネクタの一般提供が発表されました。

SQL Serverこのブログ投稿は、Azure Databricks のプリンシパル プログラム マネージャーである Bhanu Prakash によって共同作成されています。

現在、Maven を介してアクセス可能な、SQL Server および Azure SQL 用 Apache Spark 3.0 互換 Apache Spark コネクタ の一般提供が発表されました。

Spark 3.0 互換コネクタは、今年の初めにプレビューに入りました。それ以来、私たちは多大な顧客導入を見て、有用な顧客フィードバックを受け取りました。この数か月間、コネクタに機能強化とバグ修正を組み込んだ後、このコネクタの一般提供により、お客様がさらに多くのワークロードに使用できるようにすることに興奮しています。

Apache Spark Connector for SQL Server は、ユーザーがビッグ データ分析でトランザクション データを使用し、アドホック クエリやレポートのために結果を保持できるようにする高パフォーマンス コネクタです。これにより、Spark ジョブの入力データ ソースまたは出力データ シンクとして SQL Server または Azure SQL を使用できます。データベースへの一括挿入データが提供され、Java Database Connectivity (JDBC) を使用する場合と比較して、10 ~ 20 倍のパフォーマンスで行ごとの挿入を上回ることができます。さらに、お客様はこのコネクタを使用して、SQL Server Machine ラーニング Services から機械学習モデルをスコア付けしたり、Spark で機械学習を実行した後に SQL で結果をスコア付けしたりできます。

SQL Server と Azure SQL 用の Apache Spark コネクタを使用する理由

SQL Server および Azure SQL 用の Apache Spark コネクタは、Apache Spark DataSourceV1 API と SQL Server Bulk API に基づいており、組み込みの JDBC Spark-SQL コネクタと同じインターフェイスを使用します。これにより、フォーマット パラメーターを更新するだけで、コネクタを簡単に統合し、既存の Spark ジョブを移行できます。

コネクタの主な機能と利点:

  • Apache Spark 3.0 と互換性があります。
  • すべての Apache Spark バインド (Scala、Python、R) のサポート。
  • 基本認証、Active Directory (AD) キー タブ、Azure Active Directory のサポート。

コネクタとその使用方法の詳細については、GitHub ページを参照してください。Maven 座標を使用して互換性のあるコネクタを構成するには、Apache Spark Connector for SQL Server と Azure SQL Maven ページにアクセスします。特定のビルドへのリンクも GitHub ページ表示されます。

参加する

SQL Server と Azure SQL 用の Apache Spark コネクタを使用すると、SQL Server と Apache Spark の間の対話が完璧になります。コネクタは、コミュニティが拡大し、関心を持ち、何千回もインストールされています。Microsoft はコネクタの進化と改善を継続的に行っており、フィードバックとコントリビューションをお待ちしております。

投稿やフィードバックや質問をお持ちですか? GitHub でプロジェクトを確認し、Twitterフォローしてください。

注: コネクタはコミュニティでサポートされており、Microsoft SLA のサポートは含まれていません。コミュニティに支援を求めるために、GitHub に問題を提出してください。