Apache Spark for Azure HDInsight

クラウドでのミッション クリティカルなデプロイメントのための Apache Spark

Apache Spark とは

Apache Spark は、大規模データ分析アプリケーションを実行する、オープン ソースの処理フレームワークです。Spark はインメモリ コンピューティング エンジンに基づいて構築されているため、ビッグ データに対するクエリを高パフォーマンスで行うことができます。メモリ内および必要に応じてディスクにデータを保持する、並列データ処理フレームワークを活用します。これにより、Spark は 100 倍のスピードを実現できると同時に、Apache Hadoop Distributed File System (HDFS) にあるデータを対象とした抽出、変換、ロード (ETL)、バッチ、対話式クエリなどのタスクに対応する共通の実行モデルを提供できます。Azure により、Apache Spark のデプロイは容易でコスト効率が良いものとなっています。ハードウェアの購入は不要で、ソフトウェアを構成する必要もなく、ノートブックで魅力的な分析のまとめを作成でき、パートナーのビジネス インテリジェンス ツールとの統合が可能です。

Apache Spark の概要ビデオを視聴する

Apache Spark コア エンジンでは、Spark SQL、Spark Streaming、MLlib (機械学習) および GraphX (グラフ コンピューティング) を含む、異なるタイプの処理の組み合わが可能な処理フレームワークが提供されます。

複数のタスクに対する単一の実行モデル

Apache Spark は、Azure Data Lake Store に保管されたデータに対する ETL、バッチ クエリ、対話式クエリ、リアルタイム ストリーミング、機械学習、およびグラフ処理などの複数タスクを実行する際に、共通の実行モデルを活用します。これにより、Spark for Azure HDInsight を使用して、不正検出、クリック ストリーム分析、財務のアラート、モノのインターネット (Internet of Things (IoT)) のセンサーとデバイスからのテレメトリ、ソーシャル分析、常にオンの ETL パイプライン、ネットワーク監視といったビッグ データの課題を、ほぼリアルタイムに解決できます。

対話式シナリオに適したメモリ内処理

現在のお客様は、質問に対する答えを何分も、何時間も、何日間も待つのではなく、即時に得られることを期待しています。Apache Spark はこの要求に対応するため、メモリ内にデータを保持し、Hadoop で大規模なデータセットを処理しながら、最大 100 倍の速さでクエリを実行します。このため、Spark for Azure HDInsight は、ビッグ データを集中的に処理するアプリケーションの速度を加速するためには理想的です。

IntelliJ IDEA を使用してネイティブな開発者エクスペリエンスとリモート デバッグを実現

Spark での開発を容易にするために IntelliJ IDEA との高度な統合が導入されており、Scala と Java のネイティブ作成サポートを使用してコーディングを行うことができます。リモート デバッグも可能であり、開発ライフサイクルに柔軟性が生まれ、準備ができた段階で Azure にアプリケーションを送信できます。また、Spark for HDInsight クラスターには、機械学習で最も人気のある Python ライブラリ (Anaconda) があらかじめ読み込まれています。

BI ツールを活用した対話形式のビッグ データ分析

ビジネス アナリスト向けに、Power BI はもちろん、Tableau、SAP BusinessObjects Lumira、QlikView などのビジネス インテリジェンス ツールとの統合が可能です。これにより、あらゆるサイズのデータを対話操作により視覚化することが可能です。Power BI は従来のダッシュボードに加えて、Spark と統合するストリーミング コネクタを備えているため、リアルタイム イベントを Spark Streaming から Power BI に直接公開できます。

すぐに使えるノートブック エクスペリエンス

独自のノートブックをインストールしたり商用ノートブックを使用したりする必要がある Spark の他のサービスとは異なり、Spark for HDInsight では、市場で最も普及しているオープン ソース ノートブックである Jupyter (iPython) とすぐに統合することができます。これにより、コード、統計式、データを示す視覚化機能を組み合わせて分析のまとめを作成できます。統合を簡単にできるよう、Jupyter コミュニティと協力してカーネルを強化し、REST エンドポイントを通じた Spark の実行を可能にすることで、データ サイエンティストに有用なエクスペリエンスを実現しました。

R Server (R 互換のある大規模の並列分析および機械学習ライブラリ) と統合可能

Spark for Azure HDInsight を、オープン ソース R 言語で動作する大型の並列分析および機械学習ライブラリである R Server の実行エンジンとして使用できます。これにより、Spark 上で R Server を実行して、慣れ親しんだ R を会社全体で活用できます。マルチスレッドの数式ライブラリと R Server での透過的な並列処理を Spark と組み合わせることによって、オープン ソースの R 言語で処理できるサイズの最大 1,000 倍のデータを最大 50 倍のスピードで処理します。これにより、より正確なモデルをトレーニングして、以前よりも精度の高い予測が可能になります。

ビジネス継続性のためのトップクラスの可用性

Microsoft は、Spark を最大規模で実行するために、業界トップクラスである可用性 99.9% の SLA を提供し、致命的なイベント発生時のビジネス継続性と保護を確かなものにします。Cloudera 社およびプロジェクト Livy と共同で作業を行い、実行に時間がかかる Spark コンテキストの管理と Spark ジョブの送信が可能な、オープンソースの Apache ライセンスを付与された REST Web サービスを開発しました。この新しい機能は、対話型ノートブック実行バックエンドとしての Spark の堅牢性を高め、また他のアプリケーションの対話型ワークロードで Spark の活用を可能にするために設計されています。

あらゆる種類、サイズのデータを増加しても変更を加えることなく分析

Spark で大規模な処理を確実に実行するため、Spark と Azure Data Lake Store を統合しました。この統合は Microsoft だけが提供するサービスであり、Spark ではデータが増加してもアプリケーションに変更を加えることなく、データのサイズが増大しても格納、処理できます。この統合により、ストレージ レベルにおけるロールベースのデータ アクセス制御を実装できます。

リアルタイム シナリオのためのリアルタイム処理

現代のつながりの強い世界は、リアルタイムに届くビッグ データによって定義されています。Spark Stream for HDInsight は、高度な処理が必要になるリアルタイムのシナリオに理想的です。モノのインターネット (IoT) のシナリオ、リアルタイムのリモート管理と監視や、携帯電話やインターネット常時接続自動車などのデバイスからの情報を分析して洞察を得ることなど、さまざまな機会を活用できるようになります。

セットアップは簡単、結果はすぐに

Spark for HDInsight なら、時間のかかるインストールやセットアップは不要です。Azure により自動的に処理されます。数分で使用を開始でき、新しいハードウェアを購入したり他の初期費用をかけたりすることなく、Spark をデプロイできます。

ビッグ データに対するエラスティックな容量

Spark for HDInsight は、Azure の機能を生かしているため、あらゆるサイズのクラスターを容易に作成して、あらゆる量のデータをオンデマンドで処理できます。お支払いは、コンピューティングやストレージを使用した分に対してのみ発生します。

HDInsight を無料で試す