ナビゲーションをスキップする

それぞれに優れたサービスが集まって比類のないサービスを実現:3 つの優れた Azure Data Services の更新を発表

2月 7, 2019 に投稿済み

Director of Product Management, Azure Engineering

Julia White が本日のブログでお伝えしたように、Azure Data Lake Storage Gen2 と Azure Data Explorer の一般提供を開始しました。また、Azure Data Factory の Mapping Data Flow のプレビューも発表しました。これらの更新により、Azure は比類のないコスト パフォーマンスとセキュリティで、分析に最適なクラウドであり続けます。このブログ記事では、これらの新機能の技術力について詳しく説明します。

Azure Data Lake Storage - 妥協のない Data Lake

Azure Data Lake Storage (ADLS) は、Azure Blob Storage のスケーラビリティ、費用対効果、セキュリティ モデル、および豊富な機能と、分析用に構築され、Hadoop 分散ファイル システムと互換性のあるハイパフォーマンス ファイル システムを組み合わせたものです。お客様はクラウド データ レイクを選択する際に、費用対効果とパフォーマンスをトレードオフする必要はなくなります。

重要な優先事項の 1 つに、ADLS と Apache エコシステムの互換性の確保がありました。Microsoft は、Azure BLOB ファイル システム (ABFS) ドライバーを開発することでこれを実現しました。ABFS ドライバーは Apache Hadoop および Spark の正式な一部であり、多くの商用ディストリビューションに組み込まれています。ABFS ドライバーでは、ファイルとフォルダーを明確にアドレス指定できるように、URI スキームを次のように定義します。

abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<filename>

ファイル システム セマンティクスがサーバー側で実装されていることに注意してください。このアプローチにより、複雑なクライアント側ドライバーが不要になり、再現性の高いファイル システム トランザクションが確保されます。

分析のパフォーマンスをさらに高めるために、ファイルとフォルダーのアトミック操作をサポートする階層型名前空間 (HNS) が実装されました。これが重要なのは、Blob Storage でのビッグ データの処理に関連するオーバーヘッドが削減されるためです。これにより、必要なコンピューティング操作が減るので、ジョブの実行が高速化され、コストが削減されます。

ABFS ドライバーと HNS により、ADLS のパフォーマンスが大幅に向上し、スケールとパフォーマンスのボトルネックが解消されます。  このパフォーマンス強化機能が、Azure Blob Storage と同じ低コストで利用できるようになりました。

ADLS は、Azure Blob Storage に組み込まれているものと同じ強力なデータ セキュリティ機能を提供します。たとえば、次のような機能があります。

  • TLS 1.2 による転送中のデータと保存データの暗号化
  • ストレージ アカウントのファイアウォール
  • 仮想ネットワーク統合
  • ロールベースのアクセス セキュリティ

さらに、ADLS のファイル システムでは、POSIX 準拠のアクセス制御リスト (ACL) がサポートされています。このアプローチにより、承認されたユーザー、グループ、またはサービス プリンシパルだけにアクセスを制限し、ファイルおよびオブジェクト データを保護するきめ細かいセキュリティ保護を実現できます。

Azure Data Lake Storage diagram.jpg

ADLS は、Azure Databricks、Azure HDInsight、Azure Data Factory、Azure SQL Data Warehouse、Power BI と緊密に統合されているので、組織のあらゆるレベルで強力なビジネス分析情報を提供するエンド ツー エンドの分析ワークフローが実現されます。さらに、ADLS は、ビッグ データ分析 ISV とシステム インテグレーター (Cloudera や Hortonworks など) のグローバル ネットワークによってサポートされています。

次の手順

Azure Data Explorer - スケーラビリティに優れた高速データ分析サービス

Azure Data Explorer (ADX) は、大量のストリーミング データのリアルタイム分析を実現するフル マネージドの高速データ分析サービスです。ADX では、必要なデータやメタデータを変更せずに、10 億件のレコードに対するクエリを 1 秒足らずで実行できます。また、ADX には Azure Data Lake Storage、Azure SQL Data Warehouse、Power BI へのネイティブ コネクタが含まれ、直感的なクエリ言語が使用されるので、お客様は数分で分析情報を得ることができます。

速度とシンプルさを考慮して設計された ADX は、連携して機能する 2 つの異なるサービス(エンジン サービスとデータ管理 (DM) サービス) で構築されています。どちらのサービスも、コンピューティング ノード (仮想マシン) のクラスターとして Azure にデプロイされます。

Azure Data Explorer のダイアグラム

データ管理 (DM) サービスは、さまざまな種類の生データを取り込み、必要に応じて、エラー、バックプレッシャ、データ グルーミング タスクを管理します。また、独自の方法でインデックス作成と圧縮を自動的に実行することによって、高速データ インジェストを実現します。

エンジン サービスは、受信生データを処理し、ユーザー クエリを処理する役割を担います。このサービスでは、自動スケーリングとデータ シャーディングの組み合わせを使用して、速度とスケールを実現します。読み取り専用のクエリ言語は、構文を読みやすくし、簡単に作成および自動化できるように設計されています。この言語を使用すると、1 行のクエリから複雑なデータ処理スクリプトに自然に発展させて、クエリを効率的に実行できます。

ADX は 41 か所の Azure リージョンで利用可能であり、ISV やシステム インテグレーターをはじめとするパートナーの拡大するエコシステムによってサポートされています。

次の手順

Azure Data Factory の Mapping Data Flow - データ変換のためのコード不要の視覚エクスペリエンス

Azure Data Factory (ADF) は、データの移動と変換を調整および自動化する、ハイブリッド クラウドベースのデータ統合サービスです。ADF には、構造化、半構造化、非構造化データ ソースへの 80 種類以上の組み込みコネクタが用意されています。

ADF の Mapping Data Flow を使用すると、Spark を習得したり、分散インフラストラクチャについて理解を深めたりしなくても、データ変換プロセスを視覚的に設計、構築し、管理できます。

Azure Data Factory の Mapping Data Flow

Mapping Data Flow では、豊富な式言語を対話型デバッガーと組み合わせて、ETL ジョブやデータ統合プロセスを簡単に実行、トリガー、監視できます。

Azure Data Factory は 21 か所のリージョンで利用可能であり、ISV やシステム インテグレーターをはじめとするパートナーの広範なエコシステムによってサポートされています。

次の手順

Azure はデータ分析に最適

本日発表されたこれらの技術革新により、Azure は分析に最適なクラウドであり続けます。Azure での分析が比類のないものである理由の詳細については、こちらをご覧ください。