サイロ バスティング 2.0 - Azure Data Lake Storage のマルチプロトコル アクセス

2019年7月18日 に投稿済み

Senior Program Manager, Azure Storage

クラウド データ レイクは、これまで別個のデータ サイロに存在していたデータのために安全でスケーラブルなストレージを提供することにより、ビッグ データ分析の根本的な問題を解決します。そもそもデータ レイクは、データの障壁を取り除き、すぐにビッグ データ分析を始められるように設計されました。とはいえ、"サイロ バスティング" する分野が 1 つ残っていました。データ レイクに存在する構造化データ、半構造化データ、非構造化データすべてに、複数のデータ アクセス メソッドでアクセスできるようにすることです。

共有データ セットに対して複数のデータ アクセス ポイントを提供すると、ツールやデータ アプリケーションは最も自然な方法でそのデータを操作できます。さらに、データ レイクも、さまざまなエコシステム用に構築されたツールやフレームワークの恩恵を受けることができます。たとえば、オブジェクト ストレージ API 経由でデータを取り込み、Hadoop 分散ファイル システム (HDFS) API を使用してそのデータを処理し、変換されたデータをオブジェクト ストレージ API を使用してデータ ウェアハウスに取り込むといった処理が可能になります。

すべてのシナリオに対応する単一のストレージ ソリューション

このたび、Azure Data Lake Storage のマルチプロトコル アクセスのプレビューが発表されました。Azure Data Lake Storage は、同一データへのマルチプロトコル アクセスを提供する、これまでにない分析用クラウド ストレージ ソリューションです。 Azure Blob Storage APIAzure Data Lake Storage API を利用した同一データへのマルチプロトコル アクセスにより、BLOB ストレージ上に構築された階層型名前空間対応のストレージ アカウントである Data Lake Storage アカウントで、既存のオブジェクト ストレージ機能を利用できるようになります。これにより、すべての種類のデータをクラウド データ レイクに柔軟に配置して、ユース ケースの展開に応じてデータを有効活用できるようになります。

画像

単一のストレージ ソリューション

拡張された機能セット、エコシステム、アプリケーション

アクセス層やライフサイクル管理ポリシーなどの既存の BLOB 機能が、Data Lake Storage アカウントで利用できるようになりました。これは、BLOB データを分析に使用できることを意味するため、パラダイムシフトと言えます。さらに、Azure Stream Analytics、IoT Hub、Azure Event Hubs のキャプチャ、Azure Data Box、Azure Search などの多くのサービスが、Data Lake Store とシームレスに統合されています。オンプレミスからクラウドへの移行などの重要なシナリオで、PB サイズのデータセットも、Data Box を使用すれば簡単に Data Lake Storage に移動できます。

さらに、Data Lake Storage のマルチプロトコル アクセスにより、パートナーのエコシステムが Data Lake Storage との既存の BLOB ストレージ コネクタを使用できるようになります。  エコシステム パートナーのコメントをご紹介します。

"Azure Data Lake Storage のマルチプロトコル アクセスは、弊社のお客様にとって大きな変化をもたらすものです。Informatica は、Azure Data Lake Storage のネイティブ サポートに取り組んでおり、マルチプロトコル アクセスは、最小限の中断のみで分析とデータ レイクの現代化をお客様が加速していく助けになります。"

- Informatica、データ統合、ビッグ データ、クラウド担当上級副社長兼ゼネラル マネージャー、Ronen Schwartz 氏

Data Lake Storage に格納されているデータにアクセスするために既存のアプリケーションを更新する必要はありません。また、分析アプリケーションとオブジェクト ストレージ アプリケーションの両方の力を活用して、データを最も効果的に使用できます。ストレージ機能、Azure のエコシステム、パートナーのエコシステム、カスタム アプリケーションを有効にするマルチプロトコル アクセスの解説図。

マルチプロトコル アクセスで有効になる機能とエコシステム

複数の API エンドポイント - 同一データ、共有機能

この機能は、複数のプロトコルをサポートするだけでなく、複数のストレージ パラダイムをサポートしているという点で、クラウド分析サービスではこれまでに例のないものです。この強力な機能が、クラウドのストレージでも利用できるようになりました。Blob Storage API を使用する既存のツールやアプリケーションでは、変更せずにこのメリットを活用できます。ディレクトリとファイルレベルのアクセス制御リスト (ACL) は、データへのアクセスに Azure Data Lake Storage API や Blob Storage API が使用されているかどうかに関係なく、一貫して適用されます。  

Blob Storage API と Azure Data Lake Storage API の両方が Blob ストレージ上に構築された階層型名前空間を経由します。

Azure Data Lake Storage 上のマルチプロトコル アクセス

Data Lake Storage で現在使用できる機能および拡張されたエコシステム

Data Lake Storage のマルチプロトコル アクセスは、Data Lake Storage と BLOB ストレージの素晴らしい機能を 1 つの包括的なパッケージとして提供します。これにより、BLOB ストレージの多くの機能とエコシステムのサポートがデータ レイク ストレージでも有効になります。

機能 ご協力のお願い
アクセス層 クールおよびアーカイブ層を Data Lake Storage で使用できます。詳細については、「Azure Blob Storage: ホット、クール、アーカイブ アクセス層」を参照してください。
ライフサイクル管理ポリシー 階層へのポリシーの設定、Data Lake Storage 内のデータの削除を実行できます。詳細については、「Azure Blob Storage のライフサイクルを管理する」を参照してください。
診断ログ Blob Storage API と Azure Data Lake Storage API のログが v1.0 および v2.0 フォーマットで利用できます。詳細については、「Azure Storage Analytics のログ」を参照してください。
SDK 既存の BLOB SDK を Data Lake Storage で使用できます。詳細については、次のドキュメントを参照してください。
PowerShell データ プレーン操作用の PowerShell を Data Lake Storage で使用できます。詳細については、Azure PowerShell のクイックスタートに関するページを参照してください。
CLI データ プレーン操作用の Azure CLI を Data Lake Storage で使用できます。詳細については、Azure CLI のクイックスタートに関するページを参照してください。
Azure Event Grid 経由の通知 BLOB 通知を Event Grid 経由で受け取ることができます。詳細については、「Blob Storage イベントへの対応」というドキュメントを参照してください。 Azure Data Lake Storage Gen2 の通知を現在利用できます

 

エコシステム パートナー ご協力のお願い
Azure Stream Analytics Azure Stream Analytics は、Data Lake Storage に対して、読み取りだけでなく書き込みも実行します。
Azure Event Hubs のキャプチャ Azure Event Hubs のキャプチャ機能で、Data Lake Storage を宛先の 1 つとして選択できます。
IoT Hub IoT Hub メッセージのルーティングで、Azure Data Lake Storage Gen 2 にルーティングできます。
Azure Search Azure Search を使用して、機械学習モデルにインデックスを付け Data Lake Storage コンテンツに適用できます。
Azure Data Box Data Box を使用して、大量のデータをオンプレミスから Data Lake Storage に取り込むことができます。

この優れた機能を使用した Blob ストレージの機能が今後も提供されてゆきます。ぜひご注目ください。

次のステップ

現在、これらの新しい機能すべては、記載されているこれらのリージョンで利用できます。今すぐプレビューにサインアップしてください。詳細については、「Azure Data Lake Storage のマルチプロトコル アクセス」を参照してください。