技術解説:ADLS Gen2 でクラウド分析のパフォーマンス、スケーリング、セキュリティが向上

2月 14, 2019 に投稿済み

Program Manager, Azure Storage

2019 年 2 月 7 日、Microsoft は Azure Data Lake Storage (ADLS) Gen2 の一般提供を発表いたしました。Azure は現在、高速でセキュリティとスケーラビリティに優れ、しかもコスト効率がよく、妥協のないクラウド ストレージ ソリューションを提供する唯一のクラウド プロバイダーとなっています。このソリューションは、極めて負荷の大きな実稼働ワークロードにも完全に対応する能力を備えています。このブログ記事では、お客様が必要とするエンド ツー エンドの分析シナリオを強力にサポートする ADLS の技術的な基礎について詳しく見ていきます。

ADLS は、ビッグ データ分析に特化して構築された唯一のクラウド ストレージ サービスです。さまざまな分析フレームワークと統合するよう設計されており、真のエンタープライズ データ レイクを実現し、真のファイルシステム セマンティクスによりパフォーマンスを最適化し、極めて負荷が大きな分析ワークロードのニーズを満たすスケーリングを備えています。クラウド オブジェクト ストレージ料金で価格設定され、多種多様なワークロードに対応する柔軟性を持っているので、お客様はデータのサイロを作成する必要がありません。

プラットフォームの基礎部分

Azure Analytics Platform は、ADLS でデータを格納するための大規模なデータ レイク機能を備えているだけでなく、さまざまな追加的サービスや活発なエコシステムを提供することで、お客様のエンド ツー エンド分析パイプラインを成功に導きます。

Azure の特徴的なサービスには、データ処理用の HDInsightAzure Databricks、イングレス用およびオーケストレーション用の Azure Data FactoryAzure SQL Data WarehouseAzure Analysis Services があり、さらに最新のデータ ウェアハウスと呼ばれるパターンでデータを消費する Power BI も含まれているので、エンタープライズ データ レイクの利点を最大限に活用できます。

エンド ツー エンド分析のグラフ

加えて、よく使われる分析ツールやフレームワークからなるエコシステムを ADLS に統合することで、お客様のニーズに合ったソリューションを構築できます。

「クラウド分析ソリューションを実装するお客様は、データ管理とデータ ガバナンスに最も関心を寄せています。素晴らしいパートナーである Azure Data Lake Storage Gen2 チームと緊密に協力することで、ADLS Gen2 を導入するお客様に業界最高クラスのカスタマー エクスペリエンスを提供できています。」

Informatica データ統合およびクラウド統合担当上級副社長兼ジェネラル マネージャー、Ronen Schwartz 氏

「WANDisco の Fusion データ レプリケーション テクノロジと Azure Data Lake Storage Gen2 を組み合わせることで、ハイブリッド分析用の魅力的な LiveData ソリューションをお客様に提供しています。オンプレミスの運用でダウンタイムや中断を発生させることなく、Azure Data Services に簡単にアクセスできます。」

WANdisco、共同創設者兼 CEO、David Richards 氏

「Microsoft は継続的な技術革新の一環として、スケーラブルでセキュリティに優れたインフラストラクチャを提供しています。これは、エンタープライズ データ クラウドに取り組む Cloudera のミッションによく合致しています。当社は、Azure Data Lake Storage Gen2 の世界的なロール アウトをとても喜んでいます。Microsoft と当社の共通のお客様は、このストレージ オプションがもたらす管理のシンプルさと当社の分析プラットフォームを組み合わせて活用できます。」

– Cloudera、クラウド担当ジェネラル マネージャー、Vikram Makhija 氏

パフォーマンス

パフォーマンスは、ビッグ データ分析ワークロードの価値を高める最大の要因です。その理由はシンプルです。ストレージ レイヤーのパフォーマンスが高いほど、データから価値を引き出すのに必要なコンピューティング能力 (つまり高コストな部分) が少なくて済むからです。したがって、より迅速に分析情報を得て競争優位に立てるだけでなく、かなりの低コストで実現できるのです。

「Azure Data Lake Storage Gen2 を利用してチューリッヒの投資管理に関する市場リスク分析ワークフローの 1 つをテストした結果、パフォーマンスが 40% 改善し、ストレージ占有領域が大幅に減りました。」

– チューリッヒ保険、投資情報ソリューション プログラム マネージャー、Valerio Bürker 氏

ADLS によって圧倒的なパフォーマンスがどのように実現するか、ご覧ください。最も注目すべき特徴は階層型名前空間 (Hierarchical Namespace、HNS) です。これにより、この極めてスケーラブルなストレージ サービスでは、ディレクトリ構造を持つファイルシステムのようにデータを配置できるようになります。(Spark、Hive などの) あらゆる分析フレームワークは、基盤となるストレージ サービスが階層型ファイルシステムであるという暗黙の前提のもとに構築されています。それを最も顕著に表すのは、データが一時ディレクトリに書き込まれ、ジョブ完了時にその名前が変更されるときです。従来のクラウドベースのオブジェクト ストアでは、これは O(n) 複合操作、n 回のコピーと削除であり、パフォーマンスに大きな影響を与えます。ADLS では、この名前変更は 1 つのアトミック メタデータ操作です。

Azure Data Lake Storage diagram.jpg

パフォーマンスに貢献するもう 1 つの要因は、Azure BLOB ファイルシステム (ABFS) ドライバーです。このドライバーは、ADLS エンドポイントがビッグ データ分析ワークロード用に最適化されているという利点を活用します。このようなワークロードは大規模な IO 操作によるスループットを最大化できるかどうかに影響されます。この点で、さらに大規模な範囲の IO 操作用に最適化される必要がある他の汎用クラウド ストアとは異なります。このようなレベルの最適化により IO パフォーマンスが大幅に改善し、Azure でビッグ データ分析ワークロードを実行する際のパフォーマンスとコストに直接、良い影響が及びます。ABFS ドライバーは Apache Hadoop® の一部として提供されており、HDInsightAzure Databricks、および他の商用 Hadoop ディストリビューションで利用可能です。

拡張性

さらに、ビッグ データ分析では拡張性も極めて重要です。数 TB のデータに対して効率的に機能しても、データ サイズが必然的に大きくなるとひどく劣化するようなソリューションでは意味がありません。ますます多様なデータ ソースにアクセスできるようになっている結果として、ビッグ データ分析プロジェクトの成長率は多くの場合、非線形的です。ほとんどのプロジェクトでは、入手できるデータの量が多いほど、より良質の分析情報が得られるという原則が当てはまります。ただしこれには、データの成長と同じ速度でシステムの規模をスケーリングさせる必要があるという設計上の課題が伴います。Hadoop や Spark などのビッグ データ分析フレームワークの設計では、水平スケーリングが 1 つの要となっています。つまり、データ量や処理量が拡大したときに単にクラスターにノードを追加するだけで、それまでと同じ効率の処理を継続できるという意味です。ただしこれは、ストレージ レイヤーが線形的に拡大縮小するかどうかにも依存しています。

既存の Azure Blob service の上に ADLS を構築することの価値がここで発揮されます。このサービスの EB スケーリングが ADLS にも当てはまるようになり、格納またはアクセスできるデータ量に制限が存在しなくなります。具体的に言うと、お客様は数百 PB ものデータを格納でき、極めて負荷の大きなワークロードを満たすスループットでそれらにアクセスできます。

ADLS Gen2 アーキテクチャ ダイアグラム

セキュア

エンタープライズ全体を扱うデータ レイクの構築を検討しているお客様にとって、セキュリティは真剣に考慮すべき事項です。データ レイクでエンド ツー エンドのセキュリティを提供するために、次のような機能があります。

分析フレームワークと緊密に統合することで、エンド ツー エンドのセキュアなパイプラインが実現します。HDInsight Enterprise セキュリティ パッケージにより、エンドユーザー認証フローがクラスターを通してデータ レイク内のデータに到達します。

今すぐお試しください。

Azure Data Lake Storage をぜひ試してみください。今すぐ使ってみて、フィードバックをお寄せください。