新しい Azure HPC Cache サービスの一般提供開始に関するお知らせ

2019年11月11日 に投稿済み

Principal Program Manager

データアクセスの課題が原因で Azure でハイパフォーマンス コンピューティング (HPC) ジョブを実行するのを躊躇しておられた皆様に、朗報です。このたび提供開始された Microsoft Azure HPC Cache サービスを使用すると、非常に負荷の高いワークロードを、時間とコストを要するアプリケーションの書き換えをせずに Azure で実行できます。また、データを Azure でもオンプレミスのストレージでも、希望の場所に保存できます。コンピューティングとストレージ間の待ち時間を最小化することにより、HPC Cache サービスは、HPC アプリケーションを Azure で実行するのに必要な高速データ アクセスをシームレスに実現します。

Azure を使用して、データ アクセスを気にせず分析能力を強化する

ほとんどの HPC チームは、クラウド バースティングで分析能力を強化できることを理解しています。多くの組織が、コンピューティング ジョブをクラウドで実行することにより、容量とスケーリングの恩恵を享受しているのに対し、データセットのサイズや、データセット (ほとんどの場合、長期間デプロイされてきたネットワーク接続ストレージ (NAS) に格納されている) へのアクセス提供の複雑さを理由に躊躇してきたユーザーもおられます。このような NAS 環境には、長年の間にペタバイト規模のデータが収集されていることが珍しくなく、インフラストラクチャへの投資がかさむ原因になっています。

このような場合、HPC Cache サービスが役立ちます。このサービスを、オンプレミスの NAS と Azure Blob Storage にアーカイブされているデータなど、1 か所以上のソースの POSIX ファイル データに待ち時間の短いアクセスを提供するエッジ キャッシュとして考えてみましょう。HPC Cache を使用すると、アクションにつながるデータのサイズとスコープが拡張する場合でも、Azure を使用して分析スループットを向上しやすくなります。

アクションにつながるデータのサイズとスコープの拡張に対応する

ライフ サイエンスなどの特定の業種では、新しいデータ取得のスピードが原因で、アクションにつながるデータのサイズとスコープが増大し続けています。この場合、アクションにつながるデータには、アップストリーム アクティビティを推進するため、収集後の分析と解釈が必要とされるデータセットが含まれます。たとえば、ゲノムの配列は数百ギガバイトに達する場合があります。シーケンス処理アクティビティのスピードが増し、並行処理が進むにつれて、格納と解釈を要するデータ量も増えるので、インフラストラクチャもそれに対応しなければなりません。アクションにつながるデータを収集、処理、解釈する能力、すなわち分析能力は、顧客のニーズに応え、新しいビジネス チャンスを活かす組織の能力に直接影響します。

一部の組織は、高速ネットワークと高性能ストレージを備えた、より堅牢なオンプレミスの HPC 環境を引き続きデプロイすることで、増大する分析スループット要件に対処しています。とはいえ、多くの会社にとってオンプレミス環境の拡張は、厄介でコストのかさむ問題の原因になります。たとえば、新しい容量要件を正確に予測し、より経済的に対処するにはどうすればよいでしょうか。需要が急増する機器のライフサイクルは、どうやりくりするのが最善でしょうか。ストレージが、待ち時間とスループットの点でコンピューティングの需要に確実に対応しているようにするには、どうすればよいでしょうか。このすべてを、限られた予算と人材で管理するにはどうすればよいでしょうか。

Azure サービスは、既存の HPC インフラストラクチャのキャパシティを超えて、分析スループットをより簡単かつ高いコスト効率で向上させるのに役立ちます。Azure CycleCloud や Azure Batch などのツールを使用すると、Azure 仮想マシン (VM) 上でコンピューティング ジョブのオーケストレーションとスケジュールを実行できます。Azure Virtual Machine Scale Sets と低優先度 VM を使用することにより、コストとスケールをさらに効率的に管理できます。Azure の最新の H シリーズと N シリーズの Virtual Machines を使用すると、きわめて複雑なワークロードのパフォーマンス要件にも対応できます。

では、どのように始めればよいのでしょうか。簡単です。ネットワークを ExpressRoute 経由で Azure に接続し、使用する VM を決定し、CycleCloud か Batch を使用してプロセスを調整します。これで、バースト可能な HPC 環境を使う準備は完了です。必要なのは、データを入力することだけです。それが難題だとお感じかもしれません。そこで、HPC Cache サービスの出番です。

HPC Cache を使用して、高速かつ一貫性のあるデータ アクセスを確保する

ほとんどの組織は、クラウドを利用する恩恵を理解しています。バースト可能な HPC 環境を使用すると、新たな設備投資をしなくても、分析能力を強化できます。Azure の場合、それに加えて、今お使いのスケジューラや他のツールセットを活用できるので、オンプレミスの環境とのデプロイの整合性も確保できます。

ただし、データに関しては、これが障害になりかねません。ライブラリ、アプリケーション、データの場所にも、同様の一貫性が求められる場合があるからです。たとえば、ローカルの分析パイプラインが、Azure で実行していてもローカルに実行していても同一である必要のある POSIX パスに依存している場合があります。データが、ディレクトリ間でリンクされ、それらのリンクがクラウドの場合と同様にデプロイされる必要のある場合もあります。データ自体が複数の場所に格納されており、集約される必要のある場合もあります。これらに加えて、アクセスの待ち時間に、ローカルの HPC 環境で実現されるものとの整合性が求められます。

HPC Cache がどのように機能してこれらの要件を満たすかを理解するため、これを、1 か所以上のソースの POSIX ファイル データに待ち時間の短いアクセスを提供するエッジ キャッシュとして考えてみましょう。たとえば、商用 NAS ソリューションに接続されている大規模な HPC クラスターがローカル環境に含まれている場合があります。HPC Cache は、その NAS ソリューションから、WAN リンクを介して動作している Azure Virtual Machines、コンテナー、機械学習ルーチンへのアクセスを可能にします。このサービスは、クライアント要求 (仮想マシンからの要求を含む) をキャッシュし、そのデータへの以降のアクセスがオンプレミスの NAS 環境に再アクセスするのではなく、そのキャッシュで処理されるようにすることにより、これを実現します。これにより、ユーザーは、自社のデータ センターで実現できるものに近いパフォーマンス レベルで HPC ジョブを実行できます。また、HPC Cache を使用すると、複数のソースにまたがる複数のエクスポートに存在するデータから 1 つの名前空間を構築し、クライアント マシンに単一のディレクトリ構造を表示できます。

また、HPC Cache は Azure の Blob をバックエンドとするキャッシュ サービス (Blob-as-POSIX と呼ばれる) であるため、アプリケーション再作成の手間もなく、ファイルベースのパイプラインを容易に移行できます。たとえば、遺伝子研究チームで参照用ゲノム データを Blob 環境に読み込ませて、セカンダリ分析ワークフローのパフォーマンスを向上させるといったことが可能になります。これは、参照ライブラリやツールの静的セットに依存する新しいジョブを開始する際の待ち時間に関する問題を軽減するのに役立ちます。

   : オンプレミスのストレージ アクセス、Azure BLOB、Azure コンピューティング クラスターのコンピューティングを含むシステム アーキテクチャにおける Azure HPC Cache の配置を示すダイアグラム。
Azure HPC Cache のアーキテクチャ

HPC Cache の利点

ワークロード要件に対応するキャッシュ スループット

HPC Cache は、スループットが最大 2 GB/毎秒 (GB/s)、最大 4 GB/s、最大 8 GB/s の 3 種類の SKU を提供しています。これらの SKU はいずれも、数十から数千の VM やコンテナーなどからの要求を処理できます。さらに、キャッシュ ディスクのサイズを選択することで、適切な容量をキャッシュに利用できるようにしながら、費用を制御することができます。

データセンターからのデータ バースト

HPC Cache は、どこにある NAS からでもデータをフェッチします。HPC ワークロードを今すぐ実行し、長期的なデータ ストレージ ポリシーをご検討ください。

高可用性接続

HPC Cache は、クライアントに高可用性 (HA) 接続を提供します。これは、大規模にコンピューティング ジョブを実行するための重要な要件です。

集約された名前空間

HPC Cache の集約された名前空間の機能を使用すると、さまざまなデータ ソースから名前空間を構築できます。ソースをこのように抽象化することにより、データ表示の一貫性を保ちながら、複数の HPC Cache 環境を実行できます。

低コストのストレージで、Blob-as-POSIX との完全な POSIX コンプライアンスを実現

HPC Cache は、Blob ベースの POSIX に完全に準拠しているストレージをサポートしています。HPC Cache は、Blob-as-POSIX フォーマットを使用して、ハード リンクを含む完全な POSIX サポートを維持します。このレベルのコンプライアンスが必要な場合は、Blob 価格ポイントで完全な POSIX を実現できます。

ここから開始

Azure HPC Cache サービスは、今すぐ利用し、アクセスしていただけます。このサービスから最善の結果が得られるように、Microsoft のチームおよび関連するパートナーにご連絡ください。お客様の特定の事業目標と目的の成果に最適な包括的アーキテクチャを構築するためのお手伝いをさせていただきます。

Microsoft のエキスパートが、コロラド州デンバーで開催される SC19 に参加する予定です。ハイパフォーマンス コンピューティングに関するこの会議で、Azure のファイルベース ワークロードを加速するためのお手伝いをさせていただくことを楽しみにしております。