Announcements, Compute, Virtual Machines

Azure HBv2 仮想マシン、MPI HPC で 80,000 コアをサポート

By Evan Burness Principal Program Manager, Azure HPC

Azure HBv2 仮想マシン、MPI HPC で 80,000 コアをサポート • 6 min read

Posted on February 27, 2020
6 min read

HPC に最適化された仮想マシンの一般提供を開始

Azure HBv2 シリーズの仮想マシン (VM) の一般提供が、米国中南部リージョンで開始されました。さらに、西ヨーロッパ、米国東部、米国西部 2、米国中北部、東日本の各リージョンでもまもなく提供が開始される予定です。

HBv2 VM は、実環境のさまざまなハイパフォーマンスコンピューティング (HPC) ワークロード、たとえば、計算流体力学 (CFD) や、陽解法有限要素解析、地震データ処理、油層モデリング、レンダリング、天気シミュレーションなどに対応する、スーパーコンピュータークラスのパフォーマンス、Message Passing Interface (MPI) のスケーラビリティ、そしてコスト効率を提供します。

Azure HBv2 VM は、Mellanox が提供する 200 ギガビット/秒の HDR InfiniBand を採用した初のパブリッククラウドです。Azure に搭載された HDR InfiniBand は、1.5 マイクロ秒という極めて短い待機時間、1 VM あたり毎秒 2 億件を超えるメッセージを実現するほか、MPI コレクティブのハードウェアオフロードやアダプティブルーティングといった先進的なインネットワークコンピューティングエンジンを備え、最大スケーリングの HPC ワークロードでのパフォーマンスを高めます。HBv2 VM では、すべての RDMA 動詞と MPI バリアントをサポートする標準の Mellanox OFED ドライバーを使用しています。

各 HBv2 VM は、120 基の AMD EPYC (英語)™ 7002 シリーズ CPU コアを搭載しており、1 CPU コアあたり最大 3.3 GHz のクロック周波数、480 GB の RAM、480 MB の L3 キャッシュを備え、同時マルチスレッディング (SMT) には対応していません。HBv2 VM が提供するメモリ帯域幅は最大 340 GB/秒で、これは同等の x86 プラットフォームを 45 ～ 50% 上回り、現在ほとんどの HPC ユーザーがそれぞれのデータセンターで利用しているものよりも 3 倍高速です。HBv2 VM は、倍精度で最大 4 TFLOPS、単精度で最大 8 TFLOPS のパフォーマンスを発揮します。

HBv2 VM を対象とした 1 年間および 3 年間の予約インスタンス、従量課金制、およびスポット料金が、Linux と Windows の両方の展開に提供されるようになりました。5 年間の予約インスタンスについては、Azure の営業担当者までお問い合わせください。

重要な気象予報に破壊的変化をもたらすスピード

数値気象予報 (NWP) とシミュレーションは、長年、HPC のユースケースの中でも特に有益なものとされてきました。NWP 手法を使用することで、科学者は地球の大気の動きをより的確に理解して予測できます。これにより、航空機の航路の調整や、世界中での商品の配送、ビジネス継続性の確保のほか、最悪の天候による重大な災害への備えなど、あらゆる面で進歩が加速しています。マイクロソフトは科学ならびに社会におけるこの分野の重大性を認識しており、Azure Open Datasets イニシアチブの一環として、米国海洋大気庁 (NOAA) の全球予報システム (GFS) によって生成された米国の 1 時間ごとの気象予報データを Azure で共有しているのもそのためです。

HPC Azure Global チームの一員である Cormac Garvey は、世界最高峰の性能を誇るスーパーコンピューターにおいて、いくつもの気象シミュレーションチームを支援してきた豊富な経験があります。そしてこのたび Cormac は、広く利用されている Weather Research and Forecasting (英語) (WRF) バージョン 4 シミュレーションスイートを HBv2 VM で実行するためのガイドを公開しました。

Cormac が使用したのは、2017 年にカテゴリー 5 の暴風を伴ってカリブ海を襲ったハリケーンマリアを対象とし、1 km の解像度を用いた 3 億 7,100 万格子点でのシミュレーションです。このモデルが選ばれたのは、HBv2 VM の厳密なベンチマークとしてだけでなく、危険な暴風のシミュレーションを迅速かつ正確に行うことが気象学コミュニティーの最も重要な役割の 1 つであるという理由もあります。

図 1: Azure HBv2 VM を 1 ～ 672 台まで増やした場合の WRF の加速結果

ノード数 (VM)	並列プロセス数	時間ステップあたりの平均時間 (秒)	スケーリング効率	加速結果 (VM ベース)
1	120	18.51	100%	1.00
2	240	8.9	104%	2.08
4	480	4.37	106%	4.24
8	960	2.21	105%	8.38
16	1,920	1.16	100%	15.96
32	3,840	0.58	100%	31.91
64	7,680	0.31	93%	59.71
128	15,360	0.131	110%	141.30
256	23,040	0.082	88%	225.73
512	46,080	0.0456	79%	405.92
640	57,600	0.0393	74%	470.99
672	80,640	0.0384	72%	482.03

図 2: Azure HBv2 VM での WRF のスケーリングと構成データ

注: 一部のスケーリングポイントについては、30 MPI ランク、1 ランクあたり 4 スレッドで最適なパフォーマンスであったのに対し、他は 90 MPI ランクで最適なパフォーマンスでした。OpenMPI 4.0.2 を使って、すべてのテストが行われました。

Azure HBv2 VM で実行されたハリケーンマリアのシミュレーションは、VM 数が 128 台 (並列プロセス数 15,360 個) の段階まではほぼ超線形のスケーラビリティが得られました。スケーリングによる加速は、この演習でテストされた最大スケールの VM 数である 672 台 (並列プロセス数 80,640 個) まで続き、VM 1 台の場合に対して 482 倍の加速となっています。また、ノード (VM) 数が 512 台の段階で、2016 年に最速マシン上位 20 の 1 つとしてデビューした主要スーパーコンピューターと比べて (英語)、パフォーマンスが最大 2.2 倍を記録したことを確認しています。

では、いったい何がより高いレベルのスケーリング効率の達成を妨げているのでしょうか。その要因は、この 3 億 7,100 万格子点のモデルが (知られている最大規模の WRF モデルの 1 つであるとはいえ)、これほど高度なレベルの並列処理においては小さすぎるという点にあります。この結果は、世界をリードする気象予報組織にとって、このような複雑な気象現象に対する数値の精度を高め、より現実的な理解を得るために、Azure を利用してさらに解像度の高いモデルを構築し、稼働させることができる可能性を指し示すものです。

ぜひ、Azure Tech Community に投稿された Cormac のブログ記事 (英語) で、HBv2 をはじめとするマイクロソフトの H シリーズ仮想マシンファミリで WRF を実行する方法をご確認ください。

ハイパーリアリスティックな CFD から生まれる、より質の高い安全な製品設計

計算流体力学 (CFD) は、Azure の多数のお客様が進めるシミュレーション中心のビジネスにとって中核となるものです。お客様からよく寄せられるご要望の中に、「コストをできる限り一定に保ちながら、能力を "10 倍" にしたい」というものがあります。特に、より高い解像度でシミュレーションを行うことで、モデルの精度を大幅に高める方法を探しているケースがよく見られます。多くのお客様が既に CFD の問題を 1 ジョブあたり最大 500 ～ 1,000 個の並列プロセスで解決していることを考えると、少なくとも 5,000 ～ 10,000 個の並列プロセスへの線形スケーリングを意味するこのご要望は大きな課題だといえます。もっとも、Azure は昨年、CFD アプリケーションを 10,000 個以上の並列プロセス (英語) にまでスケーリングした初のパブリッククラウドになり、これらの目標の 1 つを達成しています。そして今回の HBv2 VM のリリースに伴い、Azure の CFD 能力が再び高まりを見せています。

同じく Azure Global HPC チームの一員である Jon Shelley は、Siemens と連携して同社の過去最大規模となる CFD シミュレーションの検証を行いました。その際使用したのは、かの名高い「ル・マン 24 時間レース」にちなんで名付けられたスポーツカーの 10 億セルのモデルと、昨年 Azure でテストされたばかりのものよりも 10 倍高い解像度のメッシュです。Jon は、Simcenter STAR-CCM+ を HBv2 VM で大規模に実行するためのガイドを公開しました。

図 3: Azure HBv2 VM を 1 ～ 640 台まで増やした場合の Simcenter STAR-CCM+ のスケーリング効率

ノード数 (VM)	並列プロセス数	ソルバーの経過時間	スケーリング効率	加速結果 (VM ベース)
8	928	337.71	100%	1.00
16	1,856	164.79	102.5%	2.05
32	3,712	82.07	102.9%	4.11
64	7,424	41.02	102.9%	8.23
128	14,848	20.94	100.8%	16.13
256	29,696	12.02	87.8%	28.10
320	37,120	9.57	88.2%	35.29
384	44,544	7.117	98.9%	47.45
512	59,392	6.417	82.2%	52.63
640	57,600	5.03	83.9%	67.14

図 4: Azure HBv2 VM での STAR-CCM+ のスケーリングと構成データ

注: 特定のスケーリングポイントでは、1 VM あたり 90 個、112 個、116 個、または 120 個の並列プロセスで最適なパフォーマンスが得られる場合があります。以下のデータは、最適なパフォーマンスの数値を示しています。 HPC-X MPI ver. 2.50 を使って、すべてのテストが行われました。

このテストでも、Azure HBv2 は、128 台の VM で並列プロセスが 15,000 個を超えるまでは線形の効率を示すという難題を実行しました。そこから、高いスケーリング効率が続き、並列プロセスが 44,000 個を超えた段階でピークの約 99% に達しました。最大スケールの VM 数である 640 台 (並列プロセス数 57,600 個) の段階で、HBv2 が達成したスケーリング効率は 84% でした。これは、これまでに実行された (英語) Simcenter STAR-CCM+ による最大スケーリングの CFD シミュレーションの 1 つで、現在、Azure のお客様がレプリケートできるようになっています。

ぜひ、Azure Tech Community サイトに投稿された Jon のブログ記事 (英語) で、HBv2 をはじめとするマイクロソフトの H シリーズ仮想マシンファミリで Simcenter STAR-CCM+ を実行する方法をご確認ください。

高度な HPC I/O で優れたコスト効率を達成

クラウドで増えているシナリオに、オンデマンドの HPC グレードの並列ファイルシステムがあります。その根本的な理由はとても単純で、お客様が大量のコンピューティングを実行する必要がある場合には、たいてい大量のデータをそれらのコンピューティングリソースとの間でやりとりする必要があるというものです。この場合の問題は、従来のオンプレミスの HPC ファイルシステムアプライアンスと単純にコストを比較することが、状況によっては好ましくないという点です。しかし、Azure HBv2 VM を利用すれば、NVMeDirect (英語) テクノロジを極めて待機時間の短い RDMA 機能と組み合わせて、オンデマンドの "バーストバッファー" 並列ファイルシステムを実現でき、コンピューティング目的で既にプロビジョニングされた HBv2 VM 以外に追加コストはかかりません。

BeeGFS は、そのようなファイルシステムの 1 つであり、エントリーレベルのユーザーと高度なスケーリングを求めるユーザーの両者の間でユーザーベースを急速に拡大しています。また、BeeOND ファイルシステムは、これまでにない HPC と AI のハイブリッドスーパーコンピューターである「Tsubame 3.0 (英語)」上での運用環境でも使われています。

ここでは、サンプルの BeeOND ファイルシステムが、352 台の HBv2 VM で構築され、308 TB の使用可能な高パフォーマンスの名前空間が提供された場合にどのように表示されるかを大まかに紹介します。

図 5: HBv2 VM でのサンプルの BeeOND ファイルシステムの概要

352 台の HBv2 VM での並列ファイルシステムに対して、広く利用されている IOR (英語) テストを実行することで、BeeOND はピーク時の読み取りパフォーマンスとして 763 GB/秒、ピーク時の書き込みパフォーマンスとして 352 GB/秒を達成しました。

ぜひ、Azure Tech Community に投稿された Cormac のブログ記事 (英語) で、RDMA を利用する Azure Virtual Machines で BeeGFS を実行する方法をご確認ください。

クラウドでの HPC エクスペリエンスを 10 倍に

Microsoft Azure は、世界クラスの HPC エクスペリエンスのほか、最大レベルのパフォーマンス、価格性能比、スケーラビリティをお客様にお届けすることを目標に取り組んでいます。

AMD のデータセンター製品管理担当コーポレートバイスプレジデントの Ram Peddibhotla 氏は、次のように述べています。「第 2 世代の AMD EPYC プロセッサは、優れたコアのスケーリングや、極めて広いメモリ帯域幅へのアクセスを提供すると共に、PCIe 4.0 をサポートする初の x86 サーバープロセッサでもあります。このすべての特長により、業界最高レベルのハイパフォーマンスコンピューティングがいくつか実現されています。HPC において、Azure はクラウドで驚くべき偉業を成し遂げました。HBv2 VM と第 2 世代の EPYC プロセッサが、実環境のさまざまな HPC ワークロードに対応する、スーパーコンピューター級のパフォーマンス、MPI のスケーラビリティ、そしてコスト効率を提供できることを証明すると同時に、誰もが HPC にアクセスできるようにしたのです。これにより、科学と研究の進歩が加速するでしょう。」

Mellanox Technologies のマーケティング担当シニアバイスプレジデントの Gilad Shainer 氏は、次のようにコメントしています。「200 ギガビットの HDR InfiniBand は、高いデータスループット、極めて短い待機時間、スマートなインネットワークコンピューティングエンジンを備え、コンピューティングやデータアプリケーションでの優れたパフォーマンスとスケーラビリティを実現します。当社は Microsoft と連携して、InfiniBand の利点を Azure にもたらし、ユーザーに最先端の HPC クラウドサービスを提供できることを大変うれしく感じています。InfiniBand RDMA とその MPI 高速化エンジンを取り入れることで、Azure は他のイーサネットに基づくクラウドオプションよりも高いパフォーマンスを実現できます。今後も Microsoft と共に次世代のテクノロジと機能をお届けできることを楽しみにしています。」

Azure でのハイパフォーマンスコンピューティングの詳細
Azure での WRF v4 の実行 (英語)
Azure での Siemens Simcenter Star-CCM+ の実行 (英語)
特定の I/O パターンに合わせた Azure での BeeGFS と BeeOND (英語) のチューニング
Github (英語) での Azure HPC
Azure HPC の CentOS 7.6 と 7.7 のイメージ (英語)
Azure Virtual Machines の Web サイト
AMD EPYC (英語)™ 7002 シリーズ

Azure HBv2 仮想マシン、MPI HPC で 80,000 コアをサポート

HPC に最適化された仮想マシンの一般提供を開始

重要な気象予報に破壊的変化をもたらすスピード

ハイパーリアリスティックな CFD から生まれる、より質の高い安全な製品設計

高度な HPC I/O で優れたコスト効率を達成

クラウドでの HPC エクスペリエンスを 10 倍に

Explore

Related posts

New infrastructure for the era of AI: Emerging technology and trends in 2024

Microsoft Azure delivers game-changing performance for generative AI Inference

Project Flash の更新: Azure 仮想マシンの可用性の監視を進める

NGads V620 シリーズの仮想マシンを使用してゲームパフォーマンスを向上させる

Join the conversation

おすすめ

AI + machine learning

分析

コンピューティング

コンテナー

データベース

DevOps

開発者ツール

ハイブリッド + マルチクラウド

ID

統合

モノのインターネット (IoT)

管理とガバナンス

メディア

移行

複合現実

モバイル

ネットワーク

セキュリティ

ストレージ

Web

Windows Virtual Desktop

ユース ケース

アプリケーション開発

AI

クラウドの移行とモダン化

データと分析

ハイブリッド クラウドとインフラストラクチャ

モノのインターネット (IoT)

セキュリティとガバナンス

組織の種類

リソース

HPC に最適化された仮想マシンの一般提供を開始

重要な気象予報に破壊的変化をもたらすスピード

ハイパーリアリスティックな CFD から生まれる、より質の高い安全な製品設計

高度な HPC I/O で優れたコスト効率を達成

クラウドでの HPC エクスペリエンスを 10 倍に

Explore

Related posts

Join the conversation

ユースケース

ハイブリッドクラウドとインフラストラクチャ