Azure HBv2 仮想マシン、MPI HPC で 80,000 コアをサポート

2020年2月27日 に投稿済み

Principal Program Manager, Azure HPC

HPC に最適化された仮想マシンの一般提供を開始

Azure HBv2 シリーズの仮想マシン (VM) の一般提供が、米国中南部リージョンで開始されました。さらに、西ヨーロッパ、米国東部、米国西部 2、米国中北部、東日本の各リージョンでもまもなく提供が開始される予定です。

HBv2 VM は、実環境のさまざまなハイ パフォーマンス コンピューティング (HPC) ワークロード、たとえば、計算流体力学 (CFD) や、陽解法有限要素解析、地震データ処理、油層モデリング、レンダリング、天気シミュレーションなどに対応する、スーパーコンピュータークラスのパフォーマンス、Message Passing Interface (MPI) のスケーラビリティ、そしてコスト効率を提供します。

Azure HBv2 VM は、Mellanox が提供する 200 ギガビット/秒の HDR InfiniBand を採用した初のパブリック クラウドです。Azure に搭載された HDR InfiniBand は、1.5 マイクロ秒という極めて短い待機時間、1 VM あたり毎秒 2 億件を超えるメッセージを実現するほか、MPI コレクティブのハードウェア オフロードやアダプティブ ルーティングといった先進的なインネットワーク コンピューティング エンジンを備え、最大スケーリングの HPC ワークロードでのパフォーマンスを高めます。HBv2 VM では、すべての RDMA 動詞と MPI バリアントをサポートする標準の Mellanox OFED ドライバーを使用しています。

各 HBv2 VM は、120 基の AMD EPYC (英語)™ 7002 シリーズ CPU コアを搭載しており、1 CPU コアあたり最大 3.3 GHz のクロック周波数、480 GB の RAM、480 MB の L3 キャッシュを備え、同時マルチスレッディング (SMT) には対応していません。HBv2 VM が提供するメモリ帯域幅は最大 340 GB/秒で、これは同等の x86 プラットフォームを 45 ~ 50% 上回り、現在ほとんどの HPC ユーザーがそれぞれのデータセンターで利用しているものよりも 3 倍高速です。HBv2 VM は、倍精度で最大 4 TFLOPS、単精度で最大 8 TFLOPS のパフォーマンスを発揮します。

HBv2 VM を対象とした 1 年間および 3 年間の予約インスタンス、従量課金制、およびスポット料金が、LinuxWindows の両方の展開に提供されるようになりました。5 年間の予約インスタンスについては、Azure の営業担当者までお問い合わせください。

重要な気象予報に破壊的変化をもたらすスピード

数値気象予報 (NWP) とシミュレーションは、長年、HPC のユース ケースの中でも特に有益なものとされてきました。NWP 手法を使用することで、科学者は地球の大気の動きをより的確に理解して予測できます。これにより、航空機の航路の調整や、世界中での商品の配送、ビジネス継続性の確保のほか、最悪の天候による重大な災害への備えなど、あらゆる面で進歩が加速しています。マイクロソフトは科学ならびに社会におけるこの分野の重大性を認識しており、Azure Open Datasets イニシアチブの一環として、米国海洋大気庁 (NOAA) の全球予報システム (GFS) によって生成された米国の 1 時間ごとの気象予報データを Azure で共有しているのもそのためです。

HPC Azure Global チームの一員である Cormac Garvey は、世界最高峰の性能を誇るスーパーコンピューターにおいて、いくつもの気象シミュレーション チームを支援してきた豊富な経験があります。そしてこのたび Cormac は、広く利用されている Weather Research and Forecasting (英語) (WRF) バージョン 4 シミュレーション スイートを HBv2 VM で実行するためのガイドを公開しました。

Cormac が使用したのは、2017 年にカテゴリー 5 の暴風を伴ってカリブ海を襲ったハリケーン マリアを対象とし、1 km の解像度を用いた 3 億 7,100 万格子点でのシミュレーションです。このモデルが選ばれたのは、HBv2 VM の厳密なベンチマークとしてだけでなく、危険な暴風のシミュレーションを迅速かつ正確に行うことが気象学コミュニティーの最も重要な役割の 1 つであるという理由もあります。

Azure HBv2 での WRF v4.1.3 のベンチマーク結果

図 1: Azure HBv2 VM を 1 ~ 672 台まで増やした場合の WRF の加速結果

ノード数

(VM)

並列プロセス数

時間ステップあたりの平均時間 (秒)

スケーリング効率

加速結果

(VM ベース)

1

120

18.51

100%

1.00

2

240

8.9

104%

2.08

4

480

4.37

106%

4.24

8

960

2.21

105%

8.38

16

1,920

1.16

100%

15.96

32

3,840

0.58

100%

31.91

64

7,680

0.31

93%

59.71

128

15,360

0.131

110%

141.30

256

23,040

0.082

88%

225.73

512

46,080

0.0456

79%

405.92

640

57,600

0.0393

74%

470.99

672

80,640

0.0384

72%

482.03

図 2: Azure HBv2 VM での WRF のスケーリングと構成データ

注: 一部のスケーリング ポイントについては、30 MPI ランク、1 ランクあたり 4 スレッドで最適なパフォーマンスであったのに対し、他は 90 MPI ランクで最適なパフォーマンスでした。OpenMPI 4.0.2 を使って、すべてのテストが行われました。

Azure HBv2 VM で実行されたハリケーン マリアのシミュレーションは、VM 数が 128 台 (並列プロセス数 15,360 個) の段階まではほぼ超線形のスケーラビリティが得られました。スケーリングによる加速は、この演習でテストされた最大スケールの VM 数である 672 台 (並列プロセス数 80,640 個) まで続き、VM 1 台の場合に対して 482 倍の加速となっています。また、ノード (VM) 数が 512 台の段階で、2016 年に最速マシン上位 20 の 1 つとしてデビューした主要スーパーコンピューターと比べて (英語)、パフォーマンスが最大 2.2 倍を記録したことを確認しています。

では、いったい何がより高いレベルのスケーリング効率の達成を妨げているのでしょうか。その要因は、この 3 億 7,100 万格子点のモデルが (知られている最大規模の WRF モデルの 1 つであるとはいえ)、これほど高度なレベルの並列処理においては小さすぎるという点にあります。この結果は、世界をリードする気象予報組織にとって、このような複雑な気象現象に対する数値の精度を高め、より現実的な理解を得るために、Azure を利用してさらに解像度の高いモデルを構築し、稼働させることができる可能性を指し示すものです。

ぜひ、Azure Tech Community に投稿された Cormac のブログ記事 (英語) で、HBv2 をはじめとするマイクロソフトの H シリーズ仮想マシン ファミリで WRF を実行する方法をご確認ください。

ハイパーリアリスティックな CFD から生まれる、より質の高い安全な製品設計

計算流体力学 (CFD) は、Azure の多数のお客様が進めるシミュレーション中心のビジネスにとって中核となるものです。お客様からよく寄せられるご要望の中に、「コストをできる限り一定に保ちながら、能力を "10 倍" にしたい」というものがあります。特に、より高い解像度でシミュレーションを行うことで、モデルの精度を大幅に高める方法を探しているケースがよく見られます。多くのお客様が既に CFD の問題を 1 ジョブあたり最大 500 ~ 1,000 個の並列プロセスで解決していることを考えると、少なくとも 5,000 ~ 10,000 個の並列プロセスへの線形スケーリングを意味するこのご要望は大きな課題だといえます。もっとも、Azure は昨年、CFD アプリケーションを 10,000 個以上の並列プロセス (英語) にまでスケーリングした初のパブリック クラウドになり、これらの目標の 1 つを達成しています。そして今回の HBv2 VM のリリースに伴い、Azure の CFD 能力が再び高まりを見せています。

同じく Azure Global HPC チームの一員である Jon Shelley は、Siemens と連携して同社の過去最大規模となる CFD シミュレーションの検証を行いました。その際使用したのは、かの名高い「ル・マン 24 時間レース」にちなんで名付けられたスポーツ カーの 10 億セルのモデルと、昨年 Azure でテストされたばかりのものよりも 10 倍高い解像度のメッシュです。Jon は、Simcenter STAR-CCM+ を HBv2 VM で大規模に実行するためのガイドを公開しました。

Siemens の Simcenter Star-CCM+ 14.06 のベンチマーク結果

図 3: Azure HBv2 VM を 1 ~ 640 台まで増やした場合の Simcenter STAR-CCM+ のスケーリング効率

ノード数

(VM)

並列プロセス数

ソルバーの経過時間

スケーリング効率

加速結果

(VM ベース)

8

928

337.71

100%

1.00

16

1,856

164.79

102.5%

2.05

32

3,712

82.07

102.9%

4.11

64

7,424

41.02

102.9%

8.23

128

14,848

20.94

100.8%

16.13

256

29,696

12.02

87.8%

28.10

320

37,120

9.57

88.2%

35.29

384

44,544

7.117

98.9%

47.45

512

59,392

6.417

82.2%

52.63

640

57,600

5.03

83.9%

67.14

図 4: Azure HBv2 VM での STAR-CCM+ のスケーリングと構成データ

注: 特定のスケーリング ポイントでは、1 VM あたり 90 個、112 個、116 個、または 120 個の並列プロセスで最適なパフォーマンスが得られる場合があります。以下のデータは、最適なパフォーマンスの数値を示しています。 HPC-X MPI ver. 2.50 を使って、すべてのテストが行われました。

このテストでも、Azure HBv2 は、128 台の VM で並列プロセスが 15,000 個を超えるまでは線形の効率を示すという難題を実行しました。そこから、高いスケーリング効率が続き、並列プロセスが 44,000 個を超えた段階でピークの約 99% に達しました。最大スケールの VM 数である 640 台 (並列プロセス数 57,600 個) の段階で、HBv2 が達成したスケーリング効率は 84% でした。これは、これまでに実行された (英語) Simcenter STAR-CCM+ による最大スケーリングの CFD シミュレーションの 1 つで、現在、Azure のお客様がレプリケートできるようになっています。

ぜひ、Azure Tech Community サイトに投稿された Jon のブログ記事 (英語) で、HBv2 をはじめとするマイクロソフトの H シリーズ仮想マシン ファミリで Simcenter STAR-CCM+ を実行する方法をご確認ください。

高度な HPC I/O で優れたコスト効率を達成

クラウドで増えているシナリオに、オンデマンドの HPC グレードの並列ファイルシステムがあります。その根本的な理由はとても単純で、お客様が大量のコンピューティングを実行する必要がある場合には、たいてい大量のデータをそれらのコンピューティング リソースとの間でやりとりする必要があるというものです。この場合の問題は、従来のオンプレミスの HPC ファイルシステム アプライアンスと単純にコストを比較することが、状況によっては好ましくないという点です。しかし、Azure HBv2 VM を利用すれば、NVMeDirect (英語) テクノロジを極めて待機時間の短い RDMA 機能と組み合わせて、オンデマンドの "バースト バッファー" 並列ファイルシステムを実現でき、コンピューティング目的で既にプロビジョニングされた HBv2 VM 以外に追加コストはかかりません。

BeeGFS は、そのようなファイルシステムの 1 つであり、エントリーレベルのユーザーと高度なスケーリングを求めるユーザーの両者の間でユーザー ベースを急速に拡大しています。また、BeeOND ファイルシステムは、これまでにない HPC と AI のハイブリッド スーパーコンピューターである「Tsubame 3.0 (英語)」上での運用環境でも使われています。

ここでは、サンプルの BeeOND ファイルシステムが、352 台の HBv2 VM で構築され、308 TB の使用可能な高パフォーマンスの名前空間が提供された場合にどのように表示されるかを大まかに紹介します。

HBv2 VM でのサンプルの BeeOND ファイルシステムの概要

図 5: HBv2 VM でのサンプルの BeeOND ファイルシステムの概要

352 台の HBv2 VM での並列ファイルシステムに対して、広く利用されている IOR (英語) テストを実行することで、BeeOND はピーク時の読み取りパフォーマンスとして 763 GB/秒、ピーク時の書き込みパフォーマンスとして 352 GB/秒を達成しました。

ぜひ、Azure Tech Community に投稿された Cormac のブログ記事 (英語) で、RDMA を利用する Azure Virtual Machines で BeeGFS を実行する方法をご確認ください。

クラウドでの HPC エクスペリエンスを 10 倍に

Microsoft Azure は、世界クラスの HPC エクスペリエンスのほか、最大レベルのパフォーマンス、価格性能比、スケーラビリティをお客様にお届けすることを目標に取り組んでいます。

AMD のデータ センター製品管理担当コーポレート バイス プレジデントの Ram Peddibhotla 氏は、次のように述べています。「第 2 世代の AMD EPYC プロセッサは、優れたコアのスケーリングや、極めて広いメモリ帯域幅へのアクセスを提供すると共に、PCIe 4.0 をサポートする初の x86 サーバー プロセッサでもあります。このすべての特長により、業界最高レベルのハイ パフォーマンス コンピューティングがいくつか実現されています。HPC において、Azure はクラウドで驚くべき偉業を成し遂げました。HBv2 VM と第 2 世代の EPYC プロセッサが、実環境のさまざまな HPC ワークロードに対応する、スーパーコンピューター級のパフォーマンス、MPI のスケーラビリティ、そしてコスト効率を提供できることを証明すると同時に、誰もが HPC にアクセスできるようにしたのです。これにより、科学と研究の進歩が加速するでしょう。」

Mellanox Technologies のマーケティング担当シニア バイス プレジデントの Gilad Shainer 氏は、次のようにコメントしています。「200 ギガビットの HDR InfiniBand は、高いデータ スループット、極めて短い待機時間、スマートなインネットワーク コンピューティング エンジンを備え、コンピューティングやデータ アプリケーションでの優れたパフォーマンスとスケーラビリティを実現します。当社は Microsoft と連携して、InfiniBand の利点を Azure にもたらし、ユーザーに最先端の HPC クラウド サービスを提供できることを大変うれしく感じています。InfiniBand RDMA とその MPI 高速化エンジンを取り入れることで、Azure は他のイーサネットに基づくクラウド オプションよりも高いパフォーマンスを実現できます。今後も Microsoft と共に次世代のテクノロジと機能をお届けできることを楽しみにしています。」