本日、Azure は、NVIDIA A100 Tensor Core GPU を搭載した Azure ND A100 v4 クラウド GPU インスタンスの一般提供を発表し、パブリック クラウドでリーダーシップクラスのスーパーコンピューティングスケーラビリティを実現します。AI と ハイ パフォーマンス コンピューティング (HPC) の次のフロンティアを追い求める要求の厳しいお客様にとって、スケーラビリティは、ソリューションの総コストとソリューションまでの時間を改善するための鍵となります。
簡単に言えば、NVIDIA A100 GPU を搭載した ND A100 v4 は、最も要求の厳しいお客様が、速度を低下させることなくスケールアップおよびスケールアウトできるように設計されています。
プレリリースのパブリック スーパーコンピューティング クラスターで 164 ND A100 v4 仮想マシンを使用してベンチマークを実行すると、16.59 ペタフロップの高性能 Linpack (HPL) の結果が得られます。このHPLの結果は、パブリッククラウドインフラストラクチャ上で提供され、ジョブが実行された地域に基づいて、世界で最速のスーパーコンピュータのトップ500リスト、またはヨーロッパのトップ10のトップ20に収まります。
人工知能 (AI) と機械学習 (ML) に重点を置いた高パフォーマンス Linpack バリアントであるHPL-AI を使用して測定された同じ 164 VM プールは、142.8 ペタフロップの結果を達成し、公式のHPL-AIベンチマークリストで測定された世界のトップ5最速の既知の AI スーパーコンピュータの中に入りました。これらのHPLの結果は、単一のパブリック Azure クラスターのほんの一部のみを利用して、世界で最も強力な専用のオンプレミススーパーコンピューティングリソースでランク付けされます。
そして今日、ND A100 v4 が一般提供に向かうにつれて、お近くの 4 つの Azure リージョン (East 米国、West 米国 2、West Europe、South Central 米国) を通じて、世界最速のパブリック クラウド スーパーコンピューターのオンデマンドの即時可用性が発表されます。
ND A100 v4 VM シリーズは、1 台の仮想マシン (VM) と 8 個の NVIDIA Ampere アーキテクチャ ベースの A100 Tensor Core GPU から始まり、NVIDIA HDR 200 Gb/s InfiniBand リンクを介して配信される VM あたり 1.6 Tb/秒の相互接続帯域幅 (個々の GPU ごとに 1 つ) を使用して、1 つのクラスター内で数千の GPU をスケールアップできます。さらに、8 GPU VM ごとに、第 3 世代 NVIDIA NVLink の完全な補完機能が備えており、1 秒あたり 600 ギガバイトを超える VM 内の GPU から GPU への接続が可能になります。
事実上の業界標準の HPC および AI ツールとライブラリを活用するために構築されたお客様は、特別なソフトウェアやフレームワークなしで ND A100 v4 の GPU と独自の相互接続機能を活用できます。このライブラリは、最もスケーラブルな GPU アクセラレーション AI と HPC ワークロードが、基になるネットワーク トポロジや配置を気にすることなく、すぐに使用できる同じ NVIDIA NCCL2 ライブラリを使用します。同じ VM スケール セット内の VM をプロビジョニングすると、相互接続ファブリックが自動的に構成されます。
ND A100 v4 を介して、要求の厳しいオンプレミスの AI ワークロードと HPC ワークロードをクラウドに取り込むことができますが、Azure ネイティブアプローチを好むお客様のために、Azure Machine ラーニング は調整された仮想マシン (必要なドライバーとライブラリと共に事前にインストール) と、ND A100 v4 ファミリ用に最適化されたコンテナー ベースの環境を提供します。サンプル レシピと Jupyter Notebook を使用すると、PyTorch、TensorFlow、BERT などの最先端モデルのトレーニングなど、複数のフレームワークをすばやく使い始めることができます。Azure Machine ラーニングを使用すると、お客様は、AI エンジニアリング チームと同じ Azure のツールと機能にアクセスできます。
各 NVIDIA A100 GPU は、以前の V100 GPU のパフォーマンスの 1.7 ~ 3.2 倍のパフォーマンスを提供し、特定のワークロードに対して混合精度モード、スパーリティ、マルチインスタンス GPU (MIG) などの新しいアーキテクチャ機能を重ねたときのパフォーマンスの最大 20 倍を実現します。また、各 VM の中核となるのは、全く新しい第 2 世代 AMD EPYC プラットフォームであり、CPU から GPU への PCI Express Gen 4.0- を前世代の 2 倍の速度で転送します。
新しい Azure ND A100 v4 プラットフォームを使用して何を構築、分析、検出するのかを待つことはありません。
[サイズ] |
物理 CPU コア |
ホスト メモリ (GB) |
Gpu |
ローカル NVMe 一時ディスク |
NVIDIA InfiniBand ネットワーク |
Azure ネットワーク |
Standard_ND96asr_v4 |
96 |
900 GB |
8 x 40 GB NVIDIA A100 |
6,500 GB |
8 x 200 Gbps |
40 Gbps |
詳細情報
- 詳細については、ブログ「AI スーパーコンピューティングをお客様に提供する」をご覧ください。
- Azure を視聴する: 高い野心を持つ AI と HPC で世界に力を与える:Microsoft の CVP である Girish Bablani と、NVIDIA のデータ センター ビジネスの VP および GM である Ian Buck。
- Azure HPC 仮想マシンのハイ パフォーマンス コンピューティング仮想マシン のサイズ の詳細を確認してください。
- 大規模な Microsoft AI。
- 上位 500 件のリスト。