• 3 min read

Azure がスケールアウト NVIDIA A100 GPU クラスターの一般提供を発表:最速のパブリック クラウド スーパーコンピューター

本日、Azure は、NVIDIA A100 Tensor Core GPU を搭載した Azure ND A100 v4 クラウド GPU インスタンスの一般提供を発表し、パブリック クラウドでのリーダーシップ クラスのスーパーコンピューティング スケーラビリティを実現します。AI とハイ パフォーマンス コンピューティング (HPC) の次のフロンティアを追い求める需要のあるお客様にとって、スケーラビリティは、総保有コストとソリューションまでの時間を改善するための鍵となります。

本日、Azure は、NVIDIA A100 Tensor Core GPU を搭載した Azure ND A100 v4 クラウド GPU インスタンスの一般提供を発表し、パブリック クラウドでリーダーシップクラスのスーパーコンピューティングスケーラビリティを実現します。AI と ハイ パフォーマンス コンピューティング (HPC) の次のフロンティアを追い求める要求の厳しいお客様にとって、スケーラビリティは、ソリューションの総コストとソリューションまでの時間を改善するための鍵となります。 

簡単に言えば、NVIDIA A100 GPU を搭載した ND A100 v4 は、最も要求の厳しいお客様が、速度を低下させることなくスケールアップおよびスケールアウトできるように設計されています。

プレリリースのパブリック スーパーコンピューティング クラスターで 164 ND A100 v4 仮想マシンを使用してベンチマークを実行すると、16.59 ペタフロップの高性能 Linpack (HPL) の結果が得られます。このHPLの結果は、パブリッククラウドインフラストラクチャ上で提供され、ジョブが実行された地域に基づいて、世界で最速のスーパーコンピュータのトップ500リスト、またはヨーロッパのトップ10のトップ20に収まります。

人工知能 (AI) と機械学習 (ML) に重点を置いた高パフォーマンス Linpack バリアントであるHPL-AI を使用して測定された同じ 164 VM プールは、142.8 ペタフロップの結果を達成し、公式のHPL-AIベンチマークリストで測定された世界のトップ5最速の既知の AI スーパーコンピュータの中に入りました。これらのHPLの結果は、単一のパブリック Azure クラスターのほんの一部のみを利用して、世界で最も強力な専用のオンプレミススーパーコンピューティングリソースでランク付けされます。

そして今日、ND A100 v4 が一般提供に向かうにつれて、お近くの 4 つの Azure リージョン (East 米国、West 米国 2、West Europe、South Central 米国) を通じて、世界最速のパブリック クラウド スーパーコンピューターのオンデマンドの即時可用性が発表されます。

ND A100 v4 VM シリーズは、1 台の仮想マシン (VM) と 8 個の NVIDIA Ampere アーキテクチャ ベースの A100 Tensor Core GPU から始まり、NVIDIA HDR 200 Gb/s InfiniBand リンクを介して配信される VM あたり 1.6 Tb/秒の相互接続帯域幅 (個々の GPU ごとに 1 つ) を使用して、1 つのクラスター内で数千の GPU をスケールアップできます。さらに、8 GPU VM ごとに、第 3 世代 NVIDIA NVLink の完全な補完機能が備えており、1 秒あたり 600 ギガバイトを超える VM 内の GPU から GPU への接続が可能になります。 

事実上の業界標準の HPC および AI ツールとライブラリを活用するために構築されたお客様は、特別なソフトウェアやフレームワークなしで ND A100 v4 の GPU と独自の相互接続機能を活用できます。このライブラリは、最もスケーラブルな GPU アクセラレーション AI と HPC ワークロードが、基になるネットワーク トポロジや配置を気にすることなく、すぐに使用できる同じ NVIDIA NCCL2 ライブラリを使用します。同じ VM スケール セット内の VM をプロビジョニングすると、相互接続ファブリックが自動的に構成されます。

ND A100 v4 を介して、要求の厳しいオンプレミスの AI ワークロードと HPC ワークロードをクラウドに取り込むことができますが、Azure ネイティブアプローチを好むお客様のために、Azure Machine ラーニング は調整された仮想マシン (必要なドライバーとライブラリと共に事前にインストール) と、ND A100 v4 ファミリ用に最適化されたコンテナー ベースの環境を提供します。サンプル レシピと Jupyter Notebook を使用すると、PyTorch、TensorFlow、BERT などの最先端モデルのトレーニングなど、複数のフレームワークをすばやく使い始めることができます。Azure Machine ラーニングを使用すると、お客様は、AI エンジニアリング チームと同じ Azure のツールと機能にアクセスできます。

各 NVIDIA A100 GPU は、以前の V100 GPU のパフォーマンスの 1.7 ~ 3.2 倍のパフォーマンスを提供し、特定のワークロードに対して混合精度モード、スパーリティ、マルチインスタンス GPU (MIG) などの新しいアーキテクチャ機能を重ねたときのパフォーマンスの最大 20 倍を実現します。また、各 VM の中核となるのは、全く新しい第 2 世代 AMD EPYC プラットフォームであり、CPU から GPU への PCI Express Gen 4.0- を前世代の 2 倍の速度で転送します。

新しい Azure ND A100 v4 プラットフォームを使用して何を構築、分析、検出するのかを待つことはありません。

[サイズ]

物理 CPU コア

ホスト メモリ (GB)

Gpu

ローカル NVMe 一時ディスク

NVIDIA InfiniBand ネットワーク

Azure ネットワーク

Standard_ND96asr_v4

96

900 GB

8 x 40 GB NVIDIA A100

6,500 GB

8 x 200 Gbps

40 Gbps

詳細情報