AI スーパーコンピューティングをお客様のもとへ

2020年8月19日 に投稿済み

Senior Program Manager, Accelerated HPC Infrastructure

大量のタスクの原動力として大規模な AI モデルを利用しようとするトレンドにより、AI が構築される方法が変わりつつあります。当社は Microsoft Build 2020 で、Azure の最先端 AI スーパーコンピューティング (英語) と、次世代の AI を実現する新たなクラスの大規模 AI モデルを利用する、「AI at Scale (大規模な AI) (英語)」と呼ばれるマイクロソフトのビジョンをご紹介しました。大規模モデルの利点は、AI スーパーコンピューティングを使用して大量のデータでトレーニングを一度行うだけで済むことです。これにより、異なるタスクや分野に対しては、はるかに少量のデータセットとリソースで "微調整" を行えば利用できます。モデルに含まれるパラメーターの数が増すほど、データが持つわかりにくい微妙な差異をとらえるモデルの能力が上がることは、170 億のパラメータを持つ当社の Turing Natural Language Generation (T-NLG) モデルと、最初から質問に答えたり初見のドキュメントを要約したりできるこのモデルの言語理解能力によって実証されているとおりです。1 年前の最先端モデルよりもはるかに大規模で、以前の画像中心のモデルとは桁違いのサイズを誇るこのような自然言語モデルが、今や Bing、Word、Outlook、Dynamics 全体にわたって多様なタスクの原動力となっています。

この規模のトレーニング モデルには、内部もマシン間も高帯域幅ネットワークによって相互接続された、専用の AI アクセラレータを搭載する数百台のマシンから成る大規模クラスターが不可欠です。マイクロソフトはこのようなクラスターを Azure で構築することで、マイクロソフト製品全体で新たな自然言語の生成機能と理解機能を実現すると共に、安全な汎用人工知能の構築を目指すマイクロソフト製品のミッションにおいて OpenAI を推進してきました。当社最大規模のクラスター群は、AI スーパーコンピューターと呼ばれる非常に集約されたコンピューティング能力を提供しています。そのうち OpenAI 用に構築されたものは、世界で公表されているスーパーコンピューターのトップ 5 にランクインしています。このスーパーコンピューターを利用することで、OpenAI は去る 5 月、1,750 億のパラメータを持つ GPT-3 モデル (英語) と、詩や翻訳などの特にトレーニングされていないタスクを幅広くサポートできるこのモデルの能力を発表しました。

大規模コンピューティング クラスター、優れたネットワーク設計、そして、それを管理するためのソフトウェア スタック (Azure Machine Learning、ONNX Runtime、その他 Azure AI サービス) に対して当社が行った取り組みは、まさに AI at Scale 戦略に沿ったものです。このプロセスを通して生まれたイノベーションによって、最終的に規模を問わずあらゆるお客様の AI ニーズをサポートする Azure の能力が高まっています。たとえば NDv2 VM シリーズでは、Azure は、高帯域幅、低遅延の NVIDIA Mellanox InfiniBand ネットワーキングによって接続された、NVIDIA の V100 Tensor コア GPU を搭載する VM のクラスターを提供する、最初にして唯一のパブリック クラウドとなりました。これは、自動車技術がハイエンドのレーシング業界で開発され、それが日常の乗用車に取り入れられるプロセスにたとえるとわかりやすいでしょう。

かつてない規模を持つ新たなフロンティア

「AI を汎用知能へと進化させる上で、一つには、ますます能力が高まるモデルのトレーニングを実行できる強力なシステムが必要になります。しかし、求められるコンピューティング能力は、最近まで実現することが不可能でした。Azure AI とそのスーパーコンピューティング能力なら、この取り組みを加速させるための優れたシステムを実現できます。」 - OpenAI CEO、Sam Altman 氏

マイクロソフトの一連の Azure イノベーションにおいて、このたび新しい ND A100 v4 VM シリーズを発表しました。当社の最も強力で、非常にスケーラブルな AI VM であり、NVIDIA GPU を 8 基から、数百台の VM 間で相互接続された数千基までオンデマンドで利用できます。

ND A100 v4 VM シリーズの最小構成は、1 台の仮想マシン (VM) と 8 基の NVIDIA Ampere A100 Tensor コア GPU ですが、人間の脳が相互接続されたニューロンで構成されているように、当社の ND A100 v4 ベースのクラスターも、VM あたり 1.6 Tb/秒というかつてない相互接続帯域幅で、最大数千基の GPU にまでスケールアップできます。各 GPU には、特定のトポロジに依存しない専用の 200 Gb/秒 の NVIDIA Mellanox HDR InfiniBand 接続が提供されます。数十、数百、数千の GPU を Mellanox InfiniBand HDR クラスターの一部として連携させることで、AI に関するあらゆるレベルの望みを叶えることができます。いかなる AI 目標 (一からモデルのトレーニングを行う、独自のデータでモデルのトレーニングを続ける、モデルを希望のタスク向けに微調整するなど) も、他のパブリック クラウド オファリングより 16 倍高い専用の GPU 間帯域幅によってはるかに短時間で達成できます。

ND A100 v4 VM シリーズを支えるのは、PCIe Gen4 のような最新のハードウェア標準がすべての主要システム コンポーネントに組み込まれた、まったく新しい Azure 設計の AMD Rome 搭載プラットフォームです。PCIe Gen 4 と NVIDIA の第 3 世代 NVLINK アーキテクチャでは、各 VM 内で最速の GPU 間相互接続が実現し、データがシステムを移動する速度が従来の 2 倍以上に保たれます。 

ほとんどのお客様は、エンジニアリング作業を行わなくても、NVIDIA V100 GPU ベースの前世代のシステムに比べて、即座に 2 倍から 3 倍のコンピューティング パフォーマンスの向上を期待できます。また、多精度 Tensor コアと、スパーシティ アクセラレーション (疎性高速化) およびマルチインスタンス GPU (MIG) の組み合わせなど、新しい A100 の機能を活用することで、最大 20 倍のパフォーマンス向上を達成することも可能です。

「Azure では、NVIDIA の最も高度なコンピューティングとネットワーキングの機能を利用して、クラウド上で AI at Scale を実現するすばらしいプラットフォームが設計されました。NVIDIA A100 GPU の単一パーティションから、NVIDIA Mellanox Infiniband インターコネクトによって接続された何千もの A100 GPU へとスケーリングできる、弾力性のあるアーキテクチャを通じて、Azure のお客様は、世界で最も要件の厳しい AI ワークロードを実行できるようになるでしょう。」 - NVIDIA、アクセラレーテッド コンピューティング担当ゼネラル マネージャー兼バイス プレジデント、Ian Buck 氏

ND A100 v4 VM シリーズでは、VM スケール セットのような Azure のコア スケーラビリティ ブロックを利用して、自動的かつ動的に、あらゆる規模のクラスターを透過的に構成します。これにより、誰でも、どこでも、あらゆる規模で AI を実現し、AI スーパーコンピューターでさえもオンデマンドで数分以内にインスタンス化できるようになります。そうすれば、VM に個別にアクセスすることも、Azure Machine Learning サービスを使用してクラスター全体でトレーニング ジョブを開始して管理することも可能になります。

ND A100 v4 VM シリーズおよびクラスターは現在プレビュー中で、Azure ポートフォリオの標準オファリングとなる予定です。その結果、誰もがクラウドで AI at Scale (英語) の可能性を引き出せるようになります。詳細については、最寄りの当社アカウント チームにお問い合わせください。