NCv3 Virtual Machines SKU で SR-IOV が利用可能に
公開日: 10月 17, 2019
Azure が現在取り組んでいる、業界をリードするパフォーマンスの実現に向け、すべての MPI の実装とバージョン、および InfiniBand 搭載仮想マシンでの RDMA Verbs のサポートが含まれる機能強化プログラムを、2019 年 11 月初旬に NCv3 からリリース開始することをお知らせします。
アップグレードには、リージョン単位でサーバーのダウンタイムが発生します。また、MPI を使用して InfiniBand ネットワークを利用する場合には、VM を更新する必要があります。詳細については、以下の記事をお読みください。
今後の予定
マルチノード コンピューティングおよびモデル トレーニングの急速な発展に伴い、使用するソフトウェアと、お客様のニーズは進化しています。 この更新プログラムにより、MPI スタック全体が含まれるようサポートが拡張され、SR-IOV を使用している VM 間で、InfiniBand RDMA ネットワークを使用した少ない待機時間かつ高帯域幅の通信を実現することができます。
Intel MPI バージョン 5.x は引き続きサポートされ、当然、後続のすべての Intel MPI バージョンもサポートされます。 さらに、GPU 向けに最適化されたパフォーマンスを提供する Open Fabric Enterprise Distribution (OFED)、OpenMPI、Nvidia の NCCL2 ライブラリでサポートされている、その他すべての MPI もサポートされます。 これらの機能強化により、お客様は InfiniBand の高帯域幅、少ない待機時間、そして最も重要な、分散型アプリケーションの優れたパフォーマンスを利用することができます。
影響
NCv3 SKU を利用しているすべてのユーザーは、リージョン単位で影響を受けます (以下のスケジュールをご覧ください)。 更新プログラムには、サーバーのハードウェアとソフトウェアの両方に対する変更が含まれており、ダウンタイムが発生します。 ダウンタイム中:
- リージョン内の NCv3 マシンは 3 時間使用できません
- リージョン内の NCv3 マシン上のすべての VM は削除され、更新後、再度デプロイされます
- ローカル (一時) ディスク上に保存されたデータは失われます。 ストレージ アカウントは影響を受けません
必要なアクション
データ損失を防止し、サービスに与える影響を最小限にするため、次の手順を行ってください。
- スケジュールされた更新の前に、すべてのジョブが完了し、データがストレージ アカウントにバックアップされていることを確認してください。 ローカルに保存されているデータは失われます。
- NCv3 の更新スケジュールをご確認ください。 必要に応じて、別のリージョンに一時的に移行することを検討してください。 その場合は、別のリージョンでの既存のクォータを確認するか、新しいクォータを要求してください。
- InfiniBand または MPI が不要な場合
- イメージや構成に変更を加える必要はありません。
- InfiniBand または MPI が必要な場合は、次の操作を行ってください。
- InfiniBand シナリオをサポートするマネージド サービスについては、サービス固有のガイダンス (Azure Batch、Azure Machine Learning など) を参照してください。
- お使いの OS を InfiniBand 用受信トレイ ドライバーを含むバージョンに更新することを強くお勧めします。ただし、現在のイメージに InfiniBand 用受信トレイ ドライバーのサポートが既に含まれている場合は、事前にテストすることをお勧めします (以下の最後の箇条書き項目を参照)
- お使いのイメージに最新の OFED ドライバーが含まれていない場合は、それをダウンロードしてインストールします (限定されたセットには初めから含まれていることがあります)。 完全な手順については、この記事をご覧ください。
- 更新されたイメージとドライバーを Hb または Hc VM でテストします。これらの VM では既に SR-IOV が有効になっています。
ご意見やご質問がある場合は、Azure GPU フィードバック (azurenfeedback@microsoft.com) に連絡するか、カスタマー サービス サポートの担当者にお問い合わせください。