InfiniBand 搭載 Virtual Machines での SR-IOV の提供状況
公開日: 7月 24, 2020
Microsoft は InfiniBand 搭載仮想マシンについて、すべての MPI (メッセージ パッシング インターフェイス) 実装と RDMA (Remote Direct Memory Access) 動詞のサポートを有効化しています。 これにより、お客様のワークロードで InfiniBand を活用するための機能とオプションが大幅に強化されます。
アップグレードには、リージョン単位でサーバーのダウンタイムが発生します。また、InfiniBand ネットワークを利用する場合には、お使いの VM を更新する必要があります。
今後の予定
Microsoft は InfiniBand 搭載仮想マシンについて、MPI スタック全体 (すべての MPI 実装と RDMA 動詞) のサポートを有効化しています。 これらの強化により機能が向上し、高帯域幅、低待機時間の InfiniBand ネットワークをお客様のワークロードに活用することができます。
影響
更新スケジュールに一覧表示されている VM サイズをご利用のすべてのユーザーは、リージョン単位で影響を受けます。 更新プログラムには、サーバーのハードウェアとソフトウェアの両方に対する変更が含まれており、ダウンタイムが発生します。 ダウンタイム中:
- リージョン内の VM は、3 時間にわたって使用できなくなります
- リージョン内の VM は、更新後に割り当て解除および再デプロイされます
- ローカル (一時) ディスク上に保存されたデータは失われます。 ストレージ アカウントは影響を受けません
必要なアクション
データ損失を回避し、サービスへの潜在的な影響を最小限に抑えるため、次の手順を行ってください。
InfiniBand または MPI が必要ない場合
- スケジュールされた更新の前に、すべてのジョブが完了し、データがストレージ アカウントにバックアップされていることを確認してください。 ローカルに保存されているデータは失われます。
- 更新スケジュールを確認します。 別のリージョン/SKU への一時的な移行を計画している場合は、目的のリージョンで既存の物を確認するか、新しいクォータをリクエストしてください。
InfiniBand または MPI が必要である場合
- VM イメージとドライバーに変更を加える必要はありません。
- InfiniBand シナリオをサポートするマネージド サービスについては、サービス固有のガイダンス (Azure Batch、Azure Machine Learning など) をご覧ください。
- VM イメージを最新のサポートされているバージョンに更新します (注: バージョン 7.6 より前の CentOS HPC イメージは互換性がなく、起動しない可能性があります)。他の OS ディストリビューションで必要な場合や、すぐに使える CentOS-HPC VM イメージを使用していない場合は、InfiniBand を有効にするの手順に従ってください。
- 更新したイメージとドライバーを、既に SR-IOV が有効になっている VM サイズ (MPI セクションを参照) 上でテストします
ご質問やご不明な点がある場合は、Azure GPU フィードバックまたはカスタマー サービス サポートにお問い合わせください。