跳到主内容
现已推出

NCv3 虚拟机 SKU 上的 SR-IOV 可用性

发布日期:十月 17, 2019

我们承诺持续提供行业领先的性能。作为该承诺的一部分,我们宣布自 2019 年 11 月初提供的 NCv3 起推出增强功能,对所有 MPI 实现和版本提供支持,并支持对配备了 InfiniBand 的虚拟机使用 RDMA 谓词。 

升级将涉及到区域性服务器停机,如果你计划通过 MPI 使用 InfiniBand 网络,则需要更新你的 VM。请阅读以下内容,了解完整详细信息。 

即将推出的功能 

随着多节点计算和模型训练的快速增长,客户的需求与其使用的软件一样都进行了演进。  这一更新将扩大我们的支持范围,将整个 MPI 堆栈包含在内,让你能够结合使用 SR-IOV 和 InfiniBand RDMA 网络在 VM 之间实现低延迟和高带宽通信。 

如所有后续 Intel MPI 版本一样,Intel MPI 版本 5.x 将继续受到支持。  此外,Open Fabric Enterprise Distribution (OFED)、OpenMPI 和 Nvidia NCCL2 库支持(从而优化 GPU 的性能)的所有其他 MPI 也将受到支持。  这些增强功能将带给客户更高的 InfiniBand 带宽、更低的延迟,而最重要的是,分散式应用程序更卓越的性能。 

影响 

所有 NCv3 SKU 用户都将受到影响,具体以区域而定(详见以下计划)。  该项更新涉及到服务器软件和硬件两方面的变更,这需要停机。  在停机期间: 

  • 所涉区域中的 NCv3 计算机将停用 3 个小时 
  • 该区域中 NCv3 计算机上的所有 VM 都将被删除并在更新后重新部署 
  • 本地(临时)磁盘上存储的数据将丢失。  存储帐户不受影响 

需要执行操作 

为避免数据丢失并尽可能减少对服务的潜在影响,请执行以下步骤: 

  • 确保在计划的更新之前,所有作业均完整且数据已备份到存储帐户中。  本地存储的所有数据都将丢失。 
  • 则无需对映像和配置做任何更改。 
  • 如果你的确需要 InfiniBand 或 MPI,请执行以下操作: 
  • 有关支持 InfiniBand 方案的托管服务,请参阅特定于服务的指南(例如 Azure BatchAzure 机器学习)。 
  • 我们强烈建议将 OS 更新到包含适用于 InfiniBand 的内置驱动程序的版本;但是,如果当前映像已包含对 InfiniBand 的内置驱动程序支持,则建议你事先进行测试(请参见下文最后一个点符) 
  • 如果你的映像中未包含最新的 OFED 驱动程序(可能包含现成驱动程序的映像有限),请下载和安装该驱动程序。  有关完整步骤,请参阅此文章。 
  • 在 Hb 或 Hc VM 上测试已更新的映像和驱动程序,其中这些 VM 已启用 SR-IOV。

如有任何疑问或疑惑,请联系 Azure GPU 反馈 (azurenfeedback@microsoft.com) 或客户服务支持代表。 

  • 虚拟机
  • Features

相关产品