配有 InfiniBand 的虚拟机上的 SR-IOV 可用性
发布日期:七月 24, 2020
我们将对配有 InfiniBand 的虚拟机的所有消息传递接口 (MPI) 实现和远程直接内存访问 (RDMA) 谓词提供支持。 这会极大地提高对工作负载使用 InfiniBand 的能力并增加大量相关选项。
升级将导致区域性服务器停机;如果你计划使用 InfiniBand 网络,则需要更新你的虚拟机 (VM)。
即将推出的功能
我们将对配有 InfiniBand 的虚拟机的整个 MPI 堆栈(所有 MPI 实现和 RDMA 谓词)提供支持。 这些增强功能将提高对工作负载使用我们的高带宽、低延迟 InfiniBand 网络的能力。
影响
更新计划中列出的 VM 大小的用户都将受到影响,具体由区域而定。 该项更新涉及到服务器软件和硬件两方面的变更,这需要停机。 在停机期间:
- 所涉区域中的 VM 将停用 3 小时
- 所涉区域中的 VM 将取消分配并在更新后重新部署
- 本地(临时)磁盘上存储的数据将丢失。 存储帐户不受影响
需要执行操作
为避免数据丢失并尽量减少对服务的潜在影响,请:
如果你不需要 InfiniBand 或 MPI
如果你需要 InfiniBand 或 MPI
- 无需对 VM 映像和驱动器进行任何更改。
- 要了解支持 InfiniBand 方案的托管服务,请查看服务特定的指南(例如 Azure BatchAzure 机器学习)。
- 将 VM 映像更新到最新的受支持版本(注意:7.6 版之前的 CentOS HPC 映像不兼容,可能不会启动)。如果其他 OS 发行版需要,或者不使用现成 CentOS-HPC VM 映像,则请按照启用 InfiniBand 的步骤操作。
- 在 已启用 SR-IOV 的 VM 大小上测试更新后的映像和驱动器(请参见 MPI 部分)
如有任何疑问或疑惑,请转到 Azure GPU 反馈或联系客户服务支持人员。
了解更多。