NCv3 Virtual Machines SKU 的 SR-IOV 可用性
發佈日期: 十月 17, 2019
延續 Azure 對提供業界領先效能的承諾,我們宣布將為所有 MPI 實作和版本,以及 RDMA Verbs 提出啟用支援的強化,將從 2019 年 11 月稍早推出的 NCv3 開始。
升級將會根據區域進行伺服器停機,如果您想要使用 MPI 利用 InfiniBand 網路,必須更新 VM。如需完整詳細資料,請閱讀以下資訊。
接下來會有什麼?
因為多節點計算和模型訓練成長迅速,所以客戶需要和使用的軟體一樣進化。 這個更新將會擴張我們的支援來包含整個 MPI 堆疊,讓您能針對使用 SR-IOV 的 VM 使用 InfiniBand RDMA 網路,來享有低延遲和高頻寬的通訊。
Intel MPI 5.x 版和後續的 Intel MPI 版本將會繼續享有支援。 此外,Open Fabric Enterprise Distribution (OFED)、OpenMPI 和 Nvidia NCCL2 library 為提供最佳化效能給 GPU 而支援的 MPI,將會獲得支援。 這些強化將為客戶提供更高的 InfiniBand 頻寬、較低的延遲,以及最重要的分散式應用程式效能改善。
影響
NCv3 SKU 的所有使用者均會受到以區域為基礎的影響 (請參閱以下排程)。 更新會使伺服器硬體和軟體均需要變更,這會導致停機。 停機期間:
- 區域中的 NCv3 機器將暫停使用 3 小時
- 區域中 NCv3 機器上的所有 VM 將會移除,並在更新後重新部署
- 儲存在本機 (暫存) 磁碟的資料將會遺失。 儲存體帳戶不會受到影響
需要採取動作
為避免資料遺失並將對服務的影響降至最低,請採取以下步驟:
- 在排程的更新前,確保所有作業均已完成,且資料已備份至儲存體帳戶。 儲存在本機的所有資料將會遺失。
- 您就不需要對映像或設定進行任何變更。
- 若您需要 InfiniBand 或 MPI,請執行如下:
- 若要了解支援 InfiniBand 的受控服務,請參閱相關的服務指導 (例如 Azure Batch、Azure Machine Learning)。
- 極力建議您將 OS 的版本,更新為包含支援 InfiniBand 之收件匣驅動程式的版本;若您目前的映像已包含支援 InfiniBand 的收件匣驅動程式,建議您先行測試 (請參閱下列最後一項)
- 若您的映像不含最新的 OFED 驅動程式 (出廠時可能只提供限定套組),請加以下載及安裝。 如需完整步驟,請參閱本文。
- 在已經啟用 SR-IOV 的 Hb 或 Hc VM 上測試更新的映像與驅動程式。
如有疑問或想法,請連絡 Azure GPU 意見反應 (azurenfeedback@microsoft.com) 或您的客戶服務支援代表。