跳至主要內容
現已提供

NCv3 Virtual Machines SKU 的 SR-IOV 可用性

發佈日期: 十月 17, 2019

延續 Azure 對提供業界領先效能的承諾,我們宣布將為所有 MPI 實作和版本,以及 RDMA Verbs 提出啟用支援的強化,將從 2019 年 11 月稍早推出的 NCv3 開始。 

升級將會根據區域進行伺服器停機,如果您想要使用 MPI 利用 InfiniBand 網路,必須更新 VM。如需完整詳細資料,請閱讀以下資訊。 

接下來會有什麼? 

因為多節點計算和模型訓練成長迅速,所以客戶需要和使用的軟體一樣進化。  這個更新將會擴張我們的支援來包含整個 MPI 堆疊,讓您能針對使用 SR-IOV 的 VM 使用 InfiniBand RDMA 網路,來享有低延遲和高頻寬的通訊。 

Intel MPI  5.x 版和後續的 Intel MPI 版本將會繼續享有支援。  此外,Open Fabric Enterprise Distribution (OFED)、OpenMPI 和 Nvidia NCCL2 library 為提供最佳化效能給 GPU 而支援的 MPI,將會獲得支援。  這些強化將為客戶提供更高的 InfiniBand 頻寬、較低的延遲,以及最重要的分散式應用程式效能改善。 

影響 

NCv3 SKU 的所有使用者均會受到以區域為基礎的影響 (請參閱以下排程)。  更新會使伺服器硬體和軟體均需要變更,這會導致停機。  停機期間: 

  • 區域中的 NCv3 機器將暫停使用 3 小時 
  • 區域中 NCv3 機器上的所有 VM 將會移除,並在更新後重新部署 
  • 儲存在本機 (暫存) 磁碟的資料將會遺失。  儲存體帳戶不會受到影響 

需要採取動作 

為避免資料遺失並將對服務的影響降至最低,請採取以下步驟: 

  • 在排程的更新,確保所有作業均已完成,且資料已備份至儲存體帳戶。  儲存在本機的所有資料將會遺失。 
  • 您就不需要對映像或設定進行任何變更。 
  • 若您需要 InfiniBand 或 MPI,請執行如下: 
  • 若要了解支援 InfiniBand 的受控服務,請參閱相關的服務指導 (例如 Azure BatchAzure Machine Learning)。 
  • 極力建議您將 OS 的版本,更新為包含支援 InfiniBand 之收件匣驅動程式的版本;若您目前的映像已包含支援 InfiniBand 的收件匣驅動程式,建議您先行測試 (請參閱下列最後一項) 
  • 若您的映像不含最新的 OFED 驅動程式 (出廠時可能只提供限定套組),請加以下載及安裝。  如需完整步驟,請參閱本文。 
  • 在已經啟用 SR-IOV 的 Hb 或 Hc VM 上測試更新的映像與驅動程式。

如有疑問或想法,請連絡 Azure GPU 意見反應 (azurenfeedback@microsoft.com) 或您的客戶服務支援代表。 

  • 虛擬機器
  • Features

相關產品