SR-IOV-Verfügbarkeit für das NCv3-SKU für VMs
Veröffentlichungsdatum: 17 Oktober, 2019
Im Rahmen des dauerhaften Ziels von Azure, branchenführende Leistung zu erbringen, kündigen wir Erweiterungen an, die ab Anfang November 2019 die Unterstützung für alle MPI-Implementierungen und -Versionen sowie RDMA-Verben für mit InfiniBand ausgestattete virtuelle Computer ermöglichen (beginnend mit NCv3).
Das Upgrade wird in einzelnen Regionen zu Serverausfällen führen, und wenn Sie beabsichtigen, das InfiniBand-Netzwerk mit MPI zu nutzen, müssen Sie Ihre VMs aktualisieren. Weitere Informationen finden Sie nachfolgend.
GEPLANTE NEUERUNGEN
Mit dem rasanten Wachstum von Berechnungen mit mehreren Knoten und Modelltrainings haben sich die Bedürfnisse der Kunden und die von ihnen verwendete Software weiterentwickelt. Mit diesem Update wird unsere Unterstützung auf den gesamten MPI-Stapel ausgeweitet, sodass Sie das InfiniBand-RDMA-Netzwerk für die Kommunikation zwischen VMs mit geringer Latenz und hoher Bandbreite mit SR-IOV nutzen können.
Die Intel MPI-Version 5.x wird ebenso wie alle nachfolgenden Intel MPI-Versionen weiterhin unterstützt. Zusätzlich werden alle anderen MPIs unterstützt, die von Open Fabric Enterprise Distribution (OFED), OpenMPI und Nvidias NCCL2-Bibliothek unterstützt werden und optimierte Leistung für GPUs bieten. Diese Erweiterungen werden den Kunden eine höhere InfiniBand-Bandbreite, niedrigere Latenzen und vor allem eine bessere verteilte Anwendungsleistung bieten.
AUSWIRKUNG
Alle Benutzer von NCv3-SKUs werden je nach Region betroffen sein (siehe Zeitplan unten). Das Update beinhaltet Änderungen sowohl an der Serverhardware und -software. Deshalb kommt es zu einer Ausfallzeit. Während der Ausfallzeit:
- NCv3-Computer in der Region werden für einen Zeitraum von drei Stunden nicht verfügbar sein.
- Alle VMs auf NCv3-Computern in der Region werden entfernt und nach dem Update wieder bereitgestellt.
- Daten, die auf lokalen (kurzlebigen) Datenträgern gespeichert sind, gehen verloren. Speicherkonten sind davon nicht betroffen.
ERFORDERLICHE AKTION
Führen Sie die folgenden Schritte aus, um Datenverlust zu vermeiden und mögliche Auswirkungen auf Ihren Dienst zu minimieren:
- Stellen Sie sicher, dass alle Aufträge abgeschlossen sind und die Daten vor dem geplanten Update auf Ihrem Speicherkonto gesichert werden. Alle lokal gespeicherten Daten gehen verloren.
- Sehen Sie sich den NCv3-Zeitplan für Updates an. Bei Bedarf können Sie eine vorübergehende Migration in eine alternative Region in Betracht ziehen. Wenn das der Fall ist, überprüfen Sie bestehende Regionen oder fordern Sie neue Kontingente in der vorgesehenen Alternativregion oder den vorgesehenen Alternativregionen an.
- Wenn Ihre Szenarios InfiniBand oder MPI nicht erfordern:
- Sie müssen keine Änderungen an Ihrem Image oder Ihrer Konfiguration vornehmen.
- Wenn InfiniBand oder MPI erforderlich ist, gehen Sie wie folgt vor:
- Lesen Sie die dienstspezifischen Leitfäden (z. B. zu Azure Batch oder Azure Machine Learning) durch, wenn Sie wissen möchte, welche verwalteten Dienste InfiniBand-Szenarios unterstützen.
- Wir empfehlen, Ihr Betriebssystem auf eine Version zu aktualisieren, die Posteingangtreiber für InfiniBand unterstützt. Sie sollten jedoch vorher testen, ob Ihr Image bereits Posteingangtreiber für InfiniBand unterstützt (letzter Aufzählungspunkt).
- Laden Sie den neuesten Treiber OEFD-Treiber herunter, und installieren Sie diesen, falls er nicht bereits in Ihrem Image enthalten ist (manche enthalten diesen standardmäßig). Weitere Informationen zu den vollständigen Schritten finden Sie in diesem Artikel.
- Testen Sie Ihr aktualisiertes Image und Ihren aktualisierten Treiber auf Hb- oder Hc-VMs, auf denen SR-IOV bereits aktiviert ist.
Bei Fragen oder Bedenken können Sie sich an das Azure GPU-Feedback-Team (azurenfeedback@microsoft.com) oder an Ihren Supportmitarbeiter im Kundendienst wenden.