DISPONIBLE IMMÉDIATEMENT

Disponibilité SR-IOV sur la référence (SKU) des machines virtuelles NCv3

Date de publication : 17 octobre, 2019

Dans le cadre de l’engagement continu d’Azure à fournir des performances de pointe, nous annonçons des améliorations permettant la prise en charge de toutes les implémentations et versions de MPI, ainsi que des verbes RDMA pour les machines virtuelles équipées d’InfiniBand, à commencer par NCv3 arrivant début novembre 2019. 

La mise à niveau IMPLIQUERA UN TEMPS D’ARRÊT DU SERVEUR sur une base régionale et, si vous envisagez d'utiliser le réseau InfiniBand à l'aide de MPI, une MISE À JOUR DE VOS ORDINATEURS VIRTUELS EST REQUISE. Veuillez lire ci-dessous pour plus de détails. 

ÉTAPES SUIVANTES 

Avec la croissance rapide du calcul multi-nœuds et de l’apprentissage de modèles, les besoins des clients ont évolué, tout comme les logiciels qu’ils utilisent.  Cette mise à jour étendra notre prise en charge afin d’inclure l’ensemble de la pile MPI, ce qui vous permettra d’utiliser le réseau InfiniBand RDMA pour les communications à faible temps de latence et à bande passante élevée entre ordinateurs virtuels à l’aide de la spécification SR-IOV. 

Intel MPI version 5.x continuera d’être pris en charge, tout comme toutes les versions suivantes d’Intel MPI.  En outre, toutes les autres interfaces de passage de messages (MPI) prises en charge par l’OFED (Open Fabric Enterprise Distribution), OpenMPI et la bibliothèque NCCL2 de Nvidia, offrant des performances optimisées pour les GPU, seront prises en charge.  Ces améliorations fourniront aux clients une bande passante InfiniBand supérieure, des latences moindres et, plus important encore, de meilleures performances des applications distribuées. 

IMPACT 

Tous les utilisateurs des références (SKU) NCv3 seront impactés sur une base région par région (voir le calendrier ci-dessous).  La mise à jour implique des modifications à la fois des parties matérielle et logicielle du serveur, ce qui nécessite un temps d'arrêt.  Lors du temps d’arrêt : 

  • Les machines NCv3 dans la région seront indisponibles pendant une période de 3 heures 
  • Toutes les machines virtuelles sur les machines NCv3 dans la région seront supprimées et redéployées après la mise à jour 
  • Les données stockées sur des disques locaux (éphémères) seront perdues.  Les comptes de stockage ne sont pas affectés 

ACTION REQUISE 

Pour éviter la perte de données et minimiser l'impact potentiel sur votre service, veuillez suivre les étapes suivantes : 

  • Assurez-vous que tous les travaux sont terminées et que les données sont sauvegardées sur votre compte de stockage avant la mise à jour programmée.  Toutes les données stockées localement seront perdues. 
  • Vous n'avez pas besoin de modifier votre image ou votre configuration. 
  • Si vous avez besoin d’InfiniBand ou de MPI, procédez comme suit : 
  • Pour les services managés prenant en charge les scénarios InfiniBand, consultez les instructions spécifiques au service (ex., Azure BatchAzure Machine Learning). 
  • Nous vous recommandons fortement de mettre à jour votre système d'exploitation à une version qui comprend des pilotes de boîte de réception pour InfiniBand ; toutefois, si votre image actuelle offre déjà la prise en charge de pilotes de boîte de réception pour InfiniBand, nous vous encourageons à tester avant (voir la dernière puce ci-dessous) 
  • Téléchargez et installez le pilote OFED le plus récent s'il n'est pas déjà inclus dans votre image (un jeu limité peut les inclure par défaut).  Consultez cet article pour les étapes complètes. 
  • Testez votre image et vos pilotes mis à jour sur les machines virtuelles Hb ou Hc, qui sont déjà compatibles SR-IOV.

Pour tout problème ou question, contactez Azure GPU Feedback (azurenfeedback@microsoft.com) ou votre représentant de Service client. 

  • Ordinateurs virtuels
  • Features

Produits apparentés