Omitir navegación
YA DISPONIBLE

Disponibilidad de SR-IOV en el SKU de las máquinas virtuales NCv3

Fecha de publicación: 17 octubre, 2019

Como parte del compromiso constante de Azure de proveer un rendimiento líder en el sector, estamos anunciando mejoras para habilitar el soporte para todas las versiones e implementaciones de MPI, y los verbos RDMA para máquinas virtuales equipadas con InfiniBand, a partir de principios de noviembre de 2019 con NCv3

La actualización INVOLUCRARÁ TIEMPO DE INACTIVIDAD DEL SERVIDOR por regiones y, si quiere usar la red InfiniBand con MPI, NECESITA ACTUALIZAR SUS MÁQUINAS VIRTUALES. Lea a continuación para conocer los detalles completos. 

¿QUÉ NOVEDADES SE ESPERAN? 

Con el rápido crecimiento del cálculo de varios nodos y el entrenamiento de modelos, las necesidades de los clientes han evolucionado tal como el software que utilizan.  Esta actualización ampliará nuestro soporte para incluir toda la pila de MPI, lo que le permitirá usar la red RDMA de InfiniBand para la comunicación de baja latencia y alto ancho de banda entre máquinas virtuales que usan SR-IOV. 

La versión 5.x de MPI Intel mantendrá el soporte, al igual que todas las versiones posteriores de MPI Intel.  Además, se admitirán todas las demás MPI compatibles con la biblioteca NCCL2 de Nvidia, Open Fabric Enterprise Distribution (OFED) y OpenMPI, lo que proporcionará un rendimiento optimizado para las GPU.  Estas mejoras les ofrecerán a los clientes un mayor ancho de banda InfiniBand, latencias más bajas y, lo más importante, un mejor rendimiento de las aplicaciones distribuidas. 

IMPACTO 

Todos los usuarios de los SKU de NCv3 se verán impactados según la región (vea el calendario a continuación).  La actualización involucra cambios al software y hardware del servidor, lo que requiere un tiempo de inactividad.  Durante el tiempo de inactividad: 

  • Las máquinas NCv3 en la región no estarán disponibles durante un periodo de 3 horas 
  • Se eliminarán todas las VM en las máquinas NCv3 de la región y se volverán a implementar después de la actualización 
  • Se perderán los datos almacenados en los discos locales (efímeros).  Las cuentas de almacenamiento no se verán afectadas 

ACCIÓN NECESARIA 

Para evitar la pérdida de datos y minimizar el impacto potencial a su servicio, siga estos pasos: 

  • Asegúrese que todos los trabajos estén completos y los datos cuenten con copias de seguridad en su cuenta de almacenamiento antes de la actualización programada.  Se perderán todos los datos almacenados localmente. 
  • No es necesario que realice ningún cambio en su imagen o configuración. 
  • Si requiere InfiniBand o MPI, haga lo siguiente: 
  • Para los servicios administrados que admiten escenarios de InfiniBand, consulte la guía específica del servicio (por ejemplo, Azure Batch, Azure Machine Learning). 
  • Recomendamos encarecidamente que actualice su sistema operativo a una versión que incluya controladores de bandeja de entrada para InfiniBand; sin embargo, si la imagen actual ya incluye compatibilidad con el controlador de la bandeja de entrada para InfiniBand, le recomendamos que realice una prueba de antemano (consulte la última viñeta a continuación). 
  • Descargue e instale el controlador OFED más reciente si no está incluido en la imagen (un conjunto limitado puede incluirlos preparados para usarse).  Vea este artículo para los pasos completos. 
  • Pruebe la imagen y los controladores actualizados en VM Hb o Hc, que ya están habilitadas para SR-IOV.

Si tiene preguntas o dudas, envíe sus comentarios sobre el GPU de Azure (azurenfeedback@microsoft.com) o póngase en contacto con su representante del Servicio de atención al cliente. 

  • Virtual Machines
  • Features

Productos relacionados