Доступность SR-IOV для виртуальных машин с SKU NCv3

Опубликовано 17 октября 2019 г.

Мы стремимся обеспечить в Azure наивысшую в отрасли производительность. Поэтому в начале ноября 2019 г. будут выпущены улучшения, позволяющие добавить поддержку всех реализаций и версий MPI, а также RDMA Verbs для виртуальных машин, использующих InfiniBand, начиная с NCv3

Во время обновления СЕРВЕР БУДЕТ ВРЕМЕННО ПРИОСТАНОВЛЕН в отдельных регионах. Если вы планируете работать с сетями InfiniBand, используя MPI, вам ПОТРЕБУЕТСЯ ОБНОВИТЬ СВОИ ВИРТУАЛЬНЫЕ МАШИНЫ. Ниже приведены дополнительные сведения. 

ПРЕДСТОЯЩИЕ ИЗМЕНЕНИЯ 

Вместе с быстрым развитием технологий вычислений В нескольких узлах и обучения моделей растут И требования клиентов, а также используемого ими программного обеспечения.  В этом обновлении будет добавлена поддержка всего стека MPI. Это позволит применять сеть RDMA InfiniBand с низкой задержкой и высокой пропускной способностью для обмена данными между виртуальными машинами, использующими SR-IOV. 

Intel MPI версии 5.x по-прежнему будет поддерживаться, как и все предыдущие версии.  Кроме того, будут поддерживаться все другие MPI, предоставляемые в Open Fabric Enterprise Distribution, OpenMPI и библиотеке NCCL2, чтобы оптимизировать производительность для GPU.  Такие улучшения обеспечат клиентам более высокую пропускную способность InfiniBand, меньшую задержку и, самое главное, повышенную производительность распределенных приложений. 

ВЛИЯНИЕ 

Это коснется всех пользователей SKU NCv3 в отдельных регионах (см. график ниже).  В рамках обновления предусмотрено изменение аппаратного и программного обеспечения сервера, из-за чего он будет временно недоступен.  Во время простоя произойдет следующее: 

  • Виртуальные машины NCv3 в регионе будут недоступны в течение трех часов. 
  • После обновления все виртуальные машины на компьютерах NCv3 в регионе будут удалены и повторно развернуты. 
  • Данные, хранящие на локальных (временных) дисках, будут удалены.  Но учетные записи хранения не будут затронуты. 

ТРЕБУЕМОЕ ДЕЙСТВИЕ 

Чтобы не потерять данные и свести к минимуму возможные последствия для своей службы, сделайте следующее: 

  • Обязательно завершите все задания и создайте резервные копии данных в учетной записи хранения до запланированного обновления.  Все данные, хранящиеся локально, будут удалены. 
  • Не изменяйте образ или конфигурацию. 
  • Если вы планируете использовать InfiniBand или MPI, сделайте следующее: 
  • Для сценариев с InfiniBand с поддержкой управляемых служб см. соответствующие руководства по службам (например, пакетная служба Azure, Машинное обучение Azure). 
  • Мы настоятельно рекомендуем обновить ОС до версии, включающей встроенные драйверы для InfiniBand. Но если текущий образ уже включает встроенные драйверы, поддерживающие InfiniBand, рекомендуем вам перед началом работы выполнить предварительные тесты (см. последний пункт выше). 
  • Скачайте и установите последнюю версию драйвера с сайта OFED, если она не включена в образ (это реализовано только в некоторых образах).  Подробные инструкции можно найти в этой статье
  • Протестируйте обновленный образ и драйверы на виртуальных машинах Hc и Hb, в которых уже реализована поддержка SR-IOV.

Если возникнут вопросы или трудности, отправьте письмо на адрес для отзывов об Azure GPU (azurenfeedback@microsoft.com) или своему представителю службы поддержки пользователей. 

  • Виртуальные машины
  • Features