Disponibilidade de SR-IOV na SKU de Máquinas Virtuais NCv3
Data da publicação: 17 outubro, 2019
Como parte do compromisso contínuo do Azure em fornecer desempenho líder do setor, estamos anunciando melhorias para habilitar o suporte a todas as versões e implementações de MPI e verbos RDMA para máquinas virtuais equipadas com InfiniBand, começando com o NCv3 no início de novembro de 2019.
A atualização ENVOLVERÁ O TEMPO DE INATIVIDADE DO SERVIDOR em uma base regional e caso pretenda utilizar a rede InfiniBand usando o MPI, SERÁ NECESSÁRIA UMA ATUALIZAÇÃO PARA AS VMs. Leia as informações abaixo para obter detalhes completos.
O QUE VEM POR AÍ?
Com o rápido crescimento da computação de vários nós e do treinamento de modelos, as necessidades dos clientes evoluíram, assim como o software que eles usam. Esta atualização expandirá nosso suporte para incluir toda a pilha de MPI, permitindo o uso da rede InfiniBand RDMA para comunicação de baixa latência e alta largura de banda entre VMs usando SR-IOV.
A versão 5.x da MPI Intel continuará tendo suporte, bem como todas as versões subsequentes à MPI Intel. Além disso, todas as outras MPIs com suporte da biblioteca OFED (Open Fabric Enterprise Distribution), OpenMPI e NCCL2 da Nvidia, que oferecem desempenho otimizado para GPUs, também terão suporte. Essas melhorias fornecerão aos clientes maior largura de banda InfiniBand, latências mais baixas e o mais importante, melhor desempenho de aplicativos distribuídos.
IMPACTO
Todos os usuários das SKUs do NCv3 serão impactados, região por região, (confira a programação abaixo). A atualização envolve alterações no hardware e no software do servidor, o que requer tempo de inatividade. Durante o tempo de inatividade:
- As máquinas NCv3 na região ficarão indisponíveis por um período de três horas
- Todas as VMs em computadores NCv3 na região serão removidas e reimplantadas após a atualização
- Os dados armazenados em discos locais (efêmeros) serão perdidos. As Contas de Armazenamento não serão afetadas
AÇÃO NECESSÁRIA
Para evitar a perda de dados e minimizar o potencial impacto no serviço, execute as seguintes etapas:
- Certifique-se de que todos os trabalhos sejam concluídos e de fazer o backup dos dados em sua Conta de Armazenamento, antes da atualização agendada. Todos os dados armazenados localmente serão perdidos.
- Examine o cronograma de atualização do NCv3. Caso seja necessário, considere a possibilidade de migrar temporariamente para uma região alternativa. Nesse caso, verifique as cotas existentes ou solicite uma nova na(s) região(ões) alternativa(s) pretendida(s).
- Caso seus cenários não exijam InfiniBand ou MPI
- Não será necessário fazer alterações na sua imagem ou na configuração.
- Caso precise de InfiniBand ou MPI, faça o seguinte:
- Para serviços gerenciados que sejam compatíveis aos cenários InfiniBand, confira as orientações específicas do serviço (por exemplo, Lote do Azure, Azure Machine Learning).
- Recomendamos que você atualize o SO para uma versão incluindo os drivers da caixa de entrada do InfiniBand. No entanto, se sua imagem atual já inclui suporte ao driver da caixa de entrada para o InfiniBand, recomendamos que você o teste com antecedência (consulte o último marcador abaixo)
- Baixe e instale o driver OFED mais recente caso ele ainda não esteja incluído em sua imagem (é possível que ele já esteja integrado a um conjunto limitado). Confira este artigo para concluir as etapas.
- Teste a imagem e os drivers atualizados nas VMs Hb ou Hc, que já estão habilitadas para SR-IOV.
Em caso de dúvidas ou preocupações, entre em contato por meio dos Comentários sobre a GPU do Azure (azurenfeedback@microsoft.com) ou do seu representante de Atendimento ao Cliente.