지금 이용 가능

NCv3 Virtual Machines SKU에 대한 SR-IOV 공급

게시된 날짜: 10월 17, 2019

업계 최고의 성능을 제공하기 위한 Azure의 지속적인 노력의 일환으로, 2019년 11월 초에 NCv3이 제공됨에 따라 이때부터 InfiniBand가 장착된 가상 머신에 대해 모든 MPI 구현 및 버전과 RDMA 동사를 지원하기 위한 향상된 기능을 발표합니다. 

지역에 따라 업그레이드 시 서버 가동 중지 시간이 발생할 수 있으며, MPI를 사용하는 InfiniBand 네트워크를 사용하려는 경우 VM을 업데이트해야 합니다. 전체 세부 정보는 다음을 읽어보세요. 

향후 제공될 기능 

다중 노드 컴퓨팅 및 모델 학습이 빠르게 성장함에 따라, 고객의 요구 사항과 고객이 사용하는 소프트웨어가 발전했습니다.  이 업데이트는 전체 MPI 스택을 포함하도록 Microsoft의 지원을 확장하여, 사용자는 SR-IOV를 사용하는 VM 간 대기 시간이 짧은 고대역폭 통신을 위해 InfiniBand RDMA 네트워크를 사용할 수 있습니다. 

Intel MPI 버전 5.x는 계속 지원되므로 모든 향후 Intel MPI 버전도 계속 지원됩니다.  또한 GPU의 성능 최적화를 제공하는 OFED(Open Fabric Enterprise Distribution), OpenMPI 및 Nvidia의 NCCL2 라이브러리에서 지원되는 다른 모든 MPI도 지원됩니다.  이 향상된 기능은 고객에게 더 높은 InfiniBand 대역폭, 더 짧은 대기 시간 및 가장 중요한 향상된 분산 애플리케이션 성능을 제공합니다. 

영향 

모든 NCv3 SKU 사용자는 지역별로 영향을 받습니다(아래 일정 참조).  이 업데이트는 서버 하드웨어 및 소프트웨어에 대한 변경(가동 중지 시간이 필요함)을 포함합니다.  가동 중지 시간 중: 

  • 해당 지역의 NCv3 머신은 3시간 동안 사용할 수 없음 
  • 해당 지역의 NCv3 머신에 있는 모든 VM은 제거되었다가 업데이트 후 재배포됨 
  • 로컬(사용 후 삭제되는) 디스크에 저장된 데이터는 손실됨.  스토리지 계정은 영향을 받지 않음 

작업 필요 

데이터 손실을 방지하고 서비스에 대한 잠재적 영향을 최소화하려면 다음 단계를 수행하세요. 

  • 예약된 업데이트 ‘전에’ 모든 작업이 완료되고 데이터가 스토리지 계정에 백업되었는지 확인합니다.  로컬에 저장된 모든 데이터는 손실됩니다. 
  • NCv3 업데이트 일정을 검토합니다.  필요한 경우 대체 지역으로 일시적인 마이그레이션을 고려할 수 있습니다.  일시적인 마이그레이션을 고려하는 경우 의도한 대체 지역의 기존 할당량을 확인하거나 새 할당량을 요청합니다. 
  • 시나리오에 InfiniBand 또는 MPI가 필요하지 않은 경우 
  • 이미지나 구성을 변경할 필요가 없습니다. 
  • InfiniBand 또는 MPI가 필요한 경우 다음을 수행하세요. 
  • InfiniBand 시나리오를 지원하는 관리형 서비스의 경우 서비스별 지침(예: Azure BatchAzure Machine Learning)을 참조하세요. 
  • OS를 Windows 제공 InfiniBand용 드라이버를 포함하는 버전으로 업데이트하는 것이 좋지만, 현재 이미지에 이미 Windows 제공 InfiniBand용 드라이버 지원이 포함된 경우 먼저 테스트하는 것이 좋습니다(아래 마지막 글머리 기호 항목 참조). 
  • 아직 이미지에 최신 OFED 드라이버가 포함되지 않은 경우(일부 이미지는 해당 드라이버를 기본적으로 포함할 수 있음), 최신 OFED 드라이버를 다운로드하여 설치합니다.  전체 단계는 이 문서를 참조하세요. 
  • 이미 SR-IOV가 사용하도록 설정된 Hb 또는 Hc VM에서 업데이트된 이미지 및 드라이버를 테스트합니다.

질문이나 우려 사항이 있는 경우 Azure GPU 피드백(azurenfeedback@microsoft.com)으로 문의하거나 고객 서비스 지원 담당자에게 문의하세요. 

  • 가상 머신
  • Features

관련 제품