• 3 min read

Azure annonce la disponibilité générale des clusters GPU NVIDIA A100 scale-out : le supercalculateur de cloud public le plus rapide

Aujourd’hui, Azure annonce la disponibilité générale des instances GPU cloud Azure ND A100 v4, alimentées par NVIDIA A100 Tensor Core GPU, ce qui permet d’atteindre une scalabilité de supercomputing de classe leader dans un cloud public. Pour les clients exigeants qui cherchent la prochaine frontière de l’IA et du calcul haute performance (HPC), l’extensibilité est la clé du déverrouillage du coût total de possession et de la solution de temps à solution.

Aujourd’hui, Azure annonce la disponibilité générale des instances GPU cloud Azure ND A100 v4, alimentées par LES GPU NVIDIA A100 Tensor Core, ce qui permet d’atteindre une scalabilité de supercomputing de classe de leadership dans un cloud public. Pour les clients exigeants qui cherchent la prochaine frontière de l’IA et du calcul haute performance (HPC), l’extensibilité est la clé du déverrouillage du coût total de la solution et du délai à solution améliorés. 

En d’autres termes, ND A100 v4 , alimenté par les GPU NVIDIA A100, est conçu pour permettre à nos clients les plus exigeants de monter en puissance et d’effectuer un scale-out sans ralentir.

L’analyse comparative avec 164 machines virtuelles ND A100 v4 sur un cluster de supercomputage public préversion a généré un résultat hpl (High-Performance Linpack) de 16,59 pétaaflops. Ce résultat HPL, fourni sur l’infrastructure de cloud public, se situerait dans le Top 20 de la liste de novembre 2020 Top 500 des supercomputers les plus rapides au monde, ou top 10 en Europe, en fonction de la région où le travail a été exécuté.

Mesuré via HPL-AI, une intelligence artificielle (IA) et un machine learning (ML) axé sur le Linpack haute performance, le même pool de 164 machines virtuelles a obtenu un résultat de 142,8 Pétalop, le plaçant parmi les 5 supercalculateurs d’IA les plus connus du monde, comme mesuré par la liste officielle de benchmark HPL-AI. Ces résultats HPL, utilisant uniquement une fraction d’un seul cluster Azure public, se classent avec les ressources de supercomputation locales les plus puissantes dans le monde.

Et aujourd’hui, comme ND A100 v4 va à la disponibilité générale, nous annonçons la disponibilité immédiate des supercalculateurs de cloud public les plus rapides au monde à la demande, près de vous, à travers quatre régions Azure : East États-Unis, West États-Unis 2, Europe Ouest et Sud-Centre États-Unis.

La série de machines virtuelles ND A100 v4 commence par une seule machine virtuelle et huit GPU A100 Tensor Core basés sur l’architecture NVIDIA A100 Tensor Core, et peut monter en puissance jusqu’à des milliers de GPU dans un seul cluster avec une bande passante d’interconnexion sans précédent de 1,6 To/s par machine virtuelle fournie via des liens INFINIBand NVIDIA HDR 200Gb/s InfiniBand : un pour chaque GPU individuel. En outre, chaque machine virtuelle à 8 GPU dispose d’un complément complet de NVIDIA NVLink de troisième génération, ce qui permet la connectivité GPU à GPU au sein de la machine virtuelle au-delà de 600 gigaoctets par seconde. 

Conçu pour tirer parti des outils et bibliothèques HPC et IA standard du secteur de facto, les clients peuvent tirer parti des GPU de ND A100 v4 et des fonctionnalités d’interconnexion uniques sans logiciels ou infrastructures spéciaux, à l’aide des mêmes bibliothèques NVIDIA NCCL2 que la plupart des charges de travail IA accélérées par GPU et HPC prennent en charge hors connexion, sans aucune préoccupation pour la topologie ou le placement de réseau sous-jacent. L’approvisionnement de machines virtuelles au sein du même groupe de machines virtuelles identiques configure automatiquement l’infrastructure d’interconnexion.

Tout le monde peut apporter des charges de travail IA locales et HPC exigeantes dans le cloud via ND A100 v4 avec un minimum de fuss, mais pour les clients qui préfèrent une approche native Azure, Azure Machine Apprentissage fournit une machine virtuelle paramétrée (préinstallée avec les pilotes et bibliothèques requis) et des environnements basés sur des conteneurs optimisés pour la famille ND A100 v4. Des exemples de recettes et de notebooks Jupyter permettent aux utilisateurs de commencer rapidement avec plusieurs frameworks, notamment PyTorch, TensorFlow et d’entraîner des modèles de pointe comme BERT. Avec Azure Machine Apprentissage, les clients ont accès aux mêmes outils et fonctionnalités dans Azure que nos équipes d’ingénierie IA.

Chaque GPU NVIDIA A100 offre 1,7 à 3,2 fois les performances des GPU V100 antérieures prêtes à l’emploi et jusqu’à 20 fois les performances lors de la couche de nouvelles fonctionnalités architecturales telles que les modes de précision mixte, l’éparse et le GPU multi-instance (MIG) pour des charges de travail spécifiques. Et au cœur de chaque machine virtuelle est une nouvelle plateforme AMD EPYC de nouvelle génération, avec PCI Express Gen 4.0- pour le processeur vers les transferts GPU deux fois plus rapidement que les générations précédentes.

Nous ne pouvons pas attendre pour voir ce que vous allez générer, analyser et découvrir avec la nouvelle plateforme Azure ND A100 v4.

Taille

Cœurs de processeur physique

Mémoire de l’hôte (Go)

Gpu

Disque temporaire NVMe local

NVIDIA InfiniBand Network

Réseau Azure

Standard_ND96asr_v4

96

900 Go

8 x 40 Go NVIDIA A100

6 500 Go

8 x 200 Gbits/s

40 Gbits/s

En savoir plus