• 3 min read

Azure kündigt die allgemeine Verfügbarkeit von NVIDIA A100 GPU-Clustern an: der schnellste Öffentliche Cloud-Supercomputer

Heute kündigt Azure die allgemeine Verfügbarkeit der Azure ND A100 v4 Cloud GPU-Instanzen an , die von NVIDIA A100 Tensor Core GPUs unterstützt werden, um die Skalierbarkeit der Spitzenklasse in einer öffentlichen Cloud zu erreichen. Für anspruchsvolle Kunden, die die nächste Grenze von KI und Hochleistungs-Computing (HPC) verfolgen, ist skalierbarkeit der Schlüssel zur Entsperrung verbesserter Gesamtbetriebskosten und Zeit-zu-Lösung.

Heute kündigt Azure die allgemeine Verfügbarkeit von Azure ND A100 v4 Cloud GPU-Instanzen an , die von NVIDIA A100 Tensor Core GPUs unterstützt werden, um die Skalierbarkeit der Führungsklasse in einer öffentlichen Cloud zu erreichen. Für anspruchsvolle Kunden, die die nächste Grenze von KI und Hochleistungs-Computing (HPC) verfolgen, ist skalierbarkeit der Schlüssel zur Entsperrung verbesserter Gesamtkosten für Lösung und Zeit-zu-Lösung. 

Einfach ausgedrückt, ND A100 v4 – unterstützt von NVIDIA A100 GPUs – ist darauf ausgelegt, unsere anspruchsvollsten Kunden zu skalieren und zu skalieren, ohne zu verlangsamen.

Benchmarking mit virtuellen 164 ND A100 v4-Maschinen auf einem vorab veröffentlichten öffentlichen Supercomputing-Cluster lieferte ein High-Performance Linpack (HPL)-Ergebnis von 16,59 Petaflops. Dieses HPL-Ergebnis, das in der öffentlichen Cloud-Infrastruktur bereitgestellt wird, würde in die Top 20 der Top 2020 top 500 Liste der schnellsten Supercomputer der Welt fallen, oder top 10 in Europa, basierend auf der Region, in der der Auftrag ausgeführt wurde.

Gemessen über HPL-AI, eine künstliche Intelligenz (AI) und machine Learning (ML)-fokussierte High-Performance Linpack Variante, erreichte derselbe 164-VM-Pool ein 142,8 Petaflop-Ergebnis und platziert es unter den top 5 am schnellsten bekannten KI-Supercomputern der Welt, gemessen durch die offizielle HPL-AI-Benchmark-Liste. Diese HPL-Ergebnisse, die nur einen Bruchteil eines einzelnen öffentlichen Azure-Clusters nutzen, rangieren mit den leistungsstärksten dedizierten, lokalen Supercomputing-Ressourcen der Welt.

Und heute, da ND A100 v4 zur allgemeinen Verfügbarkeit wechselt, werden wir die sofortige Verfügbarkeit der schnellsten öffentlichen Cloud-Supercomputer der Welt bei Bedarf in Ihrer Nähe durch vier Azure-Regionen angekündigt: Ost-USA, West USA 2, Westeuropa und Süd-Zentral-USA.

Die ND A100 v4 VM-Serie beginnt mit einem einzelnen virtuellen Computer (VM) und acht NVIDIA Ampere architekturbasierteN A100 Tensor Core GPUs und kann bis zu Tausende von GPUs in einem einzigen Cluster mit einer beispiellosen 1,6 Tb/s Verbindungsbandbreite pro VM skalieren, die über NVIDIA HDR 200Gb/s InfiniBand-Verbindungen bereitgestellt wird: eine für jede einzelne GPU. Darüber hinaus verfügt jede 8-GPU-VM über eine vollständige Ergänzung von NVIDIA NVLink der dritten Generation und ermöglicht GPU-GPU-Konnektivität innerhalb der VM in über 600 Gigabyte pro Sekunde. 

Die Kunden können die GPUs von ND A100 v4 und einzigartige Verbindungsfunktionen ohne spezielle Software oder Frameworks nutzen und dabei dieselben NVIDIA NCCL2-Bibliotheken verwenden, die die meisten skalierbaren GPU-beschleunigten KI- und HPC-Workloads ohne Bedenken für zugrunde liegende Netzwerktopologie oder -platzierung unterstützen. Die Bereitstellung von virtuellen Computern innerhalb desselben VM-Skalierungssatzes konfiguriert automatisch die Verbindungs-Fabric.

Jeder kann anspruchsvolle lokale KI- und HPC-Workloads über ND A100 v4 mit minimalem Aufwand in die Cloud bringen, aber für Kunden, die einen azure-nativen Ansatz bevorzugen, bietet Azure Machine Learning einen abgestimmten virtuellen Computer (vorinstalliert mit den erforderlichen Treibern und Bibliotheken) und containerbasierte Umgebungen, die für die ND A100 v4-Familie optimiert sind. Beispielrezepte und Jupyter-Notizbücher helfen Benutzern, schnell mit mehreren Frameworks wie PyTorch, TensorFlow und modernsten Modellen wie BERT zu beginnen. Mit Azure Machine Learning haben Kunden Zugriff auf dieselben Tools und Funktionen in Azure wie unsere KI-Entwicklungsteams.

Jede NVIDIA A100 GPU bietet 1,7 bis 3,2 Mal die Leistung früherer V100 GPUs out-of-the-box und bis zu 20 Mal die Leistung, wenn neue Architekturfeatures wie Mixed-Precision-Modi, Sparsity und Multi-Instance GPU (MIG) für bestimmte Workloads überschichtet werden. Und im Herzen jeder VM ist eine all-neue AMD EPYC-Plattform der 2. Generation mit PCI Express Gen 4.0- für CPU-zu-GPU-Übertragungen doppelt so schnell wie vorherige Generationen.

Wir können nicht warten, was Sie mit der neuen Azure ND A100 v4-Plattform erstellen, analysieren und entdecken werden.

Größe

Physische CPU-Kerne

Hostspeicher (GB)

Gpus

Lokaler temporärer NVMe-Datenträger

NVIDIA InfiniBand Network

Azure-Netzwerk

Standard_ND96asr_v4

96

900 GB

8 x 40 GB NVIDIA A100

6.500 GB

8 x 200 GBit/s

40 GBit/s

Weitere Informationen