Navigation überspringen

Meta wählt Azure als strategischen Cloudanbieter – für schnellere KI-Innovationen und eine Vertiefung der PyTorch-Kollaboration

Veröffentlicht am 25 Mai, 2022

Corporate Vice President, AI Platform

Microsoft hat sich mit der Weiterentwicklung von Responsible AI das Ziel gesetzt, alle Menschen und Organisationen dazu zu befähigen, mehr zu erreichen. In den letzten Monaten haben wir die Verbesserungen an der Azure-Infrastruktur, an Azure Cognitive Services und an Azure Machine Learning vorgestellt, durch die der KI-Bedarf unserer Azure-Kunden noch besser erfüllt wird – und das in jeder Größenordnung. In der Zwischenzeit arbeiten wir auch eng mit einigen der weltweit führenden Forschungsorganisationen zusammen, um diese bei der Entwicklung einer leistungsfähigen KI zu unterstützen.

Heute freuen wir uns, den Ausbau unserer bestehenden Zusammenarbeit mit Meta bekanntgeben zu dürfen: Meta hat Azure als strategischen Cloudanbieter ausgewählt, um die KI-Forschung und -Entwicklung zu beschleunigen. 

Im Rahmen dieser vertieften Zusammenarbeit baut Meta die Nutzung der Supercomputingleistung von Azure aus, um die KI-Forschung und -Entwicklung für die Meta AI-Gruppe zu beschleunigen. Meta nutzt einen dedizierten Azure-Cluster mit 5.400 GPUs unter Verwendung der neuesten VM-Serie in Azure (NDm A100 v4-Serie mit NVIDIA A100 Tensor Core-GPUs mit 80 GB) für einige seiner groß angelegten KI-Forschungsworkloads. Seit 2021 setzt Meta Microsoft Azure Virtual Machines (NVIDIA A100-GPUs mit 80 GB) für einige seiner umfangreichsten KI-Forschungsprojekte ein, nachdem sich das Unternehmen von der beeindruckenden Leistung und Skalierbarkeit von Azure überzeugt hat. Die Azure-Plattform weist im Vergleich zu anderen Public-Cloud-Angeboten eine viermal höhere GPU-to-GPU-Bandbreite zwischen VMs auf und ermöglicht daher ein schnelleres verteiltes KI-Training. Meta hat sich diese Leistung beispielsweise beim Training des neuen OPT-175B-Sprachmodells zunutze gemacht. Die VM-Serie NDm A100 v4 in Azure bietet Kunden auch die Flexibilität, Cluster jeder Größe automatisch zu konfigurieren und dynamisch von wenigen auf Tausende GPUs zu skalieren. Während Experimenten können VMs jederzeit angehalten und fortgesetzt werden. Das Meta AI-Team erweitert die Nutzung nun und migriert weitere hochmoderne Machine-Learning-Trainingsworkloads zu Azure, um seine führende Rolle bei der KI-Forschung weiter auszubauen.

Darüber hinaus arbeiten Meta und Microsoft gemeinsam an der PyTorch-Einführung in Azure sowie daran, Entwicklungsprozesse von der Experimentier- bis zur Produktionsphase zu beschleunigen. Azure bietet PyTorch-Benutzer*innen einen vollständigen Stapel mit hochmoderner Hardware (NDv4s und InfiniBand). In den kommenden Monaten arbeitet Microsoft an neuen Development Accelerators für PyTorch, um eine möglichst schnelle Implementierung von PyTorch-basierten Lösungen in Azure zu realisieren. Microsoft leistet auch weiterhin PyTorch-Support für Unternehmen, damit Kunden und Partner PyTorch-Modelle in der Cloud und am Edge in der Produktion bereitstellen können.

Wir von Meta freuen uns, unsere Zusammenarbeit mit Azure zu vertiefen, um unsere KI-Forschung, Innovationen und Open-Source-Projekte auf eine Weise voranzubringen, von der mehr Entwickler*innen weltweit profitieren.“ – Jerome Pesenti, Vice President von Meta AI „Mit der Rechenleistung von Azure und einer Verbindungsbandbreite von 1,6 TB/s pro VM können wir unseren stetig wachsenden Trainingsbedarf besser erfüllen, um größere und innovativere KI-Modelle zu schaffen. Darüber hinaus freuen wir uns über die Zusammenarbeit mit Microsoft, um unsere Produkte auch für Kunden zugänglich zu machen, die PyTorch nutzen, und diese von der Forschung bis zur Produktion zu unterstützen.

Indem wir die Supercomputingleistung von Azure skalieren, um umfangreiche KI-Modelle für weltweit führende Forschungsorganisationen zu trainieren, und indem wir unsere Tools und Ressourcen auf Open-Source-Kollaboration und -Experimente ausweiten, können wir dazu beitragen, neue Möglichkeiten für Entwickler*innen und die allgemeine Technologiecommunity zu schaffen. Dabei machen wir auch einen wichtigen Schritt in Richtung unseres Ziels, alle Menschen und Organisation auf der Welt dazu zu befähigen, mehr zu erreichen.