banner

Blog

Aug 28, 2023

Die Leistung der NVIDIA H100-GPU übertrifft die Benchmarks für maschinelles Lernen für das Modelltraining

NVIDIA

Die Hopper H100 Tensor Core GPU von NVIDIA hatte ihren ersten Benchmarking-Auftritt Anfang des Jahres in MLPerf Inference 2.1. Es überraschte niemanden, dass der H100 und sein Vorgänger, der A100, jede Inferenzarbeitslast dominierten. Der H100 stellte in allen Fällen Weltrekorde auf und NVIDIA ist das einzige Unternehmen, das sich in jeder MLPerf-Runde jeder Arbeitslast gestellt hat.

Vor einigen Wochen wurde eine neue Reihe von MLCommons-Trainingsergebnissen veröffentlicht, dieses Mal für MLPerf 2.1 Training, das ebenfalls von NVIDIA H100 und A100 dominiert wurde.

Leider hat die Dominanz von NVIDIA bei MLPerf-Benchmarking-Suiten für Inferenz und Training dazu geführt, dass Einreichungen und Berichte vieler wichtiger KI-Unternehmen abgelehnt wurden.

Die Branche würde von der Beteiligung weiterer Organisationen profitieren, wie wir es in anderen Sektoren wie CPUs gesehen haben, da dies den Wettbewerb und die Innovation fördert. Eine breite Beteiligung an Benchmarking-Suiten ist wichtig, da maschinelles Lernen exponentiell zunimmt. Nahezu jedes Industriesegment nutzt maschinelles Lernen für eine Vielzahl von Anwendungen. Mit zunehmender Nutzung steigt auch die Modellgröße. Seit 2018 führt MLCommons Testrunden durch, die zwischen MLPerf-Trainings- und MLPerf-Inferenz-Testrunden wechseln.

In den vier Jahren zwischen dem ersten MLPerf-Test im Jahr 2018 und den diesjährigen Ergebnissen ist die Modellgröße für maschinelles Lernen um fünf Größenordnungen gestiegen. Angesichts der zunehmenden Modellgröße und größeren Datensätze sind standardisierte Tools wie MLPerf Training und MLPerf Inference wichtiger denn je. Die Leistung von Modellen für maschinelles Lernen muss gemessen werden, bevor sie verbessert werden kann.

MLPerf 2.1 Trainings-Benchmarks

Zusammenfassung der in MLPerf Training v2.1 verwendeten Benchmarks ... [+]

MLPerf Training und MLPerf Inference verwenden dieselben acht Workloads, die in der obigen Grafik gezeigt werden. Eine Ausnahme bildet Mini Go, da es nur zur Bewertung des verstärkenden Lernens verwendet wird. Jeder Benchmark-Test wird durch seinen eigenen spezifischen Datensatz und sein eigenes Qualitätsziel definiert. Der Schlüssel ist, wie viel Zeit es dauert, das Modell mithilfe des angegebenen Datensatzes und des angegebenen Qualitätsziels zu trainieren.

MLPerf ist für KI und maschinelles Lernen von entscheidender Bedeutung, da es sich um einen Branchenstandard-Benchmark mit Peer-Review-Ergebnissen handelt, der gültige Vergleiche für Modelltraining und Inferenz liefert. Es wird von Amazon, Arm, Baidu, Google, der Harvard University, Intel, Meta, Microsoft, der Stanford University und der University of Toronto unterstützt.

Mehrere Einzelmodelle bilden leistungsstarke Mehrfachmodelle

Reale KI-Anwendungen verwenden mehrere Modelle

Es ist üblich, dass mehrere KI-Modelle miteinander verkettet werden, um eine einzelne Eingabe zu erfüllen. Ein Beispiel für multimodale Netzwerke ist die verbale Anfrage in der obigen Grafik. Die Frage erfordert zehn Modelle des maschinellen Lernens, um eine Antwort zu liefern. Es müssen nicht nur mehrere Modelle nacheinander arbeiten, sondern auch Echtzeitlösungen liefern.

Einige Cloud-Dienste nutzen auch mehrere Netzwerke, um durch NVIDIA-GPUs beschleunigte Dienste bereitzustellen. Alle Netzwerke und Anwendungsframeworks von NVIDIA sind im MLPerf-Repo, im NGC (NVIDIAs Online-Container-Repository) und im GitHub-Repo verfügbar.

A100- und H100-Benchmark-Trainingsleistung

MLPerf Training v2.1 Leistung

Wie im MLPerf Training 2.1-Leistungsdiagramm gezeigt, lieferte H100 bis zu 6,7-mal mehr Leistung für den BERT-Benchmark als die Leistung des A100 bei seiner ersten MLPerf-Einreichung im Jahr 2019.

Der A100 liefert immer noch Rekordergebnisse und eine hohe Leistung mit einer bis zu 2,5-fach verbesserten Leistung. Dieser Gewinn ist das Ergebnis der Softwareoptimierung. Es wird wahrscheinlich noch eine ganze Weile ein Angebot von NVIDIA sein.

Die überlegene Leistung von H100 gegenüber dem BERT NLP-Modell ist auf die Transformer Engine zurückzuführen. Der A100 verfügt über keinen Trainingsmotor. Die neue Engine bietet in Kombination mit NVIDIA Hopper FP8 Tensor Cores ein bis zu 9-mal schnelleres KI-Training und 30-mal schnellere KI-Inferenzbeschleunigungen bei großen Sprachmodellen als der A100. Der H100 basiert auf der Hopper-Architektur und verwendet Tensorkerne der vierten Generation.

Aufgrund der Größe des KI-Modells ist die Trainingsgeschwindigkeit entscheidend und notwendig. Die Transformer-Engine von NVIDIA erreicht zusätzliche Geschwindigkeit durch 16-Bit-Gleitkomma-Präzision und ein neues 8-Bit-Gleitkomma-Datenformat. Diese Kombination erhöht den Tensor-Core-Durchsatz um das Doppelte und reduziert den Speicherbedarf um das Doppelte im Vergleich zu 16-Bit-Gleitkomma.

Diese Verbesserungen sowie die fortschrittlichen Hopper-Softwarealgorithmen beschleunigen die KI-Leistung und -Fähigkeiten und ermöglichen es dem H100, Modelle innerhalb von Tagen oder Stunden statt Monaten zu trainieren. Je schneller ein Modell in Betrieb genommen werden kann, desto früher kann sein ROI zum Endergebnis beitragen.

Die Hopper-Architektur kann dynamisch bestimmen, ob FP8- oder 16-Bit-Berechnungen für die Genauigkeit erforderlich sind. Während die Transformator-Engine Schicht für Schicht trainiert, analysiert sie die Daten, um zu bestimmen, ob eine reduzierte Präzision verwendet werden sollte. Je nach Nutzungsgrad kann eine verringerte Präzision zu Rundungsfehlern führen, die sich auf die Modellgenauigkeit auswirken.

MLPerf-Trainingstests messen die Zeit bis zur Lösung, daher muss ein Modell nicht nur schnell laufen, sondern auch konvergieren. Daher ist es wichtig zu bedenken, dass viele Fehler die Konvergenz eines Modells verhindern können.

Die Transformer-Engine-Technologie von NVIDIA wurde für große transformatorbasierte Netzwerke wie BERT entwickelt. Es ist jedoch nicht auf NLP beschränkt. Es kann auf andere Bereiche angewendet werden, beispielsweise auf die stabile Diffusion.

Stable Diffusion ist ein tief lernendes, rechenintensives Text-zu-Bild-Modell, das dieses Jahr veröffentlicht wurde. Es kann anhand von Textbeschreibungen detaillierte Bilder oder Videos generieren. Es kann auch auf Aufgaben wie Inpainting, Outpainting und die Generierung von Bild-zu-Bild-Übersetzungen mithilfe einer Texteingabeaufforderung angewendet werden.

Zeit, in großem Maßstab zu trainieren

Zeit, in großem Maßstab zu trainieren ... [+]

NVIDIA A100 war die einzige Plattform, die alle Workloads in der für das Training in großem Maßstab erforderlichen Zeit ausführen konnte. NVIDIA war in der Lage, jede Arbeitslast im großen Maßstab in weniger als 5 Minuten zu trainieren, mit Ausnahme von Mini Go, das etwa 17 Minuten dauerte.

Mini Go nutzt Reinforcement Learning, was sehr rechenintensiv ist. Das Trainieren des Netzwerks dauert länger, da Mini Go Zug für Zug gespielt und nach jedem Zug wieder durch das Netzwerk zurückgerollt werden muss.

Eine Schulung im großen Maßstab zeigt, dass A100 weiterhin eine solide Plattform für die Schulung darstellt. H100 ist eine Lösung für die fortschrittlichsten Modelle, beispielsweise Sprachmodelle mit riesigen Datensätzen und Milliarden von Hyperparametern.

Obwohl Intel und Habana keine Rekordleistungen erbrachten, war ihre Teilnahme dennoch wichtig für das Ökosystem und die Zukunft von MLPerf.

H100 stellt neue Rekorde pro Beschleuniger für das KI-Training auf

Diese Grafik zeigt die relative Beschleunigung pro Beschleuniger, normalisiert auf A100. Der H100 (in der Vorschau) wurde bei jedem Benchmark eingereicht und erzielte bei jedem eine überlegene Leistung. Es war 2,6-mal schneller als das A100, was zu erheblichen Softwareverbesserungen führte.

Habana Gaudi2 reichte für Resnet-50 und BERT ein und Intels Sapphire Rapids reichte für DLRM, ResNet-50 und BERT ein.

Habana Gaudi2 schnitt bei BERT geringfügig besser ab als A100 und bei ResNet-50 etwa 0,75 besser als A100. Intel erwarb Habana Ende 2019 für 2 Milliarden US-Dollar. Gaudi2 ist Habanas Deep-Learning-Prozessor der zweiten Generation. Es verfügt über 24 Tensorkerne und 96 GB Speicher.

Dave Salvator, Direktor für KI, Benchmarking und Cloud bei NVIDIA, erwartet in Zukunft eine höhere Leistung vom H100.

„Der H100 hat eine sehr überzeugende Leistung gezeigt“, sagte er. „Aber in Zukunft werden wir mit dem H100 Software-Verbesserungen erzielen, so wie wir es mit dem A100 gemacht haben. Dies ist die erste Runde, in der wir H100 zum Training einreichen, und es wird nicht die letzte sein.“

HPC MLPerf 2.0 Supercomputing-Benchmarking

Benchmarking-Informationen für MLPerf HPC 2.0 ... [+]

MLPerf HPC 2.0 misst die Zeit zum Trainieren von Supercomputermodellen für wissenschaftliche Anwendungen. Darüber hinaus gibt es eine optionale Durchsatzmessung für Mehrbenutzer-Supercomputing-Systeme. Diese Runde war die dritte Iteration von MLPerf HPC. Wie MLPerf für Training und Inferenz gilt MLPerf HPC als branchenübliches Systemleistungsmaß für Arbeitslasten, die auf Supercomputern ausgeführt werden.

Für diese Runde reichten fünf der weltweit größten Supercomputer 20 Ergebnisse ein: Dell (zum ersten Mal zur Einreichung), Fujitsu/RIKEN, Helmholz AI, NVIDIA und Texas Advanced Computing Center (TACC).

MLPerf HPC v2.0 Benchmarks

Dies ist Version 2.0 der Benchmarks. Es gab jedoch keine größeren Änderungen, seit dieselben drei Workloads in 1.0 ausgeführt wurden. MLPerf HPC-Benchmarks messen Trainingszeit und Durchsatz für drei Hochleistungssimulationen, die maschinelle Lerntechniken übernommen haben – Cosmoflow, DeepCAM und OpenCatalyst.

Aufgrund des Klimawandels wird intensiv an der Wetter- und Klimamodellierung gearbeitet. NVIDIA arbeitet außerdem an einem digitalen Zwilling des Planeten namens Earth Two. Dieses riesige Klimamodell simuliert die ganze Welt.

Führende Leistung der NVIDIA HPC-Plattform

NVIDIA

MLPerf HPC 2.0 verfügt über zwei Leistungsmetriken:

Obwohl die NVIDIA A100 Tensor Core GPU und der NVIDIA DGX-A100 SuperPOD fast drei Jahre alt sind, zeigt die Leistung von MLPerf 2.0, dass A100 immer noch das leistungsstärkste System für das Training von HPC-Anwendungsfällen ist.

Die HPC-Ergebnisse beziehen sich auf NVIDIA Selene, eine Implementierung des DGX SuperPOD, und zeigen das Potenzial des A100. Auch andere Supercomputing-Standorte mit NVIDIA-Technologie liefern eine gute Leistung.

Einpacken

Es ist wichtig zu erwähnen, dass NVIDIA die einzige Organisation war, die alle KI-Trainings-Workloads für diese und alle vorherigen MLPerf-Trainings- und Inferenzrunden durchgeführt hat. Es hat vom ersten MLPerf Training 0.5 im Dezember 2018 bis zum neuesten MLPerf Training 2.1, das vor einigen Wochen veröffentlicht wurde, konsistente Führungsergebnisse geliefert.

Für Training, Inferenz und HPC hat MLPerf bewiesen, dass NVIDIA über die umfassendste Ökosystemunterstützung für alle Deep-Learning-Frameworks verfügt. Für Kunden ist es von Vorteil, dass NVIDIA-GPUs bei allen großen Cloud-Anbietern und allen großen Systemen für On-Prem-Lösungen verfügbar sind. Diese Anwendungs-Frameworks ermöglichen es Kunden, Lösungen schnell bereitzustellen.

NVIDIA verfügt über eine durchgängig offene Plattform mit Software, die dabei hilft, das volle Potenzial seiner Hardware auszuschöpfen. Die Full-Stack-Lösung von NVIDIA umfasst Anwendungs-Frameworks wie Merlin und Nemo. Mit dem Nemo Megatron-Dienst ist es möglich, riesige Sprachmodelle mithilfe benutzerdefinierter Datensätze zu nutzen.

ANALYSTENANMERKUNGEN

Moor Insights & Strategy bietet, wie alle Forschungs- und Analyseunternehmen der Technologiebranche, kostenpflichtige Dienstleistungen für Technologieunternehmen an oder hat dies bereits getan. Diese Dienstleistungen umfassen Recherche, Analyse, Beratung, Benchmarking, Akquise-Matchmaking und Vortragssponsoring. Das Unternehmen hatte oder unterhält derzeit bezahlte Geschäftsbeziehungen mit 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks ( jetzt HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Campfire, Cisco Systems, Clear Software, Cloudera, Clumio, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries.io, Foxconn, Frame (jetzt VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (jetzt Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, IBM, Infinidat, Infosys , Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs, LogicMonitor, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, MulteFire Alliance, National Instruments, Neat, NetApp, Nightwatch, NOKIA (Alcatel-Lucent), Nortek, Novumind, NVIDIA, Nutanix, Nuvia (jetzt Qualcomm), onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (ehemals Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace , Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (jetzt Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (jetzt Cisco), Spirent, Splunk, Sprint (jetzt T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign,TE Connectivity, TensTorrent, Tobii Technology, Teradata,T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zededa, Zendesk, Zoho, Zoom und Zscaler. Der Gründer, CEO und Chefanalyst von Moor Insights & Strategy, Patrick Moorhead, ist Investor in dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX und Movandi.

Der Gründer, CEO und Chefanalyst von Moor Insights & Strategy, Patrick Moorhead, ist Investor in dMY Technology Group Inc. VI, Dreamium Labs, Groq, Luminar Technologies, MemryX und Movand

Hinweis: Autoren und Redakteure von Moor Insights & Strategy haben möglicherweise zu diesem Artikel beigetragen.

MLPerf 2.1-Trainingsbenchmarks Mehrere einzelne Modelle bilden eine hohe Leistung, mehrere Modelle A100 und H100 messen die Trainingsleistung. Zeit zum Trainieren in großem Maßstab. HPC MLPerf 2.0 Supercomputing-Benchmarking. NVIDIA HPC-Plattform-Leistungsführerschaft. Zusammenfassung der Analystennotizen
AKTIE