Laut Google ist sein KI-Supercomputer schneller und umweltfreundlicher als der Nvidia A100-Chip

4. April (Reuters) – Google von Alphabet Inc. (GOOGL.O) hat am Dienstag neue Details zu den Supercomputern veröffentlicht, die es zum Trainieren seiner Modelle für künstliche Intelligenz verwendet. Die Systeme seien sowohl schneller als auch energieeffizienter als vergleichbare Systeme von Nvidia Corp. (NVDA). .Ö).

Google hat einen eigenen benutzerdefinierten Chip namens Tensor Processing Unit (TPU) entwickelt. Es verwendet diese Chips für mehr als 90 % der Arbeit des Unternehmens im Bereich der Ausbildung im Bereich der künstlichen Intelligenz, dem Prozess der Dateneingabe durch Modelle, um sie für Aufgaben wie die Beantwortung von Anfragen mit menschenähnlichem Text oder die Generierung von Bildern nützlich zu machen.

Das Google TPU befindet sich mittlerweile in der vierten Generation. Google hat am Dienstag ein wissenschaftliches Papier veröffentlicht, in dem detailliert beschrieben wird, wie das Unternehmen mehr als 4.000 Chips zu einem Supercomputer zusammengefügt hat und dabei seine eigenen, speziell entwickelten optischen Schalter verwendet, um die Verbindung einzelner Maschinen zu erleichtern.

Die Verbesserung dieser Verbindungen ist zu einem zentralen Wettbewerbsfaktor für Unternehmen geworden, die KI-Supercomputer bauen, da sogenannte große Sprachmodelle, die Technologien wie Bard von Google oder ChatGPT von OpenAI unterstützen, explosionsartig an Größe zugenommen haben, was bedeutet, dass sie viel zu groß sind, um sie auf einem einzelnen Chip zu speichern.

Stattdessen müssen die Modelle auf Tausende von Chips aufgeteilt werden, die dann wochenlang oder länger zusammenarbeiten müssen, um das Modell zu trainieren. Das PaLM-Modell von Google – das bislang größte öffentlich veröffentlichte Sprachmodell – wurde trainiert, indem es über einen Zeitraum von 50 Tagen auf zwei der 4.000-Chip-Supercomputer aufgeteilt wurde.

Google sagte, dass seine Supercomputer es einfach machen, Verbindungen zwischen Chips im Handumdrehen neu zu konfigurieren, was dabei hilft, Probleme zu vermeiden und Optimierungen für Leistungssteigerungen vorzunehmen.

„Durch die Schaltkreisumschaltung ist es einfacher, ausgefallene Komponenten zu umgehen“, schrieben Google Fellow Norm Jouppi und Google Distinguished Engineer David Patterson in einem Blogbeitrag über das System. „Diese Flexibilität ermöglicht es uns sogar, die Topologie der Supercomputer-Verbindung zu ändern, um die Leistung eines ML-Modells (Maschinelles Lernen) zu beschleunigen.“

Während Google erst jetzt Details zu seinem Supercomputer veröffentlicht, ist dieser bereits seit 2020 innerhalb des Unternehmens in einem Rechenzentrum in Mayes County, Oklahoma, online. Google sagte, dass das Startup Midjourney das System verwendet habe, um sein Modell zu trainieren, das neue Bilder generiert, nachdem es mit ein paar Textwörtern gefüttert wurde.

In dem Papier sagte Google, dass seine Chips bei Systemen vergleichbarer Größe bis zu 1,7-mal schneller und 1,9-mal energieeffizienter seien als ein System, das auf dem A100-Chip von Nvidia basiert und gleichzeitig mit der TPU der vierten Generation auf dem Markt war .

Ein Nvidia-Sprecher lehnte eine Stellungnahme ab.

Google sagte, es habe seine vierte Generation nicht mit Nvidias aktuellem Flaggschiff-Chip H100 verglichen, da der H100 nach dem Chip von Google auf den Markt kam und mit neuerer Technologie hergestellt werde.

Google deutete an, dass man möglicherweise an einem neuen TPU arbeite, das mit dem Nvidia H100 konkurrieren würde, machte aber keine Angaben. Jouppi teilte Reuters mit, dass Google über „eine gesunde Pipeline zukünftiger Chips“ verfüge.

Unsere Standards: Die Thomson Reuters Trust Principles.