Lernen, Maschine zu wachsen

Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.

Vorheriges Bild Nächstes Bild

Es ist kein Geheimnis, dass ChatGPT von OpenAI über einige unglaubliche Fähigkeiten verfügt – der Chatbot kann beispielsweise Gedichte schreiben, die Shakespeare-Sonetten ähneln, oder Code für ein Computerprogramm debuggen. Diese Fähigkeiten werden durch das umfangreiche maschinelle Lernmodell ermöglicht, auf dem ChatGPT aufbaut. Forscher haben herausgefunden, dass außergewöhnliche Fähigkeiten entstehen, wenn diese Art von Modellen groß genug werden.

Aber größere Modelle erfordern auch mehr Zeit und Geld für das Training. Beim Trainingsprozess werden einem Modell Hunderte Milliarden Beispiele gezeigt. Das Sammeln so vieler Daten ist ein komplexer Prozess für sich. Hinzu kommen die monetären und ökologischen Kosten für den tage- oder wochenlangen Betrieb vieler leistungsstarker Computer, um ein Modell zu trainieren, das möglicherweise Milliarden von Parametern enthält.

„Man schätzt, dass Trainingsmodelle in der Größenordnung, auf der ChatGPT theoretisch läuft, allein für einen einzigen Trainingslauf Millionen von Dollar kosten könnten. Können wir die Effizienz dieser Trainingsmethoden verbessern, damit wir in weniger Zeit immer noch gute Modelle erhalten?“ Zeit und für weniger Geld? Wir schlagen vor, dies zu erreichen, indem wir kleinere Sprachmodelle nutzen, die zuvor trainiert wurden“, sagt Yoon Kim, Assistenzprofessor am Department of Electrical Engineering and Computer Science des MIT und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL).

Anstatt eine frühere Version eines Modells zu verwerfen, verwenden Kim und seine Mitarbeiter sie als Bausteine für ein neues Modell. Durch maschinelles Lernen lernt ihre Methode, aus einem kleineren Modell ein größeres Modell auf eine Art und Weise „wachsen zu lassen“, die das Wissen kodiert, das das kleinere Modell bereits gewonnen hat. Dies ermöglicht ein schnelleres Training des größeren Modells.

Ihre Technik spart im Vergleich zu Methoden, die ein neues Modell von Grund auf trainieren, etwa 50 Prozent der Rechenkosten ein, die zum Trainieren eines großen Modells erforderlich sind. Darüber hinaus schnitten die mit der MIT-Methode trainierten Modelle genauso gut oder sogar besser ab als Modelle, die mit anderen Techniken trainiert wurden, die ebenfalls kleinere Modelle verwenden, um ein schnelleres Training größerer Modelle zu ermöglichen.

Die Verkürzung der Zeit, die zum Trainieren großer Modelle benötigt wird, könnte Forschern dabei helfen, schneller und mit geringeren Kosten Fortschritte zu machen und gleichzeitig die während des Trainingsprozesses entstehenden CO2-Emissionen zu reduzieren. Es könnte auch kleineren Forschungsgruppen ermöglichen, mit diesen riesigen Modellen zu arbeiten, was möglicherweise die Tür zu vielen neuen Fortschritten öffnet.

„Da wir diese Art von Technologien demokratisieren wollen, wird es immer wichtiger, die Ausbildung schneller und kostengünstiger zu machen“, sagt Kim, leitender Autor eines Artikels über diese Technik.

Kim und sein Doktorand Lucas Torroba Hennigen haben die Arbeit zusammen mit dem Hauptautor Peihao Wang, einem Doktoranden an der University of Texas in Austin, sowie anderen am MIT-IBM Watson AI Lab und an der Columbia University geschrieben. Die Forschung wird auf der International Conference on Learning Representations vorgestellt.

Je größer desto besser

Große Sprachmodelle wie GPT-3, das den Kern von ChatGPT bildet, werden mithilfe einer neuronalen Netzwerkarchitektur namens Transformer erstellt. Ein neuronales Netzwerk, das lose auf dem menschlichen Gehirn basiert, besteht aus Schichten miteinander verbundener Knoten oder „Neuronen“. Jedes Neuron enthält Parameter, das sind während des Trainingsprozesses gelernte Variablen, die das Neuron zur Datenverarbeitung verwendet.

Transformatorarchitekturen sind einzigartig, da diese Art von neuronalen Netzwerkmodellen mit zunehmender Größe viel bessere Ergebnisse erzielen.

„Dies hat zu einem Wettrüsten von Unternehmen geführt, die versuchen, immer größere Transformatoren auf immer größeren Datensätzen auszubilden. Mehr als bei anderen Architekturen scheint es, dass Transformatornetzwerke mit der Skalierung viel besser werden. Wir sind uns nur nicht ganz sicher, warum das so ist.“ der Fall“, sagt Kim.

Diese Modelle verfügen oft über Hunderte Millionen oder Milliarden lernbarer Parameter. Das Training aller dieser Parameter von Grund auf ist teuer, daher versuchen Forscher, den Prozess zu beschleunigen.

Eine wirksame Technik ist das sogenannte Modellwachstum. Mithilfe der Modellwachstumsmethode können Forscher die Größe eines Transformators erhöhen, indem sie Neuronen oder sogar ganze Schichten einer früheren Version des Netzwerks kopieren und sie dann darauf stapeln. Sie können ein Netzwerk erweitern, indem sie einer Schicht neue Neuronen hinzufügen, oder es vertiefen, indem sie zusätzliche Neuronenschichten hinzufügen.

Im Gegensatz zu früheren Ansätzen für das Modellwachstum seien die mit den neuen Neuronen im erweiterten Transformator verbundenen Parameter nicht nur Kopien der Parameter des kleineren Netzwerks, erklärt Kim. Es handelt sich vielmehr um erlernte Kombinationen der Parameter des kleineren Modells.

Lernen, zu wachsen

Kim und seine Mitarbeiter nutzen maschinelles Lernen, um eine lineare Abbildung der Parameter des kleineren Modells zu lernen. Diese lineare Karte ist eine mathematische Operation, die eine Reihe von Eingabewerten, in diesem Fall die Parameter des kleineren Modells, in eine Reihe von Ausgabewerten, in diesem Fall die Parameter des größeren Modells, umwandelt.

Ihre Methode, die sie als erlernten linearen Wachstumsoperator (LiGO) bezeichnen, lernt, die Breite und Tiefe eines größeren Netzwerks anhand der Parameter eines kleineren Netzwerks auf datengesteuerte Weise zu erweitern.

Aber das kleinere Modell könnte tatsächlich ziemlich groß sein – vielleicht hat es hundert Millionen Parameter – und Forscher möchten vielleicht ein Modell mit einer Milliarde Parametern erstellen. Die LiGO-Technik zerlegt also die lineare Karte in kleinere Teile, die ein Algorithmus für maschinelles Lernen verarbeiten kann.

LiGO erweitert außerdem gleichzeitig Breite und Tiefe, was es effizienter als andere Methoden macht. Ein Benutzer kann einstellen, wie breit und tief das größere Modell sein soll, wenn er das kleinere Modell und seine Parameter eingibt, erklärt Kim.

Als sie ihre Technik mit dem Training eines neuen Modells von Grund auf sowie mit Modellwachstumsmethoden verglichen, war sie schneller als alle Basismodelle. Ihre Methode spart etwa 50 Prozent der Rechenkosten ein, die zum Trainieren von Seh- und Sprachmodellen erforderlich sind, und verbessert gleichzeitig häufig die Leistung.

Die Forscher fanden außerdem heraus, dass sie LiGO verwenden konnten, um das Transformatortraining zu beschleunigen, selbst wenn sie keinen Zugriff auf ein kleineres, vorab trainiertes Modell hatten.

„Ich war überrascht, wie viel besser alle Methoden, einschließlich unserer, im Vergleich zur zufälligen Initialisierung und dem Training von Grund auf abgeschnitten haben.“ Sagt Kim.

Kim und seine Mitarbeiter freuen sich darauf, LiGO in Zukunft auf noch größere Modelle anzuwenden.

Die Arbeit wurde teilweise vom MIT-IBM Watson AI Lab, Amazon, dem IBM Research AI Hardware Center, dem Center for Computational Innovation am Rensselaer Polytechnic Institute und dem US Army Research Office finanziert.

Vorheriger Artikel Nächster Artikel

Je größer, desto besser. Lernen, zu wachsen

Nachricht