banner

Blog

Nov 09, 2023

Durch die Lösung der Gehirndynamik entsteht eine flexible Maschine

Vorheriges Bild Nächstes Bild

Letztes Jahr gaben MIT-Forscher bekannt, dass sie „flüssige“ neuronale Netze gebaut haben, die von den Gehirnen kleiner Arten inspiriert sind: eine Klasse flexibler, robuster Modelle für maschinelles Lernen, die am Arbeitsplatz lernen und sich an veränderte Bedingungen anpassen können, um in der Praxis Sicherheit zu gewährleisten -kritische Aufgaben wie Fahren und Fliegen. Die Flexibilität dieser „flüssigen“ neuronalen Netze bedeutete eine Stärkung der Blutlinie zu unserer vernetzten Welt und führte zu einer besseren Entscheidungsfindung für viele Aufgaben, die Zeitreihendaten betreffen, wie etwa die Überwachung von Gehirn und Herz, Wettervorhersage und Aktienkurse.

Diese Modelle werden jedoch rechenintensiv, da ihre Anzahl an Neuronen und Synapsen zunimmt, und sie erfordern klobige Computerprogramme, um die zugrunde liegende, komplizierte Mathematik zu lösen. Und all diese Mathematik wird, ähnlich wie bei vielen physikalischen Phänomenen, mit zunehmender Größe schwieriger zu lösen, was bedeutet, dass viele kleine Schritte berechnet werden müssen, um zu einer Lösung zu gelangen.

Jetzt hat dasselbe Wissenschaftlerteam einen Weg gefunden, diesen Engpass zu beseitigen, indem es die Differentialgleichung hinter der Interaktion zweier Neuronen über Synapsen löst, um eine neue Art schneller und effizienter Algorithmen für künstliche Intelligenz freizuschalten. Diese Modi haben die gleichen Eigenschaften wie flüssige neuronale Netze – flexibel, kausal, robust und erklärbar –, sind jedoch um Größenordnungen schneller und skalierbar. Diese Art von neuronalen Netzen könnte daher für jede Aufgabe verwendet werden, bei der es darum geht, im Laufe der Zeit Erkenntnisse über Daten zu gewinnen, da sie kompakt und auch nach dem Training anpassungsfähig sind – während viele herkömmliche Modelle fest sind. Seit 1907 – dem Jahr, in dem die Differentialgleichung des Neuronenmodells eingeführt wurde – gab es keine bekannte Lösung mehr.

Die Modelle, die als „Closed-Form Continuous-Time“ (CfC) neuronales Netzwerk bezeichnet werden, übertrafen modernste Gegenstücke bei einer Reihe von Aufgaben, mit erheblich höheren Geschwindigkeiten und Leistungen bei der Erkennung menschlicher Aktivitäten anhand von Bewegungssensoren und der Modellierung physikalischer Daten Dynamik eines simulierten Laufroboters und ereignisbasierte sequentielle Bildverarbeitung. Bei einer medizinischen Vorhersageaufgabe beispielsweise waren die neuen Modelle bei einer Stichprobe von 8.000 Patienten 220-mal schneller.

Ein neues Papier zu dieser Arbeit wird heute in Nature Machine Intelligence veröffentlicht.

„Die neuen maschinellen Lernmodelle, die wir ‚CfC‘ nennen, ersetzen die Differentialgleichung, die die Berechnung des Neurons definiert, durch eine geschlossene Näherung und bewahren so die schönen Eigenschaften flüssiger Netzwerke ohne die Notwendigkeit einer numerischen Integration“, sagt MIT-Professorin Daniela Rus, Direktorin vom Computer Science and Artificial Intelligence Laboratory (CSAIL) und leitender Autor des neuen Papiers. „CfC-Modelle sind kausal, kompakt, erklärbar und effizient zu trainieren und vorherzusagen. Sie ebnen den Weg zu vertrauenswürdigem maschinellem Lernen für sicherheitskritische Anwendungen.“

Damit alles flüssig bleibt

Mithilfe von Differentialgleichungen können wir den Zustand der Welt oder eines Phänomens während seiner Entwicklung berechnen, jedoch nicht über die gesamte Zeit hinweg, sondern nur Schritt für Schritt. Um natürliche Phänomene im Laufe der Zeit zu modellieren und früheres und zukünftiges Verhalten zu verstehen, wie zum Beispiel die Erkennung menschlicher Aktivitäten oder den Weg eines Roboters, griff das Team in eine Tasche mathematischer Tricks, um genau das Richtige zu finden: eine „geschlossene“ Lösung, die das modelliert vollständige Beschreibung eines gesamten Systems in einem einzigen Rechenschritt.

Mit ihren Modellen kann man diese Gleichung jederzeit in der Zukunft und jederzeit in der Vergangenheit berechnen. Darüber hinaus ist die Berechnungsgeschwindigkeit viel schneller, da Sie die Differentialgleichung nicht Schritt für Schritt lösen müssen.

Stellen Sie sich ein durchgängiges neuronales Netzwerk vor, das Fahreingaben von einer an einem Auto montierten Kamera empfängt. Das Netzwerk ist darauf trainiert, Ausgaben wie den Lenkwinkel des Autos zu generieren. Im Jahr 2020 löste das Team dieses Problem, indem es flüssige neuronale Netze mit 19 Knoten verwendete, sodass 19 Neuronen plus ein kleines Wahrnehmungsmodul ein Auto fahren könnten. Eine Differentialgleichung beschreibt jeden Knoten dieses Systems. Wenn Sie die geschlossene Lösung innerhalb dieses Netzwerks ersetzen, erhalten Sie das genaue Verhalten, da es eine gute Annäherung an die tatsächliche Dynamik des Systems darstellt. Sie können das Problem also mit einer noch geringeren Anzahl von Neuronen lösen, was bedeutet, dass es schneller und weniger rechenintensiv wäre.

Diese Modelle können Eingaben als Zeitreihen (Ereignisse, die in der Zeit stattgefunden haben) erhalten, die zur Klassifizierung, zur Steuerung eines Autos, zum Bewegen eines humanoiden Roboters oder zur Vorhersage finanzieller und medizinischer Ereignisse verwendet werden könnten. Mit all diesen verschiedenen Modi können auch die Genauigkeit, Robustheit und Leistung und vor allem die Rechengeschwindigkeit erhöht werden – was manchmal einen Kompromiss mit sich bringt.

Die Lösung dieser Gleichung hat weitreichende Auswirkungen auf die Weiterentwicklung der Forschung sowohl im Bereich natürlicher als auch künstlicher Intelligenzsysteme. „Wenn wir eine geschlossene Beschreibung der Kommunikation von Neuronen und Synapsen haben, können wir Rechenmodelle von Gehirnen mit Milliarden von Zellen erstellen, eine Fähigkeit, die heute aufgrund der hohen Rechenkomplexität neurowissenschaftlicher Modelle nicht möglich ist. Die Gleichung in geschlossener Form könnte solche Simulationen auf großer Ebene erleichtern und eröffnet uns daher neue Forschungswege zum Verständnis von Intelligenz“, sagt MIT CSAIL Research Affiliate Ramin Hasani, Erstautor des neuen Papiers.

Tragbares Lernen

Darüber hinaus gibt es erste Hinweise darauf, dass Liquid CfC-Modelle Aufgaben in einer Umgebung anhand visueller Eingaben erlernen und ihre erlernten Fähigkeiten ohne zusätzliche Schulung auf eine völlig neue Umgebung übertragen können. Dies wird als Out-of-Distribution-Generalisierung bezeichnet und ist eine der grundlegendsten offenen Herausforderungen der Forschung im Bereich der künstlichen Intelligenz.

„Neuronale Netzwerksysteme, die auf Differentialgleichungen basieren, sind schwer zu lösen und auf, sagen wir, Millionen und Abermilliarden von Parametern zu skalieren. Die Beschreibung, wie Neuronen miteinander interagieren, nicht nur den Schwellenwert, sondern auch die Lösung der physikalischen Dynamik zwischen Zellen, ermöglicht es uns „Wir bauen größere neuronale Netze auf“, sagt Hasani. „Dieses Framework kann dabei helfen, komplexere maschinelle Lernaufgaben zu lösen – was ein besseres Repräsentationslernen ermöglicht – und sollte die Grundbausteine ​​jedes zukünftigen eingebetteten Intelligenzsystems sein.“ „Bestehend aus spezifischen dynamischen Systemen, die unendliche latente Zustände darstellen, anstelle expliziter Schichtstapel“, sagt Sildomar Monteiro, Leiter der KI- und Maschinellen Lerngruppe bei Aurora Flight Sciences, einem Boeing-Unternehmen, der an diesem Artikel nicht beteiligt war. „Diese implizit definierten Modelle haben eine Leistung auf dem neuesten Stand gezeigt und erfordern weitaus weniger Parameter als herkömmliche Architekturen. Ihre praktische Akzeptanz war jedoch aufgrund der hohen Rechenkosten, die für Training und Inferenz erforderlich sind, begrenzt.“ Er fügt hinzu, dass dieses Papier „eine deutliche Verbesserung der Recheneffizienz für diese Klasse neuronaler Netze zeigt … [und] das Potenzial hat, ein breiteres Spektrum praktischer Anwendungen zu ermöglichen, die für sicherheitskritische kommerzielle und Verteidigungssysteme relevant sind.“

Hasani und Mathias Lechner, Postdoc am MIT CSAIL, verfassten die von Rus betreute Arbeit zusammen mit MIT Alexander Amini, einem CSAIL-Postdoc; Lucas Liebenwein SM '18, PhD '21; Aaron Ray, ein MIT-Doktorand für Elektrotechnik und Informatik und CSAIL-Partner; Max Tschaikowski, außerordentlicher Professor für Informatik an der Universität Aalborg in Dänemark; und Gerald Teschl, Professor für Mathematik an der Universität Wien.

Forschungsmitarbeiter Ramin Hasani spricht mit Kimberly Adams von Marketplace darüber, wie er und seine CSAIL-Kollegen eine Differentialgleichung aus dem frühen 20. Jahrhundert gelöst haben, wodurch Forscher einen KI-Algorithmus erstellen konnten, der sofort lernen und sich an sich entwickelnde Muster anpassen kann. Der neue Algorithmus „wird Gehirnsimulationen in größerem Maßstab ermöglichen“, erklärt Hasani.

Vorheriger Artikel Nächster Artikel

Vorheriger Artikel Nächster Artikel

Damit alles flüssig bleibt. Tragbares Lernen
AKTIE