Forscher des MIT haben eine Methode gefunden, mit der sich die Fähigkeit von großen Sprachmodellen verbessern lässt, mit unbekannten, nicht erwarteten Problemen umzugehen.
Große Sprachmodelle, die meist gute und zutreffende Antworten geben, können versagen, wenn sie mit schwierigen Problemen konfrontiert werden, die ihnen nicht vertraut sind. Bisher wurde oft versucht, die Leistung der Modelle durch kontextbezogenes Lernen zu verbessern, indem ihnen im Prompt einige Beispiele für korrekte Lösungen mitgegeben wurden. Die Forscher konnten nun zeigen, dass das von ihnen entwickelte Test-Time-Training, eine Methode, bei der einige der inneren Parameter eines Modells während des Einsatzes zeitweilig aktualisiert werden, zu einer sechsfachen Verbesserung der Genauigkeit führen kann. Die Forscher entwickelten auch ein Framework für die Implementierung einer Test-Time-Trainingsstrategie, das die damit erzielbaren Gewinne maximiert.
“Echtes Lernen – wie wir es hier mit dem Test-Time-Training gemacht haben – ist etwas, was diese Modelle nach ihrer Auslieferung nicht mehr selbständig tun können. Sie können von sich aus keine neuen Fähigkeiten erwerben, um eine Aufgabe besser zu bewältigen. Aber wir haben gezeigt, dass es zu enormen Leistungssteigerungen kommen kann, wenn man das Modell ein wenig zum Lernen anregt”, sagt Ekin Akyürek, Hauptautor der Studie.
Beim Test-Time-Training werden einige Modellparameter – die internen Variablen, die zur Erstellung von Vorhersagen verwendet werden – anhand einer kleinen Menge neuer, für die jeweilige Aufgabe spezifischer Daten aktualisiert, die aus Beispielen für korrekte Lösungen gewonnen werden. “Wir haben festgestellt, dass das Training während der Testphase eine viel stärkere Form des Lernens ist. Während die bloße Bereitstellung von Beispielen die Genauigkeit nur geringfügig erhöhen kann, kann die tatsächliche Aktualisierung des Modells mit diesen Beispielen zu einer deutlich besseren Leistung führen, insbesondere in anspruchsvollen Bereichen”, sagt ein Mitautor der Studie, Student Mehul Damani.
Dabei ist die Aktualisierung einer kleinen Anzahl interner Modell-Parameter nur zeitweilig und wird wieder zurückgenommen, wenn das Modell eine Antwort gegeben hat. Das Verfahren ist zu aufwendig, um es in jedem Fall anzuwenden, stattdessen ist es den schwierigen Problemen vorbehalten. Auch wirkt es sich stark auf die Antwortzeiten aus: Ein Modell, das in der Regel weniger als eine Minute für die Beantwortung einer Anfrage benötigt, kann bei einem Training in der Testphase fünf oder 10 Minuten für eine Antwort benötigen.
Die Forschungsergebnisse werden auf der International Conference on Machine Learning vorgestellt.





