MIT-Forscher erfinden effektivere Methode für LLMs, um nachzudenken

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Um härtere Probleme lösen zu können, sind LLMs in der Lage länger nachzudenken. Forscher des MIT haben nun eine Methode entwickelt, das Budget an Rechenzeit dynamisch zu verwalten.

Gängige Ansätze, die LLMs dieFähigkeit verleihen, ihre Nachdenkzeit zu verlängern, legen für jedes Problem ein festes Rechenbudget fest, unabhängig davon, wie komplex es ist. Das bedeutet, dass das LLM möglicherweise Rechenressourcen für einfachere Fragen verschwendet oder nicht in der Lage ist, komplexe Probleme zu lösen, die mehr logisches Denken erfordern. Die neue Methode der MIT-Forscher ermöglicht es dem Modell nun, sein Rechenbudget dynamisch anzupassen, basierend auf der Schwierigkeit der Frage und der Wahrscheinlichkeit, dass jede Teillösung zur richtigen Antwort führt.

Die Forscher fanden heraus, dass ihr neuer Ansatz es LLMs ermöglicht, nur halb so viel Rechenleistung wie bestehende Methoden zu verbrauchen und dabei bei einer Reihe von Fragen mit unterschiedlichem Schwierigkeitsgrad eine vergleichbare Genauigkeit zu erzielen. Darüber hinaus ermöglicht ihre Methode kleineren, weniger ressourcenintensiven LLMs, bei komplexen Problemen genauso gut oder sogar besser abzuschneiden als größere Modelle.

“Die Rechenkosten für die Inferenz sind schnell zu einem großen Engpass für Anbieter von Spitzenmodellen geworden, und diese suchen aktiv nach Möglichkeiten, die Recheneffizienz pro Benutzeranfrage zu verbessern. Beispielsweise unterstreicht die kürzlich veröffentlichte Version GPT-5.1 die Wirksamkeit des in unserer Veröffentlichung vorgeschlagenen Ansatzes des ‘adaptiven Schlussfolgerns’. Indem wir den Modellen die Fähigkeit verleihen, zu erkennen, was sie nicht wissen, können wir sie in die Lage versetzen, mehr Rechenleistung für die schwierigsten Probleme und vielversprechendsten Lösungswege aufzuwenden und weitaus weniger Token für einfache Probleme zu verwenden. Das macht das Schlussfolgern sowohl zuverlässiger als auch weitaus effizienter”, sagt Navid Azizan, leitender Forscher am Labor für Informations- und Entscheidungssysteme (LIDS) und leitender Autor einer Veröffentlichung zu dieser Technik.

Ein wichtiger Bestandteil vieler Skalierungsalgorithmen zur Inferenzzeit ist das gewählte Prozessbelohnungsmodell (Process Reward Model, PRM). PRMs werden trainiert, um zu quantifizieren, wie gut oder wünschenswert die Zwischenausgaben eines Modells in Bezug auf eine bestimmte Aufgabe und/oder die Übereinstimmung mit menschlichen Präferenzen sind. In ihrem Artikel stellen die Forscher eine Pipeline zur Verbesserung der Kalibrierung aller handelsüblichen PRMs vor. Damit können deren Bewertungen die Unsicherheit, mit der ein bestimmtes LLM die richtige Antwort findet, genauer widerspiegeln. Dafür entwickelten sie ein auf Quantilsregression basierendes Schema, das den Kalibrierungsfehler von PRM-Bewertungen reduziert. Das resultierende Modell sagt für jede Abfrage und jeden Zwischenschritt der Argumentation die Erfolgswahrscheinlichkeit zusammen mit Konfidenzgrenzen voraus.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben