KI-Modelle lernen schlussfolgern

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Das o1-Modell von OpenAI erzeugte eine Welle des Interesses an der Erforschung von Large Reasoning Models (LRM). Darauf aufbauend haben nun Forscher der chinesischen E-Commerce-Plattform Alibaba das Modell Marco-o1 entworfen, das nicht nur auf Disziplinen mit Standardantworten spezialisisert ist – wie Mathematik, Physik und Programmierung, die sich gut für Reinforcement Learning (RL) eignen -, sondern auch großen Wert auf offene Lösungen legt.

Das Ziel sei es, verlautbaren die Forscher, die Frage zu beantworten: „Kann das o1-Modell effektiv auf breitere Bereiche verallgemeinert werden, in denen klare Standards fehlen und Belohnungen schwer zu quantifizieren sind? „Marco-o1 basiert auf der Feinabstimmung der Chain-of-Thought (CoT), Reflexionsmechanismen und innovativen Argumentationsstrategien, die für komplexe Problemlösungsaufgaben in der realen Welt optimiert sind, und der Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS).

MCTS ist ein Suchalgorithmus, der sich in komplexen Problemlösungsszenarien als effektiv erwiesen hat. Er erkundet auf intelligente Weise verschiedene Lösungswege, indem er wiederholt Möglichkeiten abtastet, die Ergebnisse simuliert und schrittweise einen Entscheidungsbaum aufbaut. Er hat sich bei komplexen KI-Problemen als sehr effektiv erwiesen,etwa beim Go-Spielen. Dadurch kann das Modell ein breiteres Spektrum an Möglichkeiten in Betracht ziehen und zu fundierteren und differenzierteren Schlussfolgerungen gelangen, insbesondere in Szenarien mit offenen Lösungen.

Die Forscher haben außerdem eine flexible Strategie für Schlussfolgerungen eingeführt, die es ihnen ermöglicht, die Granularität der MCTS-Schritte anzupassen, indem sie die Anzahl der an jedem Knoten im Baum erzeugten Token festlegen. Dies ermöglicht einen Kompromiss zwischen Genauigkeit und Rechenkosten und gibt dem Benutzer die Flexibilität, Leistung und Effizienz abzuwägen.

Um die Leistung von Marco-o1 zu bewerten, führten die Forscher Experimente mit verschiedenen Aufgaben durch, darunter der MGSM-Benchmark, ein Datensatz für mehrsprachige Mathematikaufgaben in der Grundschule. Marco-o1 übertraf das Basismodell Qwen2-7B deutlich, insbesondere wenn die MCTS-Komponente für die Granularität von Einzel-Token angepasst wurde.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben