KI-Modelle lernen schlussfolgern

- 28. November 2024

Das o1-Modell von OpenAI erzeugte eine Welle des Interesses an der Erforschung von Large Reasoning Models (LRM). Darauf aufbauend haben nun Forscher der chinesischen E-Commerce-Plattform Alibaba das Modell Marco-o1 entworfen, das nicht nur auf Disziplinen mit Standardantworten spezialisisert ist – wie Mathematik, Physik und Programmierung, die sich gut für Reinforcement Learning (RL) eignen -, sondern auch großen Wert auf offene Lösungen legt.

Das Ziel sei es, verlautbaren die Forscher, die Frage zu beantworten: „Kann das o1-Modell effektiv auf breitere Bereiche verallgemeinert werden, in denen klare Standards fehlen und Belohnungen schwer zu quantifizieren sind? „Marco-o1 basiert auf der Feinabstimmung der Chain-of-Thought (CoT), Reflexionsmechanismen und innovativen Argumentationsstrategien, die für komplexe Problemlösungsaufgaben in der realen Welt optimiert sind, und der Monte-Carlo-Baumsuche (Monte Carlo Tree Search, MCTS).

MCTS ist ein Suchalgorithmus, der sich in komplexen Problemlösungsszenarien als effektiv erwiesen hat. Er erkundet auf intelligente Weise verschiedene Lösungswege, indem er wiederholt Möglichkeiten abtastet, die Ergebnisse simuliert und schrittweise einen Entscheidungsbaum aufbaut. Er hat sich bei komplexen KI-Problemen als sehr effektiv erwiesen,etwa beim Go-Spielen. Dadurch kann das Modell ein breiteres Spektrum an Möglichkeiten in Betracht ziehen und zu fundierteren und differenzierteren Schlussfolgerungen gelangen, insbesondere in Szenarien mit offenen Lösungen.

Die Forscher haben außerdem eine flexible Strategie für Schlussfolgerungen eingeführt, die es ihnen ermöglicht, die Granularität der MCTS-Schritte anzupassen, indem sie die Anzahl der an jedem Knoten im Baum erzeugten Token festlegen. Dies ermöglicht einen Kompromiss zwischen Genauigkeit und Rechenkosten und gibt dem Benutzer die Flexibilität, Leistung und Effizienz abzuwägen.

Um die Leistung von Marco-o1 zu bewerten, führten die Forscher Experimente mit verschiedenen Aufgaben durch, darunter der MGSM-Benchmark, ein Datensatz für mehrsprachige Mathematikaufgaben in der Grundschule. Marco-o1 übertraf das Basismodell Qwen2-7B deutlich, insbesondere wenn die MCTS-Komponente für die Granularität von Einzel-Token angepasst wurde.

Nach Agentenausbruch: Verteidiger mussten ein chinesisches Modell einsetzen

Im Nachgang des Angriffs eines ausgebrochenen KI-Agenten von OpenAI auf die Plattform HuggingFace wurde bekannt, dass die Verteidiger bei der Analyse des Vorfalls auf das chinesische Modell GLM-5.2 setzen mussten, weil führende amerikanische Modelle wegen der eingebauten Sicherheitsvorkehrungen...

Raspberry Pi: Touch-Bildschirm mit 10 Zoll vorgestellt

Wer seinem Raspberry Pi einen Touch-Bildschirm spendieren möchte, kann jetzt auch auf ein offizielles Display mit 10 Zoll zurückgreifen. Das Touch Display 2 kostet in dieser Größe 80 US-Dollar – wenn man denn einen Lieferanten findet.

OpenDesk bewährt sich als Notfallarbeitsplatz für Sozialversicherungen

Ein Verbund aus Sozialversicherungen, IT-Unternehmen und dem Zentrum für Digitale Souveränität der Öffentlichen Verwaltung (ZenDiS) hat OpenDesk als Notfallarbeitsplatz für Krisensituationen getestet.

Canonical führt Enterprise Store für Ubuntu-Pro-Kunden ein

Beim neuen Enterprise Store handelt es sich um einen Proxy, der die Softwareverwaltung hinter Firewalls und in Air-Gap-Netzwerken erleichtern soll. Der Enterprise Store steht allerdings nur Ubuntu-Pro-Abonnement zur Verfügung.

GNOME-Projekt ändert Verfahren für neu entdeckte Sicherheitslücken

Entdeckte Sicherheitslücken in GNOME-Komponenten verwaltet zentral die Stelle GNOME Security. Dahinter steht im Wesentlichen Michael Catanzaro, der jetzt nicht nur den Prozess verändert, sondern auch für den Herbst einen Nachfolger sucht.

Google veröffentlicht drei neue Gemini-Modelle

Mit Gemini 3.6 Flash, Gemini 3.5 Flash-Lite und Gemini 3.5 Flash Cyber hat Google drei neue Sprachmodelle veröffentlicht.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...