Neue Lernmethode für LLMs

- 19. August 2025

Forscher der Universität von Kalifornien, der Stanford Universität und des Unternehmens Databricks haben mit GEPA eine neue Methode erfunden, die bei der Anpassung von LLMs an spezielle Aufgaben wesentlich bessere Lernerfolge zeitigt als das traditionelle Reinforcement Learning (RL).

GEPA ist dabei nicht nur schneller und genauer, sondern auch effizienter. Es soll hervorragende Resultate mit bis zu 35mal weniger Versuch-und-Irrtum-Zyklen erreichen. Das spart Geld und Zeit.

Beim herkömmlichen Reinforcement Learning von heutigen schlussfolgernden Modellen kommt eine Technik wie Group Relative Policy Optimization (GRPO) zum Einsatz, bei der das System als Blackbox betrachtet wird: Es führt eine Aufgabe aus, erhält eine einfache numerische Bewertung seines Erfolgs und benutzt dieses Feedback, um seine internen Parameter schrittweise so zu verändern, dass sich die Bewertung verbessert. Der Pferdefuß dabei ist die fehlende Effizienz: Oft sind Tausende oder sogar Hunderttausende Durchläufe nötig, was langsam und kostspielig ist.

Die neue Methode GEPA (Genetic-Pareto) ist ein Prompt-Optimierer, der die knappen Rückmeldungen durch reichhaltiges, natürlichsprachliches Feedback ersetzt. Es macht sich die Tatsache zunutze, dass die gesamte Ausführung eines KI-Systems (einschließlich seiner Argumentationsschritte, Toolaufrufe und sogar Fehlermeldungen) in Text serialisiert werden kann, den ein LLM lesen und verstehen kann.

Die GEPA-Methode basiert auf drei Grundpfeilern. Der erste ist eine quasi genetische Prompt-Evolution, bei der GEPA eine Menge von Prompts wie einen Genpool behandelt. Es “mutiert” Prompts, um neue, potenziell bessere Versionen zu schaffen.

Diese Mutation ist ein intelligenter Prozess, der von der zweiten Säule angetrieben wird: “Reflexion mit natürlichem Sprachfeedback”. Nach einigen Rollouts liefert GEPA einem LLM die vollständige Ausführungsspur (was das System zu tun versucht hat) und das Ergebnis (was richtig oder falsch gelaufen ist). Das LLM “reflektiert” dann dieses Feedback in natürlicher Sprache, um das Problem zu diagnostizieren und einen verbesserten, detaillierteren Prompt zu schreiben.

Die dritte Säule ist die “Pareto-basierte Auswahl”, die eine intelligente Erkundung gewährleistet. Anstatt sich nur auf einen einzigen Prompt mit der besten Leistung zu konzentrieren, was dazu führen kann, dass man in einer suboptimalen Lösung (einem lokalen Optimum) stecken bleibt, arbeitet GEPA mit einer Reihe von Prompts. Es verfolgt, welche Prompts bei verschiedenen Beispielen am besten abschneiden, und erstellt eine Liste von Spitzenkandidaten. Durch die Auswahl aus diesem vielfältigen Satz von Erfolgsstrategien stellt GEPA sicher, dass es mehr Lösungen untersucht und mit größerer Wahrscheinlichkeit eine Eingabeaufforderung findet, die sich über eine breite Palette von Eingaben hinweg gut verallgemeinern lässt.

Mageia 10 mit Linux-Kernel 6.18 und aktueller Desktop-Software

Die Mageia-Gemeinschaft hat Version 10 ihrer Linux-Distribution veröffentlicht. Rund drei Jahre nach dem Erscheinen der Version 9 des Mandriva-Nachfolgers.

Google Meet protokolliert in Meetings mit

Google Nutzer mit KI Pro- und Ultra-Abos brauchen in Meetings ab sofort keinen Schriftführer mehr: Google Meet transkribiert die Diskussion selbstständig und fasst die wichtigsten Maßnahmen per E-Mail und in einem Google-Doc-File zusammen, dass den Teilnehmern anschließend automatisch zugestellt...

Universität Paderborn erweitert Supercomputer „Otus“

Die Universität Paderborn baut ihren Hochleistungsrechner „Otus“ aus. Wie die Hochschule mitteilt, stehen dafür mehr als zwölf Millionen Euro aus Landes- und Bundesmitteln zur Verfügung.

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung