Forscher der Universität von Kalifornien, der Stanford Universität und des Unternehmens Databricks haben mit GEPA eine neue Methode erfunden, die bei der Anpassung von LLMs an spezielle Aufgaben wesentlich bessere Lernerfolge zeitigt als das traditionelle Reinforcement Learning (RL).
GEPA ist dabei nicht nur schneller und genauer, sondern auch effizienter. Es soll hervorragende Resultate mit bis zu 35mal weniger Versuch-und-Irrtum-Zyklen erreichen. Das spart Geld und Zeit.
Beim herkömmlichen Reinforcement Learning von heutigen schlussfolgernden Modellen kommt eine Technik wie Group Relative Policy Optimization (GRPO) zum Einsatz, bei der das System als Blackbox betrachtet wird: Es führt eine Aufgabe aus, erhält eine einfache numerische Bewertung seines Erfolgs und benutzt dieses Feedback, um seine internen Parameter schrittweise so zu verändern, dass sich die Bewertung verbessert. Der Pferdefuß dabei ist die fehlende Effizienz: Oft sind Tausende oder sogar Hunderttausende Durchläufe nötig, was langsam und kostspielig ist.
Die neue Methode GEPA (Genetic-Pareto) ist ein Prompt-Optimierer, der die knappen Rückmeldungen durch reichhaltiges, natürlichsprachliches Feedback ersetzt. Es macht sich die Tatsache zunutze, dass die gesamte Ausführung eines KI-Systems (einschließlich seiner Argumentationsschritte, Toolaufrufe und sogar Fehlermeldungen) in Text serialisiert werden kann, den ein LLM lesen und verstehen kann.
Die GEPA-Methode basiert auf drei Grundpfeilern. Der erste ist eine quasi genetische Prompt-Evolution, bei der GEPA eine Menge von Prompts wie einen Genpool behandelt. Es “mutiert” Prompts, um neue, potenziell bessere Versionen zu schaffen.
Diese Mutation ist ein intelligenter Prozess, der von der zweiten Säule angetrieben wird: “Reflexion mit natürlichem Sprachfeedback”. Nach einigen Rollouts liefert GEPA einem LLM die vollständige Ausführungsspur (was das System zu tun versucht hat) und das Ergebnis (was richtig oder falsch gelaufen ist). Das LLM “reflektiert” dann dieses Feedback in natürlicher Sprache, um das Problem zu diagnostizieren und einen verbesserten, detaillierteren Prompt zu schreiben.
Die dritte Säule ist die “Pareto-basierte Auswahl”, die eine intelligente Erkundung gewährleistet. Anstatt sich nur auf einen einzigen Prompt mit der besten Leistung zu konzentrieren, was dazu führen kann, dass man in einer suboptimalen Lösung (einem lokalen Optimum) stecken bleibt, arbeitet GEPA mit einer Reihe von Prompts. Es verfolgt, welche Prompts bei verschiedenen Beispielen am besten abschneiden, und erstellt eine Liste von Spitzenkandidaten. Durch die Auswahl aus diesem vielfältigen Satz von Erfolgsstrategien stellt GEPA sicher, dass es mehr Lösungen untersucht und mit größerer Wahrscheinlichkeit eine Eingabeaufforderung findet, die sich über eine breite Palette von Eingaben hinweg gut verallgemeinern lässt.





