Neuer Mathe-Benchmark lässt führende KIs scheitern

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Das Forschungsinstitut Epoch AI hat mit FrontierMath einen neuen Benchmark vorgestellt, an dem  führende Systeme wie Claude 3.5 Sonnet, GPT-4o, o1-preview oder Gemini 1.5 Pro reihenweise verzweifeln: Sie konnten weniger als zwei Prozent der Aufgaben erfolgreich lösen.

Der Benchmark enthält Hunderte von Problemen auf Expertenniveau, für deren Lösung Fachmathematiker normalerweise Stunden oder Tage benötigen. In einfacheren Mathe-Benchmarks wie GSM8K — ein Benchmark der Probleme enthält, die mit den Grundrechenarten in mehreren Schritten zu lösen sind — hatten dieselben Systeme bis zu 90 Prozent richtige Antworten produziert. Das Design von FrontierMath unterscheidet sich von vielen bestehenden KI-Benchmarks insofern, als der Problemsatz vertraulich bleibt und nicht veröffentlicht wird. Viele bestehende KI-Modelle werden anhand anderer Testproblem-Datensätze trainiert, sodass die KI-Modelle die Probleme leicht lösen und allgemein leistungsfähiger erscheinen, als sie es tatsächlich sind.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben