Neuer Mathe-Benchmark lässt führende KIs scheitern

- 13. November 2024

Das Forschungsinstitut Epoch AI hat mit FrontierMath einen neuen Benchmark vorgestellt, an dem führende Systeme wie Claude 3.5 Sonnet, GPT-4o, o1-preview oder Gemini 1.5 Pro reihenweise verzweifeln: Sie konnten weniger als zwei Prozent der Aufgaben erfolgreich lösen.

Der Benchmark enthält Hunderte von Problemen auf Expertenniveau, für deren Lösung Fachmathematiker normalerweise Stunden oder Tage benötigen. In einfacheren Mathe-Benchmarks wie GSM8K — ein Benchmark der Probleme enthält, die mit den Grundrechenarten in mehreren Schritten zu lösen sind — hatten dieselben Systeme bis zu 90 Prozent richtige Antworten produziert. Das Design von FrontierMath unterscheidet sich von vielen bestehenden KI-Benchmarks insofern, als der Problemsatz vertraulich bleibt und nicht veröffentlicht wird. Viele bestehende KI-Modelle werden anhand anderer Testproblem-Datensätze trainiert, sodass die KI-Modelle die Probleme leicht lösen und allgemein leistungsfähiger erscheinen, als sie es tatsächlich sind.

Zwölfte Checkmk-Konferenz läuft in München

Als ausgereifte und dabei kostengünstige Full-Stack-Monitoringlösung präsentierte sich in diesen Tagen Checkmk auf seiner 12. Anwenderkonferenz in München, die mit über 580 Besuchern vor Ort einen neuen Rekord verzeichnete.

Jahresbericht Telekommunikation der Bundesnetzagentur

Die Bundesnetzagentur hat jüngst den Jahresbericht 2025 zum Bereich Telekommunikation veröffentlicht. Quelle: Bundesnetzagentur

Die Bundesnetzagentur hat jüngst den Jahresbericht 2025 zum Bereich Telekommunikation veröffentlicht. Demnach haben die Telekommunikationsunternehmen im Jahr 2025 rund 15,3 Milliarden Euro in Sachanlagen investiert.

Curl-Projekt macht Sommerfrische

Daniel Stenberg, Maintainer und Erfinder von Curl hat eine Pause von 1. Juli bis 3. August angekündigt. In der Zeit werde man keine Sicherheitsreports annehmen. Die Curl-Entwickler haben diese Zeit den „Curl-Sommer der Glückseligkeit“ getauft.

Open Source Wettbewerb: BDMS übernimmt Schirmherrschaft

Das Bundesministerium für Digitales und Staatsmodernisierung übernimmt erneut die Schirmherrschaft für den Open Source Wettbewerb. Die Open Source Business Alliance – Bundesverband für digitale Souveränität e.V. hat die Initiative im März 2026 gestartet.

Deutsche oft von digitalen Technologien überfordert

Digitale Technologien gehören für viele Bürger zum Alltag. Allerdings fühlt sich ein Drittel (33 Prozent) der Deutschen häufig damit überfordert. Das hat eine repräsentative Befragung im Auftrag des Digitalverbands Bitkom ergeben.

Hunderte AUR-Pakete kompromittiert

Hunderte von verwaisten Paketen, die im Arch User Repository (AUR) gehostet werden, wurden von einem Angreifer kompromittiert, der ein bösartiges npm-Paket hinzugefügt hat, das sensible Daten abgreifen kann.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen