GPT führt im Rangking knapp vor Claude und Gemini

- 07. Januar 2026

Die Firma Artificial Analysis vergleicht LLMs hinsichtlich der Kriterien Intelligenz, Geschwindigkeit und Preis und errechnet daraus einen Artificil Analysis Intelligence Index.

Diese Rangliste führt GPT-5.2 (xhigh) von OpenAI mit 51 Punkten knapp vor Claude Opus 4.5 von Anthropic (49) und Gemini 3 Pro von Google (48). Die Top Ten schließen mit Grok 4 (Meta) und DeepSeek V3.2 (DeepSeek), beide mit 41 Punkten. Die besten Modelle gehören durchweg zu den teuersten.

Der Bewertung zugrunde liegen Benchmarks in vier gleichgewichteten Kategorien: Agenten, Programmierung, wissenschaftliches Denken und Allgemeines. Dabei wurden nun drei bisher verwendete Benchmarks – AIME 2025, LiveCodeBench und MMLU-Pro – durch drei neue ersetzt: AA-Omniscience, der Wissen und Halluzinationen bei 40 Themen testet, GDPval-AA, der wirtschaftlich wertschöpfende Aufgaben prüft und CritPt, der auf Physikaufgaben spezialisiert ist.

SCHLAGWORTE
KI
Ranking

GNOME-Projekt ändert Verfahren für neu entdeckte Sicherheitslücken

Entdeckte Sicherheitslücken in GNOME-Komponenten verwaltet zentral die Stelle GNOME Security. Dahinter steht im Wesentlichen Michael Catanzaro, der jetzt nicht nur den Prozess verändert, sondern auch für den Herbst einen Nachfolger sucht.

Google veröffentlicht drei neue Gemini-Modelle

Mit Gemini 3.6 Flash, Gemini 3.5 Flash-Lite und Gemini 3.5 Flash Cyber hat Google drei neue Sprachmodelle veröffentlicht.

OpenAI-Modell wird ungewollt zum Hacker

OpenAI teilt mit, dass ein autonomer Agent aus seiner Sicherheitsumgebung entkommen sei, Zugang zum Internet erlangt und das KI-Start-up Hugging Face gehackt habe.

Firefox verschärft Zugriffsschutz und erweitert PDF-Funktionen

Mozilla hat Firefox 153 veröffentlicht. Zu den Neuerungen gehört eine überarbeitete Container-Funktion.

IPFire mustert DNS-Resolver Unbound aus

Die schlanke und flexible Firewall-Distribution IPFire ersetzt in ihrer neuen Version Unbound durch den Knot Resolver. Darüber hinaus unterstützt der integrierte WLAN Access Point das 6 GHz-Band.

OpenAI beobachtet Ausbruchsversuche in lange laufenden KI-Modellen

Für KI-Modelle, die lange Zeit autonom an einer Aufgabe arbeiten sollen, sind die üblichen Abwehrmaßnahmen gegen schädliches Verhalten nicht ausreichend. Forscher bei OpenAI mussten Tests pausieren, weil die Modelle aktiv nach Wegen suchten, ihnen auferlegte Beschränkungen zu umgehen.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung