KI-Modell von Alibaba als neuer Spitzenreiter in etlichen Benchmarks

- 29. Januar 2026

Das neue, bislang leistungsstärkste Sprachmodell Qwen3-Max-Thinking des chinesischen Tech-Giganten Alibaba hat in einigen Benchmarks so gut oder besser abgeschnitten wie die führenden Modelle GPT-5.2, Claude-Opus-4.5 und Gemini 3.

Durch Erhöhung der Parameteranzahl (auf eine Billion) und der Rechenleistung beim Training habe man signifikante Verbesserungen erreicht, darunter beim Faktenwissen, beim Schlussfolgern, beim Befolgen von Anweisungen, bei der Anpassung an menschliche Vorlieben und bei den Fähigkeiten des Agenten, schreibt Alibaba in einem Blog.

Im selben Blog veröffentlicht Alibaba auch einige Benchmarkresultate die Qwen3-Max-Thinking als Bestplatzierten in den Benchmarks im LiveCodeBench (Programmierung) im IMO-AnswerBench (Matheaufgaben auf dem Niveau der Internationalen Mathe-Olympiade) oder GPQA-Diamond (Wissenschaftsfragen auf Doktorandenniveau) zeigen. Auch in anderen Benchmarks belegt das Modell Plätze im Spitzenfeld.

Die APIs von Qwen sind kompatibel mit dem API-Protokoll von Anthropic, so dass man das Tool Claude Code auch verwenden kann, um mit dem neuen Modell von Qwen zu programmieren.

Im Unterschied zu anderen Modellen der Qwen-3-Familie wie Qwen3 Qwen3-235B-A22B oder Qwen3-32B, die unter Apache-2.0-Lizenz veröffentlicht wurden, ist das neue Modell nicht mehr Open Source, sondern explizit proprietär.