Neue Open-Source-Modelle von DeepSeek

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

DeepSeek veröffentlicht die Version 4 seiner Modelle, darunter DeepSeek-V4-Pro und DeepSeek-V4-Flash, beide mit einem Kontextfenster von einer Million Token.

Die neuen Modelle agieren nach dem Mixture-of-Experts-Ansatz, wobei das V4-Pro-Modell 49 Milliarden von seinen 1,2 Billionen Token und das Modell V4-Flash 13 Milliarden von 284 Milliarden Parametern aktiviert.

Die Modelle zeichnen vor allem Updates bei Architektur und Optimierung aus. So braucht DeepSeek-V4-Pro im Vergleich zum Vorgänger DeepSeek-V3.2 nur 27 Prozent der Gleitkommaoperationen  für die Inferenz und nur 10 Prozent des Key-Value-Cache. Erreicht wird das durch eine Kombination verschiedener Aufmerksamkeitsmechanismen, namentlich Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA). Um die Stabilität der Signalausbreitung über verschiedene Layer des neuronalen Netzes zu verbessern, setzt DeepSeek auf die Technik Manifold-Constrained Hyper-Connections (mHC). Außerdem wird der Muon Optimizer verwendet, um eine schnellere Konvergenz und größere Stabilität im Training zu erzielen.

In Bezug auf die Leistung in üblichen Benchmarks wie SimpleQA Verified, Terminal Bench 2.0 oder SWE Verified befindet sich V4-Pro auf Augenhöhe mit Spitzenmodellen von OpenAI, Anthropic oder Google.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben