Das chinesische Startup DeepSeek stellt sein neues schlussfolgerndes Sprachmodell DeepSeek-R1 vor, das so leistungsfähig wie OpenAIs o1-Modell sein soll, dabei aber 90 bis 95 Prozent kostengünstiger ist.
Sprachmodell mit der Fähigkeit Schlussfolgerungen zu ziehen, gelten als Schritt hin zu einer allgemeinen Künstlichen Intelligenz (AGI), die intellektuelle Aufgaben wie Menschen bewältigen kann. OpenAI machte den ersten Schritt in diese Richtung mit dem o1-Modell. Durch RL (Reinforcement Learning oder belohnungsgesteuerte Optimierung) lernt o1, seine Gedankenkette und die von ihm verwendeten Strategien zu verfeinern. Es kann seine Fehler erkennen und korrigieren oder neue Ansätze ausprobieren, wenn die aktuellen nicht funktionieren.
DeepSeek-R1 nutzt ebenfalls Reinforcement Learning, kombiniert mit überwachter Feinabstimmung, um komplexe logische Aufgaben zu bewältigen und die Leistung von o1 zu erreichen. In diversen Benchmarks schneidet es ebenso gut oder etwas besser ab. Das Unternehmen entwickelte die Denkfähigkeiten des Modells zunächst ohne Verwendung überwachter Daten. Es konzentrierte sich im Wesentlichen nur auf seine Selbstentwicklung durch einen rein RL-basierten Versuch-und-Irrtum-Prozess. Während des Trainings entwickelte DeepSeek-R1-Zero auf natürliche Weise zahlreiche leistungsstarke und interessante logische Verhaltensweisen”, schreiben die Forscher in einem Papier. “Nach Tausenden von RL-Schritten zeigt DeepSeek-R1-Zero eine hervorragende Leistung bei schlussfolgernden Benchmarks.” Trotz verbesserter Leistung, einschließlich Verhaltensweisen wie Reflexion und Erkundung von Alternativen, wies das ursprüngliche Modell jedoch einige Probleme auf, darunter schlechte Lesbarkeit und Sprachmischung. Um das zu beheben, verwendeten die Forscher schließlich einen mehrstufigen Ansatz, der sowohl überwachtes Lernen als auch bestärkendes Lernen kombinierte, und entwickelte so das verbesserte R1-Modell.
DeepSeek-Rl steht als Open-Source-Software unter der MIT-Lizenz und wurde auf Hugging Face veröffentlicht.





