Chinesisches DeepSeek düpiert OpenAI und Co

Die kostengünstigeren Opern-Source-Modelle DeepSeek R1 und V3 sollen die US-KI-Modelle überflügeln. Quelle: DeepSeek

Quelle: DeepSeek

Die chinesischen KI-Modelle von DeepSeek sorgen in den USA für Krisenstimmung. Die kostengünstigeren unter MIT-Lizenz stehenden Opern-Source-Modelle DeepSeek R1 und V3 sollen die US-KI-Modelle überflügeln. Die Börsen reagieren mit Kurseinbrüchen für Nvidia und weiteren mit KI verbundenen Firmen.

Das noch Ende vergangenen Jahres präsentierte DeepSeek-V3, ein Mixture-of-Experts (MoE) Sprachmodell mit 671B Gesamtparametern nutzt laut der Beschreibung auf Github für ein kostengünstiges Training die Architekturen Multi-head Latent Attention (MLA) und DeepSeekMoE. Man trainiere DeepSeek-V3 auf 14,8 Billionen verschiedener und hochwertiger Token, gefolgt von Supervised Fine-Tuning und Reinforcement Learning, um seine Fähigkeiten voll auszuschöpfen, wir berichteten.

Benchmarks von DeepSeek V3 und der Konkurrenz. Quelle: DeepSeek

Für die US-Anbieter schockierend war allerdings der Umstand, dass DeepSeek-V3 nach Angaben des chinesischen Anbieters andere Open-Source-Modelle übertrifft und eine Leistung erreicht, die mit führenden Closed-Source-Modellen vergleichbar sei. Und dies, obwohl DeepSeek-V3 nur 2,788 Millionen H800-GPU-Stunden für das gesamte Training benötigt habe. Und dass die DeepSeek-App im App-Store von Apple jetzt an der Konkurrenz vorbeizog, markierte einen weiteren herben Schlag für OpenAI, Google und Co.

Die Börsen reagierten darauf mit heftigen Kursverlusten für Nvida als Hardware-Lieferant für die nötige Rechenleistung von KI-Modellen. Der Börsenwert von Nvidia sank zwischenzeitlich um laut CNBC rekordverdächtige 600 Milliarden US-Dollar und hat sich inzwischen nur leicht erholt. Dass DeepSeek ebenfalls auf Nvidia-Hardware trainiert wurde, ist dabei ein ironisches Detail. Auch am KI-Boom beteiligte Unternehmen wie Oracle, Dell und Cisco verloren an der Börse. Die genannten sind unter anderem für die Ausstattung von Rechenzentren für KI beteiligt.

Mit Janus-Pro hat DeepSeek inzwischen auch einen unter MIT-Lizenz stehenden freien KI-Bildgenerator veröffentlicht, der ebenfalls mit den vorhandenen Modellen mithalten können oder besser sein soll. Benchmarks zeigen, dass Janus Pro Dall-E 3 von OpenAI in einigen Bereichen überflügle. Janus-Pro biete eine optimierte Trainingsstrategie, erweiterte Trainingsdaten und eine Skalierung auf eine größere Modellgröße. Mit diesen Verbesserungen erziele Janus-Pro signifikante Fortschritte sowohl beim multimodalen Verstehen als auch bei der Befolgung von Text-zu-Bild-Anweisungen und erhöht gleichzeitig die Stabilität der Text-zu-Bild-Generierung, berichtet DeepSeek.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben