Chinesisches DeepSeek düpiert OpenAI und Co

- 28. Januar 2025

Quelle: DeepSeek

Die chinesischen KI-Modelle von DeepSeek sorgen in den USA für Krisenstimmung. Die kostengünstigeren unter MIT-Lizenz stehenden Opern-Source-Modelle DeepSeek R1 und V3 sollen die US-KI-Modelle überflügeln. Die Börsen reagieren mit Kurseinbrüchen für Nvidia und weiteren mit KI verbundenen Firmen.

Das noch Ende vergangenen Jahres präsentierte DeepSeek-V3, ein Mixture-of-Experts (MoE) Sprachmodell mit 671B Gesamtparametern nutzt laut der Beschreibung auf Github für ein kostengünstiges Training die Architekturen Multi-head Latent Attention (MLA) und DeepSeekMoE. Man trainiere DeepSeek-V3 auf 14,8 Billionen verschiedener und hochwertiger Token, gefolgt von Supervised Fine-Tuning und Reinforcement Learning, um seine Fähigkeiten voll auszuschöpfen, wir berichteten.

Benchmarks von DeepSeek V3 und der Konkurrenz. Quelle: DeepSeek

Für die US-Anbieter schockierend war allerdings der Umstand, dass DeepSeek-V3 nach Angaben des chinesischen Anbieters andere Open-Source-Modelle übertrifft und eine Leistung erreicht, die mit führenden Closed-Source-Modellen vergleichbar sei. Und dies, obwohl DeepSeek-V3 nur 2,788 Millionen H800-GPU-Stunden für das gesamte Training benötigt habe. Und dass die DeepSeek-App im App-Store von Apple jetzt an der Konkurrenz vorbeizog, markierte einen weiteren herben Schlag für OpenAI, Google und Co.

Die Börsen reagierten darauf mit heftigen Kursverlusten für Nvida als Hardware-Lieferant für die nötige Rechenleistung von KI-Modellen. Der Börsenwert von Nvidia sank zwischenzeitlich um laut CNBC rekordverdächtige 600 Milliarden US-Dollar und hat sich inzwischen nur leicht erholt. Dass DeepSeek ebenfalls auf Nvidia-Hardware trainiert wurde, ist dabei ein ironisches Detail. Auch am KI-Boom beteiligte Unternehmen wie Oracle, Dell und Cisco verloren an der Börse. Die genannten sind unter anderem für die Ausstattung von Rechenzentren für KI beteiligt.

Mit Janus-Pro hat DeepSeek inzwischen auch einen unter MIT-Lizenz stehenden freien KI-Bildgenerator veröffentlicht, der ebenfalls mit den vorhandenen Modellen mithalten können oder besser sein soll. Benchmarks zeigen, dass Janus Pro Dall-E 3 von OpenAI in einigen Bereichen überflügle. Janus-Pro biete eine optimierte Trainingsstrategie, erweiterte Trainingsdaten und eine Skalierung auf eine größere Modellgröße. Mit diesen Verbesserungen erziele Janus-Pro signifikante Fortschritte sowohl beim multimodalen Verstehen als auch bei der Befolgung von Text-zu-Bild-Anweisungen und erhöht gleichzeitig die Stabilität der Text-zu-Bild-Generierung, berichtet DeepSeek.

SCHLAGWORTE
DeepSeek
Janus

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung