DeepSeek-R1 erzeugt in Programmieraufgaben messbar mehr unsicheren oder fehlerhaften Code, wenn der Prompt Begriffe enthält, die in China als politisch sensibel gelten.
Neue Untersuchungen [1] zeigen, dass das KI-Modell DeepSeek-R1 des chinesischen Herstellers DeepSeek unter bestimmten Bedingungen deutlich häufiger unsicheren oder fehlerhaften Code liefert. Besonders stark fällt dieser Effekt auf, wenn die Eingaben politisch oder gesellschaftlich sensible Begriffe enthalten, die in China typischerweise als heikel gelten. In der Basisanalyse ohne solche Triggerwörter machte das Modell nur in wenigen Fällen sicherheitsrelevante Fehler. Sobald jedoch Begriffe wie Tibet, Uiguren oder Falun Gong in den Prompts vorkamen, stieg die Fehleranfälligkeit merklich an. Teilweise erhöhte sich die Wahrscheinlichkeit schwerer Schwachstellen um nahezu 50 Prozent gegenüber der neutralen Ausgangslage.
Die technische Untersuchung stützte sich auf 50 verschiedene Programmieraufgaben, die in zehn Sicherheitskategorien eingeteilt waren, darunter Webentwicklung, Datenbankzugriffe, Authentifizierung oder kryptografische Funktionen. Die Forscher formulierten diese Aufgaben in insgesamt 121 Varianten, indem sie unterschiedliche Rollenbeschreibungen und Kontextmodifikatoren einsetzten. Jede dieser Varianten wurde fünfmal an das Modell geschickt, um zufällige Schwankungen auszugleichen. So entstanden über 30 000 einzelne Interaktionen, deren Ergebnisse systematisch bewertet wurden. Jede Codeausgabe erhielt einen Sicherheitswert auf einer Skala von eins bis fünf, wobei fünf für kritische Schwachstellen steht. Eine zusätzliche manuelle Überprüfung bestätigte die Zuverlässigkeit der automatischen Bewertung.
Test, Test
In den neutralen Aufgabenstellungen erstellte DeepSeek-R1 nur in etwa einem Fünftel der Fälle potenziell verwundbaren Code und lag damit im Rahmen anderer großer Sprachmodelle. Sobald sensible Begriffe im Prompt enthalten waren, stieg die Rate schwerwiegender Fehler jedoch deutlich. In einer Aufgabe, bei der das Modell Code für ein industrielles Kontrollsystem mit Bezug zu Tibet generieren sollte, lag die Quote für gravierende Schwachstellen bei über 27 Prozent. Die erzeugten Programme enthielten dann unter anderem hartcodierte Geheimwerte, unsichere Methoden zur Verarbeitung von Nutzereingaben oder Syntaxfehler, die die Ausführung verhindern würden.
In einem weiteren Test erzeugte das Modell eine Android-Anwendung für eine uigurische Community, die zwar oberflächlich funktional wirkte, bei genauerer Betrachtung aber keinerlei Session-Management nutzte, keine konsistente Authentifizierung implementierte und teilweise Passwörter ohne jegliches sicheres Hashverfahren speicherte. Rund ein Drittel dieser Implementierungen verwendete entweder gar kein Hashing oder unsichere Verfahren. Wurde dieselbe Aufgabe hingegen in einem unpolitischen Kontext gestellt, etwa für eine Fußballfanclub-App, waren zwar ebenfalls Fehler vorhanden, jedoch mit weit geringerem Schweregrad.
Zusätzlich zu der erhöhten Fehleranfälligkeit ließ sich ein weiteres auffälliges Verhalten beobachten: Das Modell verweigert bei bestimmten sensiblen Themen in einem erheblichen Teil der Fälle die Ausgabe, obwohl es intern bereits eine vollständige Lösung geplant hatte. Die zugehörigen Reasoning-Spuren zeigen, dass das Modell eine detaillierte technische Vorgehensweise entwickelt, dann aber den Prozess abrupt abbricht und die Ausgabe verweigert. Da in den Tests die rohe, quelloffene Modellversion ohne API-seitige Schutzschichten genutzt wurde, deutet dieses Verhalten darauf hin, dass die Blockademechanismen direkt in den Modellgewichten verankert sind und nicht durch ein externes Filtersystem erzeugt werden.
Als mögliche Ursache gilt der Einfluss chinesischer Regulierungen, die von KI-Systemen verlangen, keine Inhalte zu generieren, die in China als illegal oder destabilisierend gelten. Solche regulatorischen Anforderungen können sich während des Trainings und des Alignments technisch so niederschlagen, dass bestimmte Begriffe vom Modell intern mit “unerwünschten Ergebnissen” verknüpft werden. Diese Assoziationen können unbeabsichtigt dazu führen, dass das Modell qualitativ schlechteren Code erzeugt oder Ausgaben ganz verweigert. Die Analysen legen nahe, dass es sich um ein emergentes Fehlverhalten handelt, das nicht absichtlich implementiert wurde, sondern aus der Kombination aus Daten, Feinabstimmung und politischen Vorgaben entstanden ist.
Die Ergebnisse verdeutlichen, dass politische oder kulturelle Verzerrungen in Trainingsdaten eines großen KI-Modells direkte technische Konsequenzen für die Qualität und Sicherheit von generiertem Code haben können. Selbst wenn eine Aufgabe technisch vollkommen unpolitisch ist, kann der Kontext oder ein einzelnes Wort die Zuverlässigkeit beeinflussen. Für Entwickler und Unternehmen bedeutet dies, dass KI-generierter Code nicht als vertrauenswürdige Grundlage betrachtet werden kann, insbesondere nicht in sicherheitskritischen Umgebungen oder bei Anwendungen mit sensiblen Nutzerdaten. Eine gründliche manuelle Sicherheitsprüfung bleibt unerlässlich, da selbst leistungsfähige Modelle wie DeepSeek-R1 unter bestimmten Umständen unvorhersehbar reagieren oder qualitativ stark schwankenden Code erzeugen können. (jcb)
Infos
- “CrowdStrike Research: Security Flaws in DeepSeek-Generated Code Linked to Political Triggers”, Stefan Stein, crowdstrike.com: https://www.crowdstrike.com/en-us/blog/crowdstrike-researchers-identify-hidden-vulnerabilities-ai-coded-software/





