Je mehr KI-Agenten im Internet navigieren, desto stärker sind sie mit einer neuartigen Herausforderung konfrontiert: Gefahren in der Informationsumgebung.
Kritische Sicherheitslücken, die als “AI Agent Traps” bezeichnet werden, sind Inhaltselemente, die in eine Webseite oder eine andere digitale Ressource eingebettet sind und speziell darauf ausgelegt sind, interagierende KI-Agenten in die Irre zu führen, auszunutzen, zu manipulieren und zu täuschen. Sie existieren unabhängig von speziellen Agenten oder Modellen. Das konstatieren Forscher von Google Deep Mind in einer aktuellen Studie.
Die Studienautoren unterscheiden sechs Arten von Fallen: Content Injection Traps, die die Lücke zwischen menschlicher Wahrnehmung, maschineller Analyse und dynamischer Darstellung ausnutzen; Semantic Manipulation Traps, die die Schlussfolgerungs- und internen Verifizierungsprozesse eines Agenten verfälschen; Cognitive State Traps, die auf das Langzeitgedächtnis, die auf Wissensdatenbanken und die erlernten Verhaltensrichtlinien eines Agenten abzielen; Behavioural Control Traps, die die Fähigkeiten eines Agenten übernehmen, um unbefugte Handlungen zu erzwingen; Systemic Traps, die die Interaktion des Agenten nutzen, um systemische Ausfälle zu verursachen, und Human-in-the-Loop Traps, die kognitive Verzerrungen ausnutzen, um einen
menschlichen Aufseher zu beeinflussen.
In der Praxis können sich einige dieser Fallen überschneiden, da bestimmte Angriffe mehrere Mechanismen nutzen können. Nicht alle Kategorien wurden gleichermaßen erforscht und weiterentwickelt. Während beispielsweise bestimmte Fallen im Zusammenhang mit Content Injection und Verhaltenssteuerung besser verstandene Bedrohungen darstellen, stellen systemische und “Human-in-the-Loop”-Fallen eine eher theoretische Angriffsfläche dar, von der erwartet wird, dass sie mit zunehmender Größe der Agenten-Ökonomie an Bedeutung gewinnen wird.
Funktional gesehen schleusen diese Fallen bösartigen Kontext ein, den der Agent verarbeitet, und zwingen ihn so zu unbefugten Handlungen wie dem Abfluss von Daten oder illegalen Finanztransaktionen. Indem die Falle nicht das Modell, sondern die Umgebung verändert, nutzt sie die eigenen Fähigkeiten des Agenten gegen ihn selbst.
Beispielsweise können Content Injection Traps schädliche Anweisungen mit CSS/HTML für Menschen unsichtbar machen, als Steganographic Payload in den Binaries eines Medienfiles verstecken oder durch syntaktische Maskierung Befehle innerhalb von Formatierungssprachen verbergen. Andere Fallen zielen eher auf das Schlussfolgern des Agenten ab und verwenden emotional aufgeladene oder autoritäre Sprache, um die Synthese des Agenten statistisch zu beeinflussen. Oder sie verpacken böswillige Anweisungen in einen pädagogischen, hypothetischen oder Red-Team-Kontext, um Sicherheitsfilter und Überwachungsmechanismen zu umgehen.
Die weitverbreitete Einführung agentischer KI-Lösungen zeige bereits eine erhebliche Kluft zwischen diesen sich rasch weiterentwickelnden Fähigkeiten und den derzeitigen Sicherheitspraktiken, so die Forscher. Um den Schäden durch solche Fallen vorzubeugen, sehen sie Herausforderungen auf den Gebieten Erkennung, Zuordnung und Anpassung. Die Erkennung ist schwierig, weil die Fallen oft so konzipiert sind, dass sie subtil wirken – kaum zu unterscheiden von harmloser, überzeugender Sprache – mit Folgewirkungen, die sich erst lange nach der ursprünglichen Interaktion zeigen können. Diese Subtilität erschwert auch die Rückverfolgung der Ausgabe eines kompromittierten Agenten auf eine spezifische Falle. Zudem entsteht ein Wettrüsten, in dem Angreifer sich immer wieder den Strategien der Verteidiger anpassen, um Sicherheitsmaßnahmen zu umgehen.





