Längere Bedenkzeit macht KI sicherer

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Typischerweise sind alle Bestrebungen darauf gerichtet, die Bedenkzeit von Computern zu reduzieren. Nun aber haben Forscher von OpenAI herausgefunden, dass längeres nachdenken KI sicherer machen kann.

Das Unternehmen verwendete seine eigenen Modelle o1-preview und o1-mini, um diese Theorie zu testen, und führte eine Reihe statischer und adaptiver Angriffsmethoden durch – Bildmanipulationen, das absichtliche Falschantworten auf mathematische Probleme und das Überladen von Modellen mit Informationen (Many-Shot-Jailbreaking). Anschließend maßen sie die Wahrscheinlichkeit eines erfolgreichen Angriffs anhand der Rechenleistung, die das Modell bei der Inferenz verwendete. Mit längerer Rechenzeit fanden die Modelle Inkonsistenzen und lieferten akkuratere Fakten.

“Wir sahen, dass in vielen Fällen die Wahrscheinlichkeit eines erfolgreichen Angriffs sank, of bis nahe Null, wenn die Bedenkzeit des Modells stieg”, schreiben die Forscher in einem Blog-Post  “Wir behaupten nicht, dass diese speziellen Modelle unangreifbar sind – wir wissen, sie sind es –, sondern dass eine Skalierung der Berechnung zur Inferenzzeit eine verbesserte Robustheit für eine Vielzahl von Einstellungen und Angriffen bietet.” Die OpenAI-Forscher weisen jedoch darauf hin, dass die Robustheit gegenüber Angriffen nach wie vor ein hartnäckiges Problem ist und die Fortschritte bei der Lösung dieses Problems noch begrenzt sind. Allerdings wird das Problem in dem Maß drängender, in dem KI alltägliche Aufgaben im realen Leben übernehmen soll.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben