Längere Bedenkzeit macht KI sicherer

- 27. Januar 2025

Typischerweise sind alle Bestrebungen darauf gerichtet, die Bedenkzeit von Computern zu reduzieren. Nun aber haben Forscher von OpenAI herausgefunden, dass längeres nachdenken KI sicherer machen kann.

Das Unternehmen verwendete seine eigenen Modelle o1-preview und o1-mini, um diese Theorie zu testen, und führte eine Reihe statischer und adaptiver Angriffsmethoden durch – Bildmanipulationen, das absichtliche Falschantworten auf mathematische Probleme und das Überladen von Modellen mit Informationen (Many-Shot-Jailbreaking). Anschließend maßen sie die Wahrscheinlichkeit eines erfolgreichen Angriffs anhand der Rechenleistung, die das Modell bei der Inferenz verwendete. Mit längerer Rechenzeit fanden die Modelle Inkonsistenzen und lieferten akkuratere Fakten.

“Wir sahen, dass in vielen Fällen die Wahrscheinlichkeit eines erfolgreichen Angriffs sank, of bis nahe Null, wenn die Bedenkzeit des Modells stieg”, schreiben die Forscher in einem Blog-Post “Wir behaupten nicht, dass diese speziellen Modelle unangreifbar sind – wir wissen, sie sind es –, sondern dass eine Skalierung der Berechnung zur Inferenzzeit eine verbesserte Robustheit für eine Vielzahl von Einstellungen und Angriffen bietet.” Die OpenAI-Forscher weisen jedoch darauf hin, dass die Robustheit gegenüber Angriffen nach wie vor ein hartnäckiges Problem ist und die Fortschritte bei der Lösung dieses Problems noch begrenzt sind. Allerdings wird das Problem in dem Maß drängender, in dem KI alltägliche Aufgaben im realen Leben übernehmen soll.

SCHLAGWORTE
KI

Linux Foundation gründet Initiative zur Schwachstellensuche in Open-Source-Software

Die Linux Foundation hat zusammen mit Industriepartnern wie Amazon Web Services, Anthropic, Cisco, Ericsson, Google, IBM, JPMorganChase, Microsoft, GitHub, NVIDIA, OpenAI, Red Hat oder der Rust Foundation die Initiative Akrites gegründet, die Open-Source-Software vor der Bedrohung durch...

Bundestag beschließt Recht auf Reparatur

Das Recht auf Reparatur soll für weniger Elektroschrott sorgen. Ein neuer Paragraf im BGB setzt es in deutsches Recht um.

Preview für GPT-5.6-Modelle startet für handverlesene Kunden

OpenAI startet eine Preview-Phase für seine Modelle ChatGPT-5.6 Sol, Terra und Luna auf Weisung der US-Regierung für speziell ausgesuchte, besonders vertrauenswürdige Kunden.

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung