Benchmark für KI-Einsatz im Bereich Cybersecurity

- 28. März 2024

Experten des Security-Anbieters Sophos haben ein Benchmark-System zur Einschätzung des Nutzens von Large-Language-Modelle (LLMs) für die Cybersicherheit erstellt. GPT-4 schneidet dort am Besten ab.

Die Technologie des maschinellen Lernens mit großen Sprachmodellen (LLM) verbreitet sich rasant, wobei mittlerweile mehrere konkurrierende Open-Source- und proprietäre Architekturen verfügbar sind, berichtet Sophos.

Aber wie lässt sich ermitteln, welches Modell für ein bestimmtes Problem des maschinellen Lernens am besten geeignet ist? SophosAI habe dazu eine Reihe von Möglichkeiten untersucht, LLMs bei Aufgaben im Zusammenhang mit der Cybersicherheit einzusetzen.

Als Methode zur Auswahl eines Modells hat Sophos Benchmark-Aufgaben erstellt, mit denen sich die Fähigkeiten des Modells einfach und schnell beurteilen lassen sollen.

Da bei durch Verallgemeinerung möglicherweise keine Unterschiede im sicherheitsspezifischen Fachwissen zwischen Modellen besteht, die sich aus ihren Trainingsdaten ergeben, hat das SophosAI-Team drei neue Benchmarks erstellt:

Das LLM fungiert als Assistent bei der Untersuchung von Vorfällen, indem es Fragen zur Telemetrie in natürlicher Sprache in SQL-Anweisungen umwandelt
Das LLM generiert Vorfallzusammenfassungen aus Daten eines Security Operations Centers (SOC).
Das LLM bewertet den Schweregrad des Vorfalls.

Insgesamt hat das Sophos-AI-Team 14 Modelle auf Basis von Kriterien wie Modellgröße, Beliebtheit, Kontextgröße und Aktualität ausgewählt und anhand der Benchmarks getestet – darunter unterschiedlich große Versionen der Modelle LlaMa2 und CodeLlaMa von Meta, Amazon-Titan-Large und natürlich auch der Branchenprimus GPT-4. Das OpenAI-Tool zeigte bei den ersten beiden Aufgaben eindeutig die beste Leistung. Interessant: beim letzten Benchmark schnitt keines der Modelle bei der Kategorisierung der Schwere des Vorfalls genau genug ab, um besser zu sein als die Zufallsauswahl. Ein Blogbeitrag hat alle Details zu den Methoden und Resultaten der Benchmarks.

SCHLAGWORTE
GPT-4
KI
LLama
LLM

Weltklassemodell aus China vorgestellt

Das chinesische Start-up Moonshot hat mit Kimi K3 ein neues Modell mit 2,8 Billionen Parametern vorgestellt, das auch in unabhängigen Tests mit den besten Modellen von OpenAI oder Anthropic mithalten kann. Damit schließt das Modell die Lücke, die bisher noch zwischen den amerikanischen...

Forgejo 16.0 ist da

Die neue Version 16.0 des leichtgewichtigen Tools für Code-Hosting und -Kollaboration ist am 16. Juli 2026 erschienen.

Klarstellung: Linus Torvalds erlaubt KI bei Kernel-Entwicklung

Der Einsatz von Künstlicher Intelligenz ist bei der Kernel-Entwicklung explizit erlaubt – das Linus Torvalds im Rahmen einer Diskussion noch einmal klargestellt. Für KI-Kritiker findet er darin zudem drastische Worte.

frame: vollständig in Assembler geschriebener X-Server

Der Norweger Geir Isene hat einen X-Server komplett in Assembler geschrieben. Der soll nicht nur deutlich ressourcenschonender arbeiten als das Pendant von X.org, er besteht derzeit auch nur aus rund 20.000 Zeilen Code. Es gibt aber auch ein paar Haken.

OpenShift 4.22 bringt Updates für Sicherheit, Virtualisierung und KI

Red Hat hat die Version 4.22 seiner Plattform OpenShift veröffentlicht. Das Update bringt Neuerungen für die Sicherheit, die Verwaltung virtueller Maschinen, die Automatisierung von Cloud-Infrastrukturen und den Betrieb von Anwendungen mit Künstlicher Intelligenz.

FrOSCon 2026: Programm steht fest

Die diesjährige FrOSCon findet am 15. und 16. August statt.

Die Free and Open Source Software Conference findet am 15. und 16. August 2026 an der Hochschule Bonn-Rhein-Sieg in Sankt Augustin statt. Der Eintritt ist frei.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung