Experten des Security-Anbieters Sophos haben ein Benchmark-System zur Einschätzung des Nutzens von Large-Language-Modelle (LLMs) für die Cybersicherheit erstellt. GPT-4 schneidet dort am Besten ab.
Die Technologie des maschinellen Lernens mit großen Sprachmodellen (LLM) verbreitet sich rasant, wobei mittlerweile mehrere konkurrierende Open-Source- und proprietäre Architekturen verfügbar sind, berichtet Sophos.
Aber wie lässt sich ermitteln, welches Modell für ein bestimmtes Problem des maschinellen Lernens am besten geeignet ist? SophosAI habe dazu eine Reihe von Möglichkeiten untersucht, LLMs bei Aufgaben im Zusammenhang mit der Cybersicherheit einzusetzen.
Als Methode zur Auswahl eines Modells hat Sophos Benchmark-Aufgaben erstellt, mit denen sich die Fähigkeiten des Modells einfach und schnell beurteilen lassen sollen.
Da bei durch Verallgemeinerung möglicherweise keine Unterschiede im sicherheitsspezifischen Fachwissen zwischen Modellen besteht, die sich aus ihren Trainingsdaten ergeben, hat das SophosAI-Team drei neue Benchmarks erstellt:
- Das LLM fungiert als Assistent bei der Untersuchung von Vorfällen, indem es Fragen zur Telemetrie in natürlicher Sprache in SQL-Anweisungen umwandelt
- Das LLM generiert Vorfallzusammenfassungen aus Daten eines Security Operations Centers (SOC).
- Das LLM bewertet den Schweregrad des Vorfalls.
Insgesamt hat das Sophos-AI-Team 14 Modelle auf Basis von Kriterien wie Modellgröße, Beliebtheit, Kontextgröße und Aktualität ausgewählt und anhand der Benchmarks getestet – darunter unterschiedlich große Versionen der Modelle LlaMa2 und CodeLlaMa von Meta, Amazon-Titan-Large und natürlich auch der Branchenprimus GPT-4. Das OpenAI-Tool zeigte bei den ersten beiden Aufgaben eindeutig die beste Leistung. Interessant: beim letzten Benchmark schnitt keines der Modelle bei der Kategorisierung der Schwere des Vorfalls genau genug ab, um besser zu sein als die Zufallsauswahl. Ein Blogbeitrag hat alle Details zu den Methoden und Resultaten der Benchmarks.


