Besonders komplexe LLMs für Schwachstellensuche rentieren sich nicht

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

(C) unter Verwendung eines Motivs von Andrei Suslov / 123RF.com

Die Schwachstellensuche in Software mit generativen Sprachmodellen ist heute eine weit verbreitete und erfolgreiche Methode zur Überprüfung von Code vor dem Deployment. Der Aufwand eines komplexen Sprachmodells zahlt sich allerdings nicht immer aus.

Das ergab eine Studie des Berlin Institute for the Foundations of Learning and Data (BIFOLD), die jetzt auf der IEEE/ACM International Conference on Software Engineering (ICSE) vorgestellt wurde. Angesichts des hohen Aufwands für ein großes Sprachmodell, fragten sich die Forscher: Welchen Mehrwert bieten diese umfangreichen Modelle im Vergleich zu einer Analyse anhand einfacher sogenannter Code-Metriken, die bereits seit den 1970er Jahren verwendet werden? Code-Metriken sind statistische Kennzahlen von Code, im einfachsten Fall die Anzahl der Zeilen als Maß für das Volumen oder die Anzahl unabhängiger Pfade als Maß der Komplexität. Fortgeschrittenere Metriken versuchen auch zu beurteilen, wie verständlich der Code ist.

Weil man Korrelation von Kausalität unterscheiden muss, können Code-Metriken allerdings nur eine mögliche Verwundbarkeit aufdecken, sie sind niemals der Beweis dafür. Dennoch: Ein traditionelles System zur Schwachstellensuche, das auf 23 solcher Metriken basierte, fand 98 Prozent der Fehler, die die besten LLMs fanden. Und ein System, dass sich nur auf eine einzige Metrik stützte, fand immer noch über 90 Prozent der Fehler, die LLMs finden.

“Wir waren überrascht, dass der Unterschied zwischen den beiden Ansätzen unter realistischen Bedingungen so gering war”, fasste Konrad Rieck, Mitautor der Studie, die Ergebnisse seines Teams zusammen. “Unsere Ergebnisse zeigen, dass die jüngsten Fortschritte bei der KI-basierten Schwachstellenerkennung weniger auf die Fähigkeiten der LLMs selbst zurückzuführen sind als vielmehr auf die Tools und Umgebungen, in denen sie eingesetzt werden. Das wirft die Frage auf, ob die immense Größe der heutigen Modelle für diese Aufgabe überhaupt notwendig ist. Für die IT-Sicherheit ist das eine gute Nachricht: Wir könnten möglicherweise viele Softwarefehler mit weitaus weniger Ressourcen finden und beheben.”

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Nach oben