Besonders komplexe LLMs für Schwachstellensuche rentieren sich nicht

- 08. Mai 2026

Die Schwachstellensuche in Software mit generativen Sprachmodellen ist heute eine weit verbreitete und erfolgreiche Methode zur Überprüfung von Code vor dem Deployment. Der Aufwand eines komplexen Sprachmodells zahlt sich allerdings nicht immer aus.

Das ergab eine Studie des Berlin Institute for the Foundations of Learning and Data (BIFOLD), die jetzt auf der IEEE/ACM International Conference on Software Engineering (ICSE) vorgestellt wurde. Angesichts des hohen Aufwands für ein großes Sprachmodell, fragten sich die Forscher: Welchen Mehrwert bieten diese umfangreichen Modelle im Vergleich zu einer Analyse anhand einfacher sogenannter Code-Metriken, die bereits seit den 1970er Jahren verwendet werden? Code-Metriken sind statistische Kennzahlen von Code, im einfachsten Fall die Anzahl der Zeilen als Maß für das Volumen oder die Anzahl unabhängiger Pfade als Maß der Komplexität. Fortgeschrittenere Metriken versuchen auch zu beurteilen, wie verständlich der Code ist.

Weil man Korrelation von Kausalität unterscheiden muss, können Code-Metriken allerdings nur eine mögliche Verwundbarkeit aufdecken, sie sind niemals der Beweis dafür. Dennoch: Ein traditionelles System zur Schwachstellensuche, das auf 23 solcher Metriken basierte, fand 98 Prozent der Fehler, die die besten LLMs fanden. Und ein System, dass sich nur auf eine einzige Metrik stützte, fand immer noch über 90 Prozent der Fehler, die LLMs finden.

“Wir waren überrascht, dass der Unterschied zwischen den beiden Ansätzen unter realistischen Bedingungen so gering war”, fasste Konrad Rieck, Mitautor der Studie, die Ergebnisse seines Teams zusammen. “Unsere Ergebnisse zeigen, dass die jüngsten Fortschritte bei der KI-basierten Schwachstellenerkennung weniger auf die Fähigkeiten der LLMs selbst zurückzuführen sind als vielmehr auf die Tools und Umgebungen, in denen sie eingesetzt werden. Das wirft die Frage auf, ob die immense Größe der heutigen Modelle für diese Aufgabe überhaupt notwendig ist. Für die IT-Sicherheit ist das eine gute Nachricht: Wir könnten möglicherweise viele Softwarefehler mit weitaus weniger Ressourcen finden und beheben.”

Project Myna: Speech-to-Text kommt auf Ubuntu Desktop

Der Gesangvogel Mynah imitiert menschliche Sprache.

Das für Ubuntu 26.10 geplante Diktiertool ist ein wichtiger Schritt für die Barrierefreiheit und nebenbei auch ein nützliches Werkzeug zur Produktivität. Dabei legt Ubuntu besonderen Wert auf Sicherheit und Datenschutz.

Sicherheitslücken: Nginx braucht Updates

Der Webserver Nginx weist zwei kritische Sicherheitslücken auf. Das Unternehmen F5 schließt diese mit Updates.

Abgeordnete fordern Aufklärung über Verbot der Anthropic-Modelle

Eine parteiübergreifende Gruppe von Abgeordneten des Repräsentantenhauses fordert von der Trump-Regierung eine Erklärung dafür, warum sie weitreichende Beschränkungen für die neuesten KI-Modelle von Anthropic verhängt hat – und ob konkurrierende Technologieunternehmen mit einer ähnlichen...

Manifest fordert Umkehr in KI-Nutzung

Ein jetzt erschienenes "Tokenminning Manifesto" wendet sich direkt gegen die auch als Tokenmaxxing bekannte Praxis, derzufolge diejenigen als beste Mitarbeiter gelten und belohnt werden, die am meisten KI nutzen.

IDC: Servermarkt wächst stark

Laut dem „Worldwide Quarterly Server Tracker“ des US-Marktforschers IDC erreichte der weltweite Servermarkt im ersten Quartal 2026 einen Herstellerumsatz von 122,6 Milliarden US-Dollar.

IT-Planungsrat legt Grundlagen für Deutschland-Stack fest

Der IT-Planungsrat berichtet über zentrale Beschlüsse seiner 50. Sitzung zur Weiterentwicklung des Deutschland-Stacks. Quelle: FITKO

Der IT-Planungsrat berichtet über zentrale Beschlüsse seiner 50. Sitzung zur Weiterentwicklung des Deutschland-Stacks. Bund und Länder haben sich dabei auf wesentliche Elemente des geplanten digitalen Ökosystems für die öffentliche Verwaltung verständigt.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung