Erfahrene Programmierer sind entgegen allen Vermutungen weniger produktiv, wenn sie sich von KI unterstützen lassen.
Das ergab eine randomisierte kontrollierte Studie (RCT) der gemeinnützigen Forschungsorganisation METR zwischen Februar und Juni 2025. Untersucht wurde, wie die Nutzung von KI-Tools, hier vor allem Cursor Pro und Claude 3.5/3.7 Sonnett, die Produktivität von erfahrenen Open-Source-Entwicklern beeinflussen.
Dazu sollten 16 Entwickler mit großer Projekt-, aber nur mäßiger KI-Erfahrung insgesamt 246 Aufgaben in Projekten bearbeiten, mit denen sie im Durchschnitt 5 Jahre Erfahrung hatten. Jede Aufgabe wurde nach dem Zufallsprinzip zugewiesen.
Bevor sie mit den Aufgaben begannen, prognostizierten die Entwickler, dass die KI-Unterstützung ihre Bearbeitungszeit um 24 Prozent reduzieren würde. Nach Abschluss der Studie waren die Entwickler immer noch der Meinung, dass sich die Fertigstellungszeit durch die Nutzung von KI um 20 Prozent verkürzt habe. Überraschenderweise stellen die Forscher aber fest, dass die Verwendung von KI die Fertigstellungszeit tatsächlich um 19 Prozent erhöht hatte. Die KI-Werkzeuge verlangsamten also die Entwickler.
Dabei wurden die Entwickler um so langsamer, je besser sie selbst mit der Materie vertraut waren. Sie akzeptierten weniger als 44 Prozent des von der KI vorgeschlagenen Codes und mussten 9 Prozent ihrer Zeit dafür aufwenden, den Output der KI zu überprüfen und zu verbessern – während ihnen gleichzeitig die KI keine große Hilfe war. Sie stellten außerdem fest, dass die KI wichtiges implizites Wissen oder den Kontext nicht nutzt und gleichzeitig in großen und komplexen Umgebungen schlecht performt.
Laut METR zeigt die Studie auch, dass neue Evaluierungsmethoden notwendig sind, um die tatsächliche Leistungsfähigkeit generativer KI zu ermitteln. Benchmarks wie SWE-Bench oder RE-Bench testen meist nur in sich geschlossene Aufgaben, bei denen kein vorheriger Kontext berücksichtigt werden muss.





