GPT programmiert komplexes Tool ohne eine Zeile menschengemachten Code

- 12. Februar 2026

OpenAI berichtet in einem Blog von einem Projekt, bei dem eine nicht näher bezeichnete komplexe Software für die interne Verwendung ausschließlich von Codex-Agenten programmiert wurde und keine einzige Zeile Code von Menschen beigesteuert wurde.

Die beteiligten OpenAI-Ingenieure kommunizierten mit den Agenten ausschließlich über Prompts, definierten Ziele und zergliederten sie in Teilziele, bewerteten die Ergebnisse und steuerten so die Entwicklung, ohne selbst Code beizutragen. So entstanden in rund fünf Monaten rund eine Million Zeilen Code.

Das ursprüngliche Gerüst – Repository-Struktur, CI-Konfiguration, Formatierungsregeln, Einrichtung des Paketmanagers und Application Frameworks – wurde von Codex CLI unter Verwendung von GPT-5 generiert, wobei eine kleine Auswahl vorhandener Vorlagen als Vorbild diente. Selbst die ursprüngliche Datei AGENTS.md, die den Agenten Anweisungen für die Arbeit im Repository gibt, wurde von Codex geschrieben. Desgleichen jeglicher Code aus den Bereichen Anwendungslogik, Infrastruktur, Tooling, Dokumentation und interne Entwickler-Utilities. Im Versuchszeitraum wurden rund 1 500 Pull-Requests gestellt und mit einem kleinen Team von nur drei Ingenieuren bearbeitet.

Ohne menschliche Programmierung entwickelte sich eine andere Art von Ingenieursarbeit, die sich auf Systeme, Gerüste und Hebelwirkung konzentrierte. Menschen interagierten mit dem System fast ausschließlich über Eingabeaufforderungen: Ein Ingenieur beschrieb eine Aufgabe, führte den Agenten aus und erlaubte ihm, einen Pull-Request zu öffnen. Um den zum Abschluss zu bringen, wiesen die Ingenieure Codex an, seine eigenen Änderungen lokal zu überprüfen, zusätzliche spezifische Prüfungen sowohl lokal als auch in der Cloud anzufordern, auf jedes Feedback von Menschen oder Agenten zu reagieren und in einer Schleife zu iterieren, bis alle Agentenprüfer zufrieden waren.

Mit zunehmendem Code-Durchsatz wurde die menschliche QA-Kapazität zum Engpass. Da die Zeit und Aufmerksamkeit der menschlichen Mitarbeiter begrenzt war, arbeiteten sie daran, den Agenten um weitere Funktionen zu erweitern, indem sie beispielsweise die Benutzeroberfläche der Anwendung, Protokolle und App-Metriken selbst für Codex direkt lesbar machten.

Das Kontextmanagement ist eine der größten Herausforderungen, um Agenten bei großen und komplexen Aufgaben effektiv einzusetzen. Eine der ersten Lektionen, die die Ingenieure lernten, war : Gib Codex eine Landkarte, keine 1.000-seitige Bedienungsanleitung. Zunächst hatte man den Ansatz „eine große AGENTS.md⁠” ausprobiert. Er ist gescheitert, weil der Agent in einer riesigen Anweisungsdatei entweder wichtige Einschränkungen übersieht oder mit der Optimierung für die falschen Einschränkungen beginnt. Zu viel Führung ist keine Führung. Außerdem verwandelt sich eine übergroße Anweisungsdatei in ein Grab für veraltete Regeln. Also gliederte man die AGENTS.md in zahlreiche Unterdateien auf.

Außerdem bemühte man sich, alle nötigen Informationen für die Agenten lesbar zu machen. Aus Sicht des Agenten existiert alles, worauf er während der Ausführung im Kontext nicht zugreifen kann, praktisch nicht. Wissen, das in Google Docs, Chat-Threads oder den Köpfen von Menschen gespeichert ist, ist für das System nicht zugänglich. Es kann nur lokal im Repository gespeicherte, versionierte Artefakte (z. B. Code, Markdown, Schemata, ausführbare Pläne) sehen.

Am Ende ziehen die Ingenieure das Fazit: “Unsere schwierigsten Herausforderungen konzentrieren sich derzeit auf die Gestaltung von Umgebungen, Feedbackschleifen und Kontrollsystemen, die den Agenten dabei helfen, unser Ziel zu erreichen: komplexe, zuverlässige Software in großem Maßstab zu entwickeln und zu warten.”

US-Regierung gibt auch das aktuellste ChatGPT nur für ausgewählte Kunden frei

Nach dem Exportverbot für Anthropics Spitzenmodelle Mythos 5 und Fable 5 weist die US-Regierung nun auch den Konkurrenten OpenAI an, sein neuestes Modell ChatGPT-5.6 vorerst nur handverlesenen Kunden zugänglich zu machen.

Suse und Openchip planen europäischen Technologie-Stack mit RISC-V

Der Linux-Anbieter Suse und das spanische Unternehmen Openchip & Software Technologies haben eine Absichtserklärung zur Entwicklung eines europäischen Technologie-Stacks unterzeichnet.

IBM-Forscher wollen Miniaturisierungstrend bei Chips noch zehn Jahre fortsetzen

Manche Wissenschaftler glaubten nicht mehr daran, dass sich der Trend zu immer weiterer Verkleinerung der Bauelemente auf Computerchips noch länger aufrechterhalten ließe. Nun aber stellten Forscher von IBM, das zwar selbst keine Chips mehr herstellt, aber weiter an der Technologie forscht,...

Red Hat macht Ansible fit für KI-Agenten

Red Hat baut die Red Hat Ansible Automation Platform zum zentralen „Trusted Execution Layer“ für KI-gestützte Prozesse aus. Damit können KI-Agenten kontrolliert und skalierbar in vorhandene Workflows und Infrastrukturen integriert werden.

Operation Endgame: Behörden zerschlagen Schadsoftware-Netzwerken**

m Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Im Rahmen der internationalen Operation Endgame haben Strafverfolgungs- und Cybersicherheitsbehörden mehrere Schadsoftware-Familien vom Netz genommen.

Cloud Tag: KI als Partner im Gruppenchat

Anthropic hat seine jüngste Entwicklung Claude Tag vorgestellt, die sich in einen Slack-Gruppenchat einbinden lässt und dann von Teammitgliedern via @Claude Aufgaben übertragen bekommt. Claude Tag soll sich dabei Kontext-Informationen aus den Channels besorgen, in denen es eingebunden ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Wir melden uns mit einer kurzen Folge direkt von den Chemnitzer Linux-Tagen 2026. Es war wieder ein aufregendes CLT-Wochenende – und wir hoffen, dass euch unsere Kurz-Interviews einen guten Eindruck von der Veranstaltung vermitteln.