OpenAI berichtet in einem Blog von einem Projekt, bei dem eine nicht näher bezeichnete komplexe Software für die interne Verwendung ausschließlich von Codex-Agenten programmiert wurde und keine einzige Zeile Code von Menschen beigesteuert wurde.
Die beteiligten OpenAI-Ingenieure kommunizierten mit den Agenten ausschließlich über Prompts, definierten Ziele und zergliederten sie in Teilziele, bewerteten die Ergebnisse und steuerten so die Entwicklung, ohne selbst Code beizutragen. So entstanden in rund fünf Monaten rund eine Million Zeilen Code.
Das ursprüngliche Gerüst – Repository-Struktur, CI-Konfiguration, Formatierungsregeln, Einrichtung des Paketmanagers und Application Frameworks – wurde von Codex CLI unter Verwendung von GPT-5 generiert, wobei eine kleine Auswahl vorhandener Vorlagen als Vorbild diente. Selbst die ursprüngliche Datei AGENTS.md, die den Agenten Anweisungen für die Arbeit im Repository gibt, wurde von Codex geschrieben. Desgleichen jeglicher Code aus den Bereichen Anwendungslogik, Infrastruktur, Tooling, Dokumentation und interne Entwickler-Utilities. Im Versuchszeitraum wurden rund 1 500 Pull-Requests gestellt und mit einem kleinen Team von nur drei Ingenieuren bearbeitet.
Ohne menschliche Programmierung entwickelte sich eine andere Art von Ingenieursarbeit, die sich auf Systeme, Gerüste und Hebelwirkung konzentrierte. Menschen interagierten mit dem System fast ausschließlich über Eingabeaufforderungen: Ein Ingenieur beschrieb eine Aufgabe, führte den Agenten aus und erlaubte ihm, einen Pull-Request zu öffnen. Um den zum Abschluss zu bringen, wiesen die Ingenieure Codex an, seine eigenen Änderungen lokal zu überprüfen, zusätzliche spezifische Prüfungen sowohl lokal als auch in der Cloud anzufordern, auf jedes Feedback von Menschen oder Agenten zu reagieren und in einer Schleife zu iterieren, bis alle Agentenprüfer zufrieden waren.
Mit zunehmendem Code-Durchsatz wurde die menschliche QA-Kapazität zum Engpass. Da die Zeit und Aufmerksamkeit der menschlichen Mitarbeiter begrenzt war, arbeiteten sie daran, den Agenten um weitere Funktionen zu erweitern, indem sie beispielsweise die Benutzeroberfläche der Anwendung, Protokolle und App-Metriken selbst für Codex direkt lesbar machten.
Das Kontextmanagement ist eine der größten Herausforderungen, um Agenten bei großen und komplexen Aufgaben effektiv einzusetzen. Eine der ersten Lektionen, die die Ingenieure lernten, war : Gib Codex eine Landkarte, keine 1.000-seitige Bedienungsanleitung. Zunächst hatte man den Ansatz „eine große AGENTS.md” ausprobiert. Er ist gescheitert, weil der Agent in einer riesigen Anweisungsdatei entweder wichtige Einschränkungen übersieht oder mit der Optimierung für die falschen Einschränkungen beginnt. Zu viel Führung ist keine Führung. Außerdem verwandelt sich eine übergroße Anweisungsdatei in ein Grab für veraltete Regeln. Also gliederte man die AGENTS.md in zahlreiche Unterdateien auf.
Außerdem bemühte man sich, alle nötigen Informationen für die Agenten lesbar zu machen. Aus Sicht des Agenten existiert alles, worauf er während der Ausführung im Kontext nicht zugreifen kann, praktisch nicht. Wissen, das in Google Docs, Chat-Threads oder den Köpfen von Menschen gespeichert ist, ist für das System nicht zugänglich. Es kann nur lokal im Repository gespeicherte, versionierte Artefakte (z. B. Code, Markdown, Schemata, ausführbare Pläne) sehen.
Am Ende ziehen die Ingenieure das Fazit: “Unsere schwierigsten Herausforderungen konzentrieren sich derzeit auf die Gestaltung von Umgebungen, Feedbackschleifen und Kontrollsystemen, die den Agenten dabei helfen, unser Ziel zu erreichen: komplexe, zuverlässige Software in großem Maßstab zu entwickeln und zu warten.”




