OpenAI hat GPT-4o vorgestellt. Das “o” hinter der 4 steht dabei für “omni”. GPT-4o sei ein Schritt in Richtung einer natürlicheren Interaktion zwischen Mensch und Computer und akzeptiere als Eingabe eine beliebige Kombination von Text, Audio und Bild.
Der Output sei dann ebenfalls eine beliebige Kombination von Text-, Audio- und Bildausgaben heißt es in der Mitteilung. GPT-4o könne auf Audioeingaben in nur 232 Millisekunden reagieren, mit einem Durchschnitt von 320 Millisekunden, was der menschlichen Reaktionszeit in einem Gespräch entspricht. Die Leistung von GPT-4 Turbo entspreche der von GPT-4 bei englischen und kodierten Texten, mit einer deutlichen Verbesserung bei Texten in nicht-englischen Sprachen, wobei die API wesentlich schneller und 50 Prozent günstiger sei. GPT-4o sei im Vergleich zu bestehenden Modellen vor allem beim Verstehen von Bild und Ton besser.
Zur Erläuterung schreibt OpenAI, dass sich vor GPT-4o der Sprachmodus verwenden ließ, um mit ChatGPT mit einer durchschnittlichen Latenzzeit von 2,8 Sekunden (GPT-3.5) und 5,4 Sekunden (GPT-4) zu sprechen. Um dies zu erreichen, bestehe der Sprachmodus aus einer Pipeline von drei separaten Modellen: Ein einfaches Modell transkribiere Audio in Text, GPT-3.5 oder GPT-4 nehme Text auf und gebe ihn aus, und ein drittes einfaches Modell wandle diesen Text wieder in Audio um. Dieser Prozess bedeute, dass die Hauptquelle der Intelligenz, GPT-4, viele Informationen verliere. Es könne etwa nicht direkt den Tonfall, mehrere Sprecher oder Hintergrundgeräusche beobachten, und es könne kein Lachen, keinen Gesang und keine Emotionen ausgeben.
Mit GPT-4o habe man ein einziges neues Modell durchgängig für Text, Bild und Ton trainiert. Alle Eingaben und Ausgaben würden von demselben neuronalen Netz verarbeitet. Da GPT-4o das erste Modell sei, das all diese Modalitäten kombiniere, kratze man noch immer nur an der Oberfläche, um herauszufinden, was das Modell könne und wo seine Grenzen liegen würden, berichtet OpenAI.
Bei den Preisen hat OpenAI 20 Sprachen als repräsentativ für die Kompression des neuen Tokenizers in verschiedenen Sprachfamilien ausgewählt. Für Deutsch bedeutet es laut OpenAI 1,2x weniger Token (29 statt 34).
