D4RT, ein neues KI-Modell von Google, revolutioniert die Art und Weise, wie Computer Bewegung in der Zeit verstehen.
Wenn Menschen die Welt betrachten, erfassen sie die drei Raumdimensionen im Moment und zusätzlich, was unmittelbar zuvor passierte und was voraussichtlich im nächsten Moment passieren wird. Unser mentales Modell der Welt bewahrt eine beständige Darstellung der Realität, und wir nutzen dieses Modell, um intuitive Schlussfolgerungen über den kausalen Zusammenhang zwischen Vergangenheit, Gegenwart und Zukunft zu ziehen.
Um Maschinen zu helfen, die Welt in einer ähnlichen Weise zu erfassen, könnte man sie mit Kameras ausstatten. Das löst aber nur das Input-Problem. Um diese Eingabe zu verstehen, müssen Computer ein komplexes inverses Problem lösen: Sie müssen ein Video – also eine Abfolge von 2D-Projektionen – nehmen und daraus die reichhaltige, volumetrische 3D-Welt in Bewegung wiederherstellen oder verstehen.
Das soll das neue Modell D4RT (Dynamic 4D Reconstruction and Tracking) nun schaffen. Im Fall des 2D-Videos muss der Rechner dabei jedes Pixel jedes Objekts bei seiner Bewegung durch die drei Raumdimensionen und die vierte Dimension, die Zeit, verfolgen. Zusätzlich muss er diese Bewegung von der Bewegung der Kamera trennen und eine kohärente Darstellung beibehalten, selbst wenn sich Objekte gegenseitig verdecken oder den Bildausschnitt ganz verlassen. Bislang erforderte das rechenintensive Prozesse oder eine Vielzahl spezialisierter KI-Modelle – einige für die Tiefe, andere für die Bewegung oder Kamerawinkel –, was zu langsamen und fragmentierten KI-Rekonstruktionen führt.
Die vereinfachte Architektur und der neuartige Abfragemechanismus von D4RT machen es zu einem Vorreiter im Bereich der 4D-Rekonstruktion und gleichzeitig bis zu 300-mal effizienter als bisherige Methoden – schnell genug für Echtzeitanwendungen in der Robotik, Augmented Reality und mehr.
D4RT arbeitet als einheitliche Encoder-Decoder-Transformer-Architektur. Der Encoder verarbeitet zunächst das Eingabevideo zu einer komprimierten Darstellung der Geometrie und Bewegung der Szene. Anschließend berechnet das Modell nur, was es braucht, um folgende Frage zu beantworten: “Wo befindet sich ein bestimmter Pixel aus dem Video zu einem beliebigen Zeitpunkt im 3D-Raum, aus der Perspektive einer ausgewählten Kamera betrachtet?” Weil diese Fragen voneinander unabhängig sind, können sie parallel berechnet werden, was D4RT sehr schnell und skalierbar macht.
Entscheidend ist, dass die Präzision von D4RT nicht auf Kosten der Effizienz geht. In Tests war es 18- bis 300-mal schneller als der bisherige Stand der Technik. So verarbeitete D4RT beispielsweise ein einminütiges Video in etwa fünf Sekunden auf einem einzigen TPU-Chip. Mit den bisherigen Methoden der neuesten Generation dauerte dieselbe Aufgabe bis zu zehn Minuten – eine Verbesserung um das 120-Fache.






