Forscher des MIT und von NVIDIA haben eine Methode entwickelt, mit der Bilder in hoher Qualität erzeugt werden können, wobei aber weniger Zeit und Rechenleistung als bei derzeitigen Bildgeneratoren verbraucht wird.
Dafür kombiniert das HART getaufte Verfahren (Hybrid Autoregressive Transformer) zwei bisher häufig genutzte Ansätze: Autoregressive Modelle, die schnelle Ergebnisse liefern, aber keine hohe Qualität erreichen, und Diffusion-Modelle, die sehr hohe Qualitätsansprüche erfüllen, dafür aber langsam und rechenintensiv sind. Bei HART wird nun zuerst mithilfe eines autoregressiven Modells ein schneller Entwurf generiert, den dann ein Diffusion-Modell verfeinert.
Konkret verwendeten die Forscher eine Kombination aus einem autoregressiven Transformationsmodell mit 700 Millionen Parametern und einem leichtgewichtigen Diffusionsmodell mit 37 Millionen Parametern. Heraus kamen Bilder von gleicher Qualität wie die eines Diffusionsmodells mit 2 Milliarden Parametern, aber etwa neunmal schneller. Das neue Modell verbrauchte auch etwa 31 Prozent weniger Rechenleistung als die modernsten Modelle. Dadurch eignet es sich auch für den Einsatz auf Laptops oder sogar Smartphones. Auch die Produktion von Videos steht noch auf der Roadmap.




