Wissenschaftler vom MIT und von IBM Research haben eine neue Methode entwickelt, um den Stromverbrauch von KI-Workloads zu ermitteln, die wesentlich schneller und gleichzeitig genauer ist als bisherige Verfahren.
Dabei lag das Problem auch bisher nicht an der Modellierung, sondern daran, wie die zu ihren Eingabedaten gelangt. Verbrauchsmodelle brauchen Informationen über die Hardwareauslastung, die bislang auf zwei Wegen gewonnen wurden: Entweder simulierte man den Workload auf dem Level von Prozessorinstruktionen Schritt für Schritt, um daraus die Auslastung des Moduls abzuleiten. Das liefert genaue Ergebnisse, dauert aber mehrere Stunden selbst für einfache Workloads. Oder man führte den Workload tatsächlich auf einer GPU aus und sammelte dabei Messwerte. Diese Methode hat einen großen Overhead durch das Profiling und setzt außerdem voraus, dass eine entsprechende GPU physisch zur Verfügung steht.
Das neue Framework EnergAIzer baut auf der Erkenntnis auf, dass KI-Workloads überwiegend aus Kernelementen bestehen, die bewährte Softwareoptimierungen nutzen, die wiederum strukturierte, analysierbare Muster in der Hardwareauslastung erzeugen. Zu diesen Kernelementen gehören verallgemeinerte Matrixmultiplikationen (GEMMs), nichtlineare Reduktionsfunktionen (zum Beispiel Softmax) und einfache elementweise Operationen (zum Beispiel Aktivierungsfunktionen), die zusammen 90 – 99 Prozent der Ausführungszeit in verschiedenen Sprach- und Bildverarbeitungsmodellen ausmachen. Zu den Optimierungsoptionen gehören die Aufteilung über die Ausführungshierarchie, die Thread-Block-Planung und das Pipelining. Sie bestimmen den Speicherverkehr, die Lastverteilung und den Latenzausgleich.
Die Forscher nutzten diese strukturierten Muster, um Kernelemente mitsamt einer Optimierungsmöglichkeit zu abstrahieren. Das ergibt zwar ein grobes Raster, erfasst jedoch architektonisch relevante Informationen für die Leistungsmodellierung. Die Methode beseitigt den Skalierbarkeitsengpass herkömmlicher Ansätze zur Leistungsmodellierung. Dadurch lassen sich Nutzungsinformationen auf natürliche Weise ableiten, was eine schnelle Leistungsabschätzung ermöglicht, bei der der Fehler bei verschiedenen KI-Workloads bei nur 8 Prozent liegt.




