Elon Musks KI-Firma xAI baute zusammen mit Supermicro und NVIDIA den größten wassergekühlten GPU-Cluster der Welt.
Der Rechner mit dem bezeichnenden Namen Colossus verfügt über 100 000 NVIDIA HGX H100 GPUs, Exabytes Storagekapazität und ein schnelles Netzwerk. Das alles wird eingesetzt um die xAI’s generative KI Grok zu trainieren. Der mehrere Milliarden Dollar teure Rechner wurde in Memphis, Tennessee, in nur 122 Tagen in vier leeren Hallen aufgebaut, die nur Anschlüsse für Strom und Kühlwasser bereits enthielten. In jeder Halle sind 25000 NVIDIA GPUs verbaut, die in speziellen wassergekühlten Racks stecken. Jedes Rack verfügt über 8 Supermicro 4U Universal GPU-Systeme, die wassergekühlte NVIDIA HGX H100 GPUs und zwei wassergekühlte x86 CPUs enthalten. Außerdem beinhaltet jedes Rack noch 64 NVIDIA Hopper GPUs.
Die xAI Colossus Data Center Supermicro 4U Universal GPU Liquid-Cooled Server sind die dichtesten und fortschrittlichsten KI-Server auf dem Markt. Sie verfügen über ein ausgeklügeltes Flüssigkühlsystem und können gewartet werden, ohne dass die Systeme aus dem Rack entfernt werden müssen. Im Gegensatz zu anderen KI-Servern, die ein luftgekühltes Design nachträglich mit einer Flüssigkeitskühlung nachrüsten, sind die Server von Supermicro von Grund auf für eine Flüssigkeitskühlung mit einem kundenspezifischen Flüssigkeitskühlblock konzipiert. Diese Art von kompakter Leistung, Zugänglichkeit und Wartungsfreundlichkeit machen diese Systeme außerordentlich gut skalierbar.
Die gigantischen Netzwerke des Rechenzentrums werden auf der NVIDIA-Spektrum-X-Ethernet-Netzwerkplattform ausgeführt, die eine schnelle und zuverlässige Datenübertragung bietet und für die hohen Anforderungen von KI-Workloads ausgelegt ist. Jeder Cluster verwendet NVIDIA Bluefield-3 SuperNICs, die 400 Gigabit pro Sekunde Netzwerkleistung bieten. Neun Verbindungen pro System bieten eine Bandbreite von 3,6 TBit/s pro GPU-Compute-Server. Das RDMA-Netzwerk (Remote Direct Memory Access) für die GPUs macht den Großteil dieser Bandbreite aus. Jede GPU ist mit einer eigenen NVIDIA BlueField-3 SuperNIC und Spectrum-X Netzwerktechnologie ausgestattet. Neben dem GPU-RDMA-Netzwerk erhalten auch die CPUs eine 400-GbE-Verbindung, die eine völlig andere Switch-Fabric verwendet. Der NVIDIA Spectrum SN5600, ein 800-Gb-Ethernet-Switch mit 64 Ports, kann 128 400-Gigabit-Ethernet-Links aufteilen und betreiben.





