Open Source im professionellen Einsatz

© Hiroshige Goto

Aktuelle und kommende Numbercruncher-CPUs

Chips frisch

Multicore-CPUs und GPUs modernster Bauart rechnen frühere Chipgenerationen in Grund und Boden - und das zum gleichen Preis und mit weniger Energie. Der folgende Blick auf aktuelle und demnächst kommende Rechenmeister macht klar: Numbercrunching verliert den Status des Reiche-Leute-Sports.

Der technische Fortschritt bei den Prozessorherstellern sorgt dafür, dass man für viele rechenintensive Aufgaben gar keinen Performance-Cluster mehr braucht. Es reicht eine Maschine mit mehreren Sockeln, in denen Multicore-CPUs neuester Bauart stecken. Wenn für Strömungs-, Physik- oder Partikelsimulation, große CAD-Projekte oder die rechenaufwändige Auswertung von Messdaten trotzdem ein Cluster nötig wird, dann reicht dank der gigantischen CPU-Leistung meist einer im Miniformat.

Den Vorreiter machten die Playstation-3-Cluster in US-Universitäten, die sich damit für kleines Geld die enorme Rechenpower der Cell-Chips erschlossen. Leider hat Sony aber Linux auf der PS3 Anfang April endgültig den Todesstoß versetzt [1], das Numbercunching-Proletariat muss sich nach anderen Optionen umsehen.

Intels aktuelle Beckton-CPUs

Kurz nach der Cebit stellte Intel seine erste Achtkern-CPU mit dem Codenamen Beckton vor, auch Nehalem EX genannt (Abbildung 2). Auch Intels erste Xeons der Core-i7-Nehalem-Generation sind Dies, die sich für Systeme mit mehr als zwei (bis zu acht) Sockeln eignen. Für Beckton hat Intel nicht nur einen neuen Chipsatz, sondern auch mit LGA 1567 einen neuen Sockel entwickelt. Ältere Xeon-MP-Systeme mit Socket 604 lassen sich damit nicht aufrüsten. Beckton verfügt je nach Ausführung über zwei bis vier QPI-Links, die 4,8 bis 6,4 Gigatransfers (ein Maß für die Übertragungsrate von Rohdaten) schnell sind.

Abbildung 2: Das Die-Foto zeigt Intels aktuellen Achtkern-Xeon Beckton.

Abbildung 2: Das Die-Foto zeigt Intels aktuellen Achtkern-Xeon Beckton.

Der gemeinsame L3-Cache ist 12 bis 24 MByte groß, auch Versionen mit sechs oder vier Kernen bietet Intel an - eine sogar ohne Hyperthreading und nur mit sechs Kernen, dafür aber mit 2,66 GHz Takt. Die Verlustleistung (TDP) liegt je nach Ausführung zwischen 95 und 130 Watt, der Takt zwischen 1,73 und 2,66 GHz. Für das Topmodell X7560 mit 2,26 GHz, 24 MByte L3-Cache und acht Kernen will Intel satte 3700 US-Dollar. Am unteren Ende der Preis- und Leistungsskala steht bei den Achtkernern der Dualsocket-X6550 mit 18 MByte L3-Cache und 2 GHz für 2460 Dollar.

Brücken bauen

Auf Intels Roadmap sind zwei Dinge für Numbercrunching interessant: Von der "Sandy Bridge"-Architektur, die die Firma wohl Anfang 2011 vorstellt, sind schon ein paar Details bekannt: Die in 32 Nanometer gefertigte CPU hat eine TDP von 150 Watt (bei acht Kernen), vier bis acht Kerne und integrierte Grafik.

Intel ändert dann abermals den Sockel und bringt gleich drei neue: LGA 2011 für Vier-Socket-Server, LGA 1356 für Entry-Server und Workstations bis zwei Sockets und LGA 1155 für Mainstream-Desktops. Jeder Kern hat 512 KByte L2-Cache, alle Kerne greifen auf 6 bis 20 MByte L3-Cache zu, der auch dem Grafikchip zur Seite steht. Die Kerne verbindet ein 256 Bit breiter Ringbus miteinander.

Software-seitig will die Sandy Bridge schon zum Start bedient sein, daher hat Intel schon Informationen zur Befehlserweiterung AVX (Advanced Vector Extensions, [2]) bekannt gegeben: Die Breite der SIMD-Wörter und damit das Rechenwerk wird von 128 Bit (XMM-Register) auf 256 Bit (YMM-Register) verbreitert. Somit verarbeiten Intels (und AMDs) künftige CPUs theoretisch doppelt so viele Daten wie bisher in einem SIMD-Befehl.

Die Änderungen, um AVX zu nutzen, sind für bestehenden SSE-optimierten Code marginal. Programme müssen die Datenstrukturen lediglich für möglichst effiziente Abarbeitung etwas umarrangieren, da sich der Prozessor nun in 32-Byte-Schritten statt in 16-Byte-Schritten durch den Datenberg arbeitet.

Ebenfalls neu in AVX: Die Befehle können nun alle mit bis zu vier Operanden arbeiten statt mit zweien, was das non-destruktive Rechnen mit Operanden erlaubt, so funktioniert neben »a=a+b« nun auch »c=a+b« - dank VEX-Präfix auch mit bekannten SSE-Befehlen.

Das 2 bis 3 Byte lange VEX-Präfix steht vor den neuen AVX- oder den alten SSE-Befehlen und definiert die Funktionsweise des folgenden Befehls. AVX sieht sogar eine spätere Erweiterung der Registerbreite auf 512 oder gar 1024 Bit vor und das Rechnen mit bis zu fünf Operanden - statt die Entwickler ständig mit neuen Befehlserweiterungen zu konfrontieren, denkt Intel hier offensichtlich weiter.

AVX braucht im Zuge der Abwärtskompatibilität explizite Unterstützung durchs Betriebssystem, ohne diese sind die neuen Befehle nicht nutzbar. Für die proprietäre Welt ist Windows 7 Pflicht, Linux ist bereits seit Kernel 2.6.30 (Juni 2009) vorbereitet. AVX-Unterstützung gibt es im GCC in Version 4.4 ab Revision 143117.

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook