Cluster-Praxis
Big Iron unter Linux
von Dominic Eschweiler
Erschienen im Linux-Magazin
2010/07
Wie schafft es eigentlich ein Supercomputer, zehntausende Male mehr Operationen auszuführen als ein PC? Wie ist er organisiert und welche Rolle spielt Linux in dieser Welt? Ein erklärender Blick hinter die Kulissen des Supercomputing.
Per Definition gibt es Supercomputer schon seit der Erfindung des Computers. Die ersten elektronischen Rechner waren nämlich allesamt Supercomputer, weil sie die zu ihrer Zeit höchstmögliche Rechenleistung bereitstellten. Mit der Einführung von Homecomputern oder PCs, also der Vermarktung kleiner, privat nutzbarer Computer, kamen später Alternativen auf - daher brauchte man einen extra Begriff für die großen Kisten. Deshalb heißen seit Ende der 70er Jahre, der Zeit der Cray 1, Systeme mit der aktuell höchsten verfügbaren Rechenleistung Supercomputer.
Von Anfang an waren diese Supercomputer Parallelrechner. Die ersten basierten auf Hardware, die speziell für Hochleistungsrechner entwickelt worden war. Dazu gehören seit den 70er Jahren auch die Mainframes, die Banken und Versicherungen heute noch gerne einsetzen. Diese Computer sind vor allem auf Ausfallsicherheit und Durchsatz optimiert.
Der nächste Schritt in der Evolution war die Erfindung des Cluster-Konzepts. Frühe Parallelrechner waren zumeist als SMP (Symmetric Multiprocessor) mit einem gemeinsamen Speicher ausgelegt.
Verteilter Speicher
Bei einer höheren Zahl von Prozessoren führte dieser Aufbau jedoch sehr schnell zu technischen Schwierigkeiten, die als Konsequenz eine verteilte Anordnung der Hardware erzwangen. Einen (zumindest virtuellen) zentralen Speicher für sehr viele Prozessoren in einem verteilten System zu realisieren ist schwierig und erhöht die Komplexität der Hardware. Das Konzept ist zudem sehr fehleranfällig und limitiert die maximale Größe eines solchen Systems. Ein Cluster hingegen hat keinen zentralen Speicher, sondern lässt ausschließlich eine Nachrichtenkommunikation zwischen seinen Einzelrechnern, den Knoten, zu. Zum Cluster wird eine Gruppe von Computern dank spezieller Tools, die unter Linux alle frei zur Verfügung stehen.
Fast alle heute gebauten und betriebenen Supercomputer sind Cluster. Bestehen sie aus Standardkomponenten, nennt man sie Commodity-Cluster - die anderen Supercomputer enthalten speziell entwickelte Komponenten. So verfügen beispielsweise die weitverbreiteten Blue-Gene-Supercomputer über ein eigens für diesen Typ Computer entwickeltes Verbindungsnetzwerk.
Cluster-Aufbau
Das Cluster-Konzept führte ursprünglich die Firma Datapoint ein. Kommerzielle Erfolge damit feierte Anfang der 80er Jahre zuerst DEC mit dem VAX-Cluster. Linux als Betriebssystem hat mit Erfindung der Beowulf-Cluster (Abbildung 1) entscheidend zur Kostensenkung bei Supercomputern beigetragen: Heute kann sich jede Uni einen Cluster leisten.
Die Grundidee von Beowulf ist es, für den Bau eines Großrechners weder spezielle Hardware noch teure proprietäre Software einzusetzen. Vielmehr sollen Standardkomponenten zum Einsatz kommen, wie sie auch in normalen PCs verbaut sind. Die Basis eines solchen Clusters ist ein zentraler Server, der Dienste wie DHCP oder das Netzwerk-Dateisystem zur Verfügung stellt, aber auch als Login-Frontend dient. Hier müssen sich alle Nutzer zentral einloggen, alle anderen Rechner des Systems sind nur von hier aus zu erreichen.
Die wichtigste Komponente eines Clusters sind die so genannten Rechenknoten, sie verrichten die eigentliche Arbeit. Sie sollten möglichst zahlreich vorhanden und zugleich nur mit dem Nötigsten ausgestattet sein. Rechenknoten brauchen zwar keine identische Hardware, aber die installierte Software muss überall gleich sein. Bei größeren Clustern ist es zudem förderlich, wenn auch die Hardware der Rechenknoten identisch ist.

|
Abbildung 1: Der Aufbau eines reinen Beowulf-Clusters ist simpel. Es gibt einen Server und mehrere Rechenknoten, die durch ein Netzwerk verbunden sind.
|
| Whitepaper |
|
Open Source Datenintegration in der Praxis: Fallstudien und Anwendungsbeispiele
Über die letzten Jahre hinweg haben sich Open Source Lösungen als fester Bestandteil des gesamten Datenintegrationsmarktes etabliert. Viele Unternehmen haben bereits das Open Source Modell für Ihre Datenintegrationsprojekte aufgegriffen. Das vorliegende White Paper illustriert anhand ausgewählter Fallstudien und Anwendungsbeispiele die Implementierung von Open Source Datenintegration in der Praxis und benennt die daraus resultierenden Vorteile.
Download PDF (Registrierung erforderlich)
|
|
The Role of Open Source in Data Integration
Obwohl in den letzten Jahren viele technische Fortschritte erzielt werden konnten, verfügen die meisten Datenintegrationsprozesse nach wie vor nur über eine sehr begrenzte Automatisierung. Das vorliegende White Paper von dem Industry Analyst Mark Madson wird zunächst ein grundlegendes Verständnis von Daten Integration vermitteln, die Vorzüge von Open Source Lösungen für Daten Integration erläutern und Ihnen professionelle Empfehlungen geben, damit Sie Ihre Integrationsjobs noch einfacher und produktiver gestalten können.
Download PDF (Registrierung erforderlich)
|
Dieser Online-Artikel kann Links enthalten, die auf nicht mehr vorhandene Seiten verweisen. Wir ändern solche "broken links"
nur in wenigen Ausnahmefällen. Der Online-Artikel soll möglichst unverändert der gedrucken Fassung entsprechen.
|
Thomas Lange,
01.10.2010 11:47
http://fai-project.org