Ein Whitepaper des Cern Openlab erörtert die künftigen Herausforderungen für den IT-Einsatz in der Wissenschaft.
Big Data ist nicht allein ein Begriff aus dem Umfeld von Facebook oder Amazon. Auch in der wissenschaftlichen Welt explodiert die Datenmenge, alleine die Detektoren das Large Hadron Collider (LHC) am Cern produzieren beispielsweise 1 Petabyte Rohdaten pro Sekunde. Ein Whitepaper untersucht jetzt die Herausforderungen, vor denen das wissenschaftliche Rechnen steht.
Die Autoren der Untersuchung haben sechs Problemfelder ausgemacht, die die Schwierigkeiten beschreiben, denen sich das Scientific Computing stellen muss. Da ist zum einen der Prozess des Datensammelns selber, der oft mit einer schnellen und intelligenten Filterung einhergehen muss. So selektieren Filter des Teilchenbeschleunigers nur eine von 10.000 Kollisionen als potenziell interessant heraus, und von diesen wird wieder nur ein Prozent in einer weiteren Filterstufe für die spätere Untersuchung ausgesiebt. Trotz dieser drastischen Datenreduktion produzieren die vier großen Experimente am LHC (ALICE, ATLAS, CMS, and LHCb) zusammen 25 Petabyte pro Jahr.
Diese Datenmengen müssen – das ist ein weiterer Punkt – gespeichert werden. Die LHC-Experimente brauchen dafür Dutzende Datenströme mit einem Durchsatz von zusammen über 20 GByte/s. Hier setzen sich Cloud-Speicher wie Amazons S3 durch. Sie müssen auch dafür sorgen, die Daten einer weltweiten wissenschaftlichen Community sicher und effizient zugänglich zu machen.
Ein dritter Punkt auf der Liste der Herausforderungen betrifft die Rechenleistung, die heute Supercomputer oder Grids bereitstellen. Hier bieten moderne Multicore-Plattformen, Co-Prozessoren und grafische Prozessoren neue Möglichkeiten. Diese müssen – viertens – aber auch von der Software genutzt werden können, die dafür anzupassen oder neu zu schreiben ist. Entsprechend werden von den Wissenschaftlern auch Kenntnisse etwa in Parallelprogrammierung verlangt.
Ein fünfter Punkt betrifft die Administrierbarkeit der komplizierten Infrastruktur, was nicht ohne Automation und Virtualisierung möglich wäre, zumal nicht überall eine IT-Abteilung vor Ort ist. Schließlich gehören – sechstens – dazu auch schnelle Datennetze, die alleine am Cern über 50.000 Geräte über 40.000 km Kabel verbinden (davon 5000 km Glasfaberkabel).
Auf allen diesen Gebieten und in vielen Wissenschaftsdisziplinen, nicht nur in der Hochenergiephysik, sondern beispielsweise auch in der Genetik, Neurologie, Radioastronomie oder Satellitenbildverarbeitung, wo vergleichbare Datenmengen anfallen, werden die Anforderungen in den nächsten Jahren noch weiter steigen.
Das Whitepaper steht ohne Registrierung zum Download bereit.





