Open Source im professionellen Einsatz

CERN veröffentlicht 300 TByte Daten unter Public Domain

29.04.2016

Wer noch ein bisschen Platz auf der Festplatte frei hat und sich für Big Data begeistert, kann nun beim CERN vorbeisurfen und sich 300 TByte an Daten aus Experimenten abholen.

144

Die Daten stammen von CERNs Large Hadron Collider (LHC) und wurden auf dem hauseigenen Datenportal "opendata.cern.ch" veröffentlicht. CERN hat sie unter der CC0 als Public Domain lizenziert, jeder kann also damit machen, was er möchte.

Etwa 100 TByte der Daten stammen laut Ankündigung aus einer Protonen-Kollision mit 7 TeV aus dem Jahr 2011. Die "Primary Datasets" verwenden das auch von CERNs CMS Collaboration verwendete Format. Die "Derived Datasets" erfordern hingegen etwas weniger Rechenpower und lassen sich auch in Universitäten oder Schulen analysieren.

Simulation des hypothetischen Zerfalls eines Higgs-Teilchen (Quelle: Lucas Taylor / CERN, CC-BY-SA 3.0)

Neben den Datensätzen finden sich im 300 Terabyte-Paket auch Analysetools und Code-Beispiele, außerdem ist eine CernVM mit von der Partie, die bereits die passende Software an Bord hat, um die Daten zu analysieren. Dem Big-Data-Analysespaß steht also nichts mehr im Weg.

Ähnliche Artikel

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.