Kernel-Laien lesen bestenfalls Zusammenfassungen der hitzigen Diskussionen auf der Linux Kernel Mailing List (LKML). Die statistische Analyse aus 2,5 Millionen Postings zeigt die Kraftausdrucksdichte.
Hin und wieder dringt eine Nachricht in die sozialen Medien, nach der Linux-Chef Linus Torvalds wieder einmal ausgerastet sei und Kernel-Mitarbeiter mit rüden Worten “rund” gemacht habe. Da schaut der neugierige Linux-Enthusiast belustigt hin und genießt bei einem kühlen Getränk nach Feierabend die Tiraden des großen Diktators.
Das Linux-Magazin hat die Aufgabe gestellt, dieses Phänomen mathematisch aufzuarbeiten. Als Datensatz dienen dafür 2,5 Millionen LKML-Postings, die erst in eine MySQL-Datenbank gefüttert, anschließend mit Perl- und R-Skripten traktiert und grafisch in Szene gesetzt wurden.
Abbildung 1 demonstriert die Entwicklung der Kernel-Mailingliste mit Hilfe der Anzahl der Postings über 20 Jahre, angefangen 1996 bis zum heutigen Tag, das angefangene Jahr 2016 ist anteilsmäßig hochgerechnet. Der beinahe lineare Anstieg von 20000 Postings im Jahr 1996 bis über geschätzte 270000 für das aktuelle Jahr 2016 belegen das natürliche Wachstum des Projekts und seine ungebrochene Popularität.
Long Tail
Wie sieht es aus mit der Anzahl der Mitstreiter, kommen die meisten Beiträge von einigen wenigen extra fleißigen Überfliegern und der Rest als “Long Tail” von Hobby-Linuxern, die nur ein-, zweimal im Jahr schreiben? Ein R-Skript liest hierzu die aus MySQL ins CSV-Format reexportierten Metadaten ein und druckte die Grafik in Abbildung 2.
Es zeigt sich, dass einige wenige Top-Poster über die Jahrzehnte mehr als 30000 Mails einschickten, ein paar Dutzend Mitstreiter, unter ihnen Torvalds selbst, auf über 10000 kommen, und immerhin noch etwa 100 auf mehr als 5000. Erwartungsgemäß flacht die Kurve am rechten Rand ab.
Kraftausdrücke
Bevor es an die Analyse des Umgangstons auf der LKML geht, gilt es zu klären, wann denn ein Wort ein Schimpfwort ist. Was als profan gilt, hängt offensichtlich stark vom Kulturkreis ab. Einen möglichen Ansatz bietet der in den USA herrschende Gold-Standard der “Seven Dirty Words”, die der Komiker George Carlin 1972 aufgestellt hat [2] und die in den USA kein öffentlich ausgestrahlter Fernseh- oder Radiosender (Abo-Sender wie HBO sind die Ausnahme) in den Äther schickt, ohne sie vorher mit einem nervigen 1-kHz-Ton zu maskieren [3].
Die sieben verbotenen Wörter sind: Shit, Piss, Fuck, Cunt, Cocksucker, Motherfucker und Tits. Wer nicht alle kennt, möge bitte selbstständig ein Wörterbuch zur Klärung herbeiziehen, aber dies natürlich nur, während der Browser auf “Inkognito” steht.
Um festzustellen, ob ein Text eines der bösen Wörter enthält, steht auf dem CPAN das Perl-Modul Regexp::Common bereit, das unter dem Schlüssel »profanity« mit regulären Ausdrücken blitzschnell danach sucht. Der Filter findet übrigens keine Umschreibungen oder ausmaskierte Wörter wie etwa »f*ck« , dazu müssten die regulären Ausdrücke aufgebohrt werden.
Aber er findet zusätzlich noch Wörter, die für europäische Ohren anstößig klingen. Während ein Amerikaner sich womöglich nichts bei dem Ausdruck “A bunch of crap” denkt, sondern ihn je nach Zusammenhang vielleicht nur lustig findet, wäre die britische Königin beim High Tea womöglich “not amused”.
Durchforstet man mit dem Regex die historischen Beiträge von Linus Torvalds auf der LKML, springt der Filter erstmals im Juli 1996 an. Mitstreiter Aaron Tiensivu hatte unter dem Titel “Not a bible thumper” (“kein Bibelklopfer”) gemeldet, dass sich im Kernelcode die erstaunlichsten Profanitäten verbergen (Abbildung 3). Die Diskussion nahm ihren Lauf, bis Torvalds ein Machtwort sprach und mit wohl absichtlich rüden Worten seine Abneigung gegen jegliche Political Correctness zum Ausdruck brachte [4].
Torvalds scheut auch in neuerer Zeit keine Auseinandersetzung im groben Ton, der – gegenüber Arbeitskollegen in einem amerikanischen Unternehmen angewendet – wohl sofort die HR-Abteilung auf den Plan riefe. Ende 2012 brüllte er einen Maintainer an, der seiner Meinung nach die erste Regel der Kernel-Maintenance nicht begriffen hatte: “We do not break userspace.” Er solle verdammt noch mal den Rand halten, eine Kernel-Änderung, die ein Userland-Programm in Probleme bringt, wäre immer der Fehler des Kernels (Abbildung 4).
Wie sieht die historische Entwicklung von Profanitäten auf der Kernel-Mailingliste aus? Abbildung 5 zeigt, dass es in den Jahren 2000 und 2008 mit etwa 1200 Schimpfmails jeweils zwei Höhepunkte gab, während die letzte Dekade eine stark abfallende Tendenz zeigt. Eingerechnet den Umstand, dass die Anzahl der Postings pro Jahr stetig steigt, geht die Zahl der Wüstlinge deutlich nach unten. Die Zahl für 2016 zeigt aber nur die Postings bis Juli, der bereinigte Wert würde wohl etwa auf 2015er Niveau liegen.
Wer verwendet die meisten Schimpfwörter? Listing 1 zeigt, wie viele Postings die zehn größten Kraftmeier herausschickten: An der Spitze der Diktator selbst, gefolgt von Holländern und Deutschen, die meiner Erfahrung nach im Englischen oft wenig feinfühlig mit Kraftausdrücken um sich werfen, um mangelnden Wortschatz zu kaschieren.
Listing 1
swearers
01 Linus Torvalds ...... 1159 02 Peter Zijlstra ....... 423 03 Rik van Riel ......... 397 04 Al Viro .............. 387 05 Thomas Gleixner ...... 324 06 Alan Cox ............. 322 07 Alexander Viro ....... 290 08 Christoph Hellwig .... 243 09 Ingo Molnar .......... 190 10 Benjamin Herrenschmidt 180
Welche Bandbreite an Wörtern nutzen die Maintainer bei ihrer anstrengenden Arbeit? Nichts Außergewöhnliches, wie aus der Kuchengrafik in Abbildung 6 hervorgeht: Das übliche Repertoire amerikanischer Bauarbeiter, eindeutiger Favorit ist das Wort “Crap”.
In Maßen eingesetzt kann ein starkes böses Wort aber durchaus Missverständnissen vorbeugen: Hui, jetzt ist der Kernel-Kaiser aber wirklich sauer und hat nicht nur ironisch feixend mit dem Zeigefinger gedroht! Also künftig besser die Regel Nummer eins des Kernel-Managements beachten.
Infos
- Listings zu diesem Artikel: ftp://www.linux-magazin.de/pub/listings/magazin/2016/09/Perl
- “Seven Dirty Words”: https://en.wikipedia.org/wiki/Seven_dirty_words
- “Bleep Censor”: https://en.wikipedia.org/wiki/Bleep_censor
- Linus Torvalds, “Re: Not a bible thumper. . .”: https://lkml.org/lkml/1996/7/20/1












