Open Source im professionellen Einsatz
Linux-Magazin 09/2016
© Aliaksei Smalenski, 123RF

© Aliaksei Smalenski, 123RF

Ausgezählt: Kraftausdrücke aus der Linux Kernel Mailing List

Raues Klima

Kernel-Laien lesen bestenfalls Zusammenfassungen der hitzigen Diskussionen auf der Linux Kernel Mailing List (LKML). Die statistische Analyse aus 2,5 Millionen Postings zeigt die Kraftausdrucksdichte.

1012

Hin und wieder dringt eine Nachricht in die sozialen Medien, nach der Linux-Chef Linus Torvalds wieder einmal ausgerastet sei und Kernel-Mitarbeiter mit rüden Worten "rund" gemacht habe. Da schaut der neugierige Linux-Enthusiast belustigt hin und genießt bei einem kühlen Getränk nach Feierabend die Tiraden des großen Diktators.

Das Linux-Magazin hat die Aufgabe gestellt, dieses Phänomen mathematisch aufzuarbeiten. Als Datensatz dienen dafür 2,5 Millionen LKML-Postings, die erst in eine MySQL-Datenbank gefüttert, anschließend mit Perl- und R-Skripten traktiert und grafisch in Szene gesetzt wurden.

Abbildung 1 demonstriert die Entwicklung der Kernel-Mailingliste mit Hilfe der Anzahl der Postings über 20 Jahre, angefangen 1996 bis zum heutigen Tag, das angefangene Jahr 2016 ist anteilsmäßig hochgerechnet. Der beinahe lineare Anstieg von 20000 Postings im Jahr 1996 bis über geschätzte 270000 für das aktuelle Jahr 2016 belegen das natürliche Wachstum des Projekts und seine ungebrochene Popularität.

Abbildung 1: Anzahl der Beiträge auf der LKML über 20 Jahre.

Long Tail

Wie sieht es aus mit der Anzahl der Mitstreiter, kommen die meisten Beiträge von einigen wenigen extra fleißigen Überfliegern und der Rest als "Long Tail" von Hobby-Linuxern, die nur ein-, zweimal im Jahr schreiben? Ein R-Skript liest hierzu die aus MySQL ins CSV-Format reexportierten Metadaten ein und druckte die Grafik in Abbildung 2.

Abbildung 2: Einige Dutzend Mitstreiter kommen auf mehr als 10000 Posts, einige wenige auf mehr als 30000.

Es zeigt sich, dass einige wenige Top-Poster über die Jahrzehnte mehr als 30000 Mails einschickten, ein paar Dutzend Mitstreiter, unter ihnen Torvalds selbst, auf über 10000 kommen, und immerhin noch etwa 100 auf mehr als 5000. Erwartungsgemäß flacht die Kurve am rechten Rand ab.

Kraftausdrücke

Bevor es an die Analyse des Umgangstons auf der LKML geht, gilt es zu klären, wann denn ein Wort ein Schimpfwort ist. Was als profan gilt, hängt offensichtlich stark vom Kulturkreis ab. Einen möglichen Ansatz bietet der in den USA herrschende Gold-Standard der "Seven Dirty Words", die der Komiker George Carlin 1972 aufgestellt hat [2] und die in den USA kein öffentlich ausgestrahlter Fernseh- oder Radiosender (Abo-Sender wie HBO sind die Ausnahme) in den Äther schickt, ohne sie vorher mit einem nervigen 1-kHz-Ton zu maskieren [3].

Die sieben verbotenen Wörter sind: Shit, Piss, Fuck, Cunt, Cocksucker, Motherfucker und Tits. Wer nicht alle kennt, möge bitte selbstständig ein Wörterbuch zur Klärung herbeiziehen, aber dies natürlich nur, während der Browser auf "Inkognito" steht.

Um festzustellen, ob ein Text eines der bösen Wörter enthält, steht auf dem CPAN das Perl-Modul Regexp::Common bereit, das unter dem Schlüssel »profanity« mit regulären Ausdrücken blitzschnell danach sucht. Der Filter findet übrigens keine Umschreibungen oder ausmaskierte Wörter wie etwa »f*ck« , dazu müssten die regulären Ausdrücke aufgebohrt werden.

Aber er findet zusätzlich noch Wörter, die für europäische Ohren anstößig klingen. Während ein Amerikaner sich womöglich nichts bei dem Ausdruck "A bunch of crap" denkt, sondern ihn je nach Zusammenhang vielleicht nur lustig findet, wäre die britische Königin beim High Tea womöglich "not amused".

Durchforstet man mit dem Regex die historischen Beiträge von Linus Torvalds auf der LKML, springt der Filter erstmals im Juli 1996 an. Mitstreiter Aaron Tiensivu hatte unter dem Titel "Not a bible thumper" ("kein Bibelklopfer") gemeldet, dass sich im Kernelcode die erstaunlichsten Profanitäten verbergen (Abbildung 3). Die Diskussion nahm ihren Lauf, bis Torvalds ein Machtwort sprach und mit wohl absichtlich rüden Worten seine Abneigung gegen jegliche Political Correctness zum Ausdruck brachte [4].

Abbildung 3: Ein Posting prangert im Kernelcode verwendete böse Wörter an.

Torvalds scheut auch in neuerer Zeit keine Auseinandersetzung im groben Ton, der – gegenüber Arbeitskollegen in einem amerikanischen Unternehmen angewendet – wohl sofort die HR-Abteilung auf den Plan riefe. Ende 2012 brüllte er einen Maintainer an, der seiner Meinung nach die erste Regel der Kernel-Maintenance nicht begriffen hatte: "We do not break userspace." Er solle verdammt noch mal den Rand halten, eine Kernel-Änderung, die ein Userland-Programm in Probleme bringt, wäre immer der Fehler des Kernels (Abbildung 4).

Abbildung 4: Linus Torvalds brüllt einen Maintainer zusammen.

Wie sieht die historische Entwicklung von Profanitäten auf der Kernel-Mailingliste aus? Abbildung 5 zeigt, dass es in den Jahren 2000 und 2008 mit etwa 1200 Schimpfmails jeweils zwei Höhepunkte gab, während die letzte Dekade eine stark abfallende Tendenz zeigt. Eingerechnet den Umstand, dass die Anzahl der Postings pro Jahr stetig steigt, geht die Zahl der Wüstlinge deutlich nach unten. Die Zahl für 2016 zeigt aber nur die Postings bis Juli, der bereinigte Wert würde wohl etwa auf 2015er Niveau liegen.

Abbildung 5: Anzahl der Postings mit wüsten Worten über die Jahre.

Wer verwendet die meisten Schimpfwörter? Listing 1 zeigt, wie viele Postings die zehn größten Kraftmeier herausschickten: An der Spitze der Diktator selbst, gefolgt von Holländern und Deutschen, die meiner Erfahrung nach im Englischen oft wenig feinfühlig mit Kraftausdrücken um sich werfen, um mangelnden Wortschatz zu kaschieren.

Listing 1

swearers

01 Linus Torvalds ...... 1159
02 Peter Zijlstra ....... 423
03 Rik van Riel ......... 397
04 Al Viro .............. 387
05 Thomas Gleixner ...... 324
06 Alan Cox ............. 322
07 Alexander Viro ....... 290
08 Christoph Hellwig .... 243
09 Ingo Molnar .......... 190
10 Benjamin Herrenschmidt 180

Welche Bandbreite an Wörtern nutzen die Maintainer bei ihrer anstrengenden Arbeit? Nichts Außergewöhnliches, wie aus der Kuchengrafik in Abbildung 6 hervorgeht: Das übliche Repertoire amerikanischer Bauarbeiter, eindeutiger Favorit ist das Wort "Crap".

Abbildung 6: Die beliebtesten Kraftausdrücke auf der Mailingliste.

In Maßen eingesetzt kann ein starkes böses Wort aber durchaus Missverständnissen vorbeugen: Hui, jetzt ist der Kernel-Kaiser aber wirklich sauer und hat nicht nur ironisch feixend mit dem Zeigefinger gedroht! Also künftig besser die Regel Nummer eins des Kernel-Managements beachten.

Infos

  1. Listings zu diesem Artikel: ftp://www.linux-magazin.de/pub/listings/magazin/2016/09/Perl
  2. "Seven Dirty Words": https://en.wikipedia.org/wiki/Seven_dirty_words
  3. "Bleep Censor": https://en.wikipedia.org/wiki/Bleep_censor
  4. Linus Torvalds, "Re: Not a bible thumper. . .": https://lkml.org/lkml/1996/7/20/1

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 3 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Kernel-News

    Statt der 3.20 erhält der nächste Kernel die Versionsnummer 4.0. Die größte Neuerung dürfte das Kernel Live Patching sein, das Downtimes überbrücken soll. Das Bauwerk der Tüftler ist aber umstritten.

  • Streit unter Kernel-Entwicklern: Adrian Bunk stellt Vertrauensfrage

    Dass der Ton in der "Linux Kernel Mailinglist" (lkml) mitunter rau werden kann, ist kein Geheimnis. Besonders harsche Töne hat jetzt der Entwickler Adrian Bunk angestimmt.

  • Torvalds gibt Release Candidate von Kernel 2.6.27 frei

    Mit der Freigabe des ersten Release Candidate der nächsten Kernel-Version 2.6.27, die Linus Torvalds auf der Linux-Kernel-Mailingliste (LKML) verkündete, schließt sich das "Merge Window".

  • Kroah-Hartmann interviewt Linus Torvalds

    Bei der Linuxcon in Japan hat sich Linus Torvalds zum Kernel 3.0 und zum Jubiläum 20 Jahre Linux geäußert.

  • An der Quelle

    Die Kernelentwicklung startete als ein Rinnsal, gespeist allein von Linus Torvalds - nach seiner Meinung "nichts Großes". Der heutige Strom aus Millionen Zeilen C-Code, der die IT-Landschaft nachhaltig durchschneidet, wäre ohne eine Mischung aus straffer Organisation und uneigennütziger Mitarbeit unmöglich.

comments powered by Disqus

Ausgabe 09/2017

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.