Ein Buch erklärt Verfahren des maschinellen Lernens am Beispiel Python, das andere beschreibt die Prinzipien gelungener Datenvisualisierung.
Das Praxisbuch zum unüberwachten Lernen wendet sich einem sehr großen Gebiet zu. Da verwundert es nicht, dass die Darstellung zwar umfangreich ist, aber dennoch Lücken nicht vermeiden kann. Generell betrifft das den Umgang mit nominal oder ordinal skalierten Daten, den es prinzipiell ausspart: Es kommen nur kardinal skalierte (metrische) Daten vor. Das mag gerade in den Naturwissenschaften der häufigere Fall sein, auf den sich auch die vorgestellten Algorithmen ausrichten – in der Praxis gibt es aber auch Daten, die keine direkt verrechenbaren Messwerte sind.
Zudem fällt auf, dass das Buch stets mehrere Rechenverfahren neutral nebeneinander vorgestellt und Hinweise darauf fehlen, für welches Szenarium sich welches Verfahren besonders eignet. So behandelt ein Kapitel die Dimensionsreduktion und diskutiert eine beeindruckende Anzahl alternativer Verfahren für diesen Zweck. Der Leser kann die an einem Fall vollzogenen Beispielrechnungen auch sehr anschaulich vergleichen und selbst nachvollziehen – ein entsprechendes Jupyter-Notebook steht zum Herunterladen bereit. Was aber fehlt, sind Hinweise zur Frage: Wann setze ich welche Methode ein? Wie entscheide ich zwischen den Alternativen? Welche eignet sich wann und warum?
Dasselbe trifft auf die vorgestellten Cluster-Algorithmen zu. Zwar wird hier noch offensichtlich, dass DBSCAN samt einer Abart deutlich schlechter abschneidet als k-Means oder das hierarchische Clustern. Woran das aber liegt und ob es vielleicht eine Klasse von Problemen gibt, die man damit prinzipiell nicht bearbeiten sollte, bleibt im Dunkel.
Nach sechs Kapiteln zu Dimensionsreduktion und Gruppierung mittels unüberwachter Lernverfahren wendet sich das Buch dann noch Anwendungen zu, die überwachtem Lernen zuarbeiten können. In diesem Zusammenhang führt es auch die weitverbreiteten, von Google-Mitarbeitern entwickelten Open-Source-Bibliotheken Tensorflow und Keras ein. So schlägt das Buch am Ende den Bogen zur anderen großen Gruppe von Anwendungen des maschinellen Lernens.
Insgesamt stellt das Buch viele Techniken des unüberwachten Lernens in verständlicher Form vor. Ein Pluspunkt sind die dank herunterladbarer Materialien leicht nachvollziehbaren, praktischen Beispiele in Python.
Info
Ankur A. Patel: Praxisbuch Unsupervised Learning
O’Reilly, 2020
350 S., 40 Euro
ISBN: 978-3-96009-127-1
Daten bebildern
Claus Wilke will ein Buch über die grundlegenden Prinzipien der Gestaltung aussagekräftiger und ästhetischer Datenvisualisierungen vorlegen und geht dafür einen Kompromiss ein, der durchaus Abstriche verlangt: Er verzichtet konsequent auf jeglichen Beispielcode. Unter anderem befürchtet er wohl – sicher nicht ganz zu Unrecht –, dass, sobald er etwa Beispiele für die R-Grafikbibliothek Ggplot2 aufführen würde, alle Gnuplot-Verwender sein Werk als irrelevant wieder aus der Hand legen würden (und umgekehrt).
Zwar lässt sich die prinzipielle Herangehensweise tatsächlich gut ohne Code darstellen, aber die konkrete Umsetzung bleibt dann doch eine besondere Herausforderung, die es erst noch zu meistern gilt. Da wäre ein Beispiel oft hilfreich und inspirierend. Das Dilemma wird ein klein wenig dadurch gemildert, dass der Autor auf einer besonderen Github-Seite schließlich doch noch einige Beispiele für die Programmierung der Grafiken preisgibt. Allerdings betrifft das nur wenige, und auch die haben keine direkte Verbindung zu den Abbildungen im Buch.
Eine weitere, aus Platzgründen sicher ebenso notwendige Auslassung betrifft die verwendeten statistischen Verfahren. Auf die Mathematik und auch auf die Bedienung geeigneter Software für die Berechnungen geht das Buch nicht ein. Das ist ein weiteres weites Feld, auf dem der angehende Datengrafiker selbstständig forschen und experimentieren muss. Immerhin stellt das vorliegende Buch oft die Resultate verschiedener Techniken im Vergleich vor.
Im Buch widmet sich hauptsächlich grundlegenden Überlegungen zu Darstellungselementen wie Farbskalen oder Koordinatensystemen sowie zu verschiedenen Diagrammarten und deren Eignung für die Darstellung von quantitativen Werten, Verteilungen, Trends, Zeitreihen und Geodaten. Die Erläuterungen sind durchweg instruktiv und gut verständlich, markante Fallbeispiele demonstrieren die Konsequenzen verschiedener Designentscheidungen.
Auch die klare Gliederung überzeugt, sodass sich das Buch vielleicht sogar eher zum Nachschlagen eignet als zum Durchlesen von der ersten bis zur letzten Seite. Alles in allem bietet es eine wertvolle Hilfe für alle, die sich mit der Darstellung von Erkenntnissen aus Datenanalysen befassen wollen.







