Aus Linux-Magazin 09/2020

Bücher über Datenvisualisierung und unüberwachtes Lernen

Ein Buch erklärt Verfahren des maschinellen Lernens am Beispiel Python, das andere beschreibt die Prinzipien gelungener Datenvisualisierung.

Das Praxisbuch zum unüberwachten Lernen wendet sich einem sehr großen Gebiet zu. Da verwundert es nicht, dass die Darstellung zwar umfangreich ist, aber dennoch Lücken nicht vermeiden kann. Generell betrifft das den Umgang mit nominal oder ordinal skalierten Daten, den es prinzipiell ausspart: Es kommen nur kardinal skalierte (metrische) Daten vor. Das mag gerade in den Naturwissenschaften der häufigere Fall sein, auf den sich auch die vorgestellten Algorithmen ausrichten – in der Praxis gibt es aber auch Daten, die keine direkt verrechenbaren Messwerte sind.

Zudem fällt auf, dass das Buch stets mehrere Rechenverfahren neutral nebeneinander vorgestellt und Hinweise darauf fehlen, für welches Szenarium sich welches Verfahren besonders eignet. So behandelt ein Kapitel die Dimensionsreduktion und diskutiert eine beeindruckende Anzahl alternativer Verfahren für diesen Zweck. Der Leser kann die an einem Fall vollzogenen Beispielrechnungen auch sehr anschaulich vergleichen und selbst nachvollziehen – ein entsprechendes Jupyter-Notebook steht zum Herunterladen bereit. Was aber fehlt, sind Hinweise zur Frage: Wann setze ich welche Methode ein? Wie entscheide ich zwischen den Alternativen? Welche eignet sich wann und warum?

Dasselbe trifft auf die vorgestellten Cluster-Algorithmen zu. Zwar wird hier noch offensichtlich, dass DBSCAN samt einer Abart deutlich schlechter abschneidet als k-Means oder das hierarchische Clustern. Woran das aber liegt und ob es vielleicht eine Klasse von Problemen gibt, die man damit prinzipiell nicht bearbeiten sollte, bleibt im Dunkel.

Nach sechs Kapiteln zu Dimensionsreduktion und Gruppierung mittels unüberwachter Lernverfahren wendet sich das Buch dann noch Anwendungen zu, die überwachtem Lernen zuarbeiten können. In diesem Zusammenhang führt es auch die weitverbreiteten, von Google-Mitarbeitern entwickelten Open-Source-Bibliotheken Tensorflow und Keras ein. So schlägt das Buch am Ende den Bogen zur anderen großen Gruppe von Anwendungen des maschinellen Lernens.

Insgesamt stellt das Buch viele Techniken des unüberwachten Lernens in verständlicher Form vor. Ein Pluspunkt sind die dank herunterladbarer Materialien leicht nachvollziehbaren, praktischen Beispiele in Python.

Info

Ankur A. Patel: Praxisbuch Unsupervised Learning

O’Reilly, 2020

350 S., 40 Euro

ISBN: 978-3-96009-127-1

Daten bebildern

Claus Wilke will ein Buch über die grundlegenden Prinzipien der Gestaltung aussagekräftiger und ästhetischer Datenvisualisierungen vorlegen und geht dafür einen Kompromiss ein, der durchaus Abstriche verlangt: Er verzichtet konsequent auf jeglichen Beispielcode. Unter anderem befürchtet er wohl – sicher nicht ganz zu Unrecht –, dass, sobald er etwa Beispiele für die R-Grafikbibliothek Ggplot2 aufführen würde, alle Gnuplot-Verwender sein Werk als irrelevant wieder aus der Hand legen würden (und umgekehrt).

Zwar lässt sich die prinzipielle Herangehensweise tatsächlich gut ohne Code darstellen, aber die konkrete Umsetzung bleibt dann doch eine besondere Herausforderung, die es erst noch zu meistern gilt. Da wäre ein Beispiel oft hilfreich und inspirierend. Das Dilemma wird ein klein wenig dadurch gemildert, dass der Autor auf einer besonderen Github-Seite schließlich doch noch einige Beispiele für die Programmierung der Grafiken preisgibt. Allerdings betrifft das nur wenige, und auch die haben keine direkte Verbindung zu den Abbildungen im Buch.

Eine weitere, aus Platzgründen sicher ebenso notwendige Auslassung betrifft die verwendeten statistischen Verfahren. Auf die Mathematik und auch auf die Bedienung geeigneter Software für die Berechnungen geht das Buch nicht ein. Das ist ein weiteres weites Feld, auf dem der angehende Datengrafiker selbstständig forschen und experimentieren muss. Immerhin stellt das vorliegende Buch oft die Resultate verschiedener Techniken im Vergleich vor.

Im Buch widmet sich hauptsächlich grundlegenden Überlegungen zu Darstellungselementen wie Farbskalen oder Koordinatensystemen sowie zu verschiedenen Diagrammarten und deren Eignung für die Darstellung von quantitativen Werten, Verteilungen, Trends, Zeitreihen und Geodaten. Die Erläuterungen sind durchweg instruktiv und gut verständlich, markante Fallbeispiele demonstrieren die Konsequenzen verschiedener Designentscheidungen.

Auch die klare Gliederung überzeugt, sodass sich das Buch vielleicht sogar eher zum Nachschlagen eignet als zum Durchlesen von der ersten bis zur letzten Seite. Alles in allem bietet es eine wertvolle Hilfe für alle, die sich mit der Darstellung von Erkenntnissen aus Datenanalysen befassen wollen.

Info

Claus O. Wilke: Datenvisualisierung – Grundlagen und Praxis

O’Reilly, 2020

330 S., 40 Euro

ISBN:978-3-96009-121-9

SCHLAGWORTE
Buch
Python

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 1 Heftseite	Preis €0,99 (inkl. 19% MwSt.)	Kasse

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

Editorial

Mittlerweile ist es einfacher, Aufgaben aus dem Büroalltag an die KI zu delegieren, als sie in einer Office-Suite selbst zu bearbeiten. Löst der Chatbot bald die Bürosoftware ab?

Linux 7.0

Linus Torvalds mag bei der Kernel-Versionierung keine Zahlen, die die Anzahl seiner Finger und Zehen überschreiten. Jetzt folgt also auf Kernel 6.19 folgerichtig die Ausgabe 7.0

Künstliche Intelligenz in der Ausbildung sinnvoll einsetzen

Für junge Erwachsene gehören KI-unterstützte Anwendungen zum Alltag, ältere Semester benutzen solche Werkzeuge eher zurückhaltend. Ausbilder, Lehrkräfte und Trainer verantworten jedoch die Vermittlung des passenden Umgangs mit künstlicher Intelligenz. Dabei stellt sich die Frage, wie sich mit...

Der freie Einstieg in digitale Kompetenz

Ein kindgerechter Computer muss nicht teuer, geschlossen oder kompliziert sein. Mit Linux entsteht eine Umgebung, in der Kinder spielerisch lernen, ihre Kreativität entfalten und Schritt für Schritt verstehen, wie digitale Technik funktioniert.

Linux-Distributionen für Vor- und Grundschulkinder

Ohne Anpassungen eignen sich die herkömmlichen Linux-Desktops kaum für Kinder. Doch es gibt Varianten des freien Betriebssystems mit speziell auf sehr junge Anwender zugeschnittenen Oberflächen.

Linux für junge Gamer: Spielen, lernen, entdecken

Linux ist mehr als nur ein günstiges Betriebssystem. Für Kinder wird es zur sicheren Spielwiese für erste Klicks, kreative Experimente und Programmierabenteuer. Es eröffnet eine erstaunlich vielseitige Welt mit freien Games, Lernsoftware und Bastelideen.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Was ist die beliebteste Linux-Distro? Zum Einstieg nehmen wir das DistroWatch-Ranking auseinander und erklären, warum Seitenaufrufe keine Popularität messen. Im Hauptthema geht es um Open Source Funding: Wie im XKCD 2347 ruht unsere digitale Infrastruktur auf Komponenten, die oft von Einzelnen...