Aus Linux-Magazin 02/2021

Bücher über die Vorbehandlung von Daten und ein Automatisierungswerkzeug

Ein Buch erläutert, wie man Daten passgerecht für statistische Modelle macht. Ein zweites stellt ein verbreitetes Automatisierungswerkzeug vor.

Datenaufbereitung

Mit Rohdaten lässt sich oft schlecht rechnen: Sie enthalten doppelte Werte oder lassen andere vermissen, fallen zu groß oder zu klein aus, streuen zu breit oder passen anderswie nicht zu dem statistischen Modell, das sie verarbeiten soll. Deshalb schaltet man der Auswertung in der Praxis oft einen Schritt vor, in dem die Daten bereinigt, transformiert, skaliert, kategorisiert, verdichtet, kurz: an das Modell angepasst werden. Dieser Schritt heißt im Fachchinesisch Merkmalskonstruktion, und das vorliegende Buch widmet sich ganz den Techniken und Prinzipien der Datenaufbereitung.

Nach einer Einführung in Sinn und Zweck der Datenvorbehandlung geht es mit Verfahren los, die man auf einfache Zahlenreihen anwenden kann: Binarisierung, Quantifizierung oder die logarithmische beziehungsweise Potenz-Transformation sowie Normierung und Skalierung. Alle Verfahren demonstrieren die Autorinnen gut nachvollziehbar anhand realer Datensätze und – wie im ganzen Buch – mit kurzen Codeausschnitten in Python.

Im folgenden Kapitel kommt die Rede auf Textdaten. Hier werden Methoden vom einfachen Wörterzählen über das Reduzieren auf Grundformen (Stemming) oder das Ausfiltern wenig Bedeutung tragender Worte bis hin zur Statistik von Wortfolgen vorgestellt. Es schließen sich Ausführungen zu kategorialen Variablen an, bei denen man den Zahlenwert nicht in eine Rangordnung bringen kann, wie etwa bei Benutzer-IDs oder numerischen Kennungen für Branchen.

Im Anschluss daran kommen Verfahren zur Sprache, mit denen man die Vielzahl von Merkmalen verringert (Dimensionsreduktion). An erster Stelle bietet sich hier die Hauptkomponentenanalyse an. Das folgende Kapitel erörtert das Clustern von Daten am Beispiel des k-Means-Algorithmus. Im letzten Schritt dreht sich alles um den Spezialfall Bilddaten. Dabei geht es unter anderem um das Erlernen von Bildmerkmalen mithilfe neuronaler Netze. Ein abschließendes Kapitel untersucht als ein komplexeres Beispiel die Datennutzung und verschiedene Herangehensweisen an einen Empfehlungsalgorithmus für akademische Aufsätze.

Infos

Alice Zheng, Amanda Carsari:

Merkmalskonstruktion

O’Reilly, 2019

200 S., 35 Euro

ISBN: 978-3-96009-093-9

Ansible von Anfang an

Automatisierung zählt zu den derzeit wichtigsten IT-Trends – besonders, da sich andere aktuelle Entwicklungen wie Cloud Computing und Containerisierung ohne Automatisierung nicht bewerkstelligen lassen. Im Laufe der Zeit entstanden daher etliche Automatisierungwerkzeuge. Eines der bekanntesten darunter, Ansible, stellt Axel Miesen in seinem Buch im Detail vor.

Die vielen Beispiele des Buchs lassen sich in einer Laborumgebung nachvollziehen, deren Einrichtung der Autor anfangs erklärt. Anknüpfend daran geht es um die nötigen Verzeichnisstrukturen und um das Inventory, also quasi das Verzeichnis der Ziel-Hosts. Als Vorübung zu den Playbooks (den Ansible-Skripten) kommen zunächst Ad-hoc-Kommandos an die Reihe, mit denen der Anwender bereits eine Reihe von Kommandos ausprobieren kann. Weiter geht es mit der Konfigurationssprache YAML.

Damit sind nun alle Voraussetzungen geschaffen, um sich in die Grundlagen der Playbooks einzuarbeiten, die beschreiben, wie eine gewünschte Konfigurationsänderung zu erreichen ist. Solche Playbooks enthalten so gut wie immer Variablen, um deren Nutzung es im folgenden Kapitel geht. Der grundlegende Mechanismus, dessen Erklärung ansteht, sind die Rollen – das Mittel, um Tasks eines Playbooks wiederverwendbar zu machen. Die Wiederverwendbarkeit zählt schließlich auch zu den Anliegen der Ansible-Module, fertiger Skripte, die sich einzeln oder in Playbooks verwenden lassen. Ihnen ist ebenfalls ein Kapitel gewidmet.

Weiter geht es um das Webinterface, diverse weitere Tools und Techniken, um Ansible als Orchestrierungswerkzeug, um das Zusammenspiel mit Docker, um das Verwalten von Windows-Hosts, um Best Practices sowie um das Erstellen eigener Module. Damit liefert der Autor ein unverzichtbares Kompendium für alle, die sich in die Automatisierung mit Ansible einarbeiten wollen oder müssen.

Infos

Axel Miesen:

Ansible

Rheinwerk, 2020

395 S., 40 Euro

ISBN: 978-3-8362-7660-3

SCHLAGWORTE
Buch

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 1 Heftseite	Preis €0,99 (inkl. 19% MwSt.)	Kasse

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

Editorial

Eine Studie belegt: KI-Chatbots reden ihren Nutzern nach dem Mund. Das ist gefährlich für den sozialen Zusammenhalt in der Gesellschaft.

KubeCon CloudNativeCon Europe 2026

Rund 13 500 Teilnehmer aus 100 Ländern machen die KubeCon CloudNativeCon Europe 2026 zur bislang größten Open-Source-Konferenz weltweit, berichten die Veranstalter stolz. Künstliche Intelligenz in allen Schattierungen dominiert das Treffen von Anwendern, Projekten, Firmen und Entwicklern aus...

Linux 6.19: Mehr Leistung, mehr Hardware, mehr Sicherheit

Linux 6.19 ist der erste Kernel, den Linus Torvalds 2026 veröffentlicht – und gleichzeitig der letzte Kernel der Hauptversion 6.

Lieferkettenrisiko: Anthropic klagt gegen Einstufung durch das Pentagon

Das Pentagon fordert vom KI-Anbieter Anthropic seine Technologie für militärische Nutzung zu öffnen. Anthropic wehrt sich und sieht weitere Gefahren.

Home Assistant: Open Source trifft Smart Home

Als zentrale Open-Source-Plattform bündelt Home Assistant unterschiedliche Smart-Home-Geräte verschiedener Hersteller, priorisiert die lokale Kontrolle und ist damit eine datenschutzfreundliche Alternative zu Cloud-Hubs. Dank flexibler Architektur und einer schnell wachsenden...

Integrationen, Entitäten, Automationen: Das System hinter Home Assistant

Was im Home Assistant wie einfache Gerätesteuerung wirkt, basiert auf einer durchdachten Architektur im Hintergrund. Genau dort entscheidet sich, wie flexibel, stabil und wirklich smart ein Heim ist.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen