Open Source im professionellen Einsatz
Linux-Magazin 12/2016
© Puwadol Jaturawutthichai, 123RF

© Puwadol Jaturawutthichai, 123RF

Spammende Nutzer automatisiert erkennen

Erkennungsdienst

Der Arbeitgeber von Autor Chris Hinze litt wie vermutlich alle Homepage-Baukasten-Anbieter unter Spammern und illegalen Inhalten. Ein Praxisbericht, der auf der Theorie des Deep Learning beruht.

174

Wer wie wir einen Homepage-Baukasten [2] betreibt, dürfte sie zur Genüge kennen: Nutzer, die ihre Webseiten für Spam oder andere illegale Inhalte missbrauchen. Diese Seiten manuell überprüfen ist bei Millionen von Nutzern nicht nur mühsam, sondern auch ineffizient. Neuronale Netze [3] sparen Arbeit, indem sie Seiten automatisiert prüfen. Die Trainingsdaten kommen aus unserem Bestand bereits klassifizierter Seiten.

Der Artikel beschreibt, wie ein Entwickler ein passendes neuronales Netz konzipiert, wobei ihm Tensorflow ([4], [5]) und TF-Learn [6] helfen. Erstere ist eine Machine-Learning-Bibliothek von Google, Letztere eine Bibliothek mit High-Level-API für Tensorflow. Sie vereinfachen den Umgang mit neuronalen Netzen.

Training Day

Um zu lernen, braucht das neuronale Netz sowohl positive als auch negative Beispiele. Unsere manuell zusammengetragene Liste von Nutzern ließ sich recht eindeutig in Spammer und legitime Nutzer aufteilen. Wir achten darauf, beide Arten mengenmäßig gleich zu verteilen. Neben dieser Klassifizierung enthält der eingesetzte Datensatz den Namen des Nutzers beziehungsweise die zugehörige Website, die IP-Adresse, mit der er diese registriert hat, sowie die Sprachversion, für die er sich entscheidet.

[...]

Linux-Magazin Online veröffentlicht alle Print-Artikel, die seit 2001 im Linux-Magazin erschienen sind. Damit steht Ihnen ein hochwertig bestücktes Archiv bis hin zu den Beiträgen der aktuellen Ausgabe online zur Verfügung. Die über 3000 Artikel sind größtenteils kostenlos zugänglich, nur für Beiträge (als PDF) der jüngsten zehn Linux-Magazine ist eine kleine Gebühr fällig.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 7 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Magisches Netz

    3, 4, 8, 11 - nur wer den dahintersteckenden Algorithmus errät, weiß die nächste Zahl. Doch neuronale Netze setzen Reihen auch fort, ohne den Rechenweg zu kennen - näherungsweise, quasi aus dem Bauch heraus. Sie gleichen damit dem menschlichen Gehirn, dessen Architektur ihr Vorbild ist.

  • Snapshot

    Anhand von Trainingsdaten in Form von täglich im Auto erfassten Kilometerständen versucht Michael Schillis KI-Programm Muster im Fahrverhalten zu erkennen und Prognosen abzugeben.

  • Verständnisfrage

    Als Prüfer Programmcode oder Multiple-Choice-Fragen elektronisch auszuwerten ist nicht allzu schwer. Doch das Korrektursystem zur Linux-Vorlesung an der Hochschule Heidelberg versteht nicht nur vorformulierte Textbausteine, sondern auch Freitextantworten.

  • Deep Learning

    Deep Learning gilt als Hype-Technologie, lässt sich aber auch im Alltag einsetzen und löst nicht nur Automatisierungsaufgaben der Industrie. Gimp-Nutzer Sebastian Mogilowski zeigt in diesem Artikel, wie er mit Hilfe neuronaler Netze seine alten Schwarz-Weiß-Bilder nachträglich koloriert.

  • Tensorflow erreicht Version 1.0

    Tensorflow 1.0 verspricht Stabilität für sein Python API und beschleunigt die aktuelle und zukünftige Arbeit mit der Einführung des domain-spezifischen XLA Compilers.

comments powered by Disqus

Ausgabe 09/2017

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.