Aus Linux-Magazin 12/2006

Aus dem Alltag eines Sysadmin: Fuzzy OCR

Jede Spamfilter-Verbesserung reizt wiederum die Kreativität der Betreiber einschlägiger Infodienste. Beispielsweise verstecken sie nun ihre erhebenden Botschaften in Bildern. Die Antwort: Eine OCR-Software, die Texte extrahiert und damit den Spamfilter füttert.

Inhalt

92 | MS Powershell Microsoft veröffentlicht demnächst eine Admin-Shell für Windows, die diesen Namen auch verdient. Ihre Spezialität ist das Durchreichen typisierter Objekte.

98 | LPI-Kompendium, Teil 5 In diesem Teil der LPI-Prüfungsvorbereitungen dreht sich alles um das Einrichten des X-Window-Systems.

Wer einen Spamassassin am Laufen hat, fährt bei der Bildbeschau mit dem Plugin Fuzzy OCR [1] gut. Der Spamassassin sollte allerdings so neu wie möglich sein. Außerdem bedarf es der Net-PBM-Tools, des »convert«-Binary aus Imagemagick, der Giflib, zweier Perl-Module sowie »gocr« für die eigentliche Texterkennung. Das klingt viel, doch die meisten Distributionen bringen alles mit. Die Perl-Module gibt’s per:

cpan -i Digest::MD5 String::Approx

Viele Schritte bis zur Bildinterpretation sind’s nicht mehr: »FuzzyOcr.cf« und »FuzzyOcr.pm« wandern ins Spamassassin-Verzeichnis, bei mir »/etc/mail/spamassassin«. Fuzzy OCR liefert mit »FuzzyOcr.words« eine Beispiel-Wortliste. Sie enthält Begriffe, nach denen Fuzzy in den Bildern suchen soll, und ist nach Belieben anpassbar. Auch diese Datei gehört ins Spamassassin-Verzeichnis.

Jetzt definiere ich in der »FuzzyOcr.cf« den Pfad, in dem das Logfile landen soll, sowie den zur Wortliste. Damit ist das Plugin bereit für seinen ersten Kampfeinsatz, denn Spamassassin findet das in seinem Startpfad liegende Modul automatisch und bindet es ein.

FuzzyOCR liefert ein wenig Probe-Spam mit, spannender ist aber der Test mit selbst empfangenem Müll. Denn draußen herrscht Multikulti: Es gibt Spam in allen Bildformaten und nicht selten sind die Mime-Types fehlerhaft deklariert, um Verwirrung zu stiften – zum Beispiel ein Gif als Jpeg. Fuzzy regiert auf solche Spielchen, indem es für falsche Typen Extra-Minuspunkte verteilt.

Gern greift der Gegner zu animierten Gifs, bei denen die ersten Animationsphasen Pixelschrott und nur die letzte Spamtext beinhalten. Der Absender spekuliert darauf, dass OCR-Engines nur die erste Animationsphase analysieren – zum Glück ist FuzzyOCR schlauer.

Schuld und Sühne

Jetzt geht es ans Feintuning in der »FuzzyOcr.cf«. Wer mit einer Spamassassin-Version unterhalb von 3.1.4 arbeitet, muss hier den Eintrag »focr_pre314 = 1« setzen. Wichtiger ist das Einpegeln der Scores, die FuzzyOCR vergibt, wenn es etwas Verdächtiges findet. Denn mit den Standardwerten verteilt das Programm recht hohe Strafen.

So bekommt eine Mail, in deren Bildanhang zwei Treffer aus der Wortliste stecken, vier Punkte aufs Spamkonto. Eineinhalb weitere Punkte gibt es, wenn der Mime-Type falsch deklariert ist. Zweieinhalb, wenn das Bild als »corrupt« gilt, und deren fünf, wenn der Fehler nicht behebbar ist. Das summiert sich (siehe Abbildung 1).

Abbildung 1: Fuzzy OCR erkennt lästige Textstellen in Bilddateien und verteilt dafür bittere Pillen.

Abbildung 1: Fuzzy OCR erkennt lästige Textstellen in Bilddateien und verteilt dafür bittere Pillen.

Diese Härte erhöht die Gefahr von False Positives: Man darf ja nicht vergessen, dass bei echtem Müll Spamassassin vermutlich noch andere Dinge auffallen – so kommen schnell utopisch hohe Scores zusammen. Darum empfehle ich, in der »FuzzyOcr.cf« die Punktwerte mindestens um die Hälfte zu reduzieren.

Und jetzt? Anlehnen und abwarten, was den Typen als Nächstes einfällt. (jk)

Infos

[1] Fuzzy OCR: [http://users.own-hero.net/~decoder/fuzzyocr/]

Der Autor


Charly Kühnast administriert Unix-Betriebssysteme im Rechenzentrum Niederrhein in Moers. Zu seinen Aufgaben gehören die Sicherheit und Verfügbarkeit der Firewalls und der DMZ (demilitarisierte Zone). In seiner Freizeit lernt er Japanisch, um endlich die Bedienungsanleitung seiner Mikrowelle lesen zu können.

Copyright © 2002 Linux New Media AG

LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben