Open Source im professionellen Einsatz

Zugriffe auf Webseiten mit Screen Scrapern automatisieren

Datenrüssel

Manchmal ist es zu umständlich, sich durch die Hierarchie einer Website zu wühlen, nur um eine bestimmte Information zu finden. Das Perl-Modul WWW::Mechanize::Shell hilft so genannte Screen Scraper zu schreiben, die wie Browser agieren und den Zugriff auf Webseiten automatisieren.

In Kalifornien darf man sich das Nummernschild fürs Auto gegen eine Gebühr selbst aussuchen. Aus nahe liegenden Gründen führt mein 13 Jahre alter Acura Integra das Kennzeichen "PERL MAN" (Abbildung 1). Die Kraftfahrzeugbehörde gibt sich fortschrittlich und bietet eine Webseite an, die prüft, ob das gewünschte Kennzeichen verfügbar ist - allerdings geht das vielen Anwendern zu langsam. Dieser Artikel zeigt, wie man die Abarbeitung von Webanfragen in einem Perl-Skript nachbildet.

Dazu bieten sich so genannte Screen Scraper an. Diese Programme bereiten bestimmte Daten für die Darstellung am Bildschirm auf, sie formatieren zum Beispiel HTML-Seiten für die Shell um.

Abbildung 1: Der erstaunliche PERL MAN: Schon 13 Jahre alt, doch er kann es einfach nicht lassen, die Sportwagen an den Ampeln San Franciscos zu provozieren.

Abbildung 1: Der erstaunliche PERL MAN: Schon 13 Jahre alt, doch er kann es einfach nicht lassen, die Sportwagen an den Ampeln San Franciscos zu provozieren.

Das passende Perl-Modul

Für solche Screen-Scraper-Programme hat Andy Lester das Modul WWW::Mechanize entwickelt. Neuerdings steht mit WWW::Mechanize::Shell von Max Maischein sogar eine Shell zur Verfügung, mit der Programmierer eine Browser-Session sehr schnell in ein Skript umwandeln. Die Beschreibung der Session erfolgt allein auf logischer Ebene, zum Beispiel: Folge einem Link auf der aktuellen Seite, der den Text \'xxx\' enthält. Das Skript funktioniert also auch dann, wenn sich das Format der Webseite ändert.

Über die CPAN-Shell lassen sich die Module WWW::Mechanize und WWW::Mechanize::Shell komfortabel installieren. Sie hängen ihrerseits von weiteren Modulen ab, deren Installation dank der Shell-Automatik ebenfalls einfach ist. Der Sreen Scraper benötigt zusätzlich das Modul IO::Socket::SSL, um auch mit HTTPS-Seiten zurechtzukommen.

Die Browser-Emulator-Shell startet nach folgendem Perl-Aufruf:

perl -MWWW::Mechanize::Shell -eshell


Dem Benutzer bietet sich nun ein Prompt. Um die Seite der kalifornischen Kraftfahrzeugstelle "Department of Motor Vehicles" zu laden, tippt er einfach »get http://www.dmv.ca.gov« ein, die Shell antwortet daraufhin mit »Retrieving http://www.dmv.ca.gov(200)« um zu signalisieren, dass das Skript die Startseite erfolgreich geladen hat (HTTP-Code 200).

Die Browserdarstellung der Seite in Abbildung 2 zeigt den gesuchten Link zu »Personalized Plates«. Um herauszufinden welche Links die Shell erkannt hat, genügt das Kommando »links«, das alle verfügbaren Verweise anzeigt:

>links
...
[14] Vehicle Industry & Commercial Permits
[15] Personalized Plates
[16] Disabled Placards
...


Nun könnte der Benutzer einfach dem Link Nummer 15 mit »open 15« folgen, aber das wäre nur begrenzt gültig, da sich Anzahl und Reihenfolge der Links auf einer regelmäßig gewarteten Seite stetig ändern. Der Vorgang sollte daher allgemein gültiger ablaufen, damit das Skript auch dann noch funktionsfähig ist, wenn die Behörde Verweise auf der Seite einfügt oder entfernt.

Abbildung 2: Die Eingangsseite des kalifornischen Department of Motor Vehicles. Der hervorgehobene Link führt zu einer Seite, auf der Kalifornier sich personalisierte Kfz-Kennzeichen erstellen lassen.

Abbildung 2: Die Eingangsseite des kalifornischen Department of Motor Vehicles. Der hervorgehobene Link führt zu einer Seite, auf der Kalifornier sich personalisierte Kfz-Kennzeichen erstellen lassen.

Links suchen per Regex

Folgender Befehl sucht nach einem Link, dessen Textbeschreibung das Wort »Personalized« enthält, und simuliert dann einen Klick darauf:

>open /Personalized/


Passen auf den angegebenen regulären Ausdruck mehrere Links, stellt die Mechanize-Shell ein Auswahlmenü dar. Im vorliegenden Fall passt nur ein einziger, was die Shell folgendermaßen quittiert:

Found 15
(200)


Die nächste Seite enthält den Link »order Special Interest and Personalized license plates«. Die Suche nach diesem Text mit »open "/order Special Interest/"« führt zu einer Seite, auf der sich mehrere HTML-Formulare befinden. Bei dem vorigen »open«-Befehl ist noch zu beachten, dass der reguläre Ausdruck in Anführungszeichen stehen muss, weil er Leerzeichen enthält. Die Formulare lässt sich der Benutzer mit dem Kommando »forms« anzeigen:

>forms
...
Form [2]
POST https://vrir.dmv.ca.gov/ipp/ PerLicensePlateServlet [personalized]
  page=Select                     (hidden)
  Submit2=Order Personalized      (submit)
...


Das zweite Formular, mit der Bezeichnung »personalized«, ist das hier relevante. Die Befehlsfolge »form "personalized"« und »submit« wählt es aus.

In einem weiteren Formular legt der Benutzer mit Drop-down-Menüs und Radio-Buttons Fahrzeugtyp, Nummernschildmuster und Ähnliches fest. Für so komplizierte Formulare eignet sich der Befehl »fillout«, der die Werte für die Formularfelder interaktiv vom Benutzer entgegennimmt. Dazu dient ein Dialog wie in Abbildung 3. Der Radio-Button »kidpic« bleibt mit einem Druck auf die [Enter]-Taste deaktiviert. Ein abschließender »submit«-Befehl veranlasst die Shell dazu, die eingestellten Werte an den Server zu schicken.

Abbildung 3: Die Shell des Moduls WWW::Mechanize::Shell verhält sich wie ein Webbrowser. Hier hat der Befehl »fillout« einen Dialog gestartet, in dem der Benutzer HTML-Formulare ausfüllt.

Abbildung 3: Die Shell des Moduls WWW::Mechanize::Shell verhält sich wie ein Webbrowser. Hier hat der Befehl »fillout« einen Dialog gestartet, in dem der Benutzer HTML-Formulare ausfüllt.

Auf der darauf folgenden Seite wählt der Anwender dann den Wunschtext seines Nummernschilds aus. Wie die Browser-Darstellung in Abbildung 4 zeigt, erfolgt dies wiederum über ein HTML-Formular, das die Buchstaben des Nummernschilds einzeln abfragt. Auch hier liefert ein »fillout« den nötigen Dialog und ein »submit« schickt die Daten.

Abbildung 4: Wer sein Auto in Kalifornien gemeldet hat, kann sich sein künftiges Nummernschild auf der Website des Department of Motor Vehicles selbst zusammenstellen, inklusive des Schriftzugs.

Abbildung 4: Wer sein Auto in Kalifornien gemeldet hat, kann sich sein künftiges Nummernschild auf der Website des Department of Motor Vehicles selbst zusammenstellen, inklusive des Schriftzugs.

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook