Open Source im professionellen Einsatz
Linux-Magazin 03/2004

Zugriffe auf Webseiten mit Screen Scrapern automatisieren

Datenrüssel

Manchmal ist es zu umständlich, sich durch die Hierarchie einer Website zu wühlen, nur um eine bestimmte Information zu finden. Das Perl-Modul WWW::Mechanize::Shell hilft so genannte Screen Scraper zu schreiben, die wie Browser agieren und den Zugriff auf Webseiten automatisieren.

806

In Kalifornien darf man sich das Nummernschild fürs Auto gegen eine Gebühr selbst aussuchen. Aus nahe liegenden Gründen führt mein 13 Jahre alter Acura Integra das Kennzeichen "PERL MAN" (Abbildung 1). Die Kraftfahrzeugbehörde gibt sich fortschrittlich und bietet eine Webseite an, die prüft, ob das gewünschte Kennzeichen verfügbar ist - allerdings geht das vielen Anwendern zu langsam. Dieser Artikel zeigt, wie man die Abarbeitung von Webanfragen in einem Perl-Skript nachbildet.

Dazu bieten sich so genannte Screen Scraper an. Diese Programme bereiten bestimmte Daten für die Darstellung am Bildschirm auf, sie formatieren zum Beispiel HTML-Seiten für die Shell um.

Abbildung 1: Der erstaunliche PERL MAN: Schon 13 Jahre alt, doch er kann es einfach nicht lassen, die Sportwagen an den Ampeln San Franciscos zu provozieren.

Das passende Perl-Modul

Für solche Screen-Scraper-Programme hat Andy Lester das Modul WWW::Mechanize entwickelt. Neuerdings steht mit WWW::Mechanize::Shell von Max Maischein sogar eine Shell zur Verfügung, mit der Programmierer eine Browser-Session sehr schnell in ein Skript umwandeln. Die Beschreibung der Session erfolgt allein auf logischer Ebene, zum Beispiel: Folge einem Link auf der aktuellen Seite, der den Text \'xxx\' enthält. Das Skript funktioniert also auch dann, wenn sich das Format der Webseite ändert.

Über die CPAN-Shell lassen sich die Module WWW::Mechanize und WWW::Mechanize::Shell komfortabel installieren. Sie hängen ihrerseits von weiteren Modulen ab, deren Installation dank der Shell-Automatik ebenfalls einfach ist. Der Sreen Scraper benötigt zusätzlich das Modul IO::Socket::SSL, um auch mit HTTPS-Seiten zurechtzukommen.

Die Browser-Emulator-Shell startet nach folgendem Perl-Aufruf:

perl -MWWW::Mechanize::Shell -eshell


Dem Benutzer bietet sich nun ein Prompt. Um die Seite der kalifornischen Kraftfahrzeugstelle "Department of Motor Vehicles" zu laden, tippt er einfach »get http://www.dmv.ca.gov« ein, die Shell antwortet daraufhin mit »Retrieving http://www.dmv.ca.gov(200)« um zu signalisieren, dass das Skript die Startseite erfolgreich geladen hat (HTTP-Code 200).

Die Browserdarstellung der Seite in Abbildung 2 zeigt den gesuchten Link zu »Personalized Plates«. Um herauszufinden welche Links die Shell erkannt hat, genügt das Kommando »links«, das alle verfügbaren Verweise anzeigt:

>links
...
[14] Vehicle Industry & Commercial Permits
[15] Personalized Plates
[16] Disabled Placards
...


Nun könnte der Benutzer einfach dem Link Nummer 15 mit »open 15« folgen, aber das wäre nur begrenzt gültig, da sich Anzahl und Reihenfolge der Links auf einer regelmäßig gewarteten Seite stetig ändern. Der Vorgang sollte daher allgemein gültiger ablaufen, damit das Skript auch dann noch funktionsfähig ist, wenn die Behörde Verweise auf der Seite einfügt oder entfernt.

Abbildung 2: Die Eingangsseite des kalifornischen Department of Motor Vehicles. Der hervorgehobene Link führt zu einer Seite, auf der Kalifornier sich personalisierte Kfz-Kennzeichen erstellen lassen.

Links suchen per Regex

Folgender Befehl sucht nach einem Link, dessen Textbeschreibung das Wort »Personalized« enthält, und simuliert dann einen Klick darauf:

>open /Personalized/


Passen auf den angegebenen regulären Ausdruck mehrere Links, stellt die Mechanize-Shell ein Auswahlmenü dar. Im vorliegenden Fall passt nur ein einziger, was die Shell folgendermaßen quittiert:

Found 15
(200)


Die nächste Seite enthält den Link »order Special Interest and Personalized license plates«. Die Suche nach diesem Text mit »open "/order Special Interest/"« führt zu einer Seite, auf der sich mehrere HTML-Formulare befinden. Bei dem vorigen »open«-Befehl ist noch zu beachten, dass der reguläre Ausdruck in Anführungszeichen stehen muss, weil er Leerzeichen enthält. Die Formulare lässt sich der Benutzer mit dem Kommando »forms« anzeigen:

>forms
...
Form [2]
POST https://vrir.dmv.ca.gov/ipp/ PerLicensePlateServlet [personalized]
  page=Select                     (hidden)
  Submit2=Order Personalized      (submit)
...


Das zweite Formular, mit der Bezeichnung »personalized«, ist das hier relevante. Die Befehlsfolge »form "personalized"« und »submit« wählt es aus.

In einem weiteren Formular legt der Benutzer mit Drop-down-Menüs und Radio-Buttons Fahrzeugtyp, Nummernschildmuster und Ähnliches fest. Für so komplizierte Formulare eignet sich der Befehl »fillout«, der die Werte für die Formularfelder interaktiv vom Benutzer entgegennimmt. Dazu dient ein Dialog wie in Abbildung 3. Der Radio-Button »kidpic« bleibt mit einem Druck auf die [Enter]-Taste deaktiviert. Ein abschließender »submit«-Befehl veranlasst die Shell dazu, die eingestellten Werte an den Server zu schicken.

Abbildung 3: Die Shell des Moduls WWW::Mechanize::Shell verhält sich wie ein Webbrowser. Hier hat der Befehl »fillout« einen Dialog gestartet, in dem der Benutzer HTML-Formulare ausfüllt.

Auf der darauf folgenden Seite wählt der Anwender dann den Wunschtext seines Nummernschilds aus. Wie die Browser-Darstellung in Abbildung 4 zeigt, erfolgt dies wiederum über ein HTML-Formular, das die Buchstaben des Nummernschilds einzeln abfragt. Auch hier liefert ein »fillout« den nötigen Dialog und ein »submit« schickt die Daten.

Abbildung 4: Wer sein Auto in Kalifornien gemeldet hat, kann sich sein künftiges Nummernschild auf der Website des Department of Motor Vehicles selbst zusammenstellen, inklusive des Schriftzugs.

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Schlüsseldienst

    Ein Perl-Skript erspart dem eiligen Nutzer das Herumklicken auf Splash-Pages von Wifi-Providern, indem es Geschäftsbedingungen automatisch abnickt und den Zugriff freischaltet.

  • Zoidberg: Shell für Perl-Liebhaber

    Der Perl-Entwickler Joel Berger hat Zoidberg, eine modulare Perl-Shell, wiederbelebt.

  • PHP: Dateien lassen sich per Upload-Feature überschreiben
  • Perl-Snapshot

    Gibt es kein API für das Einsammeln von Webinformationen, hilft oft Perl mit der Brechstange des Screenscraping. Seit Neuestem überwindet es dabei sogar die Hürde Javascript.

  • Perl-Snapshot

    Ist Perlmeister Schilli unterwegs, weiß er gern, was daheim abgeht. Mit zwei Skripten bekommt er es hin, dass die angeschaffte Billigkamera über das Tumblr-API zyklisch Schnappschüsse auf der Micro-Blogplattform ablegt. Tierisch schick, diese Überwachung.

comments powered by Disqus

Ausgabe 09/2017

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.