Angereichert
Statt die Logdateien einfach unbearbeitet als einzelne E-Mails an den IMAP-Server zu schicken, reichert der Daemon sie vorher noch mit einigen Meta-Informationen an. Der Absender (»From:«) wird auf den Namen des Korrespondenzpartners gesetzt und mit einer Pseudo-Domain »@gaim« versehen, damit weder der IMAP-Server noch der später zum Lesen genutzte E-Mail-Client etwas zu meckern haben.
Das Datum der E-Mail bekommt noch den Startzeitpunkt der Konversation verpasst und das Modul DateTime::Format::Mail formatiert die Post anschließend korrekt nach RFC822.
Die Subject-Zeile der E-Mail soll die wichtigsten Themen der Konversation anzeigen, für den Chat in Abbildung 2 findet das Skript zum Beispiel Characters, Perl, Word, Split, Know, Bit. Richtige Topic-Extraction ist eine Wissenschaft für sich, aber »gaim2imap« genügen einige einfache Tricks, um ein zwar nicht perfektes, aber dennoch brauchbares Ergebnis zu erzielen.
Stoppwörter
Als Erstes versucht die Funktion »chat_process()« die in der Konversation dominierende Sprache zu ermitteln. Wer sich mit internationalen Partnern austauscht, konversiert vielleicht in Deutsch oder in Englisch oder noch einer anderen Sprache. Das CPAN-Modul Text::Language::Guess errät das recht zuverlässig, wenn sich die Optionen auf zwei oder drei Sprachen begrenzen lassen. Danach versucht »chat_process()« so genannte Stopwords [2] im Text zu finden.
Diese Wörter tragen keine inhaltliche Bedeutung, sind aber zum Verständnis eines Textes notwendig. Artikel (der, die, das), Personalpronomen (ich, du, er) oder Verbindungswörter (Konjunktionen: und, weil, oder ...) sind Beispiele für Stoppwörter in der deutschen Sprache. Erhält zum Beispiel eine Suchmaschine eine Anfrage wie "Wo ist eigentlich San Francisco?", wird sie alles außer der gesuchten Stadt sofort rauswerfen, um dann nur unter San Francisco im Index nachzusehen.
Um die wichtigsten Themen herauszufiltern, wählt das Skript einen eher hausbackenen Weg: Es zählt, wie oft bestimmte Wörter im Text vorkommen, gewichtet die häufigsten und gibt langen Wörtern (mit mehr als sechs Buchstaben) drei Extrapunkte. Wer möchte, kann ein besseres Verfahren einbauen, mein Arbeitgeber Yahoo bietet beispielsweise ein Web-API an, das zurzeit allerdings nur für englische Texte funktioniert.
| Whitepaper |
|
Open Source Datenintegration in der Praxis: Fallstudien und Anwendungsbeispiele (Folge 2)
Der zweite Teil des Open Source Datenintegration in der Praxis: Fallstudien und Anwendungsbeispiele White Papers beleuchtet anhand weiterer ausgewählter Case Studies die Implementierung von Open Source Datenintegration in der Praxis und benennt die daraus resultierenden Vorteile.
Download PDF (Registrierung erforderlich)
|
|
Usage Landscape Enterprise Open Source Data Integration
Die Nachfrage nach Datenintegrationslösungen für Unternehmen ist zunehmend gestiegen und vor allem das Interesse an Open Source Technologien wird immer größer. Doch wie und von wem werden Open Source Datenintegrationslösungen genutzt und welches Nutzungsverhalten lässt sich daraus ableiten? Das vorliegende White Paper präsentiert die Erfahrungswerte von über 1000 Open Source Nutzern und liefert fundierte Antworten auf diese Fragen.
Download PDF (Registrierung erforderlich)
|
Dieser Online-Artikel kann Links enthalten, die auf nicht mehr vorhandene Seiten verweisen. Wir ändern solche "broken links"
nur in wenigen Ausnahmefällen. Der Online-Artikel soll möglichst unverändert der gedrucken Fassung entsprechen.
|