Wie dumm das gewohnte Web ist, zeigt sich oft schon bei der einfachen Google-Suche. Wer mit Hilfe der Suchmaschine zum Beispiel ein Linux-Problem lösen will, stößt zwar meist auf Leidensgenossen, findet aber nicht unbedingt eine Antwort. Das liegt daran, dass Google nur das Auftreten der Schlüsselwörter vergleicht, mit denen der Anwender bei der Suche sein Problem umreißt.
Die Google-Logik analysiert weder die Struktur einer Forumskonversation (ein Frage-Antwort-Schema) noch die Dokumentenstruktur. Letzteres führt zum Beispiel auch dazu, dass eine Suche nach »Linux Schlüsselwort« zu Artikeln verzweigt, die mit Linux gar nichts zu tun haben, nur weil auf dem entsprechenden Portal in der Seitenleiste immer der Menüpunkt »Linux« steht.
Nur in Ansätzen macht Google etwas, was man als Sprachanalyse bezeichnen kann. Mit Hilfe statistischer Methoden, so genannter N-Gramme, kann Google falsch geschriebene Wörter oder Phrasen korrigieren. Es ist jedoch nicht in der Lage, die Bedeutung gesuchter Wörter zu erkennen. Für Google gibt es keinen Unterschied zwischen der Bank als Zahlungsinstitut und der Bank als Sitzgelegenheit. Angesichts der Komplexität der menschlichen Sprachen ist es im Übrigen fraglich, ob Computer dazu jemals in der Lage sein werden.
Bessere Informationen
Mit solchen Problemen wollte und will sich eine Entwicklergemeinde des Web nicht zufrieden geben, die sich unter dem Schlagwort "Semantic Web" versammelt. Eine ganzer Reihe großer Namen, darunter nicht zuletzt der Web-Vater Tim Berners-Lee, will Daten im Web mit Meta-Informationen anreichern, um ihre maschinelle Verarbeitung intelligenter und damit für Menschen nützlicher zu machen [1].
Einerseits sollen die Metadaten die Beschaffenheit der dargestellten Daten näher spezifizieren, andererseits sollen so genannte Taxonomien oder Ontologien ein gemeinsames Weltbild festlegen, mit dessen Hilfe der Computer weitere Schlüsse zieht. So kann eine Seite, die einen Autotyp näher beschreibt, die semantische Information "Auto" enthalten. Ist in der entsprechenden Ontologie ein Auto ein bestimmter Typ eines Fahrzeugs, kann auch eine semantische Suche nach "Fahrzeug" die beschriebene Automobil-Seite finden.
Richtig durchsetzen konnten sich die Techniken des semantischen Web bisher nicht. Das liegt unter anderem an dem langsamen Standardisierungsprozess des W3-Konsortiums, aber auch an der Vielzahl unterschiedlicher Normen und in der Praxis verwendeten Technologien. Am weitesten verbreitet ist wohl das Resource Description Format RDF, das in geringem Umfang bei den beliebten RSS-Newsfeeds zum Einsatz kommt [2]. Allerdings basieren nicht alle RSS-Formatversionen auf RDF.
Mikroformate
Mit dem Einsatz der Seitenbeschreibungssprache HTML beschränkt sich das Web gegenwärtig auf die Repräsentation der Textoberfläche, also die Darstellungsebene. Egal ob es sich um eine Liste von Personen oder eine Liste von Autos handelt, die entsprechenden Tags im HTML-Markup sind die gleichen, zum Beispiel »li«, »div« oder »td«. Die im Umfeld von Web 2.0 in letzter Zeit viel diskutierten Mikroformate versuchen in das HTML-Web etwas Semantik einzuführen, indem sie Meta-Informationen in das Klassenattribut von HTML-Elementen eintragen, zum Beispiel:
<div class="Strasse">Süskindstraße</div>
Wie leicht vorstellbar ist, geht das eher mit sehr minimalistischem Markup als mit Seiten, die ihre Informationen übermäßig auszeichnen. Entsprechend sind die Hauptanwendungen für Mikroformate derzeit Kalendereinträge und elektronische Visitenkarten.
Was die zugrunde liegende Ontologie oder Taxonomie betrifft, sorgen die so genannten Folksonomies zumindest bei einzelnen Sites für Einheitlichkeit. Benutzer heften dabei ihren Onlinedaten, zum Beispiel den Fotos bei Flickr.com, mehrere Schlüsselwörter an, die im Fachjargon ebenfalls Tags heißen. Durch Server-seitige Speicherung und Ajax-Techniken können Benutzer nicht nur immer neue Tags vergeben, sondern auch auf den Bestand bereits vergebener Schlüsselwörter zurückgreifen.
Mikroformate und Folksonomies werden von einigen schon als semantisches Web von unten bezeichnet, weil sie einige Probleme des semantischen Web gewissermaßen ad hoc zu lösen versuchen. Auch die Vertreter der reinen Lehre setzen nicht unbedingt auf Ontologien, die von Standardisierungsgremien konstruiert werden, sondern sehen in den Folksonomies durchaus Potenzial. Das Web 2.0 lässt sich deshalb als Übergangsphase verstehen, das sukzessive mehr semantische Techniken integriert.