Sprache galt lange als menschliches Alleinstellungsmerkmal. Inzwischen aber können Rechner zumindest übersetzen, Kommandos verstehen oder ein Resümee formulieren. Computerlinguisten wollen sie bald noch verständiger und wortgewaltiger machen.
Linux-Magazin: Der Wissenschaftsverlag Springer Nature hat kürzlich ein Buch veröffentlicht, dessen Autor ein Computer ist. Es geht dabei um eine Zusammenfassung von Forschungsergebnissen zu Lithium-Ionen-Akkus (Abbildung 1). Inwieweit kann ein Rechner derzeit die Relevanz fachspezifischer Texte erfassen? Und kann er dabei überhaupt ein Verständnis für den Inhalt entwickeln, oder muss er zum Beispiel schlicht die am häufigsten genannten Fakten für die relevantesten halten?

Abbildung 1: Das erste computergenerierte Buch fasst Forschungsergebnisse zum Thema Batterien zusammen.
Sebastian Pado: Das Vorwort des entsprechenden Buches beschreibt relativ genau, wie die Forscher vorgegangen sind: Mit Gruppierung von Dokumenten, Identifikation relevanter Textteile, Aggregierung und Paraphrasierung beziehungsweise Angleichung dieser Textteile. Die einzelnen Komponenten sind nicht verbunden und werden hintereinander ausgeführt.
Identifikation relevanter Textteile heißt hier, dass Sätze (oder Satzteile oder Satzfolgen) identifiziert werden, die zentral für den Artikel sind. Ich gehe davon aus, dass die Forscher dafür ein statistisches Modell anhand existierender Daten trainiert haben. Der Rechner übte also mit existierenden Artikeln, in denen Domänenexperten die besonders relevanten Sätze markiert hatten.
Vermutlich – hier kann ich allerdings nur spekulieren – verwendet das Modell hierfür sowohl lexikalische Information (also: Welche Worte kommen in den Sätzen vor? In welchen Kontexten?) als auch strukturelle Information (Wo im Dokument stehen die Sätze? In welchem Abschnitt?). Das heißt, das Modell lernt statistische Regelmäßigkeiten wie: “Wenn ein Satz im Abstract vorkommt und ‘we find that …’ enthält, dann ist er vermutlich relevant.”
Von einem wirklichen, tiefen Verständnis des Inhalts sind wir hier sehr weit entfernt. Frequenz oder Häufigkeit kann in diesem Prozess eine Rolle spielen, muss aber nicht. Die kommt noch am ehesten beim Aggregationsschritt zum Tragen, wenn die relevanten Sätze aus sehr vielen Dokumenten zusammenzufassen sind.
Sebastian Pado
Sebastian Pado studierte an der Universität des Saarlandes und der University of Edinburgh Computerlinguistik, Informatik und Kognitionswissenschaft. Er promovierte 2007 an der Universität des Saarlandes mit einer computerlinguistischen Arbeit zu mehrsprachiger Bedeutungsanalyse. Von 2007 bis 2009 war er Postdoc an der Stanford University, 2010 bis 2013 Professor an der Universität Heidelberg. Seit 2013 ist er Professor für theoretische Computerlinguistik an der Universität Stuttgart. Seine Forschung befasst sich mit dem automatischen Lernen von sprachlichem Wissen und Weltwissen aus Text, um damit zum einen sprachwissenschaftliche Theoriebildung zu unterstützen, zum anderen menschliches Sprachverstehen zu erklären und drittens intelligente sprachverarbeitende Systeme zu entwickeln.
Linux-Magazin: Die Forschung zu Akkumulatoren ist ein sicherlich sehr technisches Feld, das mit vielen messbaren Fakten umgeht. Das ist ja aber nicht überall in der Wissenschaft so. Könnten Rechner stattdessen auch beispielsweise geisteswissenschaftliche Publikationen zusammenfassen?
Sebastian Pado: Die Übertragbarkeit auf andere Domänen ist eine offene Forschungsfrage. Nach meiner Erfahrung sind geisteswissenschaftliche Texte aber tatsächlich komplexer strukturiert: Sie fallen oft weniger schematisch aus als naturwissenschaftliche Texte und bestehen weniger aus einzelnen Fakten, sondern mehr aus komplexen Hypothesen mit umfangreichen Argumentationen. Ich möchte nicht ausschließen, dass das in ein paar Jahren möglich ist, dazu entwickelt sich das Feld im Moment zu schnell – aber mit der aktuellen Technologie, die auch hinter dem angesprochenen Buchprojekt steckt, stelle ich mir das sehr schwierig vor.
Linux-Magazin: Ein Standpunkt, mit dem sich zunächst ein origineller Querdenker gegen den Mainstream stellt, kann unter Umständen für den Fortschritt entscheidender sein als die Mehrheitsmeinung. Wie kann ein Computer Erkenntnisse bewerten, die noch nicht durch ähnliche Resultate abgesichert sind?
Sebastian Pado: Ihre Frage setzt voraus, dass der Computer Fakten verbindet und globale Konsistenz betrachtet. Wie ich aber schon erklärt habe, ist das bei “einfacher” Zusammenfassung in der Regel nicht der Fall. Anders formuliert besteht also der Normalfall darin, dass der Computer nur auf der textuellen Ebene arbeitet. Er erkennt Aussagen und fasst sie gegebenenfalls zusammen, aber je weiter es davon weggeht, desto schwieriger wird es. Beim Bewerten und Einordnen von Aussagen vor dem Hintergrund einer Menge von bekannten Aussagen handelt es sich um eine sehr schwierige Aufgabe. Sie steht gerade erst an den Anfängen – gerade, weil es so schwierig ist, dem Rechner Weltwissen beizubringen.
Die zwei Gebiete, in denen am intensivsten daran gearbeitet wird, sind zum einen die Extraktion wissenschaftlicher Ergebnisse (Stützen sie vorherige Ergebnisse? Widersprechen sie ihnen?) und zum anderen Faktenprüfung (Ist eine Nachricht plausibel, oder handelt es sich potenziell um Mis- oder Desinformation?). Für beide Anwendungen gilt im Moment, dass wir der Maschine nicht voll vertrauen; stattdessen versuchen wir, diejenigen Fälle zu identifizieren, die sich ein menschlicher Experte noch einmal anschauen sollte – entweder weil sie interessant oder auffällig sind, oder weil die Maschine sich unsicher ist, was sie davon halten soll.
Linux-Magazin: Sie erwähnen Faktenprüfung oder neuhochdeutsch Fact Checking. Die großen sozialen Medien, Facebook oder Twitter zum Beispiel, beschäftigen Heerscharen von menschlichen Zensoren. Sie sollen Postings finden, die gegen die Richtlinien des Mediums verstoßen, weil sie sexistisch, rassistisch, gewaltverherrlichend oder anderswie unethisch sind. Wird man diese psychisch belastende Arbeit in näherer oder fernerer Zukunft Rechnern übertragen können?
Sebastian Pado: Das sehe ich kurzfristig nicht kommen, zumindest nicht mit wirklich hoher Qualität in dem Sinn, dass man alle problematischen, aber nur die problematischen Postings identifiziert. Maschinelles Lernen funktioniert ja in der Regel so, dass der Computer bereits von Menschen klassifizierte Beispiele betrachtet und statistische Regelmäßigkeiten extrahiert. Das heißt in der Computerlinguistik: Wörter und Wortfolgen, die mit bestimmten Klassen korrelieren.
Und hier scheitert es bei den meisten Kategorien, die Sie genannt haben, schon daran, dass sich in vielen Fällen nicht einmal Menschen einig sind, was in die Kategorie gehört und was nicht. Beispiel: Chatpartner, die sich kennen, können “Alter”, “Dicker” oder Schlimmeres zueinander sagen, und das ist völlig okay. In der Kommunikation mit Fremden wäre das schon grob beleidigend, es sei denn, es ist wiederum ironisch gebrochen. Gibt man Menschen genügend Kontext – vorherige und nachfolgende Interaktionen zwischen A und B, sonstige Beispiele aus dem gleichen Chat oder Forum –, können sie das entscheiden; Maschinen fällt das sehr schwer (Abbildung 2).

Abbildung 2: Sprache zu verstehen ist eine komplexe Aufgabe, besonders wenn der Kontext den Sinn bestimmt. Quelle: lassedesignen, 123RF
Dass es sehr viele grenzwertige Fälle gibt, soll allerdings nicht heißen, dass es nicht auch eindeutige Fälle gebe. Es ist also durchaus denkbar, High-Precision-Klassifikatoren zu entwickeln, die diejenigen Fälle entdecken, die eindeutig problematisch sind – also quasi vorfiltern –, aber keinen Anspruch erheben, alles Problematische zu entdecken. Da stoßen wir aber immer noch an die Grenzen, dass zum Beispiel Zitate oder ironische Verfremdungen auf der Textebene nach wie vor problematisch aussehen. Es bleibt also schwierig.
Die letzte Ebene, auf der ich Kritikpunkte sehe, ist die ethische Dimension: Wollen wir wirklich Maschinen die Kontrolle darüber geben, was als problematisch geflaggt wird? Hier dürfte viel davon abhängen, wie sich der Prozess gestaltet: Wird gleich geblockt? Wird manuell nachgesehen? Und was gibt es für Einspruchsmöglichkeiten?
Linux-Magazin: Das erste maschinengenerierte Buch ist auf Englisch erschienen. Inwieweit sind Algorithmen zum Textverstehen abhängig von einer konkreten Sprache, und ist das Englische da im Vorteil?
Sebastian Pado: Fast alle Verfahren, die wir verwenden, basieren auf sogenannten überwachten Lernverfahren. Das heißt, sie sind auf Daten trainiert, die bereits mit der Information ausgezeichnet sind, die man später automatisch ermitteln will (Annotation).
Hier gilt generell: Je mehr sich die Trainingstexte und diejenigen Texte ähneln, die man nachher analysieren möchte, desto besser fallen die Ergebnisse aus. Dann funktionieren die gelernten statistischen Muster am besten. Je weiter voneinander entfernt die Texte sind, desto schlechter klappt es. Deshalb kann man zum Beispiel innerhalb eines Wissenschaftszweigs gut generalisieren, zwischen verwandten Wissenschaften sollte es auch noch halbwegs gut funktionieren, aber die Übertragung auf andere Textsorten ist schwierig, sofern keine Daten für diese Domäne vorliegen.
Das Englische ist insofern privilegiert, als dass es dafür von allen Sprachen die größte Spanne an verschiedenen Texten mit Annotation gibt und in der Regel auch die umfangreichsten Texte. Man kann also fürs Englische am schnellsten und zuverlässigsten sprachverarbeitende Programme entwickeln. Hinzu kommt, dass das Englische mit seiner relativ festen Satzstellung (Subjekt, Verb, Objekt) und seiner einfachen Wortbildung (keine Fälle und keine verschiedenen Verbformen, wie es sie etwa im Deutschen gibt), ohnehin – zumindest für manche Aspekte – sehr einfache sprachliche Muster bildet.
Es gibt aber auch eine rege Forschung zu sprachübergreifenden Modellen, die entweder einen Transfer von Sprache A nach Sprache B betreiben oder direkt mehrsprachig auf Texten von Sprache A und Sprache B trainiert werden. Hier gab es in den letzten Jahren große Fortschritte, sodass man heute die Texte fürs Englische auch erstaunlich gut für die Verarbeitung anderer Sprachen (mit-)nutzen kann.
Linux-Magazin: Sie sprechen die relativ einfache Grammatik des Englischen an. Müsste dann nicht eine künstlich geschaffene Plansprache wie Esperanto dem sprachanalysierenden Rechner noch mehr entgegenkommen? Dort gibt es keinen Genus, nur eine Deklination, nur eine Konjugation und so weiter.
Sebastian Pado: Alle menschlichen Sprachen dienen zur Kommunikation in ganz ähnlichen Situationen, also müssen alle Sprachen einen ähnlichen Informationsgehalt oder eine ähnliche Bandbreite aufweisen. Es ist in der Sprachwissenschaft gut dokumentiert, dass die Komplexität auf den verschiedenen sprachlichen Ebenen, mit denen sich Information kodieren lässt, in der Summe vergleichsweise ähnlich ausfällt. Einfache Wortstellung (Syntax)? Dann ist die Wortbildung (Morphologie) vermutlich komplex. Einfache Syntax und Morphologie? Dann müssen Unterscheidungen auf lexikalischer Ebene (neue Wörter) getroffen werden – und so weiter.
Es stimmt, dass Plansprachen wie Esperanto in der Regel vereinfacht definiert werden, zumindest aus Sicht der Sprecher bestimmter Ursprungssprachen. Wenn diese Sprachen aber von vielen Sprechern über längere Zeit und als Muttersprache gesprochen würden, würden sie sich so verändern, dass sie wieder die mehr oder minder einheitliche Bandbreite erreichen.
Das lässt sich anhand zahlreicher Sprachkontakte zwischen Völkern belegen, die keine gemeinsame Sprache haben, etwa Englisch + X im kolonialen Kontext. Im ersten Anlauf entstehen Pidgin-Sprachen mit sehr vereinfachten Strukturen. In der nächsten Generation werden Pidgins in der Regel durch Kreol-Sprachen ersetzt, die auf den Pidgins aufbauen, aber deutlich komplexer ausfallen und sich von den Ursprungssprachen emanzipieren.
Linux-Magazin: Menschliches Sprachverstehen spielt sich vor dem Hintergrund eines mehr oder weniger umfassenden Wissens um Dinge und Zusammenhänge in der realen Welt ab, das ein Computer in vergleichbarer Weise nicht hat oder haben kann. Vermag er dieses Manko zu kompensieren?
Sebastian Pado: Ich finde, eine ganz treffende Metapher ist die, dass der Rechner mit Texten generell so umgeht wie ein Mensch mit Texten zu einem Thema, mit dem er sich nicht auskennt – etwa Jura, Geschichte, Naturwissenschaft…
In einem ersten Durchlauf würde er vermutlich erst einmal versuchen, das Fachvokabular zu identifizieren – bei Jura etwa Urteil, Gesetz, Fall, Paragraf, Schuld. Beim Rechner nennen wir das Stichwortsuche. Im zweiten Durchlauf würde er dann versuchen zu verstehen, wie die Fachkonzepte zusammenhängen: Ein Urteil wendet ein Gesetz (das aus Paragrafen besteht) auf einen Fall an und interpretiert, ob die Bedingungen zutreffen und so weiter. Das geht dann über die Erkennung von Konzeptstichwörtern hinaus: Hier erkennt der Rechner Beziehungen zwischen Konzepten, konkrete Instanzen dieser Konzepte im Text und so fort.
Im Idealfall entsteht dabei ein Konzeptgerüst, das dann dabei hilft, Texte besser und tiefer zu verstehen (bei Menschen: Texte eines Themas, beim Rechner: generell). Weil das aber schwierig ist, lässt man den Rechner häufig nicht alles aus Text lernen, sondern gibt ihm bestimmtes Wissen schon mit in Form einer Ontologie (Konzepthierarchie), die bereits einen Grundwortschatz an Konzepten enthält und definiert, wie diese verbunden sind.
Linux-Magazin: Weil Sie die Ontologien erwähnen: Die können aber nur Fachwissen eines Gebietes in eine Ordnung bringen. Nehmen wir an, ich spräche eine Sprache, die die Redewendung “wie ein Elefant im Porzellanladen” nicht kennt. Dann würde ich mir die Bedeutung dennoch aus der wörtlichen Übersetzung erschließen können, weil ich wüsste, dass ein Elefant groß und schwerfällig ist, Porzellan dagegen leicht zerbrechlich. Ich könnte mir aber keine Ontologie vorstellen, die diese Eigenschaften von Elefant und Porzellan in einer Hierarchie sinnvoll einordnet.
Sebastian Pado: Ich würde gerne zwei Dinge unterscheiden: Worte und Konzepte. Trotz des ersten Augenscheins gibt es da nämlich keine Eins-zu-eins-Beziehung, und was Sie sagen, geht genau in diese Richtung. Ontologien sind im Idealfall eine Beschreibung der Struktur von und zwischen Konzepten – ergänzt, im typischen Fall, um Abbildungen dieser Konzepte auf Worte. Das kann man auch in mehreren Sprachen tun – dann hat man eine sprachunabhängige Ontologie. Und ja, Ontologien gibt es vor allem für spezifische Gegenstandsbereiche, aber nicht nur. Es gibt auch Ontologien wie Princeton WordNet oder Berkeley FrameNet, die versuchen, allgemeinsprachliche Konzepte ontologisch abzubilden. Das ist schwierig, funktioniert aber zu einem gewissen Grad.
Ihr Beispiel ist etwas, das wir als Redewendung oder Idiom bezeichnen würden, also ein Fall, in dem man nicht die einzelnen Worte auf Konzepte abbilden sollte – es geht ja gerade nicht um Elefanten und Porzellanläden. Man muss vielmehr erkennen, dass die Phrase als Ganzes einem Konzept entspricht, nämlich so etwas wie “sich ungeschickt verhalten”. Sofern die Ontologie, mit der man arbeitet, ein solches Konzept beinhaltet, stellt die Ebene der Bedeutungsrepräsentation also kein Problem dar.
Die Frage ist nur, wie man erkennt, dass es sich um eine Redewendung handelt. Da wiederum arbeitet man in der Regel mit statistischen Verfahren, die zu erkennen versuchen, ob die Redewendung in dieser oder ähnlicher Form schon einmal vorgekommen ist – auch Menschen verstehen ja Redewendungen nur schwer, die sie noch nie gehört haben. Das funktioniert für sogenannte konventionalisierte oder etablierte Redewendungen ganz gut, aber nicht für wirklich kreativen Sprachgebrauch – was wohl auch für Verfahren zu erwarten ist, die primär Regelmäßigkeiten aus existierendem Sprachgebrauch ableiten.
Linux-Magazin: Werden Computer jemals so etwas wie Ironie verstehen, die ja gerade darauf beruht, dass jeder Kommunikationspartner weiß, dass das Gesagte und das Gemeinte divergieren?
Sebastian Pado: Das ist etwas, an dem wir tatsächlich an unserem Institut konkret forschen. Die Antwort: Es kommt auf die Art der Ironie an. Ironie umfasst ja auch ein weites Spektrum an Äußerungen. Je mehr klare sprachliche Signale es gibt, desto einfacher: Hashtags, Großschreibung, Interpunktion machen es einem einfach (“Ich hatte gestern ja SO einen tollen Tag!?!! #ironie”).
Je kontextueller die Ironie ausfällt, also je subtiler sie ist, desto schwieriger wird es. Beispiel 1: Literarische Ironie, die ein allgemeiner Stil wird (Arno Schmidt). Beispiel 2: Selbstbezüglichkeit, wie in einem Beispiel in der deutschen Wikipedia zum Stichwort Ironie. Da hält eine Person ein schäbiges Pappschild hoch, auf dem steht: “Ein richtiges Schild kann ich mir nicht leisten.”
Linux-Magazin: Können Computer auf das Feedback ihrer Leser reagieren und sich beispielsweise bemühen, verständlicher zu schreiben?
Sebastian Pado: Spannende Frage – bisher noch nicht. Aber gerade das ist im Moment ein aufkommendes Thema oder vielmehr eine sehr allgemeine Perspektive, die das Potenzial hat, viele verschiedene Aufgaben in unserem Feld zusammenzubringen. Bisher hat man bei Textgenerierung primär betrachtet, was der Rechner erzeugen soll. Jetzt stellt man fest, dass es auch sehr spannend ist zu betrachten, wie der generierte Text aussehen soll. Da kommen ganz verschiedene Parameter ins Spiel. Wenn ich die Länge vorgeben kann, bekomme ich (hoffentlich) ein System, das Zusammenfassungen generieren kann. Kann ich den Stil vorgeben (formell/informell), bekomme ich ein System, das mit Fachleuten und Laien zu sprechen vermag. Wenn ich die Sprache vorgeben kann, bekomme ich ein Übersetzungssystem.
Und jetzt die konkrete Antwort auf Ihre Frage: In diesem Sinn würde ich dann eben gerne vorgeben, wie die Lesbarkeit respektive Verständlichkeit des Texts ausfallen soll. Dazu gibt es diverse Messinstrumente aus der Psychologie (Readability). Beispielsweise wird ein Text dadurch verständlicher, dass er häufigere und damit einfachere Wörter verwendet, dass die Sätze kürzer ausfallen und expliziter aneinander angebunden werden. Also statt “Peter stand auf. Er trank Kaffee.” eher “Peter stand auf. Dann/Als Erstes trank er Kaffee.” (jcb)






