Apples Siri, Microsofts Cortana, Googles Sprachsuche – alle setzen auf den Dialog mit dem Computer, ohne dass dabei die Hände auf der Tastatur liegen. Wie schlägt sich Amazons Assistentin Alexa, die ihren Nutzern ebenfalls aufs gesprochene Wort gehorchen soll? Deutlich wird: Sie hat zwei Gesichter.
Das ist nicht bloß, wie man vielleicht glauben könnte, ein artiges Kompliment an eine Frau in einer Dienstleistungsbranche. Nein, man kann es ihr nicht absprechen: Sie ist höflich und sie ist hilfsbereit. Auch wenn jemand ihr zehnmal dieselbe Frage stellt, schwingt in ihrer Antwort kein bisschen Zorn mit:
“Alexa, wie wird das Wetter morgen?” “Morgen gibt es in München Schnee mit einer voraussichtlichen Höchsttemperatur von minus 4 Grad und einer Tiefsttemperatur von minus 10 Grad.”
Selbst wenn der Frager mal kurz angebunden ist, lässt sie sich nichts anmerken und antwortet verbindlich wie immer:
“Alexa, wie spät?”
“Es ist vierzehn Uhr neun.”
Alexa hat nicht nur Manieren, sondern darüber hinaus etliche Talente. So macht sie als Diskjockey eine gute Figur:
“Alexa, spiele die Beatles.”
“Zufällige Wiedergabe von The-Beatles-Songs: ,Yesterday, all my troubles seemed so far away …'”
Das klappt nicht nur mit Hitparadenmusik oder Evergreens, auch Randy Newman oder Tom Waits sind für Alexa keine Unbekannten. Allerdings: Ihr Mono-Lautsprecher (Abbildung 1) klingt zwar passabel, beschert aber keinen echten Musikgenuss. Dafür muss der Liebhaber dann doch eigenhändig eine CD in den Hi-Fi-Player schieben.
Die Zuvorkommende
Am liebsten lässt sich Alexa nach harten Fakten fragen: Wie ist das Wetter? Wie hoch ist der Eiffelturm? Auch zu bekannten Künstlern oder zu Persönlichkeiten der Zeitgeschichte fällt ihr oft ein Satz ein: Wer waren Leonhard Cohen oder Carl Benz oder Helmut Kohl oder Beethoven? Darauf kennt sie Antworten, wenn auch oft ziemlich einsilbige. Mehr kann Alexa schon entlocken, wer sie gezielt nach Wikipedia-Einträgen fragt. Ferner kann sie Rundfunknachrichten wiederholen, wenn ihr Besitzer sie darum bittet, und sie kann dessen Google-Kalender konsultieren und anstehende Termine melden.
Damit geht sie bereits ein Stückchen über die reine Sprachsuche hinaus. Das tut sie auch, wenn sie Hörbücher vorlesen lässt – jedenfalls die der Amazon-Tochter Audible – oder beim Einkaufen via Amazon zur Hand geht. Auch kann sie Timer einstellen und deren Ablauf akustisch signalisieren. Sogar ausgewählte Smart-Home-Anwendungen (Beleuchtung und Temperaturregler von einigen Herstellern) schaltet sie auf Wunsch.
Auf diese Weise versteht es Alexa geschickt, eine Illusion zu nähren. Sie präsentiert sich als kundige und stets verständnisvolle Partnerin. Jedenfalls solange die Konversation bei den eingeübten Standardfragen bleibt. Denn jenseits der Musterdialoge wird offenbar, was Alexa wirklich versteht – rein gar nichts.
“Alexa, was ist heute in München los?”
“Das Datum von Vollmond ist 1:33 Uhr, 11. Februar 2017.”
“Alexa, wo steht das Völkerschlachtdenkmal?” “Was heißt ,Heizkosten’ auf Englisch?” “Wie funktionieren Vulkane?” Die Antworten auf all diese Fragen wären im Internet nur einen Klick entfernt. Doch Alexa zuckt die Schultern: “Entschuldigung, das gehört genau zu den Dingen, die ich nicht weiß.”
Wenn Alexa an Fragen scheitert, dann weil dabei eben nicht alle Möglichkeiten vorhersagbar sind. Menschen verstehen, worum es geht, auch wenn ihnen noch nie zuvor jemand diese spezielle Frage gestellt hat. Alexa nicht. Sie versteht keine einzige Frage, sie erkennt bestenfalls Muster.
“Alexa, wie lange brauche ich mit dem Auto nach Leipzig?”
“Diesen Ort kenne ich nicht.”
Das ist aber gar nicht wahr, denn die Frage “Wo liegt Leipzig?” kann Alexa beantworten. Wie weit es entfernt ist oder wie lange man dahin bräuchte, weiß sie nicht, weil sie in den Wörtern der Frage keinen Sinn erkennt. So ist sie außerstande Informationen zu verknüpfen, obwohl sie zu ihnen Zugang hätte.
Nebenbei: Andere Sprachassistenten, beispielsweise die von Google oder Samsung auf einem Android-Handy, kommen mit den oben genannten Fragen klaglos zurecht und beantworten sie korrekt.
Die Einnehmende
Alexa ist aber nicht nur diensteifrige Souffleuse, einen ganz andren Wesenszug offenbart sie denen, die sie unterrichten möchten. Ihre Fähigkeiten, neudeutsch Skills, lassen sich nämlich programmieren. Auf diesem Wege kann ihr der Hausherr das Mitdenken zwar auch nicht beibringen, aber immerhin ließe sich arrangieren, dass Alexa eine Informationsquelle im Internet anzapft und vorliest. Für solche Skills gibt es einen Marktplatz, und der Anwender kann sie nachinstallieren. Allerdings schwankt deren Qualität erheblich. Außerdem decken auch sinnvolle Skills mitunter nur winzige Bereiche ab: Eine Skill, die Auskunft über das örtliche Kinoprogramm gibt, fand sich nur für Bonn.
Wer nun selber eine Skill programmieren will, um eine Lücke zu schließen, der muss sich zunächst für ein so genanntes Schema entscheiden: Zur Wahl stehen das klassische “Custom Interaction Model”, das einen Dialog mit Alexa ermöglicht, das “Smart Home Skill API”, das sich für Sprachinterfaces eignet, die Dinge im Internet of Things dirigieren, sowie das “Flash Briefing Skill API”, mit dem sich leicht Nachrichten vorlesen lassen.
Im nächsten Schritt sind die Sätze festzulegen, auf die Alexa reagieren soll. Jeder Satz kann Variablen enthalten, hier heißen sie Slots, die bei der mündlichen Anfrage mit variierenden Inhalten eines Typs gefüllt sein dürfen. Das gesamte Dialogmodell wird schließlich in einer Json-Datenstruktur kodiert.
Für die eigentliche Programmierung der Aktionen von Alexa stellt Amazon Frameworks für Java und Node.js bereit. Prinzipiell wäre es möglich, eine beliebige Programmiersprache zu nutzen, dann müsste der Entwickler aber auch die in Json zu formulierenden Requests und Responds selbst realisieren.
Bleibt er bei Java, dann ist Kern des Backends für eine Alexa-Skill immer eine Klasse, die das Interface »Speechlet« implementiert. Dieses Interface stellt vier Callback-Methoden bereit, die der Programmierer überschreiben muss:
*»onSessionStarted(SessionStartedRequest request, Session session)«
*»SpeechletResponse onLaunch(Launch-Request request, Session session)«
*»SpeechletResponse onIntent(Intent-Request request, Session session)«
*»onSessionEnded(SessionEndedRequest request, Session session)«
Bevor der Entwickler aber nun ans Kodieren geht, ist noch eine nicht unerhebliche Hürde zu bewältigen. Die besteht aus einem “App Distribution and Services Agreement”, das der Programmierer akzeptieren muss. Liest er es, wird ihm Alexas einnehmendes Wesen offenbar, ihr zweites Gesicht.
Unter dem Punkt “Gewähren von Rechten” finden sich Bestimmungen, denen zufolge er nicht nur die “unwiderruflichen, kostenfreien, weltweiten” Rechte an seiner App an Amazon abtritt, sondern darüber hinaus auch das Recht, die von ihm entwickelte Skill nach Belieben zu verändern, um beispielsweise ein Digital Rights Management (DRM) einzubauen oder Daten für Analysezwecke zu erheben und weiterzugeben oder Metadaten hinzuzufügen. Auch die mit der Skill verbundenen Inhalte sind betroffen. Die Passage in trockenem Juristenenglisch ist lang, dabei hätte man sie gut und treffend abkürzen können: “Treten Sie uns alle vorstellbaren Rechte ab.”
Ein Mann und sein Wort
Das ist aber noch nicht alles: Amazon gehören am Ende nicht nur die selbst entwickelten Skills, sondern auch alle mitprotokollierten Anweisungen und Fragen, die der Nutzer jemals an Alexa gerichtet hat. Und die verraten einiges über seine Vorlieben, Gewohnheiten und Wünsche. “Kunden, die Alexa mehr als zwei Titel von Pink Floyd abspielen ließen, interessierten sich auch für …”
Selbstverständlich gibt sich Alexa sehr diskret – doch wer weiß, jedenfalls sind ihre sieben Mikrofone rund um die Uhr aufnahmebereit und registrieren jedes Wort im Umkreis von etlichen Metern. Zumindest alles, was auf das Schlüsselwort “Alexa” folgt, speichern hernach Amazons Cloudserver. Auch darüber hinaus scheint es technisch jedenfalls nicht völlig ausgeschlossen, das Gerät zum unbeschränkten Abhören seiner Umgebung zu missbrauchen.
Die Alexa-Entwickler hatten sich Ende letzten Jahres einen Spaß daraus gemacht, Alexa nach entsprechender Aufforderung ein paar Takte eines Weihnachtslieds trällern zu lassen. Allerdings wirft bereits eine leichte Modifikation der Aufgabe, die junge Frau wieder völlig aus der Bahn:
“Alexa, sing mir ein Schlaflied.”
“Entschuldigung, das weiß ich nicht. Aber lass uns Freunde bleiben.”
Gerne doch.






