Menu

Die Stimme ist das kommende Interface

Wer will noch tippen, wenn das Handy nun zuhören kann? Siri, die Spracherkennungstechnik von Apple, ist noch nicht perfekt, verwechselt schon mal Auberginen und Oberschienen. Doch das ist die Zukunft, die den Konzernen vor allem eines bringt: noch mehr Nutzerdaten, glaubt Sascha Lobo.  

Im September 2010 hielt der damalige Google-Chef Eric Schmidt auf der Internationalen Funkausstellung einen Vortrag über die spektakulären Vorteile seines spektakulären Unternehmens. Soweit, so unspektakulär. In einem Halbsatz aber ließ er die Zukunft der digitalen Sphäre erkennen, garniert mit dem Gesichtsausdruck desjenigen, der glaubt, mehr über die kommende Welt zu wissen als seine Zuhörer. Viele Nerds neigen zu einem solchen Gesichtsausdruck. Man gewöhnt ihn sich an, wenn man als einziger in der Firma oder Familie weiß, wie man einen Router anschließt. Aber nur bei wenigen Nerds ist er so berechtigt, denn ein Google-CEO vermutet nicht, was die Zukunft bringen könnte, sondern produziert die Zukunft selbst. Der Halbsatz lautete übersetzt: „In den USA werden ein Drittel der mobilen Suchanfragen via Stimme gestellt.“

Spätestens seit der Einführung des iPhone 4S und der dazugehörigen digitalen Sprachassistentin Siri ist klar: Das kommende Interface zwischen Mensch und Maschine ist die Stimme. Diese Erkenntnis ist nicht unbedingt neu, sondern gehört zum Standard vieler Science-Fiction-Klassiker. Mangelnde Qualität der Spracherkennung ist dabei kein Argument: Hätte man etwa 2003 Leute gefragt, ob sie ein Handy mit Touchscreen haben wollen würden, die meisten hätten wohl abgelehnt: „Dieser plumpe, ungenaue Touch-Quatsch wie beim Geldautomaten?“

Neu ist aber die Kombination aus Spracheingabe und sozialen Medien. Jeder Inhalt, jedes Datum auf einer Plattform stellt eine neue Chance dar, Werbung zu verkaufen. Den substantiellen Fortschritt der sozialen Medien gegenüber klassischen Medien aber stellt die Vernetzung dar: Das Wertvolle an Social Networks sind nicht nur die Daten, sondern vor allem deren Einordnung in den richtigen Kontext. Facebook hat einen simplen, aber effektiven Weg gefunden, den sozialen Kontext persönlicher Daten zu bestimmen: Es fragt nach. Manchmal fast nebenbei wie bei der Bestätigung einer Freundschaftsanfrage. Und manchmal sehr offensiv, wenn zur „Erhöhung der Sicherheit“ unbedingt die Handynummer, eine zweite E-Mail-Adresse und am besten auch die Kreditkartennummer angegeben werden soll. Sicher ist sicher. Durch die Kombination mit den persönlichen Interessen, laufend durch den Nutzer selbst upgedated, ergibt sich eine kommerzielle Ansprachemöglichkeit. Nicht zuletzt oder vielmehr zuerst deshalb wurde Google+ geschaffen: um mit Informationen im sozialen Kontext effektiver Werbung anbieten zu können.

Rein technisch gesehen ist normale Alltagssprache ein Definitionsdesaster

Apple dagegen war bisher unfähig, Social Networks auch nur zu imitieren. Das in iTunes integrierte Ping ist so sozial wie ein unbeleuchtetes Vakuum und versprüht vergleichbar viel Lebensfreude. Durchaus eine Leistung, die inspirierendsten Elemente überhaupt, Musik und Menschen, derart bleiern zu präsentieren. Aber weil persönliche Daten einen digitalen Service zweifelsfrei entscheidend verbessern können, musste sich Apple einen anderen Weg dorthin überlegen. Hier kommt Siri mit der Spracherkennung ins Spiel – und zwar auch wegen der Ungenauigkeit gesprochener Sprache. Denn rein technisch gesehen ist normale Alltagssprache ein Definitionsdesaster, sie braucht in den meisten Fällen einen (nonverbalen) Kontext. Die Frage „Wo kann man hier Kaffee kaufen?“ ist nur mit Zusatzinformationen beantwortbar: Wo genau ist hier? Ist eine Tasse Kaffee gemeint oder eine Packung Bohnen?

Mit Siri hat Apple gleichzeitig einen Grund und ein Instrument geschaffen, um persönliche Informationen abzufragen und zur Profilierung zu verwenden. Und hier sind Möglichkeiten wie die Messung des Stresslevels in der Stimme noch gar nicht eingeschlossen. „Siri, ruf meine Schwester an…“ – dazu muss Siri wissen, wer die Schwester ist. „…und mach morgen um eins einen Termin mit ihr“ – dazu muss Siri einen eigenen, abfrageübergreifenden Kontext aufbauen, um zu wissen, wer „ihr“ sein soll. Wer wird durch Vornamennennung angerufen, wer per Nachname? Welche Orte werden häufig in die Navigation eingetragen – und warum? Und mit wem? Nach welchen Produkten und Dienstleistungen wird gefragt? Nach welchen Kinofilmen erkundigt sich der Nutzer zum Beispiel, und wäre es nicht sinnvoll, genau diesem Nutzer eine Nachricht zu senden, wenn der Film im iTunes Store verfügbar ist?

Der Dialog mit Siri verrät mehr über den Nutzer, als er jemals in ein soziales Netzwerk eintragen würde. Siris Basis ist zwar die Spracherkennung, ihre Stärke aber zweifellos die Kontexterkennung. Sätze, in Kontext gesetzte Worte, kann Siri beeindruckend gut verstehen. Einzelne Worte dagegen, etwa eine Einkaufsliste, versteht Siri beeindruckend schlecht.

Siri setzt den Standard der Kontexterkennung

Apples zentrales Patent für Siri heißt dann auch „Contextual Voice Commands„. Und obwohl Google und Microsoft schon seit einiger Zeit Spracherkennung in ihren mobilen Systemen einsetzen, setzt Siri zweifelsfrei den Standard der Kontexterkennung. Im Video eines australischen Bloggers wird Siri und dem Microsoft-Konkurrenten TellMe gleichzeitig der Satz ansagt: „create a meeting tomorrow at ten a.m.“. Siri erkennt ihn korrekt, trägt das Meeting im Kalender ein und weist auf eine mögliche Kollision mit einem Termin um Viertel vor neun hin. TellMe gibt aus „create a meeting tomorrow at teen anal“ und sucht anschließend danach im Web. Das Ergebnis möchte man lieber nicht wissen.

Besser lassen sich Relevanz und Vorteil von Kontexterkennung gegenüber bloßer Spracherkennung kaum verdeutlichen. Sprache als Interface zu verwenden und sich dabei auf Kontexterkennung zu konzentrieren, hat eine eigene Abkürzung: NLP, Natural Language Processing. Das dazugehörige Fach heißt Computerlinguistik, ein Teilbereich der Künstlichen Intelligenz. Im Kontext wird klar, wohin Spracherkennung und Apples Siri – vom Unternehmen ungewohnt häufig als Betaversion bezeichnet – zielen. Es geht um die Beherrschung der digitalen Sphäre mit Hilfe einer der größten Mächte des Marktes: Convenience, die Mischung aus Einfachheit und Bequemlichkeit. Welches Interface könnte simpler und komfortabler sein als normale Sprache? Was taugt besser, sogar bisher von der Komplexität Überforderte an die digitale Sphäre heranzuführen – ans Apple-Universum?

Die Notwendigkeit, gesprochene Sätze mit dem richtigen Kontext anreichern zu müssen, ergibt aber nicht nur einen Datenmagneten. Es handelt sich auch um einen großen Vorteil bei der Vermarktung von Werbung. Was würde ein Hersteller wohl bezahlen, wenn sein Produkt auf die Frage nach der besten Uhr genannt würde? Apple könnte Abfragen in Echtzeit versteigern: Wer möchte einen Zugang zu denjenigen kaufen, die soeben nach Schmuck gefragt haben? Apple ist es gelungen, bei der letzten großen Interface-Revolution, dem Touchscreen, alle Maßstäbe zu setzen. Wenn das mit Siri wieder gelänge, würden soziale Netzwerke nicht mehr benötigt, um aus dem Internet persönliche Informationen kommerziell verwertbar herauszuwringen. Es ergäben sich per Spracheingabe von den Nutzern selbst gepflegte Echtzeitprofile mit den Wünschen und Bedürfnissen der Zielgruppe. Wie wichtig den Nutzern selbst die bloße Spracheingabe bei der Suche in der digitalen Sphäre bereits ist, hat Eric Schmidt ein Jahr vor Siri erklärt. Inzwischen lässt sich erahnen, warum sie den Digitalkonzernen mindestens ebenso wichtig ist.

 

tl;dr

Spracherkennung ist der Nachfolger sozialer Netzwerke. Kontexterkennung erschafft einen Markt, vergleichbar mit dem Suchmaschinenmarkt.

Link zum Original

This Post Has 2 Comments

  1. die filmgalerie, neben filmkunstkinos sollte viral rumgeschickt werden. so clockworkorange maessig, for ex c/d ampio. deine künstlergruppe spricht zu dir. spiel gott mal. muss n schamanischen kulturverein gründen in düsseldorf, sonst scheiß ich fraktale. 5/7 hier

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Bitte akzeptieren Sie die Datenschutzbestimmungen.