zurück zurück
Leben

Smart Speaker: Wer lauscht da noch?

Musikauswahl, Hausautomation, Finanzgeschäfte – Smart Speaker erleichtern den Alltag: Wie die kleinen Helfer funktionieren und was dabei mit unseren Daten passiert.
2020 11 FINT Artikel Hoch smart speaker 01 unsplash y E5 b QN Qgf U
© Photo by Nacho Carretero Molero on Unsplash
17.11.2020

Während insbesondere Familien von smarten Sprachassistenten begeistert sind, fürchten andere Lauschangriffe von Amazon, Google und Co. Smart Speaker ziehen in immer mehr deutschen Haushalten ein und erledigen Alltagsaufgaben – von der Lichtsteuerung bis hin zu Finanzanwendungen. Doch wie nützlich sind die Geräte wirklich und wie sieht es mit dem Datenschutz aus?

Sie wählen Kochrezepte aus und geben Weinempfehlungen, kümmern sich um Licht und Heizung, merken sich Termine und legen die Lieblingsmusik auf. Sie heißen Alexa, Siri, Cortana und – zugegeben, wenig einfallsreich – Hey Google, stecken in kleinen Lautsprecherboxen und sollen uns den Alltag erleichtern. Smart Speaker ziehen in immer mehr Haushalten ein: Laut einer Umfrage nutzen inzwischen 45 Prozent der Deutschen Sprachassistenten – mit steigender Tendenz (Vorjahr: 32 Prozent).

2020 11 FINT Artikel Hoch smart speaker 02 unsplash hl Pe Hku7 A Vc © Photo by Jordan Graff on Unsplash

Besonders beliebt sind die digitalen Helfer bei Familien: 59 Prozent der Haushalte mit vier Personen und mehr haben einen. Und auch Digital Immigrants (ab 40 Jahren und älter) steuern immer öfter Anwendungen per Sprachbefehl (38 Prozent). Da sie nicht mit digitalen Geräten aufgewachsen sind, kommen sie mit Sprachbedienung meist besser zurecht als etwa mit der Gestensteuerung von Smartphones.

Schlaue Antworten dank Künstlicher Intelligenz

Schließlich ist die Bedienung überaus praktisch. Denn anders als beim Smartphone oder anderen Alltagsgeräten reagiert der Smart Speaker unmittelbar auf Worte – kein Knopf muss gedrückt, keine App geöffnet und kein Bedienfeld angetippt werden. Das Aktivierungswort (Hey Google, Alexa …) samt Sprachbefehl reichen, um im Innern des Lautsprechers eine komplexe Sprachverarbeitungskette in Gang zu setzen. Sie beinhaltet jede Menge Künstliche Intelligenz (KI) und lässt sich in fünf Abschnitte gliedern:

  1. Zuhören: Sofern das Mikrofon nicht deaktiviert ist, gibt es kontinuierlich ein Audiosignal weiter. Für den Sprachassistenten ist es zunächst unbrauchbar, da es sich um ein analoges Signal handelt. Deshalb wird es in der Audioverarbeitung in ein digitales Signal umgewandelt und Störgeräusche werden ausgefiltert.
  2. Aufwecken: Das digitale Audiosignal wird durchgehend an den „Wake-up-word“-Erkenner weitergereicht. Er reagiert, wenn das Aktivierungswort fällt, das den Sprachassistenten aufweckt (z. B. „Alexa“, „Hey Google“, „Hallo Magenta“). Spezielle Algorithmen analysieren dafür die Schalleigenschaften von Sprachelementen. Entdecken sie das Aktivierungswort, geht ein Hinweis ans System und die Sprachaufzeichnung wird in die Cloud weitergeleitet. Ein Ton- oder Lichtzeichen informiert den Nutzer über die erfolgreiche Aktivierung.
  3. Verstehen: Der Prozess der automatischen Spracherkennung (Automatic Speech Recognition, ASR) läuft in der Cloud ab. Mittels Machine Learning (ML) werden ähnlich wie bei der „Wake-up-word“-Erkennung die Schalleigenschaften analysiert und sinnvolle Worteinheiten ermittelt. Sprache wird in Text umgewandelt und durch die KI-Komponente Natural Language Processing (NLP) ausgewertet.
  4. Ausführen: Entsprechend der Textbausteine wird über den passenden Skill – eine Art App für Sprachassistenten – die Information oder die Funktion abgerufen. Lautet die Frage etwa „Alexa, wie wird das Wetter morgen in Köln“, wird der Skill des Wetterdienstes aufgerufen, mit den ausgefilterten Details versorgt (Intent: Wetter nächster Tag, Entität: Köln). Der Skill stellt die gesuchten Informationen zur Verfügung, sodass eine Antwort formuliert werden kann.
  5. Sprechen: Damit der Sprachassistent die Antwort als akustisches Signal wiedergeben kann, muss das Textformat mittels Sprachsynthesizer umgewandelt werden. Für eine möglichst natürliche Aussprache sorgt ein Machine-Learning-Algorithmus.
2020 11 FINT Artikel Quer smart speaker 04 pexels 776153 © Photo by Jens Mahnke on Pexels

Gruselig statt smart

Die eingesetzten Technologien – und auch die Hardware – haben zwar bereits einen sehr hohen Reifegrad, dennoch kommt es immer wieder zu Fehlern. Nervtötend, aber nicht dramatisch: Wenn die Spracherkennung den Nutzenden aufgrund seines Dialekts oder Soziolekts (z. B. Jugendsprache oder Berufsjargon) nicht versteht. Gruselig wird es, wenn sich der Sprachassistent verselbstständigt und plötzlich irres Gelächter ertönt. Ein Bug sorgte vor zwei Jahren dafür, dass Alexa nachts lachte oder ohne Aktivierung Fragen beantwortete. Auch Lausch-Vorwürfe stehen immer wieder im Raum: Recherchen ergaben, dass die Smart Speaker nicht nur auf die Aktivierungswörter reagieren, sondern auch bei anderen Wörtern einschalten und private Gespräche ins Rechenzentrum übermitteln – teils ohne Wissen der Nutzenden. Diese Aufzeichnungen werden anschließend von Mitarbeitenden der Konzerne mitgehört und analysiert, um die Spracherkennung zuverlässiger zu machen.

2020 11 FINT Artikel Quer smart speaker 03 unsplash Yky93vt E Szo © Photo by Phuc H. on Unsplash

Ehemalige Beschäftigte berichten, wie sie intime Momente, Geschäftsbesprechungen oder auch Streits mitgehört hätten. „Aus Privacy-Sicht ist das natürlich bedenklich, weil teils sehr private Unterhaltungen bei Fremden landen können“, sagt Dr. Thorsten Holz, Professor für Systemsicherheit an der Ruhr-Universität Bochum. „Aus Engineering-Sicht ist das Vorgehen hingegen nachvollziehbar, denn die Systeme können nur mithilfe solcher Daten verbessert werden. Die Hersteller müssen einen Spagat zwischen Datenschutz und technischer Optimierung schaffen.“

Zwar legen die Deutschen viel Wert auf den Schutz ihrer Daten, der Siegeszug der Smart Speaker scheint aber nicht mehr aufzuhalten zu sein. Die Corona-Krise hat die ohnehin steigende Beliebtheit zusätzlich befeuert: Laut des Nielsen Reports zur Mediennutzung in Deutschland stieg die Nutzungshäufigkeit während des landesweiten Lockdowns um 129 Prozent. Dementsprechend gab knapp ein Drittel der Befragten an, jetzt mindestens einmal pro Woche einen Smart Speaker zu verwenden – im Vergleich zu vor der Pandemie.

2020 11 FINT Artikel Hoch smart speaker 03 unsplash hvgd0yg Xu QQ © Photo by DESIGNCOLOGIST on Unsplash

Überweisung per Sprachbefehl

Einsatzmöglichkeiten finden sich im Alltag viele: So offenbarte der „Smart Audio Report“ von NPR und Edison Research knapp elf verschiedene Nutzungsmotive je Person pro Woche. Dazu gehört etwa, den Wetterbericht oder die Verkehrslage abzufragen, Musik, Podcasts oder Hörbücher zu streamen, online nach Informationen zu suchen oder aber Termine zu planen. Wer Smart-Home-Anwendungen hat, steuert auch diese – etwa für die Beleuchtung – immer häufiger per Sprachbefehl. Außerdem lassen sich die Standarddienste um weitere Funktionen von Drittanbietern, sogenannte Skills, erweitern. Allein für Amazons Alexa gibt es bereits mehr als 100.000 solcher Skills mit ganz unterschiedlichem Funktionsumfang. Manche sind lediglich dazu da, um den Smart Speaker mit einem anderen Audiogerät zu verbinden, andere erfüllen komplexere Aufgaben wie etwa die Verriegelung des Autos aus der Ferne.

2020 11 FINT Artikel Quer smart speaker 01 unsplash J3o Tl6ac Vg © Photo by Will Francis on Unsplash

Auch Finanzgeschäfte lassen sich per Sprachbefehl mit Skills erledigen. Mehr als 30 Prozent der Deutschen können sich bereits vorstellen, Finanzprodukte oder Versicherungen über einen Sprachassistenten zu bestellen. Über den Alexa-Skill „Volksbank“ können etwa Infos und Anleitungen rund ums Online-Banking, die VR-BankingApp, Bankkarten und Kreditkarten abgefragt werden. Der VR-VoiceAssistent stellt zudem die wichtigsten Börsenindizes und deren Einzeltitel (mehr als 2.000 Aktienkurse) sowie die gängigsten Währungen bereit. Auch das Interesse an sprachgesteuerte Funktionen in Banking-Apps steigt: Bei der Fiducia & GAD hat deshalb ein sechsköpfiges Team einen Sprachassistenten für die VR-BankingApp entwickelt. „Kiu“ ist ein Chatbot, der bei der Nutzung von Finanzanwendungen unterstützt. Standardfunktionen wie die Frage nach dem Kontostand oder Umsätzen gibt es bereits, weitere Features – etwa zur Überweisung – werden nach und nach ausgerollt. Mit einfachen Sprachbefehlen wie „Überweise 50 Euro an Klaus“ lässt sich ein Auftrag erteilen, der Chatbot füllt dann die Überweisungsmaske aus. Abschließend prüft die Person ihre Überweisung in der App und finalisiert sie entsprechend der Sicherheitsstandards etwa über Zwei-Faktor-Authentifizierung. So lassen sich mithilfe des Sprachassistenten persönliche Finanzgeschäfte schneller und einfacher abwickeln – und es bleibt mehr Zeit für andere Dinge wie „Alexa, suche ein Rezept für Rigatoni al forno.“

Immer up to date

FINTROPOLIS-Newsletter

17.11.2020