Spracherkennung: Wir bezahlen Siri mit unserer Stimme

Warum Beta? Dialog mit Siri (Screenshot: Hans Guenter)

Warum Beta? Dialog mit Siri (Screenshot: Hans Guenter)

Erst das Smartphone – und bald auch auf dem Fernseher: Mit Apples Siri ist Spracherkennung im Mainstream angekommen. Doch Apple sammelt mit dem Dienst gewaltige Datensätze der Nutzer, um die Technologie zu verbessern.

Am 4. Oktober 2011 mochte mancher Apple-Fan seinen Ohren nicht trauen. Bei der Vorstellung des neuen iPhone 4S wurde ausgerechnet die heftig beworbene Sprachsteuerung Siri mit einem Beta-Label versehen – eine Technologie im Teststadium also. Nun ist es in der IT-Branche zwar nicht unüblich, Produkte als fast fertige Betaversion zu veröffentlichen, doch für Apple ist dies ein unerhörter Vorgang. Wann hätte das Unternehmen, das seine Produkte habituell als “revolutionär” oder “magisch” bezeichnet und nichts weniger als Perfektion suggeriert, jemals etwas auf den Markt gebracht, bei dem man eingestehen musste, es sei noch nicht ganz fertig?

Nicht geklärte Sicherheitsfragen?

“Beta ist für Google”, schimpfte denn auch Mat Honan vom Technik-Blog Gizmodo, und auch der einflussreiche Apple-Blogger John Gruber räumte ein, dass es für Apple nicht nur sehr ungewöhnlich sei, eine Betaversion offiziell anzupreisen, sondern dass Siri hinter den gewohnten Apple-Standards zurückbleibe.

An Erklärungen, warum nun ausgerechnet das wichtigste Feature des neuen iPhones noch in der Beta-Phase steckt, hat es in der Folge nicht gefehlt. Tony Bradley vom kanadischen Magazin IT-Business nennt gleich fünf Gründe, von der fehlenden Stimmauswahl über die fehlende Unterstützung mehrerer Sprachen bis hin zu noch nicht geklärten Sicherheitsfragen – schließlich wird jedes Gespräch mit Siri auf den Servern von Apple gespeichert.

Apple hatte keine andere Wahl

Die genannten Gründe erklären zwar, warum Siri zurecht als Beta bezeichnet wird, nicht aber, warum Apple ein anscheinend unfertiges Produkt veröffentlicht. Hätte man nicht einfach noch ein paar Monate warten und Siri fertig stellen können – oder, wie sonst auch, durch Reduktion des Funktionsumfangs einen klugen Kompromiss präsentieren?

Die Antwort ist ein wenig verblüffend: Apple hatte überhaupt keine andere Wahl. Ein Produkt wie Siri muss zwingend als Betaversion an die Öffentlichkeit treten – es geht gar nicht anders. Denn die Schwächen von Siri sind nichts, was durch ein wenig mehr Aufwand in den Labors behoben werden könnte.

Algorithmus ist mehr oder weniger chancenlos

Spracherkennung ist heute weniger ein Problem mangelhafter Algorithmen – die sind, wie Siri in vielen Fällen demonstriert, erstaunlich praxistauglich. Die Schwierigkeit liegt vielmehr in der enormen Variationsbreite der gesprochenen Sprache, die sich auch durch noch so umfangreiche Labortests nicht einmal ansatzweise nachbilden lässt.

Nicht nur, dass es unzählige Dialekte mit je eigenem Sprachschatz gibt, auch innerhalb eines Dialektes stellt die Bandbreite der individuellen Aussprache gleicher Wörter die Spracherkennung vor Probleme, die sich durch keinen Algorithmus lösen lassen. Keine zwei Menschen intonieren gleich, selbst ein und dieselbe Person variiert in ihrer Aussprache mitunter erheblich. Für unsereins ist die Vielfalt der Sprache im Alltag kein Problem, doch ein Algorithmus ist hier mehr oder weniger chancenlos.

Das System lernt noch

Um seine Aufgabe zu lösen, muss das System das tun, was Menschen ebenfalls tun: lernen und Erfahrungen sammeln. Anders gesagt: es braucht Daten – und zwar je mehr, desto besser. Genau mit diesen Daten wird Siri gefüttert, sobald es auf dem iPhone gestartet wird. Mit jeder Anfrage und jeder Formulierung lernt das System hinzu.

Jedes Unternehmen, das im immer wichtiger werdenden Markt der Spracherkennung und -steuerung mitmischen will, steht vor dem Problem, dass Spracherkennung vor allem riesige Datenbestände benötigt. Kein Wunder, dass das Tauschgeschäft “Sie geben uns Ihre Stimme, wir geben Ihnen Informationen” in der Branche weit verbreitet ist.

Groß angelegte Datensammelaktion

So bot etwa Google von 2007 bis Ende 2010 in den USA die kostenlose Telefonauskunft GOOG-411 an. Anders als sonst bei Google üblich verzichtet man hier vollständig auf Werbeeinblendungen, was die Frage nach dem Businessmodell aufwarf. Die Antwort gab Googles Vizepräsidentin Marissa Mayer im Interview mit InfoWorld: Für die Entwicklung einer funktionierenden Spracherkennung benötigte Google eine umfangreiche Aussprachedatenbank, die ihnen die Benutzer von GOOG-411 lieferten. Der Dienst war also weniger ein Produkt für Endkunden, als vielmehr eine groß angelegte Datensammelaktion. So erklärt sich auch, warum Nuance, die mit Dragon Naturally Speaking zu den führenden Anbietern von Spracherkennungssoftware gehören, ihre iPhone-App Dragon Dictation kostenlos anbieten – jeder Nutzer bezahlt das Angebot mit seiner Stimme.

Es bleibt nun zum einen die Hoffnung, dass die Spracherkennung einmal so gut werden wird, dass auch in Schottland Aufzüge mit Sprachsteuerung funktionieren:

Vor allem aber bleibt das Problem, dass alle Systeme die Sprachdaten der Nutzer speichern – und dass bislang keines der Unternehmen darüber aufklärt, was genau gespeichert wird und was mit diesen Daten passiert: Es ist wohl nur noch eine Frage der Zeit, bis die Datenschützer ein neues Betätigungsfeld entdecken werden.

(Das ZDF ist für den Inhalt externer Internetseiten nicht verantwortlich)

Autor: Giesbert Damaschke

Autorenbild

Giesbert Damaschke studierte Germanistik und Philosophie in Bonn und arbeitet seit über 30 Jahren mit Computern. Er unterrichtet, schreibt und lebt in München. Im Netz ist er unter www.damaschke.de zu finden.
Alle Beiträge von Giesbert Damaschke anzeigen