Spracherkennung: Wir bezahlen Siri mit unserer Stimme

Warum Beta? Dialog mit Siri (Screenshot: Hans Guenter)

Warum Beta? Dialog mit Siri (Screenshot: Hans Guenter)

Erst das Smartphone – und bald auch auf dem Fernseher: Mit Apples Siri ist Spracherkennung im Mainstream angekommen. Doch Apple sammelt mit dem Dienst gewaltige Datensätze der Nutzer, um die Technologie zu verbessern.

Am 4. Oktober 2011 mochte mancher Apple-Fan seinen Ohren nicht trauen. Bei der Vorstellung des neuen iPhone 4S wurde ausgerechnet die heftig beworbene Sprachsteuerung Siri mit einem Beta-Label versehen – eine Technologie im Teststadium also. Nun ist es in der IT-Branche zwar nicht unüblich, Produkte als fast fertige Betaversion zu veröffentlichen, doch für Apple ist dies ein unerhörter Vorgang. Wann hätte das Unternehmen, das seine Produkte habituell als “revolutionär” oder “magisch” bezeichnet und nichts weniger als Perfektion suggeriert, jemals etwas auf den Markt gebracht, bei dem man eingestehen musste, es sei noch nicht ganz fertig?

Nicht geklärte Sicherheitsfragen?

“Beta ist für Google”, schimpfte denn auch Mat Honan vom Technik-Blog Gizmodo, und auch der einflussreiche Apple-Blogger John Gruber räumte ein, dass es für Apple nicht nur sehr ungewöhnlich sei, eine Betaversion offiziell anzupreisen, sondern dass Siri hinter den gewohnten Apple-Standards zurückbleibe.

An Erklärungen, warum nun ausgerechnet das wichtigste Feature des neuen iPhones noch in der Beta-Phase steckt, hat es in der Folge nicht gefehlt. Tony Bradley vom kanadischen Magazin IT-Business nennt gleich fünf Gründe, von der fehlenden Stimmauswahl über die fehlende Unterstützung mehrerer Sprachen bis hin zu noch nicht geklärten Sicherheitsfragen – schließlich wird jedes Gespräch mit Siri auf den Servern von Apple gespeichert.

Apple hatte keine andere Wahl

Die genannten Gründe erklären zwar, warum Siri zurecht als Beta bezeichnet wird, nicht aber, warum Apple ein anscheinend unfertiges Produkt veröffentlicht. Hätte man nicht einfach noch ein paar Monate warten und Siri fertig stellen können – oder, wie sonst auch, durch Reduktion des Funktionsumfangs einen klugen Kompromiss präsentieren?

Die Antwort ist ein wenig verblüffend: Apple hatte überhaupt keine andere Wahl. Ein Produkt wie Siri muss zwingend als Betaversion an die Öffentlichkeit treten – es geht gar nicht anders. Denn die Schwächen von Siri sind nichts, was durch ein wenig mehr Aufwand in den Labors behoben werden könnte.

Algorithmus ist mehr oder weniger chancenlos

Spracherkennung ist heute weniger ein Problem mangelhafter Algorithmen – die sind, wie Siri in vielen Fällen demonstriert, erstaunlich praxistauglich. Die Schwierigkeit liegt vielmehr in der enormen Variationsbreite der gesprochenen Sprache, die sich auch durch noch so umfangreiche Labortests nicht einmal ansatzweise nachbilden lässt.

Nicht nur, dass es unzählige Dialekte mit je eigenem Sprachschatz gibt, auch innerhalb eines Dialektes stellt die Bandbreite der individuellen Aussprache gleicher Wörter die Spracherkennung vor Probleme, die sich durch keinen Algorithmus lösen lassen. Keine zwei Menschen intonieren gleich, selbst ein und dieselbe Person variiert in ihrer Aussprache mitunter erheblich. Für unsereins ist die Vielfalt der Sprache im Alltag kein Problem, doch ein Algorithmus ist hier mehr oder weniger chancenlos.

Das System lernt noch

Um seine Aufgabe zu lösen, muss das System das tun, was Menschen ebenfalls tun: lernen und Erfahrungen sammeln. Anders gesagt: es braucht Daten – und zwar je mehr, desto besser. Genau mit diesen Daten wird Siri gefüttert, sobald es auf dem iPhone gestartet wird. Mit jeder Anfrage und jeder Formulierung lernt das System hinzu.

Jedes Unternehmen, das im immer wichtiger werdenden Markt der Spracherkennung und -steuerung mitmischen will, steht vor dem Problem, dass Spracherkennung vor allem riesige Datenbestände benötigt. Kein Wunder, dass das Tauschgeschäft “Sie geben uns Ihre Stimme, wir geben Ihnen Informationen” in der Branche weit verbreitet ist.

Groß angelegte Datensammelaktion

So bot etwa Google von 2007 bis Ende 2010 in den USA die kostenlose Telefonauskunft GOOG-411 an. Anders als sonst bei Google üblich verzichtet man hier vollständig auf Werbeeinblendungen, was die Frage nach dem Businessmodell aufwarf. Die Antwort gab Googles Vizepräsidentin Marissa Mayer im Interview mit InfoWorld: Für die Entwicklung einer funktionierenden Spracherkennung benötigte Google eine umfangreiche Aussprachedatenbank, die ihnen die Benutzer von GOOG-411 lieferten. Der Dienst war also weniger ein Produkt für Endkunden, als vielmehr eine groß angelegte Datensammelaktion. So erklärt sich auch, warum Nuance, die mit Dragon Naturally Speaking zu den führenden Anbietern von Spracherkennungssoftware gehören, ihre iPhone-App Dragon Dictation kostenlos anbieten – jeder Nutzer bezahlt das Angebot mit seiner Stimme.

Es bleibt nun zum einen die Hoffnung, dass die Spracherkennung einmal so gut werden wird, dass auch in Schottland Aufzüge mit Sprachsteuerung funktionieren:

Vor allem aber bleibt das Problem, dass alle Systeme die Sprachdaten der Nutzer speichern – und dass bislang keines der Unternehmen darüber aufklärt, was genau gespeichert wird und was mit diesen Daten passiert: Es ist wohl nur noch eine Frage der Zeit, bis die Datenschützer ein neues Betätigungsfeld entdecken werden.

(Das ZDF ist für den Inhalt externer Internetseiten nicht verantwortlich)

Autor: Giesbert Damaschke

Autorenbild

Giesbert Damaschke studierte Germanistik und Philosophie in Bonn und arbeitet seit über 30 Jahren mit Computern. Er unterrichtet, schreibt und lebt in München. Im Netz ist er unter www.damaschke.de zu finden.
Alle Beiträge von Giesbert Damaschke anzeigen

8 Kommentare

  • Nino
    09.01.2012, 14:07 Uhr.

    Nicht ganz richtig! Apple hat bereits bei FaceTime einen Dienst vor einem Jahr im Beta Stadium herausgebracht, ist also auch nicht sooo unüblich!

    • Giesbert Damaschke
      10.01.2012, 10:19 Uhr.

      Ja, stimmt. Und doch nicht so ganz. Facetime war für das iPhone 4 das, was Siri für das 4S ist. Facetime für iPhone 4 wurde von Apple nie als Beta bezeichnet, nur das nachgeschobene und nicht ganz so wichtige Facetime für Mac. Ich kann mich nicht erinnern (ok – das will nicht viel heißen ;-)) , dass Apple jemals eines der großen Produkte vorgestellt hat und dazu gesagt “das hier so groß beworbene Feature ist allerdings noch Beta”. Nicht bei OS X, nicht bei iOS.

  • Enrico
    09.01.2012, 16:02 Uhr.

    Tja… kann ich da nur sagen. Das ist der wahre Preis, den man für Apple-Produkte zahlt. Wer ein iPhone oder ähnliches kauft, der weiß vorher, dass seine Daten in ungeahntem Ausmaß gespeichert werden. Das ist nicht neu.

    • Tom
      09.01.2012, 16:30 Uhr.

      Wenn es um Daten geht traue ich Apple voll und ganz. Und das liegt daran, dass sie sich ihr vertrauen die letzten 8 Jahre bei mir verdient haben.
      Apple beteuert immer, dass sie alle Daten komplett anonym sammeln und, dass sie ausschliesslich dazu gebraucht werden die Produkte zu verbessern. Wenn das so stimmt, dann habe ich kein Problem damit.
      Ausserdem kenne ich keine andere Firma, die so transparent ist, wenn es darum geht WELCHE Daten sie sammeln. Wenn man ein iPhone, iPad oder Mac zum erstmal einschaltet, ist das erste was man gefragt wird, welche Daten Apple sammeln darf – und man kann auch im Nachhinein alle Datensammlungen deaktivieren.
      Also wie gesagt – habe bis jetzt nur gute Erfahrungen gemacht und Apple hat solange mein Vertrauen, bis sie es sich (mit einem Missbrauch von Daten) verspielen.

  • Peter Weno
    09.01.2012, 19:10 Uhr.

    Ich habe zehn Jahre in den USA gelebt und als Apple System Administrator gearbeitet. Nur die Deutschen benehmen sich so laecherlich und meinen hinter jedem Einkaufszettel eine Ansammlung ihrer Daten zu sehen (Beispiel: Die unsaegliche Diskussion um Google Streetview. “Oh mein Gott, ja keiner darf mein Haus von aussen sehen…”).
    Entspannt Euch! Alles nicht so verbissen sehen.
    Es gibt sicherlich viel schlimmere Unternehmen, die zu unlauteren Zwecken Daten sammeln, als Apple fuer Siri. Was heisst auch Daten? Es werden nur Worte und die verschiedenen Akzente verwendet.
    Apple war schon immer innovativ und sollten die Worte nicht fuer Siri ausgewertet werden koennen, so heisst das auch, den Fortschritt ablehnen zu wollen. Zudem passt dieser Artikel zu der “heute” Sendung, da hier immer Aple verteufelt wird (komisch, frueher war das Microsoft und Herr Gates).
    Und ich kann meinem Vorgaenger nur zustimmen. Wuerden Sie sich -Herr Damaschke- wirklich mit Apple Produkten auskennen, so wuesten Sie, dass Siri nicht die erste Beta Version ist, die von Apple veroeffentlicht wurde.

  • mackie
    09.01.2012, 19:12 Uhr.

    Seit wann ist Siri aus dem Apple Labor? Sie sollten sich einmal mit einem Nuance Mitarbeiter unterhalten. In jeder größeren Karrierebörse an Hochschulen anzusprechen.

  • Detlev Artelt
    09.01.2012, 20:10 Uhr.

    Sprache kommt – das ist sicher – und wird viel in unsere alltäglichen Benutzung der verschiedenen Maschinen verändern.

    Heute kam gerade die Meldung das LG einen neuen TV bringt der gleich ab Werk per Sprache und Gesten zu steuern ist. Siehe https://twitter.com/#!/voice_compass/status/156446300542476290

    Apple arbeitet am nächsten Apple TV der ähnliches kann und jede bessere Navi beherrscht heute bereits verschiedene Sprachen zum einfachen Erkennen vor Orten und Straßen.

    Das Problem ist vielmehr unsere Erwartungshaltung an Spracherkennung. Jeder “träumt” von einer Maschine die alles kann und im philosophischen Gespräch standhält. Das wird so schnell nicht passieren, aber SIRI erweckt den Anschein. Schön ist die Antwort von SIRI auf die Frage nach dem Sinn des Lebens.

    Da ich mich seit 20 Jahren mit dem Theme beschäftige, freut es mich einfach nur riesig welchen enormen Schwung SIRI in das Thema gebracht hat.

    Heute ist schon viel viel mehr mit Sprache möglich, wie im Artikel “Speech up your mobile work” unter http://detart.wordpress.com/2011/09/11/speech-up-your-mobile-work/ zu lesen ist. Mir gefällt der Sprach-zu-Sprache Übersetzer am besten, denn hiermit werden weitere Grenzen aufgehoben.

    Gruß
    Detlev

  • lemmi2k
    11.01.2012, 14:26 Uhr.

    Brave new world.

    Seit dem ich 1980 mein erstes Prog. im Quelltext geschrieben habe, verfolge ich die Entwicklung -auch beruflich- der IT sehr interessiert.

    George Alec Effinger mit seiner in den 80´n erschienenen Trilogie “Das Ende der Schwere” usf. prophezeite, neben dem, was wir mittlerweile als Handys kennen, das komplette Umdenken bzgl. Information als Macht und Mittel zur Machtausübung, nebenbei auch das Gehirn-Modding mittels aufsteckbaren Implantaten. Mit dem Hintergrund einer islamisch geprägten Welt und eines fiktiven Potentaten, eingepackt in eine Dedektiv-Story.

    Meines Erachtens immer noch hochaktuell & lesenswert.

    Siri & Co. (Apple/Google-Ableger wie u.a. Alicoid) sind da nur die Spitze des Eisberges.

    Schöne Neue Welt für “Like It”-Jünger, die nicht *wirklich* wissen, was sie tun.

    mfg Lemmi2k

Kommentare geschlossen

Dieser Beitrag kann nicht länger kommentiert werden.