Was ist der Unterschied zwischen Spracherkennung und Sprachverarbeitung?
Spracherkennung ist eine Technologie - nicht Endprodukt. Ist diese Skepsis Folge eines Missverständnisses zwischen Anbieter und Anwender über Fähigkeiten und Anforderungen? Spracherkennung ist – lediglich - die Übersetzung gesprochener Worte in geschriebenen Text, softwaregestützt, also automatisch. Alle Fortschritte dürfen deshalb über eine Wesentlichkeit nicht hinweg täuschen: Spracherkennung ist Technologie, nicht schon das Endprodukt.
Sie wollen ein Auto kaufen, um mobil zu werden? Eine der dort eingesetzten Technologien ist der Verbrennungsmotor, er ist Bestandteil des Produkts Auto, ein Motor allein aber macht Sie noch nicht beweglich. Bloße Spracherkennung versteht heute selbstverständlich kontinuierlichen Sprachfluß, sie übersetzt alles Gehörte und nur das! Spracherkennungsprogramme verstehen sich – bedauerlicherweise – oft genug immer noch nur als Übersetzungsprogramme: Sprachfluß in Textfluß, wobei die weitere Betrachtung des Umfeldes außer Acht bleibt. Dem Verbrennungsmotor werden sozusagen direkt die Räder angeschraubt, die erwünschte Effizienz bleibt unbeachtet.
Wie gut ist die Erkennungsgenauigkeit?
Weil dem Anwender suggeriert wird, allein die Spracherkennung sei schon der entscheidende Vorteil, wird die Einsatztauglichkeit der Technologie leider häufig verkürzt auf die Diskussion über Fehlerraten. Hier ist eine Veränderung des Blickwinkels notwendig: Auch Laien haben jahrelang – mitunter leidvoll – erfahren, daß EDV eine Kombination von Einsen und Nullen ist, die, von dubiosen Systemabstürzen ausgenommen, dienend das ausführt, was immer man über Tasten und Mausklicks befiehlt. Erkennungsfehler sind nun ein Vorkommnis, das sich so gar nicht in diese Vorstellung einordnen läßt. Sie treten vermeintlich zufällig und wiederholt auf ("Lernt das Ding wirklich?"), sind einer vernünftigen Interpretation und Lösung unzugänglich und auch noch anwenderabhängig. Dies führt zur Frage: Bin ich denn spracherkennungstauglich?
Mit der Spracherkennung rücken erstmals wirklich lernfähige Programme auf den PC des Laien-Anwenders. Lernfähigkeit bedeutet aber in hohem Maße Abhängigkeit vom Bediener, der wiederum die Reaktion des Systems als intuitiv erlebt. Es heißt also zunächst Abschiednehmen von der festgefügten Vorstellung einer EDV, die immer gleich reagiert. Befragungen belegen im übrigen, daß Fehlerraten überwiegend subjektiv empfunden und beurteilt werden, abhängig vom Fehlerbild, aber – bis zu einer gewissen Schwelle – unabhängig von der objektiven Häufigkeit.
Wie werden Arbeitsabläufe und Prozesse optimiert?
Produktentwicklung muß alle Gesichtspunkte im Blick behalten. Professionelles Diktieren findet nicht nur im Büro statt, sondern auch unterwegs, zuhause, wo immer. Eine digitale Lösung, ausschließlich für den stationären Bereich, wäre denn auch nur eine Teil-Lösung. Eine zusätzliche Lösung für den mobilen Bereich wäre unabdingbar und würde zusätzlichen organisatorischen Aufwand bedeuten – Equipment, Know-How etc.. Notwendig ist deshalb auch die technische und organisatorische Integration des mobilen Diktats, wenn das Produkt professionelle Anforderungen erfüllen will. Bloße Spracherkennung muß also den Profi im Anwendungsbereich zwangsläufig enttäuschen, weil sie als Technologie zwar atemberaubend und revolutionär sein mag, aber im gesamten Prozeß nur einen Teilschritt automatisiert. Die Technologie automatisiert nicht alle – will sie auch gar nicht -, sondern nur einen Teilschritt und rückt früher untergeordnete Problemkreise ins Licht. Die Enttäuschung liegt also nicht in der Spracherkennungstechnologie begründet, sondern darin, daß ein Spracherkennungsprogramm allein nicht den Gesamtprozeß optimiert.
Diese Überlegungen – Ergebnis einer jahrelangen intensiven Zusammenarbeit mit Praktikern - führten DictaPlus als erstem Hersteller zu einem Produkt, das diese Anforderungen unter Intergration der Spracherkennung vereint. Kontinuierliche Sprache während der Aufnahme ist selbstverständlich, ebenso die Möglichkeit von intuitivem Wechsel zwischen Diktat und einer dazugehörigen Anweisung auf Knopfdruck. Die spätere Gestaltung des Textes übernehmen einfache Sprachbefehle während des Diktates, egal ob einfach wie fetten oder schwierig wie tabellarisieren oder gliedern. Als Erkennungskomponente unterstützt diese Ideen SpeechMagic von Nuance. Damit wird nicht nur eine exzellente Erkennungsrate erzielt. SpeechMagic ist auch die derzeit einzige Erkennungskomponente, deren Architektur die Netzwerkfähigkeit besitzt, die ein permanentes Lernen der Spracherkennung erlaubt, egal an welchem Platz diktiert und weiterverarbeitet wird. Alle Diktanten in einem Netz verbessern auch das Lexikon, wodurch auch die Lerngeschwindigkeit wesentlich erhöht wird. Dazu die mobile Komponente, die künftig auch in unserer Entwicklung noch an Bedeutung gewinnen wird. Dabei wird Sprache als Eingabemedium, als Kommunikationsinstrument mit dem Computer keine vorübergehende Zeiterscheinung für Freaks bleiben.
Wir haben erkannt, daß der PC aus unserem Umfeld nicht mehr wegzudenken ist. Das natürlichste Kommunikationsmittel für uns ist die Sprache – nicht die Tastatur -, deshalb würde notwendigerweise die Sprachbedienung, Sprachsteuerung, Spracherkennung auch die Kommunikation mit der Technik – in allen Bereichen - vereinfachen. Dies ist Impetus für immer intensivere Forschung und Entwicklung in diesem Bereich.
Wo liegt die Effizienz?
Ein Spracherkennungssystem ist noch kein Endprodukt. Wo aber liegt das Einsparungspotential?
Diktat
Am Anfang steht das Diktat: ins Stenogramm, auf das Band, in den PC. Die analoge Bandaufzeichnung verträgt alle Diktiergewohnheiten und übermittelt die intuitive Aufzeichnung ins Sekretariat. Es ist an der Schreibkraft, alle (Un-)Diszipliniertheiten der Aufzeichnung in Text zu übertragen. Mehr Geschwindigkeit ist beim Diktieren also nicht zu gewinnen.
Texterstellung
Wo also ist der wirtschaftliche Vorteil? Klar, die automatische Umsetzung spart die Schreibarbeit, aber – wir erinnern uns: Ergebnis der Erkennung ist die Aneinanderreihung der diktierten Worte in Textform, nicht mehr, nicht weniger. Bis zu einem optisch ansprechenden Textdokument, das als "Visitenkarte der Kanzlei" dienen soll, ist es noch ein weiter Weg! Denn nach der Korrektur muß der Textfluß erst noch gestaltet und der Text für den Druck optisch aufbereitet werden.
75% des anwaltlichen Schriftgutes bewegen sich zwischen einer und zweieinhalb Seiten Länge. Untersuchungen ergaben, daß die nachträgliche Gestaltung eines fertigen Textes kaum weniger Zeit in Anspruch nimmt als die Neuerstellung. Der Vorteil ist also verspielt, wenn man die Effizienz ausschließlich in der Spracherkennung sucht. Schon hier wird deutlich: Spracherkennung ist Technologie, das fertige Produkt muß sich ihrer bedienen, aber auch die weiteren Anforderungen der Zielgruppe erfüllen.
Arbeitsteilung
Weiterer wichtiger Aspekt bei der Suche nach der Effizienz ist die Organisationsstruktur des Anwenders. Hinter dem privaten Heimanwender steht keine professionelle Büroorganisation. Er diktiert, statt selbst zu tippen, und korrigiert nun auch selbst. Auch das Schreibaufkommen wird längst nicht den Umfang des professionellen Vieldiktierers erreichen. Dem tragen die meisten "Spracherkennungen" auch hinsichtlich ihrer Architektur Rechnung. Sie richten sich eben an diese Zielgruppe und sind Anwendungen für den Einzeldiktanten am Einzelplatz. Ihr Einsatz im professionellen Bereich kann deshalb die Wirtschaftlichkeit nicht steigern.
Der PC, die Hardware, kann natürlich auch in ein Netz integriert sein. Die Spracherkennung aber ist gefesselt an diesen Platz. Dies bedeutet auch für den Profi: Selbst diktieren – selbst korrigieren. Diese Systeme vermögen zum Teil Diktat und Text auf einen anderen Arbeitsplatz im Netz verschieben zu können – mit der Einschränkung, daß in diesem Fall jede Lernfähigkeit der Spracherkennung ausgeschlossen ist. Also keine echte Netzwerkfähigkeit.
Im Gegensatz zum Heimanwender haben professionelle Diktanten, unsere Zielgruppe, eine Büroorganisation, die sie zum Vorteil nutzen. Das Diktat kann und soll wie bisher durch andere weiterverarbeitet werden, die kostengünstiger arbeiten. Es kostete mich doch mehr Zeit, wenn ich jetzt auch noch selbst korrigieren und drucken würde! Arbeitsteilung bringt also weitere Effizienz, Voraussetzung dafür ist aber echte Netzwerkfähigkeit.
Der Grund, daß sich singuläre Einzelplatzsysteme im professionellen Markt bisher nicht durchgesetzt haben, und zwar in keinem Sprachraum, liegt also nicht nur im Erkennungsbereich, sondern vor allem in der mangelhaften Umsetzung der Technologie in ein Produkt, das die Anwendererfordernisse erfüllt. Gefragt ist deshalb ein Produkt, das in der Eingabe intuitives Diktat verwalten kann und unter Integration von Spracherkennungstechnologie den Prozeß bis hin zum Druck optimiert.