Technische Fragen
Kerntechnologie unserer Produkte ist die automatische Umsetzung von Sprache in Text. Der PC-Anwender weiß, daß jeder Knopfdruck eine bestimmte Aktion auslöst, die immer zum gleichen Ergebnis führt – alles andere wäre ein Programmierfehler. Diese Produktsicht muß bei der Betrachtung der Spracherkennung deutlich revidiert werden. Zwar ist auch Spracherkennung Software, die strikt programmiert ist, dennoch erscheinen Fehlerbilder, die aus anderen Programmen unbekannt sind. Die Gründe hierfür sollen mit der Erläuterung der Spracherkennungstechnologie aufgedeckt werden. Man nehme ein Mikrofon und diktiere! Den Rest erledigt das Hardwareequipment mit der 100prozentigen Software. Da aus Einsen und Nullen bestehend, müssen die Quellen der vorkommenden Fehler beim zuständigen Programmierer liegen. Wenn es so einfach wäre!
Was Unterscheidet das analoge vom digitalen Diktat?
Ganz zu Beginn schon prallen zwei Welten aufeinander: Analoge menschliche Sprache, die gesamte Modulation der menschlichen Stimme mit all ihren Zwischentönen contra digitale PC-Welt, schwarz-weiß, Einsen und Nullen! Der analoge Lautschwall, der durch das Mikrofon auf "den PC", trifft muß digitalisiert werden. Das geschieht in einem Samplingverfahren: Die analoge Sinuskurve wird an bestimmten Punkten abgegriffen. Später wird dann versucht, aus diesen Werten die ursprüngliche Gestalt der Kurve zu rekonstruieren. Je geringer der Abstand zwischen den einzelnen Punkten, desto höher der Informationsgehalt, desto höher die Wahrscheinlichkeit der richtigen Rekonstruktion, desto größer der Speicherbedarf, desto höher die Samplingrate. Augenblicklich beträgt diese Rate 16 KHz (die analoge Bandqualität liegt bei 8 KHz). Aber es gibt einen Break even: Je mehr Information, desto mehr Störgeräusche. Schon hier ist in der Entwicklung also Abwägung und Empirie gefragt. Je besser differenzierbar der Lautschwall ist, desto besser ist auch die Digitalisierung. Die Lautqualität nimmt mit zunehmender Entfernung zur Lautquelle ab: Auch wir hören bei genügender Entfernung einen Sprecher nicht mehr. Physikalisch gilt: Mit Verdoppelung der Entfernung nimmt die Qualität im Quadrat ab. Gleiches gilt für den Abstand Mund (=Lautquelle) – Mikrofon (=Zuhörer). Zu große oder gar wechselnde Abstände (schwenkendes Mikrofon mit mehr oder weniger großen Pendelausschlägen) sind der Qualität und damit der Erkennungsleistung abträglich. Konsequent-diszipliniertes Verhalten fördert.
Was sind Sprachfärbungen?
Jedes Individuum hat seine eigene Sprachfärbung, Aussprache ist individueller als der Fingerabdruck, ein Mensch spricht dasselbe Wort keinmal gleich aus, schon Gemütsschwankungen haben Einfluß auf die Stimme. Spracherkennungssysteme gestatten ein Eingangstraining, mit dem der Anwender dem System seine Sprachfärbung bekanntgibt. Dies fördert die Ersterkennungsgenauigkeit und damit die Motivation des Anwenders, liegt in der Regel bei einer Stunde und ist angesichts des Gesamtnutzens der späteren Nutzung empfehlenswert. Damit werden für das System die verschiedenen Anwender voneinander unterschieden. Da die Stimme sich permanent verändert, kann Spracherkennung nicht starr auf einen zulässigen Laut für eine Spracheinheit programmiert werden – der wird zwar hundertprozentig erkannt, wenn er vorkommt, kommt aber in praxi wegen der Stimmschwankungen nicht vor -, sondern läßt gewisse Bandbreiten zu, in denen sich der Anwender bewegen kann. Diese Bandbreiten werden vom System grundsätzlich stetig neu berechnet auf der Basis der aktuellen Diktate des Anwenders selbst. Das beste Training für die Spracherkennung ist also die möglichst natürliche, sprachlich unverstellte und flächendeckende Nutzung des Systems. Nur dann lernt das System die komplette Bandbreite des Anwenders kennen und kann sich voll entfalten.
Was ist ein Kontext-Lexikon?
Heutige Spracherkennung erschließt sich die Wörter nicht etwa aus einzelnen Buchstaben. Nach dem heutigen Stand der Technik nicht verrückbares Axiom ist die Notwendigkeit eines Vergleichsmaßstabes, anhand dessen der digitalisierte Lautschwall in einzelne sinnvolle Wörter einer Sprache umgesetzt wird. Diesen Vergleichsmaßstab bildet ein Lexikon, das alle Wörter enthält, die erkannt werden können. Ein diktiertes Wort, das nicht im Lexikon repräsentiert ist, führt zu einem Erkennungsfehler. Wichtig ist nun, dieses Lexikon einmal so aufzubauen, daß möglichst alle notwendigen Wörter darin vorkommen, es andererseits dynamisch zugestalten, so daß neue Wörter aufgenommen werden können, weil mit beidem die Erkennungsleistung verbessert wird. Man stelle sich nun vor, das Lexikon eines Spracherkennungssystems kenne nur ein einziges Wort, dies aber hundertprozentig und für alle potentiellen Diktanten, oder aber, es würde alle Wörter und alle Sprachen verwalten, wäre aber aufgrund der vielzähligen Möglichkeiten langsam und ungenau. Beide Systeme wären untauglich: Ein Wort allein bringt keine Effizienz, mangelnde Geschwindigkeit und Genauigkeit ebensowenig. Lassen Sie uns annehmen, die Zielgruppe hat einen Wortschatz von 3000 Wörtern (schon extrem hoch gegriffen), der 90% ihrer Sprache abdeckt. Bei vier Formen pro Wort im Durchschnitt der deutschen Sprache würde also ein Lexikon, das 12.000 Wortformen beinhaltet, 90% des Diktats abdecken. Alles, was darüber hinausgeht, dient also der Erkennung dieser letzten 10% unbekannter Wörter. SpeechMagic verwaltet 2 Lexika, ein aktives Lexikon mit 64.000 Wortformen und ein Background Lexikon mit 420.000 Wortformen, das nach oben nicht begrenzt ist. Es ist deshalb eine Abwägung verschiedener Parameter gefragt, um durch möglichst sinnhafte Beschränkungen auf das Wesentliche zu einer immer besseren Erkennungsrate zu gelangen. Kriterium für die Sinnhaftigkeit , den Anwender die Beschränkung möglichst wenig erfahren zu lassen. Eine der Beschränkungen ist die Sprecherabhängigkeit: Durch das Eingangstraining unterscheidet das System die einzelnen Anwender. Eine weitere ist die Landessprache: die Systeme sind in jeweils einer spezifischen Landessprache verfügbar.
Was ist eine Kontextstatistik?
Man findet jedoch weitere mögliche Beschränkungen, die die Erkennungsgenauigkeit im Zielgebiet steigern können: Sie werden mir folgen: Jeder hat seinen eigenen Sprachschatz, seine eigene Diktion, seine Formulierungsgewohnheiten. Keiner aus der Gesamtheit der Deutschsprechenden wird je das gesamte Spektrum der Sprache anwenden, sondern sich auf eine mehr oder weniger große Teilmenge beschränken. Darüber hinaus ist die Sprache selbst nicht eine vollständig beliebige Aneinanderreihung von Worten, sie folgt vielmehr gewissen Wahrscheinlichkeiten in der Abfolge der Wörter. SpeechMagic wertet nun alle Diktate des Anwenders hinsichtlich der vorgefundenen Wortfolgen aus und führt hierüber eine Statistik. Gerade bei lautlich ähnlich klingenden Wörtern hilft diese Statistik (=Wahrscheinlichkeit) bei der Entscheidung für das an dieser Stelle diktierte Wort. Diese natürliche Eingrenzung läßt sich allerdings noch fortdenken: Der gewählte Sprachschatz ist ebenso abhängig von dem Inhalt: Die Sprache eines persönlichen Briefes wird sich sehr unterscheiden von beruflichem Schriftgut desselben Autors. Der medizinische Befund wird eine andere Sprache aufweisen als die Klageschrift. Diese Tatsache nutzen wir in der Entwicklung, indem wir zielgruppenspezifische Kontexte entwickeln und vertreiben. Der Kontext allerdings ist im Laufe Anwendung für eine Weiterentwicklung offen: Es werden neue Wörter ebenso gelernt wie die Hinwendung zu neuen Inhalten statistisch verarbeitet wird (private Post etc.). Das System lernt dabei an vielen Stellen. Die Diskussion hier wird im wesentlichen bestimmt durch die Frage der Minimierung des Aufwands in der Einführungsphase der Spracherkennung. Die ist gekennzeichnet von der eigenen Trainingsarbeit des Diktanten – Stimme und Wortwahl können nicht delegiert werden -, wie von der Automatisation des neuen Arbeitsmittels. Wie in allen Bereichen müssen auch hier die Beteiligten – Anwender und System – aufeinanderzugehen, um den optimalen Nutzen zu erzielen. Vor dem Hintergrund dieser Überlegungen besteht kein Grund, vom Einsatz unserer professionellen Sprachverarbeitungsprodukte noch länger abzustehen.