Spracherkennungs-Software, Sprachsteuerung, OCR, ViaVoice, FreeSpeech, Speech Processing, Voice Control System

Die Spracherkennung durch den PC zur Steuerung des Computers und zur Eingabe / Erfassung von Texten verändert den Umgang mit der Technik und steckt Ende des 20. Jahrhunderts nicht mehr in den Kinderschuhen. Möglich wurde das durch die ständig steigende Leistungsfähigkeit moderner Hard- und Software.
Das nächste Etappenziel (aus Sicht Sommer 1998) ist die interaktive Steuerung von Küchengeräten, Anrufbeantworter, Fahrkarten- oder Getränkeautomaten. Zukünftig soll selbst die Bedienung von Videorecordern zum Kinderspiel werden. Man wird dem Videorecorder einfach mitteilen, welchen Film er aufnehmen soll.

Zur Spracherkennung (analoges Signal) wird in ein Mikrofon gesprochen und das Signal mit Hilfe einer Soundkarte in digitale Daten umgewandelt. Spezielle Algorithmen qualifizieren die Eingabe und vergleichen sie mit den in einer Datenbank abgelegten Worten. Danach stehen die Daten in einer computerverständlichen Form zur Verfügung.

Die aktuellen Produkte sind:

ViaVoice von IBM (www.de.ibm.com):
Eine wesentliche Verbesserung der 98er Version ist die redundante Erkennung von Steuerungsbefehlen bei einer variierender Ausdrucksweise des Benutzers. Hierbei können die Steuerungsbefehle völlig natürlich und ohne Pausen zwischen den Worten gesprochen werden. Das Vokabular von 64 000 Wörtern in der Datenbank läßt sich dabei dynamisch und themenbezogen um weitere 64.000 Wörter gemäß den eigenen Anforderungen erweitern.Den Wechsel zwischen Diktieren und Steuern erkennt das Programm automatisch. Ebenso werden Zahleneingaben automatisch im richtigen Format (beispielsweise DM oder Datum) dargestellt. Über eine spezielle Schnittstelle läßt sich das Programm leicht in eigene Applikationen integrieren oder an spezielle Vokabulare (Medizin, Jura usw.) anpassen. Ende des Sommers ist IBM ViaVoice 98 in deutscher Sprache verfügbar sein.

IBM überarbeitet Spracherkennungs-Konzept
(Meldung von CNet vom 22. Juni 2000)

IBM hat die Absicht, im Laufe der nächsten zwölf bis 18 Monate eine Reihe technologischer Entwicklungen vorzustellen, die als Grundlage für eine künftige Flut von Spracherkennungs-Produkten dienen sollen. IBM erwartet, dass die wachsende Beliebtheit drahtloser Datenverarbeitungsgeräte die Nachfrage nach Sprachverarbeitungs-Techniken steigern wird. W.S. "Ozzie" Osborne von IBM ist der Meinung, der Spracherkennungsmarkt werde bis 2006 auf 60 Milliarden Mark anwachsen.

Auf der Liste der von IBM geplanten technologischen Neuerungen stehen unter anderem: WebSphere Voice Server mit ViaVoice-Technologie, ViaVoice Dictation für Linux, CallPath Enterprise Foundation 6.3, Direct Talk Speech Recognition, Direct Talk Text-to-Speech, Direct Talk Beans für Java und Embedded ViaVoice. "Wir versuchen jetzt, eine durchgehend verbreitete Plattform mit Tools aufzubauen, mit denen Sprachanwendungen entwickelt werden können", sagt Osborne. IBM beabsichtigt, seine Spracherkennungs-Technologie zur industriellen Basis für Sprachanwendungen auszubauen. Analyst Bob Sutherland hält das für eine kluge Strategie, obwohl die Umsetzung noch einige Zeit in Anspruch nehmen kann.

siehe auch www-4.ibm.com/software/speech

FreeSpeech von Philips Speech Processing (www.philips.de):
Das Programm in der 98er Version nutzt ein aktives Lexikon mit 64.000 Wörtern und ein passives Lexikon mit 400.000 Einträgen. Philips stellt bei der Entwicklung der Algorithmen die Anpassung der Software an den Benutzer in den Vordergrund, so daß das Programm bereits nach kurzem Sprechertraining jeden Sprecher unterstützt. Dabei erreicht das Programm bei der Erkennung der Syntax und Wörter eine Richtigkeit von fast 95 Prozent. Um das Diktat zu erleichtern, verwendet die Software das "Easy Edit"-Korrekturprogramm, das den Text synchron mit der Spracheingabe korrigiert, indem es markierte Wörter und Sätze akustisch wiedergibt.
Die von Philips entwickelte Technologie kommt nicht nur im PC Einsatz, sondern dient in den Philips GSM-Handys "Spark" und "Genie" zur Auswahl der Telefonnummern aus dem Telefonbuch (Software direkt bestellen!)

VOCS (Voice Control System) von Bosch Blaupunkt (www.blaupunkt.de)
Diese Entwicklung ist weniger für den Computer-Bereich gedacht, als vielmehr zur Bedienung der Verkehrstelematikplattform "Gemini" und das neue Radiophone (GSM-Phone und Autoradio) "Helsinki" via Spracheingabe steuern. Die Spracheingabe und -erkennung ist als ein Sicherheitsbeitrag zu bewerten, damit während des Fahrens die Hände am Lenkrad bleiben. Das von Blaupunkt entwickelte Spracherkennungssystem muß dabei nicht auf bestimmte Sprecher trainiert werden, sondern kann sogar Wörter erkennen, wenn sie in einer der in Deutschland üblichen Mundarten gesprochen sind.

Voice Drive von Sony (www.sony.de):
Hier geht es ebenfalls um die Sprachsteuerung zur Bedienung von Autoradios. Sony unterscheidet dabei drei Arten der Sprachein- und -ausgabe:

Sprechen statt tippen - OCR für die Sprache

Die aktuellen Produkte sind: