
Software und Bücher zum Thema:


|
|
http://www.glossar.de/glossar/z_spracherkennung.htm
Sprechen statt tippen - OCR für die Sprache
Die Spracherkennung durch den PC zur Steuerung des Computers und zur Eingabe /
Erfassung von Texten verändert den Umgang mit der Technik und steckt Ende des 20.
Jahrhunderts nicht mehr in den Kinderschuhen. Möglich wurde das durch die ständig
steigende Leistungsfähigkeit moderner Hard- und Software.
Das nächste Etappenziel (aus Sicht Sommer 1998) ist die interaktive Steuerung von
Küchengeräten, Anrufbeantworter, Fahrkarten- oder Getränkeautomaten. Zukünftig soll
selbst die Bedienung von Videorecordern zum Kinderspiel werden. Man wird dem Videorecorder
einfach mitteilen, welchen Film er aufnehmen soll.
Zur Spracherkennung (analoges Signal) wird in ein Mikrofon gesprochen und das Signal
mit Hilfe einer Soundkarte in digitale Daten umgewandelt. Spezielle Algorithmen
qualifizieren die Eingabe und vergleichen sie mit den in einer Datenbank abgelegten
Worten. Danach stehen die Daten in einer computerverständlichen Form zur Verfügung.
Die aktuellen Produkte sind:
ViaVoice von IBM (www.de.ibm.com):
Eine wesentliche Verbesserung der 98er Version ist die redundante Erkennung von
Steuerungsbefehlen bei einer variierender Ausdrucksweise des Benutzers. Hierbei können
die Steuerungsbefehle völlig natürlich und ohne Pausen zwischen den Worten gesprochen
werden. Das Vokabular von 64 000 Wörtern in der Datenbank läßt sich dabei dynamisch und
themenbezogen um weitere 64.000 Wörter gemäß den eigenen Anforderungen erweitern.Den
Wechsel zwischen Diktieren und Steuern erkennt das Programm automatisch. Ebenso werden
Zahleneingaben automatisch im richtigen Format (beispielsweise DM oder Datum) dargestellt.
Über eine spezielle Schnittstelle läßt sich das Programm leicht in eigene Applikationen
integrieren oder an spezielle Vokabulare (Medizin, Jura usw.) anpassen. Ende des Sommers
ist IBM ViaVoice 98 in deutscher Sprache verfügbar sein.
IBM überarbeitet Spracherkennungs-Konzept
(Meldung von CNet vom 22. Juni 2000)
IBM hat die Absicht, im Laufe der nächsten zwölf bis 18 Monate eine Reihe
technologischer Entwicklungen vorzustellen, die als Grundlage für eine künftige Flut von
Spracherkennungs-Produkten dienen sollen. IBM erwartet, dass die wachsende Beliebtheit
drahtloser Datenverarbeitungsgeräte die Nachfrage nach Sprachverarbeitungs-Techniken
steigern wird. W.S. "Ozzie" Osborne von IBM ist der Meinung, der
Spracherkennungsmarkt werde bis 2006 auf 60 Milliarden Mark anwachsen.
Auf der Liste der von IBM geplanten technologischen Neuerungen stehen unter anderem:
WebSphere Voice Server mit ViaVoice-Technologie, ViaVoice Dictation für Linux, CallPath Enterprise Foundation 6.3, Direct Talk
Speech Recognition, Direct Talk Text-to-Speech, Direct Talk Beans für Java und Embedded
ViaVoice. "Wir versuchen jetzt, eine durchgehend verbreitete Plattform mit Tools
aufzubauen, mit denen Sprachanwendungen entwickelt werden können", sagt Osborne. IBM
beabsichtigt, seine Spracherkennungs-Technologie zur industriellen Basis für
Sprachanwendungen auszubauen. Analyst Bob Sutherland hält das für eine kluge Strategie,
obwohl die Umsetzung noch einige Zeit in Anspruch nehmen kann.
|
FreeSpeech von Philips Speech Processing (www.philips.de):
Das Programm in der 98er Version nutzt ein aktives Lexikon mit 64.000 Wörtern und ein
passives Lexikon mit 400.000 Einträgen. Philips stellt bei der Entwicklung der
Algorithmen die Anpassung der Software an den Benutzer in den Vordergrund, so daß das
Programm bereits nach kurzem Sprechertraining jeden Sprecher unterstützt. Dabei erreicht
das Programm bei der Erkennung der Syntax und Wörter eine Richtigkeit von fast 95
Prozent. Um das Diktat zu erleichtern, verwendet die Software das "Easy
Edit"-Korrekturprogramm, das den Text synchron mit der Spracheingabe korrigiert,
indem es markierte Wörter und Sätze akustisch wiedergibt.
Die von Philips entwickelte Technologie kommt nicht nur im PC Einsatz, sondern dient in
den Philips GSM-Handys
"Spark" und "Genie" zur Auswahl der Telefonnummern aus dem Telefonbuch
(Software direkt bestellen!)
VOCS (Voice Control System) von Bosch Blaupunkt (www.blaupunkt.de)
Diese Entwicklung ist weniger für den Computer-Bereich gedacht, als vielmehr zur
Bedienung der Verkehrstelematikplattform "Gemini" und das neue Radiophone (GSM-Phone und Autoradio)
"Helsinki" via Spracheingabe steuern. Die Spracheingabe und -erkennung ist als
ein Sicherheitsbeitrag zu bewerten, damit während des Fahrens die Hände am Lenkrad
bleiben. Das von Blaupunkt entwickelte Spracherkennungssystem muß dabei nicht auf
bestimmte Sprecher trainiert werden, sondern kann sogar Wörter erkennen, wenn sie in
einer der in Deutschland üblichen Mundarten gesprochen sind.
Voice Drive von Sony (www.sony.de):
Hier geht es ebenfalls um die Sprachsteuerung zur Bedienung von Autoradios. Sony
unterscheidet dabei drei Arten der Sprachein- und -ausgabe:
- "Voice Guide" dient zur Bestätigung sämtlicher Eingaben des Benutzers durch
eine entsprechende Sprachausgabe.
- Mit "Voice Memo" läßt sich das Radio als Diktiergerät nutzen. Es lassen
sich bis zu sechs Sprachnotizen von jeweils 15 Sekunden aufzeichnen.
- Mit der Funktion "Voice Recognition" ist die Steuerung der Funktionen über
Spracheingabe möglich. Die Spracheingabe erfolgt dabei über ein Mikrofon, das an die
Sonnenblende des Fahrzeugs geklemmt wird.
(zurück) zum Glossar: 
|