Speechlabs

Text vorlesen Verfahren der Sprachsynthese

Die Sprachsynthese überführt mittels eines maschinellen Verfahrens geschriebenen Text in gesprochene Sprache. Eine Analyse des Textes ergibt dessen Aussprache und die sprecherischen Eigenschaften. Für die Umwandlung in Sprachschall gibt es folgende Verfahren:

Text vorlesen 1. Formant- oder Regelsynthese:
Eine "einfache" Wellenform wird durch nachgeschaltete Filter so moduliert, dass Sprachlaute entstehen. Dieses Verfahren benötigt sehr viele Regeln welche Laute in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer leicht steuern. Dadurch kann man sehr variationsreiche Sprache generieren. Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit der Stimme. Englische Sprachausgaben, die mit Formantsynthese arbeiten sind: DecTalk und Eloquent.

Text vorlesen 2. Konkatenationssynthese:
Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen, es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen zusammengesetzt (engl. to concatenate). Die Größe dieser Teile reicht von ganzen Wörtern und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Die größeren Einheiten bieten eine hohe Natürlichkeit, können aber nur bei eingeschränktem Vokabular eingesetzt werden. Kleinere Einheiten wie Halbsilben, Diphone und Laute (Allophone) können für beliebige Texte mit unbeschränktem Vokabular eingesetzt werden, wobei die Natürlichkeit leidet. Die am häufigsten verwendete Einheit ist das Diphon, das von der Mitte eines Lautes bis zur Mitte des nächsten reicht. Für jede Lautkombination gibt es ein Diphon, was im Deutschen zu einem Inventar von ca. 1600 bis 2500 Diphonen führt. Die von Logox verwendeten Mikrosegmente fassen etliche Lautkombinationen zusammen, wodurch eine Reduktion auf ca. 400 Mikrosegmente erreicht wurde, die meist kleiner sind als Diphone. Dadurch wurde eine Reduktion der Daten auf ca. 1/8 des Speicherbedarfs gegenüber Diphonsynthesen erreicht.
Ein grundsätzliches Problem bei allen konkatenativen Verfahren ist, dass die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe verändern lassen. Die technischen Verfahren, die dies ermöglichen sind rechenintensiv, gehen immer mit Qualitätseinbußen bei der Sprachqualität einher und/oder führen zu einer unnatürlicheren Stimme. Das Verfahren, das bei Logox verwendet wird, beruht auf der sorgfältigen Überprüfung und Annotation des Sprachsignals, wodurch aufwendige Berechnungen entfallen.
Konkatenative Verfahren zeichnen sich durch eine natürliche Stimmqualität aus und oft sind die Menschen, die dahinterstecken, wiederzuerkennen.

Text vorlesen 3. Artikulatorische Synthese:
Dieses Verfahren ist sehr rechenintensiv und wird nur zu Forschungszwecken verwendet. Die Bewegungen der "Sprechorgane" beim Sprechen werden modellhaft nachgebildet und basierend auf der Positionierung der "Sprechorgane" werden die Resonanzeigenschaften im Rachen-, Mund- und Nasenraum berechnet.

Mehr Info: http://www.haskins.yale.edu/haskins/MISC/ASY/ASY.html

  Konkatenationssynthese
Formantsynthese Diphonsynthese Mikrosegmentsynthese
Vorteile

geringer Speicherplatzbedarf

einfache Veränderung akustischer Parameter

Vorteile

Wiedererkennbare Stimme

einfache Regeln zur Stimmgenerierung

Vorteile

Wiedererkennbare Stimme

einfache Stimmgenerierungsregeln

geringer Speicherplatzbedarf

Prosodiesteuerung im Zeitbereich

wenige Mikrosegmente

schnelle Entwicklung neuer Stimmen

Nachteile

Synthetischer Klang

aufwendige Regelsätze

Nachteile

hoher Speicherplatzbedarf

aufwendige Resyntheseverfahren zur Prosodiemodellierung

eingeschränkte Veränderung akustischer Parameter

Nachteile

eingeschränkte Veränderung akustischer Parameter

Links zu guten Forschungsseiten (Sprachsynthese, Grammatik, Intonation)

Überblick über Sprachsynthese von D. Zboril, München
http://www.phonetik.uni-muenchen.de/HS/Synthese.html

Geschichte der Sprachsynthese von H. Traunmüller
http://www.ling.su.se/staff/hartmut/kempln.htm

Englische Seiten:

FAQ der newsgroup comp.speech:
http://svr-www.eng.cam.ac.uk/comp.speech/

Milesstones in speech synthesis. Demos by Dennis Klatt
http://www.icsi.berkeley.edu/eecs225d/klatt.html

HAL's Legacy. Sammlung von Artikeln zur Sprachtechnologie.
http://mitpress.mit.edu/e-books/Hal/