Speechlabs
Verfahren der Sprachsynthese
Die Sprachsynthese überführt mittels eines maschinellen Verfahrens geschriebenen Text in gesprochene Sprache. Eine Analyse des Textes ergibt dessen Aussprache und die sprecherischen Eigenschaften. Für die Umwandlung in Sprachschall gibt es folgende Verfahren:
1. Formant- oder Regelsynthese:
Eine "einfache" Wellenform wird durch nachgeschaltete Filter so moduliert, dass Sprachlaute entstehen. Dieses Verfahren benötigt sehr viele Regeln welche Laute in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer leicht steuern. Dadurch kann man sehr variationsreiche Sprache generieren. Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit der Stimme.
Englische Sprachausgaben, die mit Formantsynthese arbeiten sind: DecTalk und Eloquent.
2. Konkatenationssynthese:
Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen, es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen zusammengesetzt (engl. to concatenate). Die Größe dieser Teile reicht von ganzen Wörtern und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Die größeren Einheiten bieten eine hohe Natürlichkeit, können aber nur bei eingeschränktem Vokabular eingesetzt werden. Kleinere Einheiten wie Halbsilben, Diphone und Laute (Allophone) können für beliebige Texte mit unbeschränktem Vokabular eingesetzt werden, wobei die Natürlichkeit leidet. Die am häufigsten verwendete Einheit ist das Diphon, das von der Mitte eines Lautes bis zur Mitte des nächsten reicht. Für jede Lautkombination gibt es ein Diphon, was im Deutschen zu einem Inventar von ca. 1600 bis 2500 Diphonen führt. Die von Logox verwendeten Mikrosegmente fassen etliche Lautkombinationen zusammen, wodurch eine Reduktion auf ca. 400 Mikrosegmente erreicht wurde, die meist kleiner sind als Diphone. Dadurch wurde eine Reduktion der Daten auf ca. 1/8 des Speicherbedarfs gegenüber Diphonsynthesen erreicht.
Ein grundsätzliches Problem bei allen konkatenativen Verfahren ist, dass die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe verändern lassen. Die technischen Verfahren, die dies ermöglichen sind rechenintensiv, gehen immer mit Qualitätseinbußen bei der Sprachqualität einher und/oder führen zu einer unnatürlicheren Stimme. Das Verfahren, das bei Logox verwendet wird, beruht auf der sorgfältigen Überprüfung und Annotation des Sprachsignals, wodurch aufwendige Berechnungen entfallen.
Konkatenative Verfahren zeichnen sich durch eine natürliche Stimmqualität aus und oft sind die Menschen, die dahinterstecken, wiederzuerkennen.
3. Artikulatorische Synthese:
Dieses Verfahren ist sehr rechenintensiv und wird nur zu Forschungszwecken verwendet. Die Bewegungen der "Sprechorgane" beim Sprechen werden modellhaft nachgebildet und basierend auf der Positionierung der "Sprechorgane" werden die Resonanzeigenschaften im Rachen-, Mund- und Nasenraum berechnet.
Mehr Info: http://www.haskins.yale.edu/haskins/MISC/ASY/ASY.html
|
Konkatenationssynthese |
Formantsynthese |
Diphonsynthese |
Mikrosegmentsynthese |
Vorteile
geringer Speicherplatzbedarf
einfache Veränderung akustischer Parameter
|
Vorteile
Wiedererkennbare Stimme
einfache Regeln zur Stimmgenerierung
|
Vorteile
Wiedererkennbare Stimme
einfache Stimmgenerierungsregeln
geringer Speicherplatzbedarf
Prosodiesteuerung im Zeitbereich
wenige Mikrosegmente
schnelle Entwicklung neuer Stimmen
|
Nachteile
Synthetischer Klang
aufwendige Regelsätze
|
Nachteile
hoher Speicherplatzbedarf
aufwendige Resyntheseverfahren zur Prosodiemodellierung
eingeschränkte Veränderung akustischer Parameter
|
Nachteile
eingeschränkte Veränderung akustischer Parameter
|
Links zu guten Forschungsseiten (Sprachsynthese, Grammatik, Intonation)
Überblick über Sprachsynthese von D. Zboril, München
http://www.phonetik.uni-muenchen.de/HS/Synthese.html
Geschichte der Sprachsynthese von H. Traunmüller
http://www.ling.su.se/staff/hartmut/kempln.htm
Englische Seiten:
FAQ der newsgroup comp.speech:
http://svr-www.eng.cam.ac.uk/comp.speech/
Milesstones in speech synthesis. Demos by Dennis Klatt
http://www.icsi.berkeley.edu/eecs225d/klatt.html
HAL's Legacy. Sammlung von Artikeln zur Sprachtechnologie.
http://mitpress.mit.edu/e-books/Hal/
|