![]() |
![]() |
![]() |
![]() |
![]() |
||||||||||||
![]() |
![]() |
|||||||||||||||
![]() ![]() |
![]() |
![]() |
![]() |
|||||||||||||
![]() |
![]() |
|||||||||||||||
![]() |
||||||||||||||||
SpeechlabsSprachsyntheseBei der Sprachsynthese wird ein geschriebener Text mittels maschineller Verfahren in sprachliche Laute umgewandelt. Bei modernen Text-to-Speech-Systemen unterscheidet man zwei große Bestandteile eines Systems.
Im ersten Teil wird ein Text in einzelne Wörter zerlegt. Dann wird die Aussprache der Worte ermittelt und es wird eine Analyse der sprachlichen Struktur vorgenommen. Durch diese Analyse werden dann die Sprechmelodie, der Sprechrhythmus und die Pausierung bestimmt. Die Resultate der Textanalyse werden in symbolischer Form in den eigentlichen Sprachsynthetisator eingegeben und dort in Sprachschall umgesetzt. Dazu gibt es mehrere Verfahren, die im nächsten Abschnitt näher erläutert werden.
Die Sprachsynthese überführt mittels eines maschinellen Verfahrens geschriebenen Text in gesprochene Sprache. Eine Analyse des Textes ergibt dessen Aussprache und die sprecherischen Eigenschaften. Für die Umwandlung in Sprachschall gibt es folgende Verfahren:
|
Konkatenationssynthese | ||
Formantsynthese | Diphonsynthese | Mikrosegmentsynthese |
Vorteile geringer Speicherplatzbedarf einfache Veränderung akustischer Parameter |
Vorteile Wiedererkennbare Stimme einfache Regeln zur Stimmgenerierung |
Vorteile Wiedererkennbare Stimme einfache Stimmgenerierungsregeln geringer Speicherplatzbedarf Prosodiesteuerung im Zeitbereich wenige Mikrosegmente schnelle Entwicklung neuer Stimmen |
Nachteile Synthetischer Klang aufwendige Regelsätze |
Nachteile hoher Speicherplatzbedarf aufwendige Resyntheseverfahren zur Prosodiemodellierung eingeschränkte Veränderung akustischer Parameter |
Nachteile eingeschränkte Veränderung akustischer Parameter |
Links zu guten Forschungsseiten (Sprachsynthese, Grammatik, Intonation)
Überblick über Sprachsynthese von D. Zboril, München
http://www.phonetik.uni-muenchen.de/HS/Synthese.html
Geschichte der Sprachsynthese von H. Traunmüller
http://www.ling.su.se/staff/hartmut/kempln.htm
Englische Seiten:
FAQ der newsgroup comp.speech:
http://svr-www.eng.cam.ac.uk/comp.speech/
Milesstones in speech synthesis. Demos by Dennis Klatt
http://www.icsi.berkeley.edu/eecs225d/klatt.html
HAL's Legacy. Sammlung von Artikeln zur Sprachtechnologie.
http://mitpress.mit.edu/e-books/Hal/
Bereits die antiken Griechen verfügten über sprechende Statuen. Ein Schlauch führte vom Mund des Sprechers zum Mund der Statue. Priester beeindruckten derart die Seelen der armen Sterblichen.
Die ersten Versuche, menschliche Sprache maschinell zu erzeugen, wurden in der zweiten Hälfte des 18. Jahrhunderts unternommen. Ch. G. Kratzenstein, Professor der Physiologie in Kopenhagen, vorher in Halle und Petersburg, gelang es, mit an Orgelpfeifen angeschlossenen Resonanzröhren Vokale hervorzubringen (1773). Um diese Zeit hatte auch Wolfgang von Kempelen schon mit Versuchen begonnen, die ihn zum Bau einer sprechenden Maschine führten. Von Kempelen war ein Ingenius im Dienste von Maria Theresia in Wien. Er wurde 1734 in Pressburg, der damaligen Hauptstadt von Ungarn, geboren und starb 1804 in Wien. In seinem Buch "Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine" (1791) beschrieb er auch seine Sprachmaschine ganz detailliert, damit andere sie nachbauen und verbessern mögen.
Mehr Info: http://www.ling.su.se/staff/hartmut/kempln.htm
Der "Voder" von Homer Dudley war das erste elektrische Gerät, mit dem ähnlich wie auf einem Musikinstrument, Sprache erzeugt werden konnte. Mit einer Tastatur konnte man die Resonanzfrequenzen der Sprachlaute verändern und ein Fußpedal diente dazu die Tonhöhe zu variieren. Der "Voder" wurde 1939 auf der Weltausstellung in New York dem staunenden Publikum vorgestellt.
Mehr Info: http://www.haskins.yale.edu/haskins/HEADS/SIMULACRA/voder.html (English)
Frank Cooper entwickelte ein Verfahren namens "PatternPlayback", das auf der Basis einer Spektralanalyse Laute künstlich erzeugen konnte. Ein Lichtstrahl wurde gebündelt und durch ein Tonrad moduliert. Die Modulationen wurden auf lichtempfindlichen Rollen aufgezeichnet und so reproduzierbar gemacht.
Mehr Info: http://www.haskins.yale.edu/Haskins/MISC/PP/pp.html (English)
Keines der bisher genannten Systeme konnte Texte als Eingabe automatisch verarbeiten.
In den schriftlichen Aufzeichnungen eines Textes gibt es keine klaren Angaben darüber, mit welcher Intonation ein Text vorgelesen werden soll. Sie muss aus einer Reihe von kleinen Hinweisen aus dem Kontext erschlossen werden. Viele dieser Hinweise sind durch mehr oder weniger komplexe Analyseverfahren zugänglich, andere werden auch auf längere Zeit auf einem einfachen PC nicht verwendbar sein (z.B. die Einbindung von Wissen über die Welt). Logox verfügt über eine ausgereifte Satz- und Textanalyse, in der die Position von akzentuierten Wörtern und Grenzen von sprechrhythmischen und intonatorischen Einheiten zuverlässig aus der Satzstruktur abgeleitet werden. Die Melodie kann man mit Steuerzeichen (Speechtags) im Text beeinflussen. Man kann Akzente hinzufügen oder löschen, neue Töne vergeben usw.
Logox übernimmt einen Text und zerlegt ihn in einzelne Wörter. Zunächst werden die geschriebenen Formen bestimmter Ausdrücke wie Geldbeträge, Einheiten, Uhrzeiten, Zahlen usw. in die Wortfolgen umgewandelt, die man beim Sprechen verwendet. So wird z.B. aus 2,48 DM die Wortfolge "Zweimarkachtundvierzig". Für jedes Wort wird eine Aussprache per Lexikon oder falls nicht vorhanden per Ausspracheregel ermittelt. Außerdem werden durch eine komplexe Analyse der Sätze die Sprechmelodie und der Sprechrhythmus bestimmt. Alle Informationen werden in eine Symbolkette kodiert, die dann an den eigentlichen Sprachgenerator übergeben wird. Dort wird diese Symbolkette mit einem Regelsatz in eine Abfolge von Mikrosegmenten umgewandelt, die erforderlichen Mikrosegmente werden ausgewählt, verknüpft und über die Soundkarte ausgegeben. Der Computer spricht.