Tématický okruh 1: Dynamický výběr jednotek¶
Koordinátor: FAV ZČU, Plzeň
Popis¶
Modul dynamického výběru jednotek je klíčovou součástí korpusově orientovaného systému syntézy řeči. Jeho úkolem je pro každou syntetizovanou promluvu vybrat ze všech možných kombinací vhodných řečových jednotek a jejich instancí takovou posloupnost řečových segmentů, která nejlépe odpovídá požadavkům daným vstupní specifikací (textem) a dobře se řetězí – výsledná syntetická řeč zní srozumitelně, přirozeně a plynule bez zjevných spektrálních nespojitostí. Výzkum v rámci projektu naváže na výsledky předchozího bádání v oblasti syntézy řeči z textu a bude se zabývat zejména optimalizacemi modulu dynamického výběru jednotek a jejich vlivem na zvyšování přirozenosti a celkové kvality syntetizované řeči. Zkoumat se bude řada aspektů týkajících se návrhu inventáře řečových jednotek, jeho složení, velikosti, metod vyhledávání, porovnávání a spojování zástupců jednotek ve výsledném proudu vytvářené řeči, konverze na hlas jiného řečníka apod. Zvláštní pozornost bude věnována nastavení modulu dynamického výběru jednotek v korelaci se subjektivním vnímáním, percepcí, posluchači-lidmi. Optimálně navržený modul dynamického výběru jednotek přispěje ke zvýšení přirozenosti, zejména plynulosti syntetizované řeči.
Cíle a postupy¶
- Automatická detekce a lokalizace parazitujících rušivých zvuků ve zdrojových nahrávkách řečových korpusů a inventářích řečových jednotek (s využitím poznatků získaných v TO4); syntéza řeči s „vyčištěným“ inventářem řečových jednotek (2009-2010).
- Tvorba a optimalizace inventáře řečových jednotek s ohledem na jeho velikost, rychlost přístupu a výběru zástupců jednotek, s ohledem na typ a skladbu jednotek a přesnost jejich identifikace v řečových nahrávkách a také s ohledem na změnu hlasu výsledné syntetizované řeči (2009-2010).
- Výzkum vlivu různých aspektů dynamického výběru jednotek (např. vliv řečového kontextu, jeho záměny či neshody, vliv používaných lingvistických příznaků s ohledem na tzv. cenu cíle (s využitím poznatků získaných v T04) (2010-2011).
- Návrh objektivní míry podobnosti promluv nebo jejich částí (v korelaci se subjektivním vnímáním, percepcí, posluchači), využitelné k výzkumu a nastavení chování metody dynamického výběru jednotek v systému TTS (2010-2011).
Výstupy¶
- Grůber, M., Matoušek, J.: Listening-Test-Based Annotation of Communicative Functions for Expressive Speech Synthesis. In Text, Speech and Dialogue, 6231 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2010, pp. 283-290.
- Grůber, M., Tihelka, D.: Expressive Speech Synthesis for Czech Limited Domain Dialogue System - Basic Experiments. In Proc. IEEE 10 th Int. Conf. on Signal Proc., vol. 1, Beijing, China, 2010, pp. 561-564.
- Grůber, M.: Acoustic Analysis of Czech Expressive Recordings from a Single Speaker in Terms of Various Communicative Functions. In IEEE Internat. Symposium on Signal Process. and Information Technology, Bilbao, Spain, 2011, pp. 267-272.
- Hanzlíček, Z., Matoušek, J.: First experiments on text-to-speech system personification. In Text, Speech and Dialogue, 5729 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2009, pp. 186-193.
- Kašpar, L., Tihelka, D.: Vylepšení a zjednodušení algoritmu komprese řečových jednotek založené na technice CELP. Výzkumná zpráva projektu GA ČR 102/09/0989. Plzeň: ZČU v Plzni, FAV KKY, 2011.
- Legát, M., Matoušek, J.: Design of the Test Stimuli for the Evaluation of Concatenation Cost Functions. In Text, Speech and Dialogue, 5729 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2009, pp. 339-346.
- Legát, M., Matoušek, J.: Collection and Analysis of Data for Evaluation of Concatenation Cost Functions. In Text, Speech and Dialogue, 6231 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2010, pp. 345-352.
- Legát, M., Matoušek, J., Tihelka, D.: On the Detection of Pitch Marks Using a Robust Multi-Phase Algorithm. Speech Communication, 53, 4, pp. 552-566.
- Legát, M., Matoušek, J.: Identifying Concatenation Discontinuities by Hierarchical Divisive Clustering of Pitch Contours. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 171-178.
- Legát, M., Matoušek, J.: Analysis of Data Collected in Listening Tests for the Purpose of Evaluation of Concatenation Cost Functions. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 33-40.
- Legát, M., Matoušek, J.: Pitch Contours as Predictors of Audible Concatenation Artifacts. In Proc. World Congress on Eng. and Comp. Science, San Francisco, USA, 2011, pp. 525-529.
- Matoušek, J.: Automatic Pitch-Synchronous Phonetic Segmentation with Context-Independent HMMs. In Text, Speech and Dialogue, 5729 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2009, pp.178-185.
- Matoušek, J., Tihelka, D., Hanzlíček, Z.: Reducing Footprint of Unit Selection TTS System by Excluding Utterances from Source Speech Corpus. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009
- Matoušek, J., Skarnitzl, R., Machač, P., Trmal, J.: Identification and Automatic Detection of Parasitic Speech Sounds. In Proc. Interspeech 2009, Brighton, Great Britain, 2009, pp. 876-879.
- Matoušek, J.: Automatic Segmentation of Parasitic Sounds in Speech Corpora for TTS Synthesis. In Text, Speech and Dialogue, 6231 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2010, pp. 369-376.
- Matoušek, J., Skarnitzl, R., Tihelka, D., Machač, P.: Towards Linguistic Naturalness of Synthetic Speech. In Proc. World Congress on Eng. and Comp. Science, San Francisco, USA, 2011, pp. 561-566.
- Matoušek, J., Skarnitzl, R., Tihelka, D., Machač, P.: Removing Preglottalization from Unit-Selection Synthesis: Towards the Linguistic Naturalness of Synthetic Czech Speech. In IAENG Internat. J. Computer Science, vol. 39, no. 1, 2012, pp. 123-130.
- Tihelka, D., Kala, J., Matoušek, J.: Enhancements of Viterbi Search for Fast Unit Selection Synthesis. In Proc. Interspeech 2010, Makuhari, Japan, 2010, pp. 174-177.
- Tihelka, D., Romportl, J.: Exploring Automatic Similarity Measures for Unit Selection Tuning. In Proc. Interspeech 2009, Brighton, Great Britain, 2009, pp. 736-739.
- Tihelka, D., Stanislav, P.: ARTIC for Assistive Technologies: Transformation to Resource-Limited Hardware. In Proc. World Congress on Eng. and Comp. Science, San Francisco, USA, 2011, pp. 581-584.
- Tihelka, D., Méner, M.: Generalized Non-Uniform Time Scaling Distribution Method for Natural-Sounding Speech Rate Change. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 147-154.