Tématický okruh 3: Modelování a generování prozodických charakteristik¶
Koordinátor: FEL ČVUT, Praha
Popis¶
Modul modelování a generování prozodických charakteristik je další významnou součástí každého systému syntézy řeči z textu. Kvalitní generování prozodických charakteristik do značné míry zvyšuje přirozenost vytvářené syntetické řeči a přispívá tak k její lepší „poslouchatelnosti“ zejména v rámci déletrvajících stimulů (větší odstavce, články, kapitoly, celé knihy). Prozodické charakteristiky lze generovat v zásadě dvěma způsoby: explicitně a implicitně. Při explicitním generování dochází k explicitnímu vytváření prozodických kontur (např. kontura F0), podle nichž se výsledný řečový signál modifikuje nebo se podle nich v modulu dynamického výběru jednotek vyhledávají vhodné instance řečových jednotek. V rámci projektu výzkum v této oblasti naváže na výsledky předchozích projektů zejména v aplikaci vícevrstvých neuronových sítí (MLNN), konkrétně MLNN s učením zpětného šíření chyby (BPG), optimalizovaných z hlediska topologie citlivostní analýzou a klestěním (pruning) vstupní a skryté vrstvy; budeme přitom vycházet i z výsledků získaných metodou GUHA. V souladu se zjištěními předchozího výzkumu, kdy byl mj. zkoumán i vliv velikosti souboru trénovacích vět a velikosti uvažovaného kontextu a s tím související velikostí vstupní vrstvy MLNN, chceme trénovací data vybírat s ohledem na fonetické a fonologické zvláštnosti češtiny. Zaměříme se i na volbu parametrů vstupní vrstvy neuronové sítě, důraz přitom bude kladen na prozodicky relevantní větší suprasegmentální jednotky (přesahující rámec fonémů). Věnovat se budeme také optimalizaci výběru parametrů ze vstupních dat s využitím samoorganizujících se map, s jejichž pomocí budeme hledat vhodné shluky reprezentující relevantní vlastnosti jazyka a ohodnocení jejich význačnosti z hlediska modelování prozodie češtiny.
Při implicitním generování prozodických charakteristik nedochází k vytváření prozodických kontur, ale prozodické vlastnosti řeči se modelují implicitně pomocí obecně lingvistických příznaků. V návaznosti na předchozí výzkum bude v oblasti řešení problematiky generování prozodie v zájmu zvyšování věrnosti vytvářené řeči kladen důraz zejména na zkoumání a formalizaci vztahu mezi formou a funkcí prozodie, a to v takové podobě, aby výsledky bylo možné účinně aplikovat v rámci technik strojového zpracování řeči. Dalším důležitým bodem bude nalezení vhodných textových identifikátorů, jež by bylo možné v systémech převodu textu na řeč využít k automatickému rozpoznání prozodické funkce syntetizovaných vět.
Cíle a postupy¶
- Tvorba reprezentativní databáze pro trénink a testování prozodických parametrů (2009).
- Automatická segmentace a parametrizace řečového signálu se zřetelem na větší řečové jednotky, porovnání ručního přístupu s aplikací neuronových sítí (2009-2010).
- Explicitní modelování prozodických charakteristik pomocí neuronových sítí, včetně výběru a optimalizace topologie neuronové sítě (2010-2011).
- Návrh a optimalizace algoritmu přiřazování prozodických forem z formálního popisu prozodické funkce při generování intonace syntetizované řeči metodou konkatenace dílčích intonačních kontur (2009-2010).
- Analýza prozodické homonymie (více prozodických funkcí majících stejnou formu) a možnosti jejího uplatnění při řešení problému nedostatečného množství trénovacích řečových dat (2011-2011).
Výstupy¶
- Grill, P., Tučková, J.: FORANA. In Proc. Int. Conf. on Technical Computing Prague 2009. Prague, 2009, pp. 32-39.
- Grill, P., Tučková, J.: Využití formantů k diagnostikování vývojové dysfázie u dětí. In Sborník 9. Česko-slovenské konference, Ostrava, 2011, pp. 98-101.
- Horák, P., Chaloupka, Z.: Prosody Modeling Possibilities of the Czech Emotional Speech. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009, pp. 114-117.
- Chaloupka, Z., Horák, P.: Prosody Modelling for TTS Systems Using Statistical Methods. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).
- Přibil, J., Přibilová, A.: Microintonation Analysis of Emotional Speech. Multimodal Signals: Cognitive and Algorithmic Issues, 5967 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2010, pp. 268-279.
- Romportl, J., Matoušek, J.: Several aspects of machine-driven phrasing in text-to-speech systems. The Prague Bulletin of Mathematical Linguistics, No. 95, 2011, pp. 51-61.
- Tučková, J., Grill, P.: Určování formantů pro analýzu emotivně zabarvené řeči. In 8th Czech-Slovak Conf. Trends in Biomedical Engineering. Bratislava, Slovakia, 2009, pp. 90-93.
- Tučková, J.: Emotions as a component of prosody. In 6th Int. Workshop Digital Technologies 2009. Žilina, Slovakia, 2009.
- Tučková, J., Bártů, M., Zetocha, P.: Aplikace umělých neuronových sítí při zpracování signálů. Praha: ČVUT v Praze, 2009.
- Tučková, J., Bártů, M., Zetocha, P., Grill, P.: Self-Organizing Maps as Data Classifier in Medical Applications. In Proc. Internat. Conf. on Neural Computation Theory and Applications, Paris, France, 2011, pp. 422-429.
- Vlčková-Mejvaldová, J., Horák, P.: Prosodic Parameters of Emotional Synthetic Speech in Czech: : Perception Validation. In Advances in Nonlinear Speech Processing, 7015 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 170-176.
- Vlčková-Mejvaldová, J., Horák, P.: The Influence of Individual Prosodic Parameters on the Perception of Emotions in Czech. In Proc. Internat. Conf. on Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA 2011), Poznaň, Poland, 2011, pp. 153-158.
- Vlčková-Mejvaldová, J., Horák, P.: Czech Emotional Prosody in the Mirror of Speech Synthesis. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).