Tématický okruh 4: Fonetické vlastnosti řeči a jejich využití při syntéze řeči¶
Koordinátor: FF UK, Praha
Popis¶
Význam statistických metod a metod strojového učení v poslední době stále vzrůstá a díky existenci mnoha vydatných řečových korpusů je možné je využít k takřka automatické přípravě inventářů řečových jednotek. Při následné vlastní syntéze řeči pak bývá trendem v zásadě pracovat jen s informacemi v korpusech obsaženými a ve stále menší míře se využívá obecných lingvistických, popř. fonetických znalostí. V rámci předkládaného projektu chceme využít jedinečný potenciál řešitelského týmu a oba přístupy efektivně skloubit. Vyjdeme přitom i z předchozích výsledků, např. z rozsáhlých studií glotalizačních jevů, výzkumu temporálních a spektrálních vlastností hlásek. V rámci projektu se výzkumné aktivity budou zaměřovat na fonetické aspekty vedoucí ke zvyšování přirozenosti a vysokému stupni přijatelnosti syntetizované řeči, zejména na identifikaci akustických parametrů (např. barva hlasu, spektrální sklon či charakteristiky formantů) percepčně relevantních pro dojem plynulé návaznosti volených řečových jednotek v syntetické řeči vytvářené metodou dynamického výběru jednotek a na analýzu používaných zvukových inventářů s cílem lokalizovat lingvisticky nesystémové řečové prvky, které se ve výsledné syntetizované řeči mohou projevovat jako parazitující, rušivé zvuky.
Cíle a postupy¶
- Fonetická analýza zdrojových nahrávek: identifikace lingvisticky nesystémových řečových prvků a zobecnění nedostatků; experimentální ověření bude provedeno v TO1 (2009).
- Fonetická variabilita realizace rázu jako fonologické kategorie: analýza, popis a vytvoření typologie vhodné pro účely syntetizované řeči; analýza a popis funkcí neutrálního vokálu v souvislé řeči a zjištění míry jeho přijatelnosti v různých kontextech (například ve funkci fortifikace předcházející hlásky, vliv na standardní asimilaci znělosti) (2009-2010).
- Výzkum možností zvýšení percepční homogennosti řetězených jednotek (ověřování dojmu plynulosti pomocí percepčních testů, výběr a analýza kritických míst, identifikace a popis percepčně významných parametrů; návrh foneticky relevantních parametrů, syntéza řečových jednotek s rozdílnými hodnotami těchto parametrů, ověřování jejich percepční významnosti) (experimentální ověření bude provedeno v TO1) (2010-2011).
- Návrh a ověření metodologie pořizování emočně zabarveného zvukového materiálu pro účely syntézy emocionální řeči; zahájení výzkumu vlivu vybraných emočních stylů na spektrální charakteristiky řeči, zejména v oblasti fonačních modifikací (2011).
Výstupy¶
- Grůber, M., Matoušek, J.: Listening-Test-Based Annotation of Communicative Functions for Expressive Speech Synthesis. In Text, Speech and Dialogue, 6231 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2010, pp. 283-290.
- Grůber, M., Tihelka, D.: Expressive Speech Synthesis for Czech Limited Domain Dialogue System - Basic Experiments. In Proc. IEEE 10 th Int. Conf. on Signal Proc., vol. 1, Beijing, China, 2010, pp. 561-564.
- Grůber, M.: Acoustic Analysis of Czech Expressive Recordings from a Single Speaker in Terms of Various Communicative Functions. In IEEE Internat. Symposium on Signal Process. and Information Technology, Bilbao, Spain, 2011, pp. 267-272.
- Horák, P., Chaloupka, Z.: Prosody Modeling Possibilities of the Czech Emotional Speech. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009, pp. 114-117.
- Machač, J., Skarnitzl, R.: Phonetic Analysis of Parasitic Speech Sounds. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009
- Machač, P., Skarnitzl, R.: Principles of phonetic segmentation / Spektrografická segmentace hlásek. Praha: Nakladatelství Epocha (v tisku).
- Matoušek, J., Skarnitzl, R., Machač, P., Trmal, J.: Identification and Automatic Detection of Parasitic Speech Sounds. In Proc. Interspeech 2009, Brighton, Great Britain, 2009, pp. 876-879.
- Přibilová, A., Přibil, J.: Harmonic Model for Female Voice Emotional Synthesis. Biometric ID Management and Multimodal Communication, 5707 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 41-48.
- Přibil, J., Přibilová, A.: Statistical Analysis of Spectral Properties and Prosodic Parameters of Emotional Speech. Measurement Science Review. 2009, 9, 4, pp. 95-104.
- Přibilová, A., Přibil, J.: Spectrum Modification for Emotional Speech Synthesis. Multimodal Signals: Cognitive and Algorithmic Issues, 5398 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 232-241.
- Přibil, J., Přibilová, A.: Spectral Flatness Analysis for Emotional Speech Synthesis and Transformation. Cross-Modal Analysis of Speech, Gestures, Gaze and Facial Expressions, 5641 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 106-115.
- Přibil, J., Přibilová, A.: An Experiment with Evaluation of Emotional Speech Conversion by Spectrograms. Measurement Science Review. 2010, 10, 3, pp. 72-77.
- Přibil, J., Přibilová, A.: Microintonation Analysis of Emotional Speech. Multimodal Signals: Cognitive and Algorithmic Issues, 5967 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2010, pp. 268-279.
- Přibil, J., Přibilová, A.: Statistical Analysis of Complementary Spectral Features of Emotional Speech in Czech and Slovak. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 299-306.
- Přibil, J., Přibilová, A.: Influence of Visual Stimuli on Evaluation of Converted Emotional Speech by Listening Tests. In Analysis of Verbal and Nonverbal Communication and Enactment: The Processing Issues, 6800 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 378-392.
- Přibil, J., Přibilová, A.: Comparison of Spectral and Prosodic Parameters of Male and Female Emotional Speech in Czech and Slovak. In Proc. IEEE Internat. Conf. on Acoustics, Speech and Signal Process. (ICASSP 2011), Prague, Czech Republic, pp. 4720-4723.
- Přibil, J., Přibilová, A.: Spectral Properties and Prosodic Parameters of Emotional Speech in Czech and Slovak. In Speech and Language Technologies, Book 2, Chapter 9, InTech, 2011, pp. 175-200.
- Přibil, J., Přibilová, A.: Analysis and Comparison of Complementary Spectral Features for Emotional Speech Classification. In Proc. COST 2102 / Internat. Training School on Cognitive Behavioural Systems, 2011.
- Přibil, J., Přibilová, A.: Analysis and Comparison of Complementary Spectral Features for Emotional Speech Classification. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).
- Skarnitzl, R., Machač, P.: Domain-initial coordination of phonation and articulation in Czech radio speech. AUC Philologica 1/2009, Phonetica Pragensia, XII, 2010, pp. 21-35
- Skarnitzl, R., Machač, P.: Míra rušivosti parazitních zvuků v řeči mediálních mluvčích. Naše řeč, no. 95/1, 2012, pp. 3-14.