Tématický okruh 2: Modelování řečového signálu¶
Koordinátor: ÚFE AV ČR, Praha
Popis¶
Modifikace řeči na úrovni řečového signálu založená na využití vhodného řečového modelu představuje efektivní způsob, jak měnit spektrální i prozodické vlastnosti řeči. Přestože s dobře nastaveným modulem dynamického výběru jednotek potřeba modifikovat syntetizovanou řeč na signálové úrovni klesá, v jistých kontextech (málo zastoupených ve zdrojovém řečovém korpusu) a do budoucna rovněž s ohledem na modifikace stylu řeči a transformace hlasu je korektní modifikace řečového signálu stále velmi důležitá. Řešitelský tým nabyl v předchozím výzkumu i v této oblasti řadu zkušeností. V rámci předkládaného projektu se chceme zaměřit na hledání nových metod modelování řeči s důrazem na přirozenost a přijatelnost syntetické řeči za pomoci výzkumu chování hlasového traktu v různých intonačních polohách s ověřením simulacemi na fyzikálním akustickém modelu hlasového traktu. Získané poznatky plánujeme využít i při výzkumu transformace řeči s minimální degradací její kvality. Dále se chceme věnovat výzkumu emocionálních řečových stylů, jejich popisu, analýze, syntéze a transformaci.
Cíle a postupy¶
- Analýza degradujících vlivů současných modelů hlasového traktu pracujících ve frekvenční oblasti při modelování intonačně bohaté řeči (2009).
- Návrh fyzikálního akustického modelu hlasového traktu a jeho využití při modelování řečového signálu s vysokou přirozeností v různých intonačních polohách (2009-2010).
- Modifikace stávajících řečových modelů za účelem modelování řečového signálu s vysokou přirozeností v různých intonačních hladinách a transformace řeči (2010-2011).
- Výzkum význačných emocionálních stylů, jejich analýza, modelování a transformace (2010-2011).
Výstupy¶
- Hanzlíček, Z.: Czech HMM-Based Speech Synthesis. In Text, Speech and Dialogue, 6231 / Lecture Notes in Artificial Intelligence, Berlin, Heidelberg: Springer, 2010, pp. 291-298.
- Hanzlíček, Z.: Czech HMM-Based Speech Synthesis: Experiments with Model Adaptation. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 107-114.
- Horák, P., Chaloupka, Z.: Prosody Modeling Possibilities of the Czech Emotional Speech. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009, pp. 114-117.
- Přibilová, A., Přibil, J.: Harmonic Model for Female Voice Emotional Synthesis. Biometric ID Management and Multimodal Communication, 5707 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 41-48.
- Přibil, J., Přibilová, A.: Statistical Analysis of Spectral Properties and Prosodic Parameters of Emotional Speech. Measurement Science Review. 2009, 9, 4, pp. 95-104.
- Přibilová, A., Přibil, J.: Spectrum Modification for Emotional Speech Synthesis. Multimodal Signals: Cognitive and Algorithmic Issues, 5398 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 232-241.
- Přibil, J., Přibilová, A.: Spectral Flatness Analysis for Emotional Speech Synthesis and Transformation. Cross-Modal Analysis of Speech, Gestures, Gaze and Facial Expressions, 5641 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2009, pp. 106-115.
- Přibil, J., Přibilová, A.: An Experiment with Evaluation of Emotional Speech Conversion by Spectrograms. Measurement Science Review. 2010, 10, 3, pp. 72-77.
- Přibil, J., Přibilová, A.: Microintonation Analysis of Emotional Speech. Multimodal Signals: Cognitive and Algorithmic Issues, 5967 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2010, pp. 268-279.
- Přibil, J., Přibilová, A.: Statistical Analysis of Complementary Spectral Features of Emotional Speech in Czech and Slovak. In Text, Speech and Dialogue, LNAI 6836 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 299-306.
- Přibil, J., Přibilová, A.: Influence of Visual Stimuli on Evaluation of Converted Emotional Speech by Listening Tests. In Analysis of Verbal and Nonverbal Communication and Enactment: The Processing Issues, 6800 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 378-392.
- Přibil, J., Přibilová, A.: Comparison of Spectral and Prosodic Parameters of Male and Female Emotional Speech in Czech and Slovak. In Proc. IEEE Internat. Conf. on Acoustics, Speech and Signal Process. (ICASSP 2011), Prague, Czech Republic, pp. 4720-4723.
- Přibil, J., Horáček, J., Horák, P., Frollo, I.: Noise Reduction of Recorded Speech in an NMR Imaginer during Phonation for 3D Vocal Tract Modeling. In Proc. MEASUREMENT 2011 Conf., Smolenice Castle, Slovak Republic, pp. 364-367.
- Přibil, J., Přibilová, A.: Spectral Properties and Prosodic Parameters of Emotional Speech in Czech and Slovak. In Speech and Language Technologies, Book 2, Chapter 9, InTech, 2011, pp. 175-200.
- Přibil, J., Přibilová, A.: Analysis and Comparison of Complementary Spectral Features for Emotional Speech Classification. In Proc. COST 2102 / Internat. Training School on Cognitive Behavioural Systems, 2011.
- Přibil, J., Horáček, J., Horák, P.: Two Methods of Mechanical Noise Reduction of Recorded Speech During Phonation in an MRI Device. Measurement Science Review. 2011, 11, 3, pp. 92-98.
- Přibil, J., Přibilová, A.: Analysis and Comparison of Complementary Spectral Features for Emotional Speech Classification. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).
- Staněk, J., Vondra, M.: Comparison of Speech Vocoders Based on Real and Complex Cepstral Coefficients. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009, pp. 121-124.
- Vích, R., Vondra, M.: Pitch Synchronous Transform Warping in Voice Conversion. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).
- Vlčková-Mejvaldová, J., Horák, P.: Prosodic Parameters of Emotional Synthetic Speech in Czech: : Perception Validation. In Advances in Nonlinear Speech Processing, 7015 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 170-176.
- Vlčková-Mejvaldová, J., Horák, P.: The Influence of Individual Prosodic Parameters on the Perception of Emotions in Czech. In Proc. Internat. Conf. on Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA 2011), Poznaň, Poland, 2011, pp. 153-158.
- Vlčková-Mejvaldová, J., Horák, P.: Řeč, emoce a my. In Sborník abstraktů 3. Symposia Umělecký hlas, Praha, Czech Rep., 2011, pp. 41-42.
- Vlčková-Mejvaldová, J., Horák, P.: Czech Emotional Prosody in the Mirror of Speech Synthesis. In Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2012 (v recenzním řízení).
- Vondra, M., Vích, R.: Modification of the Glottal Voice Characteristics Based on Changing the Maximum-Phase Speech Component. In Analysis of Verbal and Nonverbal Communication and Enactment: The Processing Issues, 6800 / Lecture Notes in Computer Science, Berlin, Heidelberg: Springer, 2011, pp. 240-251.
- Vondra, M., Vích, R., Horák, P.: Czech Acted Emotional Speech Database. In Proc. 19th Czech-German Workshop on Speech Proc., Prague, 2009, pp. 118-120.