Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Tématický okruh 3: Modelování a generování prozodických charakteristik

Koordinátor: FEL ČVUT, Praha

Popis

Modul modelování a generování prozodických charakteristik je další významnou součástí každého systému syntézy řeči z textu. Kvalitní generování prozodických charakteristik do značné míry zvyšuje přirozenost vytvářené syntetické řeči a přispívá tak k její lepší „poslouchatelnosti“ zejména v rámci déletrvajících stimulů (větší odstavce, články, kapitoly, celé knihy). Prozodické charakteristiky lze generovat v zásadě dvěma způsoby: explicitně a implicitně. Při explicitním generování dochází k explicitnímu vytváření prozodických kontur (např. kontura F0), podle nichž se výsledný řečový signál modifikuje nebo se podle nich v modulu dynamického výběru jednotek vyhledávají vhodné instance řečových jednotek. V rámci projektu výzkum v této oblasti naváže na výsledky předchozích projektů zejména v aplikaci vícevrstvých neuronových sítí (MLNN), konkrétně MLNN s učením zpětného šíření chyby (BPG), optimalizovaných z hlediska topologie citlivostní analýzou a klestěním (pruning) vstupní a skryté vrstvy; budeme přitom vycházet i z výsledků získaných metodou GUHA. V souladu se zjištěními předchozího výzkumu, kdy byl mj. zkoumán i vliv velikosti souboru trénovacích vět a velikosti uvažovaného kontextu a s tím související velikostí vstupní vrstvy MLNN, chceme trénovací data vybírat s ohledem na fonetické a fonologické zvláštnosti češtiny. Zaměříme se i na volbu parametrů vstupní vrstvy neuronové sítě, důraz přitom bude kladen na prozodicky relevantní větší suprasegmentální jednotky (přesahující rámec fonémů). Věnovat se budeme také optimalizaci výběru parametrů ze vstupních dat s využitím samoorganizujících se map, s jejichž pomocí budeme hledat vhodné shluky reprezentující relevantní vlastnosti jazyka a ohodnocení jejich význačnosti z hlediska modelování prozodie češtiny.

Při implicitním generování prozodických charakteristik nedochází k vytváření prozodických kontur, ale prozodické vlastnosti řeči se modelují implicitně pomocí obecně lingvistických příznaků. V návaznosti na předchozí výzkum bude v oblasti řešení problematiky generování prozodie v zájmu zvyšování věrnosti vytvářené řeči kladen důraz zejména na zkoumání a formalizaci vztahu mezi formou a funkcí prozodie, a to v takové podobě, aby výsledky bylo možné účinně aplikovat v rámci technik strojového zpracování řeči. Dalším důležitým bodem bude nalezení vhodných textových identifikátorů, jež by bylo možné v systémech převodu textu na řeč využít k automatickému rozpoznání prozodické funkce syntetizovaných vět.

Cíle a postupy

  • Tvorba reprezentativní databáze pro trénink a testování prozodických parametrů (2009).
  • Automatická segmentace a parametrizace řečového signálu se zřetelem na větší řečové jednotky, porovnání ručního přístupu s aplikací neuronových sítí (2009-2010).
  • Explicitní modelování prozodických charakteristik pomocí neuronových sítí, včetně výběru a optimalizace topologie neuronové sítě (2010-2011).
  • Návrh a optimalizace algoritmu přiřazování prozodických forem z formálního popisu prozodické funkce při generování intonace syntetizované řeči metodou konkatenace dílčích intonačních kontur (2009-2010).
  • Analýza prozodické homonymie (více prozodických funkcí majících stejnou formu) a možnosti jejího uplatnění při řešení problému nedostatečného množství trénovacích řečových dat (2011-2011).

Výstupy