Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Postup prací na řešení projektu v roce 2010

Projekt se zabývá automatickou syntézou mluvené češtiny a jeho hlavním cílem je zvýšit kvalitu, zejména přirozenost počítačově vytvářené mluvené řeči. Projekt je řešen na řešitelském pracovišti Katedry kybernetiky FAV ZČU v Plzni a na spoluřešitelských pracovištích Ústavu fotoniky a elektroniky AV ČR, Katedry teorie obvodů ČVUT-FEL v Praze a Fonetického ústavu FF UK v Praze. Výzkumné aktivity v projektu pokrývají základní současné oblasti, které ovlivňují kvalitu počítačově generované řeči. Výzkumné práce probíhaly v souladu s původním plánem a vedly tak k postupnému naplňování vytčených cílů. Jednotlivé dílčí výsledky jsou rozepsány v následujících odstavcích odpovídajících jednotlivým tematickým okruhům řešeného projektu. V tomto roce řešení projektu vzniklo 22 publikací bezprostředně souvisejících s řešením projektu. Nejvýznamnější z nich byly prezentovány na konferencích indexovaných v uznávané databázi Proceedings Citation Index, ISI Web of Knowledge, Thomson Reuters (2 příspěvky), publikovány v odborných časopisech či periodikách obsažených ve světově uznávané databázi ISI Web of Knowledge, Scopus nebo v Seznamu neimpaktovaných recenzovaných periodik vydávaných v ČR (celkem 7 příspěvků; další 3 příspěvky jsou v recenzním řízení). S pomocí grantu vznikla také monografie "Fonetická segmentace hlásek". K prezentaci projektu a vzájemné koordinaci řešitelských pracovišť slouží stránky projektu http://hqsyn09.zcu.cz. Veřejná část stránek prezentuje řešenou problematiku, jednotlivé tematické okruhy a dosažené výsledky. Interní část stránek slouží k vzájemné koordinaci řešitelských pracovišť a k efektivnímu řízení postupu prací při řešení projektu. Uskutečněno bylo i několik interních schůzek zástupců jednotlivých řešitelských týmů projektu. V roce 2010 byla spoluřešitelka projektu Jana Tučková jmenována profesorkou pro obor teoretická elektrotechnika.

Tématický okruh 1 (TO1): Dynamický výběr jednotek

V součinnosti s TO4 v roce 2010 pokračoval plánovaný výzkum v oblasti automatické detekce a lokalizace lingvisticky nesystémových, parazitujících rušivých zvuků ("preglot", "postglot", "šev") ve zdrojových nahrávkách řečových korpusů a s tím spojeným "čištěním" inventářů řečových jednotek. V [MAT10a] bylo ukázáno, že hranice parazitujících zvuků je možné nalézt automaticky s přesností srovnatelnou s přesností segmentace "standardních" českých hlásek. Pokračovaly rovněž práce na optimalizaci inventářů řečových jednotek [LEG10a], [MAT10b] a dalších aspektů dynamického výběru jednotek. Bylo dosaženo významného urychlení procesu syntézy řeči efektivním a škálovatelným prohledáváním stavového prostoru bez ovlivnění kvality syntetické řeči – pro 30-ti násobné urychlení nebyla speciálně navrženými poslechovými testy zjištěna žádná degradace kvality vytvářené řeči [TIH10a]. Systém byl také modifikován a paměťově optimalizován pro běh na zařízeních s omezenými zdroji a s omezeným výkonem (kapesní počítač, mobilní telefon, netbook apod.) [TIH10b]. Frekvenční vlastnosti jednotek v řečových inventářích byly popsány pomocí hlasivkových pulsů (resp. kontury základního hlasivkového tónu odvozené z přesně určených hlasivkových pulsů) detekovaných speciálně navrženým algoritmem [LEG10a]. Prověřena byla rovněž možnost rychlé tvorby nových inventářů pomocí technik konverze, transformace, resp. adaptace hlasu [HAN10a], [HAN10b]. K tomu byly v součinnosti s TO2 využity i statistické modely řečového signálu. Dále byla propracována metodika návrhu testovacích stimulů pro vyhodnocování funkcí ceny konkatenace ovlivňujících percepci syntetické řeči zejména na hranicích řetězených jednotek [LEG10b]. Ve spolupráci s TO4 byl zahájen výzkum i v oblasti vlivu různých aspektů dynamického výběru jednotek na cenu cíle a pokračoval výzkum objektivní míry percepční podobnosti promluv či jejich částí. Zkoumána byla rovněž možnost modelování obecně expresivní řeči metodou dynamického výběru jednotek pomocí tzv. komunikačních funkcí, tj. bez nutnosti modifikace řečového signálu [GRŮ10a], [GRŮ10b].

Tématický okruh 2 (TO2): Modelování řečového signálu

V letošním roce byl dokončen vývoj kepstrálního vokodéru založeného na komplexním kepstru a tento kepstrální vokodér byl implementován do TTS systému Epos [STA10]. Pokračovaly rovněž práce na transformaci řeči a řečových stylů [VON10a]. V součinnosti s TO1 jsme také pracovali na možnosti automatického vytváření inventářů řečových jednotek pro TTS systém Epos, což výrazně ulehčuje a zkracuje vývoj nových hlasů a umožňuje v budoucnu tohoto principu využít pro vývoj hlasů v jednotlivých emočních stylech [HOR10]. Také byl vytvořen první funkční fyzikální model hlasového traktu pro syntézu samohlásek a zároveň pokračovaly experimenty s emočně zabarvenou řečí [PŘA10], [PŘJ10], [VON10b]. V součinnosti s TO1 byly zkoumány i možnosti statistické parametrické syntézy řeči (s využitím statistických modelů řečového signálu založených na skrytých Markovových modelech, HMM) a transformace hlasu [HAN10a], [HAN10b].

Tématický okruh 3 (TO3): Modelování a generování prozodických charakteristik

V oblasti TO3 jsme pokračovali v analýze a klasifikaci emocí v řečovém signálu. Byl odvozen způsob vyjádření emocí, který bude vhodný pro modelování prozodie pomocí umělých neuronových sítí (UNS). Metoda použitá pro analýzu emocí je založena na způsobu vnímání kmitočtových změn v řečovém signálu. Jedná se o postup, který vychází z hudební teorie [TUC10a], [TUC10b]. Tento způsob popisu emocí se ukázal jako vhodný pro počítačové zpracování řeči. Byla ověřena vhodnost použití obou typů UNS (MLNN a SOM). Byl dokončen software pro přesnou extrakci formantů. S formantovou strukturou souvisí barva hlasu, která má rovněž vliv na zvýšení přirozenosti prozodie syntetické řeči. Byla vytvořena databáze promluv vyjadřujících čtyři emoce (radost, hněv, smutek a nudu). Nahrávání a zpracování promluv bylo časově velmi náročné, budování optimální neuronové sítě pro modelování prozodie tak bude pokračovat i v následujícím roce. V oblasti automatického generování prozodických struktur byl experimentálně otestován algoritmus přiřazování prozodických struktur textovým podobám vět na základě principu minimální vzdálenosti analytických funktorů. Tato metoda využívá principu prozodické homonymie ve vztahu ke kvazisyntaktickým strukturám promluv [ROM11]. Takto vytvářené prozodické struktury lze využít jak ke konkatenaci dílčích prozodických kontur, tak i jako další parametr ceny cíle při dynamickém výběru jednotek (v oblasti TO1).

Tématický okruh 4 (TO4): Fonetické vlastnosti řeči a jejich využití při syntéze řeči

Těžištěm činnosti v rámci TO4 bylo ověřování vnímatelnosti a rušivosti lingvisticky nesystémových prvků v řeči, zejména různých forem rázu. Výsledky naznačují, že vnímatelnost (tedy samotná schopnost detekce) této tzv. glotalizace závisí na typu rázu [SKA10a]. Je zajímavé, že vyšší vnímatelnost tohoto jevu automaticky neznamená vyšší míru rušivosti [SKA12]. Rušivost je do značné míry způsobena segmentálním kontextem, tedy jaké hlásce glotalizace předchází. Tytéž tendence nalézáme v oblasti rušivosti epentetického šva [SKA12]. Ve spolupráci s TO1 jsme se zaměřili na identifikaci problematických míst při konkatenaci řečových jednotek. Výsledky poslechové analýzy rozsáhlého korpusu byly porovnány s tradičními parametry používanými v oblasti akustické homogennosti řetězených jednotek; je zřejmé, že korelace percepční homogennosti a např. parametru MFCC je relativně nízká. V současné době jsou proto hledány foneticky uchopitelnější parametry, které by lépe než parametry tradiční odpovídaly percepční rušivosti konkatenace. Toto téma bude dokončeno v roce 2011, stejně jako percepční hodnocení emočně zabarvených řečových projevů.