Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Postup prací na řešení projektu v roce 2011

Výzkumné práce v roce 2011 probíhaly v souladu s původním plánem a vedly tak k postupnému plnění vytčených cílů. Jednotlivé výsledky jsou rozepsány v následujících odstavcích odpovídajících jednotlivým tematickým okruhům řešeného projektu. V posledním roce řešení projektu vzniklo 29 publikací bezprostředně souvisejících s řešením projektu. Nejvýznamnější z nich byly publikovány v odborných časopisech či periodikách obsažených ve světově uznávané databázi ISI Web of Knowledge, Scopus nebo v Seznamu neimpaktovaných recenzovaných periodik vydávaných v ČR (celkem 11 příspěvků; dalších 5 příspěvků je připraveno k publikaci v roce 2012). Celkem 6 příspěvků bylo dále prezentováno na konferencích, jejichž sborníky jsou indexovány v uznávané databázi Proceedings Citation Index, ISI Web of Knowledge, Thomson Reuters. S pomocí grantu vznikla také kapitola v knize "Speech and Language Technologies" [PŘI11f]. Seznam všech publikovaných výsledků (včetně těch z posledního roku) je uveden v části ZCd) „Celkové shrnutí řešení projektu“. K prezentaci projektu a vzájemné koordinaci řešitelských pracovišť slouží stránky projektu http://hqsyn09.zcu.cz. Veřejná část stránek prezentuje řešenou problematiku, jednotlivé tematické okruhy a dosažené výsledky. Interní část stránek slouží k vzájemné koordinaci řešitelských pracovišť a k efektivnímu řízení postupu prací při řešení projektu. Uskutečněno bylo i několik interních schůzek zástupců jednotlivých řešitelských týmů projektu.

Tématický okruh 1 (TO1): Dynamický výběr jednotek

Ve spolupráci s TO4 byl v roce 2011 završen výzkum v oblasti automatické detekce a lokalizace lingvisticky nesystémových, parazitních rušivých zvuků (preglotalizace, postglotalizace, epentetické šva) ve zdrojových nahrávkách řečových korpusů a s tím spojeným "čištěním" inventářů řečových jednotek. Byly navrženy dva scénáře pro korpusově orientovanou syntézu s "vyčištěným" inventářem řečových jednotek, bez preglotalizací. Pomocí obou scénářů byla vytvářena řeč s vyšší lingvistickou přirozeností, "rušivost" původně způsobená přítomností preglotalizace byla potlačena na minimum (ověřeno neformálními poslechovými testy) [MAT11], [MAT12]. Výzkum pokračoval i v oblasti optimalizace inventářů řečových jednotek a dalších aspektů dynamického výběru jednotek. Byl dokončen algoritmus pro přesnější popis frekvenčních vlastností řečových jednotek pomocí hlasivkových pulsů (resp. kontury základního hlasivkového tónu odvozené z přesně určených hlasivkových pulsů) [LEG11d]. Pokračovaly také práce na snížení paměťové a výpočetní náročnosti systému provozujícího modul dynamického výběru jednotek [TIH11b] a byla zdokonalena metoda komprese databáze řečových jednotek využitelná v algoritmu dynamického výběru jednotek (umožňuje snížení paměťové náročnosti systému s dynamickým výběrem jednotek v přibližném poměru až 1:16) [KAŠ11]. V rámci optimalizace byl také pro potřeby dynamického výběru jednotek navržen algoritmus nelineární změny tempa řeči, který umožňuje zrychlovat či zpomalovat různé řečové jednotky nezávisle a přispívá tak k percepční homogennosti takto upravené řeči [TIH11a]. V součinnosti s TO2 pokračoval výzkum rozšíření možností tvorby nových inventářů, resp. hlasů pomocí technik adaptace (konverze či transformace) hlasu na základě statistických modelů hlasu [HAN11], [VON11]. S cílem zajistit percepční homogennost vytvářené syntetické řeči rovněž pokračovaly práce na identifikaci rušivých jevů přítomných v syntetické řeči, a to ve spojení s cenou konkatenace i cenou cíle a s využitím poznatků o fonetických vlastnostech češtiny z TO4 [LEG11a], [LEG11c]. Pro tento účel byla dále propracována metodika návrhu testovacích stimulů k vyhodnocování funkcí ceny konkatenace ovlivňujících percepci syntetické řeči [[Pub-legat-wcecs11|[LEG11b]. Pokračoval výzkum možností modelování obecně expresivní řeči metodou dynamického výběru jednotek pomocí tzv. komunikačních funkcí, tj. bez nutnosti modifikace řečového signálu. V roce 2011 byl výzkum zaměřen na akustické koreláty komunikačních funkcí [GRŮ11].

Tématický okruh 2 (TO2): Modelování řečového signálu

Ve spolupráci s TO1 pokračoval výzkum statistické parametrické syntézy řeči (s využitím statistických modelů řečového signálu založených na skrytých Markovových modelech) a adaptace hlasu [HAN11]. Zároveň pokračovaly práce na zdokonalování techniky změny hlasu [VON11] včetně konverze již hotových řečových inventářů. Dále pokračoval výzkum emočně zabarvené řeči a jednotlivých emočních stylů [VLČ11c] a to jednak objektivně na základě analýz ve frekvenční oblasti [PŘI11c], [PŘI11e], [PŘI11f], [PŘI12] a také subjektivně pomocí poslechových testů [PŘI11d]. Z přirozených nahrávek expresivní řeči byla vytvořena sada pravidel, na základě kterých byla vytvořena první verze syntezátoru emočně zbarvené řeči. Tímto syntezátorem byla pořízena testovací množina, která byla následně podrobena poslechovým testům [VLČ11a], [VLČ11b]. Završen byl výzkum zdokonaleného frekvenčního modelu hlasového traktu založeného na komplexním kepstru a tento model je využíván v reálném TTS systému Epos. Ve spolupráci s TO3 bylo dále pracováno na modelování prozodie řečového signálu pomocí statistických přístupů na základě skrytých Markovových modelů. Pokračovaly práce na zdokonalování fyziologického modelu hlasového traktu, především pak na odstranění rušivých vlivů při snímkování pomocí magnetické rezonance [PŘI11a], [PŘI11b]. V prostředí MATLAB byla realizována zdokonalená verze hybridního syntezátoru založeného na fyzikálním modelu hlasového traktu.

Tématický okruh 3 (TO3): Modelování a generování prozodických charakteristik

V posledním roce řešení projektu byly provedeny experimenty s automatickou segmentací řeči pomocí umělých neuronových sítí (konkrétně samoorganizujících se map, SOM) a parametrizací řečového signálu, vhodnými pro explicitní modelování prozodických charakteristik řeči. Na základě výsledků porovnání několika metod parametrizace (využívané k popisu vstupních dat neuronových sítí) byl položen základ k vývoji nové parametrizace založené na algoritmu Matching Pursuit (používaného většinou při analýze EKG) a Gaborově transformaci, zachovávající spektrální bohatost řeči (respektováním vyšších indexů příznakového vektoru). Tato parametrizace je vhodná zejména pro aplikace SOM vzhledem k vlastnostem Gaborovy transformace (minimální velikost atomů a z toho plynoucí maximální pokrytí mapy). Dále byla dokončena a v prostředí MATLAB realizována nová metoda přesné detekce a extrakce formantů [GRI11]. Pro potřeby modelování prozodie byla rovněž vyvinuta první verze fonémového klasifikátoru využívající SOM a posun formantů a experimentálně ověřena při klasifikaci samohlásek z víceslabičných slov (předpokládá se, že modifikovanou verzi klasifikátoru bude možné využít také na klasifikaci a oddělení mluvčích ze zvukového záznamu řeči). Navržené SOM byly také využity pro hledání shluků reprezentujících relevantní vlastnosti jazyka (z hlediska modelování prozodie) a porovnány se standardními shlukovacími metodami. Na základě výsledků klasifikace emocí založené na hudební teorii byla natrénována neuronová sít pro modelování prozodie [TUČ11]. Vliv emocí na přirozenost vytvářené prozodie byl zatím ověřen na menším vzorku posluchačů s nadějnými výsledky (podrobnější evaluace je plánována v rámci navazujícího výzkumu). Experimenty provedené v oblasti výzkumu prozodické homonymie umožnily navrhnout algoritmus, který je schopen přiřazovat prozodické struktury větám pouze na základě jejich textové podoby. Tímto způsobem je možné generovat prozodické struktury pro syntetizované věty v systému TTS. Algoritmus je založen na minimální vzdálenosti kvazisyntaktické podobnosti syntetizované věty s větami ve vzorovém korpusu [ROM11].

Tématický okruh 4 (TO4): Fonetické vlastnosti řeči a jejich využití při syntéze řeči

V rámci TO4 jsme se v souladu s plánem věnovali dvěma výzkumným cílům. První z nich představuje ve spolupráci s TO1 výzkum foneticky uchopitelnějších parametrů, které by uspokojivě korelovaly s percepční rušivostí řetězených jednotek. Za tímto účelem byla na adekvátně rozsáhlém vzorku dat ověřována relevance rozdílů hodnot spektrálního sklonu spojovaných jednotek. Postupně se ukázalo, že není možné konkatenační kontexty definovat souhrnně, např. pro daný způsob či místo artikulace nebo vokalickou výšku. Toto zjištění vedlo k nutnosti vytvoření série dílčích poslechových testů. Narostl tak objem práce související s identifikací adekvátních segmentálních kontextů pro zkoumání rušivosti spojů při konkatenaci zvukových jednotek. Na základě nových poznatků bylo pak dále prováděno systematické percepční ověřování rušivosti koartikulační labializace a nazalizace a na základě toho byla vytvořena penalizační pravidla pro dynamický výběr jednotek. V součinnosti s TO1 v současné době připravujeme percepční experimenty a výsledky plánujeme prezentovat v některém recenzovaném periodiku. Dále byl proveden podrobnější výzkum rušivosti parazitních zvuků různého typu v závislosti na různých řečových okolnostech (fortifikovaná hláska, porušení asimilace znělosti atd.) [SKA12]. Výstupy našich výzkumů byly aplikovány v rámci TO1 v modifikovaném systému syntézy češtiny, v němž byly parazitní zvuky ze signálu odstraňovány [MAT11], [MAT12]. Druhým výzkumným cílem bylo ověřování metodologie pořizování emočně zabarvených projevů na základě percepčního hodnocení jejich přirozenosti a přesvědčivosti. Nahrávky navrhli a namluvili dva profesionální herci; do textů zařadili vždy tutéž cílovou větu pro hodnocení emočního stavu mluvčího. Výsledky poslechových testů ukazují, že většina z šesti emocí ve dvojí intenzitě je detekována adekvátně a s poměrně vysokou mírou jistoty. Dílčí foneticky zaměřený výzkum vlivu vybraných emočních stylů na spektrální charakteristiky řeči byl v souladu s plánem zahájen.