Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Postup prací na řešení projektu v roce 2009

Výzkumné práce probíhaly v souladu s původním plánem na první rok řešení projektu a vedly tak k postupnému naplňování vytčených cílů. Jednotlivé dílčí výsledky jsou rozepsány v následujících odstavcích odpovídajících jednotlivým tematickým okruhům řešeného projektu. V prvním roce řešení projektu vzniklo 20 publikací bezprostředně souvisejících s řešením projektu. Nejvýznamnější z nich byly prezentovány na prestižní mezinárodní konferenci Interspeech 2009 (2 příspěvky) nebo publikovány v časopisech či periodikách (7 publikací). S pomocí grantu vznikly také kapitoly 10 a 12 monografie "Principles of Phonetic Segmentation". Byly založeny webové stránky projektu http://hqsyn09.zcu.cz. Veřejná část stránek prezentuje řešenou problematiku, jednotlivé tematické okruhy a dosažené výsledky. Interní část stránek slouží k vzájemné koordinaci řešitelských pracovišť a k efektivnímu řízení postupu prací při řešení projektu. Uskutečněno bylo rovněž i několik interních schůzek zástupců jednotlivých řešitelských týmů projektu. V roce 2009 bylo také obhájeno několik kvalifikačních prací úzce souvisejících s problematikou řešenou v projektu. Řešitel projektu Jindřich Matoušek obhájil habilitační práci na téma "Počítačová syntéza řeči" a byl jmenován docentem pro obor "Technická kybernetika". Spoluřešitelka projektu Jana Tučková úspěšně ukončila profesorské řízení na FEL ČVUT v Praze v oboru "Teoretická elektrotechnika" (téma profesorské přednášky: "Artificial Neural Network Applications in Speech Processing"). Materiály byly postoupeny na MŠM k podpisu prezidentu republiky. Spolupracovníci projektu Jan Romportl, Zdeněk Hanzlíček a Zdeněk Chaloupka obhájili své doktorské práce a byl jim udělen titul "Ph.D.".

Tématický okruh 1 (TO1): Dynamický výběr jednotek

Byly rozpracovány všechny plánované aktivity. V rámci tvorby a optimalizace inventáře řečových jednotek byla navržena metodologie automatické fonetické segmentace řeči synchronní s periodou základního tónu hlasu [MAT09b]. Byl zkoumán i vliv typu a skladby řečových jednotek (reprezentované kontextově závislými, trifonovými modely a kontextově nezávislými, monofonovými modely) na přesnost segmentace v závislosti na dalších charakteristikách segmentačního systému (zejména na typu inicializace modelů a jejich pravděpodobnostním popisu). Na základě provedených experimentů byla navržena doporučená nastavení segmentačního systému, která mohou být uplatněna při automatické segmentaci promluv řečového korpusu. Zabývali jsme se též optimalizací velikosti inventáře řečových jednotek a navrhli základní proceduru pro snížení velikosti inventářů založenou na odhalení "nadbytečných" promluv v řečových korpusech [MAT09c]. Rozpracován byl také algoritmus efektivního prohledávání stavového prostoru kandidátů všech řečových jednotek při sestavování výsledné řeči metodou výběru jednotek (předpokládá se 5-10násobné urychlení procesu syntézy řeči při minimálních ztrátách na kvalitě syntetizované řeči) [KAL09]. Zkoumána byla rovněž možnost rychlé tvorby nových inventářů řečových jednotek v nových hlasech pomocí techniky konverze hlasu [HAN09]. V součinnosti s T04 byla navržena metoda automatické detekce a lokalizace lingvisticky nesystémových, parazitujících rušivých zvuků ve zdrojových nahrávkách řečových korpusů a inventářích řečových jednotek. Díky automatické detekci bude možné inventáře řečových jednotek "vyčistit" od těchto rušivých zvuků a dosáhnout vyšší lingvistické přirozenosti počítačově generované řeči. Vysoké úspěšnosti detekce bylo dosaženo zejména pro glotalizační jevy (viz T04) [MAT09a]. V předstihu byl zahájen i výzkum technik automatického měření percepční podobnosti částí promluv v kontextu modulu dynamického výběru jednotek [TIH09]. Rozpracována byla také metodika návrhu testovacích stimulů pro vyhodnocení funkcí ceny konkatenace ovlivňujících percepci syntetické řeči zejména na hranicích řetězených jednotek [LEG09].

Tématický okruh 2 (TO2): Modelování řečového signálu

V prvním roce řešení projektu byly ve spolupráci s T04 vytvořeny dvě emoční databáze, obě pro mužský a ženský hlas [VON09]. Dále byla nahrána intonačně bohatá databáze pro testování jednotlivých řečových vokodérů. Byly vyvíjeny vokodéry založené na reálných i komplexních kepstrálních koeficientech vhodné pro modelování prozodie intonačně bohaté řeči. Na základě důkladné analýzy degradujících vlivů stávajících kepstrálních vokodérů byl navržen kepstrální vokodér využívající komplexních kepstrálních koeficientů, s nímž byla dosažena vysoká přirozenost resyntetizované řeči slibující zvýšení kvality syntézy řeči z textu [STA09]. Rovněž byl testován vokodér založený na harmonickém modelování pro ženský hlas [PŘA09a]. Dále byly ověřovány možnosti intonačně bohaté syntézy řeči z textu pomocí TTS systému [HOR09]. Byl také zahájen výzkum v oblasti analýzy a modifikace spektrálních vlastností emočních promluv [PŘA09a], [PŘJ09a], [PŘJ09b]. Byly započaty práce na návrhu fyzikálního akustického modelu hlasového traktu.

Tématický okruh 3 (TO3): Modelování a generování prozodických charakteristik

V prvním roce řešení jsme se zaměřili na hlubší analýzu výsledků řešení předchozího projektu GAČR 102/05/0278 v oblasti modelování prozodických charakteristik češtiny, konkrétně na základní kmitočet F0 a trvání fonémů. Na základě vytipovaných příznaků byly natrénovány umělé neuronové sítě (UNS) typu MLNN a hledány optimální parametry pro několik variant algoritmů BPG pro rychlé učení. Rovněž byly zkoumány různé typy parametrizací řečového signálu, využívané pro vstupní data do UNS. Na základě počátečních analýz emotivní řeči [TUC09b] jsme začali zkoumat další parametry související s prozodií, jako např. barvu hlasu. Pro TTS syntézu může tato součást emotivně zabarvené řeči sloužit jako jeden ze vstupních parametrů pro modelování prozodie pomocí UNS. Prozodie tak zatím nebude vyjadřovat konkrétní emoci, ale přispěje k vyšší přirozenosti řeči. Hledali jsme způsob, jak emoce popsat, aby je bylo možné aplikovat v počítačovém zpracování. V našich experimentech vycházíme ze způsobu vnímání kmitočtových změn v řečovém signálu. Barva hlasu (témbr) souvisí s formantovou strukturou. Extrakce formantů založená na automatickém zpracování řečového signálu je zatížena často velkými chybami. Proto jsme začali pracovat na vývoji softwaru pro zpřesnění určování formantů [GRI09], [TUČ09a]. V oblasti automatického generování průběhu F0 z popisu výpovědí pomocí prozodických struktur byly zkoumány možnosti snížení dimenze příznakového prostoru parametrizujícího jednotlivá prozodická slova výpovědí. K tomuto bylo využito extrakce příznaků lineární transformací, jejíž parametry byly z trénovacích dat určeny Karhunen-Loeveovým rozvojem. V současné době probíhá experimentální ověřování vlivu snížení dimenze na kvalitu generované kontury F0.

Tématický okruh 4 (TO4): Fonetické vlastnosti řeči a jejich využití při syntéze řeči

V rámci tohoto tematického okruhu byly v souladu s časovým harmonogramem realizovány všechny plánované výzkumné úkoly. Byla provedena sluchová detekce lingvisticky nesystémových, parazitních jevů ve zdrojových nahrávkách, které by mohly v syntetizované řeči působit rušivým dojmem [MAT09a]. Jedná se zejména o různé typy nekanonické činnosti hlasivek a o zvukově nápadné důsledky neúplné synchronizace glotálních a supraglotálních aktivit, které bývají vnímány jako manýrismus českých rozhlasových a televizních mluvčích (různé typy preglotalizací a postglotalizací, dále epentetické šva jako fortifikace předcházející hlásky). Byla vytvořena podrobná, lingvisticky založená a technicky využitelná typologie těchto zvuků [MAC09a]. Míru vnímatelnosti a rušivosti zmíněných jevů začínáme ověřovat pomocí percepčních testů. V rámci publikace zaměřené na manuální segmentaci řečového signálu [MAC09b] byla vytvořena jednoduchá, foneticky motivovaná typologie rázu vhodná i pro účely syntézy řeči. Ve výrazném předstihu byla dále na základě poznatků z odborné literatury navržena metodologie vytváření textů pro nahrávání emočně zabarvených projevů, sepsány scénáře odpovídající požadavkům výzkumu emocionální řeči a pořízeny nahrávky profesionálních mluvčích (herců).