Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Tématický okruh 1: Dynamický výběr jednotek

Koordinátor: FAV ZČU, Plzeň

Popis

Modul dynamického výběru jednotek je klíčovou součástí korpusově orientovaného systému syntézy řeči. Jeho úkolem je pro každou syntetizovanou promluvu vybrat ze všech možných kombinací vhodných řečových jednotek a jejich instancí takovou posloupnost řečových segmentů, která nejlépe odpovídá požadavkům daným vstupní specifikací (textem) a dobře se řetězí – výsledná syntetická řeč zní srozumitelně, přirozeně a plynule bez zjevných spektrálních nespojitostí. Výzkum v rámci projektu naváže na výsledky předchozího bádání v oblasti syntézy řeči z textu a bude se zabývat zejména optimalizacemi modulu dynamického výběru jednotek a jejich vlivem na zvyšování přirozenosti a celkové kvality syntetizované řeči. Zkoumat se bude řada aspektů týkajících se návrhu inventáře řečových jednotek, jeho složení, velikosti, metod vyhledávání, porovnávání a spojování zástupců jednotek ve výsledném proudu vytvářené řeči, konverze na hlas jiného řečníka apod. Zvláštní pozornost bude věnována nastavení modulu dynamického výběru jednotek v korelaci se subjektivním vnímáním, percepcí, posluchači-lidmi. Optimálně navržený modul dynamického výběru jednotek přispěje ke zvýšení přirozenosti, zejména plynulosti syntetizované řeči.

Cíle a postupy

  • Automatická detekce a lokalizace parazitujících rušivých zvuků ve zdrojových nahrávkách řečových korpusů a inventářích řečových jednotek (s využitím poznatků získaných v TO4); syntéza řeči s „vyčištěným“ inventářem řečových jednotek (2009-2010).
  • Tvorba a optimalizace inventáře řečových jednotek s ohledem na jeho velikost, rychlost přístupu a výběru zástupců jednotek, s ohledem na typ a skladbu jednotek a přesnost jejich identifikace v řečových nahrávkách a také s ohledem na změnu hlasu výsledné syntetizované řeči (2009-2010).
  • Výzkum vlivu různých aspektů dynamického výběru jednotek (např. vliv řečového kontextu, jeho záměny či neshody, vliv používaných lingvistických příznaků s ohledem na tzv. cenu cíle (s využitím poznatků získaných v T04) (2010-2011).
  • Návrh objektivní míry podobnosti promluv nebo jejich částí (v korelaci se subjektivním vnímáním, percepcí, posluchači), využitelné k výzkumu a nastavení chování metody dynamického výběru jednotek v systému TTS (2010-2011).

Výstupy