Schuzka17-11-08¶
účast: LM, ZZ, PI, AP, JŠ, JVP, JNo, PSa, JNe, LSK, DS, LBu, MHr, PNe
GUI¶
- dodělat vyhledávání na fonémech
- zobrazování naskenovaných listinných dokumentů (tj. "obrázků")
- domluvit se s PSa na harmonogramu práce - schůzka leden 2018
AM¶
- JVP má málo akustických trénovacích dat
- po schůzce domluva s PI, že se použijí existující přepisy od USTR, které sice nejsou zarovnané na úrovni vět (a asi ani doslovně přesné), ale s tím si JVP podle vlastních slov poradí
- vyzkoušet v Kaldi adaptaci - DS, do konce února 2018 otestovat - (Task #4323)
- na konci srpna 2018 je třeba mít použitelný AM
LM¶
- lze dle AP považovat za vyřešený
Témata (Task #3802)¶
- vstupní data rozsekat na cca 2.min. dokumenty s nějakým překryvem
- uživatel klikne do nahrávky a z okolí +-1 min se vytvoří hledaný dokument
- nalézt N nejpodobnějších dokumentů k hledanému
- aplikovat jednu z metod z LSk disertačky
- s JS domluvit formát uložených indexů slov d DB
OCR¶
- DS výsledky OCR (Task #3803) : https://docs.google.com/spreadsheets/d/1d3UJSlz3XRccygMNnTyxDNwLrrHfCox9Ywnu9LdxATQ/edit#gid=0
- WER cca 45% (s LM z novin)
- získat lepší LM
- přidat info o pozici slova na stránce
- DS dodal mřížku pro experimentování