Schuzka16-10-03¶
účast: JVP,PI,AP,JŠ,JZ,ZZ,LSk,DS,PNe,LM,MH,LBu, PSt
LM¶
- PI data z knížek, a z Český rozhlas - Paměť národa"
- protokoly s Tématy a orientačním časem
- audio data (stáhnout PI na úložiště JŠ) a nechat přepsat (JVP) (#3959)
TÉMATA¶
- PI předá přepisy a kontakt na doktoranta co se zabývá tématy, LSk diplomanta zaúkoluje a společně nashlukují témata z dat z #3931 (#3802)
AM¶
- JVP rozpoznal se stávajícím modelem (Acc=30-50%) pro velkou variabilitu kvality audia
- sekačka JZ nefunguje
- zlepšit AM
- JVP - daty - převzorkované telefony ze Speechtechu a daty přepsanými od studenta z #3931
- DS - natrénovat a otestovat NN z Amalachu (na nových datech od JVP) (#4046)
OBRAZ/OCR¶
- hotova detekce nadpisu v dokumentu - funguje špatně, dále hotovo shlujkování do 4 tříd
- HOCR - 1 best hypotéza, přepis v blocích (odstavce, řádky, slova) , DS - umí víc hypotéz pro jednotlivé znaky, PNe - dodělat do wraperu (#4047)
- udělat supervised shlukování ... potřeba supervised množina dokumentů (zkusit natrénovat v prvním nástřelu unsupervised třídy a zkouknout je ručně) (#3889)
Výstupy projektu (#3967)¶
- PI finalizovat SW ALIGN - "software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy pro účely efektivní přípravy dat určených pro trénování akustických a jazykových modelů"
- referovat o něm v průběžné zprávě
- vytvořit stránky na webu - PI zkontolovat výstup UK- článek na konferenci