Schuzka16-06-27¶
účast: JVP,PI,AP,JŠ,JZ,ZZ,LSk,DS,PNe,LM,MH,LBu
Zvuk¶
- JVP má přepisy pro testovací data, student je vyhladí a zarovná (#3931)
- ZZ - připravit mlčenlivost pro studenta (#3953)
- akustika obdobná s Amalachem
témata¶
- LSK - unsupervised algoritmy shlukování - najít podobná audia jako vzor (označený segment) - z přepisuy a/nebo z mřížky (#3804)
Obraz¶
- nově data k 9ti lidem - prohlednou a analyzovat podobnost dokumentů
OCR¶
- ručně přepsáno 5 reprezantativních dokumentů pro "test" OCR (sehnat další přepysy od ÚSTRU nebo sami si další přepsat?)
- klasifikace dokumentu - unupervised (#3804) a čtení hlavičky/nadpisu dokumentu (#3957)
LM¶
- zatím lze získat z OCR jen 1Best hypotézu
- zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pak zpracovat vlasním LM
- zapojení vlastního LM nahráním trénovcacích dat
- DS doplní data do Tesseract a vyzkouší zpracovat lattice vlastními metodami (#3803)
DATA¶
- PI - získat další data od Ústru:
- pro LM (#3959) přepsané dokumenty, knihy, ...
- pro OCR k testování (anotované archiválie)
- JZ - Ústav soudobých dějin - dokumenty
SW¶
- PS + JŠ - ujasnit si harmonogram dodělávek SW pro archivaci: (#3801)
- doplnit vkládání dat a tagování metadaty
- vkládání obrázků do Pixly
- JVP se studentem finalizují SW ALIGN - "software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy pro účely efektivní přípravy dat určených pro trénování akustických a jazykových modelů"
- práce v roce 2016
- výstup vykazován 2017