Schuzka17-01-10¶
účast: ZZ, PSa, MZíma, MNykl, PDostal
účast den předtím (kky): ZZ, LSK, PSa, AP, JVP
Formát výstupu SW SADA (KKY):
- výstupní soubor pojmenován ve fromátu: YYMMDDHHMMSS¶
- 2x MP3 (in/out)
- dva kanály, z telefonní ústředny jdou již automaticky soubory pojmenované in a out
- pro umožnění přehrání pouze jednoho kanálu, popřípadě obou
- musí umožnit spouštět bez možného ticha (kdy je aktivní druhý kanál) - info o řečové aktivitě v MLF přepisu
- 1x přepis MLF (in a out)
- přepisy z rozpoznávače ve formátu (viz přiložený soubor MLF_format_vzorAleš.MLF):
#!MLF!#
"*/jmeno_souboru-in.rec"
od[0.01ms] do[0.01ms] slovo CF
.
"*/jmeno_souboru-out.rec"
od[0.01ms] do[0.01ms] slovo CF
.
- s formátováním utf-8
- 1x informace o souboru/hovoru (Task #4142)
- možná muž/žena,
- identifikace poradníka (ZZ - skrypt)
- info od poradníka uložené při nahrávání (ZZ - skrypt nebo azadáno poradníkem při hovoru)
- 1x informace k tématu (Task #4141)
- výstup z rozpoznávače témat ve formátu (lze měnit, jde pouze o návrh):
#!MLF!#
"*/jmeno_souborut.rec"
od[0.01ms] do[0.01ms] téma CF
.
- předpoklad možnosti více témat na jeden časový úsek
- s formátováním utf-8
- LSK si udělá instanci JMZV pro trénování témat pro ÚJČ -J.Lehečka přislíbil součinnost při importu nových dat
- 2x WAV (in/out)
- ukládat pro možné příští využití (např, při vylepšení rozpoznávače znovu přegenerovat přepis MLF)
-- v případě velkých nároků na místo lze ukládat bezstrátovou kompresy ve flacu
-- (měl by existovat bezstrátový MP3 HD formát)- AP zjistí, zda by nám nestačil
- KIVu dodat 1 ukázku kompletního vstupu do KIV systému (Task #4140)
Data do DB LSSD (KIV):¶
- export
- exporty (nových) dat z naší DB. Ideálně přes webovou stránku. Pro aktualizaci trénovacích dat pro rozpoznávač témat
- zabezpečení: token a omezení na IP
- z důvodu testování systémů ideálně v DB ukládat zvlášť automaticky detekované téma a zvlášť ručně označené téma
- import
- umožnění importovat hromatně nové přepisy k již uloženým nahrávkám (např. při vylepšení rozpoznávače)
- vyhledávání
- v databázi se bude vyhledávat i v původně rozpoznaných slovech, např. všechny nahrávky, které obsahují slovo XY, sežazení vyhledných výskytů dle CF slova z přepisu
- přehrávání nahrávek
- možnost přehrát oba kanály najednou i odděleně
-- musí umožnit spouštět bez možného ticha (kdy je aktivní druhý kanál) - lze odvodit z informace o řečové aktivitě v MLF přepisu
- možnost přehrát nahrávku kliknutím na slovo v přepisu (od času uloženém v MLF přepisu)
- obecně
- domluvit se, jak a kdy budou uložena metadata nahrávky do DB. Texty půjdu nejspíš přes POST požadavek, soubory možná přes Rsync (ještě se domluvíme).
- v databázi se bude vyhledávat i v původně rozpoznaných slovech, např. všechny nahrávky, které obsahují slovo XY.
- UJČ může mít požadavek na přehrání např. pouze odpovědí, které se týkají zvoleného tématu.
- napsat p.Proškovi, že už by se nám pomalu hodil strom štítků / pavouk (napíšu mu s tím, že by to bylo dobré např. do měsíce).
-- budeme potřebovat i určení, které jejich klíčové číselné označení se váže ke kterému štítku ve stromu, abychom pak dokázali převést data ze staré DB do nové.