Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Schuzka17-01-10

účast: ZZ, PSa, MZíma, MNykl, PDostal
účast den předtím (kky): ZZ, LSK, PSa, AP, JVP

Formát výstupu SW SADA (KKY):
- výstupní soubor pojmenován ve fromátu: YYMMDDHHMMSS

  • 2x MP3 (in/out)
    - dva kanály, z telefonní ústředny jdou již automaticky soubory pojmenované in a out
    - pro umožnění přehrání pouze jednoho kanálu, popřípadě obou
    - musí umožnit spouštět bez možného ticha (kdy je aktivní druhý kanál) - info o řečové aktivitě v MLF přepisu
  • 1x přepis MLF (in a out)
    - přepisy z rozpoznávače ve formátu (viz přiložený soubor MLF_format_vzorAleš.MLF):
    #!MLF!#
    "*/jmeno_souboru-in.rec"
    od[0.01ms] do[0.01ms] slovo CF
    .
    "*/jmeno_souboru-out.rec"
    od[0.01ms] do[0.01ms] slovo CF
    .
    - s formátováním utf-8
  • 1x informace o souboru/hovoru (Task #4142)
    - možná muž/žena,
    - identifikace poradníka (ZZ - skrypt)
    - info od poradníka uložené při nahrávání (ZZ - skrypt nebo azadáno poradníkem při hovoru)
  • 1x informace k tématu (Task #4141)
    - výstup z rozpoznávače témat ve formátu (lze měnit, jde pouze o návrh):
    #!MLF!#
    "*/jmeno_souborut.rec"
    od[0.01ms] do[0.01ms] téma CF
    .
    - předpoklad možnosti více témat na jeden časový úsek
    - s formátováním utf-8
    - LSK si udělá instanci JMZV pro trénování témat pro ÚJČ -J.Lehečka přislíbil součinnost při importu nových dat
  • 2x WAV (in/out)
    - ukládat pro možné příští využití (např, při vylepšení rozpoznávače znovu přegenerovat přepis MLF)
    -- v případě velkých nároků na místo lze ukládat bezstrátovou kompresy ve flacu
    -- (měl by existovat bezstrátový MP3 HD formát)- AP zjistí, zda by nám nestačil
  • KIVu dodat 1 ukázku kompletního vstupu do KIV systému (Task #4140)

Data do DB LSSD (KIV):

  • export
    - exporty (nových) dat z naší DB. Ideálně přes webovou stránku. Pro aktualizaci trénovacích dat pro rozpoznávač témat
    - zabezpečení: token a omezení na IP
    - z důvodu testování systémů ideálně v DB ukládat zvlášť automaticky detekované téma a zvlášť ručně označené téma
  • import
    - umožnění importovat hromatně nové přepisy k již uloženým nahrávkám (např. při vylepšení rozpoznávače)
  • vyhledávání
    - v databázi se bude vyhledávat i v původně rozpoznaných slovech, např. všechny nahrávky, které obsahují slovo XY, sežazení vyhledných výskytů dle CF slova z přepisu
  • přehrávání nahrávek
    - možnost přehrát oba kanály najednou i odděleně
    -- musí umožnit spouštět bez možného ticha (kdy je aktivní druhý kanál) - lze odvodit z informace o řečové aktivitě v MLF přepisu
    - možnost přehrát nahrávku kliknutím na slovo v přepisu (od času uloženém v MLF přepisu)
  • obecně
    - domluvit se, jak a kdy budou uložena metadata nahrávky do DB. Texty půjdu nejspíš přes POST požadavek, soubory možná přes Rsync (ještě se domluvíme).
    - v databázi se bude vyhledávat i v původně rozpoznaných slovech, např. všechny nahrávky, které obsahují slovo XY.
    - UJČ může mít požadavek na přehrání např. pouze odpovědí, které se týkají zvoleného tématu.
    - napsat p.Proškovi, že už by se nám pomalu hodil strom štítků / pavouk (napíšu mu s tím, že by to bylo dobré např. do měsíce).
    -- budeme potřebovat i určení, které jejich klíčové číselné označení se váže ke kterému štítku ve stromu, abychom pak dokázali převést data ze staré DB do nové.