Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Activity

From 29.05.2016 to 27.06.2016

27.06.2016

15:17 Task #3962 (Closed): Porovnat výsledky na OCR pro náš výsledek z TesseractApi a z modelu trénovaného v Tesseract
porovnat metody z #3960 a #3961 Soutner Daniel
15:15 Task #3961 (Closed): Dekódování grapheme-lattice na word-lattice
Z grafémových lattice získat word-lattice pro dlaší zpracování (rescorování s jinými jaz.modely, detekce tématu atd.) Soutner Daniel
15:12 Task #3801: Úprava Pixly
* dohodnout si harmonogram prací
* vkládání obrázků do Pixly
* vkládání dat a jejich tagování
Zajíc Zbyněk
15:11 Task #3960 (Closed): Natrénovat vlastní LM pro Tesseract dle jejich receptu
Soutner Daniel
15:05 Task #3959 (Closed): Tvorba LM
LM
- z přepsaných a zarovnaných anotací od ÚSTRU (#3931)
- získat další data od ÚSTRU: knihy, texty bez zvuku, anot...
Zajíc Zbyněk
14:58 Task #3875 (Closed): Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
Zajíc Zbyněk
14:56 Task #3803: OCR - jazykový model v Tesseractu
* zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pa... Zajíc Zbyněk
14:50 Task #3957 (Closed): OCR - čtení hlavičky/nadpisu dokumentu
k určení tématu/klasifikace dokumentu Zajíc Zbyněk
14:48 Task #3804: unsupervised shlukování obrázků
vyzkoušet na nových datech od ÚSTRU (pokud je jich dost) Zajíc Zbyněk
14:41 Task #3804: unsupervised shlukování obrázků
* unsupervised algoritmy shlukování (otestovat na učesaných prepisech z ÚSTR)
* najít podobná audia jako vzor (označ...
Zajíc Zbyněk
14:35 Task #3954 (Closed): SW ALIGN
JVP se studentem finalizují SW *ALIGN* - "software pro podporu poloautomatického zarovnání nahrávek s existujícími př... Zajíc Zbyněk
14:33 Administration, support #3953 (Closed): připravit mlčenlivost pro studenta
připravit mlčenlivost pro studenta JVP - Align a učesání trénovacích dat. Zajíc Zbyněk

23.06.2016

16:03 Task #3803: OCR - jazykový model v Tesseractu
Oficiální popis tréninku LM zde:
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh
Není mi z toho jas...
Soutner Daniel
15:17 Task #3803: OCR - jazykový model v Tesseractu
Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofd... Soutner Daniel
15:06 Task #3875: Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
Napojení na API + testovací prográmek hotov. Lze vypsat pro každý grafém jeho varianty s confidence. Otázka je, jestl... Soutner Daniel
11:43 Task #3875: Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoring
Prozatím mám způsob jak dostat lattices s grafémy. Je třeba se napojit na API a trochu programování v C++, ale je to ... Soutner Daniel

22.06.2016

13:02 Task #3950 (Closed): Vygenerovat validacnu sadu pre OCR
Hrúz Marek
12:19 Task #3950 (Resolved): Vygenerovat validacnu sadu pre OCR
Vybráno a připraveno 5 souborů včetně přepisů. různá kvalita OCR (některé skoro celé OK, jiné naprosto hrozné).
+...
Neduchal Petr

21.06.2016

17:27 Task #3940 (Closed): Nelinearna difuzia pre OCR
Hrúz Marek
14:39 Task #3951 (Assigned): Testovanie nelinearnej difusie na validacnych dokumentoch
Hrúz Marek
14:38 Task #3951 (Closed): Testovanie nelinearnej difusie na validacnych dokumentoch
Pre siroku skalu parametrov nelinearnej difusie spustit OCR na sade anotovanych obrazkov, ktore vznikli v #3950. Hrúz Marek
14:33 Task #3950 (Closed): Vygenerovat validacnu sadu pre OCR
Pripravit minimalne 3 obrazky roznej kvality (bad/mediocre/good).
Prepisat dokumenty pre ucely automatickeho vyhodno...
Hrúz Marek

20.06.2016

06:47 Task #3940 (Resolved): Nelinearna difuzia pre OCR
Zjištění ohledně nelineární difuze:
- Parametry jsou opravdu hodně citlivé. Změnou o jednotku se můžou části text...
Neduchal Petr

07.06.2016

15:22 Administration, support #3776 (Closed): Předání dat - ochrana osobních údajů
Data mohou být v rámci akademického zporacování předána nám pouze s smlouvou o předání dat (bez posvěcení ÚOOÚ). Zajíc Zbyněk
15:21 Administration, support #3800 (Closed): GUI - odpovědný pracovník
Zajíc Zbyněk
15:19 Administration, support #3800 (Resolved): GUI - odpovědný pracovník
Petr Stanislav upravý SW z jiných prostředků (stipendium újč) - postupně bude práci (pokud půjde i stipendiu = další ... Zajíc Zbyněk
15:20 Task #3799 (Closed): test ASR
Zajíc Zbyněk
15:16 Task #3931: Test ASR
Pepa slíbil, že kontaktuje studenta, zda je schopný přepisy učesat do konce července, aby jsme nečekali nakonec až do... Zajíc Zbyněk
10:22 Task #3818 (Closed): Testovanie metod na Tesseractu
Hrúz Marek
10:21 Task #3940 (Closed): Nelinearna difuzia pre OCR
Otestovat vplyv nelinearnej difuzie na naskenovane textove dokumenty pre ucely OCR.
Pre rozne parametre nelinearne...
Hrúz Marek

03.06.2016

12:50 Task #3931: Test ASR
Pepa se díval na anotace a je to prý docela divoké. Postup - má jednoho (skoro) Bc. studenta, který dá data přes práz... Ircing Pavel

31.05.2016

14:19 Task #3802: Témata - unsupervised
podívám se na dodané přepisy na disku a co se s nimi dá dělat Skorkovská Lucie

30.05.2016

10:22 Task #3932 (Closed): Získat obrazová data od ÚSTRu
Fotky a archiválie nahrát na úložiště u PI Zajíc Zbyněk
10:21 Task #3931 (Closed): Test ASR
Otestovat automatický přepis na datech s ruční anotací od ÚSTR.
- zkontrolovat anotace
- zarovnat anotace
- pro...
Zajíc Zbyněk
08:41 Administration, support #3776 (Resolved): Předání dat - ochrana osobních údajů
Ircing Pavel
 

Also available in: Atom