Schuzka17-02-06¶
účast: PI, JŠ, PSt, PSa, ZZ, LSk, MH, PNe, LBu. AP, JVP, LM
Klasifikace obrazu¶
- LBu unsupervised klasifikace do 3 tříd (předpoklad: hand/printed/photo) - Kmeans z příznaků z poslední vrstvy CNN (Alex net) - nefunguje, zlepšit (Task #3804)
- co funguje - hledání nejbližšího dokumentu ke zvolenému
- MH určit ručně analýzou dokumentů 11 tříd
- Dodělat -> najít reprezentativní obrázky k daným 11 třídám a jimi natrénovat supervised klasifikátor (Task #3889)
OCR¶
- PNe detekce bloků v textu:
- natočení dokumentu, získání řádků,
- zahozena světlá místa = není text,
- označení bloků v textu -> ty rozpoznány Tesserackem (dva možné vstupy - binary nebo šedotón obraz) - dodělat -> spojit bloky na úrovni řádky (aby měl Tesserac větší kontext) (Task #4062)
-> přidat do Tesseracu font "psací stroj" (Task #4158)
-> přidat do Tesseracu náš LM (Task #3803)
-> získat z Tesseracu lattice (Task #3803) - PNe detekce děr po děrovačce (Task #4062)
- pro spojení dokumentů patící do jedné série
- moc nefunguje - dodělat -> přidat informaci o historii předchozích i následujících obrázků a v nich existenci děr
-> pracovat s celou segvencí dokumentů v adresáři a v nich maximalizovat ppst. hypotézy jedné/více serií dokumentů
AM¶
LM¶
- AP / PI otestovat nový LM (Task #3959)
TÉMATA¶
- LSk přepisy audiodat, obahují teoreticky mnoho témata (životní výpoděď očitých svědků) (Task #3802)
- supervised metody nemáme data
- unsupervised moc dlouhé dokumenty
- budeme hledat spíše tématicky podobné dokumenty k danému doc. - dodělat -> rozsekat automaticky na tématicky ucelené bloky a ty rozpoznat (přes LDA)
-> nastudovat LDAtoVec
Články plán¶
- JZ TSD
- DS TSD
- PNe + LBu TSD nebo Specom(pokud se budou posílat další dva jiné články, které zaplatí případnou cestu/hotel)