Task #4482
closed
Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod
Task #3803: OCR - jazykový model v Tesseractu
Balík OCR
Added by Zajíc Zbyněk over 6 years ago.
Updated over 5 years ago.
Description
Připravit (v Pythonu?) balík zpracování obrazu s predzpracováním a vyhodncením zatím jen pomocí Tesseractu (bez Kaldi), 1Best hypoteza + BoundingBox
- % Done changed from 0 to 80
Připravený balík obsahující cpp aplikaci využívající api Tesseractu + python balíček předán Honzovi Švecovi.
Zjištění: Tesseract 4 má lepší výsledky než předchozí verze, ovšem v současné fázi vývoje z nějakého důvodu vrací pouze one_best nikoliv alternativy i přesto že to přes API přímo požadujeme.
Předzpracování se musí ještě upravit z toho co měl Dan tak aby se spouštělo přímo v pythonu a ne z shellu --> Dodělám v tomto týdnu
- Status changed from Assigned to Closed
Also available in: Atom
PDF