Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Actions

Task #3803

closed

Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod

OCR - jazykový model v Tesseractu

Added by Zajíc Zbyněk about 8 years ago. Updated over 4 years ago.

Status:
Closed
Priority:
High
Assignee:
Start date:
18.04.2016
Due date:
05.11.2018
% Done:

100%

Estimated time:
(Total: 0.00 h)

Description

aktualizovat LM v Tesseractu, tak aby jsme z něj mohli dostat eventuálně: slovní/znakový přepis, lattice


Subtasks 5 (0 open5 closed)

Task #3875: Zjistit jak dostat z Tesseractu lattices pro další zpracování/rescoringClosedSoutner Daniel18.04.201630.09.2016

Actions
Task #3960: Natrénovat vlastní LM pro Tesseract dle jejich receptuClosedSoutner Daniel12.09.2016

Actions
Task #3961: Dekódování grapheme-lattice na word-latticeClosedSoutner Daniel12.09.2016

Actions
Task #3962: Porovnat výsledky na OCR pro náš výsledek z TesseractApi a z modelu trénovaného v TesseractClosedSoutner Daniel12.09.2016

Actions
Task #4482: Balík OCRClosedNeduchal Petr22.10.201805.11.2018

Actions
Actions #1

Updated by Hrúz Marek almost 8 years ago

  • Assignee changed from Neduchal Petr to Soutner Daniel
Actions #2

Updated by Soutner Daniel almost 8 years ago

Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/

Actions #3

Updated by Soutner Daniel almost 8 years ago

Oficiální popis tréninku LM zde:
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh

Není mi z toho jasné jeslti je to i tzv. "cube" language model, který má být lepší. Dokumentace k němu asi není (?), info se dá najít na googlegroups tesseract-ocr.
Opředeno tajemstvím :)

Actions #4

Updated by Zajíc Zbyněk almost 8 years ago

  • zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pak zpracovat vlasním LM
  • zapojení vlastního LM nahráním trénovcacích dat

DS- doplnit data do Tesseractu a vyzkouší zpracovat lattice vlastními metodami

Actions #5

Updated by Zajíc Zbyněk almost 7 years ago

z lattice vygenerovat slovní přepis (doplnit např. konfuzní tabulku, ...)

Actions #6

Updated by Zajíc Zbyněk over 6 years ago

Actions #7

Updated by Zajíc Zbyněk about 6 years ago

vygenerovat a poslat JŠ mřížky

Actions #8

Updated by Soutner Daniel about 6 years ago

Mřížky poslány JŠ, jsou tady: /data-kky/public/dsoutner/ocr-lattice

Actions #9

Updated by Soutner Daniel almost 6 years ago

  • Assignee changed from Soutner Daniel to Neduchal Petr
Actions #10

Updated by Zajíc Zbyněk over 4 years ago

  • Status changed from Assigned to Closed
Actions

Also available in: Atom PDF