Overview
Systém pro trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních režimů
System for permanent preservation of documentation and presentation of historical sources from the period of totalitarian regimes
Identifikátor projektu: DG16P02B048
Partneři: ÚFAL, ÚSTR
Trvání: 1.3.2016 - 31.12.2019
Hlavním cílem navrhovaného projektu je výzkum a vývoj softwarových nástrojů pro trvalé uchování a zpřístupnění historických pramenů získaných v rámci dokumentační činnosti Ústavu pro studium totalitních režimů (dále ÚSTR).
Cílem projektu je vytvořit nástroj pro integrovaný archiv nahrávek, dokumentů a fotografií přístupný online a prohledávatelný podle různých aspektů (konkrétní obsah nahrávek, jméno a ostatní životopisné údaje pamětníka, časové období, ke kterému se dokument vztahuje, apod.). Pro tyto účely použijeme především automatické rozpoznávání mluvené řeči, automatickou indexaci a vyhledávání v rozpoznaných nahrávkách a částečně také strojové rozpoznávání znaků (OCR) a navazující techniky zpracování přirozeného jazyka. Využijeme též zkušenosti získané při vývoji repozitářového softwaru určeného pro ukládání a zpřístupnění velkého množství různorodých jazykových dat.
V rámci projektu bude pro účely předvedení a ověření funkčnosti vyvinutých softwarových nástrojů zpracováno minimálně 1000 hodin záznamu audionahrávek rozhovorů a výpovědí, které vznikly v rámci dokumentační činnosti ÚSTR v rozmezí let 2008 až 2015 a 50 000 textových a obrazových dokumentů. Audionahrávky obsahují bilanční rozhovory s pamětníky totalitních režimů v Československu; ostatní dokumenty jsou kopie souvisejících listin, dokladů a fotografií z domácích archivů a dalších zdrojů. Vyvinuté nástroje nicméně budou použitelné i pro zpracování a zpřístupnění dalších nahrávek a dokumentů podobného typu.
Těžištěm projektu bude především:
-Vývoj systému pro komplexní zpracování materiálu ÚSTR zahrnující automatické či poloautomatické zpracování a třídění naskenovaných dokumentů, automatický přepis zvukových nahrávek a jejich následný převod do formy vhodné pro vyhledávání klíčových slov či frází a to jak ve slovní, tak i fonetické podobě. Další část výzkumu pak bude věnována detekci témat. Tento krok bude nutný k nalezení odpovídajících odkazů z daného dokumentu (nahrávky) na další související dokumenty jiné povahy (např. textové).
-Vývoj softwarového repozitáře pro bezpečné dlouhodobé uložení původních digitálních materiálů (nahrávek, dokumentů) i nově v projektu vytvořených dat z těchto původních materiálů odvozených.
Výstupy projektu:
hlavní - 2xR(SW), vedlejší - 9xD(článek v časopise, konf. 2017-2019)
ALIGN - 2017 - software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy pro účely efektivní přípravy dat určených pro trénování akustických a jazykových modelů.
HIDOAR - 2019 - software pro poloautomatické zpracování a zpřístupnění textových a zvukových nahrávek v integrovaném archivu pramenů.
Budoucí uživatelé - Post Bellum - portál Paměť národa
Members
Member: Bureš Lukáš, Daníček Jakub, Gruber Ivan, Hlaváč Miroslav, Hradilek Adam, Hrúz Marek, Ircing Pavel, Müller Luděk, Neduchal Petr, Nedvěd Jakub, Novotný Jaromír, Picek Lukáš, Popel Martin, Pražák Aleš, Psutka Josef V., Salajka Petr, Skorkovská Lucie, Soutner Daniel, Stanislav Petr, Stránský Jakub, Zajíc Zbyněk, Zelinka Jan, Švec Jan
Manager: Ircing Pavel, Müller Luděk, Zajíc Zbyněk, Švec Jan