Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Actions

Task #3802

closed

Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod

Témata - unsupervised

Added by Zajíc Zbyněk about 8 years ago. Updated over 4 years ago.

Status:
Closed
Priority:
Normal
Assignee:
Start date:
09.03.2016
Due date:
01.05.2018
% Done:

0%

Estimated time:

Description

LSk na dodaných přepisech od ÚSTRu zkusí unsupervised shlukování


Related issues

Related to NAKI-II-USTR-UKONCENE - Task #3931: Test ASRClosedPsutka Josef V.30.05.201631.08.2016

Actions
Actions #1

Updated by Skorkovská Lucie almost 8 years ago

  • Due date changed from 31.05.2016 to 30.06.2016

podívám se na dodané přepisy na disku a co se s nimi dá dělat

Actions #2

Updated by Zajíc Zbyněk almost 8 years ago

Actions #3

Updated by Zajíc Zbyněk almost 8 years ago

  • Due date changed from 30.06.2016 to 31.08.2016
Actions #4

Updated by Zajíc Zbyněk over 7 years ago

  • PI předá přepisy a kontakt na doktoranta co se zabývá tématy, LSk diplomanta zaúkoluje a společně nashlukují témata z dat z #3931
Actions #5

Updated by Skorkovská Lucie over 7 years ago

Domluvili jsme se s Jaromírem Novotným na vyzkoušení sumarizačních metod z jeho diplomové práce. Vymysleli jsme varianty prvních pokusů, na co by se to dalo použít, podle prvních výsledků se pak vymyslí jestli je to reálně použitelné:
  • sumarizovat automaticky spojené větší množství otázek a odpovědí (třeba 10, nebo aby to mělo nějaký počet slov...)
  • sumarizovat dlouhé výpovědi v kuse, ty pak zkusit shlukovat - mohlo by pomoci shlukovacímu algoritmu
  • sumarizovat celý hotový shluk - získat tak jeho lepší popis než jednotlivými "důležitými" slovy co se získají z lsa a podobných metod
Actions #6

Updated by Skorkovská Lucie about 7 years ago

  • Podle J. Novotného je jeho sumarizační algoritmus nepoužitelný.
  • Shlukování jednotlivých textů selhává na jejich délce, je třeba je nějak rozdělit.
  • Texty je třeba rozdělit podle témat, testuji na to použití LDA podle rady Honzy Lehečky. Pak se budou dát možná shlukovat, nebo hledat podobné k vybranému textu - úseku.
Actions #7

Updated by Zajíc Zbyněk about 7 years ago

Ze schůzky [[https://wikky.zcu.cz/redmine/projects/naki-ii-ustr/wiki/Schuzka16-10-03]]:
  • LSk přepisy audiodat, obahují teoreticky mnoho témata (životní výpoděď očitých svědků)
    - supervised metody nemáme data
    - unsupervised moc dlouhé dokumenty
    - budeme hledat spíše tématicky podobné dokumenty k danému doc.
  • dodělat -> rozsekat automaticky na tématicky ucelené bloky a ty rozpoznat (přes LDA)
    -> nastudovat LDAtoVec
Actions #8

Updated by Zajíc Zbyněk over 6 years ago

  • Due date changed from 31.08.2016 to 01.05.2018
  • Assignee changed from Skorkovská Lucie to Ircing Pavel
  • vstuponí data rozsekat na cca 2.min. dokumenty s nějakým překryvem
  • uživatel klikne do nahrávky a z okolí +-1min se vytvoří hledaný dokument
  • nalézt N nejpodobnějších dokumentů k hledanému
  • aplikovat jednu z metod z LSk disertačku
  • s JS domluvit formát uložených indexů slov d DB
Actions #9

Updated by Zajíc Zbyněk over 4 years ago

  • Status changed from New to Closed
Actions

Also available in: Atom PDF