Actions
Task #3707
closedTask #3637: Etapa 01 - Nová strukturace poradenských hovorů – návrh automatické segmentace
Zpracování dat z emailů - témata
Start date:
20.01.2016
Due date:
01.08.2017
% Done:
50%
Estimated time:
Description
Zkusit na emailech (až je ÚJČ předá na FTP #3696)
-detekci klíčových slov
-klustrovací metody
Files
Updated by Zajíc Zbyněk about 9 years ago
data od ÚJČ budou na poli v korpusech v adresáři NAKI-II-UJC, heslo napsána na redmine wikki projektu naki-ii-ujc-privat
Updated by Skorkovská Lucie almost 9 years ago
- Due date changed from 01.05.2016 to 23.05.2016
- % Done changed from 0 to 20
Přehled výsledků připravit před schůzí s UJČ.
Updated by Skorkovská Lucie almost 9 years ago
- File kmeans.log kmeans.log added
- % Done changed from 20 to 50
Testování shlukovacích algoritmů na dopisech ukázalo, že dokážeme najít často se vyskytující jevy v dotazech:
- psaní cikán / rom
- přechylování příjmení
- psaní ulic s předložkou
- jaký pád se používá při oslovení
- psaní počátečních velkých písmen
- pravidla velkých písmen u psaní názvů měst
- psaní přídavných jmen "řídící" "měřící" "kropící" .....
- skloňování příjmení
- že jazyková poradna není právní poradna
- norma úpravy písemností strojem
- v přípravě zapojení lemmatizace, normalizace - může trochu zlepšit výsledky
- chtělo by to anotované dopisy
Updated by Zajíc Zbyněk almost 9 years ago
Aleš říká, že online přepis není problém (kontinuálně i např. po pauze předávat slova), proto zkoumej i klasifikaci témat online.
Updated by Skorkovská Lucie almost 9 years ago
- Due date changed from 23.05.2016 to 30.06.2016
- lematizace dost vylepšuje shlukování témat
- na jakékoli další experimenty to chce anotovana data
Updated by Skorkovská Lucie almost 9 years ago
Updated by Zajíc Zbyněk almost 8 years ago
- Due date changed from 30.06.2016 to 01.08.2017
Actions