kmeans.log - NAKI-II-UJC-UKONCENE - Projects of Department of Cybernetics & NTIS P1 - Cybernetic Systems, University of West Bohemia

Task #3707 » kmeans.log

log s výpisy top slov v každém clusteru, výpis pro různý počet clusterů - Skorkovská Lucie, 24.05.2016 09:30

 -05-24 09:01:56,915 INFO data prepare started 2016-05-24 09:01:56.916000
 -05-24 09:01:57,176 INFO data prepare done 0:00:00.260000
 -05-24 09:01:57,176 INFO vectorize started 2016-05-24 09:01:57.176000
 -05-24 09:01:58,108 INFO vectorize done 0:00:00.933000
 -05-24 09:01:58,108 INFO vectorizing data done with TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
               dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
               lowercase=True, max_df=1.0, max_features=50000, min_df=1,
               ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True,
               stop_words=[u'.', u',', u':', u';', u'-', u'(', u')', u'"', u"'"],
               strip_accents=None, sublinear_tf=False,
               token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
               vocabulary=None)
 -05-24 09:01:58,108 INFO lsa started 2016-05-24 09:01:58.109000
 -05-24 09:02:45,184 INFO lsa done 0:00:47.075000
 -05-24 09:02:45,184 INFO lsa done with Pipeline(steps=[('truncatedsvd', TruncatedSVD(algorithm='randomized', n_components=1000, n_iter=5,
              random_state=None, tol=0.0)), ('normalizer', Normalizer(copy=False, norm='l2'))])
 -05-24 09:02:45,184 INFO
 -05-24 09:02:45,184 INFO NUMBER OF CLUSTERS 2
 -05-24 09:02:45,184 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=2,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:02:45,184 INFO clustering started 2016-05-24 09:02:45.184000
 -05-24 09:02:46,927 INFO clustering done 0:00:01.744000
 -05-24 09:02:46,927 INFO Top terms per cluster:
 -05-24 09:02:48,795 INFO Cluster 0: poradna praha jazykové na jazyková se český je pro jazyk
 -05-24 09:02:48,795 INFO Cluster 1: se je na že ve to jako by pro nebo
 -05-24 09:02:48,795 INFO
 -05-24 09:02:48,795 INFO NUMBER OF CLUSTERS 3
 -05-24 09:02:48,795 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=3,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:02:48,795 INFO clustering started 2016-05-24 09:02:48.795000
 -05-24 09:02:50,585 INFO clustering done 0:00:01.791000
 -05-24 09:02:50,585 INFO Top terms per cluster:
 -05-24 09:02:52,062 INFO Cluster 0: se je na že to ve jako jména by pro
 -05-24 09:02:52,062 INFO Cluster 1: poradna praha jazykové se na jazyková český pro cz jazyk
 -05-24 09:02:52,062 INFO Cluster 2: je se na že ve nebo za vám by jako
 -05-24 09:02:52,062 INFO
 -05-24 09:02:52,062 INFO NUMBER OF CLUSTERS 4
 -05-24 09:02:52,078 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=4,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:02:52,078 INFO clustering started 2016-05-24 09:02:52.078000
 -05-24 09:02:54,033 INFO clustering done 0:00:01.956000
 -05-24 09:02:54,033 INFO Top terms per cluster:
 -05-24 09:02:55,329 INFO Cluster 0: se je že na to ve ale jako by do
 -05-24 09:02:55,329 INFO Cluster 1: příjmení jména se je přechylování jmen původu na češtině že
 -05-24 09:02:55,329 INFO Cluster 2: se je na psaní ve písmenem českého pravopisu podle že
 -05-24 09:02:55,329 INFO Cluster 3: poradna na praha jazykové se je jazyková český pro jazyk
 -05-24 09:02:55,329 INFO
 -05-24 09:02:55,329 INFO NUMBER OF CLUSTERS 5
 -05-24 09:02:55,345 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=5,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:02:55,345 INFO clustering started 2016-05-24 09:02:55.330000
 -05-24 09:02:57,772 INFO clustering done 0:00:02.442000
 -05-24 09:02:57,772 INFO Top terms per cluster:
 -05-24 09:02:59,042 INFO Cluster 0: pád se pane na je dnů vzoru sh od tedy
 -05-24 09:02:59,088 INFO Cluster 1: příjmení jména se je jmen na jméno původu že přechylování
 -05-24 09:02:59,088 INFO Cluster 2: psaní písmenem se na písmeno město je psát velkým pravopisu
 -05-24 09:02:59,088 INFO Cluster 3: se je na že ve to jako by pro nebo
 -05-24 09:02:59,104 INFO Cluster 4: poradna praha jazykové jazyková na český jazyk pro se cz
 -05-24 09:02:59,104 INFO
 -05-24 09:02:59,104 INFO NUMBER OF CLUSTERS 6
 -05-24 09:02:59,104 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=6,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:02:59,104 INFO clustering started 2016-05-24 09:02:59.104000
 -05-24 09:03:01,572 INFO clustering done 0:00:02.468000
 -05-24 09:03:01,572 INFO Top terms per cluster:
 -05-24 09:03:03,301 INFO Cluster 0: psaní se písmenem pravopisu na 1993 českého psát je pravidla
 -05-24 09:03:03,338 INFO Cluster 1: se je na že ve to jako by pro ale
 -05-24 09:03:03,341 INFO Cluster 2: město města písmenem je písmeno se obec název psaní názvu
 -05-24 09:03:03,342 INFO Cluster 3: jazykové poradna právních nemá jazyková aplikacích výklad posláním rozhodovat výhradně
 -05-24 09:03:03,345 INFO Cluster 4: příjmení se jména je jmen na přechylování původu pád češtině
 -05-24 09:03:03,346 INFO Cluster 5: poradna praha cz cas ujc na se český 531 257
 -05-24 09:03:03,348 INFO
 -05-24 09:03:03,349 INFO NUMBER OF CLUSTERS 7
 -05-24 09:03:03,351 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=7,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:03:03,351 INFO clustering started 2016-05-24 09:03:03.351000
 -05-24 09:03:06,382 INFO clustering done 0:00:03.032000
 -05-24 09:03:06,382 INFO Top terms per cluster:
 -05-24 09:03:07,674 INFO Cluster 0: ing dr zkratky se je titulů titul zkratka titulu judr
 -05-24 09:03:07,674 INFO Cluster 1: se je že na to by ale ve jako do
 -05-24 09:03:07,674 INFO Cluster 2: poradna jazykové praha jazyková český jazyk cz pro cas ujc
 -05-24 09:03:07,674 INFO Cluster 3: psaní písmenem se na písmeno je město velkým psát pravopisu
 -05-24 09:03:07,690 INFO Cluster 4: příjmení jména se je přechylování jmen původu na češtině že
 -05-24 09:03:07,690 INFO Cluster 5: se je slovník na slovo českého ve jako jména praha
 -05-24 09:03:07,690 INFO Cluster 6: je se na že nebo za ve věty jsou spojení
 -05-24 09:03:07,690 INFO
 -05-24 09:03:07,690 INFO NUMBER OF CLUSTERS 8
 -05-24 09:03:07,690 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=8,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:03:07,690 INFO clustering started 2016-05-24 09:03:07.691000
 -05-24 09:03:10,108 INFO clustering done 0:00:02.417000
 -05-24 09:03:10,108 INFO Top terms per cluster:
 -05-24 09:03:11,446 INFO Cluster 0: prijmeni nájmu se jmena ze vase knappova ve jmeno je
 -05-24 09:03:11,446 INFO Cluster 1: se je na že nebo ve by to za vám
 -05-24 09:03:11,460 INFO Cluster 2: psaní se písmenem na je psát písmeno pravopisu velkým město
 -05-24 09:03:11,460 INFO Cluster 3: se je na že to ve ale jako do by
 -05-24 09:03:11,460 INFO Cluster 4: poradna jazykové praha jazyková český jazyk na cz pro cas
 -05-24 09:03:11,460 INFO Cluster 5: příjmení jména se je jmen přechylování původu češtině na skloňování
 -05-24 09:03:11,460 INFO Cluster 6: se je slovo slovník českého slovníku česko jazyka pro na
 -05-24 09:03:11,460 INFO Cluster 7: ing zkratky titul dr se zkratka titulů titulu oficiální tituly
 -05-24 09:03:11,460 INFO
 -05-24 09:03:11,460 INFO NUMBER OF CLUSTERS 9
 -05-24 09:03:11,476 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=9,
               n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
               verbose=True)
 -05-24 09:03:11,476 INFO clustering started 2016-05-24 09:03:11.461000
 -05-24 09:03:15,325 INFO clustering done 0:00:03.864000
 -05-24 09:03:15,325 INFO Top terms per cluster:
 -05-24 09:03:16,769 INFO Cluster 0: se je na že nebo souvětí ve to věta není
 -05-24 09:03:16,769 INFO Cluster 1: slovník slovníku českého se je academia jazyka praha spisovného na
 -05-24 09:03:16,769 INFO Cluster 2: jména se na je jméno pád jmen že ve např
 -05-24 09:03:16,769 INFO Cluster 3: se je že na to ve za by věty vám
 -05-24 09:03:16,769 INFO Cluster 4: příjmení jména se je jmen přechylování na původu že češtině
 -05-24 09:03:16,769 INFO Cluster 5: ze ceskeho slovnik vas je se vam jmena piseme neni
 -05-24 09:03:16,785 INFO Cluster 6: písmenem psaní město na písmeno se je velkým psát pravopisu
 -05-24 09:03:16,785 INFO Cluster 7: se je na že to jako slova pro slovo by
 -05-24 09:03:16,785 INFO Cluster 8: poradna jazykové praha jazyková český jazyk cz na cas pro
 -05-24 09:03:16,785 INFO
 -05-24 09:03:16,785 INFO NUMBER OF CLUSTERS 10
 -05-24 09:03:16,785 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=10, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:16,785 INFO clustering started 2016-05-24 09:03:16.785000
 -05-24 09:03:19,325 INFO clustering done 0:00:02.541000
 -05-24 09:03:19,325 INFO Top terms per cluster:
 -05-24 09:03:20,657 INFO Cluster 0: je se na praha ceskeho podle ze slovnik ve jako
 -05-24 09:03:20,657 INFO Cluster 1: poradna jazykové praha jazyková český jazyk cz pro cas na
 -05-24 09:03:20,657 INFO Cluster 2: psaní písmenem se na písmeno je velkým psát pravopisu ulice
 -05-24 09:03:20,657 INFO Cluster 3: se je že na slova slovo pro ve jako to
 -05-24 09:03:20,673 INFO Cluster 4: jazykovou zejména pod výchovu anseé se nás doporučujeme milan český
 -05-24 09:03:20,673 INFO Cluster 5: je se že na výklad nebo věty souvětí textu věta
 -05-24 09:03:20,673 INFO Cluster 6: příjmení jména je se přechylování jmen původu na že češtině
 -05-24 09:03:20,673 INFO Cluster 7: město města obec je se právnické osoby obce ve jménem
 -05-24 09:03:20,673 INFO Cluster 8: jména se na pád pane místní je tedy jmen jméno
 -05-24 09:03:20,673 INFO Cluster 9: se je že na to ve by jako např ale
 -05-24 09:03:20,673 INFO
 -05-24 09:03:20,673 INFO NUMBER OF CLUSTERS 11
 -05-24 09:03:20,688 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=11, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:20,688 INFO clustering started 2016-05-24 09:03:20.689000
 -05-24 09:03:23,747 INFO clustering done 0:00:03.059000
 -05-24 09:03:23,747 INFO Top terms per cluster:
 -05-24 09:03:25,065 INFO Cluster 0: jazykové poradna nemá právních výklad jazyková na výhradně český jazyk
 -05-24 09:03:25,082 INFO Cluster 1: ing zkratky město se společnost titulů titul dr zkratka oficiální
 -05-24 09:03:25,082 INFO Cluster 2: se pravopisu 1993 pád českého ve pravidel je pravidla podle
 -05-24 09:03:25,082 INFO Cluster 3: písmenem počátečním pane boží velkým je malým pádě píšeme jména
 -05-24 09:03:25,082 INFO Cluster 4: psaní na písmenem se písmeno je velkým psát ulice pravopisu
 -05-24 09:03:25,082 INFO Cluster 5: slovnik se je na ridici praha ze neni piseme vyraz
 -05-24 09:03:25,082 INFO Cluster 6: slovník jazyka českého academia slovníku se praha je spisovného slovo
 -05-24 09:03:25,082 INFO Cluster 7: soustředit budu čas se zadání slovesa sloveso sloves budoucí tvary
 -05-24 09:03:25,098 INFO Cluster 8: poradna praha se cz cas ujc na český jazyková 531
 -05-24 09:03:25,098 INFO Cluster 9: příjmení jména se je přechylování jmen původu naše na češtině
 -05-24 09:03:25,098 INFO Cluster 10: se je na že to ve by jako ale pro
 -05-24 09:03:25,098 INFO
 -05-24 09:03:25,098 INFO NUMBER OF CLUSTERS 12
 -05-24 09:03:25,098 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=12, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:25,098 INFO clustering started 2016-05-24 09:03:25.098000
 -05-24 09:03:28,654 INFO clustering done 0:00:03.557000
 -05-24 09:03:28,654 INFO Top terms per cluster:
 -05-24 09:03:30,023 INFO Cluster 0: skloňování vzoru pád skloňujeme jazykolamů bibliografickými podle pán příslušnými seznamy
 -05-24 09:03:30,023 INFO Cluster 1: poradna jazykové praha jazyková český jazyk na se pro cz
 -05-24 09:03:30,023 INFO Cluster 2: slovo se je slovník jazyka slovníku českého spisovného slova ve
 -05-24 09:03:30,023 INFO Cluster 3: se je na že jména slova ve slovník slov pád
 -05-24 09:03:30,039 INFO Cluster 4: přídavné řídicí jméno přídavná kropící vůz řídící jména měřicí veřejné
 -05-24 09:03:30,039 INFO Cluster 5: že je se na znamená být jsou slovesa předložit ale
 -05-24 09:03:30,039 INFO Cluster 6: město města obec se je obce písmenem právnické osoby ve
 -05-24 09:03:30,039 INFO Cluster 7: se je česko že to na ani republika by ale
 -05-24 09:03:30,039 INFO Cluster 8: se je na že ve to by za nebo jako
 -05-24 09:03:30,039 INFO Cluster 9: psaní písmenem na písmeno se pravopisu psát velkým je 1993
 -05-24 09:03:30,039 INFO Cluster 10: příjmení jména se je přechylování původu jmen na češtině že
 -05-24 09:03:30,039 INFO Cluster 11: slovnik ceskeho ze vam vas se je jmena prijmeni jmeno
 -05-24 09:03:30,055 INFO
 -05-24 09:03:30,055 INFO NUMBER OF CLUSTERS 13
 -05-24 09:03:30,055 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=13, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:30,055 INFO clustering started 2016-05-24 09:03:30.055000
 -05-24 09:03:34,099 INFO clustering done 0:00:04.045000
 -05-24 09:03:34,099 INFO Top terms per cluster:
 -05-24 09:03:35,453 INFO Cluster 0: norma 01 razeni csn 6030 vam 97 knihovna logie 0181
 -05-24 09:03:35,453 INFO Cluster 1: poradna praha se cz cas ujc na český jazyk jazyková
 -05-24 09:03:35,453 INFO Cluster 2: slově recyklace se ve do píše tvrdé styk slovech například
 -05-24 09:03:35,453 INFO Cluster 3: se je na že to ve jako by ale pro
 -05-24 09:03:35,453 INFO Cluster 4: písmenem psaní se na písmeno je město psát velkým pravopisu
 -05-24 09:03:35,453 INFO Cluster 5: pád vzoru příjmení jmen jména skloňování se pádě podle na
 -05-24 09:03:35,470 INFO Cluster 6: poradna jazykové jazyková český jazyk pro nemá na výklad praha
 -05-24 09:03:35,470 INFO Cluster 7: bez text mezery čárka je za zadarmo správně hned vam
 -05-24 09:03:35,470 INFO Cluster 8: slovník českého se slovníku je jazyka academia slovo praha spisovného
 -05-24 09:03:35,470 INFO Cluster 9: ze slovnik ceskeho se je vas prijmeni jmena vam neni
 -05-24 09:03:35,470 INFO Cluster 10: příjmení přechylování se je jména původu na češtině naše že
 -05-24 09:03:35,470 INFO Cluster 11: je se že věty souvětí věta na větě nebo by
 -05-24 09:03:35,470 INFO Cluster 12: tj se slovesa ve sto ani je předložit slovnících děj
 -05-24 09:03:35,486 INFO
 -05-24 09:03:35,486 INFO NUMBER OF CLUSTERS 14
 -05-24 09:03:35,486 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=14, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:35,486 INFO clustering started 2016-05-24 09:03:35.486000
 -05-24 09:03:39,177 INFO clustering done 0:00:03.692000
 -05-24 09:03:39,177 INFO Top terms per cluster:
 -05-24 09:03:40,549 INFO Cluster 0: prospěchem se fakulta je filozofická karlovy univerzity na ze stanoví
 -05-24 09:03:40,549 INFO Cluster 1: písmenem psaní na písmeno se velkým je město psát pravopisu
 -05-24 09:03:40,549 INFO Cluster 2: pád pádě čísla je jména se vzoru jméno na tedy
 -05-24 09:03:40,549 INFO Cluster 3: slova nájmu něčeho slov se slovo typ kabelovna je na
 -05-24 09:03:40,549 INFO Cluster 4: ing zkratky se dr zkratka titul titulů oficiální titulu inženýr
 -05-24 09:03:40,549 INFO Cluster 5: se je věty souvětí že na věta větě ve nebo
 -05-24 09:03:40,549 INFO Cluster 6: jazykové poradna právních nemá jazyková jazyk český aplikacích výklad rozhodovat
 -05-24 09:03:40,549 INFO Cluster 7: se je že to na by ale pro česko do
 -05-24 09:03:40,565 INFO Cluster 8: příjmení jména se je přechylování jmen původu češtině na že
 -05-24 09:03:40,565 INFO Cluster 9: přísloví ani výkladových protivy broskev slovnících rčení pacidlo nenalezli pacidla
 -05-24 09:03:40,565 INFO Cluster 10: se je na že ve jako pro slovník spojení např
 -05-24 09:03:40,565 INFO Cluster 11: se je na vám za ze ve by pravopisu že
 -05-24 09:03:40,565 INFO Cluster 12: představenstva výklad academia slovníku je 1989 českého slovník praha podpis
 -05-24 09:03:40,565 INFO Cluster 13: poradna praha cz cas ujc český jazyková 531 257 jazyk
 -05-24 09:03:40,565 INFO
 -05-24 09:03:40,565 INFO NUMBER OF CLUSTERS 15
 -05-24 09:03:40,581 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=15, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:40,581 INFO clustering started 2016-05-24 09:03:40.581000
 -05-24 09:03:44,776 INFO clustering done 0:00:04.195000
 -05-24 09:03:44,776 INFO Top terms per cluster:
 -05-24 09:03:46,148 INFO Cluster 0: na se předložka kladně do předložky spojení předložkou je předložku
 -05-24 09:03:46,148 INFO Cluster 1: se je že na to by ve ale jako nebo
 -05-24 09:03:46,148 INFO Cluster 2: slovník academia praha českého jazyka slovníku spisovného se 1989 je
 -05-24 09:03:46,148 INFO Cluster 3: písmenem se ing pravopisu počátečním psaní velkým pravidel je zkratky
 -05-24 09:03:46,148 INFO Cluster 4: se je jména na praha slovo ve jmen jsou českého
 -05-24 09:03:46,164 INFO Cluster 5: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen
 -05-24 09:03:46,164 INFO Cluster 6: funkční letenské budovy je ssjč zatím výrazy se ztráta normalizovat
 -05-24 09:03:46,164 INFO Cluster 7: pád pane pádu vzoru se na podle je tedy skloňování
 -05-24 09:03:46,164 INFO Cluster 8: příjmení jména se je přechylování původu jmen na že češtině
 -05-24 09:03:46,164 INFO Cluster 9: poradna jazykové praha jazyková český jazyk pro cz cas ujc
 -05-24 09:03:46,164 INFO Cluster 10: kompetenci ochranné známky mimo slovní se písmenem zásoby dva počátečním
 -05-24 09:03:46,164 INFO Cluster 11: pádě je čísla rodu jméno se píšeme jména ve mužského
 -05-24 09:03:46,164 INFO Cluster 12: přídavná jména řídicí se jméno přídavné je ve ský např
 -05-24 09:03:46,180 INFO Cluster 13: psaní na ulice se písmeno ulic pravopisu písmenem je psát
 -05-24 09:03:46,180 INFO Cluster 14: město města obec se je písmenem ve na psaní obce
 -05-24 09:03:46,180 INFO
 -05-24 09:03:46,180 INFO NUMBER OF CLUSTERS 16
 -05-24 09:03:46,180 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=16, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:46,180 INFO clustering started 2016-05-24 09:03:46.180000
 -05-24 09:03:49,790 INFO clustering done 0:00:03.611000
 -05-24 09:03:49,790 INFO Top terms per cluster:
 -05-24 09:03:51,170 INFO Cluster 0: výklad se je na vám může není nebo že právní
 -05-24 09:03:51,170 INFO Cluster 1: souvětí věta je věty visutý se vedlejší že visutá na
 -05-24 09:03:51,170 INFO Cluster 2: se slovesa sloveso je že na ve jako do od
 -05-24 09:03:51,170 INFO Cluster 3: poradna se na praha je cz pro cas ujc český
 -05-24 09:03:51,170 INFO Cluster 4: psaní písmenem se je na písmeno velkým název psát že
 -05-24 09:03:51,186 INFO Cluster 5: jména místní ský se na jmen čechách je místního místních
 -05-24 09:03:51,186 INFO Cluster 6: poradna jazykové jazyková český jazyk praha pro cz cas ústav
 -05-24 09:03:51,186 INFO Cluster 7: slovník se je slovníku academia českého jazyka praha slovo spisovného
 -05-24 09:03:51,186 INFO Cluster 8: příjmení jména se je přechylování původu na jmen že češtině
 -05-24 09:03:51,186 INFO Cluster 9: ceskeho ze slovnik vam se je vas prijmeni jmena piseme
 -05-24 09:03:51,186 INFO Cluster 10: pravopisu 1993 českého pravidel pravidla ulice se ulic na psát
 -05-24 09:03:51,186 INFO Cluster 11: ředitel sběratel řiditel ie změnilo sběračka řídí dokladovat kdybychom řiediti
 -05-24 09:03:51,186 INFO Cluster 12: město obec města právnické osoby obce psaní se je názvu
 -05-24 09:03:51,200 INFO Cluster 13: pád pádě čísla jméno se vzoru je pane tedy na
 -05-24 09:03:51,200 INFO Cluster 14: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen
 -05-24 09:03:51,200 INFO Cluster 15: se je že na to by ve za ale jako
 -05-24 09:03:51,200 INFO
 -05-24 09:03:51,200 INFO NUMBER OF CLUSTERS 17
 -05-24 09:03:51,200 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=17, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:51,200 INFO clustering started 2016-05-24 09:03:51.201000
 -05-24 09:03:54,937 INFO clustering done 0:00:03.736000
 -05-24 09:03:54,937 INFO Top terms per cluster:
 -05-24 09:03:56,335 INFO Cluster 0: na si 2011 se mailové poradna internetu odpověď dotazy cz
 -05-24 09:03:56,335 INFO Cluster 1: 01 se čsn norma písemností úprava strojem editory textovými zpracovaných
 -05-24 09:03:56,335 INFO Cluster 2: se je na že ve to by jako ale pro
 -05-24 09:03:56,335 INFO Cluster 3: psaní písmenem se písmeno velkým je psát počátečním malým písmen
 -05-24 09:03:56,335 INFO Cluster 4: pád pane oslovení pádem se pádu oslovování na je že
 -05-24 09:03:56,335 INFO Cluster 5: jazykové poradna právních nemá jazyková výklad výhradně aplikacích smluv dohod
 -05-24 09:03:56,351 INFO Cluster 6: ing zkratky titulů dr titul titulu se oficiální tituly zkratka
 -05-24 09:03:56,351 INFO Cluster 7: představenstva společnost závod kabelovna zvu názvu se je místopředseda text
 -05-24 09:03:56,351 INFO Cluster 8: poradna praha cz cas český ujc oddělení ústav jazykové 118
 -05-24 09:03:56,351 INFO Cluster 9: česko republika název je český názvu se pro postoje pojmenování
 -05-24 09:03:56,351 INFO Cluster 10: českého slovník jazyka academia se spisovného praha je slovníku podle
 -05-24 09:03:56,351 INFO Cluster 11: na ulice ulic se psaní pravopisu předložce skalce bukovině názvech
 -05-24 09:03:56,351 INFO Cluster 12: století léta devadesát se přísloví desetiletí 19 výslovnost na občan
 -05-24 09:03:56,367 INFO Cluster 13: město obec právnické osoby města obce je názvu se vlastního
 -05-24 09:03:56,367 INFO Cluster 14: příjmení jména se přechylování je původu jmen na češtině skloňování
 -05-24 09:03:56,367 INFO Cluster 15: slova se je že jsou to slov slovo ale na
 -05-24 09:03:56,367 INFO Cluster 16: se je slov slovníku na slova významu výrazu slovník veřejné
 -05-24 09:03:56,367 INFO
 -05-24 09:03:56,367 INFO NUMBER OF CLUSTERS 18
 -05-24 09:03:56,367 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=18, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:03:56,367 INFO clustering started 2016-05-24 09:03:56.367000
 -05-24 09:04:00,539 INFO clustering done 0:00:04.173000
 -05-24 09:04:00,539 INFO Top terms per cluster:
 -05-24 09:04:01,934 INFO Cluster 0: obchod 2000 zbožím druhé natura lidmila být straně vazba že
 -05-24 09:04:01,934 INFO Cluster 1: na je se pro jazyk že dopis jazykové český praha
 -05-24 09:04:01,934 INFO Cluster 2: ulice na bukovině ulic skalce psaní předložce názvech písmenem pravopisu
 -05-24 09:04:01,934 INFO Cluster 3: že slovesa na se je může předložit 2003 být sloveso
 -05-24 09:04:01,934 INFO Cluster 4: světlo muzete přístup by jazykova se parcely farmou že volný
 -05-24 09:04:01,934 INFO Cluster 5: se je že na ve to jako pro by nebo
 -05-24 09:04:01,934 INFO Cluster 6: ze slovnik ceskeho vas je se vam jmena prijmeni neni
 -05-24 09:04:01,948 INFO Cluster 7: pád pane pádu se pádem vzoru je oslovení na oslovování
 -05-24 09:04:01,948 INFO Cluster 8: poradna jazykové praha jazyková český jazyk pro cz cas ujc
 -05-24 09:04:01,948 INFO Cluster 9: psaní písmen písmenem velkých správa velkým počátečním pravopisu boží země
 -05-24 09:04:01,948 INFO Cluster 10: závod ředitelství závodu oblastní kabelovna střední dodavatelsko čechy závodem radotín
 -05-24 09:04:01,948 INFO Cluster 11: příjmení se jména přechylování je původu jmen na češtině např
 -05-24 09:04:01,948 INFO Cluster 12: se město písmenem psaní je písmeno na psát města velkým
 -05-24 09:04:01,948 INFO Cluster 13: daně správce období subjekt se že je účetnictví daňový za
 -05-24 09:04:01,964 INFO Cluster 14: řídicí přídavná měřicí řídící kropící přístroj vůz jména měřící vyjadřují
 -05-24 09:04:01,964 INFO Cluster 15: vám se vaší přečetla je děkujeme jsem slepicemi báseň zájmem
 -05-24 09:04:01,964 INFO Cluster 16: 1993 pravopisu českého pravidel praha za podle academia vydání se
 -05-24 09:04:01,964 INFO Cluster 17: schválení smlouvy by okresním požadavku úřadem výpovědí nový že rok
 -05-24 09:04:01,964 INFO
 -05-24 09:04:01,964 INFO NUMBER OF CLUSTERS 19
 -05-24 09:04:01,964 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
               init_size=1000, max_iter=1000, max_no_improvement=10,
               n_clusters=19, n_init=20, random_state=None,
               reassignment_ratio=0.1, tol=0.0, verbose=True)
 -05-24 09:04:01,964 INFO clustering started 2016-05-24 09:04:01.965000
 -05-24 09:04:06,168 INFO clustering done 0:00:04.204000
 -05-24 09:04:06,168 INFO Top terms per cluster:
 -05-24 09:04:07,563 INFO Cluster 0: ani broskev přísloví se slepicemi jednoty slovnících výkladových tělocvik ve
 -05-24 09:04:07,563 INFO Cluster 1: cikán romové rom cikáni etnickém světě heslo označení cikánka cikánů
 -05-24 09:04:07,563 INFO Cluster 2: ch písmena se že písmen je pro škola písmeno slabice
 -05-24 09:04:07,563 INFO Cluster 3: je slovník se že českého academia pro kabelovna 1994 jazyka
 -05-24 09:04:07,578 INFO Cluster 4: se je že na to by ve nebo ale za
 -05-24 09:04:07,578 INFO Cluster 5: ceskeho slovnik spisovneho ridici ma spravne pravopisu jazyka vas piseme
 -05-24 09:04:07,578 INFO Cluster 6: slovník slovníku jazyka slovo českého se academia spisovného je praha
 -05-24 09:04:07,578 INFO Cluster 7: se na je jména že ve jako pro jsou za
 -05-24 09:04:07,578 INFO Cluster 8: na se je jazyk pro že jazykové ústav český by
 -05-24 09:04:07,578 INFO Cluster 9: prijmeni cestine vam protoze vas ze take je jmena se
 -05-24 09:04:07,578 INFO Cluster 10: příjmení se jména je přechylování původu jmen na že češtině
 -05-24 09:04:07,578 INFO Cluster 11: na pravopisu 1993 psaní českého pravidel ulice se pravidla ulic
 -05-24 09:04:07,578 INFO Cluster 12: pádě čísla je jméno se množného ve tvar jména píšeme
 -05-24 09:04:07,595 INFO Cluster 13: poradna praha jazykové jazyková český jazyk cz cas ujc pro
 -05-24 09:04:07,595 INFO Cluster 14: písmenem se psaní je město velkým písmeno název na psát
 -05-24 09:04:07,595 INFO Cluster 15: román dvou přihlášky kronika spojovníkem podání memoárromán psaní dohromady řeka
 -05-24 09:04:07,595 INFO Cluster 16: pád pan vzoru se pán skloňování příjmení podle skloňujeme zakončená
 -05-24 09:04:07,595 INFO Cluster 17: představenstva výklad ustanovení je místopředseda člena vám předsedy právní na
 -05-24 09:04:07,595 INFO Cluster 18: veřejné slovní zásoby slov veřejný se je veřejná že lidmila

« Previous
1
2
Next »

(1-1/2)

Project

General

Profile

NAKI-II-UJC-UKONCENE

Task #3707 » kmeans.log