2016-05-24 09:01:56,915 INFO data prepare started 2016-05-24 09:01:56.916000 2016-05-24 09:01:57,176 INFO data prepare done 0:00:00.260000 2016-05-24 09:01:57,176 INFO vectorize started 2016-05-24 09:01:57.176000 2016-05-24 09:01:58,108 INFO vectorize done 0:00:00.933000 2016-05-24 09:01:58,108 INFO vectorizing data done with TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict', dtype=, encoding=u'utf-8', input=u'content', lowercase=True, max_df=1.0, max_features=50000, min_df=1, ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True, stop_words=[u'.', u',', u':', u';', u'-', u'(', u')', u'"', u"'"], strip_accents=None, sublinear_tf=False, token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True, vocabulary=None) 2016-05-24 09:01:58,108 INFO lsa started 2016-05-24 09:01:58.109000 2016-05-24 09:02:45,184 INFO lsa done 0:00:47.075000 2016-05-24 09:02:45,184 INFO lsa done with Pipeline(steps=[('truncatedsvd', TruncatedSVD(algorithm='randomized', n_components=1000, n_iter=5, random_state=None, tol=0.0)), ('normalizer', Normalizer(copy=False, norm='l2'))]) 2016-05-24 09:02:45,184 INFO 2016-05-24 09:02:45,184 INFO NUMBER OF CLUSTERS 2 2016-05-24 09:02:45,184 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=2, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:02:45,184 INFO clustering started 2016-05-24 09:02:45.184000 2016-05-24 09:02:46,927 INFO clustering done 0:00:01.744000 2016-05-24 09:02:46,927 INFO Top terms per cluster: 2016-05-24 09:02:48,795 INFO Cluster 0: poradna praha jazykové na jazyková se český je pro jazyk 2016-05-24 09:02:48,795 INFO Cluster 1: se je na že ve to jako by pro nebo 2016-05-24 09:02:48,795 INFO 2016-05-24 09:02:48,795 INFO NUMBER OF CLUSTERS 3 2016-05-24 09:02:48,795 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=3, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:02:48,795 INFO clustering started 2016-05-24 09:02:48.795000 2016-05-24 09:02:50,585 INFO clustering done 0:00:01.791000 2016-05-24 09:02:50,585 INFO Top terms per cluster: 2016-05-24 09:02:52,062 INFO Cluster 0: se je na že to ve jako jména by pro 2016-05-24 09:02:52,062 INFO Cluster 1: poradna praha jazykové se na jazyková český pro cz jazyk 2016-05-24 09:02:52,062 INFO Cluster 2: je se na že ve nebo za vám by jako 2016-05-24 09:02:52,062 INFO 2016-05-24 09:02:52,062 INFO NUMBER OF CLUSTERS 4 2016-05-24 09:02:52,078 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=4, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:02:52,078 INFO clustering started 2016-05-24 09:02:52.078000 2016-05-24 09:02:54,033 INFO clustering done 0:00:01.956000 2016-05-24 09:02:54,033 INFO Top terms per cluster: 2016-05-24 09:02:55,329 INFO Cluster 0: se je že na to ve ale jako by do 2016-05-24 09:02:55,329 INFO Cluster 1: příjmení jména se je přechylování jmen původu na češtině že 2016-05-24 09:02:55,329 INFO Cluster 2: se je na psaní ve písmenem českého pravopisu podle že 2016-05-24 09:02:55,329 INFO Cluster 3: poradna na praha jazykové se je jazyková český pro jazyk 2016-05-24 09:02:55,329 INFO 2016-05-24 09:02:55,329 INFO NUMBER OF CLUSTERS 5 2016-05-24 09:02:55,345 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=5, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:02:55,345 INFO clustering started 2016-05-24 09:02:55.330000 2016-05-24 09:02:57,772 INFO clustering done 0:00:02.442000 2016-05-24 09:02:57,772 INFO Top terms per cluster: 2016-05-24 09:02:59,042 INFO Cluster 0: pád se pane na je dnů vzoru sh od tedy 2016-05-24 09:02:59,088 INFO Cluster 1: příjmení jména se je jmen na jméno původu že přechylování 2016-05-24 09:02:59,088 INFO Cluster 2: psaní písmenem se na písmeno město je psát velkým pravopisu 2016-05-24 09:02:59,088 INFO Cluster 3: se je na že ve to jako by pro nebo 2016-05-24 09:02:59,104 INFO Cluster 4: poradna praha jazykové jazyková na český jazyk pro se cz 2016-05-24 09:02:59,104 INFO 2016-05-24 09:02:59,104 INFO NUMBER OF CLUSTERS 6 2016-05-24 09:02:59,104 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=6, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:02:59,104 INFO clustering started 2016-05-24 09:02:59.104000 2016-05-24 09:03:01,572 INFO clustering done 0:00:02.468000 2016-05-24 09:03:01,572 INFO Top terms per cluster: 2016-05-24 09:03:03,301 INFO Cluster 0: psaní se písmenem pravopisu na 1993 českého psát je pravidla 2016-05-24 09:03:03,338 INFO Cluster 1: se je na že ve to jako by pro ale 2016-05-24 09:03:03,341 INFO Cluster 2: město města písmenem je písmeno se obec název psaní názvu 2016-05-24 09:03:03,342 INFO Cluster 3: jazykové poradna právních nemá jazyková aplikacích výklad posláním rozhodovat výhradně 2016-05-24 09:03:03,345 INFO Cluster 4: příjmení se jména je jmen na přechylování původu pád češtině 2016-05-24 09:03:03,346 INFO Cluster 5: poradna praha cz cas ujc na se český 531 257 2016-05-24 09:03:03,348 INFO 2016-05-24 09:03:03,349 INFO NUMBER OF CLUSTERS 7 2016-05-24 09:03:03,351 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=7, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:03,351 INFO clustering started 2016-05-24 09:03:03.351000 2016-05-24 09:03:06,382 INFO clustering done 0:00:03.032000 2016-05-24 09:03:06,382 INFO Top terms per cluster: 2016-05-24 09:03:07,674 INFO Cluster 0: ing dr zkratky se je titulů titul zkratka titulu judr 2016-05-24 09:03:07,674 INFO Cluster 1: se je že na to by ale ve jako do 2016-05-24 09:03:07,674 INFO Cluster 2: poradna jazykové praha jazyková český jazyk cz pro cas ujc 2016-05-24 09:03:07,674 INFO Cluster 3: psaní písmenem se na písmeno je město velkým psát pravopisu 2016-05-24 09:03:07,690 INFO Cluster 4: příjmení jména se je přechylování jmen původu na češtině že 2016-05-24 09:03:07,690 INFO Cluster 5: se je slovník na slovo českého ve jako jména praha 2016-05-24 09:03:07,690 INFO Cluster 6: je se na že nebo za ve věty jsou spojení 2016-05-24 09:03:07,690 INFO 2016-05-24 09:03:07,690 INFO NUMBER OF CLUSTERS 8 2016-05-24 09:03:07,690 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=8, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:07,690 INFO clustering started 2016-05-24 09:03:07.691000 2016-05-24 09:03:10,108 INFO clustering done 0:00:02.417000 2016-05-24 09:03:10,108 INFO Top terms per cluster: 2016-05-24 09:03:11,446 INFO Cluster 0: prijmeni nájmu se jmena ze vase knappova ve jmeno je 2016-05-24 09:03:11,446 INFO Cluster 1: se je na že nebo ve by to za vám 2016-05-24 09:03:11,460 INFO Cluster 2: psaní se písmenem na je psát písmeno pravopisu velkým město 2016-05-24 09:03:11,460 INFO Cluster 3: se je na že to ve ale jako do by 2016-05-24 09:03:11,460 INFO Cluster 4: poradna jazykové praha jazyková český jazyk na cz pro cas 2016-05-24 09:03:11,460 INFO Cluster 5: příjmení jména se je jmen přechylování původu češtině na skloňování 2016-05-24 09:03:11,460 INFO Cluster 6: se je slovo slovník českého slovníku česko jazyka pro na 2016-05-24 09:03:11,460 INFO Cluster 7: ing zkratky titul dr se zkratka titulů titulu oficiální tituly 2016-05-24 09:03:11,460 INFO 2016-05-24 09:03:11,460 INFO NUMBER OF CLUSTERS 9 2016-05-24 09:03:11,476 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=9, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:11,476 INFO clustering started 2016-05-24 09:03:11.461000 2016-05-24 09:03:15,325 INFO clustering done 0:00:03.864000 2016-05-24 09:03:15,325 INFO Top terms per cluster: 2016-05-24 09:03:16,769 INFO Cluster 0: se je na že nebo souvětí ve to věta není 2016-05-24 09:03:16,769 INFO Cluster 1: slovník slovníku českého se je academia jazyka praha spisovného na 2016-05-24 09:03:16,769 INFO Cluster 2: jména se na je jméno pád jmen že ve např 2016-05-24 09:03:16,769 INFO Cluster 3: se je že na to ve za by věty vám 2016-05-24 09:03:16,769 INFO Cluster 4: příjmení jména se je jmen přechylování na původu že češtině 2016-05-24 09:03:16,769 INFO Cluster 5: ze ceskeho slovnik vas je se vam jmena piseme neni 2016-05-24 09:03:16,785 INFO Cluster 6: písmenem psaní město na písmeno se je velkým psát pravopisu 2016-05-24 09:03:16,785 INFO Cluster 7: se je na že to jako slova pro slovo by 2016-05-24 09:03:16,785 INFO Cluster 8: poradna jazykové praha jazyková český jazyk cz na cas pro 2016-05-24 09:03:16,785 INFO 2016-05-24 09:03:16,785 INFO NUMBER OF CLUSTERS 10 2016-05-24 09:03:16,785 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=10, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:16,785 INFO clustering started 2016-05-24 09:03:16.785000 2016-05-24 09:03:19,325 INFO clustering done 0:00:02.541000 2016-05-24 09:03:19,325 INFO Top terms per cluster: 2016-05-24 09:03:20,657 INFO Cluster 0: je se na praha ceskeho podle ze slovnik ve jako 2016-05-24 09:03:20,657 INFO Cluster 1: poradna jazykové praha jazyková český jazyk cz pro cas na 2016-05-24 09:03:20,657 INFO Cluster 2: psaní písmenem se na písmeno je velkým psát pravopisu ulice 2016-05-24 09:03:20,657 INFO Cluster 3: se je že na slova slovo pro ve jako to 2016-05-24 09:03:20,673 INFO Cluster 4: jazykovou zejména pod výchovu anseé se nás doporučujeme milan český 2016-05-24 09:03:20,673 INFO Cluster 5: je se že na výklad nebo věty souvětí textu věta 2016-05-24 09:03:20,673 INFO Cluster 6: příjmení jména je se přechylování jmen původu na že češtině 2016-05-24 09:03:20,673 INFO Cluster 7: město města obec je se právnické osoby obce ve jménem 2016-05-24 09:03:20,673 INFO Cluster 8: jména se na pád pane místní je tedy jmen jméno 2016-05-24 09:03:20,673 INFO Cluster 9: se je že na to ve by jako např ale 2016-05-24 09:03:20,673 INFO 2016-05-24 09:03:20,673 INFO NUMBER OF CLUSTERS 11 2016-05-24 09:03:20,688 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=11, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:20,688 INFO clustering started 2016-05-24 09:03:20.689000 2016-05-24 09:03:23,747 INFO clustering done 0:00:03.059000 2016-05-24 09:03:23,747 INFO Top terms per cluster: 2016-05-24 09:03:25,065 INFO Cluster 0: jazykové poradna nemá právních výklad jazyková na výhradně český jazyk 2016-05-24 09:03:25,082 INFO Cluster 1: ing zkratky město se společnost titulů titul dr zkratka oficiální 2016-05-24 09:03:25,082 INFO Cluster 2: se pravopisu 1993 pád českého ve pravidel je pravidla podle 2016-05-24 09:03:25,082 INFO Cluster 3: písmenem počátečním pane boží velkým je malým pádě píšeme jména 2016-05-24 09:03:25,082 INFO Cluster 4: psaní na písmenem se písmeno je velkým psát ulice pravopisu 2016-05-24 09:03:25,082 INFO Cluster 5: slovnik se je na ridici praha ze neni piseme vyraz 2016-05-24 09:03:25,082 INFO Cluster 6: slovník jazyka českého academia slovníku se praha je spisovného slovo 2016-05-24 09:03:25,082 INFO Cluster 7: soustředit budu čas se zadání slovesa sloveso sloves budoucí tvary 2016-05-24 09:03:25,098 INFO Cluster 8: poradna praha se cz cas ujc na český jazyková 531 2016-05-24 09:03:25,098 INFO Cluster 9: příjmení jména se je přechylování jmen původu naše na češtině 2016-05-24 09:03:25,098 INFO Cluster 10: se je na že to ve by jako ale pro 2016-05-24 09:03:25,098 INFO 2016-05-24 09:03:25,098 INFO NUMBER OF CLUSTERS 12 2016-05-24 09:03:25,098 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=12, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:25,098 INFO clustering started 2016-05-24 09:03:25.098000 2016-05-24 09:03:28,654 INFO clustering done 0:00:03.557000 2016-05-24 09:03:28,654 INFO Top terms per cluster: 2016-05-24 09:03:30,023 INFO Cluster 0: skloňování vzoru pád skloňujeme jazykolamů bibliografickými podle pán příslušnými seznamy 2016-05-24 09:03:30,023 INFO Cluster 1: poradna jazykové praha jazyková český jazyk na se pro cz 2016-05-24 09:03:30,023 INFO Cluster 2: slovo se je slovník jazyka slovníku českého spisovného slova ve 2016-05-24 09:03:30,023 INFO Cluster 3: se je na že jména slova ve slovník slov pád 2016-05-24 09:03:30,039 INFO Cluster 4: přídavné řídicí jméno přídavná kropící vůz řídící jména měřicí veřejné 2016-05-24 09:03:30,039 INFO Cluster 5: že je se na znamená být jsou slovesa předložit ale 2016-05-24 09:03:30,039 INFO Cluster 6: město města obec se je obce písmenem právnické osoby ve 2016-05-24 09:03:30,039 INFO Cluster 7: se je česko že to na ani republika by ale 2016-05-24 09:03:30,039 INFO Cluster 8: se je na že ve to by za nebo jako 2016-05-24 09:03:30,039 INFO Cluster 9: psaní písmenem na písmeno se pravopisu psát velkým je 1993 2016-05-24 09:03:30,039 INFO Cluster 10: příjmení jména se je přechylování původu jmen na češtině že 2016-05-24 09:03:30,039 INFO Cluster 11: slovnik ceskeho ze vam vas se je jmena prijmeni jmeno 2016-05-24 09:03:30,055 INFO 2016-05-24 09:03:30,055 INFO NUMBER OF CLUSTERS 13 2016-05-24 09:03:30,055 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=13, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:30,055 INFO clustering started 2016-05-24 09:03:30.055000 2016-05-24 09:03:34,099 INFO clustering done 0:00:04.045000 2016-05-24 09:03:34,099 INFO Top terms per cluster: 2016-05-24 09:03:35,453 INFO Cluster 0: norma 01 razeni csn 6030 vam 97 knihovna logie 0181 2016-05-24 09:03:35,453 INFO Cluster 1: poradna praha se cz cas ujc na český jazyk jazyková 2016-05-24 09:03:35,453 INFO Cluster 2: slově recyklace se ve do píše tvrdé styk slovech například 2016-05-24 09:03:35,453 INFO Cluster 3: se je na že to ve jako by ale pro 2016-05-24 09:03:35,453 INFO Cluster 4: písmenem psaní se na písmeno je město psát velkým pravopisu 2016-05-24 09:03:35,453 INFO Cluster 5: pád vzoru příjmení jmen jména skloňování se pádě podle na 2016-05-24 09:03:35,470 INFO Cluster 6: poradna jazykové jazyková český jazyk pro nemá na výklad praha 2016-05-24 09:03:35,470 INFO Cluster 7: bez text mezery čárka je za zadarmo správně hned vam 2016-05-24 09:03:35,470 INFO Cluster 8: slovník českého se slovníku je jazyka academia slovo praha spisovného 2016-05-24 09:03:35,470 INFO Cluster 9: ze slovnik ceskeho se je vas prijmeni jmena vam neni 2016-05-24 09:03:35,470 INFO Cluster 10: příjmení přechylování se je jména původu na češtině naše že 2016-05-24 09:03:35,470 INFO Cluster 11: je se že věty souvětí věta na větě nebo by 2016-05-24 09:03:35,470 INFO Cluster 12: tj se slovesa ve sto ani je předložit slovnících děj 2016-05-24 09:03:35,486 INFO 2016-05-24 09:03:35,486 INFO NUMBER OF CLUSTERS 14 2016-05-24 09:03:35,486 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=14, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:35,486 INFO clustering started 2016-05-24 09:03:35.486000 2016-05-24 09:03:39,177 INFO clustering done 0:00:03.692000 2016-05-24 09:03:39,177 INFO Top terms per cluster: 2016-05-24 09:03:40,549 INFO Cluster 0: prospěchem se fakulta je filozofická karlovy univerzity na ze stanoví 2016-05-24 09:03:40,549 INFO Cluster 1: písmenem psaní na písmeno se velkým je město psát pravopisu 2016-05-24 09:03:40,549 INFO Cluster 2: pád pádě čísla je jména se vzoru jméno na tedy 2016-05-24 09:03:40,549 INFO Cluster 3: slova nájmu něčeho slov se slovo typ kabelovna je na 2016-05-24 09:03:40,549 INFO Cluster 4: ing zkratky se dr zkratka titul titulů oficiální titulu inženýr 2016-05-24 09:03:40,549 INFO Cluster 5: se je věty souvětí že na věta větě ve nebo 2016-05-24 09:03:40,549 INFO Cluster 6: jazykové poradna právních nemá jazyková jazyk český aplikacích výklad rozhodovat 2016-05-24 09:03:40,549 INFO Cluster 7: se je že to na by ale pro česko do 2016-05-24 09:03:40,565 INFO Cluster 8: příjmení jména se je přechylování jmen původu češtině na že 2016-05-24 09:03:40,565 INFO Cluster 9: přísloví ani výkladových protivy broskev slovnících rčení pacidlo nenalezli pacidla 2016-05-24 09:03:40,565 INFO Cluster 10: se je na že ve jako pro slovník spojení např 2016-05-24 09:03:40,565 INFO Cluster 11: se je na vám za ze ve by pravopisu že 2016-05-24 09:03:40,565 INFO Cluster 12: představenstva výklad academia slovníku je 1989 českého slovník praha podpis 2016-05-24 09:03:40,565 INFO Cluster 13: poradna praha cz cas ujc český jazyková 531 257 jazyk 2016-05-24 09:03:40,565 INFO 2016-05-24 09:03:40,565 INFO NUMBER OF CLUSTERS 15 2016-05-24 09:03:40,581 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=15, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:40,581 INFO clustering started 2016-05-24 09:03:40.581000 2016-05-24 09:03:44,776 INFO clustering done 0:00:04.195000 2016-05-24 09:03:44,776 INFO Top terms per cluster: 2016-05-24 09:03:46,148 INFO Cluster 0: na se předložka kladně do předložky spojení předložkou je předložku 2016-05-24 09:03:46,148 INFO Cluster 1: se je že na to by ve ale jako nebo 2016-05-24 09:03:46,148 INFO Cluster 2: slovník academia praha českého jazyka slovníku spisovného se 1989 je 2016-05-24 09:03:46,148 INFO Cluster 3: písmenem se ing pravopisu počátečním psaní velkým pravidel je zkratky 2016-05-24 09:03:46,148 INFO Cluster 4: se je jména na praha slovo ve jmen jsou českého 2016-05-24 09:03:46,164 INFO Cluster 5: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 2016-05-24 09:03:46,164 INFO Cluster 6: funkční letenské budovy je ssjč zatím výrazy se ztráta normalizovat 2016-05-24 09:03:46,164 INFO Cluster 7: pád pane pádu vzoru se na podle je tedy skloňování 2016-05-24 09:03:46,164 INFO Cluster 8: příjmení jména se je přechylování původu jmen na že češtině 2016-05-24 09:03:46,164 INFO Cluster 9: poradna jazykové praha jazyková český jazyk pro cz cas ujc 2016-05-24 09:03:46,164 INFO Cluster 10: kompetenci ochranné známky mimo slovní se písmenem zásoby dva počátečním 2016-05-24 09:03:46,164 INFO Cluster 11: pádě je čísla rodu jméno se píšeme jména ve mužského 2016-05-24 09:03:46,164 INFO Cluster 12: přídavná jména řídicí se jméno přídavné je ve ský např 2016-05-24 09:03:46,180 INFO Cluster 13: psaní na ulice se písmeno ulic pravopisu písmenem je psát 2016-05-24 09:03:46,180 INFO Cluster 14: město města obec se je písmenem ve na psaní obce 2016-05-24 09:03:46,180 INFO 2016-05-24 09:03:46,180 INFO NUMBER OF CLUSTERS 16 2016-05-24 09:03:46,180 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=16, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:46,180 INFO clustering started 2016-05-24 09:03:46.180000 2016-05-24 09:03:49,790 INFO clustering done 0:00:03.611000 2016-05-24 09:03:49,790 INFO Top terms per cluster: 2016-05-24 09:03:51,170 INFO Cluster 0: výklad se je na vám může není nebo že právní 2016-05-24 09:03:51,170 INFO Cluster 1: souvětí věta je věty visutý se vedlejší že visutá na 2016-05-24 09:03:51,170 INFO Cluster 2: se slovesa sloveso je že na ve jako do od 2016-05-24 09:03:51,170 INFO Cluster 3: poradna se na praha je cz pro cas ujc český 2016-05-24 09:03:51,170 INFO Cluster 4: psaní písmenem se je na písmeno velkým název psát že 2016-05-24 09:03:51,186 INFO Cluster 5: jména místní ský se na jmen čechách je místního místních 2016-05-24 09:03:51,186 INFO Cluster 6: poradna jazykové jazyková český jazyk praha pro cz cas ústav 2016-05-24 09:03:51,186 INFO Cluster 7: slovník se je slovníku academia českého jazyka praha slovo spisovného 2016-05-24 09:03:51,186 INFO Cluster 8: příjmení jména se je přechylování původu na jmen že češtině 2016-05-24 09:03:51,186 INFO Cluster 9: ceskeho ze slovnik vam se je vas prijmeni jmena piseme 2016-05-24 09:03:51,186 INFO Cluster 10: pravopisu 1993 českého pravidel pravidla ulice se ulic na psát 2016-05-24 09:03:51,186 INFO Cluster 11: ředitel sběratel řiditel ie změnilo sběračka řídí dokladovat kdybychom řiediti 2016-05-24 09:03:51,186 INFO Cluster 12: město obec města právnické osoby obce psaní se je názvu 2016-05-24 09:03:51,200 INFO Cluster 13: pád pádě čísla jméno se vzoru je pane tedy na 2016-05-24 09:03:51,200 INFO Cluster 14: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 2016-05-24 09:03:51,200 INFO Cluster 15: se je že na to by ve za ale jako 2016-05-24 09:03:51,200 INFO 2016-05-24 09:03:51,200 INFO NUMBER OF CLUSTERS 17 2016-05-24 09:03:51,200 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=17, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:51,200 INFO clustering started 2016-05-24 09:03:51.201000 2016-05-24 09:03:54,937 INFO clustering done 0:00:03.736000 2016-05-24 09:03:54,937 INFO Top terms per cluster: 2016-05-24 09:03:56,335 INFO Cluster 0: na si 2011 se mailové poradna internetu odpověď dotazy cz 2016-05-24 09:03:56,335 INFO Cluster 1: 01 se čsn norma písemností úprava strojem editory textovými zpracovaných 2016-05-24 09:03:56,335 INFO Cluster 2: se je na že ve to by jako ale pro 2016-05-24 09:03:56,335 INFO Cluster 3: psaní písmenem se písmeno velkým je psát počátečním malým písmen 2016-05-24 09:03:56,335 INFO Cluster 4: pád pane oslovení pádem se pádu oslovování na je že 2016-05-24 09:03:56,335 INFO Cluster 5: jazykové poradna právních nemá jazyková výklad výhradně aplikacích smluv dohod 2016-05-24 09:03:56,351 INFO Cluster 6: ing zkratky titulů dr titul titulu se oficiální tituly zkratka 2016-05-24 09:03:56,351 INFO Cluster 7: představenstva společnost závod kabelovna zvu názvu se je místopředseda text 2016-05-24 09:03:56,351 INFO Cluster 8: poradna praha cz cas český ujc oddělení ústav jazykové 118 2016-05-24 09:03:56,351 INFO Cluster 9: česko republika název je český názvu se pro postoje pojmenování 2016-05-24 09:03:56,351 INFO Cluster 10: českého slovník jazyka academia se spisovného praha je slovníku podle 2016-05-24 09:03:56,351 INFO Cluster 11: na ulice ulic se psaní pravopisu předložce skalce bukovině názvech 2016-05-24 09:03:56,351 INFO Cluster 12: století léta devadesát se přísloví desetiletí 19 výslovnost na občan 2016-05-24 09:03:56,367 INFO Cluster 13: město obec právnické osoby města obce je názvu se vlastního 2016-05-24 09:03:56,367 INFO Cluster 14: příjmení jména se přechylování je původu jmen na češtině skloňování 2016-05-24 09:03:56,367 INFO Cluster 15: slova se je že jsou to slov slovo ale na 2016-05-24 09:03:56,367 INFO Cluster 16: se je slov slovníku na slova významu výrazu slovník veřejné 2016-05-24 09:03:56,367 INFO 2016-05-24 09:03:56,367 INFO NUMBER OF CLUSTERS 18 2016-05-24 09:03:56,367 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=18, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:03:56,367 INFO clustering started 2016-05-24 09:03:56.367000 2016-05-24 09:04:00,539 INFO clustering done 0:00:04.173000 2016-05-24 09:04:00,539 INFO Top terms per cluster: 2016-05-24 09:04:01,934 INFO Cluster 0: obchod 2000 zbožím druhé natura lidmila být straně vazba že 2016-05-24 09:04:01,934 INFO Cluster 1: na je se pro jazyk že dopis jazykové český praha 2016-05-24 09:04:01,934 INFO Cluster 2: ulice na bukovině ulic skalce psaní předložce názvech písmenem pravopisu 2016-05-24 09:04:01,934 INFO Cluster 3: že slovesa na se je může předložit 2003 být sloveso 2016-05-24 09:04:01,934 INFO Cluster 4: světlo muzete přístup by jazykova se parcely farmou že volný 2016-05-24 09:04:01,934 INFO Cluster 5: se je že na ve to jako pro by nebo 2016-05-24 09:04:01,934 INFO Cluster 6: ze slovnik ceskeho vas je se vam jmena prijmeni neni 2016-05-24 09:04:01,948 INFO Cluster 7: pád pane pádu se pádem vzoru je oslovení na oslovování 2016-05-24 09:04:01,948 INFO Cluster 8: poradna jazykové praha jazyková český jazyk pro cz cas ujc 2016-05-24 09:04:01,948 INFO Cluster 9: psaní písmen písmenem velkých správa velkým počátečním pravopisu boží země 2016-05-24 09:04:01,948 INFO Cluster 10: závod ředitelství závodu oblastní kabelovna střední dodavatelsko čechy závodem radotín 2016-05-24 09:04:01,948 INFO Cluster 11: příjmení se jména přechylování je původu jmen na češtině např 2016-05-24 09:04:01,948 INFO Cluster 12: se město písmenem psaní je písmeno na psát města velkým 2016-05-24 09:04:01,948 INFO Cluster 13: daně správce období subjekt se že je účetnictví daňový za 2016-05-24 09:04:01,964 INFO Cluster 14: řídicí přídavná měřicí řídící kropící přístroj vůz jména měřící vyjadřují 2016-05-24 09:04:01,964 INFO Cluster 15: vám se vaší přečetla je děkujeme jsem slepicemi báseň zájmem 2016-05-24 09:04:01,964 INFO Cluster 16: 1993 pravopisu českého pravidel praha za podle academia vydání se 2016-05-24 09:04:01,964 INFO Cluster 17: schválení smlouvy by okresním požadavku úřadem výpovědí nový že rok 2016-05-24 09:04:01,964 INFO 2016-05-24 09:04:01,964 INFO NUMBER OF CLUSTERS 19 2016-05-24 09:04:01,964 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++', init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=19, n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0, verbose=True) 2016-05-24 09:04:01,964 INFO clustering started 2016-05-24 09:04:01.965000 2016-05-24 09:04:06,168 INFO clustering done 0:00:04.204000 2016-05-24 09:04:06,168 INFO Top terms per cluster: 2016-05-24 09:04:07,563 INFO Cluster 0: ani broskev přísloví se slepicemi jednoty slovnících výkladových tělocvik ve 2016-05-24 09:04:07,563 INFO Cluster 1: cikán romové rom cikáni etnickém světě heslo označení cikánka cikánů 2016-05-24 09:04:07,563 INFO Cluster 2: ch písmena se že písmen je pro škola písmeno slabice 2016-05-24 09:04:07,563 INFO Cluster 3: je slovník se že českého academia pro kabelovna 1994 jazyka 2016-05-24 09:04:07,578 INFO Cluster 4: se je že na to by ve nebo ale za 2016-05-24 09:04:07,578 INFO Cluster 5: ceskeho slovnik spisovneho ridici ma spravne pravopisu jazyka vas piseme 2016-05-24 09:04:07,578 INFO Cluster 6: slovník slovníku jazyka slovo českého se academia spisovného je praha 2016-05-24 09:04:07,578 INFO Cluster 7: se na je jména že ve jako pro jsou za 2016-05-24 09:04:07,578 INFO Cluster 8: na se je jazyk pro že jazykové ústav český by 2016-05-24 09:04:07,578 INFO Cluster 9: prijmeni cestine vam protoze vas ze take je jmena se 2016-05-24 09:04:07,578 INFO Cluster 10: příjmení se jména je přechylování původu jmen na že češtině 2016-05-24 09:04:07,578 INFO Cluster 11: na pravopisu 1993 psaní českého pravidel ulice se pravidla ulic 2016-05-24 09:04:07,578 INFO Cluster 12: pádě čísla je jméno se množného ve tvar jména píšeme 2016-05-24 09:04:07,595 INFO Cluster 13: poradna praha jazykové jazyková český jazyk cz cas ujc pro 2016-05-24 09:04:07,595 INFO Cluster 14: písmenem se psaní je město velkým písmeno název na psát 2016-05-24 09:04:07,595 INFO Cluster 15: román dvou přihlášky kronika spojovníkem podání memoárromán psaní dohromady řeka 2016-05-24 09:04:07,595 INFO Cluster 16: pád pan vzoru se pán skloňování příjmení podle skloňujeme zakončená 2016-05-24 09:04:07,595 INFO Cluster 17: představenstva výklad ustanovení je místopředseda člena vám předsedy právní na 2016-05-24 09:04:07,595 INFO Cluster 18: veřejné slovní zásoby slov veřejný se je veřejná že lidmila