2016-05-24 09:01:56,915 INFO data prepare started 2016-05-24 09:01:56.916000
2016-05-24 09:01:57,176 INFO data prepare done 0:00:00.260000
2016-05-24 09:01:57,176 INFO vectorize started 2016-05-24 09:01:57.176000
2016-05-24 09:01:58,108 INFO vectorize done 0:00:00.933000
2016-05-24 09:01:58,108 INFO vectorizing data done with TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=50000, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True,
        stop_words=[u'.', u',', u':', u';', u'-', u'(', u')', u'"', u"'"],
        strip_accents=None, sublinear_tf=False,
        token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)
2016-05-24 09:01:58,108 INFO lsa started 2016-05-24 09:01:58.109000
2016-05-24 09:02:45,184 INFO lsa done 0:00:47.075000
2016-05-24 09:02:45,184 INFO lsa done with Pipeline(steps=[('truncatedsvd', TruncatedSVD(algorithm='randomized', n_components=1000, n_iter=5,
       random_state=None, tol=0.0)), ('normalizer', Normalizer(copy=False, norm='l2'))])
2016-05-24 09:02:45,184 INFO  
2016-05-24 09:02:45,184 INFO NUMBER OF CLUSTERS 2
2016-05-24 09:02:45,184 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=2,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:02:45,184 INFO clustering started 2016-05-24 09:02:45.184000
2016-05-24 09:02:46,927 INFO clustering done 0:00:01.744000
2016-05-24 09:02:46,927 INFO Top terms per cluster:
2016-05-24 09:02:48,795 INFO Cluster 0: poradna praha jazykové na jazyková se český je pro jazyk 
2016-05-24 09:02:48,795 INFO Cluster 1: se je na že ve to jako by pro nebo 
2016-05-24 09:02:48,795 INFO  
2016-05-24 09:02:48,795 INFO NUMBER OF CLUSTERS 3
2016-05-24 09:02:48,795 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=3,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:02:48,795 INFO clustering started 2016-05-24 09:02:48.795000
2016-05-24 09:02:50,585 INFO clustering done 0:00:01.791000
2016-05-24 09:02:50,585 INFO Top terms per cluster:
2016-05-24 09:02:52,062 INFO Cluster 0: se je na že to ve jako jména by pro 
2016-05-24 09:02:52,062 INFO Cluster 1: poradna praha jazykové se na jazyková český pro cz jazyk 
2016-05-24 09:02:52,062 INFO Cluster 2: je se na že ve nebo za vám by jako 
2016-05-24 09:02:52,062 INFO  
2016-05-24 09:02:52,062 INFO NUMBER OF CLUSTERS 4
2016-05-24 09:02:52,078 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=4,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:02:52,078 INFO clustering started 2016-05-24 09:02:52.078000
2016-05-24 09:02:54,033 INFO clustering done 0:00:01.956000
2016-05-24 09:02:54,033 INFO Top terms per cluster:
2016-05-24 09:02:55,329 INFO Cluster 0: se je že na to ve ale jako by do 
2016-05-24 09:02:55,329 INFO Cluster 1: příjmení jména se je přechylování jmen původu na češtině že 
2016-05-24 09:02:55,329 INFO Cluster 2: se je na psaní ve písmenem českého pravopisu podle že 
2016-05-24 09:02:55,329 INFO Cluster 3: poradna na praha jazykové se je jazyková český pro jazyk 
2016-05-24 09:02:55,329 INFO  
2016-05-24 09:02:55,329 INFO NUMBER OF CLUSTERS 5
2016-05-24 09:02:55,345 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=5,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:02:55,345 INFO clustering started 2016-05-24 09:02:55.330000
2016-05-24 09:02:57,772 INFO clustering done 0:00:02.442000
2016-05-24 09:02:57,772 INFO Top terms per cluster:
2016-05-24 09:02:59,042 INFO Cluster 0: pád se pane na je dnů vzoru sh od tedy 
2016-05-24 09:02:59,088 INFO Cluster 1: příjmení jména se je jmen na jméno původu že přechylování 
2016-05-24 09:02:59,088 INFO Cluster 2: psaní písmenem se na písmeno město je psát velkým pravopisu 
2016-05-24 09:02:59,088 INFO Cluster 3: se je na že ve to jako by pro nebo 
2016-05-24 09:02:59,104 INFO Cluster 4: poradna praha jazykové jazyková na český jazyk pro se cz 
2016-05-24 09:02:59,104 INFO  
2016-05-24 09:02:59,104 INFO NUMBER OF CLUSTERS 6
2016-05-24 09:02:59,104 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=6,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:02:59,104 INFO clustering started 2016-05-24 09:02:59.104000
2016-05-24 09:03:01,572 INFO clustering done 0:00:02.468000
2016-05-24 09:03:01,572 INFO Top terms per cluster:
2016-05-24 09:03:03,301 INFO Cluster 0: psaní se písmenem pravopisu na 1993 českého psát je pravidla 
2016-05-24 09:03:03,338 INFO Cluster 1: se je na že ve to jako by pro ale 
2016-05-24 09:03:03,341 INFO Cluster 2: město města písmenem je písmeno se obec název psaní názvu 
2016-05-24 09:03:03,342 INFO Cluster 3: jazykové poradna právních nemá jazyková aplikacích výklad posláním rozhodovat výhradně 
2016-05-24 09:03:03,345 INFO Cluster 4: příjmení se jména je jmen na přechylování původu pád češtině 
2016-05-24 09:03:03,346 INFO Cluster 5: poradna praha cz cas ujc na se český 531 257 
2016-05-24 09:03:03,348 INFO  
2016-05-24 09:03:03,349 INFO NUMBER OF CLUSTERS 7
2016-05-24 09:03:03,351 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=7,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:03:03,351 INFO clustering started 2016-05-24 09:03:03.351000
2016-05-24 09:03:06,382 INFO clustering done 0:00:03.032000
2016-05-24 09:03:06,382 INFO Top terms per cluster:
2016-05-24 09:03:07,674 INFO Cluster 0: ing dr zkratky se je titulů titul zkratka titulu judr 
2016-05-24 09:03:07,674 INFO Cluster 1: se je že na to by ale ve jako do 
2016-05-24 09:03:07,674 INFO Cluster 2: poradna jazykové praha jazyková český jazyk cz pro cas ujc 
2016-05-24 09:03:07,674 INFO Cluster 3: psaní písmenem se na písmeno je město velkým psát pravopisu 
2016-05-24 09:03:07,690 INFO Cluster 4: příjmení jména se je přechylování jmen původu na češtině že 
2016-05-24 09:03:07,690 INFO Cluster 5: se je slovník na slovo českého ve jako jména praha 
2016-05-24 09:03:07,690 INFO Cluster 6: je se na že nebo za ve věty jsou spojení 
2016-05-24 09:03:07,690 INFO  
2016-05-24 09:03:07,690 INFO NUMBER OF CLUSTERS 8
2016-05-24 09:03:07,690 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=8,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:03:07,690 INFO clustering started 2016-05-24 09:03:07.691000
2016-05-24 09:03:10,108 INFO clustering done 0:00:02.417000
2016-05-24 09:03:10,108 INFO Top terms per cluster:
2016-05-24 09:03:11,446 INFO Cluster 0: prijmeni nájmu se jmena ze vase knappova ve jmeno je 
2016-05-24 09:03:11,446 INFO Cluster 1: se je na že nebo ve by to za vám 
2016-05-24 09:03:11,460 INFO Cluster 2: psaní se písmenem na je psát písmeno pravopisu velkým město 
2016-05-24 09:03:11,460 INFO Cluster 3: se je na že to ve ale jako do by 
2016-05-24 09:03:11,460 INFO Cluster 4: poradna jazykové praha jazyková český jazyk na cz pro cas 
2016-05-24 09:03:11,460 INFO Cluster 5: příjmení jména se je jmen přechylování původu češtině na skloňování 
2016-05-24 09:03:11,460 INFO Cluster 6: se je slovo slovník českého slovníku česko jazyka pro na 
2016-05-24 09:03:11,460 INFO Cluster 7: ing zkratky titul dr se zkratka titulů titulu oficiální tituly 
2016-05-24 09:03:11,460 INFO  
2016-05-24 09:03:11,460 INFO NUMBER OF CLUSTERS 9
2016-05-24 09:03:11,476 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=9,
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
        verbose=True)
2016-05-24 09:03:11,476 INFO clustering started 2016-05-24 09:03:11.461000
2016-05-24 09:03:15,325 INFO clustering done 0:00:03.864000
2016-05-24 09:03:15,325 INFO Top terms per cluster:
2016-05-24 09:03:16,769 INFO Cluster 0: se je na že nebo souvětí ve to věta není 
2016-05-24 09:03:16,769 INFO Cluster 1: slovník slovníku českého se je academia jazyka praha spisovného na 
2016-05-24 09:03:16,769 INFO Cluster 2: jména se na je jméno pád jmen že ve např 
2016-05-24 09:03:16,769 INFO Cluster 3: se je že na to ve za by věty vám 
2016-05-24 09:03:16,769 INFO Cluster 4: příjmení jména se je jmen přechylování na původu že češtině 
2016-05-24 09:03:16,769 INFO Cluster 5: ze ceskeho slovnik vas je se vam jmena piseme neni 
2016-05-24 09:03:16,785 INFO Cluster 6: písmenem psaní město na písmeno se je velkým psát pravopisu 
2016-05-24 09:03:16,785 INFO Cluster 7: se je na že to jako slova pro slovo by 
2016-05-24 09:03:16,785 INFO Cluster 8: poradna jazykové praha jazyková český jazyk cz na cas pro 
2016-05-24 09:03:16,785 INFO  
2016-05-24 09:03:16,785 INFO NUMBER OF CLUSTERS 10
2016-05-24 09:03:16,785 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=10, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:16,785 INFO clustering started 2016-05-24 09:03:16.785000
2016-05-24 09:03:19,325 INFO clustering done 0:00:02.541000
2016-05-24 09:03:19,325 INFO Top terms per cluster:
2016-05-24 09:03:20,657 INFO Cluster 0: je se na praha ceskeho podle ze slovnik ve jako 
2016-05-24 09:03:20,657 INFO Cluster 1: poradna jazykové praha jazyková český jazyk cz pro cas na 
2016-05-24 09:03:20,657 INFO Cluster 2: psaní písmenem se na písmeno je velkým psát pravopisu ulice 
2016-05-24 09:03:20,657 INFO Cluster 3: se je že na slova slovo pro ve jako to 
2016-05-24 09:03:20,673 INFO Cluster 4: jazykovou zejména pod výchovu anseé se nás doporučujeme milan český 
2016-05-24 09:03:20,673 INFO Cluster 5: je se že na výklad nebo věty souvětí textu věta 
2016-05-24 09:03:20,673 INFO Cluster 6: příjmení jména je se přechylování jmen původu na že češtině 
2016-05-24 09:03:20,673 INFO Cluster 7: město města obec je se právnické osoby obce ve jménem 
2016-05-24 09:03:20,673 INFO Cluster 8: jména se na pád pane místní je tedy jmen jméno 
2016-05-24 09:03:20,673 INFO Cluster 9: se je že na to ve by jako např ale 
2016-05-24 09:03:20,673 INFO  
2016-05-24 09:03:20,673 INFO NUMBER OF CLUSTERS 11
2016-05-24 09:03:20,688 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=11, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:20,688 INFO clustering started 2016-05-24 09:03:20.689000
2016-05-24 09:03:23,747 INFO clustering done 0:00:03.059000
2016-05-24 09:03:23,747 INFO Top terms per cluster:
2016-05-24 09:03:25,065 INFO Cluster 0: jazykové poradna nemá právních výklad jazyková na výhradně český jazyk 
2016-05-24 09:03:25,082 INFO Cluster 1: ing zkratky město se společnost titulů titul dr zkratka oficiální 
2016-05-24 09:03:25,082 INFO Cluster 2: se pravopisu 1993 pád českého ve pravidel je pravidla podle 
2016-05-24 09:03:25,082 INFO Cluster 3: písmenem počátečním pane boží velkým je malým pádě píšeme jména 
2016-05-24 09:03:25,082 INFO Cluster 4: psaní na písmenem se písmeno je velkým psát ulice pravopisu 
2016-05-24 09:03:25,082 INFO Cluster 5: slovnik se je na ridici praha ze neni piseme vyraz 
2016-05-24 09:03:25,082 INFO Cluster 6: slovník jazyka českého academia slovníku se praha je spisovného slovo 
2016-05-24 09:03:25,082 INFO Cluster 7: soustředit budu čas se zadání slovesa sloveso sloves budoucí tvary 
2016-05-24 09:03:25,098 INFO Cluster 8: poradna praha se cz cas ujc na český jazyková 531 
2016-05-24 09:03:25,098 INFO Cluster 9: příjmení jména se je přechylování jmen původu naše na češtině 
2016-05-24 09:03:25,098 INFO Cluster 10: se je na že to ve by jako ale pro 
2016-05-24 09:03:25,098 INFO  
2016-05-24 09:03:25,098 INFO NUMBER OF CLUSTERS 12
2016-05-24 09:03:25,098 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=12, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:25,098 INFO clustering started 2016-05-24 09:03:25.098000
2016-05-24 09:03:28,654 INFO clustering done 0:00:03.557000
2016-05-24 09:03:28,654 INFO Top terms per cluster:
2016-05-24 09:03:30,023 INFO Cluster 0: skloňování vzoru pád skloňujeme jazykolamů bibliografickými podle pán příslušnými seznamy 
2016-05-24 09:03:30,023 INFO Cluster 1: poradna jazykové praha jazyková český jazyk na se pro cz 
2016-05-24 09:03:30,023 INFO Cluster 2: slovo se je slovník jazyka slovníku českého spisovného slova ve 
2016-05-24 09:03:30,023 INFO Cluster 3: se je na že jména slova ve slovník slov pád 
2016-05-24 09:03:30,039 INFO Cluster 4: přídavné řídicí jméno přídavná kropící vůz řídící jména měřicí veřejné 
2016-05-24 09:03:30,039 INFO Cluster 5: že je se na znamená být jsou slovesa předložit ale 
2016-05-24 09:03:30,039 INFO Cluster 6: město města obec se je obce písmenem právnické osoby ve 
2016-05-24 09:03:30,039 INFO Cluster 7: se je česko že to na ani republika by ale 
2016-05-24 09:03:30,039 INFO Cluster 8: se je na že ve to by za nebo jako 
2016-05-24 09:03:30,039 INFO Cluster 9: psaní písmenem na písmeno se pravopisu psát velkým je 1993 
2016-05-24 09:03:30,039 INFO Cluster 10: příjmení jména se je přechylování původu jmen na češtině že 
2016-05-24 09:03:30,039 INFO Cluster 11: slovnik ceskeho ze vam vas se je jmena prijmeni jmeno 
2016-05-24 09:03:30,055 INFO  
2016-05-24 09:03:30,055 INFO NUMBER OF CLUSTERS 13
2016-05-24 09:03:30,055 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=13, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:30,055 INFO clustering started 2016-05-24 09:03:30.055000
2016-05-24 09:03:34,099 INFO clustering done 0:00:04.045000
2016-05-24 09:03:34,099 INFO Top terms per cluster:
2016-05-24 09:03:35,453 INFO Cluster 0: norma 01 razeni csn 6030 vam 97 knihovna logie 0181 
2016-05-24 09:03:35,453 INFO Cluster 1: poradna praha se cz cas ujc na český jazyk jazyková 
2016-05-24 09:03:35,453 INFO Cluster 2: slově recyklace se ve do píše tvrdé styk slovech například 
2016-05-24 09:03:35,453 INFO Cluster 3: se je na že to ve jako by ale pro 
2016-05-24 09:03:35,453 INFO Cluster 4: písmenem psaní se na písmeno je město psát velkým pravopisu 
2016-05-24 09:03:35,453 INFO Cluster 5: pád vzoru příjmení jmen jména skloňování se pádě podle na 
2016-05-24 09:03:35,470 INFO Cluster 6: poradna jazykové jazyková český jazyk pro nemá na výklad praha 
2016-05-24 09:03:35,470 INFO Cluster 7: bez text mezery čárka je za zadarmo správně hned vam 
2016-05-24 09:03:35,470 INFO Cluster 8: slovník českého se slovníku je jazyka academia slovo praha spisovného 
2016-05-24 09:03:35,470 INFO Cluster 9: ze slovnik ceskeho se je vas prijmeni jmena vam neni 
2016-05-24 09:03:35,470 INFO Cluster 10: příjmení přechylování se je jména původu na češtině naše že 
2016-05-24 09:03:35,470 INFO Cluster 11: je se že věty souvětí věta na větě nebo by 
2016-05-24 09:03:35,470 INFO Cluster 12: tj se slovesa ve sto ani je předložit slovnících děj 
2016-05-24 09:03:35,486 INFO  
2016-05-24 09:03:35,486 INFO NUMBER OF CLUSTERS 14
2016-05-24 09:03:35,486 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=14, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:35,486 INFO clustering started 2016-05-24 09:03:35.486000
2016-05-24 09:03:39,177 INFO clustering done 0:00:03.692000
2016-05-24 09:03:39,177 INFO Top terms per cluster:
2016-05-24 09:03:40,549 INFO Cluster 0: prospěchem se fakulta je filozofická karlovy univerzity na ze stanoví 
2016-05-24 09:03:40,549 INFO Cluster 1: písmenem psaní na písmeno se velkým je město psát pravopisu 
2016-05-24 09:03:40,549 INFO Cluster 2: pád pádě čísla je jména se vzoru jméno na tedy 
2016-05-24 09:03:40,549 INFO Cluster 3: slova nájmu něčeho slov se slovo typ kabelovna je na 
2016-05-24 09:03:40,549 INFO Cluster 4: ing zkratky se dr zkratka titul titulů oficiální titulu inženýr 
2016-05-24 09:03:40,549 INFO Cluster 5: se je věty souvětí že na věta větě ve nebo 
2016-05-24 09:03:40,549 INFO Cluster 6: jazykové poradna právních nemá jazyková jazyk český aplikacích výklad rozhodovat 
2016-05-24 09:03:40,549 INFO Cluster 7: se je že to na by ale pro česko do 
2016-05-24 09:03:40,565 INFO Cluster 8: příjmení jména se je přechylování jmen původu češtině na že 
2016-05-24 09:03:40,565 INFO Cluster 9: přísloví ani výkladových protivy broskev slovnících rčení pacidlo nenalezli pacidla 
2016-05-24 09:03:40,565 INFO Cluster 10: se je na že ve jako pro slovník spojení např 
2016-05-24 09:03:40,565 INFO Cluster 11: se je na vám za ze ve by pravopisu že 
2016-05-24 09:03:40,565 INFO Cluster 12: představenstva výklad academia slovníku je 1989 českého slovník praha podpis 
2016-05-24 09:03:40,565 INFO Cluster 13: poradna praha cz cas ujc český jazyková 531 257 jazyk 
2016-05-24 09:03:40,565 INFO  
2016-05-24 09:03:40,565 INFO NUMBER OF CLUSTERS 15
2016-05-24 09:03:40,581 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=15, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:40,581 INFO clustering started 2016-05-24 09:03:40.581000
2016-05-24 09:03:44,776 INFO clustering done 0:00:04.195000
2016-05-24 09:03:44,776 INFO Top terms per cluster:
2016-05-24 09:03:46,148 INFO Cluster 0: na se předložka kladně do předložky spojení předložkou je předložku 
2016-05-24 09:03:46,148 INFO Cluster 1: se je že na to by ve ale jako nebo 
2016-05-24 09:03:46,148 INFO Cluster 2: slovník academia praha českého jazyka slovníku spisovného se 1989 je 
2016-05-24 09:03:46,148 INFO Cluster 3: písmenem se ing pravopisu počátečním psaní velkým pravidel je zkratky 
2016-05-24 09:03:46,148 INFO Cluster 4: se je jména na praha slovo ve jmen jsou českého 
2016-05-24 09:03:46,164 INFO Cluster 5: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 
2016-05-24 09:03:46,164 INFO Cluster 6: funkční letenské budovy je ssjč zatím výrazy se ztráta normalizovat 
2016-05-24 09:03:46,164 INFO Cluster 7: pád pane pádu vzoru se na podle je tedy skloňování 
2016-05-24 09:03:46,164 INFO Cluster 8: příjmení jména se je přechylování původu jmen na že češtině 
2016-05-24 09:03:46,164 INFO Cluster 9: poradna jazykové praha jazyková český jazyk pro cz cas ujc 
2016-05-24 09:03:46,164 INFO Cluster 10: kompetenci ochranné známky mimo slovní se písmenem zásoby dva počátečním 
2016-05-24 09:03:46,164 INFO Cluster 11: pádě je čísla rodu jméno se píšeme jména ve mužského 
2016-05-24 09:03:46,164 INFO Cluster 12: přídavná jména řídicí se jméno přídavné je ve ský např 
2016-05-24 09:03:46,180 INFO Cluster 13: psaní na ulice se písmeno ulic pravopisu písmenem je psát 
2016-05-24 09:03:46,180 INFO Cluster 14: město města obec se je písmenem ve na psaní obce 
2016-05-24 09:03:46,180 INFO  
2016-05-24 09:03:46,180 INFO NUMBER OF CLUSTERS 16
2016-05-24 09:03:46,180 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=16, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:46,180 INFO clustering started 2016-05-24 09:03:46.180000
2016-05-24 09:03:49,790 INFO clustering done 0:00:03.611000
2016-05-24 09:03:49,790 INFO Top terms per cluster:
2016-05-24 09:03:51,170 INFO Cluster 0: výklad se je na vám může není nebo že právní 
2016-05-24 09:03:51,170 INFO Cluster 1: souvětí věta je věty visutý se vedlejší že visutá na 
2016-05-24 09:03:51,170 INFO Cluster 2: se slovesa sloveso je že na ve jako do od 
2016-05-24 09:03:51,170 INFO Cluster 3: poradna se na praha je cz pro cas ujc český 
2016-05-24 09:03:51,170 INFO Cluster 4: psaní písmenem se je na písmeno velkým název psát že 
2016-05-24 09:03:51,186 INFO Cluster 5: jména místní ský se na jmen čechách je místního místních 
2016-05-24 09:03:51,186 INFO Cluster 6: poradna jazykové jazyková český jazyk praha pro cz cas ústav 
2016-05-24 09:03:51,186 INFO Cluster 7: slovník se je slovníku academia českého jazyka praha slovo spisovného 
2016-05-24 09:03:51,186 INFO Cluster 8: příjmení jména se je přechylování původu na jmen že češtině 
2016-05-24 09:03:51,186 INFO Cluster 9: ceskeho ze slovnik vam se je vas prijmeni jmena piseme 
2016-05-24 09:03:51,186 INFO Cluster 10: pravopisu 1993 českého pravidel pravidla ulice se ulic na psát 
2016-05-24 09:03:51,186 INFO Cluster 11: ředitel sběratel řiditel ie změnilo sběračka řídí dokladovat kdybychom řiediti 
2016-05-24 09:03:51,186 INFO Cluster 12: město obec města právnické osoby obce psaní se je názvu 
2016-05-24 09:03:51,200 INFO Cluster 13: pád pádě čísla jméno se vzoru je pane tedy na 
2016-05-24 09:03:51,200 INFO Cluster 14: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 
2016-05-24 09:03:51,200 INFO Cluster 15: se je že na to by ve za ale jako 
2016-05-24 09:03:51,200 INFO  
2016-05-24 09:03:51,200 INFO NUMBER OF CLUSTERS 17
2016-05-24 09:03:51,200 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=17, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:51,200 INFO clustering started 2016-05-24 09:03:51.201000
2016-05-24 09:03:54,937 INFO clustering done 0:00:03.736000
2016-05-24 09:03:54,937 INFO Top terms per cluster:
2016-05-24 09:03:56,335 INFO Cluster 0: na si 2011 se mailové poradna internetu odpověď dotazy cz 
2016-05-24 09:03:56,335 INFO Cluster 1: 01 se čsn norma písemností úprava strojem editory textovými zpracovaných 
2016-05-24 09:03:56,335 INFO Cluster 2: se je na že ve to by jako ale pro 
2016-05-24 09:03:56,335 INFO Cluster 3: psaní písmenem se písmeno velkým je psát počátečním malým písmen 
2016-05-24 09:03:56,335 INFO Cluster 4: pád pane oslovení pádem se pádu oslovování na je že 
2016-05-24 09:03:56,335 INFO Cluster 5: jazykové poradna právních nemá jazyková výklad výhradně aplikacích smluv dohod 
2016-05-24 09:03:56,351 INFO Cluster 6: ing zkratky titulů dr titul titulu se oficiální tituly zkratka 
2016-05-24 09:03:56,351 INFO Cluster 7: představenstva společnost závod kabelovna zvu názvu se je místopředseda text 
2016-05-24 09:03:56,351 INFO Cluster 8: poradna praha cz cas český ujc oddělení ústav jazykové 118 
2016-05-24 09:03:56,351 INFO Cluster 9: česko republika název je český názvu se pro postoje pojmenování 
2016-05-24 09:03:56,351 INFO Cluster 10: českého slovník jazyka academia se spisovného praha je slovníku podle 
2016-05-24 09:03:56,351 INFO Cluster 11: na ulice ulic se psaní pravopisu předložce skalce bukovině názvech 
2016-05-24 09:03:56,351 INFO Cluster 12: století léta devadesát se přísloví desetiletí 19 výslovnost na občan 
2016-05-24 09:03:56,367 INFO Cluster 13: město obec právnické osoby města obce je názvu se vlastního 
2016-05-24 09:03:56,367 INFO Cluster 14: příjmení jména se přechylování je původu jmen na češtině skloňování 
2016-05-24 09:03:56,367 INFO Cluster 15: slova se je že jsou to slov slovo ale na 
2016-05-24 09:03:56,367 INFO Cluster 16: se je slov slovníku na slova významu výrazu slovník veřejné 
2016-05-24 09:03:56,367 INFO  
2016-05-24 09:03:56,367 INFO NUMBER OF CLUSTERS 18
2016-05-24 09:03:56,367 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=18, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:03:56,367 INFO clustering started 2016-05-24 09:03:56.367000
2016-05-24 09:04:00,539 INFO clustering done 0:00:04.173000
2016-05-24 09:04:00,539 INFO Top terms per cluster:
2016-05-24 09:04:01,934 INFO Cluster 0: obchod 2000 zbožím druhé natura lidmila být straně vazba že 
2016-05-24 09:04:01,934 INFO Cluster 1: na je se pro jazyk že dopis jazykové český praha 
2016-05-24 09:04:01,934 INFO Cluster 2: ulice na bukovině ulic skalce psaní předložce názvech písmenem pravopisu 
2016-05-24 09:04:01,934 INFO Cluster 3: že slovesa na se je může předložit 2003 být sloveso 
2016-05-24 09:04:01,934 INFO Cluster 4: světlo muzete přístup by jazykova se parcely farmou že volný 
2016-05-24 09:04:01,934 INFO Cluster 5: se je že na ve to jako pro by nebo 
2016-05-24 09:04:01,934 INFO Cluster 6: ze slovnik ceskeho vas je se vam jmena prijmeni neni 
2016-05-24 09:04:01,948 INFO Cluster 7: pád pane pádu se pádem vzoru je oslovení na oslovování 
2016-05-24 09:04:01,948 INFO Cluster 8: poradna jazykové praha jazyková český jazyk pro cz cas ujc 
2016-05-24 09:04:01,948 INFO Cluster 9: psaní písmen písmenem velkých správa velkým počátečním pravopisu boží země 
2016-05-24 09:04:01,948 INFO Cluster 10: závod ředitelství závodu oblastní kabelovna střední dodavatelsko čechy závodem radotín 
2016-05-24 09:04:01,948 INFO Cluster 11: příjmení se jména přechylování je původu jmen na češtině např 
2016-05-24 09:04:01,948 INFO Cluster 12: se město písmenem psaní je písmeno na psát města velkým 
2016-05-24 09:04:01,948 INFO Cluster 13: daně správce období subjekt se že je účetnictví daňový za 
2016-05-24 09:04:01,964 INFO Cluster 14: řídicí přídavná měřicí řídící kropící přístroj vůz jména měřící vyjadřují 
2016-05-24 09:04:01,964 INFO Cluster 15: vám se vaší přečetla je děkujeme jsem slepicemi báseň zájmem 
2016-05-24 09:04:01,964 INFO Cluster 16: 1993 pravopisu českého pravidel praha za podle academia vydání se 
2016-05-24 09:04:01,964 INFO Cluster 17: schválení smlouvy by okresním požadavku úřadem výpovědí nový že rok 
2016-05-24 09:04:01,964 INFO  
2016-05-24 09:04:01,964 INFO NUMBER OF CLUSTERS 19
2016-05-24 09:04:01,964 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
        init_size=1000, max_iter=1000, max_no_improvement=10,
        n_clusters=19, n_init=20, random_state=None,
        reassignment_ratio=0.1, tol=0.0, verbose=True)
2016-05-24 09:04:01,964 INFO clustering started 2016-05-24 09:04:01.965000
2016-05-24 09:04:06,168 INFO clustering done 0:00:04.204000
2016-05-24 09:04:06,168 INFO Top terms per cluster:
2016-05-24 09:04:07,563 INFO Cluster 0: ani broskev přísloví se slepicemi jednoty slovnících výkladových tělocvik ve 
2016-05-24 09:04:07,563 INFO Cluster 1: cikán romové rom cikáni etnickém světě heslo označení cikánka cikánů 
2016-05-24 09:04:07,563 INFO Cluster 2: ch písmena se že písmen je pro škola písmeno slabice 
2016-05-24 09:04:07,563 INFO Cluster 3: je slovník se že českého academia pro kabelovna 1994 jazyka 
2016-05-24 09:04:07,578 INFO Cluster 4: se je že na to by ve nebo ale za 
2016-05-24 09:04:07,578 INFO Cluster 5: ceskeho slovnik spisovneho ridici ma spravne pravopisu jazyka vas piseme 
2016-05-24 09:04:07,578 INFO Cluster 6: slovník slovníku jazyka slovo českého se academia spisovného je praha 
2016-05-24 09:04:07,578 INFO Cluster 7: se na je jména že ve jako pro jsou za 
2016-05-24 09:04:07,578 INFO Cluster 8: na se je jazyk pro že jazykové ústav český by 
2016-05-24 09:04:07,578 INFO Cluster 9: prijmeni cestine vam protoze vas ze take je jmena se 
2016-05-24 09:04:07,578 INFO Cluster 10: příjmení se jména je přechylování původu jmen na že češtině 
2016-05-24 09:04:07,578 INFO Cluster 11: na pravopisu 1993 psaní českého pravidel ulice se pravidla ulic 
2016-05-24 09:04:07,578 INFO Cluster 12: pádě čísla je jméno se množného ve tvar jména píšeme 
2016-05-24 09:04:07,595 INFO Cluster 13: poradna praha jazykové jazyková český jazyk cz cas ujc pro 
2016-05-24 09:04:07,595 INFO Cluster 14: písmenem se psaní je město velkým písmeno název na psát 
2016-05-24 09:04:07,595 INFO Cluster 15: román dvou přihlášky kronika spojovníkem podání memoárromán psaní dohromady řeka 
2016-05-24 09:04:07,595 INFO Cluster 16: pád pan vzoru se pán skloňování příjmení podle skloňujeme zakončená 
2016-05-24 09:04:07,595 INFO Cluster 17: představenstva výklad ustanovení je místopředseda člena vám předsedy právní na 
2016-05-24 09:04:07,595 INFO Cluster 18: veřejné slovní zásoby slov veřejný se je veřejná že lidmila