Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Task #3707 » kmeans.log

log s výpisy top slov v každém clusteru, výpis pro různý počet clusterů - Skorkovská Lucie, 24.05.2016 09:30

 
1
2016-05-24 09:01:56,915 INFO data prepare started 2016-05-24 09:01:56.916000
2
2016-05-24 09:01:57,176 INFO data prepare done 0:00:00.260000
3
2016-05-24 09:01:57,176 INFO vectorize started 2016-05-24 09:01:57.176000
4
2016-05-24 09:01:58,108 INFO vectorize done 0:00:00.933000
5
2016-05-24 09:01:58,108 INFO vectorizing data done with TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
6
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
7
        lowercase=True, max_df=1.0, max_features=50000, min_df=1,
8
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True,
9
        stop_words=[u'.', u',', u':', u';', u'-', u'(', u')', u'"', u"'"],
10
        strip_accents=None, sublinear_tf=False,
11
        token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
12
        vocabulary=None)
13
2016-05-24 09:01:58,108 INFO lsa started 2016-05-24 09:01:58.109000
14
2016-05-24 09:02:45,184 INFO lsa done 0:00:47.075000
15
2016-05-24 09:02:45,184 INFO lsa done with Pipeline(steps=[('truncatedsvd', TruncatedSVD(algorithm='randomized', n_components=1000, n_iter=5,
16
       random_state=None, tol=0.0)), ('normalizer', Normalizer(copy=False, norm='l2'))])
17
2016-05-24 09:02:45,184 INFO  
18
2016-05-24 09:02:45,184 INFO NUMBER OF CLUSTERS 2
19
2016-05-24 09:02:45,184 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
20
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=2,
21
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
22
        verbose=True)
23
2016-05-24 09:02:45,184 INFO clustering started 2016-05-24 09:02:45.184000
24
2016-05-24 09:02:46,927 INFO clustering done 0:00:01.744000
25
2016-05-24 09:02:46,927 INFO Top terms per cluster:
26
2016-05-24 09:02:48,795 INFO Cluster 0: poradna praha jazykové na jazyková se český je pro jazyk 
27
2016-05-24 09:02:48,795 INFO Cluster 1: se je na že ve to jako by pro nebo 
28
2016-05-24 09:02:48,795 INFO  
29
2016-05-24 09:02:48,795 INFO NUMBER OF CLUSTERS 3
30
2016-05-24 09:02:48,795 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
31
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=3,
32
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
33
        verbose=True)
34
2016-05-24 09:02:48,795 INFO clustering started 2016-05-24 09:02:48.795000
35
2016-05-24 09:02:50,585 INFO clustering done 0:00:01.791000
36
2016-05-24 09:02:50,585 INFO Top terms per cluster:
37
2016-05-24 09:02:52,062 INFO Cluster 0: se je na že to ve jako jména by pro 
38
2016-05-24 09:02:52,062 INFO Cluster 1: poradna praha jazykové se na jazyková český pro cz jazyk 
39
2016-05-24 09:02:52,062 INFO Cluster 2: je se na že ve nebo za vám by jako 
40
2016-05-24 09:02:52,062 INFO  
41
2016-05-24 09:02:52,062 INFO NUMBER OF CLUSTERS 4
42
2016-05-24 09:02:52,078 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
43
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=4,
44
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
45
        verbose=True)
46
2016-05-24 09:02:52,078 INFO clustering started 2016-05-24 09:02:52.078000
47
2016-05-24 09:02:54,033 INFO clustering done 0:00:01.956000
48
2016-05-24 09:02:54,033 INFO Top terms per cluster:
49
2016-05-24 09:02:55,329 INFO Cluster 0: se je že na to ve ale jako by do 
50
2016-05-24 09:02:55,329 INFO Cluster 1: příjmení jména se je přechylování jmen původu na češtině že 
51
2016-05-24 09:02:55,329 INFO Cluster 2: se je na psaní ve písmenem českého pravopisu podle že 
52
2016-05-24 09:02:55,329 INFO Cluster 3: poradna na praha jazykové se je jazyková český pro jazyk 
53
2016-05-24 09:02:55,329 INFO  
54
2016-05-24 09:02:55,329 INFO NUMBER OF CLUSTERS 5
55
2016-05-24 09:02:55,345 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
56
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=5,
57
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
58
        verbose=True)
59
2016-05-24 09:02:55,345 INFO clustering started 2016-05-24 09:02:55.330000
60
2016-05-24 09:02:57,772 INFO clustering done 0:00:02.442000
61
2016-05-24 09:02:57,772 INFO Top terms per cluster:
62
2016-05-24 09:02:59,042 INFO Cluster 0: pád se pane na je dnů vzoru sh od tedy 
63
2016-05-24 09:02:59,088 INFO Cluster 1: příjmení jména se je jmen na jméno původu že přechylování 
64
2016-05-24 09:02:59,088 INFO Cluster 2: psaní písmenem se na písmeno město je psát velkým pravopisu 
65
2016-05-24 09:02:59,088 INFO Cluster 3: se je na že ve to jako by pro nebo 
66
2016-05-24 09:02:59,104 INFO Cluster 4: poradna praha jazykové jazyková na český jazyk pro se cz 
67
2016-05-24 09:02:59,104 INFO  
68
2016-05-24 09:02:59,104 INFO NUMBER OF CLUSTERS 6
69
2016-05-24 09:02:59,104 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
70
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=6,
71
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
72
        verbose=True)
73
2016-05-24 09:02:59,104 INFO clustering started 2016-05-24 09:02:59.104000
74
2016-05-24 09:03:01,572 INFO clustering done 0:00:02.468000
75
2016-05-24 09:03:01,572 INFO Top terms per cluster:
76
2016-05-24 09:03:03,301 INFO Cluster 0: psaní se písmenem pravopisu na 1993 českého psát je pravidla 
77
2016-05-24 09:03:03,338 INFO Cluster 1: se je na že ve to jako by pro ale 
78
2016-05-24 09:03:03,341 INFO Cluster 2: město města písmenem je písmeno se obec název psaní názvu 
79
2016-05-24 09:03:03,342 INFO Cluster 3: jazykové poradna právních nemá jazyková aplikacích výklad posláním rozhodovat výhradně 
80
2016-05-24 09:03:03,345 INFO Cluster 4: příjmení se jména je jmen na přechylování původu pád češtině 
81
2016-05-24 09:03:03,346 INFO Cluster 5: poradna praha cz cas ujc na se český 531 257 
82
2016-05-24 09:03:03,348 INFO  
83
2016-05-24 09:03:03,349 INFO NUMBER OF CLUSTERS 7
84
2016-05-24 09:03:03,351 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
85
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=7,
86
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
87
        verbose=True)
88
2016-05-24 09:03:03,351 INFO clustering started 2016-05-24 09:03:03.351000
89
2016-05-24 09:03:06,382 INFO clustering done 0:00:03.032000
90
2016-05-24 09:03:06,382 INFO Top terms per cluster:
91
2016-05-24 09:03:07,674 INFO Cluster 0: ing dr zkratky se je titulů titul zkratka titulu judr 
92
2016-05-24 09:03:07,674 INFO Cluster 1: se je že na to by ale ve jako do 
93
2016-05-24 09:03:07,674 INFO Cluster 2: poradna jazykové praha jazyková český jazyk cz pro cas ujc 
94
2016-05-24 09:03:07,674 INFO Cluster 3: psaní písmenem se na písmeno je město velkým psát pravopisu 
95
2016-05-24 09:03:07,690 INFO Cluster 4: příjmení jména se je přechylování jmen původu na češtině že 
96
2016-05-24 09:03:07,690 INFO Cluster 5: se je slovník na slovo českého ve jako jména praha 
97
2016-05-24 09:03:07,690 INFO Cluster 6: je se na že nebo za ve věty jsou spojení 
98
2016-05-24 09:03:07,690 INFO  
99
2016-05-24 09:03:07,690 INFO NUMBER OF CLUSTERS 8
100
2016-05-24 09:03:07,690 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
101
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=8,
102
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
103
        verbose=True)
104
2016-05-24 09:03:07,690 INFO clustering started 2016-05-24 09:03:07.691000
105
2016-05-24 09:03:10,108 INFO clustering done 0:00:02.417000
106
2016-05-24 09:03:10,108 INFO Top terms per cluster:
107
2016-05-24 09:03:11,446 INFO Cluster 0: prijmeni nájmu se jmena ze vase knappova ve jmeno je 
108
2016-05-24 09:03:11,446 INFO Cluster 1: se je na že nebo ve by to za vám 
109
2016-05-24 09:03:11,460 INFO Cluster 2: psaní se písmenem na je psát písmeno pravopisu velkým město 
110
2016-05-24 09:03:11,460 INFO Cluster 3: se je na že to ve ale jako do by 
111
2016-05-24 09:03:11,460 INFO Cluster 4: poradna jazykové praha jazyková český jazyk na cz pro cas 
112
2016-05-24 09:03:11,460 INFO Cluster 5: příjmení jména se je jmen přechylování původu češtině na skloňování 
113
2016-05-24 09:03:11,460 INFO Cluster 6: se je slovo slovník českého slovníku česko jazyka pro na 
114
2016-05-24 09:03:11,460 INFO Cluster 7: ing zkratky titul dr se zkratka titulů titulu oficiální tituly 
115
2016-05-24 09:03:11,460 INFO  
116
2016-05-24 09:03:11,460 INFO NUMBER OF CLUSTERS 9
117
2016-05-24 09:03:11,476 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
118
        init_size=1000, max_iter=1000, max_no_improvement=10, n_clusters=9,
119
        n_init=20, random_state=None, reassignment_ratio=0.1, tol=0.0,
120
        verbose=True)
121
2016-05-24 09:03:11,476 INFO clustering started 2016-05-24 09:03:11.461000
122
2016-05-24 09:03:15,325 INFO clustering done 0:00:03.864000
123
2016-05-24 09:03:15,325 INFO Top terms per cluster:
124
2016-05-24 09:03:16,769 INFO Cluster 0: se je na že nebo souvětí ve to věta není 
125
2016-05-24 09:03:16,769 INFO Cluster 1: slovník slovníku českého se je academia jazyka praha spisovného na 
126
2016-05-24 09:03:16,769 INFO Cluster 2: jména se na je jméno pád jmen že ve např 
127
2016-05-24 09:03:16,769 INFO Cluster 3: se je že na to ve za by věty vám 
128
2016-05-24 09:03:16,769 INFO Cluster 4: příjmení jména se je jmen přechylování na původu že češtině 
129
2016-05-24 09:03:16,769 INFO Cluster 5: ze ceskeho slovnik vas je se vam jmena piseme neni 
130
2016-05-24 09:03:16,785 INFO Cluster 6: písmenem psaní město na písmeno se je velkým psát pravopisu 
131
2016-05-24 09:03:16,785 INFO Cluster 7: se je na že to jako slova pro slovo by 
132
2016-05-24 09:03:16,785 INFO Cluster 8: poradna jazykové praha jazyková český jazyk cz na cas pro 
133
2016-05-24 09:03:16,785 INFO  
134
2016-05-24 09:03:16,785 INFO NUMBER OF CLUSTERS 10
135
2016-05-24 09:03:16,785 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
136
        init_size=1000, max_iter=1000, max_no_improvement=10,
137
        n_clusters=10, n_init=20, random_state=None,
138
        reassignment_ratio=0.1, tol=0.0, verbose=True)
139
2016-05-24 09:03:16,785 INFO clustering started 2016-05-24 09:03:16.785000
140
2016-05-24 09:03:19,325 INFO clustering done 0:00:02.541000
141
2016-05-24 09:03:19,325 INFO Top terms per cluster:
142
2016-05-24 09:03:20,657 INFO Cluster 0: je se na praha ceskeho podle ze slovnik ve jako 
143
2016-05-24 09:03:20,657 INFO Cluster 1: poradna jazykové praha jazyková český jazyk cz pro cas na 
144
2016-05-24 09:03:20,657 INFO Cluster 2: psaní písmenem se na písmeno je velkým psát pravopisu ulice 
145
2016-05-24 09:03:20,657 INFO Cluster 3: se je že na slova slovo pro ve jako to 
146
2016-05-24 09:03:20,673 INFO Cluster 4: jazykovou zejména pod výchovu anseé se nás doporučujeme milan český 
147
2016-05-24 09:03:20,673 INFO Cluster 5: je se že na výklad nebo věty souvětí textu věta 
148
2016-05-24 09:03:20,673 INFO Cluster 6: příjmení jména je se přechylování jmen původu na že češtině 
149
2016-05-24 09:03:20,673 INFO Cluster 7: město města obec je se právnické osoby obce ve jménem 
150
2016-05-24 09:03:20,673 INFO Cluster 8: jména se na pád pane místní je tedy jmen jméno 
151
2016-05-24 09:03:20,673 INFO Cluster 9: se je že na to ve by jako např ale 
152
2016-05-24 09:03:20,673 INFO  
153
2016-05-24 09:03:20,673 INFO NUMBER OF CLUSTERS 11
154
2016-05-24 09:03:20,688 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
155
        init_size=1000, max_iter=1000, max_no_improvement=10,
156
        n_clusters=11, n_init=20, random_state=None,
157
        reassignment_ratio=0.1, tol=0.0, verbose=True)
158
2016-05-24 09:03:20,688 INFO clustering started 2016-05-24 09:03:20.689000
159
2016-05-24 09:03:23,747 INFO clustering done 0:00:03.059000
160
2016-05-24 09:03:23,747 INFO Top terms per cluster:
161
2016-05-24 09:03:25,065 INFO Cluster 0: jazykové poradna nemá právních výklad jazyková na výhradně český jazyk 
162
2016-05-24 09:03:25,082 INFO Cluster 1: ing zkratky město se společnost titulů titul dr zkratka oficiální 
163
2016-05-24 09:03:25,082 INFO Cluster 2: se pravopisu 1993 pád českého ve pravidel je pravidla podle 
164
2016-05-24 09:03:25,082 INFO Cluster 3: písmenem počátečním pane boží velkým je malým pádě píšeme jména 
165
2016-05-24 09:03:25,082 INFO Cluster 4: psaní na písmenem se písmeno je velkým psát ulice pravopisu 
166
2016-05-24 09:03:25,082 INFO Cluster 5: slovnik se je na ridici praha ze neni piseme vyraz 
167
2016-05-24 09:03:25,082 INFO Cluster 6: slovník jazyka českého academia slovníku se praha je spisovného slovo 
168
2016-05-24 09:03:25,082 INFO Cluster 7: soustředit budu čas se zadání slovesa sloveso sloves budoucí tvary 
169
2016-05-24 09:03:25,098 INFO Cluster 8: poradna praha se cz cas ujc na český jazyková 531 
170
2016-05-24 09:03:25,098 INFO Cluster 9: příjmení jména se je přechylování jmen původu naše na češtině 
171
2016-05-24 09:03:25,098 INFO Cluster 10: se je na že to ve by jako ale pro 
172
2016-05-24 09:03:25,098 INFO  
173
2016-05-24 09:03:25,098 INFO NUMBER OF CLUSTERS 12
174
2016-05-24 09:03:25,098 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
175
        init_size=1000, max_iter=1000, max_no_improvement=10,
176
        n_clusters=12, n_init=20, random_state=None,
177
        reassignment_ratio=0.1, tol=0.0, verbose=True)
178
2016-05-24 09:03:25,098 INFO clustering started 2016-05-24 09:03:25.098000
179
2016-05-24 09:03:28,654 INFO clustering done 0:00:03.557000
180
2016-05-24 09:03:28,654 INFO Top terms per cluster:
181
2016-05-24 09:03:30,023 INFO Cluster 0: skloňování vzoru pád skloňujeme jazykolamů bibliografickými podle pán příslušnými seznamy 
182
2016-05-24 09:03:30,023 INFO Cluster 1: poradna jazykové praha jazyková český jazyk na se pro cz 
183
2016-05-24 09:03:30,023 INFO Cluster 2: slovo se je slovník jazyka slovníku českého spisovného slova ve 
184
2016-05-24 09:03:30,023 INFO Cluster 3: se je na že jména slova ve slovník slov pád 
185
2016-05-24 09:03:30,039 INFO Cluster 4: přídavné řídicí jméno přídavná kropící vůz řídící jména měřicí veřejné 
186
2016-05-24 09:03:30,039 INFO Cluster 5: že je se na znamená být jsou slovesa předložit ale 
187
2016-05-24 09:03:30,039 INFO Cluster 6: město města obec se je obce písmenem právnické osoby ve 
188
2016-05-24 09:03:30,039 INFO Cluster 7: se je česko že to na ani republika by ale 
189
2016-05-24 09:03:30,039 INFO Cluster 8: se je na že ve to by za nebo jako 
190
2016-05-24 09:03:30,039 INFO Cluster 9: psaní písmenem na písmeno se pravopisu psát velkým je 1993 
191
2016-05-24 09:03:30,039 INFO Cluster 10: příjmení jména se je přechylování původu jmen na češtině že 
192
2016-05-24 09:03:30,039 INFO Cluster 11: slovnik ceskeho ze vam vas se je jmena prijmeni jmeno 
193
2016-05-24 09:03:30,055 INFO  
194
2016-05-24 09:03:30,055 INFO NUMBER OF CLUSTERS 13
195
2016-05-24 09:03:30,055 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
196
        init_size=1000, max_iter=1000, max_no_improvement=10,
197
        n_clusters=13, n_init=20, random_state=None,
198
        reassignment_ratio=0.1, tol=0.0, verbose=True)
199
2016-05-24 09:03:30,055 INFO clustering started 2016-05-24 09:03:30.055000
200
2016-05-24 09:03:34,099 INFO clustering done 0:00:04.045000
201
2016-05-24 09:03:34,099 INFO Top terms per cluster:
202
2016-05-24 09:03:35,453 INFO Cluster 0: norma 01 razeni csn 6030 vam 97 knihovna logie 0181 
203
2016-05-24 09:03:35,453 INFO Cluster 1: poradna praha se cz cas ujc na český jazyk jazyková 
204
2016-05-24 09:03:35,453 INFO Cluster 2: slově recyklace se ve do píše tvrdé styk slovech například 
205
2016-05-24 09:03:35,453 INFO Cluster 3: se je na že to ve jako by ale pro 
206
2016-05-24 09:03:35,453 INFO Cluster 4: písmenem psaní se na písmeno je město psát velkým pravopisu 
207
2016-05-24 09:03:35,453 INFO Cluster 5: pád vzoru příjmení jmen jména skloňování se pádě podle na 
208
2016-05-24 09:03:35,470 INFO Cluster 6: poradna jazykové jazyková český jazyk pro nemá na výklad praha 
209
2016-05-24 09:03:35,470 INFO Cluster 7: bez text mezery čárka je za zadarmo správně hned vam 
210
2016-05-24 09:03:35,470 INFO Cluster 8: slovník českého se slovníku je jazyka academia slovo praha spisovného 
211
2016-05-24 09:03:35,470 INFO Cluster 9: ze slovnik ceskeho se je vas prijmeni jmena vam neni 
212
2016-05-24 09:03:35,470 INFO Cluster 10: příjmení přechylování se je jména původu na češtině naše že 
213
2016-05-24 09:03:35,470 INFO Cluster 11: je se že věty souvětí věta na větě nebo by 
214
2016-05-24 09:03:35,470 INFO Cluster 12: tj se slovesa ve sto ani je předložit slovnících děj 
215
2016-05-24 09:03:35,486 INFO  
216
2016-05-24 09:03:35,486 INFO NUMBER OF CLUSTERS 14
217
2016-05-24 09:03:35,486 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
218
        init_size=1000, max_iter=1000, max_no_improvement=10,
219
        n_clusters=14, n_init=20, random_state=None,
220
        reassignment_ratio=0.1, tol=0.0, verbose=True)
221
2016-05-24 09:03:35,486 INFO clustering started 2016-05-24 09:03:35.486000
222
2016-05-24 09:03:39,177 INFO clustering done 0:00:03.692000
223
2016-05-24 09:03:39,177 INFO Top terms per cluster:
224
2016-05-24 09:03:40,549 INFO Cluster 0: prospěchem se fakulta je filozofická karlovy univerzity na ze stanoví 
225
2016-05-24 09:03:40,549 INFO Cluster 1: písmenem psaní na písmeno se velkým je město psát pravopisu 
226
2016-05-24 09:03:40,549 INFO Cluster 2: pád pádě čísla je jména se vzoru jméno na tedy 
227
2016-05-24 09:03:40,549 INFO Cluster 3: slova nájmu něčeho slov se slovo typ kabelovna je na 
228
2016-05-24 09:03:40,549 INFO Cluster 4: ing zkratky se dr zkratka titul titulů oficiální titulu inženýr 
229
2016-05-24 09:03:40,549 INFO Cluster 5: se je věty souvětí že na věta větě ve nebo 
230
2016-05-24 09:03:40,549 INFO Cluster 6: jazykové poradna právních nemá jazyková jazyk český aplikacích výklad rozhodovat 
231
2016-05-24 09:03:40,549 INFO Cluster 7: se je že to na by ale pro česko do 
232
2016-05-24 09:03:40,565 INFO Cluster 8: příjmení jména se je přechylování jmen původu češtině na že 
233
2016-05-24 09:03:40,565 INFO Cluster 9: přísloví ani výkladových protivy broskev slovnících rčení pacidlo nenalezli pacidla 
234
2016-05-24 09:03:40,565 INFO Cluster 10: se je na že ve jako pro slovník spojení např 
235
2016-05-24 09:03:40,565 INFO Cluster 11: se je na vám za ze ve by pravopisu že 
236
2016-05-24 09:03:40,565 INFO Cluster 12: představenstva výklad academia slovníku je 1989 českého slovník praha podpis 
237
2016-05-24 09:03:40,565 INFO Cluster 13: poradna praha cz cas ujc český jazyková 531 257 jazyk 
238
2016-05-24 09:03:40,565 INFO  
239
2016-05-24 09:03:40,565 INFO NUMBER OF CLUSTERS 15
240
2016-05-24 09:03:40,581 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
241
        init_size=1000, max_iter=1000, max_no_improvement=10,
242
        n_clusters=15, n_init=20, random_state=None,
243
        reassignment_ratio=0.1, tol=0.0, verbose=True)
244
2016-05-24 09:03:40,581 INFO clustering started 2016-05-24 09:03:40.581000
245
2016-05-24 09:03:44,776 INFO clustering done 0:00:04.195000
246
2016-05-24 09:03:44,776 INFO Top terms per cluster:
247
2016-05-24 09:03:46,148 INFO Cluster 0: na se předložka kladně do předložky spojení předložkou je předložku 
248
2016-05-24 09:03:46,148 INFO Cluster 1: se je že na to by ve ale jako nebo 
249
2016-05-24 09:03:46,148 INFO Cluster 2: slovník academia praha českého jazyka slovníku spisovného se 1989 je 
250
2016-05-24 09:03:46,148 INFO Cluster 3: písmenem se ing pravopisu počátečním psaní velkým pravidel je zkratky 
251
2016-05-24 09:03:46,148 INFO Cluster 4: se je jména na praha slovo ve jmen jsou českého 
252
2016-05-24 09:03:46,164 INFO Cluster 5: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 
253
2016-05-24 09:03:46,164 INFO Cluster 6: funkční letenské budovy je ssjč zatím výrazy se ztráta normalizovat 
254
2016-05-24 09:03:46,164 INFO Cluster 7: pád pane pádu vzoru se na podle je tedy skloňování 
255
2016-05-24 09:03:46,164 INFO Cluster 8: příjmení jména se je přechylování původu jmen na že češtině 
256
2016-05-24 09:03:46,164 INFO Cluster 9: poradna jazykové praha jazyková český jazyk pro cz cas ujc 
257
2016-05-24 09:03:46,164 INFO Cluster 10: kompetenci ochranné známky mimo slovní se písmenem zásoby dva počátečním 
258
2016-05-24 09:03:46,164 INFO Cluster 11: pádě je čísla rodu jméno se píšeme jména ve mužského 
259
2016-05-24 09:03:46,164 INFO Cluster 12: přídavná jména řídicí se jméno přídavné je ve ský např 
260
2016-05-24 09:03:46,180 INFO Cluster 13: psaní na ulice se písmeno ulic pravopisu písmenem je psát 
261
2016-05-24 09:03:46,180 INFO Cluster 14: město města obec se je písmenem ve na psaní obce 
262
2016-05-24 09:03:46,180 INFO  
263
2016-05-24 09:03:46,180 INFO NUMBER OF CLUSTERS 16
264
2016-05-24 09:03:46,180 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
265
        init_size=1000, max_iter=1000, max_no_improvement=10,
266
        n_clusters=16, n_init=20, random_state=None,
267
        reassignment_ratio=0.1, tol=0.0, verbose=True)
268
2016-05-24 09:03:46,180 INFO clustering started 2016-05-24 09:03:46.180000
269
2016-05-24 09:03:49,790 INFO clustering done 0:00:03.611000
270
2016-05-24 09:03:49,790 INFO Top terms per cluster:
271
2016-05-24 09:03:51,170 INFO Cluster 0: výklad se je na vám může není nebo že právní 
272
2016-05-24 09:03:51,170 INFO Cluster 1: souvětí věta je věty visutý se vedlejší že visutá na 
273
2016-05-24 09:03:51,170 INFO Cluster 2: se slovesa sloveso je že na ve jako do od 
274
2016-05-24 09:03:51,170 INFO Cluster 3: poradna se na praha je cz pro cas ujc český 
275
2016-05-24 09:03:51,170 INFO Cluster 4: psaní písmenem se je na písmeno velkým název psát že 
276
2016-05-24 09:03:51,186 INFO Cluster 5: jména místní ský se na jmen čechách je místního místních 
277
2016-05-24 09:03:51,186 INFO Cluster 6: poradna jazykové jazyková český jazyk praha pro cz cas ústav 
278
2016-05-24 09:03:51,186 INFO Cluster 7: slovník se je slovníku academia českého jazyka praha slovo spisovného 
279
2016-05-24 09:03:51,186 INFO Cluster 8: příjmení jména se je přechylování původu na jmen že češtině 
280
2016-05-24 09:03:51,186 INFO Cluster 9: ceskeho ze slovnik vam se je vas prijmeni jmena piseme 
281
2016-05-24 09:03:51,186 INFO Cluster 10: pravopisu 1993 českého pravidel pravidla ulice se ulic na psát 
282
2016-05-24 09:03:51,186 INFO Cluster 11: ředitel sběratel řiditel ie změnilo sběračka řídí dokladovat kdybychom řiediti 
283
2016-05-24 09:03:51,186 INFO Cluster 12: město obec města právnické osoby obce psaní se je názvu 
284
2016-05-24 09:03:51,200 INFO Cluster 13: pád pádě čísla jméno se vzoru je pane tedy na 
285
2016-05-24 09:03:51,200 INFO Cluster 14: představenstva místopředseda člena předsedy zapotřebí předseda podpis nepřítomnosti podepisuje člen 
286
2016-05-24 09:03:51,200 INFO Cluster 15: se je že na to by ve za ale jako 
287
2016-05-24 09:03:51,200 INFO  
288
2016-05-24 09:03:51,200 INFO NUMBER OF CLUSTERS 17
289
2016-05-24 09:03:51,200 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
290
        init_size=1000, max_iter=1000, max_no_improvement=10,
291
        n_clusters=17, n_init=20, random_state=None,
292
        reassignment_ratio=0.1, tol=0.0, verbose=True)
293
2016-05-24 09:03:51,200 INFO clustering started 2016-05-24 09:03:51.201000
294
2016-05-24 09:03:54,937 INFO clustering done 0:00:03.736000
295
2016-05-24 09:03:54,937 INFO Top terms per cluster:
296
2016-05-24 09:03:56,335 INFO Cluster 0: na si 2011 se mailové poradna internetu odpověď dotazy cz 
297
2016-05-24 09:03:56,335 INFO Cluster 1: 01 se čsn norma písemností úprava strojem editory textovými zpracovaných 
298
2016-05-24 09:03:56,335 INFO Cluster 2: se je na že ve to by jako ale pro 
299
2016-05-24 09:03:56,335 INFO Cluster 3: psaní písmenem se písmeno velkým je psát počátečním malým písmen 
300
2016-05-24 09:03:56,335 INFO Cluster 4: pád pane oslovení pádem se pádu oslovování na je že 
301
2016-05-24 09:03:56,335 INFO Cluster 5: jazykové poradna právních nemá jazyková výklad výhradně aplikacích smluv dohod 
302
2016-05-24 09:03:56,351 INFO Cluster 6: ing zkratky titulů dr titul titulu se oficiální tituly zkratka 
303
2016-05-24 09:03:56,351 INFO Cluster 7: představenstva společnost závod kabelovna zvu názvu se je místopředseda text 
304
2016-05-24 09:03:56,351 INFO Cluster 8: poradna praha cz cas český ujc oddělení ústav jazykové 118 
305
2016-05-24 09:03:56,351 INFO Cluster 9: česko republika název je český názvu se pro postoje pojmenování 
306
2016-05-24 09:03:56,351 INFO Cluster 10: českého slovník jazyka academia se spisovného praha je slovníku podle 
307
2016-05-24 09:03:56,351 INFO Cluster 11: na ulice ulic se psaní pravopisu předložce skalce bukovině názvech 
308
2016-05-24 09:03:56,351 INFO Cluster 12: století léta devadesát se přísloví desetiletí 19 výslovnost na občan 
309
2016-05-24 09:03:56,367 INFO Cluster 13: město obec právnické osoby města obce je názvu se vlastního 
310
2016-05-24 09:03:56,367 INFO Cluster 14: příjmení jména se přechylování je původu jmen na češtině skloňování 
311
2016-05-24 09:03:56,367 INFO Cluster 15: slova se je že jsou to slov slovo ale na 
312
2016-05-24 09:03:56,367 INFO Cluster 16: se je slov slovníku na slova významu výrazu slovník veřejné 
313
2016-05-24 09:03:56,367 INFO  
314
2016-05-24 09:03:56,367 INFO NUMBER OF CLUSTERS 18
315
2016-05-24 09:03:56,367 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
316
        init_size=1000, max_iter=1000, max_no_improvement=10,
317
        n_clusters=18, n_init=20, random_state=None,
318
        reassignment_ratio=0.1, tol=0.0, verbose=True)
319
2016-05-24 09:03:56,367 INFO clustering started 2016-05-24 09:03:56.367000
320
2016-05-24 09:04:00,539 INFO clustering done 0:00:04.173000
321
2016-05-24 09:04:00,539 INFO Top terms per cluster:
322
2016-05-24 09:04:01,934 INFO Cluster 0: obchod 2000 zbožím druhé natura lidmila být straně vazba že 
323
2016-05-24 09:04:01,934 INFO Cluster 1: na je se pro jazyk že dopis jazykové český praha 
324
2016-05-24 09:04:01,934 INFO Cluster 2: ulice na bukovině ulic skalce psaní předložce názvech písmenem pravopisu 
325
2016-05-24 09:04:01,934 INFO Cluster 3: že slovesa na se je může předložit 2003 být sloveso 
326
2016-05-24 09:04:01,934 INFO Cluster 4: světlo muzete přístup by jazykova se parcely farmou že volný 
327
2016-05-24 09:04:01,934 INFO Cluster 5: se je že na ve to jako pro by nebo 
328
2016-05-24 09:04:01,934 INFO Cluster 6: ze slovnik ceskeho vas je se vam jmena prijmeni neni 
329
2016-05-24 09:04:01,948 INFO Cluster 7: pád pane pádu se pádem vzoru je oslovení na oslovování 
330
2016-05-24 09:04:01,948 INFO Cluster 8: poradna jazykové praha jazyková český jazyk pro cz cas ujc 
331
2016-05-24 09:04:01,948 INFO Cluster 9: psaní písmen písmenem velkých správa velkým počátečním pravopisu boží země 
332
2016-05-24 09:04:01,948 INFO Cluster 10: závod ředitelství závodu oblastní kabelovna střední dodavatelsko čechy závodem radotín 
333
2016-05-24 09:04:01,948 INFO Cluster 11: příjmení se jména přechylování je původu jmen na češtině např 
334
2016-05-24 09:04:01,948 INFO Cluster 12: se město písmenem psaní je písmeno na psát města velkým 
335
2016-05-24 09:04:01,948 INFO Cluster 13: daně správce období subjekt se že je účetnictví daňový za 
336
2016-05-24 09:04:01,964 INFO Cluster 14: řídicí přídavná měřicí řídící kropící přístroj vůz jména měřící vyjadřují 
337
2016-05-24 09:04:01,964 INFO Cluster 15: vám se vaší přečetla je děkujeme jsem slepicemi báseň zájmem 
338
2016-05-24 09:04:01,964 INFO Cluster 16: 1993 pravopisu českého pravidel praha za podle academia vydání se 
339
2016-05-24 09:04:01,964 INFO Cluster 17: schválení smlouvy by okresním požadavku úřadem výpovědí nový že rok 
340
2016-05-24 09:04:01,964 INFO  
341
2016-05-24 09:04:01,964 INFO NUMBER OF CLUSTERS 19
342
2016-05-24 09:04:01,964 INFO Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',
343
        init_size=1000, max_iter=1000, max_no_improvement=10,
344
        n_clusters=19, n_init=20, random_state=None,
345
        reassignment_ratio=0.1, tol=0.0, verbose=True)
346
2016-05-24 09:04:01,964 INFO clustering started 2016-05-24 09:04:01.965000
347
2016-05-24 09:04:06,168 INFO clustering done 0:00:04.204000
348
2016-05-24 09:04:06,168 INFO Top terms per cluster:
349
2016-05-24 09:04:07,563 INFO Cluster 0: ani broskev přísloví se slepicemi jednoty slovnících výkladových tělocvik ve 
350
2016-05-24 09:04:07,563 INFO Cluster 1: cikán romové rom cikáni etnickém světě heslo označení cikánka cikánů 
351
2016-05-24 09:04:07,563 INFO Cluster 2: ch písmena se že písmen je pro škola písmeno slabice 
352
2016-05-24 09:04:07,563 INFO Cluster 3: je slovník se že českého academia pro kabelovna 1994 jazyka 
353
2016-05-24 09:04:07,578 INFO Cluster 4: se je že na to by ve nebo ale za 
354
2016-05-24 09:04:07,578 INFO Cluster 5: ceskeho slovnik spisovneho ridici ma spravne pravopisu jazyka vas piseme 
355
2016-05-24 09:04:07,578 INFO Cluster 6: slovník slovníku jazyka slovo českého se academia spisovného je praha 
356
2016-05-24 09:04:07,578 INFO Cluster 7: se na je jména že ve jako pro jsou za 
357
2016-05-24 09:04:07,578 INFO Cluster 8: na se je jazyk pro že jazykové ústav český by 
358
2016-05-24 09:04:07,578 INFO Cluster 9: prijmeni cestine vam protoze vas ze take je jmena se 
359
2016-05-24 09:04:07,578 INFO Cluster 10: příjmení se jména je přechylování původu jmen na že češtině 
360
2016-05-24 09:04:07,578 INFO Cluster 11: na pravopisu 1993 psaní českého pravidel ulice se pravidla ulic 
361
2016-05-24 09:04:07,578 INFO Cluster 12: pádě čísla je jméno se množného ve tvar jména píšeme 
362
2016-05-24 09:04:07,595 INFO Cluster 13: poradna praha jazykové jazyková český jazyk cz cas ujc pro 
363
2016-05-24 09:04:07,595 INFO Cluster 14: písmenem se psaní je město velkým písmeno název na psát 
364
2016-05-24 09:04:07,595 INFO Cluster 15: román dvou přihlášky kronika spojovníkem podání memoárromán psaní dohromady řeka 
365
2016-05-24 09:04:07,595 INFO Cluster 16: pád pan vzoru se pán skloňování příjmení podle skloňujeme zakončená 
366
2016-05-24 09:04:07,595 INFO Cluster 17: představenstva výklad ustanovení je místopředseda člena vám předsedy právní na 
367
2016-05-24 09:04:07,595 INFO Cluster 18: veřejné slovní zásoby slov veřejný se je veřejná že lidmila 
(1-1/2)