This commit is contained in:
jakub 2021-05-10 16:39:12 +02:00
parent e4adfb04dc
commit 920028634b
5 changed files with 812 additions and 0 deletions

87
dev-0/out.tsv Normal file
View File

@ -0,0 +1,87 @@
[44
11
55
76
63
25
19
53
13
48
6
60
34
38
16
17
21
10
33
58
5
50
3
32
18
20
8
24
14
61
64
46
43
52
59
45
2
11
73
4
37
30
10
28
62
42
0
5
16
68
29
75
39
57
35
52
9
74
15
54
26
72
1
41
66
27
56
31
23
40
65
6
36
70
47
26
12
2
49
69
1
71
1
51
7
22
67]
1 [44
2 11
3 55
4 76
5 63
6 25
7 19
8 53
9 13
10 48
11 6
12 60
13 34
14 38
15 16
16 17
17 21
18 10
19 33
20 58
21 5
22 50
23 3
24 32
25 18
26 20
27 8
28 24
29 14
30 61
31 64
32 46
33 43
34 52
35 59
36 45
37 2
38 11
39 73
40 4
41 37
42 30
43 10
44 28
45 62
46 42
47 0
48 5
49 16
50 68
51 29
52 75
53 39
54 57
55 35
56 52
57 9
58 74
59 15
60 54
61 26
62 72
63 1
64 41
65 66
66 27
67 56
68 31
69 23
70 40
71 65
72 6
73 36
74 70
75 47
76 26
77 12
78 2
79 49
80 69
81 1
82 71
83 1
84 51
85 7
86 22
87 67]

BIN
geval Executable file

Binary file not shown.

17
mainDev.py Normal file
View File

@ -0,0 +1,17 @@
import sklearn.metrics
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
with open("dev-0/in.tsv") as myFile:
cnt = myFile.readlines()
vectorizer = TfidfVectorizer(ngram_range = (1,2), use_idf = False)
vectorizer = TfidfVectorizer()
document_vectors = vectorizer.fit_transform(cnt)
kmeans = KMeans(n_clusters = 77, random_state = 0).fit(document_vectors)
pred_myFile = kmeans.fit_predict(document_vectors)
tmp = kmeans.labels_
tmp = np.array2string(tmp, precision = 2, separator = '\n',suppress_small = True)
myFile = open("dev-0/out.tsv", "a")
myFile.write(tmp)

17
mainTest.py Normal file
View File

@ -0,0 +1,17 @@
import sklearn.metrics
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
with open("test-A/in.tsv") as myFile:
cnt = myFile.readlines()
vect = TfidfVectorizer(ngram_range = (1,2), use_idf = False)
vect = TfidfVectorizer()
document_vectors = vect.fit_transform(cnt)
kmeans = KMeans(n_clusters = 77, random_state = 0).fit(document_vectors)
pred_myFile = kmeans.fit_predict(document_vectors)
tmp = kmeans.labels_
tmp = np.array2string(tmp, precision = 2, separator = '\n',suppress_small = True)
myFile = open("test-A/out.tsv", "a")
myFile.write(tmp)

691
test-A/out.tsv Normal file
View File

@ -0,0 +1,691 @@
[16
16
3
67
50
1
12
0
72
44
56
5
11
72
7
53
43
16
43
24
27
61
8
22
76
55
45
40
31
49
32
31
1
16
29
16
5
67
3
57
19
63
16
68
42
60
67
25
3
24
3
63
67
22
74
75
67
3
49
34
30
2
11
50
24
73
22
1
70
72
32
29
17
17
52
16
46
46
11
46
18
10
9
71
50
47
67
11
35
16
72
32
29
50
2
17
16
42
18
4
29
31
43
14
49
59
64
16
51
70
31
3
72
3
52
50
44
4
64
59
34
37
14
59
16
3
16
75
23
70
32
29
69
12
70
29
33
46
9
36
16
18
34
36
38
67
70
36
69
12
43
2
35
24
22
47
2
62
17
61
39
48
65
25
32
44
9
39
29
29
4
16
8
63
17
9
21
56
12
48
13
25
16
18
55
38
37
9
0
74
16
38
5
59
11
62
65
3
32
16
46
16
16
59
17
2
3
25
44
16
32
5
24
24
25
47
24
8
54
72
24
59
32
18
26
29
39
51
9
5
67
16
75
25
1
72
29
22
11
67
16
72
73
40
46
28
27
27
8
25
72
4
10
31
16
26
16
42
16
34
12
31
11
70
33
11
59
4
16
52
16
16
63
34
63
16
60
31
34
53
67
74
52
46
6
15
34
3
43
8
51
67
64
46
21
27
2
15
17
40
4
51
70
74
4
56
69
8
44
21
35
16
53
16
9
21
74
34
16
16
70
9
61
44
57
19
44
52
64
60
16
51
69
12
65
3
46
53
24
32
16
30
6
7
22
34
16
47
32
58
64
38
32
31
2
51
27
35
14
2
16
8
64
24
27
34
3
31
25
39
35
51
5
18
0
66
12
43
45
51
55
46
30
21
16
31
42
5
14
1
58
73
16
3
16
53
16
50
2
16
60
16
12
66
45
24
16
31
69
11
19
15
0
46
12
74
25
74
46
64
62
69
8
8
66
16
3
70
18
24
5
22
25
63
13
69
63
16
22
8
54
3
16
62
43
4
53
13
72
60
72
63
16
11
20
8
72
25
19
74
41
59
63
70
57
2
3
67
14
19
19
16
19
16
16
60
16
16
8
54
39
26
47
35
72
47
65
27
16
44
14
3
25
72
23
16
6
36
50
34
18
3
16
16
65
53
61
16
31
42
1
4
8
4
38
19
48
43
16
25
68
21
39
51
35
38
8
9
16
31
13
16
63
3
38
61
18
24
74
59
3
36
50
20
66
1
47
31
27
6
53
19
16
40
29
10
16
16
29
73
1
3
52
0
72
46
12
16
16
29
3
3
27
44
53
47
31
14
47
71
12
34
51
1
16
16
10
12
34
27
4
62
46
8
72
8
16
30
69
14
3
24
74
7
12
52
16
16
20
60
5
31
16
14
47
38
34
25
63
35
18
61
32
3
30
26
18
27
17
18
47
25
2
32
16
16
9
22
54
58
24
16
34
12
37
22
38
45
40
16
74
63
10
47
72
59
17
8
47
45
52
8
51
70
16
11
66
63
55
38
31
2
76
39
16
9
16
4
64
8
28
29
46
39
31
3
24
14
16
69
39]
1 [16
2 16
3 3
4 67
5 50
6 1
7 12
8 0
9 72
10 44
11 56
12 5
13 11
14 72
15 7
16 53
17 43
18 16
19 43
20 24
21 27
22 61
23 8
24 22
25 76
26 55
27 45
28 40
29 31
30 49
31 32
32 31
33 1
34 16
35 29
36 16
37 5
38 67
39 3
40 57
41 19
42 63
43 16
44 68
45 42
46 60
47 67
48 25
49 3
50 24
51 3
52 63
53 67
54 22
55 74
56 75
57 67
58 3
59 49
60 34
61 30
62 2
63 11
64 50
65 24
66 73
67 22
68 1
69 70
70 72
71 32
72 29
73 17
74 17
75 52
76 16
77 46
78 46
79 11
80 46
81 18
82 10
83 9
84 71
85 50
86 47
87 67
88 11
89 35
90 16
91 72
92 32
93 29
94 50
95 2
96 17
97 16
98 42
99 18
100 4
101 29
102 31
103 43
104 14
105 49
106 59
107 64
108 16
109 51
110 70
111 31
112 3
113 72
114 3
115 52
116 50
117 44
118 4
119 64
120 59
121 34
122 37
123 14
124 59
125 16
126 3
127 16
128 75
129 23
130 70
131 32
132 29
133 69
134 12
135 70
136 29
137 33
138 46
139 9
140 36
141 16
142 18
143 34
144 36
145 38
146 67
147 70
148 36
149 69
150 12
151 43
152 2
153 35
154 24
155 22
156 47
157 2
158 62
159 17
160 61
161 39
162 48
163 65
164 25
165 32
166 44
167 9
168 39
169 29
170 29
171 4
172 16
173 8
174 63
175 17
176 9
177 21
178 56
179 12
180 48
181 13
182 25
183 16
184 18
185 55
186 38
187 37
188 9
189 0
190 74
191 16
192 38
193 5
194 59
195 11
196 62
197 65
198 3
199 32
200 16
201 46
202 16
203 16
204 59
205 17
206 2
207 3
208 25
209 44
210 16
211 32
212 5
213 24
214 24
215 25
216 47
217 24
218 8
219 54
220 72
221 24
222 59
223 32
224 18
225 26
226 29
227 39
228 51
229 9
230 5
231 67
232 16
233 75
234 25
235 1
236 72
237 29
238 22
239 11
240 67
241 16
242 72
243 73
244 40
245 46
246 28
247 27
248 27
249 8
250 25
251 72
252 4
253 10
254 31
255 16
256 26
257 16
258 42
259 16
260 34
261 12
262 31
263 11
264 70
265 33
266 11
267 59
268 4
269 16
270 52
271 16
272 16
273 63
274 34
275 63
276 16
277 60
278 31
279 34
280 53
281 67
282 74
283 52
284 46
285 6
286 15
287 34
288 3
289 43
290 8
291 51
292 67
293 64
294 46
295 21
296 27
297 2
298 15
299 17
300 40
301 4
302 51
303 70
304 74
305 4
306 56
307 69
308 8
309 44
310 21
311 35
312 16
313 53
314 16
315 9
316 21
317 74
318 34
319 16
320 16
321 70
322 9
323 61
324 44
325 57
326 19
327 44
328 52
329 64
330 60
331 16
332 51
333 69
334 12
335 65
336 3
337 46
338 53
339 24
340 32
341 16
342 30
343 6
344 7
345 22
346 34
347 16
348 47
349 32
350 58
351 64
352 38
353 32
354 31
355 2
356 51
357 27
358 35
359 14
360 2
361 16
362 8
363 64
364 24
365 27
366 34
367 3
368 31
369 25
370 39
371 35
372 51
373 5
374 18
375 0
376 66
377 12
378 43
379 45
380 51
381 55
382 46
383 30
384 21
385 16
386 31
387 42
388 5
389 14
390 1
391 58
392 73
393 16
394 3
395 16
396 53
397 16
398 50
399 2
400 16
401 60
402 16
403 12
404 66
405 45
406 24
407 16
408 31
409 69
410 11
411 19
412 15
413 0
414 46
415 12
416 74
417 25
418 74
419 46
420 64
421 62
422 69
423 8
424 8
425 66
426 16
427 3
428 70
429 18
430 24
431 5
432 22
433 25
434 63
435 13
436 69
437 63
438 16
439 22
440 8
441 54
442 3
443 16
444 62
445 43
446 4
447 53
448 13
449 72
450 60
451 72
452 63
453 16
454 11
455 20
456 8
457 72
458 25
459 19
460 74
461 41
462 59
463 63
464 70
465 57
466 2
467 3
468 67
469 14
470 19
471 19
472 16
473 19
474 16
475 16
476 60
477 16
478 16
479 8
480 54
481 39
482 26
483 47
484 35
485 72
486 47
487 65
488 27
489 16
490 44
491 14
492 3
493 25
494 72
495 23
496 16
497 6
498 36
499 50
500 34
501 18
502 3
503 16
504 16
505 65
506 53
507 61
508 16
509 31
510 42
511 1
512 4
513 8
514 4
515 38
516 19
517 48
518 43
519 16
520 25
521 68
522 21
523 39
524 51
525 35
526 38
527 8
528 9
529 16
530 31
531 13
532 16
533 63
534 3
535 38
536 61
537 18
538 24
539 74
540 59
541 3
542 36
543 50
544 20
545 66
546 1
547 47
548 31
549 27
550 6
551 53
552 19
553 16
554 40
555 29
556 10
557 16
558 16
559 29
560 73
561 1
562 3
563 52
564 0
565 72
566 46
567 12
568 16
569 16
570 29
571 3
572 3
573 27
574 44
575 53
576 47
577 31
578 14
579 47
580 71
581 12
582 34
583 51
584 1
585 16
586 16
587 10
588 12
589 34
590 27
591 4
592 62
593 46
594 8
595 72
596 8
597 16
598 30
599 69
600 14
601 3
602 24
603 74
604 7
605 12
606 52
607 16
608 16
609 20
610 60
611 5
612 31
613 16
614 14
615 47
616 38
617 34
618 25
619 63
620 35
621 18
622 61
623 32
624 3
625 30
626 26
627 18
628 27
629 17
630 18
631 47
632 25
633 2
634 32
635 16
636 16
637 9
638 22
639 54
640 58
641 24
642 16
643 34
644 12
645 37
646 22
647 38
648 45
649 40
650 16
651 74
652 63
653 10
654 47
655 72
656 59
657 17
658 8
659 47
660 45
661 52
662 8
663 51
664 70
665 16
666 11
667 66
668 63
669 55
670 38
671 31
672 2
673 76
674 39
675 16
676 9
677 16
678 4
679 64
680 8
681 28
682 29
683 46
684 39
685 31
686 3
687 24
688 14
689 16
690 69
691 39]