Compare commits

...

4 Commits

Author SHA1 Message Date
Jan Przybylski
dd5ffc0149 update 2021-04-13 11:34:07 +02:00
Jan Przybylski
5b9ea9d23b update 2021-04-13 11:20:18 +02:00
Jan Przybylski
eea9e08c8d update 2021-04-13 11:19:34 +02:00
Jan Przybylski
6df1e0282b init 2021-04-13 00:35:55 +02:00
4 changed files with 810 additions and 0 deletions

87
dev-0/out.tsv Normal file
View File

@ -0,0 +1,87 @@
[38
43
5
59
73
74
57
23
76
8
48
24
62
4
10
47
27
51
3
61
39
35
16
17
34
1
13
16
9
53
71
50
63
45
28
12
37
52
13
31
6
29
65
56
36
22
54
49
70
58
0
5
7
42
19
17
15
20
21
33
12
32
66
44
60
30
41
46
40
11
68
3
25
2
55
23
64
19
14
72
8
69
8
18
75
26
67]
1 [38
2 43
3 5
4 59
5 73
6 74
7 57
8 23
9 76
10 8
11 48
12 24
13 62
14 4
15 10
16 47
17 27
18 51
19 3
20 61
21 39
22 35
23 16
24 17
25 34
26 1
27 13
28 16
29 9
30 53
31 71
32 50
33 63
34 45
35 28
36 12
37 37
38 52
39 13
40 31
41 6
42 29
43 65
44 56
45 36
46 22
47 54
48 49
49 70
50 58
51 0
52 5
53 7
54 42
55 19
56 17
57 15
58 20
59 21
60 33
61 12
62 32
63 66
64 44
65 60
66 30
67 41
68 46
69 40
70 11
71 68
72 3
73 25
74 2
75 55
76 23
77 64
78 19
79 14
80 72
81 8
82 69
83 8
84 18
85 75
86 26
87 67]

16
prog-dev0.py Normal file
View File

@ -0,0 +1,16 @@
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import sklearn.metrics
from sklearn.cluster import KMeans
with open("dev-0/in.tsv") as f:
content = f.readlines()
vectorizer = TfidfVectorizer(ngram_range=(1,2), use_idf = False)
vectorizer = TfidfVectorizer()
document_vectors = vectorizer.fit_transform(content)
kmeans = KMeans(n_clusters=77, random_state=0).fit(document_vectors)
pred_y = kmeans.fit_predict(document_vectors)
t=kmeans.labels_
t=np.array2string(t, precision=2, separator='\n',suppress_small=True)
f = open("dev-0/out.tsv", "a")
f.write(t)

16
prog-testA.py Normal file
View File

@ -0,0 +1,16 @@
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import sklearn.metrics
from sklearn.cluster import KMeans
with open("test-A/in.tsv") as f:
content = f.readlines()
vectorizer = TfidfVectorizer(ngram_range=(1,2), use_idf = False)
vectorizer = TfidfVectorizer()
document_vectors = vectorizer.fit_transform(content)
kmeans = KMeans(n_clusters=77, random_state=0).fit(document_vectors)
pred_y = kmeans.fit_predict(document_vectors)
t=kmeans.labels_
t=np.array2string(t, precision=2, separator='\n',suppress_small=True)
f = open("test-A/out.tsv", "a")
f.write(t)

691
test-A/out.tsv Normal file
View File

@ -0,0 +1,691 @@
[ 1
5
14
50
62
64
50
40
53
5
41
36
76
58
39
33
12
71
12
39
3
67
21
52
68
53
68
57
40
68
1
76
64
33
54
63
36
33
14
76
43
50
13
19
25
58
33
20
14
39
14
50
33
52
17
15
33
14
44
28
73
10
68
62
39
7
52
64
16
53
3
45
12
33
33
33
53
37
46
53
34
4
42
63
62
49
33
37
65
43
61
3
54
62
10
13
1
25
34
30
37
23
12
24
9
70
48
53
71
16
2
14
74
14
60
62
65
31
48
70
28
40
24
70
33
14
12
15
32
33
17
54
33
15
51
54
47
53
42
8
69
34
28
8
48
33
16
8
73
15
12
13
65
29
52
36
75
38
9
23
66
1
33
20
17
62
42
30
45
0
63
21
37
50
10
42
72
41
33
31
59
28
21
51
27
33
40
18
40
17
1
48
36
70
1
38
33
14
33
1
53
27
1
70
12
10
14
20
65
1
40
21
5
16
20
36
40
21
44
74
39
33
3
34
18
54
66
71
42
36
33
57
15
20
64
37
0
52
27
33
50
74
7
57
37
44
3
3
57
20
6
31
4
26
27
18
2
33
30
28
15
40
13
53
47
29
70
16
27
39
13
33
17
28
21
13
58
2
28
9
19
3
60
53
26
35
28
14
12
11
71
70
48
53
1
3
10
35
13
57
13
71
16
17
33
41
21
16
5
31
65
17
9
76
42
17
17
6
20
33
46
42
67
5
6
46
5
60
48
58
33
71
73
15
33
14
37
9
39
39
5
33
26
29
52
28
17
49
5
33
48
6
17
40
75
71
3
53
24
10
40
21
48
39
3
53
14
76
20
66
65
33
36
57
40
17
15
10
22
56
39
53
50
25
1
2
25
36
69
64
1
7
68
14
39
63
1
62
75
33
58
33
15
2
22
29
56
2
73
19
43
35
40
6
15
17
20
17
8
75
38
73
21
21
30
27
14
62
34
29
54
52
20
50
59
73
50
40
52
21
44
14
46
38
12
31
9
59
23
58
53
50
17
57
55
21
53
20
43
3
48
70
50
16
76
10
14
33
69
43
46
30
43
30
62
58
27
21
13
44
66
18
46
53
48
51
33
3
27
5
69
14
20
3
32
71
26
8
62
28
25
14
16
21
30
9
23
9
2
25
64
61
21
63
27
49
31
12
63
20
19
53
66
71
65
30
21
42
16
76
59
71
43
14
48
67
34
29
17
70
14
8
62
55
21
64
33
76
53
26
9
43
27
57
54
4
1
1
45
7
64
14
60
40
53
53
15
30
1
54
14
14
17
63
9
49
2
24
49
16
15
28
71
64
27
71
4
15
28
3
31
60
74
21
23
63
1
73
73
69
14
39
17
29
15
60
33
5
55
58
36
76
1
24
36
21
28
20
5
65
51
67
17
14
16
18
34
53
12
34
49
20
54
17
27
53
42
52
44
6
39
1
28
15
40
30
21
22
57
63
17
51
4
49
74
33
13
27
49
22
60
21
71
17
29
76
44
50
75
6
23
12
17
66
1
42
33
1
48
21
44
54
53
30
2
14
39
24
1
43
66]
1 [ 1
2 5
3 14
4 50
5 62
6 64
7 50
8 40
9 53
10 5
11 41
12 36
13 76
14 58
15 39
16 33
17 12
18 71
19 12
20 39
21 3
22 67
23 21
24 52
25 68
26 53
27 68
28 57
29 40
30 68
31 1
32 76
33 64
34 33
35 54
36 63
37 36
38 33
39 14
40 76
41 43
42 50
43 13
44 19
45 25
46 58
47 33
48 20
49 14
50 39
51 14
52 50
53 33
54 52
55 17
56 15
57 33
58 14
59 44
60 28
61 73
62 10
63 68
64 62
65 39
66 7
67 52
68 64
69 16
70 53
71 3
72 45
73 12
74 33
75 33
76 33
77 53
78 37
79 46
80 53
81 34
82 4
83 42
84 63
85 62
86 49
87 33
88 37
89 65
90 43
91 61
92 3
93 54
94 62
95 10
96 13
97 1
98 25
99 34
100 30
101 37
102 23
103 12
104 24
105 9
106 70
107 48
108 53
109 71
110 16
111 2
112 14
113 74
114 14
115 60
116 62
117 65
118 31
119 48
120 70
121 28
122 40
123 24
124 70
125 33
126 14
127 12
128 15
129 32
130 33
131 17
132 54
133 33
134 15
135 51
136 54
137 47
138 53
139 42
140 8
141 69
142 34
143 28
144 8
145 48
146 33
147 16
148 8
149 73
150 15
151 12
152 13
153 65
154 29
155 52
156 36
157 75
158 38
159 9
160 23
161 66
162 1
163 33
164 20
165 17
166 62
167 42
168 30
169 45
170 0
171 63
172 21
173 37
174 50
175 10
176 42
177 72
178 41
179 33
180 31
181 59
182 28
183 21
184 51
185 27
186 33
187 40
188 18
189 40
190 17
191 1
192 48
193 36
194 70
195 1
196 38
197 33
198 14
199 33
200 1
201 53
202 27
203 1
204 70
205 12
206 10
207 14
208 20
209 65
210 1
211 40
212 21
213 5
214 16
215 20
216 36
217 40
218 21
219 44
220 74
221 39
222 33
223 3
224 34
225 18
226 54
227 66
228 71
229 42
230 36
231 33
232 57
233 15
234 20
235 64
236 37
237 0
238 52
239 27
240 33
241 50
242 74
243 7
244 57
245 37
246 44
247 3
248 3
249 57
250 20
251 6
252 31
253 4
254 26
255 27
256 18
257 2
258 33
259 30
260 28
261 15
262 40
263 13
264 53
265 47
266 29
267 70
268 16
269 27
270 39
271 13
272 33
273 17
274 28
275 21
276 13
277 58
278 2
279 28
280 9
281 19
282 3
283 60
284 53
285 26
286 35
287 28
288 14
289 12
290 11
291 71
292 70
293 48
294 53
295 1
296 3
297 10
298 35
299 13
300 57
301 13
302 71
303 16
304 17
305 33
306 41
307 21
308 16
309 5
310 31
311 65
312 17
313 9
314 76
315 42
316 17
317 17
318 6
319 20
320 33
321 46
322 42
323 67
324 5
325 6
326 46
327 5
328 60
329 48
330 58
331 33
332 71
333 73
334 15
335 33
336 14
337 37
338 9
339 39
340 39
341 5
342 33
343 26
344 29
345 52
346 28
347 17
348 49
349 5
350 33
351 48
352 6
353 17
354 40
355 75
356 71
357 3
358 53
359 24
360 10
361 40
362 21
363 48
364 39
365 3
366 53
367 14
368 76
369 20
370 66
371 65
372 33
373 36
374 57
375 40
376 17
377 15
378 10
379 22
380 56
381 39
382 53
383 50
384 25
385 1
386 2
387 25
388 36
389 69
390 64
391 1
392 7
393 68
394 14
395 39
396 63
397 1
398 62
399 75
400 33
401 58
402 33
403 15
404 2
405 22
406 29
407 56
408 2
409 73
410 19
411 43
412 35
413 40
414 6
415 15
416 17
417 20
418 17
419 8
420 75
421 38
422 73
423 21
424 21
425 30
426 27
427 14
428 62
429 34
430 29
431 54
432 52
433 20
434 50
435 59
436 73
437 50
438 40
439 52
440 21
441 44
442 14
443 46
444 38
445 12
446 31
447 9
448 59
449 23
450 58
451 53
452 50
453 17
454 57
455 55
456 21
457 53
458 20
459 43
460 3
461 48
462 70
463 50
464 16
465 76
466 10
467 14
468 33
469 69
470 43
471 46
472 30
473 43
474 30
475 62
476 58
477 27
478 21
479 13
480 44
481 66
482 18
483 46
484 53
485 48
486 51
487 33
488 3
489 27
490 5
491 69
492 14
493 20
494 3
495 32
496 71
497 26
498 8
499 62
500 28
501 25
502 14
503 16
504 21
505 30
506 9
507 23
508 9
509 2
510 25
511 64
512 61
513 21
514 63
515 27
516 49
517 31
518 12
519 63
520 20
521 19
522 53
523 66
524 71
525 65
526 30
527 21
528 42
529 16
530 76
531 59
532 71
533 43
534 14
535 48
536 67
537 34
538 29
539 17
540 70
541 14
542 8
543 62
544 55
545 21
546 64
547 33
548 76
549 53
550 26
551 9
552 43
553 27
554 57
555 54
556 4
557 1
558 1
559 45
560 7
561 64
562 14
563 60
564 40
565 53
566 53
567 15
568 30
569 1
570 54
571 14
572 14
573 17
574 63
575 9
576 49
577 2
578 24
579 49
580 16
581 15
582 28
583 71
584 64
585 27
586 71
587 4
588 15
589 28
590 3
591 31
592 60
593 74
594 21
595 23
596 63
597 1
598 73
599 73
600 69
601 14
602 39
603 17
604 29
605 15
606 60
607 33
608 5
609 55
610 58
611 36
612 76
613 1
614 24
615 36
616 21
617 28
618 20
619 5
620 65
621 51
622 67
623 17
624 14
625 16
626 18
627 34
628 53
629 12
630 34
631 49
632 20
633 54
634 17
635 27
636 53
637 42
638 52
639 44
640 6
641 39
642 1
643 28
644 15
645 40
646 30
647 21
648 22
649 57
650 63
651 17
652 51
653 4
654 49
655 74
656 33
657 13
658 27
659 49
660 22
661 60
662 21
663 71
664 17
665 29
666 76
667 44
668 50
669 75
670 6
671 23
672 12
673 17
674 66
675 1
676 42
677 33
678 1
679 48
680 21
681 44
682 54
683 53
684 30
685 2
686 14
687 39
688 24
689 1
690 43
691 66]