gotowe w pełni rozwiązanie

This commit is contained in:
unknown 2021-04-24 19:36:41 +02:00
parent e4adfb04dc
commit a045854112
4 changed files with 1174 additions and 0 deletions

87
dev-0/out.tsv Normal file
View File

@ -0,0 +1,87 @@
23
29
0
33
6
15
7
9
2
8
28
15
1
5
17
17
36
45
3
22
30
18
10
11
24
18
4
10
43
1
12
25
46
44
17
19
44
23
4
33
2
35
47
26
13
32
19
41
49
34
37
0
25
18
16
11
41
41
25
14
19
21
47
20
15
14
25
13
31
19
6
3
13
47
48
40
24
16
26
38
8
27
8
22
25
39
42
1 23
2 29
3 0
4 33
5 6
6 15
7 7
8 9
9 2
10 8
11 28
12 15
13 1
14 5
15 17
16 17
17 36
18 45
19 3
20 22
21 30
22 18
23 10
24 11
25 24
26 18
27 4
28 10
29 43
30 1
31 12
32 25
33 46
34 44
35 17
36 19
37 44
38 23
39 4
40 33
41 2
42 35
43 47
44 26
45 13
46 32
47 19
48 41
49 49
50 34
51 37
52 0
53 25
54 18
55 16
56 11
57 41
58 41
59 25
60 14
61 19
62 21
63 47
64 20
65 15
66 14
67 25
68 13
69 31
70 19
71 6
72 3
73 13
74 47
75 48
76 40
77 24
78 16
79 26
80 38
81 8
82 27
83 8
84 22
85 25
86 39
87 42

46
main.py Normal file
View File

@ -0,0 +1,46 @@
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import sklearn.metrics
from sklearn.cluster import KMeans
stopwords = []
with open('./stopwords.txt') as file:
for stopword in file.readlines():
stopwords.append(stopword.strip())
with open("./dev-0/in.tsv") as in_file:
content = in_file.readlines()
content_clear = []
for string in content:
to_add = ""
for word in string.split():
word = word.strip().replace(",", "")
if word not in stopwords:
to_add = to_add + " " + word
content_clear.append(to_add)
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(content_clear)
#wyniki jakie uzyskałam wachały się między 0.72 a 0.74. Sprawdziłam to na 20 próbach i nigdy nie spadły poniżej 0.70
kmeans = KMeans(n_clusters=50).fit(vectors)
result=kmeans.labels_
result=np.array2string(result, separator='\n').replace(" ", "").replace("[", "").replace("]", "")
with open("./dev-0/out.tsv", "w") as file:
file.write(result)
with open("./test-A/in.tsv") as in_file:
content = in_file.readlines()
content_clear = []
for string in content:
to_add = ""
for word in string.split():
word = word.strip().replace(",", "")
if word not in stopwords:
to_add = to_add + " " + word
content_clear.append(to_add)
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(content_clear)
kmeans = KMeans(n_clusters=50).fit(vectors)
result=kmeans.labels_
result=np.array2string(result, separator='\n').replace(" ", "").replace("[", "")
with open("./test-A/out.tsv", "w") as file:
file.write(result)

350
stopwords.txt Normal file
View File

@ -0,0 +1,350 @@
a
aby
ach
acz
aczkolwiek
aj
albo
ale
alez
ależ
ani
az
bardziej
bardzo
beda
bedzie
bez
deda
będą
bede
będę
będzie
bo
bowiem
by
byc
być
byl
byla
byli
bylo
byly
był
była
było
były
bynajmniej
cala
cali
caly
cała
cały
ci
cie
ciebie
cię
co
cokolwiek
cos
coś
czasami
czasem
czemu
czy
czyli
daleko
dla
dlaczego
dlatego
do
dobrze
dokad
dokąd
dosc
dość
duzo
dużo
dwa
dwaj
dwie
dwoje
dzis
dzisiaj
dziś
gdy
gdyby
gdyz
gdyż
gdzie
gdziekolwiek
gdzies
gdzieś
go
i
ich
ile
im
inna
inne
inny
innych
iz
ja
jak
jakas
jakaś
jakby
jaki
jakichs
jakichś
jakie
jakis
jakiś
jakiz
jakiż
jakkolwiek
jako
jakos
jakoś
je
jeden
jedna
jednak
jednakze
jednakże
jedno
jego
jej
jemu
jesli
jest
jestem
jeszcze
jeśli
jezeli
jeżeli
juz
już
kazdy
każdy
kiedy
kilka
kims
kimś
kto
ktokolwiek
ktora
ktore
ktorego
ktorej
ktory
ktorych
ktorym
ktorzy
ktos
ktoś
która
które
którego
której
który
których
którym
którzy
ku
lat
lecz
lub
ma
mają
mało
mam
mi
miedzy
między
mimo
mna
mną
mnie
moga
mogą
moi
moim
moj
moja
moje
moze
mozliwe
mozna
może
możliwe
można
mój
mu
musi
my
na
nad
nam
nami
nas
nasi
nasz
nasza
nasze
naszego
naszych
natomiast
natychmiast
nawet
nia
nią
nic
nich
nie
niech
niego
niej
niemu
nigdy
nim
nimi
niz
niż
no
o
obok
od
około
on
ona
one
oni
ono
oraz
oto
owszem
pan
pana
pani
po
pod
podczas
pomimo
ponad
poniewaz
ponieważ
powinien
powinna
powinni
powinno
poza
prawie
przeciez
przecież
przed
przede
przedtem
przez
przy
roku
rowniez
również
sam
sama
sie
się
skad
skąd
soba
sobą
sobie
sposob
sposób
swoje
ta
tak
taka
taki
takie
takze
także
tam
te
tego
tej
ten
teraz
też
to
toba
tobą
tobie
totez
toteż
totobą
trzeba
tu
tutaj
twoi
twoim
twoj
twoja
twoje
twój
twym
ty
tych
tylko
tym
u
w
wam
wami
was
wasz
wasza
wasze
we
według
wiele
wielu
więc
więcej
wlasnie
właśnie
wszyscy
wszystkich
wszystkie
wszystkim
wszystko
wtedy
wy
z
za
zaden
zadna
zadne
zadnych
zapewne
zawsze
ze
zeby
zeznowu
znow
znowu
znów
zostal
został
żaden
żadna
żadne
żadnych
że
żeby

691
test-A/out.tsv Normal file
View File

@ -0,0 +1,691 @@
9
18
3
29
38
10
15
41
48
49
47
4
19
47
4
45
7
15
7
4
31
44
43
40
31
42
4
46
8
12
11
19
10
3
14
26
16
1
3
13
29
15
7
28
25
25
1
17
3
4
3
19
1
40
32
5
26
3
39
23
21
7
31
38
4
20
40
43
11
18
32
14
7
38
19
15
1
19
29
6
43
2
12
45
38
26
1
31
18
29
22
32
14
38
7
36
9
47
42
22
0
44
7
27
49
1
39
31
39
34
28
3
4
3
36
38
18
30
6
1
33
41
27
1
30
3
7
5
13
21
6
14
21
5
25
14
35
8
12
35
27
25
33
35
45
1
30
35
21
5
7
7
18
4
40
46
7
48
38
44
40
19
1
33
32
45
12
22
14
14
30
1
0
27
7
12
32
25
1
34
2
17
6
16
42
6
41
12
41
46
9
6
16
15
8
48
1
3
11
9
29
24
9
47
7
36
3
33
18
9
43
16
38
30
36
16
8
43
26
4
4
5
11
18
12
14
22
39
12
16
1
21
5
30
10
48
14
40
18
1
9
4
20
25
9
26
46
32
25
33
1
30
2
28
24
12
19
25
22
17
5
28
38
8
35
41
1
34
24
4
25
4
46
42
43
1
47
28
17
45
31
32
19
15
28
31
29
3
7
43
39
1
39
30
26
32
36
31
7
25
22
39
30
46
15
26
38
30
18
30
18
11
49
28
12
34
46
38
8
6
23
12
44
18
45
23
18
22
6
47
43
39
38
5
1
3
30
49
4
26
36
21
19
4
40
33
30
16
1
6
6
43
11
8
7
39
46
38
9
7
8
47
6
30
32
6
3
28
33
22
18
15
16
24
8
8
5
7
40
39
4
47
47
47
9
28
25
16
27
43
36
20
30
3
4
30
9
38
7
29
47
1
5
28
40
4
37
28
32
19
29
31
41
1
5
46
33
46
35
6
48
30
5
43
22
29
3
38
30
4
0
40
33
41
2
21
15
13
40
10
26
3
23
28
7
34
45
2
8
25
24
27
31
28
37
5
16
33
29
46
6
1
15
34
13
7
3
1
27
29
38
5
23
9
45
25
24
39
36
26
22
12
23
48
6
16
1
41
24
18
27
3
33
1
13
39
28
35
38
17
47
3
30
6
26
49
44
38
28
47
43
22
43
30
24
16
34
7
8
17
28
6
45
39
18
31
7
12
13
19
2
9
29
3
6
44
46
4
46
1
3
35
38
37
43
10
26
19
28
28
45
29
24
25
14
2
9
9
14
20
43
3
23
41
19
39
5
1
41
14
3
3
46
30
29
16
28
27
16
26
5
19
39
43
24
39
2
5
1
46
34
12
47
43
44
43
9
21
22
27
3
4
11
4
5
16
28
33
37
25
16
19
9
27
16
6
17
33
30
18
11
44
46
3
21
12
47
47
7
47
16
33
0
19
23
9
12
40
26
13
4
9
19
5
41
22
39
5
47
26
46
18
2
16
26
1
36
24
16
5
37
43
39
30
30
19
26
27
42
6
28
7
31
22
9
12
7
26
6
43
26
14
43
22
19
3
4
27
9
31
22]
1 9
2 18
3 3
4 29
5 38
6 10
7 15
8 41
9 48
10 49
11 47
12 4
13 19
14 47
15 4
16 45
17 7
18 15
19 7
20 4
21 31
22 44
23 43
24 40
25 31
26 42
27 4
28 46
29 8
30 12
31 11
32 19
33 10
34 3
35 14
36 26
37 16
38 1
39 3
40 13
41 29
42 15
43 7
44 28
45 25
46 25
47 1
48 17
49 3
50 4
51 3
52 19
53 1
54 40
55 32
56 5
57 26
58 3
59 39
60 23
61 21
62 7
63 31
64 38
65 4
66 20
67 40
68 43
69 11
70 18
71 32
72 14
73 7
74 38
75 19
76 15
77 1
78 19
79 29
80 6
81 43
82 2
83 12
84 45
85 38
86 26
87 1
88 31
89 18
90 29
91 22
92 32
93 14
94 38
95 7
96 36
97 9
98 47
99 42
100 22
101 0
102 44
103 7
104 27
105 49
106 1
107 39
108 31
109 39
110 34
111 28
112 3
113 4
114 3
115 36
116 38
117 18
118 30
119 6
120 1
121 33
122 41
123 27
124 1
125 30
126 3
127 7
128 5
129 13
130 21
131 6
132 14
133 21
134 5
135 25
136 14
137 35
138 8
139 12
140 35
141 27
142 25
143 33
144 35
145 45
146 1
147 30
148 35
149 21
150 5
151 7
152 7
153 18
154 4
155 40
156 46
157 7
158 48
159 38
160 44
161 40
162 19
163 1
164 33
165 32
166 45
167 12
168 22
169 14
170 14
171 30
172 1
173 0
174 27
175 7
176 12
177 32
178 25
179 1
180 34
181 2
182 17
183 6
184 16
185 42
186 6
187 41
188 12
189 41
190 46
191 9
192 6
193 16
194 15
195 8
196 48
197 1
198 3
199 11
200 9
201 29
202 24
203 9
204 47
205 7
206 36
207 3
208 33
209 18
210 9
211 43
212 16
213 38
214 30
215 36
216 16
217 8
218 43
219 26
220 4
221 4
222 5
223 11
224 18
225 12
226 14
227 22
228 39
229 12
230 16
231 1
232 21
233 5
234 30
235 10
236 48
237 14
238 40
239 18
240 1
241 9
242 4
243 20
244 25
245 9
246 26
247 46
248 32
249 25
250 33
251 1
252 30
253 2
254 28
255 24
256 12
257 19
258 25
259 22
260 17
261 5
262 28
263 38
264 8
265 35
266 41
267 1
268 34
269 24
270 4
271 25
272 4
273 46
274 42
275 43
276 1
277 47
278 28
279 17
280 45
281 31
282 32
283 19
284 15
285 28
286 31
287 29
288 3
289 7
290 43
291 39
292 1
293 39
294 30
295 26
296 32
297 36
298 31
299 7
300 25
301 22
302 39
303 30
304 46
305 15
306 26
307 38
308 30
309 18
310 30
311 18
312 11
313 49
314 28
315 12
316 34
317 46
318 38
319 8
320 6
321 23
322 12
323 44
324 18
325 45
326 23
327 18
328 22
329 6
330 47
331 43
332 39
333 38
334 5
335 1
336 3
337 30
338 49
339 4
340 26
341 36
342 21
343 19
344 4
345 40
346 33
347 30
348 16
349 1
350 6
351 6
352 43
353 11
354 8
355 7
356 39
357 46
358 38
359 9
360 7
361 8
362 47
363 6
364 30
365 32
366 6
367 3
368 28
369 33
370 22
371 18
372 15
373 16
374 24
375 8
376 8
377 5
378 7
379 40
380 39
381 4
382 47
383 47
384 47
385 9
386 28
387 25
388 16
389 27
390 43
391 36
392 20
393 30
394 3
395 4
396 30
397 9
398 38
399 7
400 29
401 47
402 1
403 5
404 28
405 40
406 4
407 37
408 28
409 32
410 19
411 29
412 31
413 41
414 1
415 5
416 46
417 33
418 46
419 35
420 6
421 48
422 30
423 5
424 43
425 22
426 29
427 3
428 38
429 30
430 4
431 0
432 40
433 33
434 41
435 2
436 21
437 15
438 13
439 40
440 10
441 26
442 3
443 23
444 28
445 7
446 34
447 45
448 2
449 8
450 25
451 24
452 27
453 31
454 28
455 37
456 5
457 16
458 33
459 29
460 46
461 6
462 1
463 15
464 34
465 13
466 7
467 3
468 1
469 27
470 29
471 38
472 5
473 23
474 9
475 45
476 25
477 24
478 39
479 36
480 26
481 22
482 12
483 23
484 48
485 6
486 16
487 1
488 41
489 24
490 18
491 27
492 3
493 33
494 1
495 13
496 39
497 28
498 35
499 38
500 17
501 47
502 3
503 30
504 6
505 26
506 49
507 44
508 38
509 28
510 47
511 43
512 22
513 43
514 30
515 24
516 16
517 34
518 7
519 8
520 17
521 28
522 6
523 45
524 39
525 18
526 31
527 7
528 12
529 13
530 19
531 2
532 9
533 29
534 3
535 6
536 44
537 46
538 4
539 46
540 1
541 3
542 35
543 38
544 37
545 43
546 10
547 26
548 19
549 28
550 28
551 45
552 29
553 24
554 25
555 14
556 2
557 9
558 9
559 14
560 20
561 43
562 3
563 23
564 41
565 19
566 39
567 5
568 1
569 41
570 14
571 3
572 3
573 46
574 30
575 29
576 16
577 28
578 27
579 16
580 26
581 5
582 19
583 39
584 43
585 24
586 39
587 2
588 5
589 1
590 46
591 34
592 12
593 47
594 43
595 44
596 43
597 9
598 21
599 22
600 27
601 3
602 4
603 11
604 4
605 5
606 16
607 28
608 33
609 37
610 25
611 16
612 19
613 9
614 27
615 16
616 6
617 17
618 33
619 30
620 18
621 11
622 44
623 46
624 3
625 21
626 12
627 47
628 47
629 7
630 47
631 16
632 33
633 0
634 19
635 23
636 9
637 12
638 40
639 26
640 13
641 4
642 9
643 19
644 5
645 41
646 22
647 39
648 5
649 47
650 26
651 46
652 18
653 2
654 16
655 26
656 1
657 36
658 24
659 16
660 5
661 37
662 43
663 39
664 30
665 30
666 19
667 26
668 27
669 42
670 6
671 28
672 7
673 31
674 22
675 9
676 12
677 7
678 26
679 6
680 43
681 26
682 14
683 43
684 22
685 19
686 3
687 4
688 27
689 9
690 31
691 22]