Compare commits

...

1 Commits

Author SHA1 Message Date
Mateusz Kociszewski
09e4d03939 zad 2021-04-25 15:39:23 +02:00
4 changed files with 1220 additions and 0 deletions

92
Untitled.py Normal file
View File

@ -0,0 +1,92 @@
#!/usr/bin/env python
# coding: utf-8
# In[51]:
from sklearn.feature_extraction.text import TfidfVectorizer
# In[52]:
import numpy as np
import sklearn.metrics
from sklearn.cluster import KMeans
# In[53]:
stopwords = []
with open('./stop_words.txt', encoding='utf-8') as file:
for stopword in file.readlines():
stopwords.append(stopword.strip())
# In[54]:
b = []
c = []
# In[55]:
print(stopwords)
# In[56]:
with open("./dev-0/in.tsv", encoding='utf-8') as in_file:
a = in_file.readlines()
# In[57]:
for string in a:
to_add = ""
for word in string.split():
word = word.strip().replace(",", "")
if word not in stopwords:
to_add = to_add + " " + word
b.append(to_add)
kmeans = KMeans(n_clusters=30).fit(TfidfVectorizer().fit_transform(b))
out=np.array2string(kmeans.labels_, separator='\n').replace(" ", "").replace("[", "").replace("]", "")
with open("./dev-0/out.tsv", "w") as file:
file.write(out)
# In[58]:
with open("./test-A/in.tsv", encoding='utf-8') as in_file:
a = in_file.readlines()
# In[59]:
for string in a:
to_add = ""
for word in string.split():
word = word.strip().replace(",", "")
if word not in stopwords:
to_add = to_add + " " + word
c.append(to_add)
kmeans = KMeans(n_clusters=30).fit(TfidfVectorizer().fit_transform(content_clear))
out=np.array2string(kmeans.labels_, separator='\n').replace(" ", "").replace("[", "")
with open("./test-A/out.tsv", "w") as file:
file.write(result)
# In[ ]:

87
dev-0/out.tsv Normal file
View File

@ -0,0 +1,87 @@
26
16
2
19
11
24
0
9
6
10
9
24
8
1
22
22
27
11
7
1
2
28
5
12
9
28
3
5
1
21
14
14
20
15
22
20
8
26
3
19
6
4
20
19
13
18
23
21
29
20
9
2
14
28
4
12
21
21
14
15
20
25
14
20
24
15
14
13
10
23
11
7
13
0
8
17
9
4
19
11
10
9
10
1
20
15
1
1 26
2 16
3 2
4 19
5 11
6 24
7 0
8 9
9 6
10 10
11 9
12 24
13 8
14 1
15 22
16 22
17 27
18 11
19 7
20 1
21 2
22 28
23 5
24 12
25 9
26 28
27 3
28 5
29 1
30 21
31 14
32 14
33 20
34 15
35 22
36 20
37 8
38 26
39 3
40 19
41 6
42 4
43 20
44 19
45 13
46 18
47 23
48 21
49 29
50 20
51 9
52 2
53 14
54 28
55 4
56 12
57 21
58 21
59 14
60 15
61 20
62 25
63 14
64 20
65 24
66 15
67 14
68 13
69 10
70 23
71 11
72 7
73 13
74 0
75 8
76 17
77 9
78 4
79 19
80 11
81 10
82 9
83 10
84 1
85 20
86 15
87 1

350
stop_words.txt Normal file
View File

@ -0,0 +1,350 @@
a
aby
ach
acz
aczkolwiek
aj
albo
ale
alez
ależ
ani
az
bardziej
bardzo
beda
bedzie
bez
deda
będą
bede
będę
będzie
bo
bowiem
by
byc
być
byl
byla
byli
bylo
byly
był
była
było
były
bynajmniej
cala
cali
caly
cała
cały
ci
cie
ciebie
cię
co
cokolwiek
cos
coś
czasami
czasem
czemu
czy
czyli
daleko
dla
dlaczego
dlatego
do
dobrze
dokad
dokąd
dosc
dość
duzo
dużo
dwa
dwaj
dwie
dwoje
dzis
dzisiaj
dziś
gdy
gdyby
gdyz
gdyż
gdzie
gdziekolwiek
gdzies
gdzieś
go
i
ich
ile
im
inna
inne
inny
innych
iz
ja
jak
jakas
jakaś
jakby
jaki
jakichs
jakichś
jakie
jakis
jakiś
jakiz
jakiż
jakkolwiek
jako
jakos
jakoś
je
jeden
jedna
jednak
jednakze
jednakże
jedno
jego
jej
jemu
jesli
jest
jestem
jeszcze
jeśli
jezeli
jeżeli
juz
już
kazdy
każdy
kiedy
kilka
kims
kimś
kto
ktokolwiek
ktora
ktore
ktorego
ktorej
ktory
ktorych
ktorym
ktorzy
ktos
ktoś
która
które
którego
której
który
których
którym
którzy
ku
lat
lecz
lub
ma
mają
mało
mam
mi
miedzy
między
mimo
mna
mną
mnie
moga
mogą
moi
moim
moj
moja
moje
moze
mozliwe
mozna
może
możliwe
można
mój
mu
musi
my
na
nad
nam
nami
nas
nasi
nasz
nasza
nasze
naszego
naszych
natomiast
natychmiast
nawet
nia
nią
nic
nich
nie
niech
niego
niej
niemu
nigdy
nim
nimi
niz
niż
no
o
obok
od
około
on
ona
one
oni
ono
oraz
oto
owszem
pan
pana
pani
po
pod
podczas
pomimo
ponad
poniewaz
ponieważ
powinien
powinna
powinni
powinno
poza
prawie
przeciez
przecież
przed
przede
przedtem
przez
przy
roku
rowniez
również
sam
sama
sie
się
skad
skąd
soba
sobą
sobie
sposob
sposób
swoje
ta
tak
taka
taki
takie
takze
także
tam
te
tego
tej
ten
teraz
też
to
toba
tobą
tobie
totez
toteż
totobą
trzeba
tu
tutaj
twoi
twoim
twoj
twoja
twoje
twój
twym
ty
tych
tylko
tym
u
w
wam
wami
was
wasz
wasza
wasze
we
według
wiele
wielu
więc
więcej
wlasnie
właśnie
wszyscy
wszystkich
wszystkie
wszystkim
wszystko
wtedy
wy
z
za
zaden
zadna
zadne
zadnych
zapewne
zawsze
ze
zeby
zeznowu
znow
znowu
znów
zostal
został
żaden
żadna
żadne
żadnych
że
żeby

691
test-A/out.tsv Normal file
View File

@ -0,0 +1,691 @@
4
18
31
20
26
16
30
1
20
12
5
15
9
7
29
12
17
35
17
29
7
37
16
7
26
21
10
0
1
39
9
9
16
31
19
36
15
6
2
9
20
22
17
9
15
6
10
30
31
29
31
35
4
27
5
6
29
31
39
20
30
12
24
26
29
31
27
16
1
39
5
19
17
0
20
6
10
39
20
0
34
38
13
4
26
15
4
6
18
20
27
5
19
26
23
17
4
26
34
22
23
37
17
32
39
10
35
0
35
11
28
31
29
31
17
26
26
29
21
10
7
1
22
10
25
2
17
6
28
22
21
19
24
6
34
19
10
0
13
14
32
34
7
9
21
24
17
9
24
6
17
17
18
29
21
15
23
19
25
9
27
11
10
30
5
26
13
8
19
19
29
39
9
22
17
13
9
36
10
11
3
7
7
34
19
21
1
13
1
5
4
21
15
10
36
19
10
31
10
4
20
33
4
0
12
12
31
30
18
4
5
15
29
7
30
15
1
16
36
29
9
6
21
34
13
19
8
35
13
15
10
29
6
30
16
21
19
27
15
27
4
29
31
20
0
36
5
5
34
30
10
36
38
28
33
13
37
14
8
7
6
1
23
29
10
1
10
11
33
15
20
22
5
7
28
25
34
28
7
8
2
5
6
7
28
14
7
31
17
16
35
10
35
0
20
5
17
14
17
15
35
35
29
5
6
36
24
6
26
20
18
5
25
9
13
11
5
7
4
21
15
13
37
0
20
20
12
4
21
6
39
35
24
6
10
31
29
25
29
29
29
24
28
29
27
7
23
15
10
5
21
16
5
1
12
35
5
12
32
17
1
27
21
0
5
0
31
9
30
8
18
20
15
34
1
5
6
12
27
35
19
0
34
16
4
28
36
15
32
16
21
31
27
31
29
25
4
26
23
16
34
10
6
1
27
29
35
1
13
9
20
14
1
5
6
5
30
5
0
21
0
2
5
16
8
33
31
26
34
29
14
27
30
22
3
24
22
1
27
16
36
31
20
32
17
11
25
3
1
17
33
22
4
15
30
6
37
30
20
5
21
10
18
11
9
23
31
27
32
20
20
4
20
4
17
24
33
35
19
36
8
13
20
18
21
15
10
0
33
26
32
31
30
10
28
35
28
9
26
7
34
31
0
21
2
25
37
0
28
39
16
27
16
0
9
15
11
17
5
30
9
0
8
35
18
24
24
13
11
9
3
4
20
31
21
28
34
29
5
10
31
14
26
7
1
16
34
9
0
28
25
20
33
29
19
38
4
4
19
31
16
31
36
1
24
0
6
39
1
19
31
31
5
0
20
15
28
32
15
29
6
7
35
16
17
35
38
6
7
5
11
7
22
16
37
0
4
24
13
32
31
29
5
29
6
33
34
4
30
18
15
9
4
32
15
21
7
30
0
18
34
37
5
31
29
13
34
34
23
34
15
30
5
25
15
4
13
27
36
7
29
4
20
6
1
8
35
27
22
36
5
36
38
15
36
10
17
33
15
27
34
16
35
0
4
9
36
22
23
21
28
17
0
8
4
13
12
36
21
16
36
19
16
8
9
31
29
32
4
20
8]
1 4
2 18
3 31
4 20
5 26
6 16
7 30
8 1
9 20
10 12
11 5
12 15
13 9
14 7
15 29
16 12
17 17
18 35
19 17
20 29
21 7
22 37
23 16
24 7
25 26
26 21
27 10
28 0
29 1
30 39
31 9
32 9
33 16
34 31
35 19
36 36
37 15
38 6
39 2
40 9
41 20
42 22
43 17
44 9
45 15
46 6
47 10
48 30
49 31
50 29
51 31
52 35
53 4
54 27
55 5
56 6
57 29
58 31
59 39
60 20
61 30
62 12
63 24
64 26
65 29
66 31
67 27
68 16
69 1
70 39
71 5
72 19
73 17
74 0
75 20
76 6
77 10
78 39
79 20
80 0
81 34
82 38
83 13
84 4
85 26
86 15
87 4
88 6
89 18
90 20
91 27
92 5
93 19
94 26
95 23
96 17
97 4
98 26
99 34
100 22
101 23
102 37
103 17
104 32
105 39
106 10
107 35
108 0
109 35
110 11
111 28
112 31
113 29
114 31
115 17
116 26
117 26
118 29
119 21
120 10
121 7
122 1
123 22
124 10
125 25
126 2
127 17
128 6
129 28
130 22
131 21
132 19
133 24
134 6
135 34
136 19
137 10
138 0
139 13
140 14
141 32
142 34
143 7
144 9
145 21
146 24
147 17
148 9
149 24
150 6
151 17
152 17
153 18
154 29
155 21
156 15
157 23
158 19
159 25
160 9
161 27
162 11
163 10
164 30
165 5
166 26
167 13
168 8
169 19
170 19
171 29
172 39
173 9
174 22
175 17
176 13
177 9
178 36
179 10
180 11
181 3
182 7
183 7
184 34
185 19
186 21
187 1
188 13
189 1
190 5
191 4
192 21
193 15
194 10
195 36
196 19
197 10
198 31
199 10
200 4
201 20
202 33
203 4
204 0
205 12
206 12
207 31
208 30
209 18
210 4
211 5
212 15
213 29
214 7
215 30
216 15
217 1
218 16
219 36
220 29
221 9
222 6
223 21
224 34
225 13
226 19
227 8
228 35
229 13
230 15
231 10
232 29
233 6
234 30
235 16
236 21
237 19
238 27
239 15
240 27
241 4
242 29
243 31
244 20
245 0
246 36
247 5
248 5
249 34
250 30
251 10
252 36
253 38
254 28
255 33
256 13
257 37
258 14
259 8
260 7
261 6
262 1
263 23
264 29
265 10
266 1
267 10
268 11
269 33
270 15
271 20
272 22
273 5
274 7
275 28
276 25
277 34
278 28
279 7
280 8
281 2
282 5
283 6
284 7
285 28
286 14
287 7
288 31
289 17
290 16
291 35
292 10
293 35
294 0
295 20
296 5
297 17
298 14
299 17
300 15
301 35
302 35
303 29
304 5
305 6
306 36
307 24
308 6
309 26
310 20
311 18
312 5
313 25
314 9
315 13
316 11
317 5
318 7
319 4
320 21
321 15
322 13
323 37
324 0
325 20
326 20
327 12
328 4
329 21
330 6
331 39
332 35
333 24
334 6
335 10
336 31
337 29
338 25
339 29
340 29
341 29
342 24
343 28
344 29
345 27
346 7
347 23
348 15
349 10
350 5
351 21
352 16
353 5
354 1
355 12
356 35
357 5
358 12
359 32
360 17
361 1
362 27
363 21
364 0
365 5
366 0
367 31
368 9
369 30
370 8
371 18
372 20
373 15
374 34
375 1
376 5
377 6
378 12
379 27
380 35
381 19
382 0
383 34
384 16
385 4
386 28
387 36
388 15
389 32
390 16
391 21
392 31
393 27
394 31
395 29
396 25
397 4
398 26
399 23
400 16
401 34
402 10
403 6
404 1
405 27
406 29
407 35
408 1
409 13
410 9
411 20
412 14
413 1
414 5
415 6
416 5
417 30
418 5
419 0
420 21
421 0
422 2
423 5
424 16
425 8
426 33
427 31
428 26
429 34
430 29
431 14
432 27
433 30
434 22
435 3
436 24
437 22
438 1
439 27
440 16
441 36
442 31
443 20
444 32
445 17
446 11
447 25
448 3
449 1
450 17
451 33
452 22
453 4
454 15
455 30
456 6
457 37
458 30
459 20
460 5
461 21
462 10
463 18
464 11
465 9
466 23
467 31
468 27
469 32
470 20
471 20
472 4
473 20
474 4
475 17
476 24
477 33
478 35
479 19
480 36
481 8
482 13
483 20
484 18
485 21
486 15
487 10
488 0
489 33
490 26
491 32
492 31
493 30
494 10
495 28
496 35
497 28
498 9
499 26
500 7
501 34
502 31
503 0
504 21
505 2
506 25
507 37
508 0
509 28
510 39
511 16
512 27
513 16
514 0
515 9
516 15
517 11
518 17
519 5
520 30
521 9
522 0
523 8
524 35
525 18
526 24
527 24
528 13
529 11
530 9
531 3
532 4
533 20
534 31
535 21
536 28
537 34
538 29
539 5
540 10
541 31
542 14
543 26
544 7
545 1
546 16
547 34
548 9
549 0
550 28
551 25
552 20
553 33
554 29
555 19
556 38
557 4
558 4
559 19
560 31
561 16
562 31
563 36
564 1
565 24
566 0
567 6
568 39
569 1
570 19
571 31
572 31
573 5
574 0
575 20
576 15
577 28
578 32
579 15
580 29
581 6
582 7
583 35
584 16
585 17
586 35
587 38
588 6
589 7
590 5
591 11
592 7
593 22
594 16
595 37
596 0
597 4
598 24
599 13
600 32
601 31
602 29
603 5
604 29
605 6
606 33
607 34
608 4
609 30
610 18
611 15
612 9
613 4
614 32
615 15
616 21
617 7
618 30
619 0
620 18
621 34
622 37
623 5
624 31
625 29
626 13
627 34
628 34
629 23
630 34
631 15
632 30
633 5
634 25
635 15
636 4
637 13
638 27
639 36
640 7
641 29
642 4
643 20
644 6
645 1
646 8
647 35
648 27
649 22
650 36
651 5
652 36
653 38
654 15
655 36
656 10
657 17
658 33
659 15
660 27
661 34
662 16
663 35
664 0
665 4
666 9
667 36
668 22
669 23
670 21
671 28
672 17
673 0
674 8
675 4
676 13
677 12
678 36
679 21
680 16
681 36
682 19
683 16
684 8
685 9
686 31
687 29
688 32
689 4
690 20
691 8]