This commit is contained in:
Ufnow 2021-04-26 23:38:04 +02:00
parent e4adfb04dc
commit 57a777cbff
12 changed files with 1207 additions and 0 deletions

3
.idea/.gitignore vendored Normal file
View File

@ -0,0 +1,3 @@
# Default ignored files
/shelf/
/workspace.xml

View File

@ -0,0 +1,12 @@
<component name="InspectionProjectProfileManager">
<profile version="1.0">
<option name="myName" value="Project Default" />
<inspection_tool class="PyUnresolvedReferencesInspection" enabled="true" level="WARNING" enabled_by_default="true">
<option name="ignoredIdentifiers">
<list>
<option value="script.many_stop_words" />
</list>
</option>
</inspection_tool>
</profile>
</component>

View File

@ -0,0 +1,6 @@
<component name="InspectionProjectProfileManager">
<settings>
<option name="USE_PROJECT_PROFILE" value="false" />
<version value="1.0" />
</settings>
</component>

4
.idea/misc.xml Normal file
View File

@ -0,0 +1,4 @@
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8" project-jdk-type="Python SDK" />
</project>

8
.idea/modules.xml Normal file
View File

@ -0,0 +1,8 @@
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectModuleManager">
<modules>
<module fileurl="file://$PROJECT_DIR$/.idea/polish-urban-legends-public.iml" filepath="$PROJECT_DIR$/.idea/polish-urban-legends-public.iml" />
</modules>
</component>
</project>

View File

@ -0,0 +1,8 @@
<?xml version="1.0" encoding="UTF-8"?>
<module type="PYTHON_MODULE" version="4">
<component name="NewModuleRootManager">
<content url="file://$MODULE_DIR$" />
<orderEntry type="inheritedJdk" />
<orderEntry type="sourceFolder" forTests="false" />
</component>
</module>

6
.idea/vcs.xml Normal file
View File

@ -0,0 +1,6 @@
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="VcsDirectoryMappings">
<mapping directory="$PROJECT_DIR$" vcs="Git" />
</component>
</project>

87
dev-0/out.tsv Normal file
View File

@ -0,0 +1,87 @@
12
3
15
14
3
9
18
13
9
2
13
9
3
8
11
11
11
6
5
3
15
6
4
17
13
6
10
4
1
3
0
0
0
6
11
19
8
8
10
14
9
16
18
7
8
12
19
3
0
0
13
15
0
6
8
17
3
3
0
6
19
14
18
12
9
6
0
8
15
19
4
5
8
18
3
13
3
8
7
3
2
13
2
3
0
6
3
1 12
2 3
3 15
4 14
5 3
6 9
7 18
8 13
9 9
10 2
11 13
12 9
13 3
14 8
15 11
16 11
17 11
18 6
19 5
20 3
21 15
22 6
23 4
24 17
25 13
26 6
27 10
28 4
29 1
30 3
31 0
32 0
33 0
34 6
35 11
36 19
37 8
38 8
39 10
40 14
41 9
42 16
43 18
44 7
45 8
46 12
47 19
48 3
49 0
50 0
51 13
52 15
53 0
54 6
55 8
56 17
57 3
58 3
59 0
60 6
61 19
62 14
63 18
64 12
65 9
66 6
67 0
68 8
69 15
70 19
71 4
72 5
73 8
74 18
75 3
76 13
77 3
78 8
79 7
80 3
81 2
82 13
83 2
84 3
85 0
86 6
87 3

BIN
geval Normal file

Binary file not shown.

32
script.py Normal file
View File

@ -0,0 +1,32 @@
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
def openFileWithStopwords(filename):
stopwords = []
with open(filename, encoding='utf-8') as file:
stopwords = [stopWord.strip() for stopWord in file.readlines()]
return stopwords
def calculate(clusters, maxiter, tfidfVectorizer, stopwords, fileIn, fileOut):
with open(fileIn, encoding='utf-8') as infile:
documents = [" ".join([stopword for stopword in document.split() if stopword not in stopwords]) for document in
infile.readlines()]
results = KMeans(n_clusters=clusters, max_iter=maxiter).fit_predict(tfidfVectorizer.fit_transform(documents))
with open(fileOut, "w", encoding='utf-8') as output:
for result in results:
output.write(str(result) + '\n')
def main():
vectorizer = TfidfVectorizer()
clusters = 20
maxiter = 1000
stopwords = openFileWithStopwords('stopwords.txt')
calculate(clusters, maxiter, vectorizer, stopwords, "dev-0/in.tsv", "dev-0/out.tsv")
calculate(clusters, maxiter, vectorizer, stopwords, "test-A/in.tsv", "test-A/out.tsv")
if __name__ == '__main__':
main()

350
stopwords.txt Normal file
View File

@ -0,0 +1,350 @@
a
aby
ach
acz
aczkolwiek
aj
albo
ale
alez
ależ
ani
az
bardziej
bardzo
beda
bedzie
bez
deda
będą
bede
będę
będzie
bo
bowiem
by
byc
być
byl
byla
byli
bylo
byly
był
była
było
były
bynajmniej
cala
cali
caly
cała
cały
ci
cie
ciebie
cię
co
cokolwiek
cos
coś
czasami
czasem
czemu
czy
czyli
daleko
dla
dlaczego
dlatego
do
dobrze
dokad
dokąd
dosc
dość
duzo
dużo
dwa
dwaj
dwie
dwoje
dzis
dzisiaj
dziś
gdy
gdyby
gdyz
gdyż
gdzie
gdziekolwiek
gdzies
gdzieś
go
i
ich
ile
im
inna
inne
inny
innych
iz
ja
jak
jakas
jakaś
jakby
jaki
jakichs
jakichś
jakie
jakis
jakiś
jakiz
jakiż
jakkolwiek
jako
jakos
jakoś
je
jeden
jedna
jednak
jednakze
jednakże
jedno
jego
jej
jemu
jesli
jest
jestem
jeszcze
jeśli
jezeli
jeżeli
juz
już
kazdy
każdy
kiedy
kilka
kims
kimś
kto
ktokolwiek
ktora
ktore
ktorego
ktorej
ktory
ktorych
ktorym
ktorzy
ktos
ktoś
która
które
którego
której
który
których
którym
którzy
ku
lat
lecz
lub
ma
mają
mało
mam
mi
miedzy
między
mimo
mna
mną
mnie
moga
mogą
moi
moim
moj
moja
moje
moze
mozliwe
mozna
może
możliwe
można
mój
mu
musi
my
na
nad
nam
nami
nas
nasi
nasz
nasza
nasze
naszego
naszych
natomiast
natychmiast
nawet
nia
nią
nic
nich
nie
niech
niego
niej
niemu
nigdy
nim
nimi
niz
niż
no
o
obok
od
około
on
ona
one
oni
ono
oraz
oto
owszem
pan
pana
pani
po
pod
podczas
pomimo
ponad
poniewaz
ponieważ
powinien
powinna
powinni
powinno
poza
prawie
przeciez
przecież
przed
przede
przedtem
przez
przy
roku
rowniez
również
sam
sama
sie
się
skad
skąd
soba
sobą
sobie
sposob
sposób
swoje
ta
tak
taka
taki
takie
takze
także
tam
te
tego
tej
ten
teraz
też
to
toba
tobą
tobie
totez
toteż
totobą
trzeba
tu
tutaj
twoi
twoim
twoj
twoja
twoje
twój
twym
ty
tych
tylko
tym
u
w
wam
wami
was
wasz
wasza
wasze
we
według
wiele
wielu
więc
więcej
wlasnie
właśnie
wszyscy
wszystkich
wszystkie
wszystkim
wszystko
wtedy
wy
z
za
zaden
zadna
zadne
zadnych
zapewne
zawsze
ze
zeby
zeznowu
znow
znowu
znów
zostal
został
żaden
żadna
żadne
żadnych
że
żeby

691
test-A/out.tsv Normal file
View File

@ -0,0 +1,691 @@
15
19
3
2
12
11
15
4
0
5
1
0
4
17
1
12
19
2
19
16
15
4
11
6
6
0
2
12
4
19
2
4
11
3
7
1
5
2
3
4
8
6
19
4
8
17
2
9
3
2
3
2
2
6
14
6
2
3
2
11
16
19
2
17
8
10
6
11
2
19
14
7
19
2
2
19
2
0
8
14
11
13
18
14
5
1
2
16
19
8
6
14
7
12
19
5
15
1
16
1
15
4
19
2
12
2
0
2
6
19
4
3
1
3
16
12
19
1
2
2
9
4
2
8
12
3
2
6
4
2
14
7
6
16
2
7
7
17
18
4
15
2
9
4
2
2
16
4
16
6
12
19
19
1
6
17
19
4
12
4
6
2
2
9
14
5
18
6
7
7
1
2
2
2
19
18
2
1
2
1
13
9
0
19
2
2
4
18
4
14
15
2
0
0
2
2
2
3
2
15
8
8
15
17
5
19
3
9
19
15
4
15
1
2
16
0
4
11
1
1
19
17
14
17
18
7
6
15
18
5
2
2
6
2
11
2
7
6
19
2
15
16
10
2
0
2
14
14
8
9
2
2
13
4
8
18
4
16
6
9
6
4
19
1
7
2
2
19
8
1
2
16
14
0
16
2
17
4
9
12
2
14
0
2
4
15
0
3
8
11
1
2
16
1
15
14
19
15
19
16
1
2
1
14
2
1
2
12
19
2
19
14
12
4
18
2
14
2
19
2
8
18
4
19
6
8
19
17
2
17
2
1
16
6
2
3
2
12
1
2
1
16
4
1
6
9
2
5
2
2
2
2
14
4
5
1
14
5
15
19
2
1
0
0
14
2
3
4
9
1
19
8
5
17
4
2
6
12
6
6
0
16
1
1
15
4
8
5
2
11
1
10
6
3
0
12
15
12
19
8
17
2
6
4
6
2
2
4
16
4
8
15
4
2
6
14
9
14
16
2
2
2
2
11
6
5
3
16
15
16
2
6
9
8
13
16
8
4
6
11
1
3
8
4
19
2
12
13
4
17
16
2
15
4
9
2
15
9
8
14
2
16
5
1
4
19
3
2
11
8
8
15
8
16
12
17
8
2
7
1
6
18
8
2
0
17
2
14
8
19
15
3
9
2
4
1
4
4
5
9
16
3
1
2
2
12
4
12
4
8
11
6
11
1
2
15
1
12
16
9
4
2
0
2
19
19
1
18
2
4
13
15
8
3
11
4
16
2
14
2
3
15
12
9
4
11
0
4
17
4
12
6
8
12
7
13
15
15
7
10
11
3
2
4
2
15
6
2
4
7
3
3
14
1
8
5
4
16
5
17
6
8
15
11
2
1
13
6
2
14
2
0
0
11
4
11
15
16
16
15
3
15
14
6
6
2
6
2
9
17
5
4
15
2
5
2
9
9
2
19
17
4
14
3
1
18
17
17
19
17
5
9
2
12
8
15
18
6
1
16
15
15
2
6
4
6
11
6
2
1
14
19
13
5
1
8
19
8
5
6
0
11
6
1
2
4
4
16
7
11
4
19
17
6
15
18
2
2
2
11
1
7
11
6
4
3
1
0
15
19
6
1 15
2 19
3 3
4 2
5 12
6 11
7 15
8 4
9 0
10 5
11 1
12 0
13 4
14 17
15 1
16 12
17 19
18 2
19 19
20 16
21 15
22 4
23 11
24 6
25 6
26 0
27 2
28 12
29 4
30 19
31 2
32 4
33 11
34 3
35 7
36 1
37 5
38 2
39 3
40 4
41 8
42 6
43 19
44 4
45 8
46 17
47 2
48 9
49 3
50 2
51 3
52 2
53 2
54 6
55 14
56 6
57 2
58 3
59 2
60 11
61 16
62 19
63 2
64 17
65 8
66 10
67 6
68 11
69 2
70 19
71 14
72 7
73 19
74 2
75 2
76 19
77 2
78 0
79 8
80 14
81 11
82 13
83 18
84 14
85 5
86 1
87 2
88 16
89 19
90 8
91 6
92 14
93 7
94 12
95 19
96 5
97 15
98 1
99 16
100 1
101 15
102 4
103 19
104 2
105 12
106 2
107 0
108 2
109 6
110 19
111 4
112 3
113 1
114 3
115 16
116 12
117 19
118 1
119 2
120 2
121 9
122 4
123 2
124 8
125 12
126 3
127 2
128 6
129 4
130 2
131 14
132 7
133 6
134 16
135 2
136 7
137 7
138 17
139 18
140 4
141 15
142 2
143 9
144 4
145 2
146 2
147 16
148 4
149 16
150 6
151 12
152 19
153 19
154 1
155 6
156 17
157 19
158 4
159 12
160 4
161 6
162 2
163 2
164 9
165 14
166 5
167 18
168 6
169 7
170 7
171 1
172 2
173 2
174 2
175 19
176 18
177 2
178 1
179 2
180 1
181 13
182 9
183 0
184 19
185 2
186 2
187 4
188 18
189 4
190 14
191 15
192 2
193 0
194 0
195 2
196 2
197 2
198 3
199 2
200 15
201 8
202 8
203 15
204 17
205 5
206 19
207 3
208 9
209 19
210 15
211 4
212 15
213 1
214 2
215 16
216 0
217 4
218 11
219 1
220 1
221 19
222 17
223 14
224 17
225 18
226 7
227 6
228 15
229 18
230 5
231 2
232 2
233 6
234 2
235 11
236 2
237 7
238 6
239 19
240 2
241 15
242 16
243 10
244 2
245 0
246 2
247 14
248 14
249 8
250 9
251 2
252 2
253 13
254 4
255 8
256 18
257 4
258 16
259 6
260 9
261 6
262 4
263 19
264 1
265 7
266 2
267 2
268 19
269 8
270 1
271 2
272 16
273 14
274 0
275 16
276 2
277 17
278 4
279 9
280 12
281 2
282 14
283 0
284 2
285 4
286 15
287 0
288 3
289 8
290 11
291 1
292 2
293 16
294 1
295 15
296 14
297 19
298 15
299 19
300 16
301 1
302 2
303 1
304 14
305 2
306 1
307 2
308 12
309 19
310 2
311 19
312 14
313 12
314 4
315 18
316 2
317 14
318 2
319 19
320 2
321 8
322 18
323 4
324 19
325 6
326 8
327 19
328 17
329 2
330 17
331 2
332 1
333 16
334 6
335 2
336 3
337 2
338 12
339 1
340 2
341 1
342 16
343 4
344 1
345 6
346 9
347 2
348 5
349 2
350 2
351 2
352 2
353 14
354 4
355 5
356 1
357 14
358 5
359 15
360 19
361 2
362 1
363 0
364 0
365 14
366 2
367 3
368 4
369 9
370 1
371 19
372 8
373 5
374 17
375 4
376 2
377 6
378 12
379 6
380 6
381 0
382 16
383 1
384 1
385 15
386 4
387 8
388 5
389 2
390 11
391 1
392 10
393 6
394 3
395 0
396 12
397 15
398 12
399 19
400 8
401 17
402 2
403 6
404 4
405 6
406 2
407 2
408 4
409 16
410 4
411 8
412 15
413 4
414 2
415 6
416 14
417 9
418 14
419 16
420 2
421 2
422 2
423 2
424 11
425 6
426 5
427 3
428 16
429 15
430 16
431 2
432 6
433 9
434 8
435 13
436 16
437 8
438 4
439 6
440 11
441 1
442 3
443 8
444 4
445 19
446 2
447 12
448 13
449 4
450 17
451 16
452 2
453 15
454 4
455 9
456 2
457 15
458 9
459 8
460 14
461 2
462 16
463 5
464 1
465 4
466 19
467 3
468 2
469 11
470 8
471 8
472 15
473 8
474 16
475 12
476 17
477 8
478 2
479 7
480 1
481 6
482 18
483 8
484 2
485 0
486 17
487 2
488 14
489 8
490 19
491 15
492 3
493 9
494 2
495 4
496 1
497 4
498 4
499 5
500 9
501 16
502 3
503 1
504 2
505 2
506 12
507 4
508 12
509 4
510 8
511 11
512 6
513 11
514 1
515 2
516 15
517 1
518 12
519 16
520 9
521 4
522 2
523 0
524 2
525 19
526 19
527 1
528 18
529 2
530 4
531 13
532 15
533 8
534 3
535 11
536 4
537 16
538 2
539 14
540 2
541 3
542 15
543 12
544 9
545 4
546 11
547 0
548 4
549 17
550 4
551 12
552 6
553 8
554 12
555 7
556 13
557 15
558 15
559 7
560 10
561 11
562 3
563 2
564 4
565 2
566 15
567 6
568 2
569 4
570 7
571 3
572 3
573 14
574 1
575 8
576 5
577 4
578 16
579 5
580 17
581 6
582 8
583 15
584 11
585 2
586 1
587 13
588 6
589 2
590 14
591 2
592 0
593 0
594 11
595 4
596 11
597 15
598 16
599 16
600 15
601 3
602 15
603 14
604 6
605 6
606 2
607 6
608 2
609 9
610 17
611 5
612 4
613 15
614 2
615 5
616 2
617 9
618 9
619 2
620 19
621 17
622 4
623 14
624 3
625 1
626 18
627 17
628 17
629 19
630 17
631 5
632 9
633 2
634 12
635 8
636 15
637 18
638 6
639 1
640 16
641 15
642 15
643 2
644 6
645 4
646 6
647 11
648 6
649 2
650 1
651 14
652 19
653 13
654 5
655 1
656 8
657 19
658 8
659 5
660 6
661 0
662 11
663 6
664 1
665 2
666 4
667 4
668 16
669 7
670 11
671 4
672 19
673 17
674 6
675 15
676 18
677 2
678 2
679 2
680 11
681 1
682 7
683 11
684 6
685 4
686 3
687 1
688 0
689 15
690 19
691 6