From 09e4d039399bdc4e2c3130f1d8313361afd24a86 Mon Sep 17 00:00:00 2001 From: Mateusz Kociszewski Date: Sun, 25 Apr 2021 15:39:23 +0200 Subject: [PATCH] zad --- Untitled.py | 92 +++++++ dev-0/out.tsv | 87 +++++++ stop_words.txt | 350 +++++++++++++++++++++++++ test-A/out.tsv | 691 +++++++++++++++++++++++++++++++++++++++++++++++++ 4 files changed, 1220 insertions(+) create mode 100644 Untitled.py create mode 100644 dev-0/out.tsv create mode 100644 stop_words.txt create mode 100644 test-A/out.tsv diff --git a/Untitled.py b/Untitled.py new file mode 100644 index 0000000..ac853ab --- /dev/null +++ b/Untitled.py @@ -0,0 +1,92 @@ +#!/usr/bin/env python +# coding: utf-8 + +# In[51]: + + +from sklearn.feature_extraction.text import TfidfVectorizer + + + +# In[52]: + + +import numpy as np +import sklearn.metrics +from sklearn.cluster import KMeans + + +# In[53]: + + +stopwords = [] +with open('./stop_words.txt', encoding='utf-8') as file: + for stopword in file.readlines(): + stopwords.append(stopword.strip()) + + +# In[54]: + + +b = [] +c = [] + + +# In[55]: + + +print(stopwords) + + +# In[56]: + + +with open("./dev-0/in.tsv", encoding='utf-8') as in_file: + a = in_file.readlines() + + + +# In[57]: + + +for string in a: + to_add = "" + for word in string.split(): + word = word.strip().replace(",", "") + if word not in stopwords: + to_add = to_add + " " + word + b.append(to_add) +kmeans = KMeans(n_clusters=30).fit(TfidfVectorizer().fit_transform(b)) +out=np.array2string(kmeans.labels_, separator='\n').replace(" ", "").replace("[", "").replace("]", "") +with open("./dev-0/out.tsv", "w") as file: + file.write(out) + + +# In[58]: + + +with open("./test-A/in.tsv", encoding='utf-8') as in_file: + a = in_file.readlines() + + +# In[59]: + + +for string in a: + to_add = "" + for word in string.split(): + word = word.strip().replace(",", "") + if word not in stopwords: + to_add = to_add + " " + word + c.append(to_add) +kmeans = KMeans(n_clusters=30).fit(TfidfVectorizer().fit_transform(content_clear)) +out=np.array2string(kmeans.labels_, separator='\n').replace(" ", "").replace("[", "") +with open("./test-A/out.tsv", "w") as file: + file.write(result) + + +# In[ ]: + + + + diff --git a/dev-0/out.tsv b/dev-0/out.tsv new file mode 100644 index 0000000..453e041 --- /dev/null +++ b/dev-0/out.tsv @@ -0,0 +1,87 @@ +26 +16 +2 +19 +11 +24 +0 +9 +6 +10 +9 +24 +8 +1 +22 +22 +27 +11 +7 +1 +2 +28 +5 +12 +9 +28 +3 +5 +1 +21 +14 +14 +20 +15 +22 +20 +8 +26 +3 +19 +6 +4 +20 +19 +13 +18 +23 +21 +29 +20 +9 +2 +14 +28 +4 +12 +21 +21 +14 +15 +20 +25 +14 +20 +24 +15 +14 +13 +10 +23 +11 +7 +13 +0 +8 +17 +9 +4 +19 +11 +10 +9 +10 +1 +20 +15 +1 \ No newline at end of file diff --git a/stop_words.txt b/stop_words.txt new file mode 100644 index 0000000..2e72387 --- /dev/null +++ b/stop_words.txt @@ -0,0 +1,350 @@ +a +aby +ach +acz +aczkolwiek +aj +albo +ale +alez +ależ +ani +az +aż +bardziej +bardzo +beda +bedzie +bez +deda +będą +bede +będę +będzie +bo +bowiem +by +byc +być +byl +byla +byli +bylo +byly +był +była +było +były +bynajmniej +cala +cali +caly +cała +cały +ci +cie +ciebie +cię +co +cokolwiek +cos +coś +czasami +czasem +czemu +czy +czyli +daleko +dla +dlaczego +dlatego +do +dobrze +dokad +dokąd +dosc +dość +duzo +dużo +dwa +dwaj +dwie +dwoje +dzis +dzisiaj +dziś +gdy +gdyby +gdyz +gdyż +gdzie +gdziekolwiek +gdzies +gdzieś +go +i +ich +ile +im +inna +inne +inny +innych +iz +iż +ja +jak +jakas +jakaś +jakby +jaki +jakichs +jakichś +jakie +jakis +jakiś +jakiz +jakiż +jakkolwiek +jako +jakos +jakoś +ją +je +jeden +jedna +jednak +jednakze +jednakże +jedno +jego +jej +jemu +jesli +jest +jestem +jeszcze +jeśli +jezeli +jeżeli +juz +już +kazdy +każdy +kiedy +kilka +kims +kimś +kto +ktokolwiek +ktora +ktore +ktorego +ktorej +ktory +ktorych +ktorym +ktorzy +ktos +ktoś +która +które +którego +której +który +których +którym +którzy +ku +lat +lecz +lub +ma +mają +mało +mam +mi +miedzy +między +mimo +mna +mną +mnie +moga +mogą +moi +moim +moj +moja +moje +moze +mozliwe +mozna +może +możliwe +można +mój +mu +musi +my +na +nad +nam +nami +nas +nasi +nasz +nasza +nasze +naszego +naszych +natomiast +natychmiast +nawet +nia +nią +nic +nich +nie +niech +niego +niej +niemu +nigdy +nim +nimi +niz +niż +no +o +obok +od +około +on +ona +one +oni +ono +oraz +oto +owszem +pan +pana +pani +po +pod +podczas +pomimo +ponad +poniewaz +ponieważ +powinien +powinna +powinni +powinno +poza +prawie +przeciez +przecież +przed +przede +przedtem +przez +przy +roku +rowniez +również +sam +sama +są +sie +się +skad +skąd +soba +sobą +sobie +sposob +sposób +swoje +ta +tak +taka +taki +takie +takze +także +tam +te +tego +tej +ten +teraz +też +to +toba +tobą +tobie +totez +toteż +totobą +trzeba +tu +tutaj +twoi +twoim +twoj +twoja +twoje +twój +twym +ty +tych +tylko +tym +u +w +wam +wami +was +wasz +wasza +wasze +we +według +wiele +wielu +więc +więcej +wlasnie +właśnie +wszyscy +wszystkich +wszystkie +wszystkim +wszystko +wtedy +wy +z +za +zaden +zadna +zadne +zadnych +zapewne +zawsze +ze +zeby +zeznowu +zł +znow +znowu +znów +zostal +został +żaden +żadna +żadne +żadnych +że +żeby diff --git a/test-A/out.tsv b/test-A/out.tsv new file mode 100644 index 0000000..a617097 --- /dev/null +++ b/test-A/out.tsv @@ -0,0 +1,691 @@ +4 +18 +31 +20 +26 +16 +30 +1 +20 +12 +5 +15 +9 +7 +29 +12 +17 +35 +17 +29 +7 +37 +16 +7 +26 +21 +10 +0 +1 +39 +9 +9 +16 +31 +19 +36 +15 +6 +2 +9 +20 +22 +17 +9 +15 +6 +10 +30 +31 +29 +31 +35 +4 +27 +5 +6 +29 +31 +39 +20 +30 +12 +24 +26 +29 +31 +27 +16 +1 +39 +5 +19 +17 +0 +20 +6 +10 +39 +20 +0 +34 +38 +13 +4 +26 +15 +4 +6 +18 +20 +27 +5 +19 +26 +23 +17 +4 +26 +34 +22 +23 +37 +17 +32 +39 +10 +35 +0 +35 +11 +28 +31 +29 +31 +17 +26 +26 +29 +21 +10 +7 +1 +22 +10 +25 +2 +17 +6 +28 +22 +21 +19 +24 +6 +34 +19 +10 +0 +13 +14 +32 +34 +7 +9 +21 +24 +17 +9 +24 +6 +17 +17 +18 +29 +21 +15 +23 +19 +25 +9 +27 +11 +10 +30 +5 +26 +13 +8 +19 +19 +29 +39 +9 +22 +17 +13 +9 +36 +10 +11 +3 +7 +7 +34 +19 +21 +1 +13 +1 +5 +4 +21 +15 +10 +36 +19 +10 +31 +10 +4 +20 +33 +4 +0 +12 +12 +31 +30 +18 +4 +5 +15 +29 +7 +30 +15 +1 +16 +36 +29 +9 +6 +21 +34 +13 +19 +8 +35 +13 +15 +10 +29 +6 +30 +16 +21 +19 +27 +15 +27 +4 +29 +31 +20 +0 +36 +5 +5 +34 +30 +10 +36 +38 +28 +33 +13 +37 +14 +8 +7 +6 +1 +23 +29 +10 +1 +10 +11 +33 +15 +20 +22 +5 +7 +28 +25 +34 +28 +7 +8 +2 +5 +6 +7 +28 +14 +7 +31 +17 +16 +35 +10 +35 +0 +20 +5 +17 +14 +17 +15 +35 +35 +29 +5 +6 +36 +24 +6 +26 +20 +18 +5 +25 +9 +13 +11 +5 +7 +4 +21 +15 +13 +37 +0 +20 +20 +12 +4 +21 +6 +39 +35 +24 +6 +10 +31 +29 +25 +29 +29 +29 +24 +28 +29 +27 +7 +23 +15 +10 +5 +21 +16 +5 +1 +12 +35 +5 +12 +32 +17 +1 +27 +21 +0 +5 +0 +31 +9 +30 +8 +18 +20 +15 +34 +1 +5 +6 +12 +27 +35 +19 +0 +34 +16 +4 +28 +36 +15 +32 +16 +21 +31 +27 +31 +29 +25 +4 +26 +23 +16 +34 +10 +6 +1 +27 +29 +35 +1 +13 +9 +20 +14 +1 +5 +6 +5 +30 +5 +0 +21 +0 +2 +5 +16 +8 +33 +31 +26 +34 +29 +14 +27 +30 +22 +3 +24 +22 +1 +27 +16 +36 +31 +20 +32 +17 +11 +25 +3 +1 +17 +33 +22 +4 +15 +30 +6 +37 +30 +20 +5 +21 +10 +18 +11 +9 +23 +31 +27 +32 +20 +20 +4 +20 +4 +17 +24 +33 +35 +19 +36 +8 +13 +20 +18 +21 +15 +10 +0 +33 +26 +32 +31 +30 +10 +28 +35 +28 +9 +26 +7 +34 +31 +0 +21 +2 +25 +37 +0 +28 +39 +16 +27 +16 +0 +9 +15 +11 +17 +5 +30 +9 +0 +8 +35 +18 +24 +24 +13 +11 +9 +3 +4 +20 +31 +21 +28 +34 +29 +5 +10 +31 +14 +26 +7 +1 +16 +34 +9 +0 +28 +25 +20 +33 +29 +19 +38 +4 +4 +19 +31 +16 +31 +36 +1 +24 +0 +6 +39 +1 +19 +31 +31 +5 +0 +20 +15 +28 +32 +15 +29 +6 +7 +35 +16 +17 +35 +38 +6 +7 +5 +11 +7 +22 +16 +37 +0 +4 +24 +13 +32 +31 +29 +5 +29 +6 +33 +34 +4 +30 +18 +15 +9 +4 +32 +15 +21 +7 +30 +0 +18 +34 +37 +5 +31 +29 +13 +34 +34 +23 +34 +15 +30 +5 +25 +15 +4 +13 +27 +36 +7 +29 +4 +20 +6 +1 +8 +35 +27 +22 +36 +5 +36 +38 +15 +36 +10 +17 +33 +15 +27 +34 +16 +35 +0 +4 +9 +36 +22 +23 +21 +28 +17 +0 +8 +4 +13 +12 +36 +21 +16 +36 +19 +16 +8 +9 +31 +29 +32 +4 +20 +8] \ No newline at end of file