From a045854112207a0e0fca9434faca84d2ec36e270 Mon Sep 17 00:00:00 2001 From: unknown Date: Sat, 24 Apr 2021 19:36:41 +0200 Subject: [PATCH] =?UTF-8?q?gotowe=20w=20pe=C5=82ni=20rozwi=C4=85zanie?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- dev-0/out.tsv | 87 +++++++ main.py | 46 ++++ stopwords.txt | 350 +++++++++++++++++++++++++ test-A/out.tsv | 691 +++++++++++++++++++++++++++++++++++++++++++++++++ 4 files changed, 1174 insertions(+) create mode 100644 dev-0/out.tsv create mode 100644 main.py create mode 100644 stopwords.txt create mode 100644 test-A/out.tsv diff --git a/dev-0/out.tsv b/dev-0/out.tsv new file mode 100644 index 0000000..b2a7a98 --- /dev/null +++ b/dev-0/out.tsv @@ -0,0 +1,87 @@ +23 +29 +0 +33 +6 +15 +7 +9 +2 +8 +28 +15 +1 +5 +17 +17 +36 +45 +3 +22 +30 +18 +10 +11 +24 +18 +4 +10 +43 +1 +12 +25 +46 +44 +17 +19 +44 +23 +4 +33 +2 +35 +47 +26 +13 +32 +19 +41 +49 +34 +37 +0 +25 +18 +16 +11 +41 +41 +25 +14 +19 +21 +47 +20 +15 +14 +25 +13 +31 +19 +6 +3 +13 +47 +48 +40 +24 +16 +26 +38 +8 +27 +8 +22 +25 +39 +42 \ No newline at end of file diff --git a/main.py b/main.py new file mode 100644 index 0000000..c46a99f --- /dev/null +++ b/main.py @@ -0,0 +1,46 @@ +from sklearn.feature_extraction.text import TfidfVectorizer +import numpy as np +import sklearn.metrics +from sklearn.cluster import KMeans + +stopwords = [] +with open('./stopwords.txt') as file: + for stopword in file.readlines(): + stopwords.append(stopword.strip()) + +with open("./dev-0/in.tsv") as in_file: + content = in_file.readlines() + content_clear = [] + for string in content: + to_add = "" + for word in string.split(): + word = word.strip().replace(",", "") + if word not in stopwords: + to_add = to_add + " " + word + content_clear.append(to_add) + vectorizer = TfidfVectorizer() + vectors = vectorizer.fit_transform(content_clear) + #wyniki jakie uzyskałam wachały się między 0.72 a 0.74. Sprawdziłam to na 20 próbach i nigdy nie spadły poniżej 0.70 + kmeans = KMeans(n_clusters=50).fit(vectors) + result=kmeans.labels_ + result=np.array2string(result, separator='\n').replace(" ", "").replace("[", "").replace("]", "") + with open("./dev-0/out.tsv", "w") as file: + file.write(result) + +with open("./test-A/in.tsv") as in_file: + content = in_file.readlines() + content_clear = [] + for string in content: + to_add = "" + for word in string.split(): + word = word.strip().replace(",", "") + if word not in stopwords: + to_add = to_add + " " + word + content_clear.append(to_add) + vectorizer = TfidfVectorizer() + vectors = vectorizer.fit_transform(content_clear) + kmeans = KMeans(n_clusters=50).fit(vectors) + result=kmeans.labels_ + result=np.array2string(result, separator='\n').replace(" ", "").replace("[", "") + with open("./test-A/out.tsv", "w") as file: + file.write(result) \ No newline at end of file diff --git a/stopwords.txt b/stopwords.txt new file mode 100644 index 0000000..2e72387 --- /dev/null +++ b/stopwords.txt @@ -0,0 +1,350 @@ +a +aby +ach +acz +aczkolwiek +aj +albo +ale +alez +ależ +ani +az +aż +bardziej +bardzo +beda +bedzie +bez +deda +będą +bede +będę +będzie +bo +bowiem +by +byc +być +byl +byla +byli +bylo +byly +był +była +było +były +bynajmniej +cala +cali +caly +cała +cały +ci +cie +ciebie +cię +co +cokolwiek +cos +coś +czasami +czasem +czemu +czy +czyli +daleko +dla +dlaczego +dlatego +do +dobrze +dokad +dokąd +dosc +dość +duzo +dużo +dwa +dwaj +dwie +dwoje +dzis +dzisiaj +dziś +gdy +gdyby +gdyz +gdyż +gdzie +gdziekolwiek +gdzies +gdzieś +go +i +ich +ile +im +inna +inne +inny +innych +iz +iż +ja +jak +jakas +jakaś +jakby +jaki +jakichs +jakichś +jakie +jakis +jakiś +jakiz +jakiż +jakkolwiek +jako +jakos +jakoś +ją +je +jeden +jedna +jednak +jednakze +jednakże +jedno +jego +jej +jemu +jesli +jest +jestem +jeszcze +jeśli +jezeli +jeżeli +juz +już +kazdy +każdy +kiedy +kilka +kims +kimś +kto +ktokolwiek +ktora +ktore +ktorego +ktorej +ktory +ktorych +ktorym +ktorzy +ktos +ktoś +która +które +którego +której +który +których +którym +którzy +ku +lat +lecz +lub +ma +mają +mało +mam +mi +miedzy +między +mimo +mna +mną +mnie +moga +mogą +moi +moim +moj +moja +moje +moze +mozliwe +mozna +może +możliwe +można +mój +mu +musi +my +na +nad +nam +nami +nas +nasi +nasz +nasza +nasze +naszego +naszych +natomiast +natychmiast +nawet +nia +nią +nic +nich +nie +niech +niego +niej +niemu +nigdy +nim +nimi +niz +niż +no +o +obok +od +około +on +ona +one +oni +ono +oraz +oto +owszem +pan +pana +pani +po +pod +podczas +pomimo +ponad +poniewaz +ponieważ +powinien +powinna +powinni +powinno +poza +prawie +przeciez +przecież +przed +przede +przedtem +przez +przy +roku +rowniez +również +sam +sama +są +sie +się +skad +skąd +soba +sobą +sobie +sposob +sposób +swoje +ta +tak +taka +taki +takie +takze +także +tam +te +tego +tej +ten +teraz +też +to +toba +tobą +tobie +totez +toteż +totobą +trzeba +tu +tutaj +twoi +twoim +twoj +twoja +twoje +twój +twym +ty +tych +tylko +tym +u +w +wam +wami +was +wasz +wasza +wasze +we +według +wiele +wielu +więc +więcej +wlasnie +właśnie +wszyscy +wszystkich +wszystkie +wszystkim +wszystko +wtedy +wy +z +za +zaden +zadna +zadne +zadnych +zapewne +zawsze +ze +zeby +zeznowu +zł +znow +znowu +znów +zostal +został +żaden +żadna +żadne +żadnych +że +żeby diff --git a/test-A/out.tsv b/test-A/out.tsv new file mode 100644 index 0000000..dea4f31 --- /dev/null +++ b/test-A/out.tsv @@ -0,0 +1,691 @@ +9 +18 +3 +29 +38 +10 +15 +41 +48 +49 +47 +4 +19 +47 +4 +45 +7 +15 +7 +4 +31 +44 +43 +40 +31 +42 +4 +46 +8 +12 +11 +19 +10 +3 +14 +26 +16 +1 +3 +13 +29 +15 +7 +28 +25 +25 +1 +17 +3 +4 +3 +19 +1 +40 +32 +5 +26 +3 +39 +23 +21 +7 +31 +38 +4 +20 +40 +43 +11 +18 +32 +14 +7 +38 +19 +15 +1 +19 +29 +6 +43 +2 +12 +45 +38 +26 +1 +31 +18 +29 +22 +32 +14 +38 +7 +36 +9 +47 +42 +22 +0 +44 +7 +27 +49 +1 +39 +31 +39 +34 +28 +3 +4 +3 +36 +38 +18 +30 +6 +1 +33 +41 +27 +1 +30 +3 +7 +5 +13 +21 +6 +14 +21 +5 +25 +14 +35 +8 +12 +35 +27 +25 +33 +35 +45 +1 +30 +35 +21 +5 +7 +7 +18 +4 +40 +46 +7 +48 +38 +44 +40 +19 +1 +33 +32 +45 +12 +22 +14 +14 +30 +1 +0 +27 +7 +12 +32 +25 +1 +34 +2 +17 +6 +16 +42 +6 +41 +12 +41 +46 +9 +6 +16 +15 +8 +48 +1 +3 +11 +9 +29 +24 +9 +47 +7 +36 +3 +33 +18 +9 +43 +16 +38 +30 +36 +16 +8 +43 +26 +4 +4 +5 +11 +18 +12 +14 +22 +39 +12 +16 +1 +21 +5 +30 +10 +48 +14 +40 +18 +1 +9 +4 +20 +25 +9 +26 +46 +32 +25 +33 +1 +30 +2 +28 +24 +12 +19 +25 +22 +17 +5 +28 +38 +8 +35 +41 +1 +34 +24 +4 +25 +4 +46 +42 +43 +1 +47 +28 +17 +45 +31 +32 +19 +15 +28 +31 +29 +3 +7 +43 +39 +1 +39 +30 +26 +32 +36 +31 +7 +25 +22 +39 +30 +46 +15 +26 +38 +30 +18 +30 +18 +11 +49 +28 +12 +34 +46 +38 +8 +6 +23 +12 +44 +18 +45 +23 +18 +22 +6 +47 +43 +39 +38 +5 +1 +3 +30 +49 +4 +26 +36 +21 +19 +4 +40 +33 +30 +16 +1 +6 +6 +43 +11 +8 +7 +39 +46 +38 +9 +7 +8 +47 +6 +30 +32 +6 +3 +28 +33 +22 +18 +15 +16 +24 +8 +8 +5 +7 +40 +39 +4 +47 +47 +47 +9 +28 +25 +16 +27 +43 +36 +20 +30 +3 +4 +30 +9 +38 +7 +29 +47 +1 +5 +28 +40 +4 +37 +28 +32 +19 +29 +31 +41 +1 +5 +46 +33 +46 +35 +6 +48 +30 +5 +43 +22 +29 +3 +38 +30 +4 +0 +40 +33 +41 +2 +21 +15 +13 +40 +10 +26 +3 +23 +28 +7 +34 +45 +2 +8 +25 +24 +27 +31 +28 +37 +5 +16 +33 +29 +46 +6 +1 +15 +34 +13 +7 +3 +1 +27 +29 +38 +5 +23 +9 +45 +25 +24 +39 +36 +26 +22 +12 +23 +48 +6 +16 +1 +41 +24 +18 +27 +3 +33 +1 +13 +39 +28 +35 +38 +17 +47 +3 +30 +6 +26 +49 +44 +38 +28 +47 +43 +22 +43 +30 +24 +16 +34 +7 +8 +17 +28 +6 +45 +39 +18 +31 +7 +12 +13 +19 +2 +9 +29 +3 +6 +44 +46 +4 +46 +1 +3 +35 +38 +37 +43 +10 +26 +19 +28 +28 +45 +29 +24 +25 +14 +2 +9 +9 +14 +20 +43 +3 +23 +41 +19 +39 +5 +1 +41 +14 +3 +3 +46 +30 +29 +16 +28 +27 +16 +26 +5 +19 +39 +43 +24 +39 +2 +5 +1 +46 +34 +12 +47 +43 +44 +43 +9 +21 +22 +27 +3 +4 +11 +4 +5 +16 +28 +33 +37 +25 +16 +19 +9 +27 +16 +6 +17 +33 +30 +18 +11 +44 +46 +3 +21 +12 +47 +47 +7 +47 +16 +33 +0 +19 +23 +9 +12 +40 +26 +13 +4 +9 +19 +5 +41 +22 +39 +5 +47 +26 +46 +18 +2 +16 +26 +1 +36 +24 +16 +5 +37 +43 +39 +30 +30 +19 +26 +27 +42 +6 +28 +7 +31 +22 +9 +12 +7 +26 +6 +43 +26 +14 +43 +22 +19 +3 +4 +27 +9 +31 +22] \ No newline at end of file