done

2021-05-02 15:25:30 +02:00
3 changed files with 10982 additions and 0 deletions
--- a/Skrypt.py
+++ b/Skrypt.py
@ -0,0 +1,83 @@
+#!/usr/bin/env python
+# coding: utf-8
+
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.naive_bayes import MultinomialNB
+import string
+import csv
+from stop_words import get_stop_words
+
+stop_words = get_stop_words('polish')
+
+gnb = MultinomialNB()
+vectorizer = TfidfVectorizer()
+
+
+zdanie = []
+cyfra = []
+with open("train/train.tsv") as tsv:
+    for line in csv.reader(tsv, delimiter="\t"):
+        cyfra.append(line[0])
+        zdanie.append(line[1])
+        
+    prep0=[]
+    for x in zdanie:
+        temp = ""
+        for y in x.split():
+            y = y.strip().replace(",", "")
+            if y not in stop_words:
+                 temp = temp + " " + y
+        prep0.append(temp)
+
+    zdanie2 = vectorizer.fit_transform(prep0)
+    gnb.fit(zdanie2, cyfra)
+
+    
+    
+inp1 = open('dev-0/in.tsv', 'r', encoding="utf-8")
+out1 = open("dev-0/out.tsv", "w")
+
+linia1 = inp1.readlines()
+inp1.close()
+
+prep=[]
+for x in linia1:
+    temp = ""
+    for y in x.split():
+        y = y.strip().replace(",", "")
+        if y not in stop_words:
+             temp = temp + " " + y
+    prep.append(temp)
+    
+vectorizer1 = vectorizer.transform(prep)
+predict1 = gnb.predict(vectorizer1)
+print(predict1)
+
+for x in predict1:
+    out1.write(str(x) + '\n')
+out1.close()
+
+
+
+inp2 = open('test-A/in.tsv', 'r', encoding="utf-8")
+out2 = open("test-A/out.tsv", "w")
+
+linia2 = inp2.readlines()
+inp2.close()
+
+prep2=[]
+for x2 in linia2:
+    temp2 = ""
+    for y2 in x2.split():
+        y2 = y2.strip().replace(",", "")
+        if y2 not in stop_words:
+             temp2 = temp2 + " " + y2
+    prep2.append(temp2)
+    
+vectorizer2 = vectorizer.transform(prep2)
+predict2 = gnb.predict(vectorizer2)    
+print(predict2)
+
+for y in predict2:
+    out2.write(str(y) + '\n')
+out2.close()
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/test-A/out.tsv
+++ b/test-A/out.tsv