done

2021-05-16 22:15:55 +02:00 · 2021-05-16 22:15:55 +02:00 · d2386fec3f
commit d2386fec3f
parent 647c099815
6 changed files with 141767 additions and 0 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev-0/set5.py
+++ b/dev-0/set5.py
@ -0,0 +1,14 @@
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import LinearRegression
+import string
+import csv
+
+dev = []
+with open("out.tsv", 'r', encoding="utf-8") as out:
+       dev = [line.strip() for line in out]
+
+i = -1
+with open("fix.tsv", 'w', encoding="utf-8") as fix:
+  for score in dev:
+    score = int(float(score))
+    fix.write(str(score) + ".5\n")
--- a/skrypt.py
+++ b/skrypt.py
@ -0,0 +1,49 @@
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import LinearRegression
+import string
+import csv
+
+date = []
+text = []
+with open("train/train.tsv", 'r', encoding="utf-8") as train:
+    for line in csv.reader(train, delimiter="\t"):
+        date.append((float(line[0]) + float(line[1]))/2)
+        text.append(line[4])
+
+lr = LinearRegression()
+vectorizer = TfidfVectorizer()
+text = vectorizer.fit_transform(text)
+print("Fitting lr")
+lr.fit(text, date)
+
+textIn = []
+print("reading in.tsv")
+with open("dev-0/in.tsv", 'r', encoding="utf-8") as dev0:
+    for line in csv.reader(dev0, delimiter="\t"):
+        textIn.append(line[0])
+
+textIn = vectorizer.transform(textIn)
+devOut = lr.predict(textIn)
+
+print("writing out.tsv")
+with open("dev-0/out.tsv", 'w', encoding="utf-8") as dev0:
+     for w in devOut:
+        dev0.write(str(w))
+        dev0.write("\n")
+
+## Test A
+textIn = []
+print("reading test in.tsv")
+with open("test-A/in.tsv", 'r', encoding="utf-8") as test:
+    for line in csv.reader(test, delimiter="\t"):
+        textIn.append(line[0])
+
+textIn = vectorizer.transform(textIn)
+testOut = lr.predict(textIn)
+
+print("writing test out.tsv")
+with open("test-A/out.tsv", 'w', encoding="utf-8") as test:
+     for w in testOut:
+        test.write(str(w))
+        test.write("\n")
+
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
--- a/test-A/set5.py
+++ b/test-A/set5.py
@ -0,0 +1,14 @@
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import LinearRegression
+import string
+import csv
+
+dev = []
+with open("out.tsv", 'r', encoding="utf-8") as out:
+       dev = [line.strip() for line in out]
+
+i = -1
+with open("fix.tsv", 'w', encoding="utf-8") as fix:
+  for score in dev:
+    score = int(float(score))
+    fix.write(str(score) + ".5\n")
--- a/train/train.tsv
+++ b/train/train.tsv