Remove unnecessary files

Add results
2021-05-06 22:51:10 +02:00 · 2021-05-06 22:50:03 +02:00 · 2021-05-06 22:38:36 +02:00 · 2021-04-28 20:32:51 +02:00 · 2021-04-27 20:34:48 +02:00
5 changed files with 45842 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+.idea
+train.tsv
+*.sav
+*.pickle
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev-1/out.tsv
+++ b/dev-1/out.tsv
--- a/solution.py
+++ b/solution.py
@ -0,0 +1,55 @@
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.linear_model import LinearRegression
+import pickle
+
+filename = 'regressor.sav'
+vec_file = 'vectorizer.pickle'
+regressor = LinearRegression()
+# regressor = pickle.load(open(filename, 'rb'))
+vectorizer = TfidfVectorizer()
+# vectorizer = pickle.load(open(vec_file, 'rb'))
+
+
+def train():
+    with open('train/train.tsv') as f:
+        docs = [line.rstrip() for line in f]
+    docs_preprocessed = []
+    y = []
+    for doc in docs:
+        row = doc.split('\t')
+        start_date = row[0]
+        end_date = row[1]
+        end_date = end_date.split(' ')
+        if len(end_date) > 1:
+            row.insert(4, end_date[1])
+        end_date = end_date[0]
+        doc = row[4:5][0]
+        docs_preprocessed.append(doc)
+        y.append((float(start_date) + float(end_date))/2)
+    y = [float(value) for value in y]
+    print('Fitting vectorizer...')
+    x = vectorizer.fit_transform(docs_preprocessed)
+    pickle.dump(vectorizer, open(vec_file, 'wb'))
+    print('DONE!')
+    print('Fitting regressor...')
+    regressor.fit(x, y)
+    pickle.dump(regressor, open(filename, 'wb'))
+    print('DONE!')
+
+
+def classify(path):
+    print("Predicting for", path)
+    with open(path + 'in.tsv') as f:
+        docs = [line.rstrip() for line in f]
+    test_x = vectorizer.transform(docs)
+    predictions = regressor.predict(test_x)
+    with open(path + 'out.tsv', 'w') as file:
+        for prediction in predictions:
+            file.write("%f\n" % prediction)
+
+
+train()
+classify('dev-0/')
+classify('dev-1/')
+classify('test-A/')
+
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
Author	SHA1	Message	Date
Jakub Kolasiński	762fcdebfa	Remove unnecessary files	2021-05-06 22:51:10 +02:00
Jakub Kolasiński	1a52693ead	Remove unnecessary files	2021-05-06 22:50:03 +02:00
Jakub Kolasiński	1287c86fce	Add results	2021-05-06 22:38:36 +02:00
kuba	e328161046	Fix preprocessing	2021-04-28 20:32:51 +02:00
Jakub Kolasiński	6a796f68ee	Add solution for sample data	2021-04-27 20:34:48 +02:00