XGBoost ready-made

output
2020-06-07 14:44:41 +02:00 · 2020-06-07 13:15:01 +02:00 · 2020-06-06 23:39:33 +02:00 · 2020-06-06 20:28:38 +02:00
6 changed files with 428589 additions and 0 deletions
--- a/5
+++ b/5
@ -0,0 +1,5 @@
+FROM ubuntu:latest
+WORKDIR /isi
+COPY . /isi
+RUN pip install -r /isi/requirements.txt
+CMD ["program.py"]
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev-1/out.tsv
+++ b/dev-1/out.tsv
--- a/program.py
+++ b/program.py
@ -0,0 +1,42 @@
+import pandas as pd
+import csv
+from sklearn.feature_extraction.text import CountVectorizer
+from xgboost import XGBClassifier
+import numpy as np
+
+def load_data(path):
+     with open(path, encoding='utf-8') as f:
+          data = f.readlines()
+     data = [x.strip() for x in data]
+     return data
+
+def save_data(path, data):
+     with open(path, "w") as out:
+          for line in data:
+               out.write(str(line[1]))
+               out.write("\n")
+
+def program():
+     train = load_data("train/in.tsv")
+     y = load_data("train/expected.tsv")
+
+     vectorizer = CountVectorizer()
+     x_vectorizer = vectorizer.fit_transform(train)
+     clf = XGBClassifier().fit(x_vectorizer, y)
+     
+     dev0 = load_data("dev-0/in.tsv")
+     dev0_vectorizer = vectorizer.transform(dev0)
+     y_dev0 = clf.predict_proba(dev0_vectorizer)
+     save_data("dev-0/out.tsv", y_dev0)
+
+     dev1 = load_data("dev-1/in.tsv")
+     dev1_vectorizer = vectorizer.transform(dev1)
+     y_dev1 = clf.predict_proba(dev1_vectorizer)
+     save_data("dev-1/out.tsv", y_dev1)
+
+     testA = load_data("test-A/in.tsv")
+     testA_vectorizer = vectorizer.transform(testA)
+     y_testA = clf.predict_proba(testA_vectorizer)
+     save_data("test-A/out.tsv", y_testA)
+
+program()
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,4 @@
+pandas
+sklearn
+xgboost
+numpy
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
Author	SHA1	Message	Date
s152483	8d803fd3f2	XGBoost ready-made	2020-06-07 14:44:41 +02:00
s152483	7f96df7f3b	output	2020-06-07 13:15:01 +02:00
s152483	5f664f5e30	output	2020-06-06 23:39:33 +02:00
s152483	da9ee22a0d	output	2020-06-06 20:28:38 +02:00