linear regresion solution

2022-04-25 17:37:56 +02:00 · 2022-04-25 17:37:56 +02:00 · 64b2bf963d
commit 64b2bf963d
parent b775a221e6
4 changed files with 428607 additions and 0 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev-1/out.tsv
+++ b/dev-1/out.tsv
--- a/run.py
+++ b/run.py
@ -0,0 +1,69 @@
 import lzma
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 from sklearn.metrics import recall_score
 from sklearn.metrics import precision_score
 from sklearn.metrics import accuracy_score
 from sklearn.metrics import f1_score
 X_train = []
 Y_train = []
 stop = 0
 with lzma.open('train/in.tsv.xz', 'rt', encoding="utf-8") as f:
    for line in f:
        if(stop > 5000):
            break
        else:
            text = line.strip()
            X_train.append(text)
            #stop = stop + 1
 stop = 0
 with open('train/expected.tsv', 'rt') as f2:
    for line in f2:
        if(stop > 5000):
                break
        else:
            text = line.strip()
            Y_train.append(int(text))
            #stop = stop + 1
 vectorizer = TfidfVectorizer()
 document_vectors = vectorizer.fit_transform(X_train)
 model = LogisticRegression()
 model.fit(document_vectors, Y_train)
 def readFile(filename):
    X_dev = []
    with open(filename, 'r', encoding="utf-8") as dev_in:
        for line in dev_in:
            text = line.split("\t")[0].strip()
            X_dev.append(text)
    return X_dev
 def writePred(filename, predictions):
    with open(filename, "w") as out_file:
        for pred in predictions:
            out_file.write(str(pred) + "\n")
 X_dev = readFile('dev-0/in.tsv')
 X_dev = vectorizer.transform(X_dev)
 predictions = model.predict(X_dev)
 writePred('dev-0/out.tsv',predictions)
 X_dev = readFile('dev-1/in.tsv')
 X_dev = vectorizer.transform(X_dev)
 predictions = model.predict(X_dev)
 writePred('dev-1/out.tsv',predictions)
 X_dev = readFile('test-A/in.tsv')
 X_dev = vectorizer.transform(X_dev)
 predictions = model.predict(X_dev)
 writePred('test-A/out.tsv',predictions)
--- a/test-A/out.tsv
+++ b/test-A/out.tsv