retroc2/retroc.ipynb

3.2 KiB

import pandas as pd
import csv
from sklearn.linear_model import LinearRegression
from stop_words import get_stop_words
from sklearn.feature_extraction.text import TfidfVectorizer
#trening

#dane treningowe
train_data = pd.read_csv('train/train.tsv.xz', compression='xz', header=None, sep='\t')

#regresja liniowa
LR = LinearRegression()
#vectorizer
VEC = TfidfVectorizer(stop_words=get_stop_words('polish'))
#wektoryzacja danych treningowych
train_x = VEC.fit_transform(train_data[4])
#średnia dat
dm = (train_data[0] + train_data[1])/2
#trening
LR.fit(train_x, dm)
LinearRegression()
#dev-0 predict

#dane treningowe
dev0_data = pd.read_csv('dev-0/in.tsv', header=None, error_bad_lines=False, quoting=csv.QUOTE_NONE, sep='\t')

#wektoryzacja danych treningowych
dev0_x = VEC.transform(dev0_data[0])
#predykcja
dev0_y = LR.predict(dev0_x)
#zapis wyników
dev0_y.tofile('dev-0/out.tsv', sep='\n')
#dev-1 predict

#dane treningowe
dev1_data = pd.read_csv('dev-1/in.tsv', header=None, error_bad_lines=False, quoting=csv.QUOTE_NONE, sep='\t')

#wektoryzacja danych treningowych
dev1_x = VEC.transform(dev1_data[0])
#predykcja
dev1_y = LR.predict(dev1_x)
#zapis wyników
dev1_y.tofile('dev-1/out.tsv', sep='\n')
#test-A predict

#dane treningowe
testA_data = pd.read_csv('test-A/in.tsv', header=None, error_bad_lines=False, quoting=csv.QUOTE_NONE, sep='\t')

#wektoryzacja danych treningowych
testA_x = VEC.transform(testA_data[0])
#predykcja
testA_y = LR.predict(testA_x)
#zapis wyników
testA_y.tofile('test-A/out.tsv', sep='\n')