Zaktualizuj 'Main.py'

Usuń 'out.tsv'
ADD: Basic linear regression model
2021-05-26 12:24:19 +02:00 · 2021-05-18 22:55:13 +02:00 · 2021-05-18 22:54:49 +02:00 · 2021-05-18 22:54:26 +02:00 · 2021-05-18 22:53:35 +02:00 · 2021-05-18 22:53:02 +02:00
3 changed files with 2045 additions and 0 deletions
--- a/Main.py
+++ b/Main.py
@ -0,0 +1,45 @@
 #basic imports
 import pandas
 from sklearn.linear_model import LinearRegression
 #basic paths
 openTrain = './train/train.tsv'
 openDev = './dev-0/in.tsv'
 openTest = './test-A/in.tsv'
 #read from files
 with open('./names') as f_names:
    names = f_names.read().rstrip('\n').split('\t')
 read0 = pandas.read_table(openTrain, sep='\t', names=names)
 read1 = pandas.read_table(openDev, sep='\t', names=['mileage', 'year', 'brand', 'engineType', 'engineCapacity'])
 #basic normalization & filtering
 trainSet = pandas.get_dummies(read0, columns=['engineType'])
 categories1 = trainSet.select_dtypes(include=object).columns.values
 for c in categories1:
    trainSet[c] = trainSet[c].astype('category').cat.codes
 trainSet = trainSet.loc[(trainSet['price'] > 10000)] #to avoid suspicious observations
 #for some reason this value gives the smallest RMSE according to geval, while smaller or bigger
 #price gives RMSE >34k
 #Model training
 X = trainSet.loc[:, trainSet.columns != 'price']
 solution = LinearRegression().fit(X, trainSet['price'])
 devSet = pandas.get_dummies(read1, columns=['engineType'])
 categories2 = devSet.select_dtypes(include=object).columns.values
 for c in categories2:
    devSet[c] = devSet[c].astype('category').cat.codes
 predict = solution.predict(devSet)
 predict.tofile("./dev-0/out.tsv", sep='\n')
 testSet = pandas.get_dummies(read1, columns=['engineType'])
 categories3 = testSet.select_dtypes(include=object).columns.values
 for c in categories3:
    testSet[c] = testSet[c].astype('category').cat.codes
 predict = solution.predict(devSet)
 predict.tofile("./test-A/out.tsv", sep='\n')
 #Outcome: 33956 for prices >10000
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
Author	SHA1	Message	Date
Damian Bregier	2dfefc4943	Zaktualizuj 'Main.py'	2021-05-26 12:24:19 +02:00
Damian Bregier	69b5c6854c	Usuń 'out.tsv'	2021-05-18 22:55:13 +02:00
Damian Bregier	98be186be9	ADD: Basic linear regression model	2021-05-18 22:54:49 +02:00
Damian Bregier	d5eaea4978	ADD: Basic linear regression model	2021-05-18 22:54:26 +02:00
Damian Bregier	5ffeb20917	ADD: Basic linear regression model	2021-05-18 22:53:35 +02:00
Damian Bregier	f4616b8399	ADD: Basic linear regression model	2021-05-18 22:53:02 +02:00