LinearRegression

preprocesing
Read data
2021-05-19 00:29:44 +02:00 · 2021-05-18 23:52:46 +02:00 · 2021-05-18 23:28:26 +02:00
3 changed files with 2080 additions and 0 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/main.py
+++ b/main.py
@ -0,0 +1,80 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+from sklearn.linear_model import LinearRegression
+from sklearn.metrics import mean_squared_error
+import numpy as np
+
+
+# Read column names
+col_names = []
+with open('names') as f:
+    col_names = f.read().strip().split('\t')
+
+# Read data
+dev = pd.read_table('dev-0/in.tsv', error_bad_lines=False,
+                    header=None, names=col_names[1:])
+test = pd.read_table('test-A/in.tsv', error_bad_lines=False,
+                     header=None,  names=col_names[1:])
+train = pd.read_table('train/train.tsv', error_bad_lines=False,
+                      header=None,  names=col_names)
+dev_expected = pd.read_table('dev-0/expected.tsv', error_bad_lines=False,
+                             header=None)
+
+# Create dummies for columns
+for c in train.select_dtypes(include=object).columns.values:
+    train[c] = train[c].astype("category").cat.codes
+for c in dev.select_dtypes(include=object).columns.values:
+    dev[c] = dev[c].astype("category").cat.codes
+for c in test.select_dtypes(include=object).columns.values:
+    test[c] = test[c].astype("category").cat.codes
+
+# Sprawdzanie ile jest odstających wartości dla price
+# fig, ax = plt.subplots(1, 2)
+# fig.set_figheight(15)
+# fig.set_figwidth(20)
+# ax[0].boxplot(train['price'])
+# ax[0].set_title('price')
+# ax[1].boxplot(train['mileage'])
+# ax[1].set_title('mileage')
+# plt.show()
+
+# Usunięcie odstających wartości
+priceMin = 0
+for price in train['price']:
+    if price < 1000:
+        priceMin += 1
+# print("Price min cut: " + str(priceMin))
+
+priceMax = 0
+for price in train['price']:
+    if price > 1000000:
+        priceMin += 1
+# print("Price max cut: " + str(priceMax))
+
+mileageMin = 0
+for m in train['mileage']:
+    if m < 100:
+        mileageMin += 1
+# print("Mileage min cut: " + str(mileageMin))
+
+train = train.loc[(train['price'] > 1000)]
+train = train.loc[(train['mileage'] > 100)]
+
+# Split train set to X and Y
+X_train = train.loc[:, train.columns != 'price']
+Y_train = train['price']
+
+# Create Linear regresion model
+clf = LinearRegression().fit(X_train, Y_train)
+
+# # Predict
+dev_p = clf.predict(dev)
+test_p = clf.predict(test)
+
+# # Accuracy
+score = mean_squared_error(dev_p, dev_expected, squared=False)
+print("RMSE: " + str(score))
+
+# # Save to files
+dev_p.tofile('./dev-0/out.tsv', sep='\n')
+test_p.tofile('./test-A/out.tsv', sep='\n')
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
Author	SHA1	Message	Date
Maciej Sobkowiak	811aceb045	LinearRegression	2021-05-19 00:29:44 +02:00
Maciej Sobkowiak	fc12d3b07a	preprocesing	2021-05-18 23:52:46 +02:00
Maciej Sobkowiak	68492e3dbb	Read data	2021-05-18 23:28:26 +02:00