test-A denormalized

out.tsv denormalized
linear sklearn v2
2021-05-17 18:17:13 +02:00 · 2021-05-17 18:13:50 +02:00 · 2021-05-17 17:52:41 +02:00 · 2021-05-15 16:59:59 +02:00
4 changed files with 2063 additions and 0 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev0_rmse.txt
+++ b/dev0_rmse.txt
@ -0,0 +1 @@
+1165319253.2984157
--- a/main.py
+++ b/main.py
@ -0,0 +1,62 @@
+import pandas as pd
+from pandas import DataFrame
+from sklearn.linear_model import LinearRegression
+from sklearn.metrics import mean_squared_error
+import numpy as np
+
+df = pd.read_csv("train/train.tsv", header=None, sep="\t", error_bad_lines=False, names=['price', 'mileage', 'year',
+                                                                                         'brand', 'engineType',
+                                                                                         'engineCapacity'])
+dev0 = pd.read_csv("dev-0/in.tsv", header=None, sep="\t", error_bad_lines=False, names=['mileage', 'year',
+                                                                                        'brand', 'engineType',
+                                                                                        'engineCapacity'])
+testA = pd.read_csv("test-A/in.tsv", header=None, sep="\t", error_bad_lines=False, names=['mileage', 'year',
+                                                                                          'brand', 'engineType',
+                                                                                          'engineCapacity'])
+expected = pd.read_csv("dev-0/expected.tsv", header=None, sep="\t", error_bad_lines=False, names=['price'])
+
+df = df[['price', 'year', 'mileage', 'engineCapacity']]
+
+min_val = np.min(df)
+max_val = np.max(df)
+df = (df - min_val) / (max_val - min_val)
+
+Y = df[['price']]
+X = df[['year', 'mileage', 'engineCapacity']]
+
+model = LinearRegression().fit(X, Y)
+
+dev0 = (dev0[['year', 'mileage', 'engineCapacity']] - min_val) / (max_val - min_val)
+testA = (testA[['year', 'mileage', 'engineCapacity']] - min_val) / (max_val - min_val)
+
+predicted_dev0 = model.predict(dev0[['year', 'mileage', 'engineCapacity']])
+predicted_testA = model.predict(testA[['year', 'mileage', 'engineCapacity']])
+
+predicted_denormalized = []
+for pred in predicted_dev0:
+    denorm = pred[0] * (max_val[0] - min_val[0]) + min_val[0]
+    predicted_denormalized.append(denorm)
+
+with open("dev-0/out.tsv", "w") as file:
+    for pred in predicted_denormalized:
+        file.write(str(pred) + "\n")
+
+predicted_denormalizedA = []
+for pred in predicted_testA:
+    denorm = pred[0] * (max_val[0] - min_val[0]) + min_val[0]
+    predicted_denormalizedA.append(denorm)
+
+with open("test-A/out.tsv", "w") as file:
+    for pred in predicted_denormalizedA:
+        file.write(str(pred) + "\n")
+
+
+predicted_denormalized = DataFrame(predicted_denormalized, columns=['pred'])
+error = mean_squared_error(expected, predicted_denormalized)
+for exp, pred in zip(expected.values, predicted_denormalized.values):
+    print(exp, pred)
+
+f = open("dev0_rmse.txt", "w")
+f.write(str(error))
+f.close()
+print(error)
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
Author	SHA1	Message	Date
Karolina Oparczyk	58fa4e4e57	test-A denormalized	2021-05-17 18:17:13 +02:00
Karolina Oparczyk	a8a249287f	out.tsv denormalized	2021-05-17 18:13:50 +02:00
Karolina Oparczyk	916bb37c66	linear sklearn v2	2021-05-17 17:52:41 +02:00
Karolina Oparczyk	4b141f3a8c	linear sklearn	2021-05-15 16:59:59 +02:00