auta-public/linear-regression.py

import pandas as pd
import plotly.express as px
from pandas import DataFrame
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression, Ridge, RidgeCV
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures

col_names = ["price", "mileage", "year", "brand", "engine_type", "engine_cap"]
col_names_in = ["mileage", "year", "brand", "engine_type", "engine_cap"]
df_train = pd.read_csv(
    "train/train.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names
)
df = df_train
dev0 = pd.read_csv(
    "dev-0/in.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names_in
)
testA = pd.read_csv(
    "test-A/in.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names_in
)

test = pd.read_csv("dev-0/expected.tsv", error_bad_lines=False, header=None, sep="\t")
Y_a = test[0]

brands = df.brand.value_counts()[:35].index.tolist()


def preprocess_data(df: DataFrame, brands: list) -> DataFrame:
    """Prepare dataset to linear regression"""

    df.brand = df.brand.apply(lambda x: x if x in brands else "0")
    df["year"] = df.year / 2000
    df["mileage"] = df.mileage ** 0.3
    df["engine_cap"] = df.engine_cap * 0.3
    df["brand"] = df["brand"].str.lower()
    scaler = preprocessing.RobustScaler()
    df = pd.get_dummies(df, columns=["brand", "engine_type"])
    # takes 1k rmse more ;(
    df[["mileage", "year", "engine_cap", "year"]] = scaler.fit_transform(
        df[["mileage", "year", "engine_cap", "year"]]
    )
    poly = PolynomialFeatures(2, interaction_only=True)
    df = poly.fit_transform(df)

    return df


indexes = df_train[(df_train.price < 1000) & (df_train.price > 1)].index
df_train.drop(indexes, inplace=True)

index = df_train[(df_train.mileage > 900000)].index
df_train.drop(index, inplace=True)
Y_train = df_train["price"]
df_train.drop("price", axis=1, inplace=True)
# df_train = df_train[df_train.price not in range (2, 1000)]

df_train = preprocess_data(df_train, brands)
dev0 = preprocess_data(dev0, brands)
testA = preprocess_data(testA, brands)

# fig = px.imshow(df_train.corr())
# fig.show()


lm_model = LinearRegression()

# clf = RidgeCV(alphas=[0.1, 0.01, 0.001, 0.00001,  1e-1], cv=10, fit_intercept=True, normalize=True)
# clf.fit(df_train, Y_train)
lm_model.fit(df_train, Y_train)

dev0_predicted = lm_model.predict(dev0)
testA_predicted = lm_model.predict(testA)

# dev0_predicted2 = clf.predict(dev0)

pd.Series(dev0_predicted).to_csv("dev-0/out.tsv", sep="\t", index=False, header=False)
pd.Series(testA_predicted).to_csv("test-A/out.tsv", sep="\t", index=False, header=False)
print(mean_squared_error(Y_a, dev0_predicted, squared=False))
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00			`import pandas as pd`
Improve script 2021-05-12 15:59:34 +02:00			`import plotly.express as px`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00			`from pandas import DataFrame`
			`from sklearn import preprocessing`
Improve script 2021-05-12 15:59:34 +02:00			`from sklearn.linear_model import LinearRegression, Ridge, RidgeCV`
			`from sklearn.metrics import mean_squared_error`
			`from sklearn.preprocessing import PolynomialFeatures`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
			`col_names = ["price", "mileage", "year", "brand", "engine_type", "engine_cap"]`
			`col_names_in = ["mileage", "year", "brand", "engine_type", "engine_cap"]`
Improve script 2021-05-12 15:59:34 +02:00			`df_train = pd.read_csv(`
			`"train/train.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names`
			`)`
			`df = df_train`
			`dev0 = pd.read_csv(`
			`"dev-0/in.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names_in`
			`)`
			`testA = pd.read_csv(`
			`"test-A/in.tsv", error_bad_lines=False, header=None, sep="\t", names=col_names_in`
			`)`

			`test = pd.read_csv("dev-0/expected.tsv", error_bad_lines=False, header=None, sep="\t")`
			`Y_a = test[0]`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
Improve script 2021-05-12 15:59:34 +02:00			`brands = df.brand.value_counts()[:35].index.tolist()`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
Improve script 2021-05-12 15:59:34 +02:00
			`def preprocess_data(df: DataFrame, brands: list) -> DataFrame:`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00			`"""Prepare dataset to linear regression"""`

Improve script 2021-05-12 15:59:34 +02:00			`df.brand = df.brand.apply(lambda x: x if x in brands else "0")`
			`df["year"] = df.year / 2000`
			`df["mileage"] = df.mileage ** 0.3`
			`df["engine_cap"] = df.engine_cap * 0.3`
			`df["brand"] = df["brand"].str.lower()`
			`scaler = preprocessing.RobustScaler()`
			`df = pd.get_dummies(df, columns=["brand", "engine_type"])`
			`# takes 1k rmse more ;(`
			`df[["mileage", "year", "engine_cap", "year"]] = scaler.fit_transform(`
			`df[["mileage", "year", "engine_cap", "year"]]`
			`)`
			`poly = PolynomialFeatures(2, interaction_only=True)`
			`df = poly.fit_transform(df)`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
			`return df`


Improve script 2021-05-12 15:59:34 +02:00			`indexes = df_train[(df_train.price < 1000) & (df_train.price > 1)].index`
			`df_train.drop(indexes, inplace=True)`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
Improve script 2021-05-12 15:59:34 +02:00			`index = df_train[(df_train.mileage > 900000)].index`
			`df_train.drop(index, inplace=True)`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00			`Y_train = df_train["price"]`
Improve script 2021-05-12 15:59:34 +02:00			`df_train.drop("price", axis=1, inplace=True)`
			`# df_train = df_train[df_train.price not in range (2, 1000)]`

			`df_train = preprocess_data(df_train, brands)`
			`dev0 = preprocess_data(dev0, brands)`
			`testA = preprocess_data(testA, brands)`

			`# fig = px.imshow(df_train.corr())`
			`# fig.show()`

Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
			`lm_model = LinearRegression()`

Improve script 2021-05-12 15:59:34 +02:00			`# clf = RidgeCV(alphas=[0.1, 0.01, 0.001, 0.00001, 1e-1], cv=10, fit_intercept=True, normalize=True)`
			`# clf.fit(df_train, Y_train)`
			`lm_model.fit(df_train, Y_train)`

			`dev0_predicted = lm_model.predict(dev0)`
			`testA_predicted = lm_model.predict(testA)`

			`# dev0_predicted2 = clf.predict(dev0)`
Linear regression solution RMSE 34k 2021-05-06 12:41:21 +02:00
			`pd.Series(dev0_predicted).to_csv("dev-0/out.tsv", sep="\t", index=False, header=False)`
			`pd.Series(testA_predicted).to_csv("test-A/out.tsv", sep="\t", index=False, header=False)`
Improve script 2021-05-12 15:59:34 +02:00			`print(mean_squared_error(Y_a, dev0_predicted, squared=False))`