ium_444507/lab05_deepLearning.py

#!/usr/bin/python

import numpy as np
import torch
from torch import nn
from torch.autograd import Variable
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import torch.nn.functional as F
import pandas as pd
from sklearn import preprocessing
import sys


class Model(nn.Module):
    def __init__(self, input_dim):
        super(Model, self).__init__()
        self.layer1 = nn.Linear(input_dim, 100)
        self.layer2 = nn.Linear(100, 60)
        self.layer3 = nn.Linear(60, 5)

    def forward(self, x):
        x = F.relu(self.layer1(x))
        x = F.relu(self.layer2(x))
        x = F.softmax(self.layer3(x))  # To check with the loss function
        return x


def load_dataset_raw():
    """ Load data from .csv file. """
    cars = pd.read_csv('./Car_Prices_Poland_Kaggle.csv', usecols=[1, 4, 5, 6, 10], sep=',')
    return cars


def remove_rows(dataset):
    # dataset.drop(dataset[dataset['mark'] == 'alfa-romeo'].index, inplace=True)
    # dataset.drop(dataset[dataset['mark'] == 'chevrolet'].index, inplace=True)
    # dataset.drop(dataset[dataset['mark'] == 'mitsubishi'].index, inplace=True)
    # dataset.drop(dataset[dataset['mark'] == 'mini'].index, inplace=True)
    # audi bmw ford opel volkswagen

    new_data = dataset.loc[(dataset['mark'] == 'audi') | (dataset['mark'] == 'bmw') | (dataset['mark'] == 'ford') | (dataset['mark'] == 'opel') | (dataset['mark'] == 'volkswagen')]
    return new_data
    # dataset = dataset.drop(dataset)
    # return dataset


def prepare_dataset_raw(dataset):
    """ Label make column"""
    le = preprocessing.LabelEncoder()
    mark_column = np.array(dataset[:]['mark'])
    le.fit(mark_column)

    print(list(le.classes_))
    lab = le.transform(mark_column)
    feat = dataset.drop(['mark'], axis=1).to_numpy()

    mm_scaler = preprocessing.MinMaxScaler()
    feat = mm_scaler.fit_transform(feat)

    return lab, feat


# def draw_plot(lbl):
# need to import matplotlib to work
#     plt.hist(lbl, bins=[i for i in range(len(set(lbl)))], edgecolor="black")
#     plt.xticks(np.arange(0, len(set(lbl)), 1))
#     plt.show()

# Prepare dataset
print("Loading dataset...")
dataset = load_dataset_raw()
print("Dataset loaded")

print("Preparing dataset...")
dataset = remove_rows(dataset)
labels, features = prepare_dataset_raw(dataset)
print("Dataset prepared")


features_train, features_test, labels_train, labels_test = train_test_split(features, labels, random_state=42,
                                                                            shuffle=True)
# Training
model = Model(features_train.shape[1])
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
loss_fn = nn.CrossEntropyLoss()

# number of epochs is parametrized
try:
    epochs = int(sys.argv[1])
except Exception as e:
    print(e)
    print("Setting default epochs value to 1000.")
    epochs = 1000

print(f"Number of epochs: {epochs}")

print("Starting model training...")
x_train, y_train = Variable(torch.from_numpy(features_train)).float(), Variable(torch.from_numpy(labels_train)).long()
for epoch in range(1, epochs + 1):
    print("Epoch #", epoch)
    y_pred = model(x_train)
    loss = loss_fn(y_pred, y_train)
    print(f"The loss calculated: {loss}")

    # Zero gradients
    optimizer.zero_grad()
    loss.backward()  # Gradients
    optimizer.step()  # Update
print("Model training finished")

x_test = Variable(torch.from_numpy(features_test)).float()
pred = model(x_test)
pred = pred.detach().numpy()
print("The accuracy is", accuracy_score(labels_test, np.argmax(pred, axis=1)))

# Checking for first value
# print(np.argmax(model(x_test[0]).detach().numpy(), axis=0))
# print(labels_test[0])

print("Saving model to file...")
torch.save(model, "CarPrices_pytorch_model.pkl")
print("Model saved with name: CarPrices_pytorch_model.pkl")

saved_model = torch.load("CarPrices_pytorch_model.pkl")
print(np.argmax(saved_model(x_test[0]).detach().numpy(), axis=0))

pd_predictions = pd.DataFrame(pred)
pd_predictions.to_csv("./prediction_results.csv")