IUM_s464980/get_dataset.py

import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
import sys
import os

os.environ["KAGGLE_USERNAME"] = sys.argv[1]
os.environ["KAGGLE_KEY"] = sys.argv[2]

os.system("kaggle datasets download -d nikhil7280/student-performance-multiple-linear-regression --unzip")

data = pd.read_csv("Student_Performance.csv")
print(data.head())
data.drop_duplicates(inplace=True)
data["Extracurricular Activities"] = data["Extracurricular Activities"].replace({'Yes': 1, 'No': 0})

data[data.columns[:-1]] = preprocessing.StandardScaler().fit_transform(data[data.columns[:-1]])
print(data.head())
df_train, df_test = train_test_split(data, test_size=0.2, random_state=21, shuffle=True)
data.to_csv("dataset.csv", index=False)
df_train.to_csv("df_train.csv", index=False)
df_test.to_csv("df_test.csv", index=False)