added data preparation for trainset

2023-04-20 18:48:29 +02:00 · 2023-04-20 18:48:29 +02:00 · 054eb5a64b
commit 054eb5a64b
parent b000b5f248
1 changed files with 22 additions and 0 deletions
--- a/create-dataset.py
+++ b/create-dataset.py
@ -0,0 +1,22 @@
+import pandas
+import os
+from sklearn.model_selection import train_test_split
+
+
+CUTOFF = int(os.environ['CUTOFF'])
+
+salaries = pandas.read_csv('./ium_458023/ds_salaries.csv',engine='python',encoding='ISO-8859-1',sep=',')
+
+salaries = salaries.dropna()
+
+salaries = salaries.sample(100)
+
+X,Y = salaries,salaries
+
+# SPLIT BETWEEN DEV, TRAINS, AND TEST
+salaries_train, salaries_temp, salaries_train, salaries_temp = train_test_split(X, Y, test_size=0.2, random_state=1)
+salaries_dev, salaries_test, salaries_dev, salaries_test = train_test_split(salaries_temp, salaries_temp, test_size=0.2)
+
+salaries_train.to_csv('salaries_train.csv', index=False)
+salaries_dev.to_csv('salaries_dev.csv', index=False)
+salaries_test.to_csv('salaries_test.csv', index=False)