Run training

2021-05-14 00:58:33 +02:00 · 2021-05-14 00:58:33 +02:00 · b73ac931cb
commit b73ac931cb
parent 999da6af32
3 changed files with 11 additions and 9 deletions
--- a/8
+++ b/8
@ -10,11 +10,13 @@ stages {
           steps { 
            withEnv(["KAGGLE_USERNAME=${params.KAGGLE_USERNAME}",
            "KAGGLE_KEY=${params.KAGGLE_KEY}", "CUTOFF=${params.CUTOFF}" ]) {
+                // Skrypt z lab 5 - prosta sieć neuronowa
                sh 'python3 linear_regression.py'
+                // Wygenerowanie podziału danych
                sh 'python3 script.py'
-                // Uruchomienie skryptu
-                sh "chmod 777 ./data_download.sh"
-                sh "./data_download.sh"
+                // Stare skrypty bashowe do podziału zbioru
+                // sh "chmod 777 ./data_download.sh"
+                // sh "./data_download.sh"
                // Zapisanie artefaktów
                archiveArtifacts "MoviesOnStreamingPlatforms_updated.dev"
                archiveArtifacts "MoviesOnStreamingPlatforms_updated.test"
--- a/script.py
+++ b/script.py
@ -34,7 +34,11 @@ test_ratio = 0.1

 film_train, film_test = train_test_split(film_data, test_size=1 - train_ratio)

-film_valid, film_test = train_test_split(film_test, test_size=test_ratio/(test_ratio + validation_ratio)) 
+film_valid, film_test = train_test_split(film_test, test_size=test_ratio/(test_ratio + validation_ratio))
+
+pd.to_csv(film_train, 'MoviesOnStreamingPlatforms_updated.train')
+pd.to_csv(film_test, 'MoviesOnStreamingPlatforms_updated.test')
+pd.to_csv(film_valid, 'MoviesOnStreamingPlatforms_updated.valid')

 # Statystki głównego zbioru i podzbiorów
 for i, data_set in enumerate([film_data, film_train, film_valid, film_test]):
--- a/training.py
+++ b/training.py
@ -9,17 +9,13 @@ from tensorflow.keras.layers.experimental import preprocessing

 pd.set_option("display.max_columns", None)

-cols = ['0','ID','Title','Year','Age','IMDb','Rotten Tomatoes','Netflix','Hulu','Prime Video','Disney+','Type','Directors','Genres','Country','Language','Runtime']
-
 # Wczytanie danych
-train_data = pd.read_csv("./MoviesOnStreamingPlatforms_updated.train", header=None, usecols=cols)
+train_data = pd.read_csv("./MoviesOnStreamingPlatforms_updated.train")

 # Stworzenie modelu 
 columns_to_use = ['Year', 'Runtime', 'Netflix']
 train_X = tf.convert_to_tensor(train_data[columns_to_use])
 train_Y = tf.convert_to_tensor(train_data[["IMDb"]])
-test_X = tf.convert_to_tensor(test_data[columns_to_use])
-test_Y = tf.convert_to_tensor(test_data[["IMDb"]])

 normalizer = preprocessing.Normalization(input_shape=[3,])
 normalizer.adapt(train_X)