Add script for zadanie 5

2021-04-25 21:38:20 +02:00 · 2021-04-25 21:38:20 +02:00 · 997481e85a
commit 997481e85a
parent aa0e85f270
5 changed files with 67 additions and 0 deletions
--- a/.ipynb_checkpoints/Untitled-checkpoint.ipynb
+++ b/.ipynb_checkpoints/Untitled-checkpoint.ipynb
@ -0,0 +1,6 @@
 {
 "cells": [],
 "metadata": {},
 "nbformat": 4,
 "nbformat_minor": 2
 }
--- a/1
+++ b/1
@ -15,5 +15,6 @@ RUN pip3 install sklearn
 RUN pip3 install pandas
 RUN pip3 install seaborn
 RUN pip3 install matplotlib
 RUN pip3 install tensorflow
 CMD ./run.sh
--- a/ium_zadanie1.py
+++ b/ium_zadanie1.py
@ -18,6 +18,7 @@ netflix_cleaned.date_added = netflix_cleaned.date_added.dropna().apply(lambda x:
 netflix_cleaned.update(netflix_cleaned.select_dtypes(include = 'object').apply(lambda col: col.str.lower()))
 movies = netflix_cleaned[netflix_cleaned.type == 'movie']
 series = netflix_cleaned[netflix_cleaned.type == 'tv show']
@ -32,6 +33,15 @@ movies = movies.join(pd.DataFrame(mlb.fit_transform(movies.pop('listed_in').str.
                          index=movies.index))
 movies.drop(['movies'], axis = 1)
 movies = movies[['release_year', 'duration',
       'rottentomatoes_audience_score',
       'action & adventure', 'anime features', 'children & family movies',
       'classic movies', 'comedies', 'cult movies', 'documentaries', 'dramas',
       'faith & spirituality', 'horror movies', 'independent movies',
       'international movies', 'lgbtq movies', 'movies', 'music & musicals',
       'romantic movies', 'sci-fi & fantasy', 'sports movies',
       'stand-up comedy', 'thrillers']]
 import sklearn
 from sklearn.model_selection import train_test_split
 movies_train, movies_test = sklearn.model_selection.train_test_split(movies,test_size=0.20, random_state=42)
@ -75,3 +85,9 @@ series_subsets = series_subsets.reset_index()
 ax = sns.boxplot(data = series_subsets, x = 'level_0', y = 'rottentomatoes_audience_score')
 ax.set(title = 'Audience score distribution between subsets', ylabel = 'Audience score on Rotten Tomatoes', xlabel = 'SUBSET')
 #plt.show(ax)
 movies_train.to_csv('movies_train.csv')
 movies_test.to_csv('movies_test.csv')
 movies_val.to_csv('movies_val.csv')
--- a/ium_zadanie5.py
+++ b/ium_zadanie5.py
@ -0,0 +1,43 @@
 import tensorflow as tf
 from keras.models import Sequential
 from keras import layers
 # from keras.layers import Flatten,Dense,Dropout, GlobalAveragePooling2D
 from keras.optimizers import Adam
 import numpy as np
 import pandas as pd
 from sklearn.metrics import mean_squared_error
 movies_train = pd.read_csv('movies_train.csv')
 movies_test = pd.read_csv('movies_test.csv')
 x_train = movies_train.copy()
 x_test = movies_test.copy()
 y_train = x_train.pop('rottentomatoes_audience_score')
 y_test = x_test.pop('rottentomatoes_audience_score')
 x_train.pop('Unnamed: 0')
 x_test.pop('Unnamed: 0')
 model = Sequential()
 model.add(layers.Input(shape=(22,)))
 model.add(layers.Dense(64))
 model.add(layers.Dense(64))
 model.add(layers.Dense(32))
 model.add(layers.Dense(1))
 model.compile(loss='mean_absolute_error', optimizer=Adam(0.001))
 history = model.fit(
    x = tf.convert_to_tensor(x_train, np.float32),
    y = y_train,
    verbose=0, epochs=99)
 y_predicted = model.predict(x_test, batch_size=64)
 error = mean_squared_error(y_test, y_predicted)
 np.savetxt("test_predictions.csv", y_predicted, delimiter=",")
 with open('evaluation.txt', 'w') as f:
  f.write('Mean square error: %d' % error)
--- a/run.sh
+++ b/run.sh
@ -1,3 +1,4 @@
 #!/bin/bash
 kaggle kernels output 'eugenioscionti/scraping-rotten-tomatoes-to-enrich-netflix-dataset'
 python3 ium_zadanie1.py
 python3 ium_zadanie5.py