diff --git a/script.ipynb b/script.ipynb index c647a1e..0b30f73 100644 --- a/script.ipynb +++ b/script.ipynb @@ -2,7 +2,7 @@ "cells": [ { "cell_type": "markdown", - "id": "municipal-plumbing", + "id": "academic-calvin", "metadata": {}, "source": [ "### Skrypt do ściagnięcia zbiory danych" @@ -11,7 +11,7 @@ { "cell_type": "code", "execution_count": null, - "id": "colored-lesbian", + "id": "compound-politics", "metadata": {}, "outputs": [], "source": [ @@ -24,20 +24,10 @@ }, { "cell_type": "code", - "execution_count": 2, - "id": "previous-oracle", + "execution_count": null, + "id": "hundred-limitation", "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Downloading dataset from Kaggle...\n", - "/bin/bash: kaggle: command not found\n", - "Done.\n" - ] - } - ], + "outputs": [], "source": [ "!echo \"Downloading dataset from Kaggle...\"\n", "!kaggle datasets download -d harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows\n", @@ -46,19 +36,10 @@ }, { "cell_type": "code", - "execution_count": 1, - "id": "desperate-amazon", + "execution_count": null, + "id": "provincial-circuit", "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "Unzipping archive\n", - "Done.\n" - ] - } - ], + "outputs": [], "source": [ "!echo \"Unzipping archive\"\n", "!files=$(unzip imdb-dataset-of-top-1000-movies-and-tv-shows.zip | tail -n +2 | cut -d ' ' -f 4)\n", @@ -67,8 +48,8 @@ }, { "cell_type": "code", - "execution_count": 57, - "id": "fixed-accessory", + "execution_count": 81, + "id": "armed-brisbane", "metadata": {}, "outputs": [], "source": [ @@ -80,8 +61,8 @@ }, { "cell_type": "code", - "execution_count": 59, - "id": "otherwise-atlas", + "execution_count": 82, + "id": "nominated-grenada", "metadata": {}, "outputs": [ { @@ -99,7 +80,7 @@ }, { "cell_type": "markdown", - "id": "strategic-brooks", + "id": "generic-success", "metadata": {}, "source": [ "## Usuwanie kolumn\n", @@ -109,8 +90,8 @@ }, { "cell_type": "code", - "execution_count": 48, - "id": "alternative-genealogy", + "execution_count": 83, + "id": "compliant-synthesis", "metadata": {}, "outputs": [], "source": [ @@ -122,8 +103,8 @@ }, { "cell_type": "code", - "execution_count": 58, - "id": "antique-nowhere", + "execution_count": 84, + "id": "reserved-whole", "metadata": {}, "outputs": [], "source": [ @@ -146,102 +127,8 @@ }, { "cell_type": "code", - "execution_count": 60, - "id": "furnished-dating", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "(831, 16)" - ] - }, - "execution_count": 60, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "data.describe(include='all')\n", - "data.shape" - ] - }, - { - "cell_type": "code", - "execution_count": 61, - "id": "political-pension", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "IMDB_Rating 7.9\n", - "No_of_Votes 186734.0\n", - "Gross 23530892.0\n", - "dtype: float64" - ] - }, - "execution_count": 61, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "data.median()" - ] - }, - { - "cell_type": "code", - "execution_count": 64, - "id": "fitting-houston", - "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "(601, 16)\n", - "(115, 16)\n", - "(115, 16)\n" - ] - } - ], - "source": [ - "from sklearn.model_selection import train_test_split\n", - "import sklearn\n", - "\n", - "data_train, data_test = train_test_split(data, test_size=230, random_state=1)\n", - "data_test, data_dev = train_test_split(data_test, test_size=115, random_state=1)\n", - "print(data_train.shape)\n", - "print(data_test.shape)\n", - "print(data_dev.shape)" - ] - }, - { - "cell_type": "code", - "execution_count": 65, - "id": "white-livestock", - "metadata": {}, - "outputs": [ - { - "data": { - "text/plain": [ - "0.1913477537437604" - ] - }, - "execution_count": 65, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "data_test.size/data_train.size" - ] - }, - { - "cell_type": "code", - "execution_count": 66, - "id": "sharp-criterion", + "execution_count": 86, + "id": "given-sodium", "metadata": {}, "outputs": [ { @@ -265,14 +152,12 @@ " \n", " \n", " \n", - " Poster_Link\n", " Series_Title\n", " Released_Year\n", " Certificate\n", " Runtime\n", " Genre\n", " IMDB_Rating\n", - " Overview\n", " Meta_score\n", " Director\n", " Star1\n", @@ -286,57 +171,51 @@ " \n", " \n", " count\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601.000000\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 601\n", - " 6.010000e+02\n", - " 6.010000e+02\n", + " 831\n", + " 831\n", + " 831\n", + " 831\n", + " 831\n", + " 831.000000\n", + " 831\n", + " 831\n", + " 831\n", + " 831\n", + " 831\n", + " 831\n", + " 8.310000e+02\n", + " 8.310000e+02\n", " \n", " \n", " unique\n", - " 601\n", - " 601\n", - " 90\n", - " 13\n", - " 121\n", - " 162\n", + " 831\n", + " 95\n", + " 14\n", + " 133\n", + " 182\n", " NaN\n", - " 601\n", - " 59\n", - " 378\n", - " 438\n", - " 530\n", + " 64\n", + " 472\n", " 556\n", - " 577\n", + " 704\n", + " 737\n", + " 782\n", " NaN\n", " NaN\n", " \n", " \n", " top\n", - " https://m.media-amazon.com/images/M/MV5BNGYyZG...\n", - " what ever happened to baby jane?\n", + " a streetcar named desire\n", " 2014\n", " U\n", " 101 min\n", " drama\n", " NaN\n", - " A few friends have a weekly fools' dinner, whe...\n", " \n", - " martin scorsese\n", - " clint eastwood\n", + " steven spielberg\n", + " tom hanks\n", " emma watson\n", - " joe pesci\n", + " rupert grint\n", " michael caine\n", " NaN\n", " NaN\n", @@ -344,19 +223,17 @@ " \n", " freq\n", " 1\n", - " 1\n", - " 22\n", - " 143\n", - " 17\n", - " 53\n", + " 31\n", + " 200\n", + " 21\n", + " 75\n", " NaN\n", - " 1\n", - " 53\n", - " 10\n", - " 10\n", + " 81\n", + " 13\n", + " 12\n", + " 7\n", " 5\n", " 4\n", - " 4\n", " NaN\n", " NaN\n", " \n", @@ -367,17 +244,15 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", - " 7.947920\n", + " 7.946931\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", - " NaN\n", - " 3.174649e+05\n", - " 6.775699e+07\n", + " 3.152499e+05\n", + " 6.803475e+07\n", " \n", " \n", " std\n", @@ -386,17 +261,15 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", - " 0.280238\n", + " 0.283204\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", " NaN\n", - " NaN\n", - " 3.407094e+05\n", - " 1.095511e+08\n", + " 3.436443e+05\n", + " 1.097500e+08\n", " \n", " \n", " min\n", @@ -405,7 +278,6 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", " 7.600000\n", " NaN\n", " NaN\n", @@ -413,7 +285,6 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", " 2.508800e+04\n", " 1.305000e+03\n", " \n", @@ -424,7 +295,6 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", " 7.700000\n", " NaN\n", " NaN\n", @@ -432,326 +302,8 @@ " NaN\n", " NaN\n", " NaN\n", - " NaN\n", - " 6.846300e+04\n", - " 3.151130e+06\n", - " \n", - " \n", - " 50%\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 7.900000\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 1.897160e+05\n", - " 2.365000e+07\n", - " \n", - " \n", - " 75%\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 8.100000\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 4.622520e+05\n", - " 7.891296e+07\n", - " \n", - " \n", - " max\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 9.200000\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " NaN\n", - " 2.303232e+06\n", - " 8.583730e+08\n", - " \n", - " \n", - "\n", - "" - ], - "text/plain": [ - " Poster_Link \\\n", - "count 601 \n", - "unique 601 \n", - "top https://m.media-amazon.com/images/M/MV5BNGYyZG... \n", - "freq 1 \n", - "mean NaN \n", - "std NaN \n", - "min NaN \n", - "25% NaN \n", - "50% NaN \n", - "75% NaN \n", - "max NaN \n", - "\n", - " Series_Title Released_Year Certificate Runtime \\\n", - "count 601 601 601 601 \n", - "unique 601 90 13 121 \n", - "top what ever happened to baby jane? 2014 U 101 min \n", - "freq 1 22 143 17 \n", - "mean NaN NaN NaN NaN \n", - "std NaN NaN NaN NaN \n", - "min NaN NaN NaN NaN \n", - "25% NaN NaN NaN NaN \n", - "50% NaN NaN NaN NaN \n", - "75% NaN NaN NaN NaN \n", - "max NaN NaN NaN NaN \n", - "\n", - " Genre IMDB_Rating Overview \\\n", - "count 601 601.000000 601 \n", - "unique 162 NaN 601 \n", - "top drama NaN A few friends have a weekly fools' dinner, whe... \n", - "freq 53 NaN 1 \n", - "mean NaN 7.947920 NaN \n", - "std NaN 0.280238 NaN \n", - "min NaN 7.600000 NaN \n", - "25% NaN 7.700000 NaN \n", - "50% NaN 7.900000 NaN \n", - "75% NaN 8.100000 NaN \n", - "max NaN 9.200000 NaN \n", - "\n", - " Meta_score Director Star1 Star2 Star3 \\\n", - "count 601 601 601 601 601 \n", - "unique 59 378 438 530 556 \n", - "top martin scorsese clint eastwood emma watson joe pesci \n", - "freq 53 10 10 5 4 \n", - "mean NaN NaN NaN NaN NaN \n", - "std NaN NaN NaN NaN NaN \n", - "min NaN NaN NaN NaN NaN \n", - "25% NaN NaN NaN NaN NaN \n", - "50% NaN NaN NaN NaN NaN \n", - "75% NaN NaN NaN NaN NaN \n", - "max NaN NaN NaN NaN NaN \n", - "\n", - " Star4 No_of_Votes Gross \n", - "count 601 6.010000e+02 6.010000e+02 \n", - "unique 577 NaN NaN \n", - "top michael caine NaN NaN \n", - "freq 4 NaN NaN \n", - "mean NaN 3.174649e+05 6.775699e+07 \n", - "std NaN 3.407094e+05 1.095511e+08 \n", - "min NaN 2.508800e+04 1.305000e+03 \n", - "25% NaN 6.846300e+04 3.151130e+06 \n", - "50% NaN 1.897160e+05 2.365000e+07 \n", - "75% NaN 4.622520e+05 7.891296e+07 \n", - "max NaN 2.303232e+06 8.583730e+08 " - ] - }, - "execution_count": 66, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "data_train.describe(include=\"all\")" - ] - }, - { - "cell_type": "code", - "execution_count": 102, - "id": "excessive-congress", - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", + " \n", + " \n", " \n", " \n", " \n", @@ -767,8 +319,8 @@ " \n", " \n", " \n", - " \n", - " \n", + " \n", + " \n", " \n", " \n", " \n", @@ -784,293 +336,8 @@ " \n", " \n", " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - "
Series_TitleReleased_YearCertificateRuntimeGenreIMDB_RatingMeta_scoreDirectorStar1Star2Star3Star4No_of_VotesGross
count200200200200200200.0000002002002002002002002.000000e+021.600000e+02
unique20075108898NaN49162172192197198NaNNaN
topin america2003A118 mindramaNaNwoody allenhumphrey bogartrobert downey jr.lea thompsonmark ruffaloNaNNaN
freq1648723NaN3054222NaNNaN
meanNaNNaNNaNNaNNaN7.949500NaNNaNNaNNaNNaNNaN2.826230e+057.249570e+07
stdNaNNaNNaNNaNNaN0.290381NaNNaNNaNNaNNaNNaN3.501372e+051.224538e+08
minNaNNaNNaNNaNNaN7.600000NaNNaNNaNNaNNaNNaN2.519800e+046.013000e+03
25%NaNNaNNaNNaNNaN7.700000NaNNaNNaNNaNNaNNaN5.038950e+043.786699e+067.143000e+043.253559e+06
50%NaNNaNNaN1.354640e+052.325044e+071.867340e+052.353089e+07
75%NaNNaNNaN3.851505e+057.603522e+07
maxNaNNaNNaNNaNNaN9.000000NaNNaNNaNNaNNaNNaN2.303232e+068.583730e+08
\n", - "
" - ], - "text/plain": [ - " Series_Title Released_Year Certificate Runtime Genre IMDB_Rating \\\n", - "count 200 200 200 200 200 200.000000 \n", - "unique 200 75 10 88 98 NaN \n", - "top in america 2003 A 118 min drama NaN \n", - "freq 1 6 48 7 23 NaN \n", - "mean NaN NaN NaN NaN NaN 7.949500 \n", - "std NaN NaN NaN NaN NaN 0.290381 \n", - "min NaN NaN NaN NaN NaN 7.600000 \n", - "25% NaN NaN NaN NaN NaN 7.700000 \n", - "50% NaN NaN NaN NaN NaN 7.900000 \n", - "75% NaN NaN NaN NaN NaN 8.100000 \n", - "max NaN NaN NaN NaN NaN 9.000000 \n", - "\n", - " Meta_score Director Star1 Star2 \\\n", - "count 200 200 200 200 \n", - "unique 49 162 172 192 \n", - "top woody allen humphrey bogart robert downey jr. \n", - "freq 30 5 4 2 \n", - "mean NaN NaN NaN NaN \n", - "std NaN NaN NaN NaN \n", - "min NaN NaN NaN NaN \n", - "25% NaN NaN NaN NaN \n", - "50% NaN NaN NaN NaN \n", - "75% NaN NaN NaN NaN \n", - "max NaN NaN NaN NaN \n", - "\n", - " Star3 Star4 No_of_Votes Gross \n", - "count 200 200 2.000000e+02 1.600000e+02 \n", - "unique 197 198 NaN NaN \n", - "top lea thompson mark ruffalo NaN NaN \n", - "freq 2 2 NaN NaN \n", - "mean NaN NaN 2.826230e+05 7.249570e+07 \n", - "std NaN NaN 3.501372e+05 1.224538e+08 \n", - "min NaN NaN 2.519800e+04 6.013000e+03 \n", - "25% NaN NaN 5.038950e+04 3.786699e+06 \n", - "50% NaN NaN 1.354640e+05 2.325044e+07 \n", - "75% NaN NaN 3.851505e+05 7.603522e+07 \n", - "max NaN NaN 2.303232e+06 8.583730e+08 " - ] - }, - "execution_count": 102, - "metadata": {}, - "output_type": "execute_result" - } - ], - "source": [ - "data_test.describe(include=\"all\")" - ] - }, - { - "cell_type": "code", - "execution_count": 103, - "id": "exact-prince", - "metadata": {}, - "outputs": [ - { - "data": { - "text/html": [ - "
\n", - "\n", - "\n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", - " \n", + " \n", + " \n", " \n", " \n", " \n", @@ -1087,7 +354,670 @@ " \n", " \n", " \n", - " \n", + " \n", + " \n", + " \n", + "
Series_TitleReleased_YearCertificateRuntimeGenreIMDB_RatingMeta_scoreDirectorStar1Star2Star3Star4No_of_VotesGross
count200200200200200200.0000002002002002002002002.000000e+021.660000e+02
unique20070108991NaN47162176191195199NaNNaN
topclerks2014U106 mindramaNaNsteven spielbergtoshirô mifuneed harrisfrances mcdormandlucy liuNaNNaN
freq11157617NaN3964332NaNNaN
meanNaNNaNNaNNaNNaN7.955500NaNNaNNaNNaNNaNNaN2.563293e+056.607024e+07
stdNaNNaNNaNNaNNaN0.279931NaNNaNNaNNaNNaNNaN3.208478e+051.035885e+08
minNaNNaNNaNNaNNaN7.600000NaNNaNNaNNaNNaNNaN2.593800e+046.460000e+03
25%NaNNaNNaNNaNNaN7.700000NaNNaNNaNNaNNaNNaN5.946375e+043.392077e+06
50%NaNNaNNaNNaNNaN7.900000NaNNaNNaNNaNNaNNaN1.256995e+052.249226e+07
75%NaNNaNNaNNaNNaN8.100000NaNNaNNaNNaNNaNNaN3.365100e+057.597351e+074.457210e+058.075089e+07
maxNaNNaN2.343110e+066.085817e+089.366622e+08
\n", + "
" + ], + "text/plain": [ + " Series_Title Released_Year Certificate Runtime Genre \\\n", + "count 831 831 831 831 831 \n", + "unique 831 95 14 133 182 \n", + "top a streetcar named desire 2014 U 101 min drama \n", + "freq 1 31 200 21 75 \n", + "mean NaN NaN NaN NaN NaN \n", + "std NaN NaN NaN NaN NaN \n", + "min NaN NaN NaN NaN NaN \n", + "25% NaN NaN NaN NaN NaN \n", + "50% NaN NaN NaN NaN NaN \n", + "75% NaN NaN NaN NaN NaN \n", + "max NaN NaN NaN NaN NaN \n", + "\n", + " IMDB_Rating Meta_score Director Star1 Star2 \\\n", + "count 831.000000 831 831 831 831 \n", + "unique NaN 64 472 556 704 \n", + "top NaN steven spielberg tom hanks emma watson \n", + "freq NaN 81 13 12 7 \n", + "mean 7.946931 NaN NaN NaN NaN \n", + "std 0.283204 NaN NaN NaN NaN \n", + "min 7.600000 NaN NaN NaN NaN \n", + "25% 7.700000 NaN NaN NaN NaN \n", + "50% 7.900000 NaN NaN NaN NaN \n", + "75% 8.100000 NaN NaN NaN NaN \n", + "max 9.300000 NaN NaN NaN NaN \n", + "\n", + " Star3 Star4 No_of_Votes Gross \n", + "count 831 831 8.310000e+02 8.310000e+02 \n", + "unique 737 782 NaN NaN \n", + "top rupert grint michael caine NaN NaN \n", + "freq 5 4 NaN NaN \n", + "mean NaN NaN 3.152499e+05 6.803475e+07 \n", + "std NaN NaN 3.436443e+05 1.097500e+08 \n", + "min NaN NaN 2.508800e+04 1.305000e+03 \n", + "25% NaN NaN 7.143000e+04 3.253559e+06 \n", + "50% NaN NaN 1.867340e+05 2.353089e+07 \n", + "75% NaN NaN 4.457210e+05 8.075089e+07 \n", + "max NaN NaN 2.343110e+06 9.366622e+08 " + ] + }, + "execution_count": 86, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data.describe(include='all')" + ] + }, + { + "cell_type": "code", + "execution_count": 74, + "id": "effective-treasury", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "IMDB_Rating 7.9\n", + "No_of_Votes 186734.0\n", + "Gross 23530892.0\n", + "dtype: float64" + ] + }, + "execution_count": 74, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data.median()" + ] + }, + { + "cell_type": "code", + "execution_count": 87, + "id": "egyptian-sacramento", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "(831, 14)" + ] + }, + "execution_count": 87, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data.shape" + ] + }, + { + "cell_type": "code", + "execution_count": 88, + "id": "intended-christmas", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "(601, 14)\n", + "(115, 14)\n", + "(115, 14)\n" + ] + } + ], + "source": [ + "from sklearn.model_selection import train_test_split\n", + "import sklearn\n", + "\n", + "data_train, data_test = train_test_split(data, test_size=230, random_state=1)\n", + "data_test, data_dev = train_test_split(data_test, test_size=115, random_state=1)\n", + "print(data_train.shape)\n", + "print(data_test.shape)\n", + "print(data_dev.shape)" + ] + }, + { + "cell_type": "code", + "execution_count": 76, + "id": "little-gravity", + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "0.1913477537437604" + ] + }, + "execution_count": 76, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data_test.size/data_train.size" + ] + }, + { + "cell_type": "code", + "execution_count": 89, + "id": "executive-canada", + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
Series_TitleReleased_YearCertificateRuntimeGenreIMDB_RatingMeta_scoreDirectorStar1Star2Star3Star4No_of_VotesGross
count601601601601601601.0000006016016016016016016.010000e+026.010000e+02
unique6019013121162NaN59378438530556577NaNNaN
topwhat ever happened to baby jane?2014U101 mindramaNaNmartin scorseseclint eastwoodemma watsonjoe pescimichael caineNaNNaN
freq1221431753NaN531010544NaNNaN
meanNaNNaNNaNNaNNaN7.947920NaNNaNNaNNaNNaNNaN3.174649e+056.775699e+07
stdNaNNaNNaNNaNNaN0.280238NaNNaNNaNNaNNaNNaN3.407094e+051.095511e+08
minNaNNaNNaNNaNNaN7.600000NaNNaNNaNNaNNaNNaN2.508800e+041.305000e+03
25%NaNNaNNaNNaNNaN7.700000NaNNaNNaNNaNNaNNaN6.846300e+043.151130e+06
50%NaNNaNNaNNaNNaN7.900000NaNNaNNaNNaNNaNNaN1.897160e+052.365000e+07
75%NaNNaNNaNNaNNaN8.100000NaNNaNNaNNaNNaNNaN4.622520e+057.891296e+07
maxNaNNaNNaNNaNNaN9.200000NaNNaNNaNNaNNaNNaN2.303232e+068.583730e+08
\n", + "
" + ], + "text/plain": [ + " Series_Title Released_Year Certificate Runtime \\\n", + "count 601 601 601 601 \n", + "unique 601 90 13 121 \n", + "top what ever happened to baby jane? 2014 U 101 min \n", + "freq 1 22 143 17 \n", + "mean NaN NaN NaN NaN \n", + "std NaN NaN NaN NaN \n", + "min NaN NaN NaN NaN \n", + "25% NaN NaN NaN NaN \n", + "50% NaN NaN NaN NaN \n", + "75% NaN NaN NaN NaN \n", + "max NaN NaN NaN NaN \n", + "\n", + " Genre IMDB_Rating Meta_score Director Star1 \\\n", + "count 601 601.000000 601 601 601 \n", + "unique 162 NaN 59 378 438 \n", + "top drama NaN martin scorsese clint eastwood \n", + "freq 53 NaN 53 10 10 \n", + "mean NaN 7.947920 NaN NaN NaN \n", + "std NaN 0.280238 NaN NaN NaN \n", + "min NaN 7.600000 NaN NaN NaN \n", + "25% NaN 7.700000 NaN NaN NaN \n", + "50% NaN 7.900000 NaN NaN NaN \n", + "75% NaN 8.100000 NaN NaN NaN \n", + "max NaN 9.200000 NaN NaN NaN \n", + "\n", + " Star2 Star3 Star4 No_of_Votes Gross \n", + "count 601 601 601 6.010000e+02 6.010000e+02 \n", + "unique 530 556 577 NaN NaN \n", + "top emma watson joe pesci michael caine NaN NaN \n", + "freq 5 4 4 NaN NaN \n", + "mean NaN NaN NaN 3.174649e+05 6.775699e+07 \n", + "std NaN NaN NaN 3.407094e+05 1.095511e+08 \n", + "min NaN NaN NaN 2.508800e+04 1.305000e+03 \n", + "25% NaN NaN NaN 6.846300e+04 3.151130e+06 \n", + "50% NaN NaN NaN 1.897160e+05 2.365000e+07 \n", + "75% NaN NaN NaN 4.622520e+05 7.891296e+07 \n", + "max NaN NaN NaN 2.303232e+06 8.583730e+08 " + ] + }, + "execution_count": 89, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data_train.describe(include=\"all\")" + ] + }, + { + "cell_type": "code", + "execution_count": 78, + "id": "alert-campus", + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", " \n", " \n", "
Series_TitleReleased_YearCertificateRuntimeGenreIMDB_RatingMeta_scoreDirectorStar1Star2Star3Star4No_of_VotesGross
count115115115115115115.0000001151151151151151151.150000e+021.150000e+02
unique11557106459NaN44105100113109114NaNNaN
topqueen2013U102 mindramaNaNfrank darabontal pacinoemma watsoncarrie fisherlucy liuNaNNaN
freq1730714NaN1624222NaNNaN
meanNaNNaNNaNNaNNaN7.947826NaNNaNNaNNaNNaNNaN3.140691e+056.622925e+07
stdNaNNaNNaNNaNNaN0.313259NaNNaNNaNNaNNaNNaN3.647432e+059.085320e+07
minNaNNaNNaNNaNNaN7.600000NaNNaNNaNNaNNaNNaN2.669700e+041.095000e+04
25%NaNNaNNaNNaNNaN7.700000NaNNaNNaNNaNNaNNaN7.206000e+044.232562e+06
50%NaNNaNNaNNaNNaN7.900000NaNNaNNaNNaNNaNNaN1.654650e+052.602096e+07
75%NaNNaNNaNNaNNaN8.100000NaNNaNNaNNaNNaNNaN4.268040e+057.556908e+07
maxNaNNaNNaNNaNNaN9.300000NaNNaNNaNNaNNaNNaN2.343110e+063.808433e+08
\n", @@ -1095,46 +1025,344 @@ ], "text/plain": [ " Series_Title Released_Year Certificate Runtime Genre IMDB_Rating \\\n", - "count 200 200 200 200 200 200.000000 \n", - "unique 200 70 10 89 91 NaN \n", - "top clerks 2014 U 106 min drama NaN \n", - "freq 1 11 57 6 17 NaN \n", - "mean NaN NaN NaN NaN NaN 7.955500 \n", - "std NaN NaN NaN NaN NaN 0.279931 \n", + "count 115 115 115 115 115 115.000000 \n", + "unique 115 57 10 64 59 NaN \n", + "top queen 2013 U 102 min drama NaN \n", + "freq 1 7 30 7 14 NaN \n", + "mean NaN NaN NaN NaN NaN 7.947826 \n", + "std NaN NaN NaN NaN NaN 0.313259 \n", "min NaN NaN NaN NaN NaN 7.600000 \n", "25% NaN NaN NaN NaN NaN 7.700000 \n", "50% NaN NaN NaN NaN NaN 7.900000 \n", "75% NaN NaN NaN NaN NaN 8.100000 \n", "max NaN NaN NaN NaN NaN 9.300000 \n", "\n", - " Meta_score Director Star1 Star2 \\\n", - "count 200 200 200 200 \n", - "unique 47 162 176 191 \n", - "top steven spielberg toshirô mifune ed harris \n", - "freq 39 6 4 3 \n", - "mean NaN NaN NaN NaN \n", - "std NaN NaN NaN NaN \n", - "min NaN NaN NaN NaN \n", - "25% NaN NaN NaN NaN \n", - "50% NaN NaN NaN NaN \n", - "75% NaN NaN NaN NaN \n", - "max NaN NaN NaN NaN \n", + " Meta_score Director Star1 Star2 Star3 \\\n", + "count 115 115 115 115 115 \n", + "unique 44 105 100 113 109 \n", + "top frank darabont al pacino emma watson carrie fisher \n", + "freq 16 2 4 2 2 \n", + "mean NaN NaN NaN NaN NaN \n", + "std NaN NaN NaN NaN NaN \n", + "min NaN NaN NaN NaN NaN \n", + "25% NaN NaN NaN NaN NaN \n", + "50% NaN NaN NaN NaN NaN \n", + "75% NaN NaN NaN NaN NaN \n", + "max NaN NaN NaN NaN NaN \n", "\n", - " Star3 Star4 No_of_Votes Gross \n", - "count 200 200 2.000000e+02 1.660000e+02 \n", - "unique 195 199 NaN NaN \n", - "top frances mcdormand lucy liu NaN NaN \n", - "freq 3 2 NaN NaN \n", - "mean NaN NaN 2.563293e+05 6.607024e+07 \n", - "std NaN NaN 3.208478e+05 1.035885e+08 \n", - "min NaN NaN 2.593800e+04 6.460000e+03 \n", - "25% NaN NaN 5.946375e+04 3.392077e+06 \n", - "50% NaN NaN 1.256995e+05 2.249226e+07 \n", - "75% NaN NaN 3.365100e+05 7.597351e+07 \n", - "max NaN NaN 2.343110e+06 6.085817e+08 " + " Star4 No_of_Votes Gross \n", + "count 115 1.150000e+02 1.150000e+02 \n", + "unique 114 NaN NaN \n", + "top lucy liu NaN NaN \n", + "freq 2 NaN NaN \n", + "mean NaN 3.140691e+05 6.622925e+07 \n", + "std NaN 3.647432e+05 9.085320e+07 \n", + "min NaN 2.669700e+04 1.095000e+04 \n", + "25% NaN 7.206000e+04 4.232562e+06 \n", + "50% NaN 1.654650e+05 2.602096e+07 \n", + "75% NaN 4.268040e+05 7.556908e+07 \n", + "max NaN 2.343110e+06 3.808433e+08 " ] }, - "execution_count": 103, + "execution_count": 78, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data_test.describe(include=\"all\")" + ] + }, + { + "cell_type": "code", + "execution_count": 79, + "id": "little-mathematics", + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
Series_TitleReleased_YearCertificateRuntimeGenreIMDB_RatingMeta_scoreDirectorStar1Star2Star3Star4No_of_VotesGross
count115115115115115115.0000001151151151151151151.150000e+021.150000e+02
unique1155687271NaN42101104115115112NaNNaN
topmr. smith goes to washington2004UA120 mindramaNaNbilly wilderjohnny deppcharlize theronjoel edgertonkevin baconNaNNaN
freq162858NaN1233112NaNNaN
meanNaNNaNNaNNaNNaN7.940870NaNNaNNaNNaNNaNNaN3.048547e+057.129188e+07
stdNaNNaNNaNNaNNaN0.269143NaNNaNNaNNaNNaNNaN3.400764e+051.275242e+08
minNaNNaNNaNNaNNaN7.600000NaNNaNNaNNaNNaNNaN2.522900e+043.600000e+03
25%NaNNaNNaNNaNNaN7.700000NaNNaNNaNNaNNaNNaN8.123350e+043.425538e+06
50%NaNNaNNaNNaNNaN7.900000NaNNaNNaNNaNNaNNaN1.820090e+052.018666e+07
75%NaNNaNNaNNaNNaN8.100000NaNNaNNaNNaNNaNNaN4.148195e+058.406197e+07
maxNaNNaNNaNNaNNaN8.800000NaNNaNNaNNaNNaNNaN2.067042e+069.366622e+08
\n", + "
" + ], + "text/plain": [ + " Series_Title Released_Year Certificate Runtime \\\n", + "count 115 115 115 115 \n", + "unique 115 56 8 72 \n", + "top mr. smith goes to washington 2004 UA 120 min \n", + "freq 1 6 28 5 \n", + "mean NaN NaN NaN NaN \n", + "std NaN NaN NaN NaN \n", + "min NaN NaN NaN NaN \n", + "25% NaN NaN NaN NaN \n", + "50% NaN NaN NaN NaN \n", + "75% NaN NaN NaN NaN \n", + "max NaN NaN NaN NaN \n", + "\n", + " Genre IMDB_Rating Meta_score Director Star1 \\\n", + "count 115 115.000000 115 115 115 \n", + "unique 71 NaN 42 101 104 \n", + "top drama NaN billy wilder johnny depp \n", + "freq 8 NaN 12 3 3 \n", + "mean NaN 7.940870 NaN NaN NaN \n", + "std NaN 0.269143 NaN NaN NaN \n", + "min NaN 7.600000 NaN NaN NaN \n", + "25% NaN 7.700000 NaN NaN NaN \n", + "50% NaN 7.900000 NaN NaN NaN \n", + "75% NaN 8.100000 NaN NaN NaN \n", + "max NaN 8.800000 NaN NaN NaN \n", + "\n", + " Star2 Star3 Star4 No_of_Votes \\\n", + "count 115 115 115 1.150000e+02 \n", + "unique 115 115 112 NaN \n", + "top charlize theron joel edgerton kevin bacon NaN \n", + "freq 1 1 2 NaN \n", + "mean NaN NaN NaN 3.048547e+05 \n", + "std NaN NaN NaN 3.400764e+05 \n", + "min NaN NaN NaN 2.522900e+04 \n", + "25% NaN NaN NaN 8.123350e+04 \n", + "50% NaN NaN NaN 1.820090e+05 \n", + "75% NaN NaN NaN 4.148195e+05 \n", + "max NaN NaN NaN 2.067042e+06 \n", + "\n", + " Gross \n", + "count 1.150000e+02 \n", + "unique NaN \n", + "top NaN \n", + "freq NaN \n", + "mean 7.129188e+07 \n", + "std 1.275242e+08 \n", + "min 3.600000e+03 \n", + "25% 3.425538e+06 \n", + "50% 2.018666e+07 \n", + "75% 8.406197e+07 \n", + "max 9.366622e+08 " + ] + }, + "execution_count": 79, "metadata": {}, "output_type": "execute_result" } @@ -1145,8 +1373,8 @@ }, { "cell_type": "code", - "execution_count": 105, - "id": "modified-potential", + "execution_count": 80, + "id": "sufficient-parade", "metadata": {}, "outputs": [], "source": [ @@ -1158,7 +1386,7 @@ { "cell_type": "code", "execution_count": null, - "id": "finnish-burning", + "id": "accompanied-virtue", "metadata": {}, "outputs": [], "source": []