diff --git a/script.ipynb b/script.ipynb
index c647a1e..0b30f73 100644
--- a/script.ipynb
+++ b/script.ipynb
@@ -2,7 +2,7 @@
"cells": [
{
"cell_type": "markdown",
- "id": "municipal-plumbing",
+ "id": "academic-calvin",
"metadata": {},
"source": [
"### Skrypt do ściagnięcia zbiory danych"
@@ -11,7 +11,7 @@
{
"cell_type": "code",
"execution_count": null,
- "id": "colored-lesbian",
+ "id": "compound-politics",
"metadata": {},
"outputs": [],
"source": [
@@ -24,20 +24,10 @@
},
{
"cell_type": "code",
- "execution_count": 2,
- "id": "previous-oracle",
+ "execution_count": null,
+ "id": "hundred-limitation",
"metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "Downloading dataset from Kaggle...\n",
- "/bin/bash: kaggle: command not found\n",
- "Done.\n"
- ]
- }
- ],
+ "outputs": [],
"source": [
"!echo \"Downloading dataset from Kaggle...\"\n",
"!kaggle datasets download -d harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows\n",
@@ -46,19 +36,10 @@
},
{
"cell_type": "code",
- "execution_count": 1,
- "id": "desperate-amazon",
+ "execution_count": null,
+ "id": "provincial-circuit",
"metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "Unzipping archive\n",
- "Done.\n"
- ]
- }
- ],
+ "outputs": [],
"source": [
"!echo \"Unzipping archive\"\n",
"!files=$(unzip imdb-dataset-of-top-1000-movies-and-tv-shows.zip | tail -n +2 | cut -d ' ' -f 4)\n",
@@ -67,8 +48,8 @@
},
{
"cell_type": "code",
- "execution_count": 57,
- "id": "fixed-accessory",
+ "execution_count": 81,
+ "id": "armed-brisbane",
"metadata": {},
"outputs": [],
"source": [
@@ -80,8 +61,8 @@
},
{
"cell_type": "code",
- "execution_count": 59,
- "id": "otherwise-atlas",
+ "execution_count": 82,
+ "id": "nominated-grenada",
"metadata": {},
"outputs": [
{
@@ -99,7 +80,7 @@
},
{
"cell_type": "markdown",
- "id": "strategic-brooks",
+ "id": "generic-success",
"metadata": {},
"source": [
"## Usuwanie kolumn\n",
@@ -109,8 +90,8 @@
},
{
"cell_type": "code",
- "execution_count": 48,
- "id": "alternative-genealogy",
+ "execution_count": 83,
+ "id": "compliant-synthesis",
"metadata": {},
"outputs": [],
"source": [
@@ -122,8 +103,8 @@
},
{
"cell_type": "code",
- "execution_count": 58,
- "id": "antique-nowhere",
+ "execution_count": 84,
+ "id": "reserved-whole",
"metadata": {},
"outputs": [],
"source": [
@@ -146,102 +127,8 @@
},
{
"cell_type": "code",
- "execution_count": 60,
- "id": "furnished-dating",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/plain": [
- "(831, 16)"
- ]
- },
- "execution_count": 60,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "data.describe(include='all')\n",
- "data.shape"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 61,
- "id": "political-pension",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/plain": [
- "IMDB_Rating 7.9\n",
- "No_of_Votes 186734.0\n",
- "Gross 23530892.0\n",
- "dtype: float64"
- ]
- },
- "execution_count": 61,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "data.median()"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 64,
- "id": "fitting-houston",
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "(601, 16)\n",
- "(115, 16)\n",
- "(115, 16)\n"
- ]
- }
- ],
- "source": [
- "from sklearn.model_selection import train_test_split\n",
- "import sklearn\n",
- "\n",
- "data_train, data_test = train_test_split(data, test_size=230, random_state=1)\n",
- "data_test, data_dev = train_test_split(data_test, test_size=115, random_state=1)\n",
- "print(data_train.shape)\n",
- "print(data_test.shape)\n",
- "print(data_dev.shape)"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 65,
- "id": "white-livestock",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/plain": [
- "0.1913477537437604"
- ]
- },
- "execution_count": 65,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "data_test.size/data_train.size"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 66,
- "id": "sharp-criterion",
+ "execution_count": 86,
+ "id": "given-sodium",
"metadata": {},
"outputs": [
{
@@ -265,14 +152,12 @@
" \n",
" \n",
" | \n",
- " Poster_Link | \n",
" Series_Title | \n",
" Released_Year | \n",
" Certificate | \n",
" Runtime | \n",
" Genre | \n",
" IMDB_Rating | \n",
- " Overview | \n",
" Meta_score | \n",
" Director | \n",
" Star1 | \n",
@@ -286,57 +171,51 @@
"
\n",
" \n",
" count | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601.000000 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 601 | \n",
- " 6.010000e+02 | \n",
- " 6.010000e+02 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831.000000 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 831 | \n",
+ " 8.310000e+02 | \n",
+ " 8.310000e+02 | \n",
"
\n",
" \n",
" unique | \n",
- " 601 | \n",
- " 601 | \n",
- " 90 | \n",
- " 13 | \n",
- " 121 | \n",
- " 162 | \n",
+ " 831 | \n",
+ " 95 | \n",
+ " 14 | \n",
+ " 133 | \n",
+ " 182 | \n",
" NaN | \n",
- " 601 | \n",
- " 59 | \n",
- " 378 | \n",
- " 438 | \n",
- " 530 | \n",
+ " 64 | \n",
+ " 472 | \n",
" 556 | \n",
- " 577 | \n",
+ " 704 | \n",
+ " 737 | \n",
+ " 782 | \n",
" NaN | \n",
" NaN | \n",
"
\n",
" \n",
" top | \n",
- " https://m.media-amazon.com/images/M/MV5BNGYyZG... | \n",
- " what ever happened to baby jane? | \n",
+ " a streetcar named desire | \n",
" 2014 | \n",
" U | \n",
" 101 min | \n",
" drama | \n",
" NaN | \n",
- " A few friends have a weekly fools' dinner, whe... | \n",
" | \n",
- " martin scorsese | \n",
- " clint eastwood | \n",
+ " steven spielberg | \n",
+ " tom hanks | \n",
" emma watson | \n",
- " joe pesci | \n",
+ " rupert grint | \n",
" michael caine | \n",
" NaN | \n",
" NaN | \n",
@@ -344,19 +223,17 @@
"
\n",
" freq | \n",
" 1 | \n",
- " 1 | \n",
- " 22 | \n",
- " 143 | \n",
- " 17 | \n",
- " 53 | \n",
+ " 31 | \n",
+ " 200 | \n",
+ " 21 | \n",
+ " 75 | \n",
" NaN | \n",
- " 1 | \n",
- " 53 | \n",
- " 10 | \n",
- " 10 | \n",
+ " 81 | \n",
+ " 13 | \n",
+ " 12 | \n",
+ " 7 | \n",
" 5 | \n",
" 4 | \n",
- " 4 | \n",
" NaN | \n",
" NaN | \n",
"
\n",
@@ -367,17 +244,15 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
- " 7.947920 | \n",
+ " 7.946931 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
- " 3.174649e+05 | \n",
- " 6.775699e+07 | \n",
+ " 3.152499e+05 | \n",
+ " 6.803475e+07 | \n",
" \n",
" \n",
" std | \n",
@@ -386,17 +261,15 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
- " 0.280238 | \n",
+ " 0.283204 | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
- " 3.407094e+05 | \n",
- " 1.095511e+08 | \n",
+ " 3.436443e+05 | \n",
+ " 1.097500e+08 | \n",
"
\n",
" \n",
" min | \n",
@@ -405,7 +278,6 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
" 7.600000 | \n",
" NaN | \n",
" NaN | \n",
@@ -413,7 +285,6 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
" 2.508800e+04 | \n",
" 1.305000e+03 | \n",
"
\n",
@@ -424,7 +295,6 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
" 7.700000 | \n",
" NaN | \n",
" NaN | \n",
@@ -432,326 +302,8 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " NaN | \n",
- " 6.846300e+04 | \n",
- " 3.151130e+06 | \n",
- " \n",
- " \n",
- " 50% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.900000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 1.897160e+05 | \n",
- " 2.365000e+07 | \n",
- "
\n",
- " \n",
- " 75% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 8.100000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 4.622520e+05 | \n",
- " 7.891296e+07 | \n",
- "
\n",
- " \n",
- " max | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 9.200000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.303232e+06 | \n",
- " 8.583730e+08 | \n",
- "
\n",
- " \n",
- "\n",
- ""
- ],
- "text/plain": [
- " Poster_Link \\\n",
- "count 601 \n",
- "unique 601 \n",
- "top https://m.media-amazon.com/images/M/MV5BNGYyZG... \n",
- "freq 1 \n",
- "mean NaN \n",
- "std NaN \n",
- "min NaN \n",
- "25% NaN \n",
- "50% NaN \n",
- "75% NaN \n",
- "max NaN \n",
- "\n",
- " Series_Title Released_Year Certificate Runtime \\\n",
- "count 601 601 601 601 \n",
- "unique 601 90 13 121 \n",
- "top what ever happened to baby jane? 2014 U 101 min \n",
- "freq 1 22 143 17 \n",
- "mean NaN NaN NaN NaN \n",
- "std NaN NaN NaN NaN \n",
- "min NaN NaN NaN NaN \n",
- "25% NaN NaN NaN NaN \n",
- "50% NaN NaN NaN NaN \n",
- "75% NaN NaN NaN NaN \n",
- "max NaN NaN NaN NaN \n",
- "\n",
- " Genre IMDB_Rating Overview \\\n",
- "count 601 601.000000 601 \n",
- "unique 162 NaN 601 \n",
- "top drama NaN A few friends have a weekly fools' dinner, whe... \n",
- "freq 53 NaN 1 \n",
- "mean NaN 7.947920 NaN \n",
- "std NaN 0.280238 NaN \n",
- "min NaN 7.600000 NaN \n",
- "25% NaN 7.700000 NaN \n",
- "50% NaN 7.900000 NaN \n",
- "75% NaN 8.100000 NaN \n",
- "max NaN 9.200000 NaN \n",
- "\n",
- " Meta_score Director Star1 Star2 Star3 \\\n",
- "count 601 601 601 601 601 \n",
- "unique 59 378 438 530 556 \n",
- "top martin scorsese clint eastwood emma watson joe pesci \n",
- "freq 53 10 10 5 4 \n",
- "mean NaN NaN NaN NaN NaN \n",
- "std NaN NaN NaN NaN NaN \n",
- "min NaN NaN NaN NaN NaN \n",
- "25% NaN NaN NaN NaN NaN \n",
- "50% NaN NaN NaN NaN NaN \n",
- "75% NaN NaN NaN NaN NaN \n",
- "max NaN NaN NaN NaN NaN \n",
- "\n",
- " Star4 No_of_Votes Gross \n",
- "count 601 6.010000e+02 6.010000e+02 \n",
- "unique 577 NaN NaN \n",
- "top michael caine NaN NaN \n",
- "freq 4 NaN NaN \n",
- "mean NaN 3.174649e+05 6.775699e+07 \n",
- "std NaN 3.407094e+05 1.095511e+08 \n",
- "min NaN 2.508800e+04 1.305000e+03 \n",
- "25% NaN 6.846300e+04 3.151130e+06 \n",
- "50% NaN 1.897160e+05 2.365000e+07 \n",
- "75% NaN 4.622520e+05 7.891296e+07 \n",
- "max NaN 2.303232e+06 8.583730e+08 "
- ]
- },
- "execution_count": 66,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "data_train.describe(include=\"all\")"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 102,
- "id": "excessive-congress",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/html": [
- "\n",
- "\n",
- "
\n",
- " \n",
- " \n",
- " | \n",
- " Series_Title | \n",
- " Released_Year | \n",
- " Certificate | \n",
- " Runtime | \n",
- " Genre | \n",
- " IMDB_Rating | \n",
- " Meta_score | \n",
- " Director | \n",
- " Star1 | \n",
- " Star2 | \n",
- " Star3 | \n",
- " Star4 | \n",
- " No_of_Votes | \n",
- " Gross | \n",
- "
\n",
- " \n",
- " \n",
- " \n",
- " count | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200.000000 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 2.000000e+02 | \n",
- " 1.600000e+02 | \n",
- "
\n",
- " \n",
- " unique | \n",
- " 200 | \n",
- " 75 | \n",
- " 10 | \n",
- " 88 | \n",
- " 98 | \n",
- " NaN | \n",
- " 49 | \n",
- " 162 | \n",
- " 172 | \n",
- " 192 | \n",
- " 197 | \n",
- " 198 | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " top | \n",
- " in america | \n",
- " 2003 | \n",
- " A | \n",
- " 118 min | \n",
- " drama | \n",
- " NaN | \n",
- " | \n",
- " woody allen | \n",
- " humphrey bogart | \n",
- " robert downey jr. | \n",
- " lea thompson | \n",
- " mark ruffalo | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " freq | \n",
- " 1 | \n",
- " 6 | \n",
- " 48 | \n",
- " 7 | \n",
- " 23 | \n",
- " NaN | \n",
- " 30 | \n",
- " 5 | \n",
- " 4 | \n",
- " 2 | \n",
- " 2 | \n",
- " 2 | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " mean | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.949500 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.826230e+05 | \n",
- " 7.249570e+07 | \n",
- "
\n",
- " \n",
- " std | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 0.290381 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 3.501372e+05 | \n",
- " 1.224538e+08 | \n",
- "
\n",
- " \n",
- " min | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.600000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.519800e+04 | \n",
- " 6.013000e+03 | \n",
- "
\n",
- " \n",
- " 25% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.700000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 5.038950e+04 | \n",
- " 3.786699e+06 | \n",
+ " 7.143000e+04 | \n",
+ " 3.253559e+06 | \n",
"
\n",
" \n",
" 50% | \n",
@@ -767,8 +319,8 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " 1.354640e+05 | \n",
- " 2.325044e+07 | \n",
+ " 1.867340e+05 | \n",
+ " 2.353089e+07 | \n",
"
\n",
" \n",
" 75% | \n",
@@ -784,293 +336,8 @@
" NaN | \n",
" NaN | \n",
" NaN | \n",
- " 3.851505e+05 | \n",
- " 7.603522e+07 | \n",
- "
\n",
- " \n",
- " max | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 9.000000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.303232e+06 | \n",
- " 8.583730e+08 | \n",
- "
\n",
- " \n",
- "
\n",
- "
"
- ],
- "text/plain": [
- " Series_Title Released_Year Certificate Runtime Genre IMDB_Rating \\\n",
- "count 200 200 200 200 200 200.000000 \n",
- "unique 200 75 10 88 98 NaN \n",
- "top in america 2003 A 118 min drama NaN \n",
- "freq 1 6 48 7 23 NaN \n",
- "mean NaN NaN NaN NaN NaN 7.949500 \n",
- "std NaN NaN NaN NaN NaN 0.290381 \n",
- "min NaN NaN NaN NaN NaN 7.600000 \n",
- "25% NaN NaN NaN NaN NaN 7.700000 \n",
- "50% NaN NaN NaN NaN NaN 7.900000 \n",
- "75% NaN NaN NaN NaN NaN 8.100000 \n",
- "max NaN NaN NaN NaN NaN 9.000000 \n",
- "\n",
- " Meta_score Director Star1 Star2 \\\n",
- "count 200 200 200 200 \n",
- "unique 49 162 172 192 \n",
- "top woody allen humphrey bogart robert downey jr. \n",
- "freq 30 5 4 2 \n",
- "mean NaN NaN NaN NaN \n",
- "std NaN NaN NaN NaN \n",
- "min NaN NaN NaN NaN \n",
- "25% NaN NaN NaN NaN \n",
- "50% NaN NaN NaN NaN \n",
- "75% NaN NaN NaN NaN \n",
- "max NaN NaN NaN NaN \n",
- "\n",
- " Star3 Star4 No_of_Votes Gross \n",
- "count 200 200 2.000000e+02 1.600000e+02 \n",
- "unique 197 198 NaN NaN \n",
- "top lea thompson mark ruffalo NaN NaN \n",
- "freq 2 2 NaN NaN \n",
- "mean NaN NaN 2.826230e+05 7.249570e+07 \n",
- "std NaN NaN 3.501372e+05 1.224538e+08 \n",
- "min NaN NaN 2.519800e+04 6.013000e+03 \n",
- "25% NaN NaN 5.038950e+04 3.786699e+06 \n",
- "50% NaN NaN 1.354640e+05 2.325044e+07 \n",
- "75% NaN NaN 3.851505e+05 7.603522e+07 \n",
- "max NaN NaN 2.303232e+06 8.583730e+08 "
- ]
- },
- "execution_count": 102,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "data_test.describe(include=\"all\")"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 103,
- "id": "exact-prince",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/html": [
- "\n",
- "\n",
- "
\n",
- " \n",
- " \n",
- " | \n",
- " Series_Title | \n",
- " Released_Year | \n",
- " Certificate | \n",
- " Runtime | \n",
- " Genre | \n",
- " IMDB_Rating | \n",
- " Meta_score | \n",
- " Director | \n",
- " Star1 | \n",
- " Star2 | \n",
- " Star3 | \n",
- " Star4 | \n",
- " No_of_Votes | \n",
- " Gross | \n",
- "
\n",
- " \n",
- " \n",
- " \n",
- " count | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200.000000 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 200 | \n",
- " 2.000000e+02 | \n",
- " 1.660000e+02 | \n",
- "
\n",
- " \n",
- " unique | \n",
- " 200 | \n",
- " 70 | \n",
- " 10 | \n",
- " 89 | \n",
- " 91 | \n",
- " NaN | \n",
- " 47 | \n",
- " 162 | \n",
- " 176 | \n",
- " 191 | \n",
- " 195 | \n",
- " 199 | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " top | \n",
- " clerks | \n",
- " 2014 | \n",
- " U | \n",
- " 106 min | \n",
- " drama | \n",
- " NaN | \n",
- " | \n",
- " steven spielberg | \n",
- " toshirô mifune | \n",
- " ed harris | \n",
- " frances mcdormand | \n",
- " lucy liu | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " freq | \n",
- " 1 | \n",
- " 11 | \n",
- " 57 | \n",
- " 6 | \n",
- " 17 | \n",
- " NaN | \n",
- " 39 | \n",
- " 6 | \n",
- " 4 | \n",
- " 3 | \n",
- " 3 | \n",
- " 2 | \n",
- " NaN | \n",
- " NaN | \n",
- "
\n",
- " \n",
- " mean | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.955500 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.563293e+05 | \n",
- " 6.607024e+07 | \n",
- "
\n",
- " \n",
- " std | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 0.279931 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 3.208478e+05 | \n",
- " 1.035885e+08 | \n",
- "
\n",
- " \n",
- " min | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.600000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 2.593800e+04 | \n",
- " 6.460000e+03 | \n",
- "
\n",
- " \n",
- " 25% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.700000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 5.946375e+04 | \n",
- " 3.392077e+06 | \n",
- "
\n",
- " \n",
- " 50% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 7.900000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 1.256995e+05 | \n",
- " 2.249226e+07 | \n",
- "
\n",
- " \n",
- " 75% | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 8.100000 | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " NaN | \n",
- " 3.365100e+05 | \n",
- " 7.597351e+07 | \n",
+ " 4.457210e+05 | \n",
+ " 8.075089e+07 | \n",
"
\n",
" \n",
" max | \n",
@@ -1087,7 +354,670 @@
" NaN | \n",
" NaN | \n",
" 2.343110e+06 | \n",
- " 6.085817e+08 | \n",
+ " 9.366622e+08 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " Series_Title Released_Year Certificate Runtime Genre \\\n",
+ "count 831 831 831 831 831 \n",
+ "unique 831 95 14 133 182 \n",
+ "top a streetcar named desire 2014 U 101 min drama \n",
+ "freq 1 31 200 21 75 \n",
+ "mean NaN NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN NaN \n",
+ "\n",
+ " IMDB_Rating Meta_score Director Star1 Star2 \\\n",
+ "count 831.000000 831 831 831 831 \n",
+ "unique NaN 64 472 556 704 \n",
+ "top NaN steven spielberg tom hanks emma watson \n",
+ "freq NaN 81 13 12 7 \n",
+ "mean 7.946931 NaN NaN NaN NaN \n",
+ "std 0.283204 NaN NaN NaN NaN \n",
+ "min 7.600000 NaN NaN NaN NaN \n",
+ "25% 7.700000 NaN NaN NaN NaN \n",
+ "50% 7.900000 NaN NaN NaN NaN \n",
+ "75% 8.100000 NaN NaN NaN NaN \n",
+ "max 9.300000 NaN NaN NaN NaN \n",
+ "\n",
+ " Star3 Star4 No_of_Votes Gross \n",
+ "count 831 831 8.310000e+02 8.310000e+02 \n",
+ "unique 737 782 NaN NaN \n",
+ "top rupert grint michael caine NaN NaN \n",
+ "freq 5 4 NaN NaN \n",
+ "mean NaN NaN 3.152499e+05 6.803475e+07 \n",
+ "std NaN NaN 3.436443e+05 1.097500e+08 \n",
+ "min NaN NaN 2.508800e+04 1.305000e+03 \n",
+ "25% NaN NaN 7.143000e+04 3.253559e+06 \n",
+ "50% NaN NaN 1.867340e+05 2.353089e+07 \n",
+ "75% NaN NaN 4.457210e+05 8.075089e+07 \n",
+ "max NaN NaN 2.343110e+06 9.366622e+08 "
+ ]
+ },
+ "execution_count": 86,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data.describe(include='all')"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 74,
+ "id": "effective-treasury",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "IMDB_Rating 7.9\n",
+ "No_of_Votes 186734.0\n",
+ "Gross 23530892.0\n",
+ "dtype: float64"
+ ]
+ },
+ "execution_count": 74,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data.median()"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 87,
+ "id": "egyptian-sacramento",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "(831, 14)"
+ ]
+ },
+ "execution_count": 87,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data.shape"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 88,
+ "id": "intended-christmas",
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "(601, 14)\n",
+ "(115, 14)\n",
+ "(115, 14)\n"
+ ]
+ }
+ ],
+ "source": [
+ "from sklearn.model_selection import train_test_split\n",
+ "import sklearn\n",
+ "\n",
+ "data_train, data_test = train_test_split(data, test_size=230, random_state=1)\n",
+ "data_test, data_dev = train_test_split(data_test, test_size=115, random_state=1)\n",
+ "print(data_train.shape)\n",
+ "print(data_test.shape)\n",
+ "print(data_dev.shape)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 76,
+ "id": "little-gravity",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0.1913477537437604"
+ ]
+ },
+ "execution_count": 76,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data_test.size/data_train.size"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 89,
+ "id": "executive-canada",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " Series_Title | \n",
+ " Released_Year | \n",
+ " Certificate | \n",
+ " Runtime | \n",
+ " Genre | \n",
+ " IMDB_Rating | \n",
+ " Meta_score | \n",
+ " Director | \n",
+ " Star1 | \n",
+ " Star2 | \n",
+ " Star3 | \n",
+ " Star4 | \n",
+ " No_of_Votes | \n",
+ " Gross | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " count | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601.000000 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 601 | \n",
+ " 6.010000e+02 | \n",
+ " 6.010000e+02 | \n",
+ "
\n",
+ " \n",
+ " unique | \n",
+ " 601 | \n",
+ " 90 | \n",
+ " 13 | \n",
+ " 121 | \n",
+ " 162 | \n",
+ " NaN | \n",
+ " 59 | \n",
+ " 378 | \n",
+ " 438 | \n",
+ " 530 | \n",
+ " 556 | \n",
+ " 577 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " top | \n",
+ " what ever happened to baby jane? | \n",
+ " 2014 | \n",
+ " U | \n",
+ " 101 min | \n",
+ " drama | \n",
+ " NaN | \n",
+ " | \n",
+ " martin scorsese | \n",
+ " clint eastwood | \n",
+ " emma watson | \n",
+ " joe pesci | \n",
+ " michael caine | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " freq | \n",
+ " 1 | \n",
+ " 22 | \n",
+ " 143 | \n",
+ " 17 | \n",
+ " 53 | \n",
+ " NaN | \n",
+ " 53 | \n",
+ " 10 | \n",
+ " 10 | \n",
+ " 5 | \n",
+ " 4 | \n",
+ " 4 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " mean | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.947920 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.174649e+05 | \n",
+ " 6.775699e+07 | \n",
+ "
\n",
+ " \n",
+ " std | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0.280238 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.407094e+05 | \n",
+ " 1.095511e+08 | \n",
+ "
\n",
+ " \n",
+ " min | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.600000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.508800e+04 | \n",
+ " 1.305000e+03 | \n",
+ "
\n",
+ " \n",
+ " 25% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.700000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 6.846300e+04 | \n",
+ " 3.151130e+06 | \n",
+ "
\n",
+ " \n",
+ " 50% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.900000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 1.897160e+05 | \n",
+ " 2.365000e+07 | \n",
+ "
\n",
+ " \n",
+ " 75% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 8.100000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 4.622520e+05 | \n",
+ " 7.891296e+07 | \n",
+ "
\n",
+ " \n",
+ " max | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 9.200000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.303232e+06 | \n",
+ " 8.583730e+08 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " Series_Title Released_Year Certificate Runtime \\\n",
+ "count 601 601 601 601 \n",
+ "unique 601 90 13 121 \n",
+ "top what ever happened to baby jane? 2014 U 101 min \n",
+ "freq 1 22 143 17 \n",
+ "mean NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN \n",
+ "\n",
+ " Genre IMDB_Rating Meta_score Director Star1 \\\n",
+ "count 601 601.000000 601 601 601 \n",
+ "unique 162 NaN 59 378 438 \n",
+ "top drama NaN martin scorsese clint eastwood \n",
+ "freq 53 NaN 53 10 10 \n",
+ "mean NaN 7.947920 NaN NaN NaN \n",
+ "std NaN 0.280238 NaN NaN NaN \n",
+ "min NaN 7.600000 NaN NaN NaN \n",
+ "25% NaN 7.700000 NaN NaN NaN \n",
+ "50% NaN 7.900000 NaN NaN NaN \n",
+ "75% NaN 8.100000 NaN NaN NaN \n",
+ "max NaN 9.200000 NaN NaN NaN \n",
+ "\n",
+ " Star2 Star3 Star4 No_of_Votes Gross \n",
+ "count 601 601 601 6.010000e+02 6.010000e+02 \n",
+ "unique 530 556 577 NaN NaN \n",
+ "top emma watson joe pesci michael caine NaN NaN \n",
+ "freq 5 4 4 NaN NaN \n",
+ "mean NaN NaN NaN 3.174649e+05 6.775699e+07 \n",
+ "std NaN NaN NaN 3.407094e+05 1.095511e+08 \n",
+ "min NaN NaN NaN 2.508800e+04 1.305000e+03 \n",
+ "25% NaN NaN NaN 6.846300e+04 3.151130e+06 \n",
+ "50% NaN NaN NaN 1.897160e+05 2.365000e+07 \n",
+ "75% NaN NaN NaN 4.622520e+05 7.891296e+07 \n",
+ "max NaN NaN NaN 2.303232e+06 8.583730e+08 "
+ ]
+ },
+ "execution_count": 89,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data_train.describe(include=\"all\")"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 78,
+ "id": "alert-campus",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " Series_Title | \n",
+ " Released_Year | \n",
+ " Certificate | \n",
+ " Runtime | \n",
+ " Genre | \n",
+ " IMDB_Rating | \n",
+ " Meta_score | \n",
+ " Director | \n",
+ " Star1 | \n",
+ " Star2 | \n",
+ " Star3 | \n",
+ " Star4 | \n",
+ " No_of_Votes | \n",
+ " Gross | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " count | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115.000000 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 1.150000e+02 | \n",
+ " 1.150000e+02 | \n",
+ "
\n",
+ " \n",
+ " unique | \n",
+ " 115 | \n",
+ " 57 | \n",
+ " 10 | \n",
+ " 64 | \n",
+ " 59 | \n",
+ " NaN | \n",
+ " 44 | \n",
+ " 105 | \n",
+ " 100 | \n",
+ " 113 | \n",
+ " 109 | \n",
+ " 114 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " top | \n",
+ " queen | \n",
+ " 2013 | \n",
+ " U | \n",
+ " 102 min | \n",
+ " drama | \n",
+ " NaN | \n",
+ " | \n",
+ " frank darabont | \n",
+ " al pacino | \n",
+ " emma watson | \n",
+ " carrie fisher | \n",
+ " lucy liu | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " freq | \n",
+ " 1 | \n",
+ " 7 | \n",
+ " 30 | \n",
+ " 7 | \n",
+ " 14 | \n",
+ " NaN | \n",
+ " 16 | \n",
+ " 2 | \n",
+ " 4 | \n",
+ " 2 | \n",
+ " 2 | \n",
+ " 2 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " mean | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.947826 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.140691e+05 | \n",
+ " 6.622925e+07 | \n",
+ "
\n",
+ " \n",
+ " std | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0.313259 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.647432e+05 | \n",
+ " 9.085320e+07 | \n",
+ "
\n",
+ " \n",
+ " min | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.600000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.669700e+04 | \n",
+ " 1.095000e+04 | \n",
+ "
\n",
+ " \n",
+ " 25% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.700000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.206000e+04 | \n",
+ " 4.232562e+06 | \n",
+ "
\n",
+ " \n",
+ " 50% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.900000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 1.654650e+05 | \n",
+ " 2.602096e+07 | \n",
+ "
\n",
+ " \n",
+ " 75% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 8.100000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 4.268040e+05 | \n",
+ " 7.556908e+07 | \n",
+ "
\n",
+ " \n",
+ " max | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 9.300000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.343110e+06 | \n",
+ " 3.808433e+08 | \n",
"
\n",
" \n",
"
\n",
@@ -1095,46 +1025,344 @@
],
"text/plain": [
" Series_Title Released_Year Certificate Runtime Genre IMDB_Rating \\\n",
- "count 200 200 200 200 200 200.000000 \n",
- "unique 200 70 10 89 91 NaN \n",
- "top clerks 2014 U 106 min drama NaN \n",
- "freq 1 11 57 6 17 NaN \n",
- "mean NaN NaN NaN NaN NaN 7.955500 \n",
- "std NaN NaN NaN NaN NaN 0.279931 \n",
+ "count 115 115 115 115 115 115.000000 \n",
+ "unique 115 57 10 64 59 NaN \n",
+ "top queen 2013 U 102 min drama NaN \n",
+ "freq 1 7 30 7 14 NaN \n",
+ "mean NaN NaN NaN NaN NaN 7.947826 \n",
+ "std NaN NaN NaN NaN NaN 0.313259 \n",
"min NaN NaN NaN NaN NaN 7.600000 \n",
"25% NaN NaN NaN NaN NaN 7.700000 \n",
"50% NaN NaN NaN NaN NaN 7.900000 \n",
"75% NaN NaN NaN NaN NaN 8.100000 \n",
"max NaN NaN NaN NaN NaN 9.300000 \n",
"\n",
- " Meta_score Director Star1 Star2 \\\n",
- "count 200 200 200 200 \n",
- "unique 47 162 176 191 \n",
- "top steven spielberg toshirô mifune ed harris \n",
- "freq 39 6 4 3 \n",
- "mean NaN NaN NaN NaN \n",
- "std NaN NaN NaN NaN \n",
- "min NaN NaN NaN NaN \n",
- "25% NaN NaN NaN NaN \n",
- "50% NaN NaN NaN NaN \n",
- "75% NaN NaN NaN NaN \n",
- "max NaN NaN NaN NaN \n",
+ " Meta_score Director Star1 Star2 Star3 \\\n",
+ "count 115 115 115 115 115 \n",
+ "unique 44 105 100 113 109 \n",
+ "top frank darabont al pacino emma watson carrie fisher \n",
+ "freq 16 2 4 2 2 \n",
+ "mean NaN NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN NaN \n",
"\n",
- " Star3 Star4 No_of_Votes Gross \n",
- "count 200 200 2.000000e+02 1.660000e+02 \n",
- "unique 195 199 NaN NaN \n",
- "top frances mcdormand lucy liu NaN NaN \n",
- "freq 3 2 NaN NaN \n",
- "mean NaN NaN 2.563293e+05 6.607024e+07 \n",
- "std NaN NaN 3.208478e+05 1.035885e+08 \n",
- "min NaN NaN 2.593800e+04 6.460000e+03 \n",
- "25% NaN NaN 5.946375e+04 3.392077e+06 \n",
- "50% NaN NaN 1.256995e+05 2.249226e+07 \n",
- "75% NaN NaN 3.365100e+05 7.597351e+07 \n",
- "max NaN NaN 2.343110e+06 6.085817e+08 "
+ " Star4 No_of_Votes Gross \n",
+ "count 115 1.150000e+02 1.150000e+02 \n",
+ "unique 114 NaN NaN \n",
+ "top lucy liu NaN NaN \n",
+ "freq 2 NaN NaN \n",
+ "mean NaN 3.140691e+05 6.622925e+07 \n",
+ "std NaN 3.647432e+05 9.085320e+07 \n",
+ "min NaN 2.669700e+04 1.095000e+04 \n",
+ "25% NaN 7.206000e+04 4.232562e+06 \n",
+ "50% NaN 1.654650e+05 2.602096e+07 \n",
+ "75% NaN 4.268040e+05 7.556908e+07 \n",
+ "max NaN 2.343110e+06 3.808433e+08 "
]
},
- "execution_count": 103,
+ "execution_count": 78,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "data_test.describe(include=\"all\")"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 79,
+ "id": "little-mathematics",
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ " \n",
+ " | \n",
+ " Series_Title | \n",
+ " Released_Year | \n",
+ " Certificate | \n",
+ " Runtime | \n",
+ " Genre | \n",
+ " IMDB_Rating | \n",
+ " Meta_score | \n",
+ " Director | \n",
+ " Star1 | \n",
+ " Star2 | \n",
+ " Star3 | \n",
+ " Star4 | \n",
+ " No_of_Votes | \n",
+ " Gross | \n",
+ "
\n",
+ " \n",
+ " \n",
+ " \n",
+ " count | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115.000000 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 1.150000e+02 | \n",
+ " 1.150000e+02 | \n",
+ "
\n",
+ " \n",
+ " unique | \n",
+ " 115 | \n",
+ " 56 | \n",
+ " 8 | \n",
+ " 72 | \n",
+ " 71 | \n",
+ " NaN | \n",
+ " 42 | \n",
+ " 101 | \n",
+ " 104 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 112 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " top | \n",
+ " mr. smith goes to washington | \n",
+ " 2004 | \n",
+ " UA | \n",
+ " 120 min | \n",
+ " drama | \n",
+ " NaN | \n",
+ " | \n",
+ " billy wilder | \n",
+ " johnny depp | \n",
+ " charlize theron | \n",
+ " joel edgerton | \n",
+ " kevin bacon | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " freq | \n",
+ " 1 | \n",
+ " 6 | \n",
+ " 28 | \n",
+ " 5 | \n",
+ " 8 | \n",
+ " NaN | \n",
+ " 12 | \n",
+ " 3 | \n",
+ " 3 | \n",
+ " 1 | \n",
+ " 1 | \n",
+ " 2 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ "
\n",
+ " \n",
+ " mean | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.940870 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.048547e+05 | \n",
+ " 7.129188e+07 | \n",
+ "
\n",
+ " \n",
+ " std | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 0.269143 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 3.400764e+05 | \n",
+ " 1.275242e+08 | \n",
+ "
\n",
+ " \n",
+ " min | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.600000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.522900e+04 | \n",
+ " 3.600000e+03 | \n",
+ "
\n",
+ " \n",
+ " 25% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.700000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 8.123350e+04 | \n",
+ " 3.425538e+06 | \n",
+ "
\n",
+ " \n",
+ " 50% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 7.900000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 1.820090e+05 | \n",
+ " 2.018666e+07 | \n",
+ "
\n",
+ " \n",
+ " 75% | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 8.100000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 4.148195e+05 | \n",
+ " 8.406197e+07 | \n",
+ "
\n",
+ " \n",
+ " max | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 8.800000 | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " NaN | \n",
+ " 2.067042e+06 | \n",
+ " 9.366622e+08 | \n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " Series_Title Released_Year Certificate Runtime \\\n",
+ "count 115 115 115 115 \n",
+ "unique 115 56 8 72 \n",
+ "top mr. smith goes to washington 2004 UA 120 min \n",
+ "freq 1 6 28 5 \n",
+ "mean NaN NaN NaN NaN \n",
+ "std NaN NaN NaN NaN \n",
+ "min NaN NaN NaN NaN \n",
+ "25% NaN NaN NaN NaN \n",
+ "50% NaN NaN NaN NaN \n",
+ "75% NaN NaN NaN NaN \n",
+ "max NaN NaN NaN NaN \n",
+ "\n",
+ " Genre IMDB_Rating Meta_score Director Star1 \\\n",
+ "count 115 115.000000 115 115 115 \n",
+ "unique 71 NaN 42 101 104 \n",
+ "top drama NaN billy wilder johnny depp \n",
+ "freq 8 NaN 12 3 3 \n",
+ "mean NaN 7.940870 NaN NaN NaN \n",
+ "std NaN 0.269143 NaN NaN NaN \n",
+ "min NaN 7.600000 NaN NaN NaN \n",
+ "25% NaN 7.700000 NaN NaN NaN \n",
+ "50% NaN 7.900000 NaN NaN NaN \n",
+ "75% NaN 8.100000 NaN NaN NaN \n",
+ "max NaN 8.800000 NaN NaN NaN \n",
+ "\n",
+ " Star2 Star3 Star4 No_of_Votes \\\n",
+ "count 115 115 115 1.150000e+02 \n",
+ "unique 115 115 112 NaN \n",
+ "top charlize theron joel edgerton kevin bacon NaN \n",
+ "freq 1 1 2 NaN \n",
+ "mean NaN NaN NaN 3.048547e+05 \n",
+ "std NaN NaN NaN 3.400764e+05 \n",
+ "min NaN NaN NaN 2.522900e+04 \n",
+ "25% NaN NaN NaN 8.123350e+04 \n",
+ "50% NaN NaN NaN 1.820090e+05 \n",
+ "75% NaN NaN NaN 4.148195e+05 \n",
+ "max NaN NaN NaN 2.067042e+06 \n",
+ "\n",
+ " Gross \n",
+ "count 1.150000e+02 \n",
+ "unique NaN \n",
+ "top NaN \n",
+ "freq NaN \n",
+ "mean 7.129188e+07 \n",
+ "std 1.275242e+08 \n",
+ "min 3.600000e+03 \n",
+ "25% 3.425538e+06 \n",
+ "50% 2.018666e+07 \n",
+ "75% 8.406197e+07 \n",
+ "max 9.366622e+08 "
+ ]
+ },
+ "execution_count": 79,
"metadata": {},
"output_type": "execute_result"
}
@@ -1145,8 +1373,8 @@
},
{
"cell_type": "code",
- "execution_count": 105,
- "id": "modified-potential",
+ "execution_count": 80,
+ "id": "sufficient-parade",
"metadata": {},
"outputs": [],
"source": [
@@ -1158,7 +1386,7 @@
{
"cell_type": "code",
"execution_count": null,
- "id": "finnish-burning",
+ "id": "accompanied-virtue",
"metadata": {},
"outputs": [],
"source": []