{ "cells": [ { "cell_type": "markdown", "id": "35c89384", "metadata": {}, "source": [ "1. Pobieranie zbioru" ] }, { "cell_type": "code", "execution_count": null, "id": "f6b42d4e", "metadata": {}, "outputs": [], "source": [ "!kaggle datasets download -d slehkyi/extended-football-stats-for-european-leagues-xg" ] }, { "cell_type": "code", "execution_count": null, "id": "fc6b4624", "metadata": {}, "outputs": [], "source": [ "!unzip -o extended-football-stats-for-european-leagues-xg.zip" ] }, { "cell_type": "markdown", "id": "1836fa83", "metadata": {}, "source": [ "2. Podzial na podzbiory" ] }, { "cell_type": "code", "execution_count": 3, "id": "051a972d", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "685 understat.csv\r\n" ] } ], "source": [ "!wc -l understat.csv" ] }, { "cell_type": "code", "execution_count": 17, "id": "c7bd95e0", "metadata": {}, "outputs": [], "source": [ "! head -n -1 understat.csv | shuf > understat.csv.shuf" ] }, { "cell_type": "code", "execution_count": 18, "id": "1a57aec3", "metadata": { "scrolled": true }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " 685 understat.csv\r\n", " 137 understat.csv.dev\r\n", " 137 understat.csv.test\r\n", " 410 understat.csv.train\r\n", " 1369 total\r\n" ] } ], "source": [ "!head -n 137 understat.csv.shuf > understat.csv.test\n", "!head -n 274 understat.csv.shuf | tail -n 137 > understat.csv.dev\n", "!tail -n +275 understat.csv.shuf > understat.csv.train\n", "!rm understat.csv.shuf\n", "!wc -l understat.csv*" ] }, { "cell_type": "markdown", "id": "4f45db5f", "metadata": {}, "source": [ "3. Statystki dla zbiorow i podzbiorow" ] }, { "cell_type": "code", "execution_count": 19, "id": "c990b05f", "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "understat = pd.read_csv('understat.csv')\n", "understat_test = pd.read_csv('understat.csv.test')\n", "understat_dev = pd.read_csv('understat.csv.dev')\n", "understat_train = pd.read_csv('understat.csv.train')" ] }, { "cell_type": "code", "execution_count": 20, "id": "f3f11fd4", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
leagueyearpositionteammatcheswinsdrawslosesscoredmissed...xGAxGA_diffnpxGAnpxGDppda_coefoppda_coefdeepdeep_allowedxptsxpts_diff
count684684.000000684.000000684684.000000684.000000684.000000684.000000684.000000684.000000...684.000000684.000000684.0000006.840000e+02684.000000684.000000684.000000684.000000684.000000684.000000
unique6NaNNaN168NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
topLa_ligaNaNNaNBarcelonaNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
freq120NaNNaN6NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
meanNaN2016.50000010.061404NaN35.93567313.4342119.06725113.43421148.19005848.190058...47.064744-1.12531542.902596-4.155221e-1710.91178410.911772208.676901208.67690149.5395980.169715
stdNaN1.7090755.580165NaN3.2034875.8809622.9418245.51027817.60537413.866509...11.7813996.66363211.0020131.929269e+012.5213983.30141083.88807354.71362413.5592137.156998
minNaN2014.0000001.000000NaN27.0000002.0000002.0000001.00000013.00000015.000000...16.838674-29.17508716.084399-4.220877e+015.6835354.39445876.00000083.00000017.907700-24.721600
25%NaN2015.0000005.000000NaN34.0000009.0000007.0000009.00000036.00000038.000000...38.916186-5.69882835.474606-1.325816e+019.0906178.809866151.750000170.00000039.466550-4.498400
50%NaN2016.50000010.000000NaN38.00000012.0000009.00000014.00000045.00000048.000000...47.310924-0.91889543.031911-3.127901e+0010.56254310.347047188.000000205.00000047.1021000.116050
75%NaN2018.00000015.000000NaN38.00000016.00000011.00000017.00000056.00000058.000000...54.8348993.38183450.2634659.740049e+0012.43487412.187434242.000000246.25000056.9420254.912775
maxNaN2019.00000020.000000NaN38.00000032.00000018.00000029.000000118.00000094.000000...88.43218616.37073778.5354477.304931e+0121.89675230.468113582.000000375.00000094.38000023.047500
\n", "

11 rows × 24 columns

\n", "
" ], "text/plain": [ " league year position team matches wins \\\n", "count 684 684.000000 684.000000 684 684.000000 684.000000 \n", "unique 6 NaN NaN 168 NaN NaN \n", "top La_liga NaN NaN Barcelona NaN NaN \n", "freq 120 NaN NaN 6 NaN NaN \n", "mean NaN 2016.500000 10.061404 NaN 35.935673 13.434211 \n", "std NaN 1.709075 5.580165 NaN 3.203487 5.880962 \n", "min NaN 2014.000000 1.000000 NaN 27.000000 2.000000 \n", "25% NaN 2015.000000 5.000000 NaN 34.000000 9.000000 \n", "50% NaN 2016.500000 10.000000 NaN 38.000000 12.000000 \n", "75% NaN 2018.000000 15.000000 NaN 38.000000 16.000000 \n", "max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 \n", "\n", " draws loses scored missed ... xGA \\\n", "count 684.000000 684.000000 684.000000 684.000000 ... 684.000000 \n", "unique NaN NaN NaN NaN ... NaN \n", "top NaN NaN NaN NaN ... NaN \n", "freq NaN NaN NaN NaN ... NaN \n", "mean 9.067251 13.434211 48.190058 48.190058 ... 47.064744 \n", "std 2.941824 5.510278 17.605374 13.866509 ... 11.781399 \n", "min 2.000000 1.000000 13.000000 15.000000 ... 16.838674 \n", "25% 7.000000 9.000000 36.000000 38.000000 ... 38.916186 \n", "50% 9.000000 14.000000 45.000000 48.000000 ... 47.310924 \n", "75% 11.000000 17.000000 56.000000 58.000000 ... 54.834899 \n", "max 18.000000 29.000000 118.000000 94.000000 ... 88.432186 \n", "\n", " xGA_diff npxGA npxGD ppda_coef oppda_coef \\\n", "count 684.000000 684.000000 6.840000e+02 684.000000 684.000000 \n", "unique NaN NaN NaN NaN NaN \n", "top NaN NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN NaN \n", "mean -1.125315 42.902596 -4.155221e-17 10.911784 10.911772 \n", "std 6.663632 11.002013 1.929269e+01 2.521398 3.301410 \n", "min -29.175087 16.084399 -4.220877e+01 5.683535 4.394458 \n", "25% -5.698828 35.474606 -1.325816e+01 9.090617 8.809866 \n", "50% -0.918895 43.031911 -3.127901e+00 10.562543 10.347047 \n", "75% 3.381834 50.263465 9.740049e+00 12.434874 12.187434 \n", "max 16.370737 78.535447 7.304931e+01 21.896752 30.468113 \n", "\n", " deep deep_allowed xpts xpts_diff \n", "count 684.000000 684.000000 684.000000 684.000000 \n", "unique NaN NaN NaN NaN \n", "top NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN \n", "mean 208.676901 208.676901 49.539598 0.169715 \n", "std 83.888073 54.713624 13.559213 7.156998 \n", "min 76.000000 83.000000 17.907700 -24.721600 \n", "25% 151.750000 170.000000 39.466550 -4.498400 \n", "50% 188.000000 205.000000 47.102100 0.116050 \n", "75% 242.000000 246.250000 56.942025 4.912775 \n", "max 582.000000 375.000000 94.380000 23.047500 \n", "\n", "[11 rows x 24 columns]" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "understat.describe(include='all')" ] }, { "cell_type": "code", "execution_count": 14, "id": "dff41fad", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
RFPL20172CSKA Moscow3017764923...26.5534965000000053.55349650000000525.79921650000000414.62824858.3923959042699517.54314349896367335914253.6637-4.336300000000001
count409409.000000409.000000409409.000000409.000000409.000000409.000000409.000000409.000000...409.000000409.000000409.000000409.000000409.000000409.000000409.000000409.000000409.000000409.000000
unique6NaNNaN154NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
topLa_ligaNaNNaNSevillaNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
freq72NaNNaN6NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
meanNaN2016.55501210.078240NaN35.92665013.4205388.95354513.55256748.23716448.530562...47.483894-1.04666943.234835-0.31517510.97308810.935122208.953545211.02200549.2746010.059443
stdNaN1.6941455.688287NaN3.1822885.8873552.9688405.74010717.24449314.469700...12.1000556.71682111.33430419.3856482.4848303.31148086.55991054.42752013.4928747.167367
minNaN2014.0000001.000000NaN28.0000002.0000002.0000001.00000013.00000015.000000...19.619785-29.17508718.111234-42.2087725.6835354.39445876.00000083.00000017.907700-24.531500
25%NaN2015.0000005.000000NaN34.00000010.0000007.0000009.00000036.00000038.000000...39.113520-5.59318435.744719-13.7405429.1756638.774373151.000000172.00000039.339700-4.249000
50%NaN2017.00000010.000000NaN38.00000012.0000009.00000014.00000045.00000049.000000...48.003810-0.89231343.858446-3.71626810.69132510.384529186.000000208.00000046.6939000.081300
75%NaN2018.00000015.000000NaN38.00000016.00000011.00000018.00000056.00000059.000000...55.3340563.07572050.59500910.04454812.45719712.303380243.000000249.00000056.8654004.907700
maxNaN2019.00000020.000000NaN38.00000032.00000018.00000029.000000116.00000094.000000...78.86325515.54015272.01381873.04930521.89675230.468113582.000000375.00000094.38000023.047500
\n", "

11 rows × 24 columns

\n", "
" ], "text/plain": [ " RFPL 2017 2 CSKA Moscow 30 17 \\\n", "count 409 409.000000 409.000000 409 409.000000 409.000000 \n", "unique 6 NaN NaN 154 NaN NaN \n", "top La_liga NaN NaN Sevilla NaN NaN \n", "freq 72 NaN NaN 6 NaN NaN \n", "mean NaN 2016.555012 10.078240 NaN 35.926650 13.420538 \n", "std NaN 1.694145 5.688287 NaN 3.182288 5.887355 \n", "min NaN 2014.000000 1.000000 NaN 28.000000 2.000000 \n", "25% NaN 2015.000000 5.000000 NaN 34.000000 10.000000 \n", "50% NaN 2017.000000 10.000000 NaN 38.000000 12.000000 \n", "75% NaN 2018.000000 15.000000 NaN 38.000000 16.000000 \n", "max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 \n", "\n", " 7 6 49 23 ... \\\n", "count 409.000000 409.000000 409.000000 409.000000 ... \n", "unique NaN NaN NaN NaN ... \n", "top NaN NaN NaN NaN ... \n", "freq NaN NaN NaN NaN ... \n", "mean 8.953545 13.552567 48.237164 48.530562 ... \n", "std 2.968840 5.740107 17.244493 14.469700 ... \n", "min 2.000000 1.000000 13.000000 15.000000 ... \n", "25% 7.000000 9.000000 36.000000 38.000000 ... \n", "50% 9.000000 14.000000 45.000000 49.000000 ... \n", "75% 11.000000 18.000000 56.000000 59.000000 ... \n", "max 18.000000 29.000000 116.000000 94.000000 ... \n", "\n", " 26.553496500000005 3.553496500000005 25.799216500000004 14.6282485 \\\n", "count 409.000000 409.000000 409.000000 409.000000 \n", "unique NaN NaN NaN NaN \n", "top NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN \n", "mean 47.483894 -1.046669 43.234835 -0.315175 \n", "std 12.100055 6.716821 11.334304 19.385648 \n", "min 19.619785 -29.175087 18.111234 -42.208772 \n", "25% 39.113520 -5.593184 35.744719 -13.740542 \n", "50% 48.003810 -0.892313 43.858446 -3.716268 \n", "75% 55.334056 3.075720 50.595009 10.044548 \n", "max 78.863255 15.540152 72.013818 73.049305 \n", "\n", " 8.39239590426995 17.543143498963673 359 142 \\\n", "count 409.000000 409.000000 409.000000 409.000000 \n", "unique NaN NaN NaN NaN \n", "top NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN \n", "mean 10.973088 10.935122 208.953545 211.022005 \n", "std 2.484830 3.311480 86.559910 54.427520 \n", "min 5.683535 4.394458 76.000000 83.000000 \n", "25% 9.175663 8.774373 151.000000 172.000000 \n", "50% 10.691325 10.384529 186.000000 208.000000 \n", "75% 12.457197 12.303380 243.000000 249.000000 \n", "max 21.896752 30.468113 582.000000 375.000000 \n", "\n", " 53.6637 -4.336300000000001 \n", "count 409.000000 409.000000 \n", "unique NaN NaN \n", "top NaN NaN \n", "freq NaN NaN \n", "mean 49.274601 0.059443 \n", "std 13.492874 7.167367 \n", "min 17.907700 -24.531500 \n", "25% 39.339700 -4.249000 \n", "50% 46.693900 0.081300 \n", "75% 56.865400 4.907700 \n", "max 94.380000 23.047500 \n", "\n", "[11 rows x 24 columns]" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "understat_train.describe(include='all')" ] }, { "cell_type": "code", "execution_count": 15, "id": "09df70ef", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
Serie_A201414Chievo381013152841...48.9853317.98533100000000245.940138-14.44911499999999910.1396870890622356.79403685617273417324741.4148-1.5852000000000004
count135135.000000136136136136136136136136...136136136136136136136136136136
unique6NaN209162116235655...13613613613613613610399136136
topLigue_1NaN9Reims3898144554...26.4675835.46758300000000121.6704820000000033.45609412.4660220968697811.19832078024460613221540.4213-0.5786999999999978
freq25NaN1348319221389...1111114411
meanNaN2016.533333NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
stdNaN1.756863NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
minNaN2014.000000NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
25%NaN2015.000000NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
50%NaN2016.000000NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
75%NaN2018.000000NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
maxNaN2019.000000NaNNaNNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
\n", "

11 rows × 24 columns

\n", "
" ], "text/plain": [ " Serie_A 2014 14 Chievo 38 10 13 15 28 41 ... \\\n", "count 135 135.000000 136 136 136 136 136 136 136 136 ... \n", "unique 6 NaN 20 91 6 21 16 23 56 55 ... \n", "top Ligue_1 NaN 9 Reims 38 9 8 14 45 54 ... \n", "freq 25 NaN 13 4 83 19 22 13 8 9 ... \n", "mean NaN 2016.533333 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "std NaN 1.756863 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "min NaN 2014.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "25% NaN 2015.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "50% NaN 2016.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "75% NaN 2018.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "max NaN 2019.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... \n", "\n", " 48.985331 7.985331000000002 45.940138 -14.449114999999999 \\\n", "count 136 136 136 136 \n", "unique 136 136 136 136 \n", "top 26.467583 5.467583000000001 21.670482000000003 3.456094 \n", "freq 1 1 1 1 \n", "mean NaN NaN NaN NaN \n", "std NaN NaN NaN NaN \n", "min NaN NaN NaN NaN \n", "25% NaN NaN NaN NaN \n", "50% NaN NaN NaN NaN \n", "75% NaN NaN NaN NaN \n", "max NaN NaN NaN NaN \n", "\n", " 10.139687089062235 6.794036856172734 173 247 41.4148 \\\n", "count 136 136 136 136 136 \n", "unique 136 136 103 99 136 \n", "top 12.46602209686978 11.198320780244606 132 215 40.4213 \n", "freq 1 1 4 4 1 \n", "mean NaN NaN NaN NaN NaN \n", "std NaN NaN NaN NaN NaN \n", "min NaN NaN NaN NaN NaN \n", "25% NaN NaN NaN NaN NaN \n", "50% NaN NaN NaN NaN NaN \n", "75% NaN NaN NaN NaN NaN \n", "max NaN NaN NaN NaN NaN \n", "\n", " -1.5852000000000004 \n", "count 136 \n", "unique 136 \n", "top -0.5786999999999978 \n", "freq 1 \n", "mean NaN \n", "std NaN \n", "min NaN \n", "25% NaN \n", "50% NaN \n", "75% NaN \n", "max NaN \n", "\n", "[11 rows x 24 columns]" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "understat_dev.describe(include='all')" ] }, { "cell_type": "code", "execution_count": 16, "id": "c045a17c", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
EPL201520Aston Villa38382727.176...59.009572999999996-16.99042700000000455.203728000000005-30.19901059999999413.8359494752034927.98421561409000313630029.81412.814
count136136.000000136.000000136136.000000136.000000136.000000136.000000136.000000136.000000...136.000000136.000000136.000000136.000000136.000000136.000000136.000000136.000000136.000000136.000000
unique6NaNNaN88NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
topSerie_ANaNNaNLiverpoolNaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
freq28NaNNaN5NaNNaNNaNNaNNaNNaN...NaNNaNNaNNaNNaNNaNNaNNaNNaNNaN
meanNaN2016.3088249.897059NaN36.25735314.0367659.23529412.98529449.99264747.161765...45.649438-1.51232741.8829872.75172810.48556111.226170217.455882199.21323551.9694180.623829
stdNaN1.6975575.742989NaN3.1198206.2921562.9820095.45823919.15646912.035885...10.4218906.1191899.76951819.7646752.5258513.89803587.26917653.45325513.7720177.601079
minNaN2014.0000001.000000NaN27.0000003.0000002.0000001.00000022.00000017.000000...16.838674-15.12609116.084399-38.1852956.4043655.57903182.00000087.00000025.071500-24.721600
25%NaN2015.0000005.000000NaN34.0000009.0000008.00000010.00000036.00000039.750000...38.312105-5.82853035.044259-10.8593368.5028798.652774157.750000164.00000042.223750-4.768925
50%NaN2016.00000010.000000NaN38.00000013.0000009.00000013.50000044.50000048.000000...45.576085-1.55031641.725086-1.47517110.09648110.718674197.000000191.50000050.4426001.283950
75%NaN2018.00000014.250000NaN38.00000018.00000011.00000017.00000059.00000055.000000...51.8348123.35231948.18892111.73446411.94819012.374883242.250000225.25000059.7901256.092850
maxNaN2019.00000020.000000NaN38.00000032.00000018.00000027.000000107.00000078.000000...72.70962011.94320566.61942058.81890319.51776826.967792547.000000364.00000086.75640020.158700
\n", "

11 rows × 24 columns

\n", "
" ], "text/plain": [ " EPL 2015 20 Aston Villa 38 3 \\\n", "count 136 136.000000 136.000000 136 136.000000 136.000000 \n", "unique 6 NaN NaN 88 NaN NaN \n", "top Serie_A NaN NaN Liverpool NaN NaN \n", "freq 28 NaN NaN 5 NaN NaN \n", "mean NaN 2016.308824 9.897059 NaN 36.257353 14.036765 \n", "std NaN 1.697557 5.742989 NaN 3.119820 6.292156 \n", "min NaN 2014.000000 1.000000 NaN 27.000000 3.000000 \n", "25% NaN 2015.000000 5.000000 NaN 34.000000 9.000000 \n", "50% NaN 2016.000000 10.000000 NaN 38.000000 13.000000 \n", "75% NaN 2018.000000 14.250000 NaN 38.000000 18.000000 \n", "max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 \n", "\n", " 8 27 27.1 76 ... \\\n", "count 136.000000 136.000000 136.000000 136.000000 ... \n", "unique NaN NaN NaN NaN ... \n", "top NaN NaN NaN NaN ... \n", "freq NaN NaN NaN NaN ... \n", "mean 9.235294 12.985294 49.992647 47.161765 ... \n", "std 2.982009 5.458239 19.156469 12.035885 ... \n", "min 2.000000 1.000000 22.000000 17.000000 ... \n", "25% 8.000000 10.000000 36.000000 39.750000 ... \n", "50% 9.000000 13.500000 44.500000 48.000000 ... \n", "75% 11.000000 17.000000 59.000000 55.000000 ... \n", "max 18.000000 27.000000 107.000000 78.000000 ... \n", "\n", " 59.009572999999996 -16.990427000000004 55.203728000000005 \\\n", "count 136.000000 136.000000 136.000000 \n", "unique NaN NaN NaN \n", "top NaN NaN NaN \n", "freq NaN NaN NaN \n", "mean 45.649438 -1.512327 41.882987 \n", "std 10.421890 6.119189 9.769518 \n", "min 16.838674 -15.126091 16.084399 \n", "25% 38.312105 -5.828530 35.044259 \n", "50% 45.576085 -1.550316 41.725086 \n", "75% 51.834812 3.352319 48.188921 \n", "max 72.709620 11.943205 66.619420 \n", "\n", " -30.199010599999994 13.835949475203492 7.984215614090003 \\\n", "count 136.000000 136.000000 136.000000 \n", "unique NaN NaN NaN \n", "top NaN NaN NaN \n", "freq NaN NaN NaN \n", "mean 2.751728 10.485561 11.226170 \n", "std 19.764675 2.525851 3.898035 \n", "min -38.185295 6.404365 5.579031 \n", "25% -10.859336 8.502879 8.652774 \n", "50% -1.475171 10.096481 10.718674 \n", "75% 11.734464 11.948190 12.374883 \n", "max 58.818903 19.517768 26.967792 \n", "\n", " 136 300 29.814 12.814 \n", "count 136.000000 136.000000 136.000000 136.000000 \n", "unique NaN NaN NaN NaN \n", "top NaN NaN NaN NaN \n", "freq NaN NaN NaN NaN \n", "mean 217.455882 199.213235 51.969418 0.623829 \n", "std 87.269176 53.453255 13.772017 7.601079 \n", "min 82.000000 87.000000 25.071500 -24.721600 \n", "25% 157.750000 164.000000 42.223750 -4.768925 \n", "50% 197.000000 191.500000 50.442600 1.283950 \n", "75% 242.250000 225.250000 59.790125 6.092850 \n", "max 547.000000 364.000000 86.756400 20.158700 \n", "\n", "[11 rows x 24 columns]" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "understat_test.describe(include='all')" ] }, { "cell_type": "markdown", "id": "4e0dcbbd", "metadata": {}, "source": [ "4. Normalizacja - dane sa znormalizowane (nie moge ingerowac w parametry ktore sa danymi do obliczania innych parametrow)" ] }, { "cell_type": "markdown", "id": "1ea021db", "metadata": {}, "source": [ "5. Wyczyszczenie z artefaktow " ] }, { "cell_type": "code", "execution_count": 23, "id": "99805022", "metadata": {}, "outputs": [], "source": [ "! grep -P \"^$\" -n understat.csv #brak pustych linijek" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.10" } }, "nbformat": 4, "nbformat_minor": 5 }