1
0
ium_478839/IUM02-zadanie.ipynb
2022-03-20 19:28:35 -04:00

62 KiB
Raw Blame History

  1. Pobieranie zbioru
!kaggle datasets download -d slehkyi/extended-football-stats-for-european-leagues-xg
!unzip -o extended-football-stats-for-european-leagues-xg.zip
  1. Podzial na podzbiory
!wc -l understat.csv
685 understat.csv
! head -n -1 understat.csv | shuf > understat.csv.shuf
!head -n 137 understat.csv.shuf > understat.csv.test
!head -n 274 understat.csv.shuf | tail -n 137 > understat.csv.dev
!tail -n +275 understat.csv.shuf > understat.csv.train
!rm understat.csv.shuf
!wc -l understat.csv*
   685 understat.csv
   137 understat.csv.dev
   137 understat.csv.test
   410 understat.csv.train
  1369 total
  1. Statystki dla zbiorow i podzbiorow
import pandas as pd
understat = pd.read_csv('understat.csv')
understat_test = pd.read_csv('understat.csv.test')
understat_dev = pd.read_csv('understat.csv.dev')
understat_train = pd.read_csv('understat.csv.train')
understat.describe(include='all')
league year position team matches wins draws loses scored missed ... xGA xGA_diff npxGA npxGD ppda_coef oppda_coef deep deep_allowed xpts xpts_diff
count 684 684.000000 684.000000 684 684.000000 684.000000 684.000000 684.000000 684.000000 684.000000 ... 684.000000 684.000000 684.000000 6.840000e+02 684.000000 684.000000 684.000000 684.000000 684.000000 684.000000
unique 6 NaN NaN 168 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
top La_liga NaN NaN Barcelona NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
freq 120 NaN NaN 6 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
mean NaN 2016.500000 10.061404 NaN 35.935673 13.434211 9.067251 13.434211 48.190058 48.190058 ... 47.064744 -1.125315 42.902596 -4.155221e-17 10.911784 10.911772 208.676901 208.676901 49.539598 0.169715
std NaN 1.709075 5.580165 NaN 3.203487 5.880962 2.941824 5.510278 17.605374 13.866509 ... 11.781399 6.663632 11.002013 1.929269e+01 2.521398 3.301410 83.888073 54.713624 13.559213 7.156998
min NaN 2014.000000 1.000000 NaN 27.000000 2.000000 2.000000 1.000000 13.000000 15.000000 ... 16.838674 -29.175087 16.084399 -4.220877e+01 5.683535 4.394458 76.000000 83.000000 17.907700 -24.721600
25% NaN 2015.000000 5.000000 NaN 34.000000 9.000000 7.000000 9.000000 36.000000 38.000000 ... 38.916186 -5.698828 35.474606 -1.325816e+01 9.090617 8.809866 151.750000 170.000000 39.466550 -4.498400
50% NaN 2016.500000 10.000000 NaN 38.000000 12.000000 9.000000 14.000000 45.000000 48.000000 ... 47.310924 -0.918895 43.031911 -3.127901e+00 10.562543 10.347047 188.000000 205.000000 47.102100 0.116050
75% NaN 2018.000000 15.000000 NaN 38.000000 16.000000 11.000000 17.000000 56.000000 58.000000 ... 54.834899 3.381834 50.263465 9.740049e+00 12.434874 12.187434 242.000000 246.250000 56.942025 4.912775
max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 18.000000 29.000000 118.000000 94.000000 ... 88.432186 16.370737 78.535447 7.304931e+01 21.896752 30.468113 582.000000 375.000000 94.380000 23.047500

11 rows × 24 columns

understat_train.describe(include='all')
RFPL 2017 2 CSKA Moscow 30 17 7 6 49 23 ... 26.553496500000005 3.553496500000005 25.799216500000004 14.6282485 8.39239590426995 17.543143498963673 359 142 53.6637 -4.336300000000001
count 409 409.000000 409.000000 409 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000 ... 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000 409.000000
unique 6 NaN NaN 154 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
top La_liga NaN NaN Sevilla NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
freq 72 NaN NaN 6 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
mean NaN 2016.555012 10.078240 NaN 35.926650 13.420538 8.953545 13.552567 48.237164 48.530562 ... 47.483894 -1.046669 43.234835 -0.315175 10.973088 10.935122 208.953545 211.022005 49.274601 0.059443
std NaN 1.694145 5.688287 NaN 3.182288 5.887355 2.968840 5.740107 17.244493 14.469700 ... 12.100055 6.716821 11.334304 19.385648 2.484830 3.311480 86.559910 54.427520 13.492874 7.167367
min NaN 2014.000000 1.000000 NaN 28.000000 2.000000 2.000000 1.000000 13.000000 15.000000 ... 19.619785 -29.175087 18.111234 -42.208772 5.683535 4.394458 76.000000 83.000000 17.907700 -24.531500
25% NaN 2015.000000 5.000000 NaN 34.000000 10.000000 7.000000 9.000000 36.000000 38.000000 ... 39.113520 -5.593184 35.744719 -13.740542 9.175663 8.774373 151.000000 172.000000 39.339700 -4.249000
50% NaN 2017.000000 10.000000 NaN 38.000000 12.000000 9.000000 14.000000 45.000000 49.000000 ... 48.003810 -0.892313 43.858446 -3.716268 10.691325 10.384529 186.000000 208.000000 46.693900 0.081300
75% NaN 2018.000000 15.000000 NaN 38.000000 16.000000 11.000000 18.000000 56.000000 59.000000 ... 55.334056 3.075720 50.595009 10.044548 12.457197 12.303380 243.000000 249.000000 56.865400 4.907700
max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 18.000000 29.000000 116.000000 94.000000 ... 78.863255 15.540152 72.013818 73.049305 21.896752 30.468113 582.000000 375.000000 94.380000 23.047500

11 rows × 24 columns

understat_dev.describe(include='all')
Serie_A 2014 14 Chievo 38 10 13 15 28 41 ... 48.985331 7.985331000000002 45.940138 -14.449114999999999 10.139687089062235 6.794036856172734 173 247 41.4148 -1.5852000000000004
count 135 135.000000 136 136 136 136 136 136 136 136 ... 136 136 136 136 136 136 136 136 136 136
unique 6 NaN 20 91 6 21 16 23 56 55 ... 136 136 136 136 136 136 103 99 136 136
top Ligue_1 NaN 9 Reims 38 9 8 14 45 54 ... 26.467583 5.467583000000001 21.670482000000003 3.456094 12.46602209686978 11.198320780244606 132 215 40.4213 -0.5786999999999978
freq 25 NaN 13 4 83 19 22 13 8 9 ... 1 1 1 1 1 1 4 4 1 1
mean NaN 2016.533333 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
std NaN 1.756863 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
min NaN 2014.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
25% NaN 2015.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
50% NaN 2016.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
75% NaN 2018.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
max NaN 2019.000000 NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

11 rows × 24 columns

understat_test.describe(include='all')
EPL 2015 20 Aston Villa 38 3 8 27 27.1 76 ... 59.009572999999996 -16.990427000000004 55.203728000000005 -30.199010599999994 13.835949475203492 7.984215614090003 136 300 29.814 12.814
count 136 136.000000 136.000000 136 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000 ... 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000 136.000000
unique 6 NaN NaN 88 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
top Serie_A NaN NaN Liverpool NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
freq 28 NaN NaN 5 NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
mean NaN 2016.308824 9.897059 NaN 36.257353 14.036765 9.235294 12.985294 49.992647 47.161765 ... 45.649438 -1.512327 41.882987 2.751728 10.485561 11.226170 217.455882 199.213235 51.969418 0.623829
std NaN 1.697557 5.742989 NaN 3.119820 6.292156 2.982009 5.458239 19.156469 12.035885 ... 10.421890 6.119189 9.769518 19.764675 2.525851 3.898035 87.269176 53.453255 13.772017 7.601079
min NaN 2014.000000 1.000000 NaN 27.000000 3.000000 2.000000 1.000000 22.000000 17.000000 ... 16.838674 -15.126091 16.084399 -38.185295 6.404365 5.579031 82.000000 87.000000 25.071500 -24.721600
25% NaN 2015.000000 5.000000 NaN 34.000000 9.000000 8.000000 10.000000 36.000000 39.750000 ... 38.312105 -5.828530 35.044259 -10.859336 8.502879 8.652774 157.750000 164.000000 42.223750 -4.768925
50% NaN 2016.000000 10.000000 NaN 38.000000 13.000000 9.000000 13.500000 44.500000 48.000000 ... 45.576085 -1.550316 41.725086 -1.475171 10.096481 10.718674 197.000000 191.500000 50.442600 1.283950
75% NaN 2018.000000 14.250000 NaN 38.000000 18.000000 11.000000 17.000000 59.000000 55.000000 ... 51.834812 3.352319 48.188921 11.734464 11.948190 12.374883 242.250000 225.250000 59.790125 6.092850
max NaN 2019.000000 20.000000 NaN 38.000000 32.000000 18.000000 27.000000 107.000000 78.000000 ... 72.709620 11.943205 66.619420 58.818903 19.517768 26.967792 547.000000 364.000000 86.756400 20.158700

11 rows × 24 columns

  1. Normalizacja - dane sa znormalizowane (nie moge ingerowac w parametry ktore sa danymi do obliczania innych parametrow)
  1. Wyczyszczenie z artefaktow
! grep -P "^$" -n understat.csv #brak pustych linijek