62 KiB
62 KiB
- Pobieranie zbioru
!kaggle datasets download -d slehkyi/extended-football-stats-for-european-leagues-xg
!unzip -o extended-football-stats-for-european-leagues-xg.zip
- Podzial na podzbiory
!wc -l understat.csv
685 understat.csv
! head -n -1 understat.csv | shuf > understat.csv.shuf
!head -n 137 understat.csv.shuf > understat.csv.test
!head -n 274 understat.csv.shuf | tail -n 137 > understat.csv.dev
!tail -n +275 understat.csv.shuf > understat.csv.train
!rm understat.csv.shuf
!wc -l understat.csv*
685 understat.csv 137 understat.csv.dev 137 understat.csv.test 410 understat.csv.train 1369 total
- Statystki dla zbiorow i podzbiorow
import pandas as pd
understat = pd.read_csv('understat.csv')
understat_test = pd.read_csv('understat.csv.test')
understat_dev = pd.read_csv('understat.csv.dev')
understat_train = pd.read_csv('understat.csv.train')
understat.describe(include='all')
league | year | position | team | matches | wins | draws | loses | scored | missed | ... | xGA | xGA_diff | npxGA | npxGD | ppda_coef | oppda_coef | deep | deep_allowed | xpts | xpts_diff | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 684 | 684.000000 | 684.000000 | 684 | 684.000000 | 684.000000 | 684.000000 | 684.000000 | 684.000000 | 684.000000 | ... | 684.000000 | 684.000000 | 684.000000 | 6.840000e+02 | 684.000000 | 684.000000 | 684.000000 | 684.000000 | 684.000000 | 684.000000 |
unique | 6 | NaN | NaN | 168 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
top | La_liga | NaN | NaN | Barcelona | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
freq | 120 | NaN | NaN | 6 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
mean | NaN | 2016.500000 | 10.061404 | NaN | 35.935673 | 13.434211 | 9.067251 | 13.434211 | 48.190058 | 48.190058 | ... | 47.064744 | -1.125315 | 42.902596 | -4.155221e-17 | 10.911784 | 10.911772 | 208.676901 | 208.676901 | 49.539598 | 0.169715 |
std | NaN | 1.709075 | 5.580165 | NaN | 3.203487 | 5.880962 | 2.941824 | 5.510278 | 17.605374 | 13.866509 | ... | 11.781399 | 6.663632 | 11.002013 | 1.929269e+01 | 2.521398 | 3.301410 | 83.888073 | 54.713624 | 13.559213 | 7.156998 |
min | NaN | 2014.000000 | 1.000000 | NaN | 27.000000 | 2.000000 | 2.000000 | 1.000000 | 13.000000 | 15.000000 | ... | 16.838674 | -29.175087 | 16.084399 | -4.220877e+01 | 5.683535 | 4.394458 | 76.000000 | 83.000000 | 17.907700 | -24.721600 |
25% | NaN | 2015.000000 | 5.000000 | NaN | 34.000000 | 9.000000 | 7.000000 | 9.000000 | 36.000000 | 38.000000 | ... | 38.916186 | -5.698828 | 35.474606 | -1.325816e+01 | 9.090617 | 8.809866 | 151.750000 | 170.000000 | 39.466550 | -4.498400 |
50% | NaN | 2016.500000 | 10.000000 | NaN | 38.000000 | 12.000000 | 9.000000 | 14.000000 | 45.000000 | 48.000000 | ... | 47.310924 | -0.918895 | 43.031911 | -3.127901e+00 | 10.562543 | 10.347047 | 188.000000 | 205.000000 | 47.102100 | 0.116050 |
75% | NaN | 2018.000000 | 15.000000 | NaN | 38.000000 | 16.000000 | 11.000000 | 17.000000 | 56.000000 | 58.000000 | ... | 54.834899 | 3.381834 | 50.263465 | 9.740049e+00 | 12.434874 | 12.187434 | 242.000000 | 246.250000 | 56.942025 | 4.912775 |
max | NaN | 2019.000000 | 20.000000 | NaN | 38.000000 | 32.000000 | 18.000000 | 29.000000 | 118.000000 | 94.000000 | ... | 88.432186 | 16.370737 | 78.535447 | 7.304931e+01 | 21.896752 | 30.468113 | 582.000000 | 375.000000 | 94.380000 | 23.047500 |
11 rows × 24 columns
understat_train.describe(include='all')
RFPL | 2017 | 2 | CSKA Moscow | 30 | 17 | 7 | 6 | 49 | 23 | ... | 26.553496500000005 | 3.553496500000005 | 25.799216500000004 | 14.6282485 | 8.39239590426995 | 17.543143498963673 | 359 | 142 | 53.6637 | -4.336300000000001 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 409 | 409.000000 | 409.000000 | 409 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | ... | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 | 409.000000 |
unique | 6 | NaN | NaN | 154 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
top | La_liga | NaN | NaN | Sevilla | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
freq | 72 | NaN | NaN | 6 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
mean | NaN | 2016.555012 | 10.078240 | NaN | 35.926650 | 13.420538 | 8.953545 | 13.552567 | 48.237164 | 48.530562 | ... | 47.483894 | -1.046669 | 43.234835 | -0.315175 | 10.973088 | 10.935122 | 208.953545 | 211.022005 | 49.274601 | 0.059443 |
std | NaN | 1.694145 | 5.688287 | NaN | 3.182288 | 5.887355 | 2.968840 | 5.740107 | 17.244493 | 14.469700 | ... | 12.100055 | 6.716821 | 11.334304 | 19.385648 | 2.484830 | 3.311480 | 86.559910 | 54.427520 | 13.492874 | 7.167367 |
min | NaN | 2014.000000 | 1.000000 | NaN | 28.000000 | 2.000000 | 2.000000 | 1.000000 | 13.000000 | 15.000000 | ... | 19.619785 | -29.175087 | 18.111234 | -42.208772 | 5.683535 | 4.394458 | 76.000000 | 83.000000 | 17.907700 | -24.531500 |
25% | NaN | 2015.000000 | 5.000000 | NaN | 34.000000 | 10.000000 | 7.000000 | 9.000000 | 36.000000 | 38.000000 | ... | 39.113520 | -5.593184 | 35.744719 | -13.740542 | 9.175663 | 8.774373 | 151.000000 | 172.000000 | 39.339700 | -4.249000 |
50% | NaN | 2017.000000 | 10.000000 | NaN | 38.000000 | 12.000000 | 9.000000 | 14.000000 | 45.000000 | 49.000000 | ... | 48.003810 | -0.892313 | 43.858446 | -3.716268 | 10.691325 | 10.384529 | 186.000000 | 208.000000 | 46.693900 | 0.081300 |
75% | NaN | 2018.000000 | 15.000000 | NaN | 38.000000 | 16.000000 | 11.000000 | 18.000000 | 56.000000 | 59.000000 | ... | 55.334056 | 3.075720 | 50.595009 | 10.044548 | 12.457197 | 12.303380 | 243.000000 | 249.000000 | 56.865400 | 4.907700 |
max | NaN | 2019.000000 | 20.000000 | NaN | 38.000000 | 32.000000 | 18.000000 | 29.000000 | 116.000000 | 94.000000 | ... | 78.863255 | 15.540152 | 72.013818 | 73.049305 | 21.896752 | 30.468113 | 582.000000 | 375.000000 | 94.380000 | 23.047500 |
11 rows × 24 columns
understat_dev.describe(include='all')
Serie_A | 2014 | 14 | Chievo | 38 | 10 | 13 | 15 | 28 | 41 | ... | 48.985331 | 7.985331000000002 | 45.940138 | -14.449114999999999 | 10.139687089062235 | 6.794036856172734 | 173 | 247 | 41.4148 | -1.5852000000000004 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 135 | 135.000000 | 136 | 136 | 136 | 136 | 136 | 136 | 136 | 136 | ... | 136 | 136 | 136 | 136 | 136 | 136 | 136 | 136 | 136 | 136 |
unique | 6 | NaN | 20 | 91 | 6 | 21 | 16 | 23 | 56 | 55 | ... | 136 | 136 | 136 | 136 | 136 | 136 | 103 | 99 | 136 | 136 |
top | Ligue_1 | NaN | 9 | Reims | 38 | 9 | 8 | 14 | 45 | 54 | ... | 26.467583 | 5.467583000000001 | 21.670482000000003 | 3.456094 | 12.46602209686978 | 11.198320780244606 | 132 | 215 | 40.4213 | -0.5786999999999978 |
freq | 25 | NaN | 13 | 4 | 83 | 19 | 22 | 13 | 8 | 9 | ... | 1 | 1 | 1 | 1 | 1 | 1 | 4 | 4 | 1 | 1 |
mean | NaN | 2016.533333 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
std | NaN | 1.756863 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
min | NaN | 2014.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
25% | NaN | 2015.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
50% | NaN | 2016.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
75% | NaN | 2018.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
max | NaN | 2019.000000 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
11 rows × 24 columns
understat_test.describe(include='all')
EPL | 2015 | 20 | Aston Villa | 38 | 3 | 8 | 27 | 27.1 | 76 | ... | 59.009572999999996 | -16.990427000000004 | 55.203728000000005 | -30.199010599999994 | 13.835949475203492 | 7.984215614090003 | 136 | 300 | 29.814 | 12.814 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 136 | 136.000000 | 136.000000 | 136 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | ... | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 | 136.000000 |
unique | 6 | NaN | NaN | 88 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
top | Serie_A | NaN | NaN | Liverpool | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
freq | 28 | NaN | NaN | 5 | NaN | NaN | NaN | NaN | NaN | NaN | ... | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
mean | NaN | 2016.308824 | 9.897059 | NaN | 36.257353 | 14.036765 | 9.235294 | 12.985294 | 49.992647 | 47.161765 | ... | 45.649438 | -1.512327 | 41.882987 | 2.751728 | 10.485561 | 11.226170 | 217.455882 | 199.213235 | 51.969418 | 0.623829 |
std | NaN | 1.697557 | 5.742989 | NaN | 3.119820 | 6.292156 | 2.982009 | 5.458239 | 19.156469 | 12.035885 | ... | 10.421890 | 6.119189 | 9.769518 | 19.764675 | 2.525851 | 3.898035 | 87.269176 | 53.453255 | 13.772017 | 7.601079 |
min | NaN | 2014.000000 | 1.000000 | NaN | 27.000000 | 3.000000 | 2.000000 | 1.000000 | 22.000000 | 17.000000 | ... | 16.838674 | -15.126091 | 16.084399 | -38.185295 | 6.404365 | 5.579031 | 82.000000 | 87.000000 | 25.071500 | -24.721600 |
25% | NaN | 2015.000000 | 5.000000 | NaN | 34.000000 | 9.000000 | 8.000000 | 10.000000 | 36.000000 | 39.750000 | ... | 38.312105 | -5.828530 | 35.044259 | -10.859336 | 8.502879 | 8.652774 | 157.750000 | 164.000000 | 42.223750 | -4.768925 |
50% | NaN | 2016.000000 | 10.000000 | NaN | 38.000000 | 13.000000 | 9.000000 | 13.500000 | 44.500000 | 48.000000 | ... | 45.576085 | -1.550316 | 41.725086 | -1.475171 | 10.096481 | 10.718674 | 197.000000 | 191.500000 | 50.442600 | 1.283950 |
75% | NaN | 2018.000000 | 14.250000 | NaN | 38.000000 | 18.000000 | 11.000000 | 17.000000 | 59.000000 | 55.000000 | ... | 51.834812 | 3.352319 | 48.188921 | 11.734464 | 11.948190 | 12.374883 | 242.250000 | 225.250000 | 59.790125 | 6.092850 |
max | NaN | 2019.000000 | 20.000000 | NaN | 38.000000 | 32.000000 | 18.000000 | 27.000000 | 107.000000 | 78.000000 | ... | 72.709620 | 11.943205 | 66.619420 | 58.818903 | 19.517768 | 26.967792 | 547.000000 | 364.000000 | 86.756400 | 20.158700 |
11 rows × 24 columns
- Normalizacja - dane sa znormalizowane (nie moge ingerowac w parametry ktore sa danymi do obliczania innych parametrow)
- Wyczyszczenie z artefaktow
! grep -P "^$" -n understat.csv #brak pustych linijek