ium_444409/power_plant_data_stats.ipynb

33 KiB
Raw Permalink Blame History

# statystyki dla pełnego zbioru

import pandas as pd
plant_all = pd.read_csv('data/Plant_1_Generation_Data.csv')
plant_all.describe(include='all')
DATE_TIME PLANT_ID SOURCE_KEY DC_POWER AC_POWER DAILY_YIELD TOTAL_YIELD
count 68778 68778.0 68778 68778.000000 68778.000000 68778.000000 6.877800e+04
unique 3158 NaN 22 NaN NaN NaN NaN
top 01-06-2020 12:45 NaN bvBOhCH3iADSZry NaN NaN NaN NaN
freq 22 NaN 3155 NaN NaN NaN NaN
mean NaN 4135001.0 NaN 3147.426211 307.802752 3295.968737 6.978712e+06
std NaN 0.0 NaN 4036.457169 394.396439 3145.178309 4.162720e+05
min NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.183645e+06
25% NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.512003e+06
50% NaN 4135001.0 NaN 429.000000 41.493750 2658.714286 7.146685e+06
75% NaN 4135001.0 NaN 6366.964286 623.618750 6274.000000 7.268706e+06
max NaN 4135001.0 NaN 14471.125000 1410.950000 9163.000000 7.846821e+06
# statystyki dla zbioru dev

plant_dev = pd.read_csv('data/Plant_1_Generation_Data.csv.dev')
plant_dev.describe(include='all')
DATE_TIME PLANT_ID SOURCE_KEY DC_POWER AC_POWER DAILY_YIELD TOTAL_YIELD
count 6877 6877.0 6877 6877.000000 6877.000000 6877.000000 6.877000e+03
unique 2833 NaN 22 NaN NaN NaN NaN
top 01-06-2020 00:00 NaN 1BY6WEcLGh8j5v7 NaN NaN NaN NaN
freq 8 NaN 345 NaN NaN NaN NaN
mean NaN 4135001.0 NaN 3260.482360 318.857642 3310.769269 6.974811e+06
std NaN 0.0 NaN 4068.560282 397.532031 3139.906175 4.218293e+05
min NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.183645e+06
25% NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.497496e+06
50% NaN 4135001.0 NaN 680.285714 65.914286 2652.714286 7.143812e+06
75% NaN 4135001.0 NaN 6623.571429 648.842857 6277.000000 7.266135e+06
max NaN 4135001.0 NaN 14418.428570 1405.800000 9163.000000 7.846821e+06
# statystyki dla zbioru test

plant_test = pd.read_csv('data/Plant_1_Generation_Data.csv.test')
plant_test.describe(include='all')
DATE_TIME PLANT_ID SOURCE_KEY DC_POWER AC_POWER DAILY_YIELD TOTAL_YIELD
count 6877 6877.0 6877 6877.000000 6877.000000 6877.000000 6.877000e+03
unique 2831 NaN 22 NaN NaN NaN NaN
top 03-06-2020 13:30 NaN z9Y9gH1T5YWrNuG NaN NaN NaN NaN
freq 9 NaN 363 NaN NaN NaN NaN
mean NaN 4135001.0 NaN 3150.807630 308.151426 3305.763907 6.981431e+06
std NaN 0.0 NaN 4020.609169 392.878525 3142.407510 4.151093e+05
min NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.183645e+06
25% NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.512002e+06
50% NaN 4135001.0 NaN 468.285714 45.400000 2682.285714 7.149051e+06
75% NaN 4135001.0 NaN 6369.250000 623.975000 6274.000000 7.271854e+06
max NaN 4135001.0 NaN 14466.857140 1410.528571 9163.000000 7.846821e+06
# statystyki dla zbioru train

plant_train = pd.read_csv('data/Plant_1_Generation_Data.csv.train')
plant_train.describe(include='all')
DATE_TIME PLANT_ID SOURCE_KEY DC_POWER AC_POWER DAILY_YIELD TOTAL_YIELD
count 55024 55024.0 55024 55024.000000 55024.000000 55024.000000 5.502400e+04
unique 3158 NaN 22 NaN NaN NaN NaN
top 15-06-2020 09:30 NaN iCRJl6heRkivqQ3 NaN NaN NaN NaN
freq 22 NaN 2561 NaN NaN NaN NaN
mean NaN 4135001.0 NaN 3132.873631 306.377514 3292.894721 6.978859e+06
std NaN 0.0 NaN 4034.254455 394.177510 3146.231920 4.157218e+05
min NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.183645e+06
25% NaN 4135001.0 NaN 0.000000 0.000000 0.000000 6.514911e+06
50% NaN 4135001.0 NaN 400.500000 38.720536 2658.062500 7.146685e+06
75% NaN 4135001.0 NaN 6337.535714 620.728125 6273.616072 7.268792e+06
max NaN 4135001.0 NaN 14471.125000 1410.950000 9163.000000 7.846821e+06
# normalizacja


plant_normalized = plant_test.copy()
column = 'DC_POWER'

plant_normalized[column] = plant_normalized[column]  / plant_normalized[column].abs().max()

plant_normalized
DATE_TIME PLANT_ID SOURCE_KEY DC_POWER AC_POWER DAILY_YIELD TOTAL_YIELD
0 10-06-2020 22:45 4135001 rGa61gmuvPhdLxV 0.000000 0.000000 6565.000000 7310769.000
1 25-05-2020 07:15 4135001 uHbuxQJl8lW7ozc 0.166544 236.262500 121.750000 7111973.750
2 23-05-2020 17:45 4135001 1IF53ai7Xc0U56Y 0.109156 154.485714 8607.000000 6249141.000
3 15-05-2020 04:45 4135001 3PZuoBAID5Wc2HD 0.000000 0.000000 0.000000 6987759.000
4 12-06-2020 16:30 4135001 iCRJl6heRkivqQ3 0.191808 272.157143 5567.428571 7391038.429
... ... ... ... ... ... ... ...
6872 01-06-2020 10:00 4135001 zBIq5rxdHJRwDNY 0.539282 763.628571 1779.285714 6465018.286
6873 27-05-2020 02:00 4135001 VHMLBKoKgIrUVDU 0.000000 0.000000 0.000000 7297615.000
6874 31-05-2020 21:30 4135001 3PZuoBAID5Wc2HD 0.000000 0.000000 5816.000000 7115304.000
6875 11-06-2020 18:45 4135001 ih0vzX44oOqAx2f 0.000000 0.000000 5521.000000 6386553.000
6876 16-06-2020 05:45 4135001 3PZuoBAID5Wc2HD 0.000000 0.000000 0.000000 7225042.000

6877 rows × 7 columns