33 KiB
33 KiB
# statystyki dla pełnego zbioru
import pandas as pd
plant_all = pd.read_csv('data/Plant_1_Generation_Data.csv')
plant_all.describe(include='all')
DATE_TIME | PLANT_ID | SOURCE_KEY | DC_POWER | AC_POWER | DAILY_YIELD | TOTAL_YIELD | |
---|---|---|---|---|---|---|---|
count | 68778 | 68778.0 | 68778 | 68778.000000 | 68778.000000 | 68778.000000 | 6.877800e+04 |
unique | 3158 | NaN | 22 | NaN | NaN | NaN | NaN |
top | 01-06-2020 12:45 | NaN | bvBOhCH3iADSZry | NaN | NaN | NaN | NaN |
freq | 22 | NaN | 3155 | NaN | NaN | NaN | NaN |
mean | NaN | 4135001.0 | NaN | 3147.426211 | 307.802752 | 3295.968737 | 6.978712e+06 |
std | NaN | 0.0 | NaN | 4036.457169 | 394.396439 | 3145.178309 | 4.162720e+05 |
min | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.183645e+06 |
25% | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.512003e+06 |
50% | NaN | 4135001.0 | NaN | 429.000000 | 41.493750 | 2658.714286 | 7.146685e+06 |
75% | NaN | 4135001.0 | NaN | 6366.964286 | 623.618750 | 6274.000000 | 7.268706e+06 |
max | NaN | 4135001.0 | NaN | 14471.125000 | 1410.950000 | 9163.000000 | 7.846821e+06 |
# statystyki dla zbioru dev
plant_dev = pd.read_csv('data/Plant_1_Generation_Data.csv.dev')
plant_dev.describe(include='all')
DATE_TIME | PLANT_ID | SOURCE_KEY | DC_POWER | AC_POWER | DAILY_YIELD | TOTAL_YIELD | |
---|---|---|---|---|---|---|---|
count | 6877 | 6877.0 | 6877 | 6877.000000 | 6877.000000 | 6877.000000 | 6.877000e+03 |
unique | 2833 | NaN | 22 | NaN | NaN | NaN | NaN |
top | 01-06-2020 00:00 | NaN | 1BY6WEcLGh8j5v7 | NaN | NaN | NaN | NaN |
freq | 8 | NaN | 345 | NaN | NaN | NaN | NaN |
mean | NaN | 4135001.0 | NaN | 3260.482360 | 318.857642 | 3310.769269 | 6.974811e+06 |
std | NaN | 0.0 | NaN | 4068.560282 | 397.532031 | 3139.906175 | 4.218293e+05 |
min | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.183645e+06 |
25% | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.497496e+06 |
50% | NaN | 4135001.0 | NaN | 680.285714 | 65.914286 | 2652.714286 | 7.143812e+06 |
75% | NaN | 4135001.0 | NaN | 6623.571429 | 648.842857 | 6277.000000 | 7.266135e+06 |
max | NaN | 4135001.0 | NaN | 14418.428570 | 1405.800000 | 9163.000000 | 7.846821e+06 |
# statystyki dla zbioru test
plant_test = pd.read_csv('data/Plant_1_Generation_Data.csv.test')
plant_test.describe(include='all')
DATE_TIME | PLANT_ID | SOURCE_KEY | DC_POWER | AC_POWER | DAILY_YIELD | TOTAL_YIELD | |
---|---|---|---|---|---|---|---|
count | 6877 | 6877.0 | 6877 | 6877.000000 | 6877.000000 | 6877.000000 | 6.877000e+03 |
unique | 2831 | NaN | 22 | NaN | NaN | NaN | NaN |
top | 03-06-2020 13:30 | NaN | z9Y9gH1T5YWrNuG | NaN | NaN | NaN | NaN |
freq | 9 | NaN | 363 | NaN | NaN | NaN | NaN |
mean | NaN | 4135001.0 | NaN | 3150.807630 | 308.151426 | 3305.763907 | 6.981431e+06 |
std | NaN | 0.0 | NaN | 4020.609169 | 392.878525 | 3142.407510 | 4.151093e+05 |
min | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.183645e+06 |
25% | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.512002e+06 |
50% | NaN | 4135001.0 | NaN | 468.285714 | 45.400000 | 2682.285714 | 7.149051e+06 |
75% | NaN | 4135001.0 | NaN | 6369.250000 | 623.975000 | 6274.000000 | 7.271854e+06 |
max | NaN | 4135001.0 | NaN | 14466.857140 | 1410.528571 | 9163.000000 | 7.846821e+06 |
# statystyki dla zbioru train
plant_train = pd.read_csv('data/Plant_1_Generation_Data.csv.train')
plant_train.describe(include='all')
DATE_TIME | PLANT_ID | SOURCE_KEY | DC_POWER | AC_POWER | DAILY_YIELD | TOTAL_YIELD | |
---|---|---|---|---|---|---|---|
count | 55024 | 55024.0 | 55024 | 55024.000000 | 55024.000000 | 55024.000000 | 5.502400e+04 |
unique | 3158 | NaN | 22 | NaN | NaN | NaN | NaN |
top | 15-06-2020 09:30 | NaN | iCRJl6heRkivqQ3 | NaN | NaN | NaN | NaN |
freq | 22 | NaN | 2561 | NaN | NaN | NaN | NaN |
mean | NaN | 4135001.0 | NaN | 3132.873631 | 306.377514 | 3292.894721 | 6.978859e+06 |
std | NaN | 0.0 | NaN | 4034.254455 | 394.177510 | 3146.231920 | 4.157218e+05 |
min | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.183645e+06 |
25% | NaN | 4135001.0 | NaN | 0.000000 | 0.000000 | 0.000000 | 6.514911e+06 |
50% | NaN | 4135001.0 | NaN | 400.500000 | 38.720536 | 2658.062500 | 7.146685e+06 |
75% | NaN | 4135001.0 | NaN | 6337.535714 | 620.728125 | 6273.616072 | 7.268792e+06 |
max | NaN | 4135001.0 | NaN | 14471.125000 | 1410.950000 | 9163.000000 | 7.846821e+06 |
# normalizacja
plant_normalized = plant_test.copy()
column = 'DC_POWER'
plant_normalized[column] = plant_normalized[column] / plant_normalized[column].abs().max()
plant_normalized
DATE_TIME | PLANT_ID | SOURCE_KEY | DC_POWER | AC_POWER | DAILY_YIELD | TOTAL_YIELD | |
---|---|---|---|---|---|---|---|
0 | 10-06-2020 22:45 | 4135001 | rGa61gmuvPhdLxV | 0.000000 | 0.000000 | 6565.000000 | 7310769.000 |
1 | 25-05-2020 07:15 | 4135001 | uHbuxQJl8lW7ozc | 0.166544 | 236.262500 | 121.750000 | 7111973.750 |
2 | 23-05-2020 17:45 | 4135001 | 1IF53ai7Xc0U56Y | 0.109156 | 154.485714 | 8607.000000 | 6249141.000 |
3 | 15-05-2020 04:45 | 4135001 | 3PZuoBAID5Wc2HD | 0.000000 | 0.000000 | 0.000000 | 6987759.000 |
4 | 12-06-2020 16:30 | 4135001 | iCRJl6heRkivqQ3 | 0.191808 | 272.157143 | 5567.428571 | 7391038.429 |
... | ... | ... | ... | ... | ... | ... | ... |
6872 | 01-06-2020 10:00 | 4135001 | zBIq5rxdHJRwDNY | 0.539282 | 763.628571 | 1779.285714 | 6465018.286 |
6873 | 27-05-2020 02:00 | 4135001 | VHMLBKoKgIrUVDU | 0.000000 | 0.000000 | 0.000000 | 7297615.000 |
6874 | 31-05-2020 21:30 | 4135001 | 3PZuoBAID5Wc2HD | 0.000000 | 0.000000 | 5816.000000 | 7115304.000 |
6875 | 11-06-2020 18:45 | 4135001 | ih0vzX44oOqAx2f | 0.000000 | 0.000000 | 5521.000000 | 6386553.000 |
6876 | 16-06-2020 05:45 | 4135001 | 3PZuoBAID5Wc2HD | 0.000000 | 0.000000 | 0.000000 | 7225042.000 |
6877 rows × 7 columns