ium_z360792/dataset.py

import os

import zipfile

import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler

os.system("kaggle datasets download -d gpreda/covid-world-vaccination-progress")

with zipfile.ZipFile("covid-world-vaccination-progress.zip", "r") as zip_ref:

    zip_ref.extractall("country_vaccinations")

csv_file = None

for root, dirs, files in os.walk("country_vaccinations"):

    for file in files:

        if file.endswith(".csv"):
            csv_file = os.path.join(root, file)

            break

if csv_file is None:
    raise FileNotFoundError("CSV file not found in the extracted dataset")

data = pd.read_csv(csv_file)

train_data, temp_data = train_test_split(data, test_size=0.4, random_state=42)

dev_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)


def print_stats(df, name):
    print(f"\nStatystyki dla {name}:")

    print(f"Wielkość zbioru: {len(df)}")

    for col in df.columns:

        if df[col].dtype != "object":
            print(f"\nParametr: {col}")

            print(f"Minimum: {df[col].min()}")

            print(f"Maksimum: {df[col].max()}")

            print(f"Średnia: {df[col].mean()}")

            print(f"Odchylenie standardowe: {df[col].std()}")

            print(f"Mediana: {df[col].median()}")


print_stats(data, "Cały zbiór")

print_stats(train_data, "Zbiór treningowy")

print_stats(dev_data, "Zbiór walidacyjny")

print_stats(test_data, "Zbiór testowy")


def normalize_data(df, columns):
    scaler = MinMaxScaler()

    for col in columns:

        if df[col].dtype != "object":
            df[col] = scaler.fit_transform(df[[col]])


normalize_data(train_data, train_data.columns)

normalize_data(dev_data, dev_data.columns)

normalize_data(test_data, test_data.columns)


def clean_data(df):
    df.dropna(inplace=True)

    df.drop_duplicates(inplace=True)


clean_data(data)

clean_data(train_data)

clean_data(dev_data)

clean_data(test_data)


train_data.to_csv("./results/train_data.csv", index=False)
dev_data.to_csv("./results/dev_data.csv", index=False)
test_data.to_csv("./results/test_data.csv", index=False)
2nd commit 2023-04-17 22:46:22 +02:00			`import os`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`import zipfile`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`import pandas as pd`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`import numpy as np`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`from sklearn.model_selection import train_test_split`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`from sklearn.preprocessing import MinMaxScaler`

Update 'skrypt.py' 2023-04-19 21:24:41 +02:00			`os.system("kaggle datasets download -d gpreda/covid-world-vaccination-progress")`
2nd commit 2023-04-17 22:46:22 +02:00
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00			`with zipfile.ZipFile("covid-world-vaccination-progress.zip", "r") as zip_ref:`
2nd commit 2023-04-17 22:46:22 +02:00
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00			`zip_ref.extractall("country_vaccinations")`
2nd commit 2023-04-17 22:46:22 +02:00
			`csv_file = None`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
Update 'skrypt.py' 2023-04-19 20:47:35 +02:00			`for root, dirs, files in os.walk("country_vaccinations"):`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`for file in files:`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`if file.endswith(".csv"):`
			`csv_file = os.path.join(root, file)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`break`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`if csv_file is None:`
			`raise FileNotFoundError("CSV file not found in the extracted dataset")`

			`data = pd.read_csv(csv_file)`

			`train_data, temp_data = train_test_split(data, test_size=0.4, random_state=42)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`dev_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)`


			`def print_stats(df, name):`
			`print(f"\nStatystyki dla {name}:")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Wielkość zbioru: {len(df)}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`for col in df.columns:`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`if df[col].dtype != "object":`
			`print(f"\nParametr: {col}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Minimum: {df[col].min()}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Maksimum: {df[col].max()}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Średnia: {df[col].mean()}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Odchylenie standardowe: {df[col].std()}")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print(f"Mediana: {df[col].median()}")`


			`print_stats(data, "Cały zbiór")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print_stats(train_data, "Zbiór treningowy")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print_stats(dev_data, "Zbiór walidacyjny")`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`print_stats(test_data, "Zbiór testowy")`


			`def normalize_data(df, columns):`
			`scaler = MinMaxScaler()`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`for col in columns:`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`if df[col].dtype != "object":`
			`df[col] = scaler.fit_transform(df[[col]])`

Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`normalize_data(train_data, train_data.columns)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`normalize_data(dev_data, dev_data.columns)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`normalize_data(test_data, test_data.columns)`


			`def clean_data(df):`
			`df.dropna(inplace=True)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`df.drop_duplicates(inplace=True)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00
			`clean_data(data)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`clean_data(train_data)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`clean_data(dev_data)`
Update 'skrypt.py' 2023-04-19 21:24:41 +02:00
2nd commit 2023-04-17 22:46:22 +02:00			`clean_data(test_data)`
Update 'dataset.py' 2023-04-20 18:37:09 +02:00

Update 'dataset.py' 2023-04-20 20:34:41 +02:00			`train_data.to_csv("./results/train_data.csv", index=False)`
			`dev_data.to_csv("./results/dev_data.csv", index=False)`
			`test_data.to_csv("./results/test_data.csv", index=False)`