ium_464863/get_stats.py

# Necessary imports
import pandas as pd

# Display settings
pd.set_option('display.max_columns', None)

# Load the datasets
df = pd.read_csv('./datasets/data.csv', index_col='id')
df_train = pd.read_csv('./datasets/train.csv', index_col='id')
df_val = pd.read_csv('./datasets/val.csv', index_col='id')
df_test = pd.read_csv('./datasets/test.csv', index_col='id')

# Save statistics and target distribution to a stats.txt file
with open('stats.txt', 'w') as f:
    f.write(f"Cały zbiór: {df.shape[0]} wierszy, {df.shape[1]} kolumn\n")
    f.write(f"Zbiór treningowy: {df_train.shape[0]} wierszy, {df_train.shape[1]} kolumn\n")
    f.write(f"Zbiór walidacyjny: {df_val.shape[0]} wierszy, {df_val.shape[1]} kolumn\n")
    f.write(f"Zbiór testowy: {df_test.shape[0]} wierszy, {df_test.shape[1]} kolumn\n")

    f.write(f"\nStatystyki całego zbioru:\n")
    f.write(f"{df.describe()}\n")
    f.write(f"\nStatystyki zbioru treningowego:\n")
    f.write(f"{df_train.describe()}\n")
    f.write(f"\nStatystyki zbioru walidacyjnego:\n")
    f.write(f"{df_val.describe()}\n")
    f.write(f"\nStatystyki zbioru testowego:\n")
    f.write(f"{df_test.describe()}\n")

    f.write(f"\nRozkład zmiennej docelowej w całym zbiorze:\n")
    f.write(f"{df['diagnosis'].value_counts()}\n")
    f.write(f"\nRozkład zmiennej docelowej w zbiorze treningowym:\n")
    f.write(f"{df_train['diagnosis'].value_counts()}\n")
    f.write(f"\nRozkład zmiennej docelowej w zbiorze walidacyjnym:\n")
    f.write(f"{df_val['diagnosis'].value_counts()}\n")
    f.write(f"\nRozkład zmiennej docelowej w zbiorze testowym:\n")
    f.write(f"{df_test['diagnosis'].value_counts()}\n")
IUM_04 - add python scripts for downloading dataset and extract statistics and other information about datasets 2024-03-27 12:21:52 +01:00			`# Necessary imports`
			`import pandas as pd`

			`# Display settings`
			`pd.set_option('display.max_columns', None)`

			`# Load the datasets`
			`df = pd.read_csv('./datasets/data.csv', index_col='id')`
			`df_train = pd.read_csv('./datasets/train.csv', index_col='id')`
			`df_val = pd.read_csv('./datasets/val.csv', index_col='id')`
			`df_test = pd.read_csv('./datasets/test.csv', index_col='id')`

			`# Save statistics and target distribution to a stats.txt file`
			`with open('stats.txt', 'w') as f:`
			`f.write(f"Cały zbiór: {df.shape[0]} wierszy, {df.shape[1]} kolumn\n")`
			`f.write(f"Zbiór treningowy: {df_train.shape[0]} wierszy, {df_train.shape[1]} kolumn\n")`
			`f.write(f"Zbiór walidacyjny: {df_val.shape[0]} wierszy, {df_val.shape[1]} kolumn\n")`
			`f.write(f"Zbiór testowy: {df_test.shape[0]} wierszy, {df_test.shape[1]} kolumn\n")`

			`f.write(f"\nStatystyki całego zbioru:\n")`
			`f.write(f"{df.describe()}\n")`
			`f.write(f"\nStatystyki zbioru treningowego:\n")`
			`f.write(f"{df_train.describe()}\n")`
			`f.write(f"\nStatystyki zbioru walidacyjnego:\n")`
			`f.write(f"{df_val.describe()}\n")`
			`f.write(f"\nStatystyki zbioru testowego:\n")`
			`f.write(f"{df_test.describe()}\n")`

			`f.write(f"\nRozkład zmiennej docelowej w całym zbiorze:\n")`
			`f.write(f"{df['diagnosis'].value_counts()}\n")`
			`f.write(f"\nRozkład zmiennej docelowej w zbiorze treningowym:\n")`
			`f.write(f"{df_train['diagnosis'].value_counts()}\n")`
			`f.write(f"\nRozkład zmiennej docelowej w zbiorze walidacyjnym:\n")`
			`f.write(f"{df_val['diagnosis'].value_counts()}\n")`
			`f.write(f"\nRozkład zmiennej docelowej w zbiorze testowym:\n")`
			`f.write(f"{df_test['diagnosis'].value_counts()}\n")`