ium_478855/create_data.ipynb
Michał Ulaniuk d43a29e1a7 03 part 1
2022-03-21 11:04:16 +01:00

2.1 KiB

!pip install kaggle
!pip install pandas
!pip install seaborn
!pip install torch
# 1 Pobranie zbioru
!kaggle datasets download -d joniarroba/noshowappointments
!unzip -o noshowappointments.zip
import pandas as pd
no_shows=pd.read_csv('KaggleV2-May-2016.csv')
# Wyczyszczenie zbioru
# Usunięcie negatywnego wieku
no_shows = no_shows.drop(no_shows[no_shows["Age"] < 0].index)

# Usunięcie niewiadomego wieku (zależy od zastosowania)
# no_shows = no_shows.drop(no_shows[no_shows["Age"] == 0].index)
# Normalizacja danych

# Usunięcie kolumn PatientId oraz AppointmentID
no_shows.drop(["PatientId", "AppointmentID"], inplace=True, axis=1)

# Zmiena wartości kolumny No-show z Yes/No na wartość boolowską
no_shows["No-show"] = no_shows["No-show"].map({'Yes': 1, 'No': 0})

# Normalizacja kolumny Age
no_shows["Age"]=(no_shows["Age"]-no_shows["Age"].min())/(no_shows["Age"].max()-no_shows["Age"].min())
# Zapisanie wyników jako artefakt