2.1 KiB
2.1 KiB
!pip install kaggle
!pip install pandas
!pip install seaborn
!pip install torch
# 1 Pobranie zbioru
!kaggle datasets download -d joniarroba/noshowappointments
!unzip -o noshowappointments.zip
import pandas as pd
no_shows=pd.read_csv('KaggleV2-May-2016.csv')
# Wyczyszczenie zbioru
# Usunięcie negatywnego wieku
no_shows = no_shows.drop(no_shows[no_shows["Age"] < 0].index)
# Usunięcie niewiadomego wieku (zależy od zastosowania)
# no_shows = no_shows.drop(no_shows[no_shows["Age"] == 0].index)
# Normalizacja danych
# Usunięcie kolumn PatientId oraz AppointmentID
no_shows.drop(["PatientId", "AppointmentID"], inplace=True, axis=1)
# Zmiena wartości kolumny No-show z Yes/No na wartość boolowską
no_shows["No-show"] = no_shows["No-show"].map({'Yes': 1, 'No': 0})
# Normalizacja kolumny Age
no_shows["Age"]=(no_shows["Age"]-no_shows["Age"].min())/(no_shows["Age"].max()-no_shows["Age"].min())
# Zapisanie wyników jako artefakt