ium_444498/init.py

import subprocess
from os.path import exists
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib
from pathlib import Path
import math

# Inicjalizacja danych
file_exists = exists("./df_atp.csv")
if not file_exists:
    subprocess.run(
        ["kaggle", "datasets", "download", "-d", "hakeem/atp-and-wta-tennis-data"]
    )
    subprocess.run(["unzip", "-o", "atp-and-wta-tennis-data.zip"])

atp_data = pd.read_csv("df_atp.csv")

# Średnia ilość gemów w pierwszym secie zwycięzców meczu
print(atp_data[["Winner", "W1"]].mean())

# Minimalna ilość wygranych gemów w pierwszym secie osób wygrywających mecz
print(atp_data[["Winner", "W1"]].min())

# Maksymalna ilość wygranych gemów w pierwszym secie osób wygrywających mecz
print(atp_data[["Winner", "W1"]].max())

# Odchylenie standardowe wygranych gemów w pierwszym secie osób wygrywających mecz
print(atp_data[["Winner", "W1"]].std())

# Mediana wygranych gemów w pierwszym secie osób wygrywających mecz
print(atp_data[["Winner", "W1"]].median())

# Zmiana nazwy nienazwanej kolumny
atp_data.rename(columns={"Unnamed: 0": "ID"}, inplace=True)

# Jak często kto był zwycięzcą
print(atp_data.groupby("Winner")["ID"].nunique())

# Normalizacja rund -1: Finał, -2: Półfinał, -3: Ćwiartka, -4: Każdy z każdym
# 1: pierwsza runda, 2: druga runda, 3: trzecia runda, 4: czwarta runda
atp_data.loc[atp_data["Round"] == "The Final", "Round"] = -1
atp_data.loc[atp_data["Round"] == "Semifinals", "Round"] = -2
atp_data.loc[atp_data["Round"] == "Quarterfinals", "Round"] = -3
atp_data.loc[atp_data["Round"] == "Round Robin", "Round"] = -4
atp_data.loc[atp_data["Round"] == "1st Round", "Round"] = 1
atp_data.loc[atp_data["Round"] == "2nd Round", "Round"] = 2
atp_data.loc[atp_data["Round"] == "3rd Round", "Round"] = 3
atp_data.loc[atp_data["Round"] == "4th Round", "Round"] = 4
print(atp_data["Round"])

# Czyszczenie: W polu z datą zamienimy ######## na pustego stringa
atp_data.loc[atp_data["Date"] == "########", "Date"] = ""
print(atp_data["Date"])

# Podział na podzbiory: trenujący, testowy, walidujący w proporcjach 6:2:2
atp_train, atp_test = train_test_split(atp_data, test_size=0.4, random_state=1)
atp_dev, atp_test = train_test_split(atp_test, test_size=0.5, random_state=1)

# Wielkość zbioru i podzbiorów
print("\nElements of total set: " + str(len(atp_data)))
print("\nElements of test set: " + str(len(atp_test)))
print("\nElements of dev set: " + str(len(atp_dev)))
print("\nElements of train set: " + str(len(atp_train)))

# Stworzenie plików z danymi trenującymi i testowymi
atp_test.to_csv("atp_test.csv", encoding="utf-8", index=False)
atp_dev.to_csv("atp_dev.csv", encoding="utf-8", index=False)
atp_train.to_csv("atp_train.csv", encoding="utf-8", index=False)
download dataset from python script 2022-03-20 18:12:59 +01:00			`import subprocess`
			`from os.path import exists`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00			`import pandas as pd`
			`import numpy as np`
			`from sklearn.model_selection import train_test_split`
			`import matplotlib`
generate model by simple neutral network 2022-05-06 18:39:36 +02:00			`from pathlib import Path`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`import math`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00
			`# Inicjalizacja danych`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`file_exists = exists("./df_atp.csv")`
only dockerfile true 2022-05-08 17:12:22 +02:00			`if not file_exists:`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`subprocess.run(`
			`["kaggle", "datasets", "download", "-d", "hakeem/atp-and-wta-tennis-data"]`
			`)`
only dockerfile true 2022-05-08 17:12:22 +02:00			`subprocess.run(["unzip", "-o", "atp-and-wta-tennis-data.zip"])`
evaluate result not nan 2022-05-08 23:38:16 +02:00
			`atp_data = pd.read_csv("df_atp.csv")`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00
			`# Średnia ilość gemów w pierwszym secie zwycięzców meczu`
			`print(atp_data[["Winner", "W1"]].mean())`

			`# Minimalna ilość wygranych gemów w pierwszym secie osób wygrywających mecz`
			`print(atp_data[["Winner", "W1"]].min())`

			`# Maksymalna ilość wygranych gemów w pierwszym secie osób wygrywających mecz`
			`print(atp_data[["Winner", "W1"]].max())`

			`# Odchylenie standardowe wygranych gemów w pierwszym secie osób wygrywających mecz`
			`print(atp_data[["Winner", "W1"]].std())`

			`# Mediana wygranych gemów w pierwszym secie osób wygrywających mecz`
			`print(atp_data[["Winner", "W1"]].median())`

			`# Zmiana nazwy nienazwanej kolumny`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`atp_data.rename(columns={"Unnamed: 0": "ID"}, inplace=True)`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00
			`# Jak często kto był zwycięzcą`
			`print(atp_data.groupby("Winner")["ID"].nunique())`

			`# Normalizacja rund -1: Finał, -2: Półfinał, -3: Ćwiartka, -4: Każdy z każdym`
			`# 1: pierwsza runda, 2: druga runda, 3: trzecia runda, 4: czwarta runda`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`atp_data.loc[atp_data["Round"] == "The Final", "Round"] = -1`
			`atp_data.loc[atp_data["Round"] == "Semifinals", "Round"] = -2`
			`atp_data.loc[atp_data["Round"] == "Quarterfinals", "Round"] = -3`
			`atp_data.loc[atp_data["Round"] == "Round Robin", "Round"] = -4`
			`atp_data.loc[atp_data["Round"] == "1st Round", "Round"] = 1`
			`atp_data.loc[atp_data["Round"] == "2nd Round", "Round"] = 2`
			`atp_data.loc[atp_data["Round"] == "3rd Round", "Round"] = 3`
			`atp_data.loc[atp_data["Round"] == "4th Round", "Round"] = 4`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00			`print(atp_data["Round"])`

			`# Czyszczenie: W polu z datą zamienimy ######## na pustego stringa`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`atp_data.loc[atp_data["Date"] == "########", "Date"] = ""`
train dev and test subsets, basic statistics and preprocessing 2022-03-20 21:27:49 +01:00			`print(atp_data["Date"])`
put generate subsets at the end of init script 2022-03-20 21:34:03 +01:00
			`# Podział na podzbiory: trenujący, testowy, walidujący w proporcjach 6:2:2`
			`atp_train, atp_test = train_test_split(atp_data, test_size=0.4, random_state=1)`
			`atp_dev, atp_test = train_test_split(atp_test, test_size=0.5, random_state=1)`

			`# Wielkość zbioru i podzbiorów`
build jenkins test 2 2022-03-26 11:26:40 +01:00			`print("\nElements of total set: " + str(len(atp_data)))`
			`print("\nElements of test set: " + str(len(atp_test)))`
			`print("\nElements of dev set: " + str(len(atp_dev)))`
			`print("\nElements of train set: " + str(len(atp_train)))`
generate model by simple neutral network 2022-05-06 18:39:36 +02:00
			`# Stworzenie plików z danymi trenującymi i testowymi`
evaluate result not nan 2022-05-08 23:38:16 +02:00			`atp_test.to_csv("atp_test.csv", encoding="utf-8", index=False)`
			`atp_dev.to_csv("atp_dev.csv", encoding="utf-8", index=False)`
			`atp_train.to_csv("atp_train.csv", encoding="utf-8", index=False)`