Update 'skryptdocker'

This commit is contained in:
Marcin Rostkowski 2023-04-20 12:02:46 +02:00
parent 6492490d2d
commit 2b164a8647

View File

@ -42,9 +42,9 @@ def split_data(data, train_ratio, dev_ratio, random_seed=42):
return train_data, dev_data, test_data
def main():
# Skrypt 1
# Pobierz i wypakuj dane z Kaggle
dataset_id = "iabhishekofficial/mobile-price-classification"
destination_folder = r"C:\studia\InżynieriaUczeniaMaszynowego"
destination_folder = "/app/data"
zip_filepath = download_kaggle_dataset(dataset_id, destination_folder)
if zip_filepath is not None:
@ -54,18 +54,23 @@ def main():
output_file = os.path.join(destination_folder, "combined.csv")
combine_csv_files(train_file, test_file, output_file)
# Skrypt 2
data = pd.read_csv(output_file)
train_data, dev_data, test_data = split_data(data, train_ratio=0.6, dev_ratio=0.2)
# Wczytanie danych z pliku CSV
data = pd.read_csv(output_file)
output_dir = os.path.join("C:", os.sep, "Users", "reyva", "OneDrive", "Pulpit", "studia", "InżynieriaUczeniaMaszynowego")
train_data.to_csv(os.path.join(output_dir, 'Train1.csv'), index=False)
dev_data.to_csv(os.path.join(output_dir, 'Dev1.csv'), index=False)
test_data.to_csv(os.path.join(output_dir, 'Test1.csv'), index=False)
# Podział danych na zbiory train, dev, test z proporcjami 6:2:2
train_data, dev_data, test_data = split_data(data, train_ratio=0.6, dev_ratio=0.2)
print(f"Liczba wierszy w pliku Train1.csv: {len(train_data)}")
print(f"Liczba wierszy w pliku Dev1.csv: {len(dev_data)}")
print(f"Liczba wierszy w pliku Test1.csv: {len(test_data)}")
# Zapisanie podzielonych danych do plików CSV
output_dir = "/app/output"
os.makedirs(output_dir, exist_ok=True)
train_data.to_csv(os.path.join(output_dir, 'Train1.csv'), index=False)
dev_data.to_csv(os.path.join(output_dir, 'Dev1.csv'), index=False)
test_data.to_csv(os.path.join(output_dir, 'Test1.csv'), index=False)
# Wypisanie liczby wierszy w każdym pliku
print(f"Liczba wierszy w pliku Train1.csv: {len(train_data)}")
print(f"Liczba wierszy w pliku Dev1.csv: {len(dev_data)}")
print(f"Liczba wierszy w pliku Test1.csv: {len(test_data)}")
if __name__ == "__main__":
main()