import pandas as pd import numpy as np import os from sklearn.model_selection import train_test_split def split_data(data, train_ratio, dev_ratio, random_seed=42): train_data, temp_data = train_test_split(data, train_size=train_ratio, random_state=random_seed) dev_data, test_data = train_test_split(temp_data, train_size=dev_ratio / (1 - train_ratio), random_state=random_seed) return train_data, dev_data, test_data def main(): # Wczytanie danych z pliku CSV file_path = os.path.join("C:", os.sep, "Users", "reyva", "OneDrive", "Pulpit", "studia", "InżynieriaUczeniaMaszynowego", "combined.csv") data = pd.read_csv(file_path) # Podział danych na zbiory train, dev, test z proporcjami 6:2:2 train_data, dev_data, test_data = split_data(data, train_ratio=0.6, dev_ratio=0.2) # Zapisanie podzielonych danych do plików CSV output_dir = os.path.join("C:", os.sep, "Users", "reyva", "OneDrive", "Pulpit", "studia", "InżynieriaUczeniaMaszynowego") train_data.to_csv(os.path.join(output_dir, 'Train1.csv'), index=False) dev_data.to_csv(os.path.join(output_dir, 'Dev1.csv'), index=False) test_data.to_csv(os.path.join(output_dir, 'Test1.csv'), index=False) # Wypisanie liczby wierszy w każdym pliku print(f"Liczba wierszy w pliku Train1.csv: {len(train_data)}") print(f"Liczba wierszy w pliku Dev1.csv: {len(dev_data)}") print(f"Liczba wierszy w pliku Test1.csv: {len(test_data)}") if __name__ == "__main__": main()