49 KiB
Zadanie 2 [5pkt]
Wybierz jeden z ogólnodostępnych zbiorów danych. Będziesz na nim pracował do końca roku (oczywiście, zbiór można zmienić w trakcie, ale będzie się to wiązało z powtarzeniem pewnych działań, co prawdwa niezbyt kosztownych, ale jednak).
Zbiór powinien być:
- nie za duży (max ~200 MB)
- nie za mały (np. IRIS jest za mały ;))
- unikalny (każda osoba w grupie pracuje na innym zbiorze). W celu synchronizacji, wybrany przez siebie zbiór proszę zapisać tutaj: https://uam.sharepoint.com/❌/r/sites/2024SL06-S4IN01-F01005LABInynieriauczeniamaszynowego-Grupa11/Materiay%20z%20zaj/IUM-2024.xlsx?d=w23a1cad8c73a4fe183404d1b0671af36&csf=1&web=1&e=zUvrxN najlepiej, żeby był to zbiór zawierający dane w formie tekstowej, mogący posłużyć do zadania klasyfikacji lub rergesji - na takim zbiorze będzie łatwiej pracować niż np. na zbiorze obrazów albo dźwięków. Dzięki temu będziesz się mogła/mógł skupić na istocie tych zajęć.
Napisz skrypt, który:
- Pobierze wybrany przez Ciebie zbiór
- Jeśli brak w zbiorze gotowego podziału na podzbiory train/dev/test, to dokona takiego podziału
- Zbierze i wydrukuje statystyki dla tego zbioru i jego podzbiorów, takie jak np.:
- wielkość zbioru i podzbiorów
- średnią, minimum, maksimum, odchylenia standardowe, medianę wartości poszczególnych parametrów)
- rozkład częstości przykładów dla poszczególnych klas
- Dokona normalizacji danych w zbiorze (np. normalizacja wartości float do zakresu 0.0 - 1.0)
- Wyczyści zbiór z artefaktów (np. puste linie, przykłady z niepoprawnymi wartościami)
Skrypt możesz napisać w swoim ulubionym języku. Jedyne ograniczenie: ma działać pod Linuxem Wygodnie będzie stworzyć zeszyt Jupyter w tym celu (choć nie jest to konieczne) Stwórz na wydziałowym serwerze git (http://git.wmi.amu.edu.pl/) repozytorium "ium_nrindeksu" i umieść w nim stworzony skrypt Link do repozytorium wklej do arkusza ze zbiorami: https://uam.sharepoint.com/❌/r/sites/2024SL06-S4IN01-F01005LABInynieriauczeniamaszynowego-Grupa11/Materiay%20z%20zaj/IUM-2024.xlsx?d=w23a1cad8c73a4fe183404d1b0671af36&csf=1&web=1&e=zUvrxN
!pip install kaggle
Defaulting to user installation because normal site-packages is not writeable Collecting kaggle Downloading kaggle-1.6.6.tar.gz (84 kB) [2K [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.6/84.6 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m [?25h Preparing metadata (setup.py) ... [?25ldone [?25hRequirement already satisfied: bleach in /usr/local/lib/python3.9/dist-packages (from kaggle) (5.0.1) Requirement already satisfied: certifi in /usr/local/lib/python3.9/dist-packages (from kaggle) (2022.9.14) Requirement already satisfied: python-dateutil in /usr/local/lib/python3.9/dist-packages (from kaggle) (2.8.2) Collecting python-slugify (from kaggle) Downloading python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB) Requirement already satisfied: requests in /usr/local/lib/python3.9/dist-packages (from kaggle) (2.28.1) Requirement already satisfied: six>=1.10 in /usr/lib/python3/dist-packages (from kaggle) (1.16.0) Requirement already satisfied: tqdm in /usr/local/lib/python3.9/dist-packages (from kaggle) (4.64.1) Requirement already satisfied: urllib3 in /usr/local/lib/python3.9/dist-packages (from kaggle) (1.26.12) Requirement already satisfied: webencodings in /usr/local/lib/python3.9/dist-packages (from bleach->kaggle) (0.5.1) Collecting text-unidecode>=1.3 (from python-slugify->kaggle) Downloading text_unidecode-1.3-py2.py3-none-any.whl.metadata (2.4 kB) Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.9/dist-packages (from requests->kaggle) (2.1.1) Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.9/dist-packages (from requests->kaggle) (3.4) Downloading python_slugify-8.0.4-py2.py3-none-any.whl (10 kB) Downloading text_unidecode-1.3-py2.py3-none-any.whl (78 kB) [2K [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.2/78.2 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m [?25hBuilding wheels for collected packages: kaggle Building wheel for kaggle (setup.py) ... [?25ldone [?25h Created wheel for kaggle: filename=kaggle-1.6.6-py3-none-any.whl size=111949 sha256=7e53aec9a3b77513258bc4a5e64c8024f55ccc060eee29fae9b6a5dcdb06b381 Stored in directory: /home/students/s464953/.cache/pip/wheels/46/aa/c3/b3e421522fb5acdd7c366a05c5fc80787615bdeed207e7f79b Successfully built kaggle Installing collected packages: text-unidecode, python-slugify, kaggle [33m WARNING: The script slugify is installed in '/home/students/s464953/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.[0m[33m [0m[33m WARNING: The script kaggle is installed in '/home/students/s464953/.local/bin' which is not on PATH. Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.[0m[33m [0mSuccessfully installed kaggle-1.6.6 python-slugify-8.0.4 text-unidecode-1.3
# Import bibliotek
import os
import shutil
import pandas as pd
from sklearn.model_selection import train_test_split
import requests
from sklearn.preprocessing import MinMaxScaler
from kaggle.api.kaggle_api_extended import KaggleApi
#funkcja pobierająca plik
def download_file(url, filename, destination_folder):
# Wersja dla datasetów kaggle
# Tworzymy obiekt klienta Kaggle
api = KaggleApi()
# Opcjonalnie, jeśli chcesz wyświetlić wiersze postępu
api.authenticate()
# Pobieramy plik z Kaggle - podajemy ścieżkę do zbioru danych na Kaggle
api.dataset_download_files('brunoalarcon123/top-200-spotify-songs-dataset', path='temp', unzip=True)
# Wersja dla datasetów nie z kaggle
# response = requests.get(url)
# if response.status_code == 200:
# # Ścieżka do pliku w folderze docelowym
# filepath = os.path.join(destination_folder, filename)
# with open(filepath, 'wb') as f:
# f.write(response.content)
# print(f"Pobrano plik: {filename}")
# return filepath
# else:
# print("Wystąpił błąd podczas pobierania pliku.")
# funkcja dzieląca zbiór
def split_dataset(data, test_size=0.2, val_size=0.1, random_state=42):
#Podział na test i trening
train_data, test_data = train_test_split(data, test_size=test_size, random_state=random_state)
#Podział na walidacje i trening
train_data, val_data = train_test_split(train_data, test_size=val_size/(1-test_size), random_state=random_state)
return train_data, val_data, test_data
# Wyświetlanie statystyk zbioru
def print_dataset_stats(data, subset_name):
print(f"Statystyki dla zbioru {subset_name}:")
print(f"Wielkość zbioru {subset_name}: {len(data)}")
print("\nStatystyki wartości poszczególnych parametrów:")
print(data.describe())
for column in data.columns:
print(f"Rozkład częstości dla kolumny '{column}':")
print(data[column].value_counts())
print("\n")
# Normalizacja danych
def normalize_data(data):
scaler = MinMaxScaler()
numeric_columns = data.select_dtypes(include=['int', 'float']).columns
scaler.fit(data[numeric_columns])
df_normalized = data.copy()
df_normalized[numeric_columns] = scaler.transform(df_normalized[numeric_columns])
return df_normalized
#Czyszczenie danych
def clean_dataset(data):
data.dropna(inplace=True)
data.drop_duplicates(inplace=True)
return data
# main
url = "https://www.kaggle.com/datasets/asaniczka/top-spotify-songs-in-73-countries-daily-updated?select=universal_top_spotify_songs.csv"
filename = "dataset.csv"
destination_folder = "datasets"
# Pobieranie jeśli nie ma już pobranego pliku
if len(os.listdir(destination_folder)) == 0:
# Pobranie pliku
filepath = download_file(url, filename, destination_folder)
# Przeniesienie pobranego pliku do wskazanego folderu
if filepath:
print("Przenoszenie pliku do wskazanego folderu...")
shutil.move(filepath, os.path.join(destination_folder, filename))
print("Plik przeniesiony.")
# Wczytanie danych z pliku CSV
data = pd.read_csv("datasets/Spotify_Dataset_V3.csv", sep=";")
# Podział datasetu na zbiory treningowy, walidacyjny i testowy
train_data, val_data, test_data = split_dataset(data)
# Zapisanie podzielonych zbiorów danych do osobnych plików CSV
train_data.to_csv("datasets/train.csv", index=False)
val_data.to_csv("datasets/val.csv", index=False)
test_data.to_csv("datasets/test.csv", index=False)
# Wydrukowanie statystyk dla zbiorów
print_dataset_stats(train_data, "treningowego")
print("\n")
print_dataset_stats(val_data, "walidacyjnego")
print("\n")
print_dataset_stats(test_data, "testowego")
# Normalizacja i czyszczenie zbirów
train_data = normalize_data(train_data)
train_data = clean_dataset(train_data)
val_data = normalize_data(train_data)
val_data = clean_dataset(train_data)
test_data = normalize_data(train_data)
test_data = clean_dataset(train_data)
Statystyki dla zbioru treningowego: Wielkość zbioru treningowego: 456354 Statystyki wartości poszczególnych parametrów: Rank Danceability Energy Loudness \ count 456354.000000 456354.000000 456354.000000 456354.000000 mean 100.358899 0.697782 0.652136 -5293.064991 std 57.398624 0.133183 0.155760 2783.750842 min 1.000000 0.073000 0.005000 -34475.000000 25% 51.000000 0.617000 0.549000 -6825.000000 50% 100.000000 0.719000 0.671000 -5206.000000 75% 150.000000 0.793000 0.771000 -3875.000000 max 200.000000 0.985000 0.996000 1509.000000 Speechiness Acousticness Instrumentalness Valence \ count 456354.000000 456354.000000 456354.000000 456354.000000 mean 0.109976 0.230610 0.007728 0.523162 std 0.096896 0.230671 0.055278 0.223983 min 0.022000 0.000000 0.000000 0.032000 25% 0.045000 0.048000 0.000000 0.356000 50% 0.068000 0.152000 0.000000 0.521000 75% 0.136000 0.349000 0.000000 0.696000 max 0.966000 0.994000 0.956000 0.982000 Points (Total) Points (Ind for each Artist/Nat) count 456354.000000 456354.000000 mean 100.641101 72.473544 std 57.398624 54.254094 min 1.000000 0.200000 25% 51.000000 28.000000 50% 101.000000 60.000000 75% 150.000000 104.000000 max 200.000000 200.000000 Rozkład częstości dla kolumny 'Rank': 88 2428 57 2416 56 2416 83 2409 78 2407 ... 11 2161 1 2147 4 2129 13 2101 3 2060 Name: Rank, Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Title': Sunflower - Spider-Man: Into the Spider-Verse 2280 One Dance 2107 Something Just Like This 1795 Shallow 1750 Closer 1745 ... Science Fiction 1 Sweet Caroline 1 Open It Up 1 Lovin' Me (feat. Phoebe Bridgers) 1 You Don't Do It For Me Anymore 1 Name: Title, Length: 6954, dtype: int64 Rozkład częstości dla kolumny 'Artists': Ed Sheeran 8532 Post Malone 5442 XXXTENTACION 4826 Billie Eilish 4786 Bad Bunny 4050 ... Daði Freyr 1 Justin Bieber, - 1 Brent Faiyaz, Alicia Keys 1 CHVRCHES 1 NCT DREAM 1 Name: Artists, Length: 2849, dtype: int64 Rozkład częstości dla kolumny 'Date': 22/01/2022 254 05/01/2022 253 28/01/2022 249 07/01/2022 248 19/03/2022 247 ... 13/12/2020 162 26/12/2020 162 23/07/2017 160 04/02/2021 160 23/03/2020 158 Name: Date, Length: 2336, dtype: int64 Rozkład częstości dla kolumny 'Danceability': 0.795 4708 0.791 3910 0.671 3493 0.755 3417 0.807 3282 ... 0.223 1 0.270 1 0.185 1 0.204 1 0.373 1 Name: Danceability, Length: 726, dtype: int64 Rozkład częstości dla kolumny 'Energy': 0.771 2721 0.648 2632 0.522 2613 0.631 2508 0.726 2453 ... 0.120 1 0.981 1 0.162 1 0.096 1 0.220 1 Name: Energy, Length: 852, dtype: int64 Rozkład częstości dla kolumny 'Loudness': -4368.00 1873 -6769.00 1795 -10109.00 1794 -6362.00 1751 -5599.00 1745 ... -4455.00 1 -2886.00 1 -4446.00 1 -15.34 1 -1627.00 1 Name: Loudness, Length: 5090, dtype: int64 Rozkład częstości dla kolumny 'Speechiness': 0.032 11398 0.048 9246 0.036 8197 0.045 8167 0.034 7596 ... 0.515 1 0.314 1 0.388 1 0.888 1 0.399 1 Name: Speechiness, Length: 525, dtype: int64 Rozkład częstości dla kolumny 'Acousticness': 0.008 5145 0.003 4843 0.017 4482 0.002 4137 0.005 4012 ... 0.502 1 0.715 1 0.992 1 0.854 1 0.787 1 Name: Acousticness, Length: 942, dtype: int64 Rozkład częstości dla kolumny 'Instrumentalness': 0.000 399153 0.001 15897 0.002 5440 0.004 4680 0.003 4503 ... 0.153 1 0.468 1 0.736 1 0.295 1 0.939 1 Name: Instrumentalness, Length: 289, dtype: int64 Rozkład częstości dla kolumny 'Valence': 0.446 4102 0.437 3247 0.580 2704 0.494 2353 0.661 2238 ... 0.047 1 0.070 1 0.935 1 0.936 1 0.057 1 Name: Valence, Length: 933, dtype: int64 Rozkład częstości dla kolumny '# of Artist': Artist 1 329460 Artist 2 89046 Artist 3 24054 Artist 4 6748 Artist 5 4185 Artist 6 1865 Artist 7 754 Artist 8 175 Artist 9 67 Name: # of Artist, dtype: int64 Rozkład częstości dla kolumny 'Artist (Ind.)': Bad Bunny 11664 Ed Sheeran 8928 Post Malone 8057 J Balvin 7359 Drake 7067 ... Wilbur Soot 1 Hayley Williams 1 Malik Monta 1 Kollegah 1 NCT DREAM 1 Name: Artist (Ind.), Length: 2115, dtype: int64 Rozkład częstości dla kolumny '# of Nationality': Nationality 1 329460 Nationality 2 89046 Nationality 3 24054 Nationality 4 6748 Nationality 5 4185 Nationality 6 1865 Nationality 7 754 Nationality 8 175 Nationality 9 67 Name: # of Nationality, dtype: int64 Rozkład częstości dla kolumny 'Nationality': United States 192533 United Kingdom 59024 Puerto Rico 53571 Canada 27768 Colombia 24259 ... Bonaire 1 Senegal 1 Sri Lanka 1 Suecia 1 Azerbaijan 1 Name: Nationality, Length: 72, dtype: int64 Rozkład częstości dla kolumny 'Continent': Anglo-America 222778 Latin-America 108347 Europe 103046 Asia 9688 Oceania 9319 Africa 2861 Unknown 315 Name: Continent, dtype: int64 Rozkład częstości dla kolumny 'Points (Total)': 113 2428 144 2416 145 2416 118 2409 123 2407 ... 190 2161 200 2147 197 2129 188 2101 198 2060 Name: Points (Total), Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)': 18.000000 5180 12.000000 4958 2.000000 4868 14.000000 4864 24.000000 4839 ... 19.250000 2 9.666667 1 55.333333 1 35.600000 1 4.250000 1 Name: Points (Ind for each Artist/Nat), Length: 476, dtype: int64 Rozkład częstości dla kolumny 'id': 0RiRZpuVRbi7oqRdSMwhQY 1805 6RUKPb4LETWmmr3iAEQktW 1795 7BKLCZ1jbUBVqRi2FVlTVw 1745 2VxeLyX666F8uXCJ0dZF8B 1742 7qiZfU4dY1lWllzX7mPBI3 1573 ... 5S7FewmYYyLNdMOfeEcB6P 1 6mPZVis3gEGSSR2rhxlehT 1 12VqHHz4wvVcnEdSivjLeQ 1 2O1qYJTA2BI5ypFFqEZhh4 1 4I39irD0xSyfRA099AsWow 1 Name: id, Length: 8521, dtype: int64 Rozkład częstości dla kolumny 'Song URL': https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY 1805 https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW 1795 https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw 1745 https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B 1742 https://open.spotify.com/track/7qiZfU4dY1lWllzX7mPBI3 1573 ... https://open.spotify.com/track/5S7FewmYYyLNdMOfeEcB6P 1 https://open.spotify.com/track/6mPZVis3gEGSSR2rhxlehT 1 https://open.spotify.com/track/12VqHHz4wvVcnEdSivjLeQ 1 https://open.spotify.com/track/2O1qYJTA2BI5ypFFqEZhh4 1 https://open.spotify.com/track/4I39irD0xSyfRA099AsWow 1 Name: Song URL, Length: 8521, dtype: int64 Statystyki dla zbioru walidacyjnego: Wielkość zbioru walidacyjnego: 65194 Statystyki wartości poszczególnych parametrów: Rank Danceability Energy Loudness Speechiness \ count 65194.000000 65194.000000 65194.000000 65194.000000 65194.000000 mean 100.435684 0.697871 0.652172 -5285.533729 0.109990 std 57.438715 0.133125 0.155214 2794.797372 0.097208 min 1.000000 0.150000 0.005000 -23023.000000 0.023000 25% 51.000000 0.618000 0.548000 -6825.000000 0.044000 50% 100.000000 0.719000 0.671000 -5211.000000 0.068000 75% 150.000000 0.793000 0.771000 -3872.000000 0.135000 max 200.000000 0.985000 0.989000 1509.000000 0.966000 Acousticness Instrumentalness Valence Points (Total) \ count 65194.000000 65194.000000 65194.000000 65194.000000 mean 0.230139 0.007433 0.523956 100.564316 std 0.230539 0.053366 0.224228 57.438715 min 0.000000 0.000000 0.032000 1.000000 25% 0.048000 0.000000 0.356000 51.000000 50% 0.152000 0.000000 0.524000 101.000000 75% 0.348000 0.000000 0.697000 150.000000 max 0.994000 0.919000 0.982000 200.000000 Points (Ind for each Artist/Nat) count 65194.000000 mean 72.301296 std 54.263761 min 0.250000 25% 28.000000 50% 59.000000 75% 103.000000 max 200.000000 Rozkład częstości dla kolumny 'Rank': 79 372 58 370 96 368 25 362 77 362 ... 29 286 48 285 3 285 193 284 144 268 Name: Rank, Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Title': Sunflower - Spider-Man: Into the Spider-Verse 347 One Dance 301 Shallow 256 Closer 252 Something Just Like This 247 ... How to Talk 1 Black Tux, White Collar 1 Shot in the Dark 1 Until I Bleed Out 1 Don't Shoot (feat. Rick Ross, 2 Chainz, Diddy, Fabolous, Wale, DJ Khaled, Swizz Beatz, Yo Gotti, Currensy, Problem, King Pharaoh & TGT) 1 Name: Title, Length: 4548, dtype: int64 Rozkład częstości dla kolumny 'Artists': Ed Sheeran 1279 Post Malone 779 XXXTENTACION 709 Billie Eilish 620 Taylor Swift 561 ... Louis Armstrong, The Commanders 1 Nas 1 Kungs, Olly Murs, Coely 1 Paloma Mami 1 The Game, Curren$y 1 Name: Artists, Length: 2261, dtype: int64 Rozkład częstości dla kolumny 'Date': 18/01/2022 48 11/06/2017 48 14/01/2022 48 26/03/2022 46 17/08/2019 45 .. 25/07/2020 15 07/03/2022 14 20/07/2020 14 12/10/2020 12 19/08/2020 12 Name: Date, Length: 2336, dtype: int64 Rozkład częstości dla kolumny 'Danceability': 0.795 656 0.791 554 0.755 511 0.807 499 0.671 483 ... 0.233 1 0.270 1 0.408 1 0.419 1 0.269 1 Name: Danceability, Length: 679, dtype: int64 Rozkład częstości dla kolumny 'Energy': 0.522 410 0.771 407 0.648 404 0.715 383 0.633 357 ... 0.326 1 0.228 1 0.333 1 0.135 1 0.005 1 Name: Energy, Length: 782, dtype: int64 Rozkład częstości dla kolumny 'Loudness': -4368.0 289 -6312.0 256 -6362.0 256 -5599.0 252 -10109.0 248 ... -7496.0 1 -14542.0 1 -4969.0 1 -4396.0 1 -9807.0 1 Name: Loudness, Length: 3739, dtype: int64 Rozkład częstości dla kolumny 'Speechiness': 0.032 1635 0.048 1247 0.036 1229 0.045 1135 0.034 1090 ... 0.488 1 0.553 1 0.642 1 0.394 1 0.503 1 Name: Speechiness, Length: 469, dtype: int64 Rozkład częstości dla kolumny 'Acousticness': 0.008 728 0.003 672 0.017 609 0.002 594 0.001 574 ... 0.857 1 0.637 1 0.763 1 0.608 1 0.845 1 Name: Acousticness, Length: 861, dtype: int64 Rozkład częstości dla kolumny 'Instrumentalness': 0.000 57090 0.001 2269 0.002 745 0.003 676 0.004 646 ... 0.504 1 0.349 1 0.066 1 0.375 1 0.269 1 Name: Instrumentalness, Length: 203, dtype: int64 Rozkład częstości dla kolumny 'Valence': 0.446 542 0.437 489 0.580 367 0.609 324 0.323 322 ... 0.065 1 0.929 1 0.977 1 0.117 1 0.103 1 Name: Valence, Length: 921, dtype: int64 Rozkład częstości dla kolumny '# of Artist': Artist 1 47052 Artist 2 12765 Artist 3 3374 Artist 4 1004 Artist 5 583 Artist 6 261 Artist 7 127 Artist 8 22 Artist 9 6 Name: # of Artist, dtype: int64 Rozkład częstości dla kolumny 'Artist (Ind.)': Bad Bunny 1677 Ed Sheeran 1328 Post Malone 1191 J Balvin 1087 Drake 994 ... Hit-Boy 1 Luis Miguel 1 Ludacris 1 Stargate 1 The Game 1 Name: Artist (Ind.), Length: 1676, dtype: int64 Rozkład częstości dla kolumny '# of Nationality': Nationality 1 47052 Nationality 2 12765 Nationality 3 3374 Nationality 4 1004 Nationality 5 583 Nationality 6 261 Nationality 7 127 Nationality 8 22 Nationality 9 6 Name: # of Nationality, dtype: int64 Rozkład częstości dla kolumny 'Nationality': United States 27308 United Kingdom 8416 Puerto Rico 7625 Canada 3935 Colombia 3546 ... China 1 Sri Lanka 1 Haiti 1 Ivory Coast 1 Greece 1 Name: Nationality, Length: 62, dtype: int64 Rozkład częstości dla kolumny 'Continent': Anglo-America 31593 Latin-America 15516 Europe 14734 Asia 1483 Oceania 1385 Africa 430 Unknown 53 Name: Continent, dtype: int64 Rozkład częstości dla kolumny 'Points (Total)': 122 372 143 370 105 368 176 362 124 362 ... 172 286 153 285 198 285 8 284 57 268 Name: Points (Total), Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)': 18.000000 746 24.000000 725 12.000000 716 28.000000 707 26.000000 701 ... 23.333333 1 15.333333 1 47.333333 1 12.500000 1 64.666667 1 Name: Points (Ind for each Artist/Nat), Length: 412, dtype: int64 Rozkład częstości dla kolumny 'id': 0RiRZpuVRbi7oqRdSMwhQY 282 2VxeLyX666F8uXCJ0dZF8B 253 7BKLCZ1jbUBVqRi2FVlTVw 252 6RUKPb4LETWmmr3iAEQktW 247 0tgVpDi06FyKpA1z0VMD4v 235 ... 5egD7A5x9AHdVO2fMo3Wbo 1 7oTE1KmtU2ml9zBhv9Reao 1 0TFVOjSvPTjFHkiZZekK5k 1 2yBWnRKj0Zx7AF1kufajvW 1 53uF5QwHADVXKv383qXnXd 1 Name: id, Length: 5441, dtype: int64 Rozkład częstości dla kolumny 'Song URL': https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY 282 https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B 253 https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw 252 https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW 247 https://open.spotify.com/track/0tgVpDi06FyKpA1z0VMD4v 235 ... https://open.spotify.com/track/5egD7A5x9AHdVO2fMo3Wbo 1 https://open.spotify.com/track/7oTE1KmtU2ml9zBhv9Reao 1 https://open.spotify.com/track/0TFVOjSvPTjFHkiZZekK5k 1 https://open.spotify.com/track/2yBWnRKj0Zx7AF1kufajvW 1 https://open.spotify.com/track/53uF5QwHADVXKv383qXnXd 1 Name: Song URL, Length: 5441, dtype: int64 Statystyki dla zbioru testowego: Wielkość zbioru testowego: 130388 Statystyki wartości poszczególnych parametrów: Rank Danceability Energy Loudness \ count 130388.000000 130388.000000 130388.000000 130388.000000 mean 100.564922 0.697480 0.651683 -5309.731673 std 57.418920 0.133228 0.155650 2785.742733 min 1.000000 0.150000 0.022000 -34475.000000 25% 51.000000 0.617000 0.548000 -6827.000000 50% 100.000000 0.718000 0.671000 -5224.000000 75% 150.000000 0.792000 0.770000 -3912.000000 max 200.000000 0.985000 0.989000 1509.000000 Speechiness Acousticness Instrumentalness Valence \ count 130388.000000 130388.000000 130388.000000 130388.000000 mean 0.109818 0.231263 0.007470 0.522624 std 0.096464 0.230932 0.053432 0.223576 min 0.023000 0.000000 0.000000 0.026000 25% 0.045000 0.048000 0.000000 0.356000 50% 0.068000 0.152500 0.000000 0.520000 75% 0.136000 0.352000 0.000000 0.695000 max 0.966000 0.994000 0.942000 0.982000 Points (Total) Points (Ind for each Artist/Nat) count 130388.000000 130388.000000 mean 100.435078 72.147657 std 57.418920 54.117721 min 1.000000 0.250000 25% 51.000000 28.000000 50% 101.000000 59.000000 75% 150.000000 103.000000 max 200.000000 200.000000 Rozkład częstości dla kolumny 'Rank': 77 729 54 724 50 717 63 709 137 706 ... 4 595 133 593 121 590 1 586 3 582 Name: Rank, Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Title': Sunflower - Spider-Man: Into the Spider-Verse 635 One Dance 562 Something Just Like This 560 Closer 535 Shallow 512 ... What Makes A Woman 1 Te Amo Demais 1 Sharp Edges 1 Bella ciao - HUGEL Remix 1 Real Baby Pluto 1 Name: Title, Length: 5361, dtype: int64 Rozkład częstości dla kolumny 'Artists': Ed Sheeran 2478 Post Malone 1503 XXXTENTACION 1389 Billie Eilish 1350 The Weeknd 1169 ... Leo Lewis, Avicii 1 Peggy Lee 1 Benjamin Ingrosso 1 Dr. Dre, Eminem 1 blink-182 1 Name: Artists, Length: 2487, dtype: int64 Rozkład częstości dla kolumny 'Date': 03/02/2018 82 27/01/2022 81 08/09/2019 80 01/05/2022 79 07/03/2022 79 .. 13/03/2020 36 05/02/2020 36 13/08/2020 35 14/09/2017 32 06/01/2017 32 Name: Date, Length: 2336, dtype: int64 Rozkład częstości dla kolumny 'Danceability': 0.795 1295 0.791 1119 0.671 978 0.647 955 0.807 932 ... 0.172 1 0.272 1 0.326 1 0.304 1 0.208 1 Name: Danceability, Length: 697, dtype: int64 Rozkład częstości dla kolumny 'Energy': 0.771 753 0.648 746 0.522 740 0.715 734 0.726 714 ... 0.949 1 0.212 1 0.345 1 0.220 1 0.067 1 Name: Energy, Length: 804, dtype: int64 Rozkład częstości dla kolumny 'Loudness': -6769.00 560 -5599.00 535 -4368.00 525 -10109.00 516 -6362.00 512 ... -13.04 1 -13778.00 1 -6.15 1 -11667.00 1 -14104.00 1 Name: Loudness, Length: 4220, dtype: int64 Rozkład częstości dla kolumny 'Speechiness': 0.032 3269 0.048 2646 0.045 2406 0.036 2341 0.034 2262 ... 0.870 1 0.505 1 0.747 1 0.522 1 0.663 1 Name: Speechiness, Length: 492, dtype: int64 Rozkład częstości dla kolumny 'Acousticness': 0.008 1457 0.003 1332 0.002 1195 0.001 1169 0.017 1165 ... 0.879 1 0.638 1 0.710 1 0.754 1 0.983 1 Name: Acousticness, Length: 905, dtype: int64 Rozkład częstości dla kolumny 'Instrumentalness': 0.000 114104 0.001 4499 0.002 1512 0.003 1343 0.004 1336 ... 0.168 1 0.295 1 0.759 1 0.079 1 0.444 1 Name: Instrumentalness, Length: 226, dtype: int64 Rozkład częstości dla kolumny 'Valence': 0.446 1168 0.437 973 0.580 778 0.661 678 0.494 670 ... 0.949 1 0.117 1 0.043 1 0.054 1 0.034 1 Name: Valence, Length: 925, dtype: int64 Rozkład częstości dla kolumny '# of Artist': Artist 1 93924 Artist 2 25612 Artist 3 6913 Artist 4 1971 Artist 5 1161 Artist 6 516 Artist 7 235 Artist 8 39 Artist 9 17 Name: # of Artist, dtype: int64 Rozkład częstości dla kolumny 'Artist (Ind.)': Bad Bunny 3283 Ed Sheeran 2581 Post Malone 2257 J Balvin 2213 The Weeknd 2061 ... Peggy Lee 1 Rashmi Virag 1 The Game 1 MC WM 1 blink-182 1 Name: Artist (Ind.), Length: 1833, dtype: int64 Rozkład częstości dla kolumny '# of Nationality': Nationality 1 93924 Nationality 2 25612 Nationality 3 6913 Nationality 4 1971 Nationality 5 1161 Nationality 6 516 Nationality 7 235 Nationality 8 39 Nationality 9 17 Name: # of Nationality, dtype: int64 Rozkład częstości dla kolumny 'Nationality': United States 54963 United Kingdom 16896 Puerto Rico 15404 Canada 7899 Colombia 7084 ... Sri Lanka 2 Czech Republic 2 Malta 1 Ecuador 1 Moldavia 1 Name: Nationality, Length: 66, dtype: int64 Rozkład częstości dla kolumny 'Continent': Anglo-America 63521 Latin-America 31219 Europe 29388 Asia 2745 Oceania 2602 Africa 816 Unknown 97 Name: Continent, dtype: int64 Rozkład częstości dla kolumny 'Points (Total)': 124 729 147 724 151 717 138 709 64 706 ... 197 595 68 593 80 590 200 586 198 582 Name: Points (Total), Length: 200, dtype: int64 Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)': 18.000000 1529 14.000000 1444 12.000000 1435 26.000000 1413 32.000000 1410 ... 4.250000 1 47.333333 1 56.666667 1 46.666667 1 4.666667 1 Name: Points (Ind for each Artist/Nat), Length: 451, dtype: int64 Rozkład częstości dla kolumny 'id': 6RUKPb4LETWmmr3iAEQktW 560 7BKLCZ1jbUBVqRi2FVlTVw 535 2VxeLyX666F8uXCJ0dZF8B 509 0RiRZpuVRbi7oqRdSMwhQY 509 0tgVpDi06FyKpA1z0VMD4v 472 ... 52Rfxu5AUNMV1qhhC2ZCkb 1 5LHHKZOwV8XW4LJP2C64mw 1 1EWkw4Fa6IlnsAihLUlFFM 1 3CNbrXrUrEARw8zeKNCdYo 1 1rP5gAqMlm8d6UnfseuzSm 1 Name: id, Length: 6486, dtype: int64 Rozkład częstości dla kolumny 'Song URL': https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW 560 https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw 535 https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B 509 https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY 509 https://open.spotify.com/track/0tgVpDi06FyKpA1z0VMD4v 472 ... https://open.spotify.com/track/52Rfxu5AUNMV1qhhC2ZCkb 1 https://open.spotify.com/track/5LHHKZOwV8XW4LJP2C64mw 1 https://open.spotify.com/track/1EWkw4Fa6IlnsAihLUlFFM 1 https://open.spotify.com/track/3CNbrXrUrEARw8zeKNCdYo 1 https://open.spotify.com/track/1rP5gAqMlm8d6UnfseuzSm 1 Name: Song URL, Length: 6486, dtype: int64