ium_464953/zad1.ipynb
2024-03-20 00:47:02 +01:00

49 KiB
Raw Blame History

Zadanie 2 [5pkt]

Wybierz jeden z ogólnodostępnych zbiorów danych. Będziesz na nim pracował do końca roku (oczywiście, zbiór można zmienić w trakcie, ale będzie się to wiązało z powtarzeniem pewnych działań, co prawdwa niezbyt kosztownych, ale jednak).

Zbiór powinien być:

Napisz skrypt, który:

  1. Pobierze wybrany przez Ciebie zbiór
  2. Jeśli brak w zbiorze gotowego podziału na podzbiory train/dev/test, to dokona takiego podziału
  3. Zbierze i wydrukuje statystyki dla tego zbioru i jego podzbiorów, takie jak np.:
  • wielkość zbioru i podzbiorów
  • średnią, minimum, maksimum, odchylenia standardowe, medianę wartości poszczególnych parametrów)
  • rozkład częstości przykładów dla poszczególnych klas
  1. Dokona normalizacji danych w zbiorze (np. normalizacja wartości float do zakresu 0.0 - 1.0)
  2. Wyczyści zbiór z artefaktów (np. puste linie, przykłady z niepoprawnymi wartościami)

Skrypt możesz napisać w swoim ulubionym języku. Jedyne ograniczenie: ma działać pod Linuxem Wygodnie będzie stworzyć zeszyt Jupyter w tym celu (choć nie jest to konieczne) Stwórz na wydziałowym serwerze git (http://git.wmi.amu.edu.pl/) repozytorium "ium_nrindeksu" i umieść w nim stworzony skrypt Link do repozytorium wklej do arkusza ze zbiorami: https://uam.sharepoint.com//r/sites/2024SL06-S4IN01-F01005LABInynieriauczeniamaszynowego-Grupa11/Materiay%20z%20zaj/IUM-2024.xlsx?d=w23a1cad8c73a4fe183404d1b0671af36&csf=1&web=1&e=zUvrxN

!pip install kaggle
Defaulting to user installation because normal site-packages is not writeable
Collecting kaggle
  Downloading kaggle-1.6.6.tar.gz (84 kB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 84.6/84.6 kB 1.9 MB/s eta 0:00:00a 0:00:01
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hRequirement already satisfied: bleach in /usr/local/lib/python3.9/dist-packages (from kaggle) (5.0.1)
Requirement already satisfied: certifi in /usr/local/lib/python3.9/dist-packages (from kaggle) (2022.9.14)
Requirement already satisfied: python-dateutil in /usr/local/lib/python3.9/dist-packages (from kaggle) (2.8.2)
Collecting python-slugify (from kaggle)
  Downloading python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB)
Requirement already satisfied: requests in /usr/local/lib/python3.9/dist-packages (from kaggle) (2.28.1)
Requirement already satisfied: six>=1.10 in /usr/lib/python3/dist-packages (from kaggle) (1.16.0)
Requirement already satisfied: tqdm in /usr/local/lib/python3.9/dist-packages (from kaggle) (4.64.1)
Requirement already satisfied: urllib3 in /usr/local/lib/python3.9/dist-packages (from kaggle) (1.26.12)
Requirement already satisfied: webencodings in /usr/local/lib/python3.9/dist-packages (from bleach->kaggle) (0.5.1)
Collecting text-unidecode>=1.3 (from python-slugify->kaggle)
  Downloading text_unidecode-1.3-py2.py3-none-any.whl.metadata (2.4 kB)
Requirement already satisfied: charset-normalizer<3,>=2 in /usr/local/lib/python3.9/dist-packages (from requests->kaggle) (2.1.1)
Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.9/dist-packages (from requests->kaggle) (3.4)
Downloading python_slugify-8.0.4-py2.py3-none-any.whl (10 kB)
Downloading text_unidecode-1.3-py2.py3-none-any.whl (78 kB)
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 78.2/78.2 kB 3.3 MB/s eta 0:00:00
[?25hBuilding wheels for collected packages: kaggle
  Building wheel for kaggle (setup.py) ... [?25ldone
[?25h  Created wheel for kaggle: filename=kaggle-1.6.6-py3-none-any.whl size=111949 sha256=7e53aec9a3b77513258bc4a5e64c8024f55ccc060eee29fae9b6a5dcdb06b381
  Stored in directory: /home/students/s464953/.cache/pip/wheels/46/aa/c3/b3e421522fb5acdd7c366a05c5fc80787615bdeed207e7f79b
Successfully built kaggle
Installing collected packages: text-unidecode, python-slugify, kaggle
  WARNING: The script slugify is installed in '/home/students/s464953/.local/bin' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
  WARNING: The script kaggle is installed in '/home/students/s464953/.local/bin' which is not on PATH.
  Consider adding this directory to PATH or, if you prefer to suppress this warning, use --no-warn-script-location.
Successfully installed kaggle-1.6.6 python-slugify-8.0.4 text-unidecode-1.3
# Import bibliotek 

import os
import shutil
import pandas as pd
from sklearn.model_selection import train_test_split
import requests
from sklearn.preprocessing import MinMaxScaler
from kaggle.api.kaggle_api_extended import KaggleApi
#funkcja pobierająca plik 

def download_file(url, filename, destination_folder):
    # Wersja dla datasetów kaggle
    # Tworzymy obiekt klienta Kaggle
    api = KaggleApi()
    # Opcjonalnie, jeśli chcesz wyświetlić wiersze postępu
    api.authenticate()

    # Pobieramy plik z Kaggle - podajemy ścieżkę do zbioru danych na Kaggle
    api.dataset_download_files('brunoalarcon123/top-200-spotify-songs-dataset', path='temp', unzip=True)

    # Wersja dla datasetów nie z kaggle
    # response = requests.get(url)
    # if response.status_code == 200:
    #     # Ścieżka do pliku w folderze docelowym
    #     filepath = os.path.join(destination_folder, filename)
    #     with open(filepath, 'wb') as f:
    #         f.write(response.content)
    #     print(f"Pobrano plik: {filename}")
    #     return filepath
    # else:
    #     print("Wystąpił błąd podczas pobierania pliku.")
# funkcja dzieląca zbiór

def split_dataset(data, test_size=0.2, val_size=0.1, random_state=42):
    #Podział na test i trening
    train_data, test_data = train_test_split(data, test_size=test_size, random_state=random_state)
    #Podział na walidacje i trening
    train_data, val_data = train_test_split(train_data, test_size=val_size/(1-test_size), random_state=random_state)
    
    return train_data, val_data, test_data
# Wyświetlanie statystyk zbioru 

def print_dataset_stats(data, subset_name):
    print(f"Statystyki dla zbioru {subset_name}:")
    print(f"Wielkość zbioru {subset_name}: {len(data)}")

    print("\nStatystyki wartości poszczególnych parametrów:")
    print(data.describe())

    for column in data.columns:
        print(f"Rozkład częstości dla kolumny '{column}':")
        print(data[column].value_counts())
        print("\n")
# Normalizacja danych 

def normalize_data(data):
    scaler = MinMaxScaler()
    numeric_columns = data.select_dtypes(include=['int', 'float']).columns
    scaler.fit(data[numeric_columns])
    df_normalized = data.copy()
    df_normalized[numeric_columns] = scaler.transform(df_normalized[numeric_columns])
    return df_normalized
#Czyszczenie danych 

def clean_dataset(data):
    data.dropna(inplace=True)
    data.drop_duplicates(inplace=True)
    return data
# main 

url = "https://www.kaggle.com/datasets/asaniczka/top-spotify-songs-in-73-countries-daily-updated?select=universal_top_spotify_songs.csv"
filename = "dataset.csv"
destination_folder = "datasets"

# Pobieranie jeśli nie ma już pobranego pliku
if len(os.listdir(destination_folder)) == 0:
    # Pobranie pliku
    filepath = download_file(url, filename, destination_folder)

    # Przeniesienie pobranego pliku do wskazanego folderu
    if filepath:
        print("Przenoszenie pliku do wskazanego folderu...")
        shutil.move(filepath, os.path.join(destination_folder, filename))
        print("Plik przeniesiony.")


# Wczytanie danych z pliku CSV
data = pd.read_csv("datasets/Spotify_Dataset_V3.csv", sep=";")

# Podział datasetu na zbiory treningowy, walidacyjny i testowy
train_data, val_data, test_data = split_dataset(data)

# Zapisanie podzielonych zbiorów danych do osobnych plików CSV
train_data.to_csv("datasets/train.csv", index=False)
val_data.to_csv("datasets/val.csv", index=False)
test_data.to_csv("datasets/test.csv", index=False)

# Wydrukowanie statystyk dla zbiorów
print_dataset_stats(train_data, "treningowego")
print("\n")
print_dataset_stats(val_data, "walidacyjnego")
print("\n")
print_dataset_stats(test_data, "testowego")

# Normalizacja i czyszczenie zbirów
train_data = normalize_data(train_data)
train_data = clean_dataset(train_data)
val_data = normalize_data(train_data)
val_data = clean_dataset(train_data)
test_data = normalize_data(train_data)
test_data = clean_dataset(train_data)
Statystyki dla zbioru treningowego:
Wielkość zbioru treningowego: 456354

Statystyki wartości poszczególnych parametrów:
                Rank   Danceability         Energy       Loudness  \
count  456354.000000  456354.000000  456354.000000  456354.000000   
mean      100.358899       0.697782       0.652136   -5293.064991   
std        57.398624       0.133183       0.155760    2783.750842   
min         1.000000       0.073000       0.005000  -34475.000000   
25%        51.000000       0.617000       0.549000   -6825.000000   
50%       100.000000       0.719000       0.671000   -5206.000000   
75%       150.000000       0.793000       0.771000   -3875.000000   
max       200.000000       0.985000       0.996000    1509.000000   

         Speechiness   Acousticness  Instrumentalness        Valence  \
count  456354.000000  456354.000000     456354.000000  456354.000000   
mean        0.109976       0.230610          0.007728       0.523162   
std         0.096896       0.230671          0.055278       0.223983   
min         0.022000       0.000000          0.000000       0.032000   
25%         0.045000       0.048000          0.000000       0.356000   
50%         0.068000       0.152000          0.000000       0.521000   
75%         0.136000       0.349000          0.000000       0.696000   
max         0.966000       0.994000          0.956000       0.982000   

       Points (Total)  Points (Ind for each Artist/Nat)  
count   456354.000000                     456354.000000  
mean       100.641101                         72.473544  
std         57.398624                         54.254094  
min          1.000000                          0.200000  
25%         51.000000                         28.000000  
50%        101.000000                         60.000000  
75%        150.000000                        104.000000  
max        200.000000                        200.000000  
Rozkład częstości dla kolumny 'Rank':
88    2428
57    2416
56    2416
83    2409
78    2407
      ... 
11    2161
1     2147
4     2129
13    2101
3     2060
Name: Rank, Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Title':
Sunflower - Spider-Man: Into the Spider-Verse    2280
One Dance                                        2107
Something Just Like This                         1795
Shallow                                          1750
Closer                                           1745
                                                 ... 
Science Fiction                                     1
Sweet Caroline                                      1
Open It Up                                          1
Lovin' Me (feat. Phoebe Bridgers)                   1
You Don't Do It For Me Anymore                      1
Name: Title, Length: 6954, dtype: int64


Rozkład częstości dla kolumny 'Artists':
Ed Sheeran                   8532
Post Malone                  5442
XXXTENTACION                 4826
Billie Eilish                4786
Bad Bunny                    4050
                             ... 
Daði Freyr                      1
Justin Bieber, -                1
Brent Faiyaz, Alicia Keys       1
CHVRCHES                        1
NCT DREAM                       1
Name: Artists, Length: 2849, dtype: int64


Rozkład częstości dla kolumny 'Date':
22/01/2022    254
05/01/2022    253
28/01/2022    249
07/01/2022    248
19/03/2022    247
             ... 
13/12/2020    162
26/12/2020    162
23/07/2017    160
04/02/2021    160
23/03/2020    158
Name: Date, Length: 2336, dtype: int64


Rozkład częstości dla kolumny 'Danceability':
0.795    4708
0.791    3910
0.671    3493
0.755    3417
0.807    3282
         ... 
0.223       1
0.270       1
0.185       1
0.204       1
0.373       1
Name: Danceability, Length: 726, dtype: int64


Rozkład częstości dla kolumny 'Energy':
0.771    2721
0.648    2632
0.522    2613
0.631    2508
0.726    2453
         ... 
0.120       1
0.981       1
0.162       1
0.096       1
0.220       1
Name: Energy, Length: 852, dtype: int64


Rozkład częstości dla kolumny 'Loudness':
-4368.00     1873
-6769.00     1795
-10109.00    1794
-6362.00     1751
-5599.00     1745
             ... 
-4455.00        1
-2886.00        1
-4446.00        1
-15.34          1
-1627.00        1
Name: Loudness, Length: 5090, dtype: int64


Rozkład częstości dla kolumny 'Speechiness':
0.032    11398
0.048     9246
0.036     8197
0.045     8167
0.034     7596
         ...  
0.515        1
0.314        1
0.388        1
0.888        1
0.399        1
Name: Speechiness, Length: 525, dtype: int64


Rozkład częstości dla kolumny 'Acousticness':
0.008    5145
0.003    4843
0.017    4482
0.002    4137
0.005    4012
         ... 
0.502       1
0.715       1
0.992       1
0.854       1
0.787       1
Name: Acousticness, Length: 942, dtype: int64


Rozkład częstości dla kolumny 'Instrumentalness':
0.000    399153
0.001     15897
0.002      5440
0.004      4680
0.003      4503
          ...  
0.153         1
0.468         1
0.736         1
0.295         1
0.939         1
Name: Instrumentalness, Length: 289, dtype: int64


Rozkład częstości dla kolumny 'Valence':
0.446    4102
0.437    3247
0.580    2704
0.494    2353
0.661    2238
         ... 
0.047       1
0.070       1
0.935       1
0.936       1
0.057       1
Name: Valence, Length: 933, dtype: int64


Rozkład częstości dla kolumny '# of Artist':
Artist 1    329460
Artist 2     89046
Artist 3     24054
Artist 4      6748
Artist 5      4185
Artist 6      1865
Artist 7       754
Artist 8       175
Artist 9        67
Name: # of Artist, dtype: int64


Rozkład częstości dla kolumny 'Artist (Ind.)':
Bad Bunny          11664
Ed Sheeran          8928
Post Malone         8057
J Balvin            7359
Drake               7067
                   ...  
Wilbur Soot            1
Hayley Williams        1
Malik Monta            1
Kollegah               1
NCT DREAM              1
Name: Artist (Ind.), Length: 2115, dtype: int64


Rozkład częstości dla kolumny '# of Nationality':
Nationality 1    329460
Nationality 2     89046
Nationality 3     24054
Nationality 4      6748
Nationality 5      4185
Nationality 6      1865
Nationality 7       754
Nationality 8       175
Nationality 9        67
Name: # of Nationality, dtype: int64


Rozkład częstości dla kolumny 'Nationality':
United States     192533
United Kingdom     59024
Puerto Rico        53571
Canada             27768
Colombia           24259
                   ...  
Bonaire                1
Senegal                1
Sri Lanka              1
Suecia                 1
Azerbaijan             1
Name: Nationality, Length: 72, dtype: int64


Rozkład częstości dla kolumny 'Continent':
Anglo-America    222778
Latin-America    108347
Europe           103046
Asia               9688
Oceania            9319
Africa             2861
Unknown             315
Name: Continent, dtype: int64


Rozkład częstości dla kolumny 'Points (Total)':
113    2428
144    2416
145    2416
118    2409
123    2407
       ... 
190    2161
200    2147
197    2129
188    2101
198    2060
Name: Points (Total), Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)':
18.000000    5180
12.000000    4958
2.000000     4868
14.000000    4864
24.000000    4839
             ... 
19.250000       2
9.666667        1
55.333333       1
35.600000       1
4.250000        1
Name: Points (Ind for each Artist/Nat), Length: 476, dtype: int64


Rozkład częstości dla kolumny 'id':
0RiRZpuVRbi7oqRdSMwhQY    1805
6RUKPb4LETWmmr3iAEQktW    1795
7BKLCZ1jbUBVqRi2FVlTVw    1745
2VxeLyX666F8uXCJ0dZF8B    1742
7qiZfU4dY1lWllzX7mPBI3    1573
                          ... 
5S7FewmYYyLNdMOfeEcB6P       1
6mPZVis3gEGSSR2rhxlehT       1
12VqHHz4wvVcnEdSivjLeQ       1
2O1qYJTA2BI5ypFFqEZhh4       1
4I39irD0xSyfRA099AsWow       1
Name: id, Length: 8521, dtype: int64


Rozkład częstości dla kolumny 'Song URL':
https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY    1805
https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW    1795
https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw    1745
https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B    1742
https://open.spotify.com/track/7qiZfU4dY1lWllzX7mPBI3    1573
                                                         ... 
https://open.spotify.com/track/5S7FewmYYyLNdMOfeEcB6P       1
https://open.spotify.com/track/6mPZVis3gEGSSR2rhxlehT       1
https://open.spotify.com/track/12VqHHz4wvVcnEdSivjLeQ       1
https://open.spotify.com/track/2O1qYJTA2BI5ypFFqEZhh4       1
https://open.spotify.com/track/4I39irD0xSyfRA099AsWow       1
Name: Song URL, Length: 8521, dtype: int64




Statystyki dla zbioru walidacyjnego:
Wielkość zbioru walidacyjnego: 65194

Statystyki wartości poszczególnych parametrów:
               Rank  Danceability        Energy      Loudness   Speechiness  \
count  65194.000000  65194.000000  65194.000000  65194.000000  65194.000000   
mean     100.435684      0.697871      0.652172  -5285.533729      0.109990   
std       57.438715      0.133125      0.155214   2794.797372      0.097208   
min        1.000000      0.150000      0.005000 -23023.000000      0.023000   
25%       51.000000      0.618000      0.548000  -6825.000000      0.044000   
50%      100.000000      0.719000      0.671000  -5211.000000      0.068000   
75%      150.000000      0.793000      0.771000  -3872.000000      0.135000   
max      200.000000      0.985000      0.989000   1509.000000      0.966000   

       Acousticness  Instrumentalness       Valence  Points (Total)  \
count  65194.000000      65194.000000  65194.000000    65194.000000   
mean       0.230139          0.007433      0.523956      100.564316   
std        0.230539          0.053366      0.224228       57.438715   
min        0.000000          0.000000      0.032000        1.000000   
25%        0.048000          0.000000      0.356000       51.000000   
50%        0.152000          0.000000      0.524000      101.000000   
75%        0.348000          0.000000      0.697000      150.000000   
max        0.994000          0.919000      0.982000      200.000000   

       Points (Ind for each Artist/Nat)  
count                      65194.000000  
mean                          72.301296  
std                           54.263761  
min                            0.250000  
25%                           28.000000  
50%                           59.000000  
75%                          103.000000  
max                          200.000000  
Rozkład częstości dla kolumny 'Rank':
79     372
58     370
96     368
25     362
77     362
      ... 
29     286
48     285
3      285
193    284
144    268
Name: Rank, Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Title':
Sunflower - Spider-Man: Into the Spider-Verse                                                                                              347
One Dance                                                                                                                                  301
Shallow                                                                                                                                    256
Closer                                                                                                                                     252
Something Just Like This                                                                                                                   247
                                                                                                                                          ... 
How to Talk                                                                                                                                  1
Black Tux, White Collar                                                                                                                      1
Shot in the Dark                                                                                                                             1
Until I Bleed Out                                                                                                                            1
Don't Shoot (feat. Rick Ross, 2 Chainz, Diddy, Fabolous, Wale, DJ Khaled, Swizz Beatz, Yo Gotti, Currensy, Problem, King Pharaoh & TGT)      1
Name: Title, Length: 4548, dtype: int64


Rozkład częstości dla kolumny 'Artists':
Ed Sheeran                         1279
Post Malone                         779
XXXTENTACION                        709
Billie Eilish                       620
Taylor Swift                        561
                                   ... 
Louis Armstrong, The Commanders       1
Nas                                   1
Kungs, Olly Murs, Coely               1
Paloma Mami                           1
The Game, Curren$y                    1
Name: Artists, Length: 2261, dtype: int64


Rozkład częstości dla kolumny 'Date':
18/01/2022    48
11/06/2017    48
14/01/2022    48
26/03/2022    46
17/08/2019    45
              ..
25/07/2020    15
07/03/2022    14
20/07/2020    14
12/10/2020    12
19/08/2020    12
Name: Date, Length: 2336, dtype: int64


Rozkład częstości dla kolumny 'Danceability':
0.795    656
0.791    554
0.755    511
0.807    499
0.671    483
        ... 
0.233      1
0.270      1
0.408      1
0.419      1
0.269      1
Name: Danceability, Length: 679, dtype: int64


Rozkład częstości dla kolumny 'Energy':
0.522    410
0.771    407
0.648    404
0.715    383
0.633    357
        ... 
0.326      1
0.228      1
0.333      1
0.135      1
0.005      1
Name: Energy, Length: 782, dtype: int64


Rozkład częstości dla kolumny 'Loudness':
-4368.0     289
-6312.0     256
-6362.0     256
-5599.0     252
-10109.0    248
           ... 
-7496.0       1
-14542.0      1
-4969.0       1
-4396.0       1
-9807.0       1
Name: Loudness, Length: 3739, dtype: int64


Rozkład częstości dla kolumny 'Speechiness':
0.032    1635
0.048    1247
0.036    1229
0.045    1135
0.034    1090
         ... 
0.488       1
0.553       1
0.642       1
0.394       1
0.503       1
Name: Speechiness, Length: 469, dtype: int64


Rozkład częstości dla kolumny 'Acousticness':
0.008    728
0.003    672
0.017    609
0.002    594
0.001    574
        ... 
0.857      1
0.637      1
0.763      1
0.608      1
0.845      1
Name: Acousticness, Length: 861, dtype: int64


Rozkład częstości dla kolumny 'Instrumentalness':
0.000    57090
0.001     2269
0.002      745
0.003      676
0.004      646
         ...  
0.504        1
0.349        1
0.066        1
0.375        1
0.269        1
Name: Instrumentalness, Length: 203, dtype: int64


Rozkład częstości dla kolumny 'Valence':
0.446    542
0.437    489
0.580    367
0.609    324
0.323    322
        ... 
0.065      1
0.929      1
0.977      1
0.117      1
0.103      1
Name: Valence, Length: 921, dtype: int64


Rozkład częstości dla kolumny '# of Artist':
Artist 1    47052
Artist 2    12765
Artist 3     3374
Artist 4     1004
Artist 5      583
Artist 6      261
Artist 7      127
Artist 8       22
Artist 9        6
Name: # of Artist, dtype: int64


Rozkład częstości dla kolumny 'Artist (Ind.)':
Bad Bunny      1677
Ed Sheeran     1328
Post Malone    1191
J Balvin       1087
Drake           994
               ... 
Hit-Boy           1
Luis Miguel       1
Ludacris          1
Stargate          1
The Game          1
Name: Artist (Ind.), Length: 1676, dtype: int64


Rozkład częstości dla kolumny '# of Nationality':
Nationality 1    47052
Nationality 2    12765
Nationality 3     3374
Nationality 4     1004
Nationality 5      583
Nationality 6      261
Nationality 7      127
Nationality 8       22
Nationality 9        6
Name: # of Nationality, dtype: int64


Rozkład częstości dla kolumny 'Nationality':
United States     27308
United Kingdom     8416
Puerto Rico        7625
Canada             3935
Colombia           3546
                  ...  
China                 1
Sri Lanka             1
Haiti                 1
Ivory Coast           1
Greece                1
Name: Nationality, Length: 62, dtype: int64


Rozkład częstości dla kolumny 'Continent':
Anglo-America    31593
Latin-America    15516
Europe           14734
Asia              1483
Oceania           1385
Africa             430
Unknown             53
Name: Continent, dtype: int64


Rozkład częstości dla kolumny 'Points (Total)':
122    372
143    370
105    368
176    362
124    362
      ... 
172    286
153    285
198    285
8      284
57     268
Name: Points (Total), Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)':
18.000000    746
24.000000    725
12.000000    716
28.000000    707
26.000000    701
            ... 
23.333333      1
15.333333      1
47.333333      1
12.500000      1
64.666667      1
Name: Points (Ind for each Artist/Nat), Length: 412, dtype: int64


Rozkład częstości dla kolumny 'id':
0RiRZpuVRbi7oqRdSMwhQY    282
2VxeLyX666F8uXCJ0dZF8B    253
7BKLCZ1jbUBVqRi2FVlTVw    252
6RUKPb4LETWmmr3iAEQktW    247
0tgVpDi06FyKpA1z0VMD4v    235
                         ... 
5egD7A5x9AHdVO2fMo3Wbo      1
7oTE1KmtU2ml9zBhv9Reao      1
0TFVOjSvPTjFHkiZZekK5k      1
2yBWnRKj0Zx7AF1kufajvW      1
53uF5QwHADVXKv383qXnXd      1
Name: id, Length: 5441, dtype: int64


Rozkład częstości dla kolumny 'Song URL':
https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY    282
https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B    253
https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw    252
https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW    247
https://open.spotify.com/track/0tgVpDi06FyKpA1z0VMD4v    235
                                                        ... 
https://open.spotify.com/track/5egD7A5x9AHdVO2fMo3Wbo      1
https://open.spotify.com/track/7oTE1KmtU2ml9zBhv9Reao      1
https://open.spotify.com/track/0TFVOjSvPTjFHkiZZekK5k      1
https://open.spotify.com/track/2yBWnRKj0Zx7AF1kufajvW      1
https://open.spotify.com/track/53uF5QwHADVXKv383qXnXd      1
Name: Song URL, Length: 5441, dtype: int64




Statystyki dla zbioru testowego:
Wielkość zbioru testowego: 130388

Statystyki wartości poszczególnych parametrów:
                Rank   Danceability         Energy       Loudness  \
count  130388.000000  130388.000000  130388.000000  130388.000000   
mean      100.564922       0.697480       0.651683   -5309.731673   
std        57.418920       0.133228       0.155650    2785.742733   
min         1.000000       0.150000       0.022000  -34475.000000   
25%        51.000000       0.617000       0.548000   -6827.000000   
50%       100.000000       0.718000       0.671000   -5224.000000   
75%       150.000000       0.792000       0.770000   -3912.000000   
max       200.000000       0.985000       0.989000    1509.000000   

         Speechiness   Acousticness  Instrumentalness        Valence  \
count  130388.000000  130388.000000     130388.000000  130388.000000   
mean        0.109818       0.231263          0.007470       0.522624   
std         0.096464       0.230932          0.053432       0.223576   
min         0.023000       0.000000          0.000000       0.026000   
25%         0.045000       0.048000          0.000000       0.356000   
50%         0.068000       0.152500          0.000000       0.520000   
75%         0.136000       0.352000          0.000000       0.695000   
max         0.966000       0.994000          0.942000       0.982000   

       Points (Total)  Points (Ind for each Artist/Nat)  
count   130388.000000                     130388.000000  
mean       100.435078                         72.147657  
std         57.418920                         54.117721  
min          1.000000                          0.250000  
25%         51.000000                         28.000000  
50%        101.000000                         59.000000  
75%        150.000000                        103.000000  
max        200.000000                        200.000000  
Rozkład częstości dla kolumny 'Rank':
77     729
54     724
50     717
63     709
137    706
      ... 
4      595
133    593
121    590
1      586
3      582
Name: Rank, Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Title':
Sunflower - Spider-Man: Into the Spider-Verse    635
One Dance                                        562
Something Just Like This                         560
Closer                                           535
Shallow                                          512
                                                ... 
What Makes A Woman                                 1
Te Amo Demais                                      1
Sharp Edges                                        1
Bella ciao - HUGEL Remix                           1
Real Baby Pluto                                    1
Name: Title, Length: 5361, dtype: int64


Rozkład częstości dla kolumny 'Artists':
Ed Sheeran           2478
Post Malone          1503
XXXTENTACION         1389
Billie Eilish        1350
The Weeknd           1169
                     ... 
Leo Lewis, Avicii       1
Peggy Lee               1
Benjamin Ingrosso       1
Dr. Dre, Eminem         1
blink-182               1
Name: Artists, Length: 2487, dtype: int64


Rozkład częstości dla kolumny 'Date':
03/02/2018    82
27/01/2022    81
08/09/2019    80
01/05/2022    79
07/03/2022    79
              ..
13/03/2020    36
05/02/2020    36
13/08/2020    35
14/09/2017    32
06/01/2017    32
Name: Date, Length: 2336, dtype: int64


Rozkład częstości dla kolumny 'Danceability':
0.795    1295
0.791    1119
0.671     978
0.647     955
0.807     932
         ... 
0.172       1
0.272       1
0.326       1
0.304       1
0.208       1
Name: Danceability, Length: 697, dtype: int64


Rozkład częstości dla kolumny 'Energy':
0.771    753
0.648    746
0.522    740
0.715    734
0.726    714
        ... 
0.949      1
0.212      1
0.345      1
0.220      1
0.067      1
Name: Energy, Length: 804, dtype: int64


Rozkład częstości dla kolumny 'Loudness':
-6769.00     560
-5599.00     535
-4368.00     525
-10109.00    516
-6362.00     512
            ... 
-13.04         1
-13778.00      1
-6.15          1
-11667.00      1
-14104.00      1
Name: Loudness, Length: 4220, dtype: int64


Rozkład częstości dla kolumny 'Speechiness':
0.032    3269
0.048    2646
0.045    2406
0.036    2341
0.034    2262
         ... 
0.870       1
0.505       1
0.747       1
0.522       1
0.663       1
Name: Speechiness, Length: 492, dtype: int64


Rozkład częstości dla kolumny 'Acousticness':
0.008    1457
0.003    1332
0.002    1195
0.001    1169
0.017    1165
         ... 
0.879       1
0.638       1
0.710       1
0.754       1
0.983       1
Name: Acousticness, Length: 905, dtype: int64


Rozkład częstości dla kolumny 'Instrumentalness':
0.000    114104
0.001      4499
0.002      1512
0.003      1343
0.004      1336
          ...  
0.168         1
0.295         1
0.759         1
0.079         1
0.444         1
Name: Instrumentalness, Length: 226, dtype: int64


Rozkład częstości dla kolumny 'Valence':
0.446    1168
0.437     973
0.580     778
0.661     678
0.494     670
         ... 
0.949       1
0.117       1
0.043       1
0.054       1
0.034       1
Name: Valence, Length: 925, dtype: int64


Rozkład częstości dla kolumny '# of Artist':
Artist 1    93924
Artist 2    25612
Artist 3     6913
Artist 4     1971
Artist 5     1161
Artist 6      516
Artist 7      235
Artist 8       39
Artist 9       17
Name: # of Artist, dtype: int64


Rozkład częstości dla kolumny 'Artist (Ind.)':
Bad Bunny       3283
Ed Sheeran      2581
Post Malone     2257
J Balvin        2213
The Weeknd      2061
                ... 
Peggy Lee          1
Rashmi Virag       1
The Game           1
MC WM              1
blink-182          1
Name: Artist (Ind.), Length: 1833, dtype: int64


Rozkład częstości dla kolumny '# of Nationality':
Nationality 1    93924
Nationality 2    25612
Nationality 3     6913
Nationality 4     1971
Nationality 5     1161
Nationality 6      516
Nationality 7      235
Nationality 8       39
Nationality 9       17
Name: # of Nationality, dtype: int64


Rozkład częstości dla kolumny 'Nationality':
United States     54963
United Kingdom    16896
Puerto Rico       15404
Canada             7899
Colombia           7084
                  ...  
Sri Lanka             2
Czech Republic        2
Malta                 1
Ecuador               1
Moldavia              1
Name: Nationality, Length: 66, dtype: int64


Rozkład częstości dla kolumny 'Continent':
Anglo-America    63521
Latin-America    31219
Europe           29388
Asia              2745
Oceania           2602
Africa             816
Unknown             97
Name: Continent, dtype: int64


Rozkład częstości dla kolumny 'Points (Total)':
124    729
147    724
151    717
138    709
64     706
      ... 
197    595
68     593
80     590
200    586
198    582
Name: Points (Total), Length: 200, dtype: int64


Rozkład częstości dla kolumny 'Points (Ind for each Artist/Nat)':
18.000000    1529
14.000000    1444
12.000000    1435
26.000000    1413
32.000000    1410
             ... 
4.250000        1
47.333333       1
56.666667       1
46.666667       1
4.666667        1
Name: Points (Ind for each Artist/Nat), Length: 451, dtype: int64


Rozkład częstości dla kolumny 'id':
6RUKPb4LETWmmr3iAEQktW    560
7BKLCZ1jbUBVqRi2FVlTVw    535
2VxeLyX666F8uXCJ0dZF8B    509
0RiRZpuVRbi7oqRdSMwhQY    509
0tgVpDi06FyKpA1z0VMD4v    472
                         ... 
52Rfxu5AUNMV1qhhC2ZCkb      1
5LHHKZOwV8XW4LJP2C64mw      1
1EWkw4Fa6IlnsAihLUlFFM      1
3CNbrXrUrEARw8zeKNCdYo      1
1rP5gAqMlm8d6UnfseuzSm      1
Name: id, Length: 6486, dtype: int64


Rozkład częstości dla kolumny 'Song URL':
https://open.spotify.com/track/6RUKPb4LETWmmr3iAEQktW    560
https://open.spotify.com/track/7BKLCZ1jbUBVqRi2FVlTVw    535
https://open.spotify.com/track/2VxeLyX666F8uXCJ0dZF8B    509
https://open.spotify.com/track/0RiRZpuVRbi7oqRdSMwhQY    509
https://open.spotify.com/track/0tgVpDi06FyKpA1z0VMD4v    472
                                                        ... 
https://open.spotify.com/track/52Rfxu5AUNMV1qhhC2ZCkb      1
https://open.spotify.com/track/5LHHKZOwV8XW4LJP2C64mw      1
https://open.spotify.com/track/1EWkw4Fa6IlnsAihLUlFFM      1
https://open.spotify.com/track/3CNbrXrUrEARw8zeKNCdYo      1
https://open.spotify.com/track/1rP5gAqMlm8d6UnfseuzSm      1
Name: Song URL, Length: 6486, dtype: int64