init

2021-06-18 20:05:07 +02:00 · 2021-06-18 20:05:07 +02:00 · e8fcca18c3
commit e8fcca18c3
3 changed files with 9025 additions and 0 deletions
--- a/GENERAL.csv
+++ b/GENERAL.csv
--- a/kMedoids.py
+++ b/kMedoids.py
@ -0,0 +1,70 @@
 import matplotlib.pyplot as plt
 import numpy as np
 import pandas as pd
 import seaborn as sns
 from numpy.random import choice, seed
 from sklearn.decomposition import PCA
 from sklearn.preprocessing import MinMaxScaler
 seed(42)
 def initialize_medoids(num_medoids, data):
    return [data.iloc[idx] for idx in choice(len(data), size=num_medoids, replace=False)]
 def assign_points_to_medoids(data, medoids):
    return [np.argmin([distance_vec2vec(point[1], medoid) for medoid in medoids]) for point in data.iterrows()]
 def distance_vec2vec(a, b) -> np.float64:
    return sum([(abs(a[i] - b[i]) ** 2) for i in range(len(a))])
 def reassign_medoids(data, assignments, initial_medoids):
    new_medoids = []
    for idm, medoid in enumerate(initial_medoids):
        new_medoid = medoid
        medoid_score = sum([distance_vec2vec(medoid, x[1]) if assignments[idx] == idm else 0
                            for idx, x in enumerate(data.iterrows())])
        for point in data.iterrows():
            point_score = sum(sum([distance_vec2vec(point, x[1]) if assignments[idx] == idm else 0
                                   for idx, x in enumerate(data.iterrows())]))
            if medoid_score > point_score:
                new_medoid = point
        new_medoids.append(new_medoid)
    return new_medoids
 def is_finished(old_medoids, new_medoids):
    return set([tuple(om) for om in old_medoids]) == set([tuple(nm) for nm in new_medoids])
 def kmedoids(num_samples, num_clusters):
    df = pd.read_csv('CC GENERAL.csv', index_col='CUST_ID')
    df = df[:num_samples]
    df_scaled = pd.DataFrame(MinMaxScaler().fit_transform(df))
    df_scaled = df_scaled.fillna(0)
    # initialize medoids (at random)
    medoids = initialize_medoids(num_medoids=num_clusters, data=df_scaled)
    # assign data points to the medoids
    assignments = assign_points_to_medoids(data=df_scaled, medoids=medoids)
    # fit
    new_medoids = reassign_medoids(data=df_scaled, assignments=assignments, initial_medoids=medoids)
    while not is_finished(old_medoids=medoids, new_medoids=new_medoids):
        medoids = new_medoids
        new_medoids = reassign_medoids(data=df_scaled, assignments=assignments, initial_medoids=medoids)
    new_assignments = assign_points_to_medoids(data=df_scaled, medoids=new_medoids)
    data = pd.DataFrame(PCA(n_components=2).fit_transform(df_scaled), columns=['0', '1'])
    data['cluster'] = new_assignments
    sns.relplot(x='0', y='1', hue='cluster', data=data, palette=sns.color_palette("husl", num_clusters))
    plt.show()
 kmedoids(num_samples=500, num_clusters=3)
--- a/readme.md
+++ b/readme.md
@ -0,0 +1,4 @@
 # K-medoids (Partitioning Around Medoids)
 PAM k-medoids implementation for classes of Mathematical Foundations of Artificial Intelligence
 and Cyber-Security at AMU Poznań.