{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Uczenie maszynowe UMZ 2019/2020\n", "### 5 maja 2020\n", "# 8. Uczenie nienadzorowane" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Wyobraźmy sobie, że mamy następujący problem:\n", "\n", "Mamy zbiór okazów roślin i dysponujemy pewnymi danymi na ich temat (długość płatków kwiatów, ich szerokość itp.), ale zupełnie **nie wiemy**, do jakich gatunków one należą (nie wiemy nawet, ile jest tych gatunków).\n", "\n", "Chcemy automatycznie podzielić zbiór posiadanych okazów na nie więcej niż $k$ grup (klastrów) ($k$ ustalamy z góry), czyli dokonać **grupowania (klastrowania)** zbioru przykładów.\n", "\n", "Jest to zagadnienie z kategorii uczenia nienadzorowanego.\n", "\n", "W celu jego rozwiązania użyjemy algorytmu $k$ średnich." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 8.1. Algorytm $k$ średnich" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przydatne importy\n", "\n", "import ipywidgets as widgets\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas\n", "import random\n", "import seaborn\n", "\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wczytanie danych (gatunki kosaćców)\n", "\n", "data_iris_raw = pandas.read_csv('iris.csv')\n", "data_iris = pandas.DataFrame()\n", "data_iris['x1'] = data_iris_raw['sl']\n", "data_iris['x2'] = data_iris_raw['sw']\n", "data_iris['x3'] = data_iris_raw['pl']\n", "data_iris['x4'] = data_iris_raw['sw']\n", "\n", "# Nie używamy w ogóle kolumny ostatniej kolumny (\"Gatunek\"), \n", "# ponieważ chcemy dokonać uczenia nienadzorowanego.\n", "# Przyjmujemy, że w ogóle nie dysponujemy danymi na temat gatunku,\n", "# mamy tylko 150 nieznanych roślin.\n", "\n", "X = data_iris.values\n", "Xs = data_iris.values[:, 2:4]" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wykres danych\n", "def plot_unlabeled_data(X, col1=0, col2=1, x1label=r'$x_1$', x2label=r'$x_2$'): \n", " fig = plt.figure(figsize=(16*.7, 9*.7))\n", " ax = fig.add_subplot(111)\n", " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n", " X1 = X[:, col1].tolist()\n", " X2 = X[:, col2].tolist()\n", " ax.scatter(X1, X2, c='k', marker='o', s=50, label='Dane')\n", " ax.set_xlabel(x1label)\n", " ax.set_ylabel(x2label)\n", " ax.margins(.05, .05)\n", " return fig" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przygotowanie interaktywnego wykresu\n", "\n", "dropdown_arg1 = widgets.Dropdown(options=[0, 1, 2, 3], value=2, description='arg1')\n", "dropdown_arg2 = widgets.Dropdown(options=[0, 1, 2, 3], value=3, description='arg2')\n", "\n", "def interactive_unlabeled_data(arg1, arg2):\n", " fig = plot_unlabeled_data(\n", " X, col1=arg1, col2=arg2, x1label='$x_{}$'.format(arg1), x2label='$x_{}$'.format(arg2))" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "<Figure size 806.4x453.6 with 1 Axes>" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "text/plain": [ "<function __main__.interactive_unlabeled_data(arg1, arg2)>" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "widgets.interact(interactive_unlabeled_data, arg1=dropdown_arg1, arg2=dropdown_arg2)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Powyższy wykres przedstawia surowe dane.\n", "Ponieważ nasze obserwacje mają 4 współrzędne, na płaskim wykresie możemy przedstawić tylko dwie z nich.\n", "\n", "Dlatego powyższy wykres umożliwia wybór dwóch współrzędnych, na które chcemy rzutować.\n", "\n", "Wszystkie takie „rzuty” przedstawia również wykres poniżej." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/pawel/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py:2065: UserWarning: The `size` parameter has been renamed to `height`; pleaes update your code.\n", " warnings.warn(msg, UserWarning)\n" ] }, { "data": { "text/plain": [ "<seaborn.axisgrid.PairGrid at 0x7fba0d6cc310>" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "<Figure size 756x432 with 20 Axes>" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "seaborn.pairplot(data_iris, vars=data_iris.columns, size=1.5, aspect=1.75)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Odległość euklidesowa\n", "def euclidean_distance(x1, x2):\n", " return np.linalg.norm(x1 - x2)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Algorytm k średnich\n", "def k_means(X, k, distance=euclidean_distance):\n", " history = []\n", " Y = []\n", " \n", " # Wylosuj centroid dla każdej klasy\n", " centroids = [[random.uniform(X.min(axis=0)[f], X.max(axis=0)[f])\n", " for f in range(X.shape[1])]\n", " for c in range(k)]\n", "\n", " # Powtarzaj, dopóki klasy się zmieniają\n", " while True:\n", " distances = [[distance(centroids[c], x) for c in range(k)] for x in X]\n", " Y_new = [d.index(min(d)) for d in distances]\n", " if Y_new == Y:\n", " break\n", " Y = Y_new\n", " XY = np.asarray(np.concatenate((X, np.matrix(Y).T), axis=1))\n", " Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n", " centroids = [[Xc[c].mean(axis=0)[f] for f in range(X.shape[1])]\n", " for c in range(k)]\n", " history.append((centroids, Y))\n", "\n", " result = history[-1][1]\n", " return result, history" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wykres danych - klastrowanie\n", "def plot_clusters(X, Y, k, centroids=None):\n", " color = ['r', 'g', 'b', 'c', 'm', 'y', 'k']\n", " fig = plt.figure(figsize=(16*.7, 9*.7))\n", " ax = fig.add_subplot(111)\n", " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n", "\n", " X1 = X[:, 0].tolist()\n", " X2 = X[:, 1].tolist()\n", " X1 = [[x for x, y in zip(X1, Y) if y == c] for c in range(k)]\n", " X2 = [[x for x, y in zip(X2, Y) if y == c] for c in range(k)]\n", "\n", " for c in range(k):\n", " ax.scatter(X1[c], X2[c], c=color[c], marker='o', s=25, label='Dane')\n", " if centroids:\n", " ax.scatter([centroids[c][0]], [centroids[c][1]], c=color[c], marker='+', s=500, label='Centroid')\n", "\n", " ax.set_xlabel(r'$x_1$')\n", " ax.set_ylabel(r'$x_2$')\n", " ax.margins(.05, .05)\n", " return fig" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "<Figure size 806.4x453.6 with 1 Axes>" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Ys, history = k_means(Xs, 2)\n", "fig = plot_clusters(Xs, Ys, 2, centroids=history[-1][0])," ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przygotowanie interaktywnego wykresu\n", "\n", "slider_k = widgets.IntSlider(min=1, max=7, step=1, value=2, description=r'$k$', width=300)\n", "\n", "def interactive_kmeans_k(steps, history, k):\n", " if steps >= len(history) or steps == 10:\n", " steps = len(history) - 1\n", " fig = plot_clusters(Xs, history[steps][1], k, centroids=history[steps][0])\n", " \n", "def interactive_kmeans(k):\n", " slider_steps = widgets.IntSlider(min=1, max=10, step=1, value=1, description=r'steps', width=300)\n", " _, history = k_means(Xs, k)\n", " widgets.interact(interactive_kmeans_k, steps=slider_steps,\n", " history=widgets.fixed(history), k=widgets.fixed(k))" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "d848eb486dd04d669b73755d43a99fb1", "version_major": 2, "version_minor": 0 }, "text/plain": [ "interactive(children=(IntSlider(value=2, description='$k$', max=7, min=1), Button(description='Run Interact', …" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "<function __main__.interactive_kmeans(k)>" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "widgets.interact_manual(interactive_kmeans, k=slider_k) " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm $k$ średnich – dane wejściowe\n", "\n", "* $k$ – liczba klastrów\n", "* zbiór uczący $X = \\{ x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\}$, $x^{(i)} \\in \\mathbb{R}^n$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "Na wejściu nie ma zbioru $Y$, ponieważ jest to uczenie nienadzorowane!" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm $k$ średnich – pseudokod\n", "\n", "1. Zainicjalizuj losowo $k$ centroidów (środków ciężkości klastrów): $\\mu_1, \\ldots, \\mu_k$.\n", "1. Powtarzaj dopóki przyporządkowania klastrów się zmieniają:\n", " 1. Dla $i = 1$ do $m$:\n", " za $y^{(i)}$ przyjmij klasę najbliższego centroidu.\n", " 1. Dla $c = 1$ do $k$:\n", " za $\\mu_c$ przyjmij średnią wszystkich punktów $x^{(i)}$ takich, że $y^{(i)} = c$." ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [], "source": [ "# Algorytm k średnich\n", "def k_means(X, k, distance=euclidean_distance):\n", " Y = []\n", " centroids = [[random.uniform(X.min(axis=0)[f],X.max(axis=0)[f])\n", " for f in range(X.shape[1])]\n", " for c in range(k)] # Wylosuj centroidy\n", " while True:\n", " distances = [[distance(centroids[c], x) for c in range(k)]\n", " for x in X] # Oblicz odległości\n", " Y_new = [d.index(min(d)) for d in distances]\n", " if Y_new == Y:\n", " break # Jeśli nic się nie zmienia, przerwij\n", " Y = Y_new\n", " XY = np.asarray(np.concatenate((X,np.matrix(Y).T),axis=1))\n", " Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n", " centroids = [[Xc[c].mean(axis=0)[f]\n", " for f in range(X.shape[1])]\n", " for c in range(k)] # Przesuń centroidy\n", " return Y" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* Liczba klastrów jest określona z góry i wynosi $k$." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Jeżeli w którymś kroku algorytmu jedna z klas nie zostanie przyporządkowana żadnemu z przykładów, pomija się ją – w ten sposób wynikiem działania algorytmu może być mniej niż $k$ klastrów." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Funkcja kosztu dla problemu klastrowania\n", "\n", "$$ J \\left( y^{(i)}, \\ldots, y^{(m)}, \\mu_{1}, \\ldots, \\mu_{k} \\right) = \\frac{1}{m} \\sum_{i=1}^{m} || x^{(i)} - \\mu_{y^{(i)}} || ^2 $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Zauważmy, że z każdym krokiem algorytmu $k$ średnich koszt się zmniejsza (lub ewentualnie pozostaje taki sam)." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Wielokrotna inicjalizacja\n", "\n", "* Algorytm $k$ średnich zawsze znajdzie lokalne minimum funkcji kosztu $J$, ale nie zawsze będzie to globalne minimum." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Aby temu zaradzić, można uruchomić algorytm $k$ średnich wiele razy, za każdym razem z innym losowym położeniem centroidów (tzw. **wielokrotna losowa inicjalizacja** – _multiple random initialization_).\n", "* Za każdym razem obliczamy koszt $J$. Wybieramy ten wynik, który ma najniższy koszt." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Wybór liczby klastrów $k$\n", "\n", "Ile powinna wynosić liczba grup $k$?\n", "* Najlepiej wybrać $k$ ręcznie w zależności od kształtu danych i celu, który chcemy osiągnąć." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 8.2. Analiza głównych składowych" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Analiza głównych składowych to inny przykład zagadnienia z dziedziny uczenia nienadzorowanego.\n", "\n", "Polega na próbie zredukowania liczby wymiarów dla danych wielowymiarowych, czyli zmniejszenia liczby cech, gdy rozpatrujemy przykłady o dużej liczbie cech." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Redukcja liczby wymiarów\n", "\n", "Z jakich powodów chcemy redukować liczbę wymiarów?" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy pozbyć się nadmiarowych cech, np. „długość w cm” / „długość w calach”, „długość” i „szerokość” / „powierzchnia”." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy znaleźć bardziej optymalną kombinację cech." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy przyspieszyć działanie algorytmów." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy zwizualizować dane." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Błąd rzutowania\n", "\n", "**Błąd rzutowania** – błąd średniokwadratowy pomiędzy danymi oryginalnymi a danymi zrzutowanymi." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Sformułowanie problemu\n", "\n", "**Analiza głównych składowych** (_Principal Component Analysis_, PCA):\n", "\n", "Zredukować liczbę wymiarów z $n$ do $k$, czyli znaleźć $k$ wektorów $u^{(1)}, u^{(2)}, \\ldots, u^{(k)}$ takich, że rzutowanie danych na podprzeztrzeń rozpiętą na tych wektorach minimalizuje błąd rzutowania." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* **Uwaga:** analiza głównych składowych to (mimo pozornych podobieństw) zupełnie inne zagadnienie niż regresja liniowa!" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm PCA\n", "\n", "1. Dany jest zbiór składający się z $x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\in \\mathbb{R}^n$.\n", "1. Chcemy zredukować liczbę wymiarów z $n$ do $k$ ($k < n$).\n", "1. W ramach wstępnego przetwarzania dokonujemy skalowania i normalizacji średniej.\n", "1. Znajdujemy macierz kowariancji:\n", " $$ \\Sigma = \\frac{1}{m} \\sum_{i=1}^{n} \\left( x^{(i)} \\right) \\left( x^{(i)} \\right)^T $$\n", "1. Znajdujemy wektory własne macierzy $\\Sigma$ (rozkład SVD):\n", " $$ (U, S, V) := \\mathop{\\rm SVD}(\\Sigma) $$\n", "1. Pierwszych $k$ kolumn macierzy $U$ to szukane wektory." ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [], "source": [ "from sklearn.preprocessing import StandardScaler\n", "\n", "# Algorytm PCA - implementacja\n", "def pca(X, k):\n", " X_std = StandardScaler().fit_transform(X) # normalizacja\n", " mean_vec = np.mean(X_std, axis=0)\n", " cov_mat = np.cov(X_std.T) # macierz kowariancji\n", " n = cov_mat.shape[0]\n", " eig_vals, eig_vecs = np.linalg.eig(cov_mat) # wektory własne\n", " eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:, i])\n", " for i in range(len(eig_vals))]\n", " eig_pairs.sort()\n", " eig_pairs.reverse()\n", " matrix_w = np.hstack([eig_pairs[i][1].reshape(n, 1)\n", " for i in range(k)]) # wybór\n", " return X_std.dot(matrix_w) # transformacja" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "<Figure size 806.4x453.6 with 1 Axes>" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# X - dane ze zbioru \"iris\" z poprzedniego przykładu\n", "\n", "X_pca = pca(X, 2)\n", "fig = plot_unlabeled_data(X_pca)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Analiza głównych składowych umożliwiła stowrzenie powyższego wykresu, który wizualizuje 4-wymiarowe dane ze zbioru *iris* na 2-wymiarowej płaszczyźnie.\n", "\n", "Współrzędne $x_1$ i $x_2$, stanowiące osi wykresu, zostały uzyskane w wyniku działania algorytmu PCA (nie są to żadne z oryginalnych cech ze zbioru *iris* – długość płatka, szerokość płatka itp.)." ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.3" }, "livereveal": { "start_slideshow_at": "selected", "theme": "amu" } }, "nbformat": 4, "nbformat_minor": 4 }