809 lines
136 KiB
Plaintext
809 lines
136 KiB
Plaintext
{
|
||
"cells": [
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"## Uczenie maszynowe UMZ 2019/2020\n",
|
||
"### 5 maja 2020\n",
|
||
"# 8. Uczenie nienadzorowane"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"source": [
|
||
"Wyobraźmy sobie, że mamy następujący problem:\n",
|
||
"\n",
|
||
"Mamy zbiór okazów roślin i dysponujemy pewnymi danymi na ich temat (długość płatków kwiatów, ich szerokość itp.), ale zupełnie **nie wiemy**, do jakich gatunków one należą (nie wiemy nawet, ile jest tych gatunków).\n",
|
||
"\n",
|
||
"Chcemy automatycznie podzielić zbiór posiadanych okazów na nie więcej niż $k$ grup (klastrów) ($k$ ustalamy z góry), czyli dokonać **grupowania (klastrowania)** zbioru przykładów.\n",
|
||
"\n",
|
||
"Jest to zagadnienie z kategorii uczenia nienadzorowanego.\n",
|
||
"\n",
|
||
"W celu jego rozwiązania użyjemy algorytmu $k$ średnich."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"## 8.1. Algorytm $k$ średnich"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 1,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Przydatne importy\n",
|
||
"\n",
|
||
"import ipywidgets as widgets\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"import numpy as np\n",
|
||
"import pandas\n",
|
||
"import random\n",
|
||
"import seaborn\n",
|
||
"\n",
|
||
"%matplotlib inline"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 2,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Wczytanie danych (gatunki kosaćców)\n",
|
||
"\n",
|
||
"data_iris_raw = pandas.read_csv('iris.csv')\n",
|
||
"data_iris = pandas.DataFrame()\n",
|
||
"data_iris['x1'] = data_iris_raw['sl']\n",
|
||
"data_iris['x2'] = data_iris_raw['sw']\n",
|
||
"data_iris['x3'] = data_iris_raw['pl']\n",
|
||
"data_iris['x4'] = data_iris_raw['sw']\n",
|
||
"\n",
|
||
"# Nie używamy w ogóle kolumny ostatniej kolumny (\"Gatunek\"), \n",
|
||
"# ponieważ chcemy dokonać uczenia nienadzorowanego.\n",
|
||
"# Przyjmujemy, że w ogóle nie dysponujemy danymi na temat gatunku,\n",
|
||
"# mamy tylko 150 nieznanych roślin.\n",
|
||
"\n",
|
||
"X = data_iris.values\n",
|
||
"Xs = data_iris.values[:, 2:4]"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 3,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Wykres danych\n",
|
||
"def plot_unlabeled_data(X, col1=0, col2=1, x1label=r'$x_1$', x2label=r'$x_2$'): \n",
|
||
" fig = plt.figure(figsize=(16*.7, 9*.7))\n",
|
||
" ax = fig.add_subplot(111)\n",
|
||
" fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n",
|
||
" X1 = X[:, col1].tolist()\n",
|
||
" X2 = X[:, col2].tolist()\n",
|
||
" ax.scatter(X1, X2, c='k', marker='o', s=50, label='Dane')\n",
|
||
" ax.set_xlabel(x1label)\n",
|
||
" ax.set_ylabel(x2label)\n",
|
||
" ax.margins(.05, .05)\n",
|
||
" return fig"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 4,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Przygotowanie interaktywnego wykresu\n",
|
||
"\n",
|
||
"dropdown_arg1 = widgets.Dropdown(options=[0, 1, 2, 3], value=2, description='arg1')\n",
|
||
"dropdown_arg2 = widgets.Dropdown(options=[0, 1, 2, 3], value=3, description='arg2')\n",
|
||
"\n",
|
||
"def interactive_unlabeled_data(arg1, arg2):\n",
|
||
" fig = plot_unlabeled_data(\n",
|
||
" X, col1=arg1, col2=arg2, x1label='$x_{}$'.format(arg1), x2label='$x_{}$'.format(arg2))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 5,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 806.4x453.6 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {
|
||
"needs_background": "light"
|
||
},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"<function __main__.interactive_unlabeled_data(arg1, arg2)>"
|
||
]
|
||
},
|
||
"execution_count": 5,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"widgets.interact(interactive_unlabeled_data, arg1=dropdown_arg1, arg2=dropdown_arg2)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"source": [
|
||
"Powyższy wykres przedstawia surowe dane.\n",
|
||
"Ponieważ nasze obserwacje mają 4 współrzędne, na płaskim wykresie możemy przedstawić tylko dwie z nich.\n",
|
||
"\n",
|
||
"Dlatego powyższy wykres umożliwia wybór dwóch współrzędnych, na które chcemy rzutować.\n",
|
||
"\n",
|
||
"Wszystkie takie „rzuty” przedstawia również wykres poniżej."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 6,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stderr",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"/home/pawel/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py:2065: UserWarning: The `size` parameter has been renamed to `height`; pleaes update your code.\n",
|
||
" warnings.warn(msg, UserWarning)\n"
|
||
]
|
||
},
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"<seaborn.axisgrid.PairGrid at 0x7fba0d6cc310>"
|
||
]
|
||
},
|
||
"execution_count": 6,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
},
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 756x432 with 20 Axes>"
|
||
]
|
||
},
|
||
"metadata": {
|
||
"needs_background": "light"
|
||
},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"seaborn.pairplot(data_iris, vars=data_iris.columns, size=1.5, aspect=1.75)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 7,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Odległość euklidesowa\n",
|
||
"def euclidean_distance(x1, x2):\n",
|
||
" return np.linalg.norm(x1 - x2)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 8,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Algorytm k średnich\n",
|
||
"def k_means(X, k, distance=euclidean_distance):\n",
|
||
" history = []\n",
|
||
" Y = []\n",
|
||
" \n",
|
||
" # Wylosuj centroid dla każdej klasy\n",
|
||
" centroids = [[random.uniform(X.min(axis=0)[f], X.max(axis=0)[f])\n",
|
||
" for f in range(X.shape[1])]\n",
|
||
" for c in range(k)]\n",
|
||
"\n",
|
||
" # Powtarzaj, dopóki klasy się zmieniają\n",
|
||
" while True:\n",
|
||
" distances = [[distance(centroids[c], x) for c in range(k)] for x in X]\n",
|
||
" Y_new = [d.index(min(d)) for d in distances]\n",
|
||
" if Y_new == Y:\n",
|
||
" break\n",
|
||
" Y = Y_new\n",
|
||
" XY = np.asarray(np.concatenate((X, np.matrix(Y).T), axis=1))\n",
|
||
" Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n",
|
||
" centroids = [[Xc[c].mean(axis=0)[f] for f in range(X.shape[1])]\n",
|
||
" for c in range(k)]\n",
|
||
" history.append((centroids, Y))\n",
|
||
"\n",
|
||
" result = history[-1][1]\n",
|
||
" return result, history"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 9,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Wykres danych - klastrowanie\n",
|
||
"def plot_clusters(X, Y, k, centroids=None):\n",
|
||
" color = ['r', 'g', 'b', 'c', 'm', 'y', 'k']\n",
|
||
" fig = plt.figure(figsize=(16*.7, 9*.7))\n",
|
||
" ax = fig.add_subplot(111)\n",
|
||
" fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n",
|
||
"\n",
|
||
" X1 = X[:, 0].tolist()\n",
|
||
" X2 = X[:, 1].tolist()\n",
|
||
" X1 = [[x for x, y in zip(X1, Y) if y == c] for c in range(k)]\n",
|
||
" X2 = [[x for x, y in zip(X2, Y) if y == c] for c in range(k)]\n",
|
||
"\n",
|
||
" for c in range(k):\n",
|
||
" ax.scatter(X1[c], X2[c], c=color[c], marker='o', s=25, label='Dane')\n",
|
||
" if centroids:\n",
|
||
" ax.scatter([centroids[c][0]], [centroids[c][1]], c=color[c], marker='+', s=500, label='Centroid')\n",
|
||
"\n",
|
||
" ax.set_xlabel(r'$x_1$')\n",
|
||
" ax.set_ylabel(r'$x_2$')\n",
|
||
" ax.margins(.05, .05)\n",
|
||
" return fig"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 10,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 806.4x453.6 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {
|
||
"needs_background": "light"
|
||
},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"Ys, history = k_means(Xs, 2)\n",
|
||
"fig = plot_clusters(Xs, Ys, 2, centroids=history[-1][0]),"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 11,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Przygotowanie interaktywnego wykresu\n",
|
||
"\n",
|
||
"slider_k = widgets.IntSlider(min=1, max=7, step=1, value=2, description=r'$k$', width=300)\n",
|
||
"\n",
|
||
"def interactive_kmeans_k(steps, history, k):\n",
|
||
" if steps >= len(history) or steps == 10:\n",
|
||
" steps = len(history) - 1\n",
|
||
" fig = plot_clusters(Xs, history[steps][1], k, centroids=history[steps][0])\n",
|
||
" \n",
|
||
"def interactive_kmeans(k):\n",
|
||
" slider_steps = widgets.IntSlider(min=1, max=10, step=1, value=1, description=r'steps', width=300)\n",
|
||
" _, history = k_means(Xs, k)\n",
|
||
" widgets.interact(interactive_kmeans_k, steps=slider_steps,\n",
|
||
" history=widgets.fixed(history), k=widgets.fixed(k))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 12,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"application/vnd.jupyter.widget-view+json": {
|
||
"model_id": "d848eb486dd04d669b73755d43a99fb1",
|
||
"version_major": 2,
|
||
"version_minor": 0
|
||
},
|
||
"text/plain": [
|
||
"interactive(children=(IntSlider(value=2, description='$k$', max=7, min=1), Button(description='Run Interact', …"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
},
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"<function __main__.interactive_kmeans(k)>"
|
||
]
|
||
},
|
||
"execution_count": 12,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"widgets.interact_manual(interactive_kmeans, k=slider_k) "
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Algorytm $k$ średnich – dane wejściowe\n",
|
||
"\n",
|
||
"* $k$ – liczba klastrów\n",
|
||
"* zbiór uczący $X = \\{ x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\}$, $x^{(i)} \\in \\mathbb{R}^n$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"Na wejściu nie ma zbioru $Y$, ponieważ jest to uczenie nienadzorowane!"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Algorytm $k$ średnich – pseudokod\n",
|
||
"\n",
|
||
"1. Zainicjalizuj losowo $k$ centroidów (środków ciężkości klastrów): $\\mu_1, \\ldots, \\mu_k$.\n",
|
||
"1. Powtarzaj dopóki przyporządkowania klastrów się zmieniają:\n",
|
||
" 1. Dla $i = 1$ do $m$:\n",
|
||
" za $y^{(i)}$ przyjmij klasę najbliższego centroidu.\n",
|
||
" 1. Dla $c = 1$ do $k$:\n",
|
||
" za $\\mu_c$ przyjmij średnią wszystkich punktów $x^{(i)}$ takich, że $y^{(i)} = c$."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 13,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Algorytm k średnich\n",
|
||
"def k_means(X, k, distance=euclidean_distance):\n",
|
||
" Y = []\n",
|
||
" centroids = [[random.uniform(X.min(axis=0)[f],X.max(axis=0)[f])\n",
|
||
" for f in range(X.shape[1])]\n",
|
||
" for c in range(k)] # Wylosuj centroidy\n",
|
||
" while True:\n",
|
||
" distances = [[distance(centroids[c], x) for c in range(k)]\n",
|
||
" for x in X] # Oblicz odległości\n",
|
||
" Y_new = [d.index(min(d)) for d in distances]\n",
|
||
" if Y_new == Y:\n",
|
||
" break # Jeśli nic się nie zmienia, przerwij\n",
|
||
" Y = Y_new\n",
|
||
" XY = np.asarray(np.concatenate((X,np.matrix(Y).T),axis=1))\n",
|
||
" Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n",
|
||
" centroids = [[Xc[c].mean(axis=0)[f]\n",
|
||
" for f in range(X.shape[1])]\n",
|
||
" for c in range(k)] # Przesuń centroidy\n",
|
||
" return Y"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Liczba klastrów jest określona z góry i wynosi $k$."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Jeżeli w którymś kroku algorytmu jedna z klas nie zostanie przyporządkowana żadnemu z przykładów, pomija się ją – w ten sposób wynikiem działania algorytmu może być mniej niż $k$ klastrów."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Funkcja kosztu dla problemu klastrowania\n",
|
||
"\n",
|
||
"$$ J \\left( y^{(i)}, \\ldots, y^{(m)}, \\mu_{1}, \\ldots, \\mu_{k} \\right) = \\frac{1}{m} \\sum_{i=1}^{m} || x^{(i)} - \\mu_{y^{(i)}} || ^2 $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Zauważmy, że z każdym krokiem algorytmu $k$ średnich koszt się zmniejsza (lub ewentualnie pozostaje taki sam)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Wielokrotna inicjalizacja\n",
|
||
"\n",
|
||
"* Algorytm $k$ średnich zawsze znajdzie lokalne minimum funkcji kosztu $J$, ale nie zawsze będzie to globalne minimum."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Aby temu zaradzić, można uruchomić algorytm $k$ średnich wiele razy, za każdym razem z innym losowym położeniem centroidów (tzw. **wielokrotna losowa inicjalizacja** – _multiple random initialization_).\n",
|
||
"* Za każdym razem obliczamy koszt $J$. Wybieramy ten wynik, który ma najniższy koszt."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Wybór liczby klastrów $k$\n",
|
||
"\n",
|
||
"Ile powinna wynosić liczba grup $k$?\n",
|
||
"* Najlepiej wybrać $k$ ręcznie w zależności od kształtu danych i celu, który chcemy osiągnąć."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"## 8.2. Analiza głównych składowych"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"source": [
|
||
"Analiza głównych składowych to inny przykład zagadnienia z dziedziny uczenia nienadzorowanego.\n",
|
||
"\n",
|
||
"Polega na próbie zredukowania liczby wymiarów dla danych wielowymiarowych, czyli zmniejszenia liczby cech, gdy rozpatrujemy przykłady o dużej liczbie cech."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Redukcja liczby wymiarów\n",
|
||
"\n",
|
||
"Z jakich powodów chcemy redukować liczbę wymiarów?"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Chcemy pozbyć się nadmiarowych cech, np. „długość w cm” / „długość w calach”, „długość” i „szerokość” / „powierzchnia”."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Chcemy znaleźć bardziej optymalną kombinację cech."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Chcemy przyspieszyć działanie algorytmów."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Chcemy zwizualizować dane."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Błąd rzutowania\n",
|
||
"\n",
|
||
"**Błąd rzutowania** – błąd średniokwadratowy pomiędzy danymi oryginalnymi a danymi zrzutowanymi."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Sformułowanie problemu\n",
|
||
"\n",
|
||
"**Analiza głównych składowych** (_Principal Component Analysis_, PCA):\n",
|
||
"\n",
|
||
"Zredukować liczbę wymiarów z $n$ do $k$, czyli znaleźć $k$ wektorów $u^{(1)}, u^{(2)}, \\ldots, u^{(k)}$ takich, że rzutowanie danych na podprzeztrzeń rozpiętą na tych wektorach minimalizuje błąd rzutowania."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* **Uwaga:** analiza głównych składowych to (mimo pozornych podobieństw) zupełnie inne zagadnienie niż regresja liniowa!"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Algorytm PCA\n",
|
||
"\n",
|
||
"1. Dany jest zbiór składający się z $x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\in \\mathbb{R}^n$.\n",
|
||
"1. Chcemy zredukować liczbę wymiarów z $n$ do $k$ ($k < n$).\n",
|
||
"1. W ramach wstępnego przetwarzania dokonujemy skalowania i normalizacji średniej.\n",
|
||
"1. Znajdujemy macierz kowariancji:\n",
|
||
" $$ \\Sigma = \\frac{1}{m} \\sum_{i=1}^{n} \\left( x^{(i)} \\right) \\left( x^{(i)} \\right)^T $$\n",
|
||
"1. Znajdujemy wektory własne macierzy $\\Sigma$ (rozkład SVD):\n",
|
||
" $$ (U, S, V) := \\mathop{\\rm SVD}(\\Sigma) $$\n",
|
||
"1. Pierwszych $k$ kolumn macierzy $U$ to szukane wektory."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 14,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"from sklearn.preprocessing import StandardScaler\n",
|
||
"\n",
|
||
"# Algorytm PCA - implementacja\n",
|
||
"def pca(X, k):\n",
|
||
" X_std = StandardScaler().fit_transform(X) # normalizacja\n",
|
||
" mean_vec = np.mean(X_std, axis=0)\n",
|
||
" cov_mat = np.cov(X_std.T) # macierz kowariancji\n",
|
||
" n = cov_mat.shape[0]\n",
|
||
" eig_vals, eig_vecs = np.linalg.eig(cov_mat) # wektory własne\n",
|
||
" eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:, i])\n",
|
||
" for i in range(len(eig_vals))]\n",
|
||
" eig_pairs.sort()\n",
|
||
" eig_pairs.reverse()\n",
|
||
" matrix_w = np.hstack([eig_pairs[i][1].reshape(n, 1)\n",
|
||
" for i in range(k)]) # wybór\n",
|
||
" return X_std.dot(matrix_w) # transformacja"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 15,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 806.4x453.6 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {
|
||
"needs_background": "light"
|
||
},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"# X - dane ze zbioru \"iris\" z poprzedniego przykładu\n",
|
||
"\n",
|
||
"X_pca = pca(X, 2)\n",
|
||
"fig = plot_unlabeled_data(X_pca)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"source": [
|
||
"Analiza głównych składowych umożliwiła stowrzenie powyższego wykresu, który wizualizuje 4-wymiarowe dane ze zbioru *iris* na 2-wymiarowej płaszczyźnie.\n",
|
||
"\n",
|
||
"Współrzędne $x_1$ i $x_2$, stanowiące osi wykresu, zostały uzyskane w wyniku działania algorytmu PCA (nie są to żadne z oryginalnych cech ze zbioru *iris* – długość płatka, szerokość płatka itp.)."
|
||
]
|
||
}
|
||
],
|
||
"metadata": {
|
||
"celltoolbar": "Slideshow",
|
||
"kernelspec": {
|
||
"display_name": "Python 3",
|
||
"language": "python",
|
||
"name": "python3"
|
||
},
|
||
"language_info": {
|
||
"codemirror_mode": {
|
||
"name": "ipython",
|
||
"version": 3
|
||
},
|
||
"file_extension": ".py",
|
||
"mimetype": "text/x-python",
|
||
"name": "python",
|
||
"nbconvert_exporter": "python",
|
||
"pygments_lexer": "ipython3",
|
||
"version": "3.8.3"
|
||
},
|
||
"livereveal": {
|
||
"start_slideshow_at": "selected",
|
||
"theme": "amu"
|
||
}
|
||
},
|
||
"nbformat": 4,
|
||
"nbformat_minor": 4
|
||
}
|