{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Uczenie maszynowe UMZ 2019/2020\n", "### 5 maja 2020\n", "# 8. Uczenie nienadzorowane" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Wyobraźmy sobie, że mamy następujący problem:\n", "\n", "Mamy zbiór okazów roślin i dysponujemy pewnymi danymi na ich temat (długość płatków kwiatów, ich szerokość itp.), ale zupełnie **nie wiemy**, do jakich gatunków one należą (nie wiemy nawet, ile jest tych gatunków).\n", "\n", "Chcemy automatycznie podzielić zbiór posiadanych okazów na nie więcej niż $k$ grup (klastrów) ($k$ ustalamy z góry), czyli dokonać **grupowania (klastrowania)** zbioru przykładów.\n", "\n", "Jest to zagadnienie z kategorii uczenia nienadzorowanego.\n", "\n", "W celu jego rozwiązania użyjemy algorytmu $k$ średnich." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 8.1. Algorytm $k$ średnich" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przydatne importy\n", "\n", "import ipywidgets as widgets\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import pandas\n", "import random\n", "import seaborn\n", "\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wczytanie danych (gatunki kosaćców)\n", "\n", "data_iris_raw = pandas.read_csv('iris.csv')\n", "data_iris = pandas.DataFrame()\n", "data_iris['x1'] = data_iris_raw['sl']\n", "data_iris['x2'] = data_iris_raw['sw']\n", "data_iris['x3'] = data_iris_raw['pl']\n", "data_iris['x4'] = data_iris_raw['sw']\n", "\n", "# Nie używamy w ogóle kolumny ostatniej kolumny (\"Gatunek\"), \n", "# ponieważ chcemy dokonać uczenia nienadzorowanego.\n", "# Przyjmujemy, że w ogóle nie dysponujemy danymi na temat gatunku,\n", "# mamy tylko 150 nieznanych roślin.\n", "\n", "X = data_iris.values\n", "Xs = data_iris.values[:, 2:4]" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wykres danych\n", "def plot_unlabeled_data(X, col1=0, col2=1, x1label=r'$x_1$', x2label=r'$x_2$'): \n", " fig = plt.figure(figsize=(16*.7, 9*.7))\n", " ax = fig.add_subplot(111)\n", " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n", " X1 = X[:, col1].tolist()\n", " X2 = X[:, col2].tolist()\n", " ax.scatter(X1, X2, c='k', marker='o', s=50, label='Dane')\n", " ax.set_xlabel(x1label)\n", " ax.set_ylabel(x2label)\n", " ax.margins(.05, .05)\n", " return fig" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przygotowanie interaktywnego wykresu\n", "\n", "dropdown_arg1 = widgets.Dropdown(options=[0, 1, 2, 3], value=2, description='arg1')\n", "dropdown_arg2 = widgets.Dropdown(options=[0, 1, 2, 3], value=3, description='arg2')\n", "\n", "def interactive_unlabeled_data(arg1, arg2):\n", " fig = plot_unlabeled_data(\n", " X, col1=arg1, col2=arg2, x1label='$x_{}$'.format(arg1), x2label='$x_{}$'.format(arg2))" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAroAAAGaCAYAAADgueCyAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4xLjEsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8QZhcZAAAgAElEQVR4nO3df5Ac6X3f98+zBCOJvS0rZcLBLY7ywujBbsXylXhAkdJxy8USY0daMSeHNq8ZlwTCdQkj8xySC6ekXVfKihlXAaqkaNHloVTnY3KExViPSJ5jShnHok3J3lVRlPfOJCWbu5i+AC6RizUhMdLNdFJKpP7mDyxGuMVgbnbRM93z9PtVNXWLfp57nu/Tv+aLxrNPOzMTAAAAEJq5qgMAAAAAJoFEFwAAAEEi0QUAAECQSHQBAAAQJBJdAAAABIlEFwAAAEE6Ma2OnHOvk7Qt6etm9s5DZZck/Y+Svn6w6e+Z2XOj2nvjG99oi4uLE4gUAAAAs+LFF1/8bTM7OaxsaomupA9K+qqkb39AuTezvzZuY4uLi9re3i4lMAAAAMwm59y/e1DZVKYuOOcelfSDkkY+pQUAAADKMq05uj8l6cckFSPq/EXn3Fecc592zr1pSnEBAAAgUBNPdJ1z75T0DTN7cUS1X5C0aGaPSfpnkj7xgLbe55zbds5t3759ewLRAgAAIBTTeKL7NklPOuduSvo5Sd/nnPvZeyuY2e+Y2e8f/PHvSzo/rCEze9bMLpjZhZMnh845BgAAACRNIdE1sw0ze9TMFiW9R9LnzeyH763jnHvknj8+qTu/tAYAAAAc2zRXXXgV59yHJW2b2WclfcA596SkP5D0TUmXqooLAAAAYXBmVnUMx3LhwgVjeTEAAIBmc869aGYXhpXxZjQAAAAEiUQXAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEqbLlxTB9vV5P3nt1u121Wi2laao4jqsOCwAAYCJIdBtia2tLq6urKopCeZ4riiJdvnxZnU5HKysrVYcHAABQOqYuNECv19Pq6qp6vZ7yPJck5Xk+2N7v9yuOEAAAoHwkug3gvVdRFEPLiqKQ937KEQEAAEweiW4DdLvdwZPcw/I8V5ZlU44IAABg8kh0G6DVaimKoqFlURQpSZIpRwQAADB5JLoNkKap5uaGH+q5uTmlaTrliAAAACaPRLcB4jhWp9NRHMeDJ7tRFA22z8/PVxwhAABA+VherCFWVla0t7cn772yLFOSJErTlCQXAAAEi0S3Qebn5/X0009XHQYAAMBUMHUBAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQTpRdQAoR6/Xk/de3W5XrVZLaZoqjuOqwwIAAKgMiW4Atra2tLq6qqIolOe5oijS5cuX1el0tLKyUnV4AAAAlWDqwozr9XpaXV1Vr9dTnueSpDzPB9v7/X7FEQIAAFSDRHfGee9VFMXQsqIo5L2fckQAAAD1QKI747rd7uBJ7mF5nivLsilHBAAAUA8kujOu1WopiqKhZVEUKUmSKUcEAABQDyS6My5NU83NDT+Mc3NzStN0yhEBAADUA4nujIvjWJ1OR3EcD57sRlE02D4/P19xhAAAANVgebEArKysaG9vT957ZVmmJEmUpilJLgAAaDQS3UDMz8/r6aefrjoMAACA2mDqAgAAAIJEogsAAIAgkegCAAAgSCS6AAAACBK/jNYgvV5P3nt1u121Wi2laao4jqsOCwAAYCJIdBtia2tLq6urKopCeZ4riiJdvnxZnU5HKysrVYcHAABQOqYuNECv19Pq6qp6vZ7yPJck5Xk+2N7v9yuOEAAAoHwkug3gvVdRFEPLiqKQ937KEQEAAEweiW4DdLvdwZPcw/I8V5ZlU44IAABg8kh0G6DVaimKoqFlURQpSZIpRwQAADB5JLoNkKap5uaGH+q5uTmlaTrliAAAACaPRLcB4jhWp9NRHMeDJ7tRFA22z8/PVxwhAABA+VherCFWVla0t7cn772yLFOSJErTlCQXAAAEi0S3Qebn5/X0009XHQYAAMBUMHUBAAAAQSLRBQAAQJBIdAEAABAk5uhWpNfryXuvbrerVqulNE0Vx3HVYQEAAARjaomuc+51krYlfd3M3nmo7FskXZN0XtLvSErN7Oa0Ypu2ra0tra6uqigK5XmuKIp0+fJldTodraysVB0eAABAEKY5deGDkr76gLKnJf1fZpZI+juSfnJqUU1Zr9fT6uqqer3e4LW8eZ4Ptvf7/YojBAAACMNUEl3n3KOSflDScw+o8kOSPnHw86clvcM556YR27R571UUxdCyoijkvZ9yRAAAAGGa1hPdn5L0Y5KGZ3jSaUm/JUlm9geSfk/SHz9cyTn3PufctnNu+/bt25OKdaK63e7gSe5heZ4ry7IpRwQAABCmiSe6zrl3SvqGmb04qtqQbXbfBrNnzeyCmV04efJkaTFOU6vVGryG97AoipQkyZQjAgAACNM0nui+TdKTzrmbkn5O0vc55372UJ2vSXqTJDnnTkj6Y5K+OYXYpi5NU83NDd/tc3NzStN0yhEBAACEaeKJrpltmNmjZrYo6T2SPm9mP3yo2mclvffg5790UOe+J7ohiONYnU5HcRwPnuxGUTTYPj8/X3GEAAAAYahsHV3n3IclbZvZZyV9XNI/cM5luvMk9z1VxTUNKysr2tvbk/deWZYpSRKlaUqSCwAAUCI3qw9OL1y4YNvb21WHAQAAgAo55140swvDyngFMAAAAIJEogsAAIAgkegCAAAgSCS6AAAACFJlqy5gPL1eT957dbtdtVotpWmqOI6rDktSvWMDAABg1YUa29ra0urqqoqiUJ7niqJIc3Nz6nQ6WllZITYAANB4o1ZdINGtqV6vp9OnT6vX691XFsex9vb2Klt3t86xAQCAZmF5sRnkvVdRFEPLiqKQ937KEf2ROscGAABwF4luTXW7XeV5PrQsz3NlWTbliP5InWMDAAC4i0S3plqtlqIoGloWRZGSJJlyRH+kzrEBAADcxRzdmqrzPNg6xwYAAJqFObozKI5jdTodxXE8eHoaRdFge5WJZJ1jAwAAuIsnujXX7/flvVeWZUqSRGma1iaRrHNsAACgGVheDAAAAEFi6gIAAAAah0QXAAAAQSLRBQAAQJBIdAEAABCkE1UHgOnp9Xry3qvb7arVailNU8VxPPF6ZccHAEAoqvjua9L3LasuNMTW1pZWV1dVFIXyPFcURZqbm1On09HKysrE6pUdHwAAoajiuy/E71uWF2u4cd9kVna9suMDACAUVXz3hfp9y/JiDee9V1EUQ8uKopD3fiL1yo4PAIBQVPHd18TvWxLdBuh2u8rzfGhZnufKsmwi9cqODwCAUFTx3dfE71sS3QZotVqKomhoWRRFSpJkIvXKjg8AgFBU8d3XxO9b5ug2AHN0AQCoF+boloc5ug0Xx7E6nY7iOB78TS6KosH2uyd12fXKjg8AgFBU8d3XxO9bnug2SL/fl/deWZYpSRKlaTr0pC67XtnxAQAQiiq++0L7vmV5MQAAAASJqQsAAABoHBJdAAAABIlEFwAAAEEi0W2Q69ev64knntAjjzyiJ554QtevX686JAAAgIkh0W2Iy5cva2lpSV/4whe0v7+vL3zhC1paWtLly5erDg0AAGAiWHWhAa5fv66lpaUHlmdZprNnz04xIgAAgHKw6kLDXbp0aWT5xYsXpxMIAADAFJHoNsCNGzdGlt+8eXM6gQAAAEwRiW4DnDlzZmT54uLidAIBAACYIhLdBnj++edHll+7dm06gQAAAEwRiW4DnDt3Tmtra0PL1tbW+EU0AAAQJBLdhvjIRz6iLMv0xBNPaGFhQU888YSyLNNHPvKRqkMDAACYiBNVB4DpOXv2rH71V3+16jAAAACmgie6AAAACBKJLgAAAIJEogsAAIAgkegCAAAgSPwy2ph6vZ689+p2u2q1WkrTVHEcVx3WQN3jAwCgzvgeDZMzs6pjOJYLFy7Y9vb2VPra2trS6uqqiqJQnueKokhzc3PqdDpaWVmZSgyzHB8AAHXG9+hsc869aGYXhpaR6I7W6/V0+vRp9Xq9+8riONbe3p7m5+cnHseD1D0+AADqjO/R2Tcq0WWO7mvw3qsoiqFlRVHIez/liF6t7vEBAFBnfI+GjUT3NXS7XeV5PrQsz3NlWTbliF6t7vEBAFBnfI+GjUT3NbRaLUVRNLQsiiIlSTLliF6t7vEBAFBnfI+GjTm6r6Huc3fqHh8AAHXG9+jsY47uQ4jjWJ1OR3EcD/7GF0XRYHvVJ3/d4wMAoM74Hg0bT3TH1O/35b1XlmVKkkRpmtbq5K97fAAA1Bnfo7OL5cUAAAAQJKYuAAAAoHFIdAEAABAkEl0AAAAEiUQXAAAAQZp4ouuc+1bn3K87577snPs3zrm/NaTOJefcbefclw4+/+Wk45oVe3t7eu9736u3vvWteu9736u9vb1j1+v1enruuef04z/+43ruueeGrhl4lHoAAAB1NvFVF5xzTlJkZn3n3OslbUn6oJn92j11Lkm6YGZ/bdx2m7Dqwsc+9jE988wz921vt9t6//vff6R6W1tbWl1dVVEUyvNcURRpbm5OnU5HKysrg/9n3HoAAAB1UJvlxZxzb9CdRPevmtkX79l+SSS6r7K3t6fTp08/sPzWrVs6derUWPWiKBrrrS+8HQYAAMyaypcXc869zjn3JUnfkPS5e5Pce/xF59xXnHOfds69aRpx1dnGxsbI8vX19bHree9VFMXQ8qIo5L2XpLHrAQAAzIKpJLpm9odm9t2SHpX0Fufcdx2q8guSFs3sMUn/TNInhrXjnHufc27bObd9+/btyQZdsZ2dnZHlu7u7Y9frdrvK83xoeZ7nyrJMksauBwAAMAumuuqCmf2upF+R9P2Htv+Omf3+wR//vqTzD/j/nzWzC2Z24eTJkxONtWrLy8sjy5eWlsau12q1Bu/vPiyKIiVJIklj1wMAAJgF0/hltJOS/j8z+13n3LdJ+iVJP2lmv3hPnUfM7NbBz/+5pB83s+8Z1S5zdJmjCwAAUPUc3Uck/bJz7iuS/pXuzNH9Refch51zTx7U+cDB0mNflvQBSZemEFetLSwsqN1uDy1rt9s6derU2PXiOFan01Ecx4MntlEUDbbfTV7HrQcAADALprrqQplCf6J71/7+vtbX17W7u6ulpSVdvXp1kOQetV6/35f3XlmWKUkSpWk6NHkdtx4AAEDVarO8WJmakugCAADgwaqeugAAAABMHYkuAAAAgkSiCwAAgCCdqDoAlGNvb08bGxva2dnR8vKyrly5ooWFhVfVuX79ui5duqQbN27ozJkzev7553Xu3LljtSVJvV5P3nt1u121Wi2laao4jo89hrLbAzB7uA9MHvduNIqZzeTn/Pnzhjva7bZJuu/TbrcHddbW1obWWVtbO3JbZmabm5sWx7FFUWSSLIoii+PYNjc3jzWGstsDMHu4D0we926ESNK2PSBfZNWFGTfOCyNeeeWVwZvUhsmyTGfPnh37JRVlv1iCF1UA4D4wedy7ESpWXQjYxsbGyPL19XVdunRpZJ2LFy+O3ZYkee9VFMXQOkVRyHs/sp3Dym4PwOzhPjB53LvRRMzRnXE7Ozsjy3d3d3Xz5s2Rde6Wj9OWJHW7XeV5PrROnufKsmxkO4eV3R6A2cN9YPK4d6OJeKI745aXl0eWLy0t6cyZMyPrLC4ujt2WJLVarcErgg+LokhJkoxs57Cy2wMwe7gPTB73bjQRc3RnHHN0AYSA+8Dkce9GqJijG7CFhQW12+2hZe12W6dOndK5c+e0trY2tM7a2prOnj07dlvSnRtYp9NRHMeDv81HUTTYftQbW9ntAZg93Acmj3s3mognuoHY39/X+vq6dnd3tbS0pKtXrw4S07tefvllXbx4UTdv3tTi4qKuXbs2SHKP2pYk9ft9ee+VZZmSJFGapg91Yyu7PQCzh/vA5HHvRmhGPdEl0QUAAMDMYuoCAAAAGodEFwAAAEEi0QUAAECQSHQBAAAQJN6MFoheryfvvbrdrlqtltI0VRzHwfUJAEfBfao+9vb2tLGxoZ2dHS0vL+vKlStaWFiYeL+cA83GqgsB2Nra0urqqoqiUJ7niqJIc3Nz6nQ6WllZCaZPADgK7lP18bGPfUzPPPPMfdvb7bbe//73T6xfzoFmYHmxgFXxZhrehgOg7rhP1ce4b90sG+dAc7C8WMC89yqKYmhZURTy3gfRJwAcBfep+tjY2BhZvr6+PpF+OQcgkejOvG63qzzPh5blea4sy4LoEwCOgvtUfezs7Iws393dnUi/nAOQSHRnXqvVGrxj/LAoipQkSRB9AsBRcJ+qj+Xl5ZHlS0tLE+mXcwASc3RnHnN0AeB+3Kfqgzm6mDTm6AYsjmN1Oh3FcTz4m2sURYPtk7iIq+gTAI6C+1R9LCwsqN1uDy1rt9sTSXIlzgHcwRPdQPT7fXnvlWWZkiRRmqYTv4ir6BMAjoL7VH3s7+9rfX1du7u7Wlpa0tWrVyeW5N6LcyB8LC8GAACAIDF1AQAAAI1DogsAAIAgkegCAAAgSCS6AAAACNKJcSs6535U0nlJ/1zSD0v6383spycVWOh6vZ689+p2u2q1WkrTVHEc31dvb29PGxsb2tnZ0fLysq5cuaKFhYVjt1dmbABQtrLvP+O2V9V9r6rxVqFpxxY1YWZjfST9vCQnaevgzz8z7v87ic/58+dtVm1ublocxxZFkUmyKIosjmPb3Nx8Vb12u22S7vu02+1jtVdmbABQtrLvP+O2V9V9r6rxVqFpxxbTJWnbHpAvjr28mHPup83srzrn/jMz+wXn3EfN7INlJdxHNavLi437ppZx3yRT5ptfeIsMgKqUff8Zt72q7ntVjbcKTTu2mL6ylhf7qCSZ2S8c/PmFhw2sibz3KopiaFlRFPLeS5I2NjZGtrO+vn6k9sqMDQDKVvb9Z9z2qrrvVTXeKjTt2KJeXjPRdc79lHPOmdnOvdvN7F9MLqxwdbtd5Xk+tCzPc2VZJkna2dkZWueu3d3dI7VXZmwAULay7z/jtlfVfa+q8VahaccW9TLOE92+pM865yJJcs79eefcr042rHC1Wq3BO7cPi6JISZJIkpaXl0e2s7S0dKT2yowNAMpW9v1n3Paquu9VNd4qNO3Yol7GmqPrnPvLktYk/b6kXNLfNrPNCcc2EnN0maMLIBxNm8fJHN07Qjy2mL6HmqPrnHuHpP9KdxLck5I+UHWSO8viOFan01Ecx4O/aUZRNNh+96JbWFhQu90e2ka73dapU6eO1F6ZsQFA2cq+/4zbXlX3varGW4WmHVvUy2s+0XXOfV7S3zSzLefcn5H0DyRdNrPPTyPAB5nVJ7p39ft9ee+VZZmSJFGapkMvuv39fa2vr2t3d1dLS0u6evXqIMk9TntlxgYAZSv7/jNue1Xd96oabxWadmwxPaOe6I69vNg9jT0i6TNm9kQZwR3XrCe6AAAAeHhlLS8mSTKzW5Le8dBRAQAAABN05ERXkszs/yk7EAAAAKBMx0p0AQAAgLo7UXUAmJ6XXnpJ7373u7W/v69Tp07pU5/6lB5//PH76vV6PXnv1e121Wq1lKap4jiuIGIAoajqvlJ2v3Vvr8w+y64HVMLMZvJz/vx5w/ieeuopk3Tf56mnnnpVvc3NTYvj2KIoMkkWRZHFcWybm5sVRQ5g1lV1Xym737q3V2afZdcDJknStj0gXzzyqgt1waoL43vppZd0/vz5B5Z/+ctf1mOPPcbi2gBKxwsZptNemX3yQgbMmlJXXcDsefe73z2y/F3vepckyXuvoiiG1imKQt770mMDELaq7itl91v39srss+x6QJVIdBtgf39/rPJut6s8z4fWyfNcWZaVHhuAsFV1Xym737q3V2afZdcDqkSi2wDD3qQ2rLzVag1ek3hYFEVKkqT02ACErar7Stn91r29Mvssux5QJeboNgBzdAFUhTm602mvzD6Zo4tZwxzdhnv88cf11FNPDS176qmn9Nhjj0m6c2PqdDqK43jwt/QoigbbuWEBOKqq7itl91v39srss+x6QJV4otsgX/nKV/Sud71rsI7uCy+8MEhy79Xv9+W9V5ZlSpJEaZpywwLwUKq6r5Tdb93bK7PPsusBkzLqiS6JLgAAAGYWUxcAAADQOCS6AAAACBKJLgAAAIJEogsAAIAgnZh0B865b5X0LyV9y0F/nzaznzhU51skXZN0XtLvSErN7OakY5uEXq8n77263a5arZbSNFUcxxNv7/r167p06ZJu3LihM2fO6Pnnn9e5c+dqMQYA9THu9b23t6eNjQ3t7OxoeXlZV65c0cLCQm36repeW1W9so/HOKro8yj9VnUO1FkIYyidmU30I8lJmj/4+fWSvijpew7Veb+knzn4+T2S/Gu1e/78eaubzc1Ni+PYoigySRZFkcVxbJubmxNtb21tzSTd91lbW6t8DADqY9zru91uD72ntNvtWvRb1b22qnplH49xVNHnUfqt6hyosxDGcFyStu1BeeiDCibxkfQGSS9Jeuuh7f9U0vce/HxC0m/rYOmzB33qlui+8sorFsfx0As0jmPr9XoTaW93d3donbufLMsqGwOA+hj3+v76178+8p5y69atSvut6l5bVb2yj8c4qujzKP1WdQ7UWQhjeBijEt2pzNF1zr3OOfclSd+Q9Dkz++KhKqcl/ZYkmdkfSPo9SX98GrGVxXuvoiiGlhVFIe/9RNq7dOnSyHYuXrxYep8AZs+41/fGxsbIdtbX1yvtt6p7bVX1yj4e46iiz6P0W9U5UGchjGFSppLomtkfmtl3S3pU0lucc991qIob9r8d3uCce59zbts5t3379u1JhHps3W5XeZ4PLcvzXFmWTaS9GzdujGzn5s2bpfcJYPaMe33v7OyMbGd3d7fSfqu611ZVr+zjMY4q+jxKv1WdA3UWwhgmZaqrLpjZ70r6FUnff6joa5LeJEnOuROS/pikbw75/581swtmduHkyZMTjvZoWq3W4F3fh0VRpCRJJtLemTNnRrazuLhYep8AZs+41/fy8vLIdpaWlirtt6p7bVX1yj4e46iiz6P0W9U5UGchjGFiHjSnoayPpJOSvuPg52+TtCnpnYfqPKNX/zLaz79Wu8zRZY4ugPExR/fh4mOOLnN06yyEMTwMVfnLaJIek/SvJX1F0m9K+psH2z8s6cmDn79V0qckZZJ+XdKfeq1265bomrHqAoB6Y9WFh4uPVRdYdaHOQhjDcY1KdN2d8tlz4cIF297erjqM+/T7fXnvlWWZkiRRmqaan5+feHsvv/yyLl68qJs3b2pxcVHXrl3T2bNnazEGAPUx7vW9v7+v9fV17e7uamlpSVevXtWpU6dq029V99qq6pV9PMZRRZ9H6beqc6DOQhjDcTjnXjSzC0PLSHQBAAAwq0YlurwCGAAAAEEi0QUAAECQSHQBAAAQpBNVB4By9Ho9ee/V7XbVarWUpqniOK46LCAoTbrOxh3r3t6eNjY2tLOzo+XlZV25ckULCwsT77fsejg+9vFw7JeaeNByDHX/1HF5sao0eUkRYFqadJ3VfRmysuvh+NjHw7FfpkssLxauXq+n06dPq9fr3VcWx7H29vYasbQIMElNus7GHeve3p5Onz79wHZu3bp1pKWoxu237Ho4PvbxcOyX6WPVhYB571UUxdCyoijkvZ9yREB4mnSdjTvWjY2Nke2sr69PpN+y6+H42MfDsV/qhUR3xnW7XeV5PrQsz3NlWTbliIDwNOk6G3esOzs7I9vZ3d2dSL9l18PxsY+HY7/UC4nujGu1WoqiaGhZFEVKkmTKEQHhadJ1Nu5Yl5eXR7aztLQ0kX7LrofjYx8Px36pF+bozjjmAgGT16TrjDm6GBf7eDj2y/QxRzdgcRyr0+kojuPB3yCjKBps52ICHl6TrrNxx7qwsKB2uz20jXa7faQk9yj9ll0Px8c+Ho79Ui880Q1Ev9+X915ZlilJEqVpysUElKxJ19m4Y93f39f6+rp2d3e1tLSkq1evHjnJPU6/ZdfD8bGPh2O/TM+oJ7okugAAAJhZTF0AAABA45DoAgAAIEgkugAAAAgSiS4AAACCdKLqAAAA5ej1evLeq9vtqtVqKU1TxXF85DpVGje+suvt7e1pY2NDOzs7Wl5e1pUrV7SwsHDs9sY1br91FsIYpPpfG2Vq0lhlZjP5OX/+vAEA7tjc3LQ4ji2KIpNkURRZHMe2ubl5pDpVGje+suu1222TdN+n3W4fq71xjdtvnYUwBrP6XxtlCnGskrbtAfkiy4sBwIwb501MZlbrtzVV9Wa0cd/wVvbbrsp+s1wVQhiD1Kw3mYU6VpYXA4CAee9VFMXQsqIo5L0fq06Vxo2v7HobGxsj41pfXz9Se+Mat986C2EMUvnHts6aNNa7mKMLADOu2+0qz/OhZXmeK8syFUXxmnWqNM4YJlFvZ2dnZFy7u7tHam9c4/ZbZyGMQSr/2NZZk8Z6F090AWDGtVotRVE0tCyKIiVJMladKo0bX9n1lpeXR8a1tLR0pPbGNW6/dRbCGKTyj22dNWmsdzFHFwBmHHN0j1+PObrHF8IYpHDnrQ4T6liZowsAAYvjWJ1OR3EcD57WRFE02D4/Pz9WnSqNG1/Z9RYWFtRut4fG1G63B4la2ftv3H7rLIQxSOUf2zpr0ljv4okuAASi3+/Le68sy5QkidI0ve+La5w6VRo3vrLr7e/va319Xbu7u1paWtLVq1eHJmpl779x+62zEMYg1f/aKFNoYx31RJdEFwAAADOLqQsAAABoHBJdAAAABIlEFwAAAEEi0QUAAECQeDMaANTc3t6eNjY2tLOzo+XlZV25ckULCwvHaqvX68l7r263q1arpTRNFcfxses1Tdn75fr167p06ZJu3LihM2fO6Pnnn9e5c+dqEx8w88xsJj/nz583AAhdu902Sfd92u32kdva3AKdf2sAABEdSURBVNy0OI4tiiKTZFEUWRzHtrm5eax6TVP2fllbWxt6bNfW1moRHzArJG3bA/JFlhcDgJoq881TZb9RrGnK3i/Xr18f+YrcLMt09uzZyuIDZgnLiwHADNrY2BhZvr6+PnZb3nsVRTG0rCgKee+PVK9pyt4vly5dGll+8eLFI7XHcQOGI9EFgJra2dkZWb67uzt2W91uV3meDy3L81xZlh2pXtOUvV9u3LgxsvzmzZtHao/jBgxHogsANbW8vDyyfNQ/fR/WarUG77Y/LIoiJUlypHpNU/Z+OXPmzMjyxcXFI7XHcQOGY44uANQUc3Trgzm6QH0xRxcAZtDCwoLa7fbQsna7PXaSK91JdjqdjuI4Hjz5i6JosP1uEjRuvaYpe7+cO3dOa2trQ8vW1taOlOROIj4gFDzRBYCa29/f1/r6unZ3d7W0tKSrV68eKcm9V7/fl/deWZYpSRKlaTo0CRq3XtOUvV9efvllXbx4UTdv3tTi4qKuXbt25CR3kvEBs2DUE10SXQAAAMwspi4AAACgcUh0AQAAECQSXQAAAATpRNUBAEDVer2evPfqdrtqtVpK01RxHFcd1pHVeRx1jg0Ph2OLOp8D/DIagEbb2trS6uqqiqJQnueKokhzc3PqdDpaWVmpOryx1XkcdY4ND4djizqcA6y6AABDhLLIfp3HUefY8HA4tqjLOcCqCwAwhPdeRVEMLSuKQt77KUd0PHUeR51jw8Ph2GIWzgESXQCN1e12lef50LI8z5Vl2ZQjOp46j6POseHhcGwxC+cAiS6Axmq1WoPXpR4WRZGSJJlyRMdT53HUOTY8HI4tZuEcYI4ugMaqy/yyh1XncdQ5Njwcji3qcg4wRxcAhojjWJ1OR3EcD55KRFE02D4rX9J1HkedY8PD4dhiFs4BnugCaLx+vy/vvbIsU5IkStO0Fjfoo6rzOOocGx4OxxZVnwMsLwYAAIAgMXUBAAAAjUOiCwAAgCCR6AIAACBIJLoAAAAI0olJd+Cce5Oka5JOSSokPWtmHz1U5+2S/rGkGwebXjCzD086NgAPp9fryXuvbrerVqulNE0Vx3HVYQVn3P0cwvGo+xjGjW9vb08bGxva2dnR8vKyrly5ooWFhQoinj11PwcwY8xsoh9Jj0h6/ODnWNJ1Sf/xoTpvl/SLR2n3/PnzBqA6m5ubFsexRVFkkiyKIovj2DY3N6sOLSjj7ucQjkfdxzBufO122yTd92m32xVFPjvqfg6gniRt2wPyxakvL+ac+8eS/p6Zfe6ebW+X9N+a2TvHbYflxYDq1OVtOKEbdz+HcDzqPoZx49vb29Pp06cf2M6tW7d06tSpSYY6s+p+DqC+arO8mHNuUdKbJX1xSPH3Oue+7Jz7J865Pz3NuAAcjfdeRVEMLSuKQt77KUcUpnH3cwjHo+5jGDe+jY2Nke2sr6+XHlso6n4OYDZNfI7uXc65eUmfkfQhM3vlUPFLkv6kmfWdc6uS/jdJrSFtvE/S+yTpO7/zOyccMYAH6Xa7yvN8aFme58qybMoRhWnc/RzC8aj7GMaNb2dnZ2Q7u7u7pccWirqfA5hNU3mi65x7ve4kuZ80sxcOl5vZK2bWP/i5I+n1zrk3Dqn3rJldMLMLJ0+enHjcAIZrtVqD95ofFkWRkiSZckRhGnc/h3A86j6GceNbXl4e2c7S0lLpsYWi7ucAZtPE5+g655ykT0j6ppl96AF1Tkn692Zmzrm3SPq07jzhfWBwzNEFqsNcuulgju4ddRgDc3Qnr+7nAOqr6jm6b5P0I5K+zzn3pYPPqnPuR51zP3pQ5y9J+k3n3Jcl/V1J7xmV5AKoVhzH6nQ6iuN48AQmiqLBdr6MyjHufg7heNR9DOPGt7CwoHa7PbSNdrtNkjtC3c8BzKapr7pQFp7oAtXr9/vy3ivLMiVJojRN+TKagHH3cwjHo+5jGDe+/f19ra+va3d3V0tLS7p69SpJ7pjqfg6gfkY90SXRBQAAwMyqeuoCAAAAMHUkugAAAAgSiS4AAACCRKILAACAIE3tzWgAUJZeryfvvbrdrlqtltI0VRzHVYc1MG58dR8HAMw6Vl0AMFO2tra0urqqoiiU57miKNLc3Jw6nY5WVlaqDm/s+Oo+DgCYFSwvBiAIdX9zUpPeZAYAdcHyYgCC4L1XURRDy4qikPd+yhG92rjx1X0cABAKEl0AM6Pb7SrP86FleZ4ry7IpR/Rq48ZX93EAQChIdAHMjFarpSiKhpZFUaQkSaYc0auNG1/dxwEAoWCOLoCZUfe5rczRBYDpY44ugCDEcaxOp6M4jgdPRKMoGmyvOjkcN766jwMAQsETXQAzp9/vy3uvLMuUJInSNK1VcjhufHUfBwDMApYXAwAAQJCYugAAAIDGIdEFAABAkEh0AQAAEKQTVQeA0Xq9nrz36na7arVaStNUcRxXHRZQKa6L4eq8X+ocG4Bw8ctoNba1taXV1VUVRaE8zxVFkebm5tTpdLSyslJ1eEAluC6Gq/N+qXNsAGYfqy7MIBaUB+7HdTFcnfdLnWMDEAZWXZhB3nsVRTG0rCgKee+nHBFQPa6L4eq8X+ocG4DwkejWVLfbVZ7nQ8vyPFeWZVOOCKge18Vwdd4vdY4NQPhIdGuq1WoNXg16WBRFSpJkyhEB1eO6GK7O+6XOsQEIH3N0a4p5bcD9uC6Gq/N+qXNsAMLAHN0ZFMexOp2O4jgePA2JomiwnS8GNBHXxXB13i91jg1A+HiiW3P9fl/ee2VZpiRJlKYpXwxoPK6L4eq8X+ocG4DZxvJiAAAACBJTFwAAANA4JLoAAAAIEokuAAAAgkSiCwAAgCCdqDoAAEA5er2evPfqdrtqtVpK01RxHFcd1pGEMAYpnHEAs45VFwAgAFtbW1pdXVVRFMrzXFEUaW5uTp1ORysrK1WHN5YQxiCFMw5gVrC8GAAELIS3j4UwBimccQCzhOXFACBg3nsVRTG0rCgKee+nHNHRhTAGKZxxAKEg0QWAGdftdpXn+dCyPM+VZdmUIzq6EMYghTMOIBQkugAw41qtlqIoGloWRZGSJJlyREcXwhikcMYBhII5ugAw40KYFxrCGKRwxgHMEuboAkDA4jhWp9NRHMeDp4lRFA22z0JiFcIYpHDGAYSCJ7oAEIh+vy/vvbIsU5IkStN05hKrEMYghTMOYBawvBgAAACCxNQFAAAANA6JLgAAAIJEogsAAIAgkegCAAAgSCS6AAAACBKJLgAAAIJEogsAAIAgkegCAAAgSCS6AAAACBKJLgAAAIJEogsAAIAgkegCAAAgSCS6AAAACBKJLgAAAIJEogsAAIAgkegCAAAgSCS6AAAACNKJSXfgnHuTpGuSTkkqJD1rZh89VMdJ+qikVUn/t6RLZvbSpGMDAEnq9Xry3qvb7arVailNU8VxXHVYAICHNPFEV9IfSPrrZvaScy6W9KJz7nNm9m/vqfMDkloHn7dK+umD/wLARG1tbWl1dVVFUSjPc0VRpMuXL6vT6WhlZaXq8AAAD2HiUxfM7Nbdp7Nm1pP0VUmnD1X7IUnX7I5fk/QdzrlHJh0bgGbr9XpaXV1Vr9dTnueSpDzPB9v7/X7FEQIAHsZU5+g65xYlvVnSFw8VnZb0W/f8+Wu6PxkGgFJ571UUxdCyoijkvZ9yRACAMk0t0XXOzUv6jKQPmdkrh4uH/C82pI33Oee2nXPbt2/fnkSYABqk2+0OnuQelue5siybckQAgDJNJdF1zr1ed5LcT5rZC0OqfE3Sm+7586OS9g5XMrNnzeyCmV04efLkZIIF0BitVktRFA0ti6JISZJMOSIAQJkmnugerKjwcUlfNbOPPKDaZyVddHd8j6TfM7Nbk44NQLOlaaq5ueG3wbm5OaVpOuWIAABlmsaqC2+T9COSfsM596WDbX9D0ndKkpn9jKSO7iwtlunO8mJ/ZQpxAWi4OI7V6XTuW3Vhbm5OnU5H8/PzVYcIAHgIE090zWxLw+fg3lvHJD0z6VgA4LCVlRXt7e3Je68sy5QkidI0JckFgABM44kuANTa/Py8nn766arDAACUjFcAAwAAIEgkugAAAAgSiS4AAACCRKILAACAIJHoAgAAIEgkugAAAAgSiS4AAACCRKILAACAIJHoAgAAIEgkugAAAAgSiS4AAACCRKILAACAIDkzqzqGY3HO3Zb07yro+o2SfruCfnE/jkV9cCzqheNRHxyL+uBY1EfZx+JPmtnJYQUzm+hWxTm3bWYXqo4DHIs64VjUC8ejPjgW9cGxqI9pHgumLgAAACBIJLoAAAAIEonu0T1bdQAY4FjUB8eiXjge9cGxqA+ORX1M7VgwRxcAAABB4okuAAAAgkSiOybn3P/snPuGc+43q46l6Zxzb3LO/bJz7qvOuX/jnPtg1TE1lXPuW51zv+6c+/LBsfhbVcfUdM651znn/rVz7herjqXJnHM3nXO/4Zz7knNuu+p4ms459x3OuU8753YOvju+t+qYmsg5t3RwTdz9vOKc+9BE+2Tqwnicc39WUl/SNTP7rqrjaTLn3COSHjGzl5xzsaQXJf0FM/u3FYfWOM45Jykys75z7vWStiR90Mx+reLQGss5d1nSBUnfbmbvrDqepnLO3ZR0wcxYt7UGnHOfkLRpZs855/4DSW8ws9+tOq4mc869TtLXJb3VzCb2XgSe6I7JzP6lpG9WHQckM7tlZi8d/NyT9FVJp6uNqpnsjv7BH19/8OFvzxVxzj0q6QclPVd1LEBdOOe+XdKflfRxSTKz/5cktxbeIenlSSa5EokuZpxzblHSmyV9sdpImuvgn8q/JOkbkj5nZhyL6vyUpB+TVFQdCGSSfsk596Jz7n1VB9Nwf0rSbUn/y8G0nuecc1HVQUHvkfQPJ90JiS5mlnNuXtJnJH3IzF6pOp6mMrM/NLPvlvSopLc455jaUwHn3DslfcPMXqw6FkiS3mZmj0v6AUnPHEx/QzVOSHpc0k+b2Zsl5ZLWqw2p2Q6mjzwp6VOT7otEFzPpYD7oZyR90sxeqDoeSAf/FPgrkr6/4lCa6m2SnjyYG/pzkr7POfez1YbUXGa2d/Dfb0j6R5LeUm1EjfY1SV+751+bPq07iS+q8wOSXjKzfz/pjkh0MXMOfgHq45K+amYfqTqeJnPOnXTOfcfBz98m6T+RtFNtVM1kZhtm9qiZLerOPwl+3sx+uOKwGsk5Fx38oqwO/on8z0tixZ6KmNm+pN9yzi0dbHqHJH55uVr/haYwbUG68zgfY3DO/UNJb5f0Rufc1yT9hJl9vNqoGuttkn5E0m8czA2VpL9hZp0KY2qqRyR94uC3Z+ck/byZsawVmu4/kvSP7vydXCck/a9m9n9UG1Lj/TeSPnnwT+b/p6S/UnE8jeWce4OkPyfpv55KfywvBgAAgBAxdQEAAABBItEFAABAkEh0AQAAECQSXQAAAASJRBcAAABBItEFAABAkEh0AQAAECQSXQCYIc65X3bO/bmDn/+2c+7vVh0TANQVb0YDgNnyE5I+7Jz7E5LeLOnJiuMBgNrizWgAMGOcc/9C0rykt5tZzzn3FyT9oKQ/IaltZr9UaYAAUBMkugAwQ5xzf0bSZyT9tpk9cajsP5T0P5nZ05UEBwA1wxxdAJgRzrlHJH1S0g9Jyp1z/+mhKv+dpPbUAwOAmiLRBYAZ4Jx7g6QXJP11M/uqpP9B0n9/UOaccz8p6Z+Y2UvVRQkA9cLUBQCYcc65D0h6r6R/JelLZvYzFYcEALVAogsAAIAgMXUBAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQSLRBQAAQJBIdAEAABAkEl0AAAAEiUQXAAAAQfr/AbbA6S/W7no+AAAAAElFTkSuQmCC\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" }, { "data": { "text/plain": [ "" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "widgets.interact(interactive_unlabeled_data, arg1=dropdown_arg1, arg2=dropdown_arg2)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Powyższy wykres przedstawia surowe dane.\n", "Ponieważ nasze obserwacje mają 4 współrzędne, na płaskim wykresie możemy przedstawić tylko dwie z nich.\n", "\n", "Dlatego powyższy wykres umożliwia wybór dwóch współrzędnych, na które chcemy rzutować.\n", "\n", "Wszystkie takie „rzuty” przedstawia również wykres poniżej." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/pawel/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py:2065: UserWarning: The `size` parameter has been renamed to `height`; pleaes update your code.\n", " warnings.warn(msg, UserWarning)\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "seaborn.pairplot(data_iris, vars=data_iris.columns, size=1.5, aspect=1.75)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Odległość euklidesowa\n", "def euclidean_distance(x1, x2):\n", " return np.linalg.norm(x1 - x2)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Algorytm k średnich\n", "def k_means(X, k, distance=euclidean_distance):\n", " history = []\n", " Y = []\n", " \n", " # Wylosuj centroid dla każdej klasy\n", " centroids = [[random.uniform(X.min(axis=0)[f], X.max(axis=0)[f])\n", " for f in range(X.shape[1])]\n", " for c in range(k)]\n", "\n", " # Powtarzaj, dopóki klasy się zmieniają\n", " while True:\n", " distances = [[distance(centroids[c], x) for c in range(k)] for x in X]\n", " Y_new = [d.index(min(d)) for d in distances]\n", " if Y_new == Y:\n", " break\n", " Y = Y_new\n", " XY = np.asarray(np.concatenate((X, np.matrix(Y).T), axis=1))\n", " Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n", " centroids = [[Xc[c].mean(axis=0)[f] for f in range(X.shape[1])]\n", " for c in range(k)]\n", " history.append((centroids, Y))\n", "\n", " result = history[-1][1]\n", " return result, history" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Wykres danych - klastrowanie\n", "def plot_clusters(X, Y, k, centroids=None):\n", " color = ['r', 'g', 'b', 'c', 'm', 'y', 'k']\n", " fig = plt.figure(figsize=(16*.7, 9*.7))\n", " ax = fig.add_subplot(111)\n", " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n", "\n", " X1 = X[:, 0].tolist()\n", " X2 = X[:, 1].tolist()\n", " X1 = [[x for x, y in zip(X1, Y) if y == c] for c in range(k)]\n", " X2 = [[x for x, y in zip(X2, Y) if y == c] for c in range(k)]\n", "\n", " for c in range(k):\n", " ax.scatter(X1[c], X2[c], c=color[c], marker='o', s=25, label='Dane')\n", " if centroids:\n", " ax.scatter([centroids[c][0]], [centroids[c][1]], c=color[c], marker='+', s=500, label='Centroid')\n", "\n", " ax.set_xlabel(r'$x_1$')\n", " ax.set_ylabel(r'$x_2$')\n", " ax.margins(.05, .05)\n", " return fig" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "Ys, history = k_means(Xs, 2)\n", "fig = plot_clusters(Xs, Ys, 2, centroids=history[-1][0])," ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "# Przygotowanie interaktywnego wykresu\n", "\n", "slider_k = widgets.IntSlider(min=1, max=7, step=1, value=2, description=r'$k$', width=300)\n", "\n", "def interactive_kmeans_k(steps, history, k):\n", " if steps >= len(history) or steps == 10:\n", " steps = len(history) - 1\n", " fig = plot_clusters(Xs, history[steps][1], k, centroids=history[steps][0])\n", " \n", "def interactive_kmeans(k):\n", " slider_steps = widgets.IntSlider(min=1, max=10, step=1, value=1, description=r'steps', width=300)\n", " _, history = k_means(Xs, k)\n", " widgets.interact(interactive_kmeans_k, steps=slider_steps,\n", " history=widgets.fixed(history), k=widgets.fixed(k))" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "application/vnd.jupyter.widget-view+json": { "model_id": "d848eb486dd04d669b73755d43a99fb1", "version_major": 2, "version_minor": 0 }, "text/plain": [ "interactive(children=(IntSlider(value=2, description='$k$', max=7, min=1), Button(description='Run Interact', …" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "widgets.interact_manual(interactive_kmeans, k=slider_k) " ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm $k$ średnich – dane wejściowe\n", "\n", "* $k$ – liczba klastrów\n", "* zbiór uczący $X = \\{ x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\}$, $x^{(i)} \\in \\mathbb{R}^n$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "Na wejściu nie ma zbioru $Y$, ponieważ jest to uczenie nienadzorowane!" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm $k$ średnich – pseudokod\n", "\n", "1. Zainicjalizuj losowo $k$ centroidów (środków ciężkości klastrów): $\\mu_1, \\ldots, \\mu_k$.\n", "1. Powtarzaj dopóki przyporządkowania klastrów się zmieniają:\n", " 1. Dla $i = 1$ do $m$:\n", " za $y^{(i)}$ przyjmij klasę najbliższego centroidu.\n", " 1. Dla $c = 1$ do $k$:\n", " za $\\mu_c$ przyjmij średnią wszystkich punktów $x^{(i)}$ takich, że $y^{(i)} = c$." ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [], "source": [ "# Algorytm k średnich\n", "def k_means(X, k, distance=euclidean_distance):\n", " Y = []\n", " centroids = [[random.uniform(X.min(axis=0)[f],X.max(axis=0)[f])\n", " for f in range(X.shape[1])]\n", " for c in range(k)] # Wylosuj centroidy\n", " while True:\n", " distances = [[distance(centroids[c], x) for c in range(k)]\n", " for x in X] # Oblicz odległości\n", " Y_new = [d.index(min(d)) for d in distances]\n", " if Y_new == Y:\n", " break # Jeśli nic się nie zmienia, przerwij\n", " Y = Y_new\n", " XY = np.asarray(np.concatenate((X,np.matrix(Y).T),axis=1))\n", " Xc = [XY[XY[:, 2] == c][:, :-1] for c in range(k)]\n", " centroids = [[Xc[c].mean(axis=0)[f]\n", " for f in range(X.shape[1])]\n", " for c in range(k)] # Przesuń centroidy\n", " return Y" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* Liczba klastrów jest określona z góry i wynosi $k$." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Jeżeli w którymś kroku algorytmu jedna z klas nie zostanie przyporządkowana żadnemu z przykładów, pomija się ją – w ten sposób wynikiem działania algorytmu może być mniej niż $k$ klastrów." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Funkcja kosztu dla problemu klastrowania\n", "\n", "$$ J \\left( y^{(i)}, \\ldots, y^{(m)}, \\mu_{1}, \\ldots, \\mu_{k} \\right) = \\frac{1}{m} \\sum_{i=1}^{m} || x^{(i)} - \\mu_{y^{(i)}} || ^2 $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Zauważmy, że z każdym krokiem algorytmu $k$ średnich koszt się zmniejsza (lub ewentualnie pozostaje taki sam)." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Wielokrotna inicjalizacja\n", "\n", "* Algorytm $k$ średnich zawsze znajdzie lokalne minimum funkcji kosztu $J$, ale nie zawsze będzie to globalne minimum." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Aby temu zaradzić, można uruchomić algorytm $k$ średnich wiele razy, za każdym razem z innym losowym położeniem centroidów (tzw. **wielokrotna losowa inicjalizacja** – _multiple random initialization_).\n", "* Za każdym razem obliczamy koszt $J$. Wybieramy ten wynik, który ma najniższy koszt." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Wybór liczby klastrów $k$\n", "\n", "Ile powinna wynosić liczba grup $k$?\n", "* Najlepiej wybrać $k$ ręcznie w zależności od kształtu danych i celu, który chcemy osiągnąć." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 8.2. Analiza głównych składowych" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Analiza głównych składowych to inny przykład zagadnienia z dziedziny uczenia nienadzorowanego.\n", "\n", "Polega na próbie zredukowania liczby wymiarów dla danych wielowymiarowych, czyli zmniejszenia liczby cech, gdy rozpatrujemy przykłady o dużej liczbie cech." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Redukcja liczby wymiarów\n", "\n", "Z jakich powodów chcemy redukować liczbę wymiarów?" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy pozbyć się nadmiarowych cech, np. „długość w cm” / „długość w calach”, „długość” i „szerokość” / „powierzchnia”." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy znaleźć bardziej optymalną kombinację cech." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy przyspieszyć działanie algorytmów." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Chcemy zwizualizować dane." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Błąd rzutowania\n", "\n", "**Błąd rzutowania** – błąd średniokwadratowy pomiędzy danymi oryginalnymi a danymi zrzutowanymi." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Sformułowanie problemu\n", "\n", "**Analiza głównych składowych** (_Principal Component Analysis_, PCA):\n", "\n", "Zredukować liczbę wymiarów z $n$ do $k$, czyli znaleźć $k$ wektorów $u^{(1)}, u^{(2)}, \\ldots, u^{(k)}$ takich, że rzutowanie danych na podprzeztrzeń rozpiętą na tych wektorach minimalizuje błąd rzutowania." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* **Uwaga:** analiza głównych składowych to (mimo pozornych podobieństw) zupełnie inne zagadnienie niż regresja liniowa!" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Algorytm PCA\n", "\n", "1. Dany jest zbiór składający się z $x^{(1)}, x^{(2)}, \\ldots, x^{(m)} \\in \\mathbb{R}^n$.\n", "1. Chcemy zredukować liczbę wymiarów z $n$ do $k$ ($k < n$).\n", "1. W ramach wstępnego przetwarzania dokonujemy skalowania i normalizacji średniej.\n", "1. Znajdujemy macierz kowariancji:\n", " $$ \\Sigma = \\frac{1}{m} \\sum_{i=1}^{n} \\left( x^{(i)} \\right) \\left( x^{(i)} \\right)^T $$\n", "1. Znajdujemy wektory własne macierzy $\\Sigma$ (rozkład SVD):\n", " $$ (U, S, V) := \\mathop{\\rm SVD}(\\Sigma) $$\n", "1. Pierwszych $k$ kolumn macierzy $U$ to szukane wektory." ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [], "source": [ "from sklearn.preprocessing import StandardScaler\n", "\n", "# Algorytm PCA - implementacja\n", "def pca(X, k):\n", " X_std = StandardScaler().fit_transform(X) # normalizacja\n", " mean_vec = np.mean(X_std, axis=0)\n", " cov_mat = np.cov(X_std.T) # macierz kowariancji\n", " n = cov_mat.shape[0]\n", " eig_vals, eig_vecs = np.linalg.eig(cov_mat) # wektory własne\n", " eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:, i])\n", " for i in range(len(eig_vals))]\n", " eig_pairs.sort()\n", " eig_pairs.reverse()\n", " matrix_w = np.hstack([eig_pairs[i][1].reshape(n, 1)\n", " for i in range(k)]) # wybór\n", " return X_std.dot(matrix_w) # transformacja" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# X - dane ze zbioru \"iris\" z poprzedniego przykładu\n", "\n", "X_pca = pca(X, 2)\n", "fig = plot_unlabeled_data(X_pca)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "notes" } }, "source": [ "Analiza głównych składowych umożliwiła stowrzenie powyższego wykresu, który wizualizuje 4-wymiarowe dane ze zbioru *iris* na 2-wymiarowej płaszczyźnie.\n", "\n", "Współrzędne $x_1$ i $x_2$, stanowiące osi wykresu, zostały uzyskane w wyniku działania algorytmu PCA (nie są to żadne z oryginalnych cech ze zbioru *iris* – długość płatka, szerokość płatka itp.)." ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.3" }, "livereveal": { "start_slideshow_at": "selected", "theme": "amu" } }, "nbformat": 4, "nbformat_minor": 4 }