Wykłąd 7. Metody optymalizacji

2022-11-28 11:52:13 +01:00 · 2022-11-28 11:52:13 +01:00 · 123d155ff6
commit 123d155ff6
parent eacef8109a
4 changed files with 599 additions and 64 deletions
--- a/wyk/06_Problem_nadmiernego_dopasowania.ipynb
+++ b/wyk/06_Problem_nadmiernego_dopasowania.ipynb
--- a/wyk/07_Metody_optymalizacji.ipynb
+++ b/wyk/07_Metody_optymalizacji.ipynb
@ -0,0 +1,535 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "### Uczenie maszynowe\n",
+    "# 7. Metody optymalizacji"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "## 7.1. Warianty metody gradientu prostego\n",
+    "\n",
+    "* Batch gradient descent\n",
+    "* Stochastic gradient descent\n",
+    "* Mini-batch gradient descent"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### _Batch gradient descent_\n",
+    "\n",
+    "* Klasyczna wersja metody gradientu prostego\n",
+    "* Obliczamy gradient funkcji kosztu względem całego zbioru treningowego:\n",
+    "  $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta J(\\theta) $$\n",
+    "* Dlatego może działać bardzo powoli\n",
+    "* Nie można dodawać nowych przykładów na bieżąco w trakcie trenowania modelu (*online learning*)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### *Stochastic gradient descent* (SGD)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    "#### Algorytm\n",
+    "\n",
+    "Powtórz określoną liczbę razy (liczba epok):\n",
+    "  1. Randomizuj dane treningowe\n",
+    "  1. Powtórz dla każdego przykładu $i = 1, 2, \\ldots, m$:\n",
+    "    $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta \\, J \\! \\left( \\theta, x^{(i)}, y^{(i)} \\right) $$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "notes"
+    }
+   },
+   "source": [
+    "**Randomizacja danych** to losowe potasowanie przykładów uczących (wraz z odpowiedziami)."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "#### SGD - zalety\n",
+    "\n",
+    "* Dużo szybszy niż _batch gradient descent_\n",
+    "* Można dodawać nowe przykłady na bieżąco w trakcie trenowania (*online learning*)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "#### SGD\n",
+    "\n",
+    "* Częsta aktualizacja parametrów z dużą wariancją:\n",
+    "\n",
+    "<img src=\"http://ruder.io/content/images/2016/09/sgd_fluctuation.png\" style=\"margin: auto;\" width=\"50%\" />\n",
+    "\n",
+    "* Z jednej strony dzięki temu nie utyka w złych minimach lokalnych, ale z drugiej strony może „wyskoczyć” z dobrego minimum"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### _Mini-batch gradient descent_"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    "#### Algorytm\n",
+    "\n",
+    "1. Ustal rozmiar \"paczki/wsadu\" (*batch*) $b \\leq m$.\n",
+    "2. Powtórz określoną liczbę razy (liczba epok):\n",
+    "  1. Powtórz dla każdego batcha (czyli dla $i = 1, 1 + b, 1 + 2 b, \\ldots$):\n",
+    "  $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta \\, J \\left( \\theta, x^{(i : i+b)}, y^{(i : i+b)} \\right) $$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "#### _Mini-batch gradient descent_\n",
+    "\n",
+    "* Kompromis między _batch gradient descent_ i SGD\n",
+    "* Stabilniejsza zbieżność dzięki redukcji wariancji aktualizacji parametrów\n",
+    "* Szybszy niż klasyczny _batch gradient descent_\n",
+    "* Typowa wielkość batcha: między kilka a kilkaset przykładów\n",
+    "  * Im większy batch, tym bliżej do BGD; im mniejszy batch, tym bliżej do SGD\n",
+    "  * BGD i SGD można traktować jako odmiany MBGD dla $b = m$ i $b = 1$"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "slideshow": {
+     "slide_type": "skip"
+    }
+   },
+   "outputs": [],
+   "source": [
+    "# Mini-batch gradient descent - przykładowa implementacja\n",
+    "\n",
+    "def MiniBatchSGD(h, fJ, fdJ, theta, X, y, \n",
+    "        alpha=0.001, maxEpochs=1.0, batchSize=100, \n",
+    "        logError=True):\n",
+    "    errorsX, errorsY = [], []\n",
+    "    \n",
+    "    m, n = X.shape\n",
+    "    start, end = 0, batchSize\n",
+    "    \n",
+    "    maxSteps = (m * float(maxEpochs)) / batchSize\n",
+    "    for i in range(int(maxSteps)):\n",
+    "        XBatch, yBatch =  X[start:end,:], y[start:end,:]\n",
+    "\n",
+    "        theta = theta - alpha * fdJ(h, theta, XBatch, yBatch)\n",
+    "        \n",
+    "        if logError:\n",
+    "            errorsX.append(float(i*batchSize)/m)\n",
+    "            errorsY.append(fJ(h, theta, XBatch, yBatch).item())\n",
+    "        \n",
+    "        if start + batchSize < m:\n",
+    "            start += batchSize\n",
+    "        else:\n",
+    "            start = 0\n",
+    "        end = min(start + batchSize, m)\n",
+    "        \n",
+    "    return theta, (errorsX, errorsY)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Wady klasycznej metody gradientu prostego, czyli dlaczego potrzebujemy optymalizacji\n",
+    "\n",
+    "* Trudno dobrać właściwą szybkość uczenia (*learning rate*)\n",
+    "* Jedna ustalona wartość stałej uczenia się dla wszystkich parametrów\n",
+    "* Funkcja kosztu dla sieci neuronowych nie jest wypukła, więc uczenie może utknąć w złym minimum lokalnym lub punkcie siodłowym"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "## 7.2. Algorytmy optymalizacji metody gradientu\n",
+    "\n",
+    "* Momentum\n",
+    "* Nesterov Accelerated Gradient\n",
+    "* Adagrad\n",
+    "* Adadelta\n",
+    "* RMSprop\n",
+    "* Adam\n",
+    "* Nadam\n",
+    "* AMSGrad"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Momentum\n",
+    "\n",
+    "* SGD źle radzi sobie w „wąwozach” funkcji kosztu\n",
+    "* Momentum rozwiązuje ten problem przez dodanie współczynnika $\\gamma$, który można trakować jako „pęd” spadającej piłki:\n",
+    "  $$ v_t := \\gamma \\, v_{t-1} + \\alpha \\, \\nabla_\\theta J(\\theta) $$\n",
+    "  $$ \\theta := \\theta - v_t $$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Przyspieszony gradient Nesterova (*Nesterov Accelerated Gradient*, NAG)\n",
+    "\n",
+    "* Momentum czasami powoduje niekontrolowane rozpędzanie się piłki, przez co staje się „mniej sterowna”\n",
+    "* Nesterov do piłki posiadającej pęd dodaje „hamulec”, który spowalnia piłkę przed wzniesieniem:\n",
+    "  $$ v_t := \\gamma \\, v_{t-1} + \\alpha \\, \\nabla_\\theta J(\\theta - \\gamma \\, v_{t-1}) $$\n",
+    "  $$ \\theta := \\theta - v_t $$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Adagrad\n",
+    "\n",
+    "* “<b>Ada</b>ptive <b>grad</b>ient”\n",
+    "* Adagrad dostosowuje współczynnik uczenia (*learning rate*) do parametrów: zmniejsza go dla cech występujących częściej, a zwiększa dla występujących rzadziej:\n",
+    "* Świetny do trenowania na rzadkich (*sparse*) zbiorach danych\n",
+    "* Wada: współczynnik uczenia może czasami gwałtownie maleć\n",
+    "* Wyniki badań pokazują, że często **starannie** dobrane $\\alpha$ daje lepsze wyniki na zbiorze testowym"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Adadelta i RMSprop\n",
+    "* Warianty algorytmu Adagrad, które radzą sobie z problemem gwałtownych zmian współczynnika uczenia"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Adam\n",
+    "\n",
+    "* “<b>Ada</b>ptive <b>m</b>oment estimation”\n",
+    "* Łączy zalety algorytmów RMSprop i Momentum\n",
+    "* Można go porównać do piłki mającej ciężar i opór\n",
+    "* Obecnie jeden z najpopularniejszych algorytmów optymalizacji"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### Nadam\n",
+    "* “<b>N</b>esterov-accelerated <b>ada</b>ptive <b>m</b>oment estimation”\n",
+    "* Łączy zalety algorytmów Adam i Nesterov Accelerated Gradient"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "### AMSGrad\n",
+    "* Wariant algorytmu Adam lepiej dostosowany do zadań takich jak rozpoznawanie obiektów czy tłumaczenie maszynowe"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "<img src=\"contours_evaluation_optimizers.gif\" style=\"margin: auto;\" width=\"60%\" />"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "<img src=\"saddle_point_evaluation_optimizers.gif\" style=\"margin: auto;\" width=\"60%\" />"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "## 7.3. Metody zbiorcze"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    " * **Metody zbiorcze** (*ensemble methods*) używają połączonych sił wielu modeli uczenia maszynowego w celu uzyskania lepszej skuteczności niż mogłaby być osiągnięta przez każdy z tych modeli z osobna."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    " * Na metodę zbiorczą składa się:\n",
+    "   * dobór modeli\n",
+    "   * sposób agregacji wyników"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    " * Warto zastosować randomizację, czyli przetasować zbiór uczący przed trenowaniem każdego modelu."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "### Uśrednianie prawdopodobieństw"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    "#### Przykład\n",
+    "\n",
+    "Mamy 3 modele, które dla klas $c=1, 2, 3, 4, 5$ zwróciły prawdopodobieństwa:\n",
+    "\n",
+    "* $M_1$: [0.10, 0.40, **0.50**, 0.00, 0.00]\n",
+    "* $M_2$: [0.10, **0.60**, 0.20, 0.00, 0.10]\n",
+    "* $M_3$: [0.10, 0.30, **0.40**, 0.00, 0.20]\n",
+    "\n",
+    "Która klasa zostanie wybrana według średnich prawdopodobieństw dla każdej klasy?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "Średnie prawdopodobieństwo: [0.10, **0.43**, 0.36, 0.00, 0.10]\n",
+    "\n",
+    "Została wybrana klasa $c = 2$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "### Głosowanie klas"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "fragment"
+    }
+   },
+   "source": [
+    "#### Przykład\n",
+    "\n",
+    "Mamy 3 modele, które dla klas $c=1, 2, 3, 4, 5$ zwróciły prawdopodobieństwa:\n",
+    "\n",
+    "* $M_1$: [0.10, 0.40, **0.50**, 0.00, 0.00]\n",
+    "* $M_2$: [0.10, **0.60**, 0.20, 0.00, 0.10]\n",
+    "* $M_3$: [0.10, 0.30, **0.40**, 0.00, 0.20]\n",
+    "\n",
+    "Która klasa zostanie wybrana według głosowania?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "subslide"
+    }
+   },
+   "source": [
+    "Liczba głosów: [0, 1, **2**, 0, 0]\n",
+    "\n",
+    "Została wybrana klasa $c = 3$"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "slideshow": {
+     "slide_type": "slide"
+    }
+   },
+   "source": [
+    "### Inne metody zbiorcze\n",
+    "\n",
+    " * Bagging\n",
+    " * Boostng\n",
+    " * Stacking\n",
+    " \n",
+    "https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205"
+   ]
+  }
+ ],
+ "metadata": {
+  "celltoolbar": "Slideshow",
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.6"
+  },
+  "livereveal": {
+   "start_slideshow_at": "selected",
+   "theme": "white"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
--- a/wyk/contours_evaluation_optimizers.gif
+++ b/wyk/contours_evaluation_optimizers.gif
--- a/wyk/saddle_point_evaluation_optimizers.gif
+++ b/wyk/saddle_point_evaluation_optimizers.gif