{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## Uczenie maszynowe – zastosowania\n", "# 11. Wielowarstwowe sieci neuronowe w praktyce" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 11.1. Funkcje aktywacji" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* Każda funkcja aktywacji ma swoje zalety i wady.\n", "* Różne rodzaje funkcji aktywacji nadają się do różnych zastosowań." ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "%matplotlib inline\n", "\n", "import math\n", "import matplotlib.pyplot as plt\n", "import numpy as np\n", "import random\n", "\n", "from IPython.display import YouTubeVideo" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "slideshow": { "slide_type": "notes" } }, "outputs": [], "source": [ "def plot(fun):\n", " x = np.arange(-3.0, 3.0, 0.01)\n", " y = [fun(x_i) for x_i in x]\n", " fig = plt.figure(figsize=(14, 7))\n", " ax = fig.add_subplot(111)\n", " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n", " ax.set_xlim(-3.0, 3.0)\n", " ax.set_ylim(-1.5, 1.5)\n", " ax.grid()\n", " ax.plot(x, y)\n", " plt.show()" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Funkcja logistyczna" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "$$ g(x) = \\frac{1}{1 + e^{-x}} $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Przyjmuje wartości z przedziału $(0, 1)$." ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Wykres funkcji logistycznej\n", "plot(lambda x: 1 / (1 + math.exp(-x)))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Tangens hiperboliczny" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "$$ g(x) = \\tanh x = \\frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Przyjmuje wartości z przedziału $(-1, 1)$.\n", "* Powstaje z funkcji logistycznej przez przeskalowanie i przesunięcie." ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Wykres funkcji tangensa hiperbolicznego\n", "plot(lambda x: math.tanh(x))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### ReLU (*Rectifier Linear Unit*)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "$$ g(x) = \\max(0, x) $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "#### ReLU – zalety\n", "* Mniej podatna na problem zanikającego gradientu (*vanishing gradient*) niż funkcje sigmoidalne, dzięki czemu SGD jest szybciej zbieżna.\n", "* Prostsze obliczanie gradientu.\n", "* Dzięki zerowaniu ujemnych wartości, wygasza neurony, „rozrzedzając” sieć (*sparsity*), co przyspiesza obliczenia." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "#### ReLU – wady\n", "* Dla dużych wartości gradient może „eksplodować”.\n", "* „Wygaszanie” neuronów." ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Wykres fukncji ReLU\n", "plot(lambda x: max(0, x))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Softplus" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "$$ g(x) = \\log(1 + e^{x}) $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Wygładzona wersja ReLU." ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "slideshow": { "slide_type": "subslide" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# Wykres funkcji softplus\n", "plot(lambda x: math.log(1 + math.exp(x)))" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "### Problem zanikającego gradientu (*vanishing gradient problem*)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "fragment" } }, "source": [ "* Sigmoidalne funkcje aktywacji ograniczają wartości na wyjściach neuronów do niewielkich przedziałów ($(-1, 1)$, $(0, 1)$ itp.).\n", "* Jeżeli sieć ma wiele warstw, to podczas propagacji wstecznej mnożymy przez siebie wiele małych wartości → obliczony gradient jest mały.\n", "* Im więcej warstw, tym silniejszy efekt zanikania." ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "#### Sposoby na zanikający gradient\n", "\n", "* Modyfikacja algorytmu optymalizacji (*RProp*, *RMSProp*)\n", "* Użycie innej funckji aktywacji (ReLU, softplus)\n", "* Dodanie warstw *dropout*\n", "* Nowe architektury (LSTM itp.)\n", "* Więcej danych, zwiększenie mocy obliczeniowej" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 11.2. Odmiany metody gradientu prostego\n", "\n", "* Batch gradient descent\n", "* Stochastic gradient descent\n", "* Mini-batch gradient descent" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### *Batch gradient descent*\n", "\n", "* Klasyczna wersja metody gradientu prostego\n", "* Obliczamy gradient funkcji kosztu względem całego zbioru treningowego:\n", " $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta J(\\theta) $$\n", "* Dlatego może działać bardzo powoli\n", "* Nie można dodawać nowych przykładów na bieżąco w trakcie trenowania modelu (*online learning*)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### *Stochastic gradient descent* (SGD)\n", "\n", "* Aktualizacja parametrów dla każdego przykładu:\n", " $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta \\, J \\! \\left( \\theta, x^{(i)}, y^{(i)} \\right) $$\n", "* Dużo szybszy niż _batch gradient descent_\n", "* Można dodawać nowe przykłady na bieżąco w trakcie trenowania (*online learning*)" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* Częsta aktualizacja parametrów z dużą wariancją:\n", "\n", "" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "* Z jednej strony dzięki temu uczenie nie \"utyka\" w złych minimach lokalnych, ale z drugiej strony może „wyskoczyć” z dobrego minimum" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### _Mini-batch gradient descent_\n", "\n", "* Kompromis między _batch gradient descent_ i SGD\n", " $$ \\theta := \\theta - \\alpha \\cdot \\nabla_\\theta \\, J \\left( \\theta, x^{(i : i+n)}, y^{(i : i_n)} \\right) $$\n", "* Stabilniejsza zbieżność dzięki redukcji wariancji aktualizacji parametrów\n", "* Szybszy niż klasyczny _batch gradient descent_\n", "* Typowa wielkość batcha: między 50 a 256 przykładów" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Wady klasycznej metody gradientu prostego, czyli dlaczego potrzebujemy optymalizacji\n", "\n", "* Trudno dobrać właściwą szybkość uczenia (*learning rate*)\n", "* Jedna ustalona wartość stałej uczenia się dla wszystkich parametrów\n", "* Funkcja kosztu dla sieci neuronowych nie jest wypukła, więc uczenie może utknąć w złym minimum lokalnym lub punkcie siodłowym" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "## 11.3. Algorytmy optymalizacji metody gradientu\n", "\n", "* Momentum\n", "* Nesterov Accelerated Gradient\n", "* Adagrad\n", "* Adadelta\n", "* RMSprop\n", "* Adam\n", "* Nadam\n", "* AMSGrad" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Momentum\n", "\n", "* SGD źle radzi sobie w „wąwozach” funkcji kosztu\n", "* Momentum rozwiązuje ten problem przez dodanie współczynnika $\\gamma$, który można trakować jako „pęd” spadającej piłki:\n", " $$ v_t := \\gamma \\, v_{t-1} + \\alpha \\, \\nabla_\\theta J(\\theta) $$\n", " $$ \\theta := \\theta - v_t $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Przyspiesony gradient Nesterova (*Nesterov Accelerated Gradient*, NAG)\n", "\n", "* Momentum czasami powoduje niekontrolowane rozpędzanie się piłki, przez co staje się „mniej sterowna”\n", "* Nesterov do piłki posiadającej pęd dodaje „hamulec”, który spowalnia piłkę przed wzniesieniem:\n", " $$ v_t := \\gamma \\, v_{t-1} + \\alpha \\, \\nabla_\\theta J(\\theta - \\gamma \\, v_{t-1}) $$\n", " $$ \\theta := \\theta - v_t $$" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Adagrad\n", "\n", "* “Adaptive gradient”\n", "* Adagrad dostosowuje współczynnik uczenia (*learning rate*) do parametrów: zmniejsza go dla cech występujących częściej, a zwiększa dla występujących rzadziej\n", "* Świetny do trenowania na rzadkich (*sparse*) zbiorach danych\n", "* Wada: współczynnik uczenia może czasami gwałtownie maleć" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Adadelta i RMSprop\n", "* Warianty algorytmu Adagrad, które radzą sobie z problemem gwałtownych zmian współczynnika uczenia" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Adam\n", "\n", "* “Adaptive moment estimation”\n", "* Łączy zalety algorytmów RMSprop i Momentum\n", "* Można go porównać do piłki mającej ciężar i opór\n", "* Obecnie jeden z najpopularniejszych algorytmów optymalizacji" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### Nadam\n", "* “Nesterov-accelerated adaptive moment estimation”\n", "* Łączy zalety algorytmów Adam i Nesterov Accelerated Gradient" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "### AMSGrad\n", "* Wariant algorytmu Adam lepiej dostosowany do zadań takich jak rozpoznawanie obiektów czy tłumaczenie maszynowe" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "subslide" } }, "source": [ "" ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.3" }, "livereveal": { "start_slideshow_at": "selected", "theme": "white" } }, "nbformat": 4, "nbformat_minor": 4 }