diff --git a/wyk/05_Metody_ewaluacji.ipynb b/wyk/05_Metody_ewaluacji.ipynb
new file mode 100644
index 0000000..4b257a8
--- /dev/null
+++ b/wyk/05_Metody_ewaluacji.ipynb
@@ -0,0 +1,1297 @@
+{
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "### Uczenie maszynowe\n",
+ "# 5. Metody ewaluacji"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "## 5.1. Metodologia testowania"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "source": [
+ "W uczeniu maszynowym bardzo ważna jest ewaluacja budowanego modelu. Dlatego dobrze jest podzielić posiadane dane na odrębne zbiory – osobny zbiór danych do uczenia i osobny do testowania. W niektórych przypadkach potrzeba będzie dodatkowo wyodrębnić tzw. zbiór walidacyjny."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### Zbiór uczący a zbiór testowy"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ "* Na zbiorze uczącym (treningowym) uczymy algorytmy, a na zbiorze testowym sprawdzamy ich poprawność.\n",
+ "* Zbiór uczący powinien być kilkukrotnie większy od testowego (np. 4:1, 9:1 itp.).\n",
+ "* Zbiór testowy często jest nieznany.\n",
+ "* Należy unikać mieszania danych testowych i treningowych – nie wolno „zanieczyszczać” danych treningowych danymi testowymi!"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "Czasami potrzebujemy dobrać parametry modelu, np. $\\alpha$ – który zbiór wykorzystać do tego celu?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### Zbiór walidacyjny"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ "Do doboru parametrów najlepiej użyć jeszcze innego zbioru – jest to tzw. **zbiór walidacyjny**"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ " * Zbiór walidacyjny powinien mieć wielkość zbliżoną do wielkości zbioru testowego, czyli np. dane można podzielić na te trzy zbiory w proporcjach 3:1:1, 8:1:1 itp."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "### Walidacja krzyżowa"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ "Którą część danych wydzielić jako zbiór walidacyjny tak, żeby było „najlepiej”?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ " * Niech każda partia danych pełni tę rolę naprzemiennie!"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "\n",
+ "Żródło: https://chrisjmccormick.wordpress.com/2013/07/31/k-fold-cross-validation-with-matlab-code/"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### Walidacja krzyżowa\n",
+ "\n",
+ "* Podziel dane $D = \\left\\{ (x^{(1)}, y^{(1)}), \\ldots, (x^{(m)}, y^{(m)})\\right\\} $ na $N$ rozłącznych zbiorów $T_1,\\ldots,T_N$\n",
+ "* Dla $i=1,\\ldots,N$, wykonaj:\n",
+ " * Użyj $T_i$ do walidacji i zbiór $S_i$ do trenowania, gdzie $S_i = D \\smallsetminus T_i$. \n",
+ " * Zapisz model $\\theta_i$.\n",
+ "* Akumuluj wyniki dla modeli $\\theta_i$ dla zbiorów $T_i$.\n",
+ "* Ustalaj parametry uczenia na akumulowanych wynikach."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### Walidacja krzyżowa – wskazówki\n",
+ "\n",
+ "* Zazwyczaj ustala się $N$ w przedziale od $4$ do $10$, tzw. $N$-krotna walidacja krzyżowa (*$N$-fold cross validation*). \n",
+ "* Zbiór $D$ warto zrandomizować przed podziałem.\n",
+ "* W jaki sposób akumulować wyniki dla wszystkich zbiórow $T_i$?\n",
+ "* Po ustaleniu parametrów dla każdego $T_i$, trenujemy model na całych danych treningowych z ustalonymi parametrami.\n",
+ "* Testujemy na zbiorze testowym (jeśli nim dysponujemy)."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### _Leave-one-out_\n",
+ "\n",
+ "Jest to szczególny przypadek walidacji krzyżowej, w której $N = m$."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "fragment"
+ }
+ },
+ "source": [
+ "* Jaki jest rozmiar pojedynczego zbioru $T_i$?\n",
+ "* Jakie są zalety i wady tej metody?\n",
+ "* Kiedy może być przydatna?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "source": [
+ "### Zbiór walidujący a algorytmy optymalizacji\n",
+ "\n",
+ "* Gdy błąd rośnie na zbiorze uczącym, mamy źle dobrany parametr $\\alpha$. Należy go wtedy zmniejszyć.\n",
+ "* Gdy błąd zmniejsza się na zbiorze trenującym, ale rośnie na zbiorze walidującym, mamy do czynienia ze zjawiskiem **nadmiernego dopasowania** (*overfitting*).\n",
+ "* Należy wtedy przerwać optymalizację. Automatyzacja tego procesu to _early stopping_."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "## 5.2. Miary jakości"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "source": [
+ "Aby przeprowadzić ewaluację modelu, musimy wybrać **miarę** (**metrykę**), jakiej będziemy używać.\n",
+ "\n",
+ "Jakiej miary użyc najlepiej?\n",
+ " * To zależy od rodzaju zadania.\n",
+ " * Innych metryk używa się do regresji, a innych do klasyfikacji"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "### Metryki dla zadań regresji\n",
+ "\n",
+ "Dla zadań regresji możemy zastosować np.:\n",
+ " * błąd średniokwadratowy (*root-mean-square error*, RMSE):\n",
+ " $$ \\mathrm{RMSE} \\, = \\, \\sqrt{ \\frac{1}{m} \\sum_{i=1}^{m} \\left( \\hat{y}^{(i)} - y^{(i)} \\right)^2 } $$\n",
+ " * średni błąd bezwzględny (*mean absolute error*, MAE):\n",
+ " $$ \\mathrm{MAE} \\, = \\, \\frac{1}{m} \\sum_{i=1}^{m} \\left| \\hat{y}^{(i)} - y^{(i)} \\right| $$"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "source": [
+ "W powyższych wzorach $y^{(i)}$ oznacza **oczekiwaną** wartości zmiennej $y$ w $i$-tym przykładzie, a $\\hat{y}^{(i)}$ oznacza wartość zmiennej $y$ w $i$-tym przykładzie wyliczoną (**przewidzianą**) przez nasz model."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {
+ "slideshow": {
+ "slide_type": "slide"
+ }
+ },
+ "source": [
+ "### Metryki dla zadań klasyfikacji\n",
+ "\n",
+ "Aby przedstawić kilka najpopularniejszych metryk stosowanych dla zadań klasyfikacyjnych, posłużmy się następującym przykładem:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 34,
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "outputs": [],
+ "source": [
+ "# Przydatne importy\n",
+ "\n",
+ "import ipywidgets as widgets\n",
+ "import matplotlib.pyplot as plt\n",
+ "import numpy as np\n",
+ "import pandas\n",
+ "import random\n",
+ "import seaborn\n",
+ "\n",
+ "%matplotlib inline"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 35,
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "outputs": [],
+ "source": [
+ "def powerme(x1,x2,n):\n",
+ " \"\"\"Funkcja, która generuje n potęg dla zmiennych x1 i x2 oraz ich iloczynów\"\"\"\n",
+ " X = []\n",
+ " for m in range(n+1):\n",
+ " for i in range(m+1):\n",
+ " X.append(np.multiply(np.power(x1,i),np.power(x2,(m-i))))\n",
+ " return np.hstack(X)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 36,
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "outputs": [],
+ "source": [
+ "def plot_data_for_classification(X, Y, xlabel=None, ylabel=None, Y_predicted=[], highlight=None):\n",
+ " \"\"\"Wykres danych dla zadania klasyfikacji\"\"\"\n",
+ " fig = plt.figure(figsize=(16*.6, 9*.6))\n",
+ " ax = fig.add_subplot(111)\n",
+ " fig.subplots_adjust(left=0.1, right=0.9, bottom=0.1, top=0.9)\n",
+ " X = X.tolist()\n",
+ " Y = Y.tolist()\n",
+ " X1n = [x[1] for x, y in zip(X, Y) if y[0] == 0]\n",
+ " X1p = [x[1] for x, y in zip(X, Y) if y[0] == 1]\n",
+ " X2n = [x[2] for x, y in zip(X, Y) if y[0] == 0]\n",
+ " X2p = [x[2] for x, y in zip(X, Y) if y[0] == 1]\n",
+ " \n",
+ " if len(Y_predicted) > 0:\n",
+ " Y_predicted = Y_predicted.tolist()\n",
+ " X1tn = [x[1] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 0 and yp[0] == 0]\n",
+ " X1fn = [x[1] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 1 and yp[0] == 0]\n",
+ " X1tp = [x[1] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 1 and yp[0] == 1]\n",
+ " X1fp = [x[1] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 0 and yp[0] == 1]\n",
+ " X2tn = [x[2] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 0 and yp[0] == 0]\n",
+ " X2fn = [x[2] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 1 and yp[0] == 0]\n",
+ " X2tp = [x[2] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 1 and yp[0] == 1]\n",
+ " X2fp = [x[2] for x, y, yp in zip(X, Y, Y_predicted) if y[0] == 0 and yp[0] == 1]\n",
+ " \n",
+ " if highlight == 'tn':\n",
+ " ax.scatter(X1tn, X2tn, c='red', marker='x', s=100, label='Dane')\n",
+ " ax.scatter(X1fn, X2fn, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1tp, X2tp, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1fp, X2fp, c='gray', marker='x', s=50, label='Dane')\n",
+ " elif highlight == 'fn':\n",
+ " ax.scatter(X1tn, X2tn, c='gray', marker='x', s=50, label='Dane')\n",
+ " ax.scatter(X1fn, X2fn, c='green', marker='o', s=100, label='Dane')\n",
+ " ax.scatter(X1tp, X2tp, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1fp, X2fp, c='gray', marker='x', s=50, label='Dane')\n",
+ " elif highlight == 'tp':\n",
+ " ax.scatter(X1tn, X2tn, c='gray', marker='x', s=50, label='Dane')\n",
+ " ax.scatter(X1fn, X2fn, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1tp, X2tp, c='green', marker='o', s=100, label='Dane')\n",
+ " ax.scatter(X1fp, X2fp, c='gray', marker='x', s=50, label='Dane')\n",
+ " elif highlight == 'fp':\n",
+ " ax.scatter(X1tn, X2tn, c='gray', marker='x', s=50, label='Dane')\n",
+ " ax.scatter(X1fn, X2fn, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1tp, X2tp, c='gray', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1fp, X2fp, c='red', marker='x', s=100, label='Dane')\n",
+ " else:\n",
+ " ax.scatter(X1tn, X2tn, c='red', marker='x', s=50, label='Dane')\n",
+ " ax.scatter(X1fn, X2fn, c='green', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1tp, X2tp, c='green', marker='o', s=50, label='Dane')\n",
+ " ax.scatter(X1fp, X2fp, c='red', marker='x', s=50, label='Dane')\n",
+ "\n",
+ " else:\n",
+ " ax.scatter(X1n, X2n, c='r', marker='x', s=50, label='Dane')\n",
+ " ax.scatter(X1p, X2p, c='g', marker='o', s=50, label='Dane')\n",
+ " \n",
+ " if xlabel:\n",
+ " ax.set_xlabel(xlabel)\n",
+ " if ylabel:\n",
+ " ax.set_ylabel(ylabel)\n",
+ " \n",
+ " ax.margins(.05, .05)\n",
+ " return fig"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 37,
+ "metadata": {
+ "slideshow": {
+ "slide_type": "notes"
+ }
+ },
+ "outputs": [],
+ "source": [
+ "# Wczytanie danych\n",
+ "import pandas\n",
+ "import numpy as np\n",
+ "\n",
+ "alldata = pandas.read_csv('data-metrics.tsv', sep='\\t')\n",
+ "data = np.matrix(alldata)\n",
+ "\n",
+ "m, n_plus_1 = data.shape\n",
+ "n = n_plus_1 - 1\n",
+ "\n",
+ "X2 = powerme(data[:, 1], data[:, 2], n)\n",
+ "Y2 = np.matrix(data[:, 0]).reshape(m, 1)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 38,
+ "metadata": {
+ "slideshow": {
+ "slide_type": "subslide"
+ }
+ },
+ "outputs": [
+ {
+ "data": {
+ "image/png": "",
+ "text/plain": [
+ "