Merge git.wmi.amu.edu.pl:filipg/aitech-eks

2021-05-04 23:03:11 +02:00 · 2021-05-04 23:03:11 +02:00 · 550a399bff
commit 550a399bff
parent dfd6873823 8f531a680c
13 changed files with 2722 additions and 25 deletions
--- a/cw/08_regresja_logistyczna.ipynb
+++ b/cw/08_regresja_logistyczna.ipynb
--- a/cw/08_regresja_logistyczna_ODPOWIEDZI.ipynb
+++ b/cw/08_regresja_logistyczna_ODPOWIEDZI.ipynb
--- a/wyk/07_Naiwny_klasyfikator_bayesowski.ipynb
+++ b/wyk/07_Naiwny_klasyfikator_bayesowski.ipynb
@ -2,7 +2,7 @@
 "cells": [
  {
   "cell_type": "markdown",
-   "id": "damaged-senator",
+   "id": "moderate-array",
   "metadata": {},
   "source": [
    "# Klasyfikacja binarna dla tekstu\n",
@ -14,7 +14,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "explicit-gathering",
+   "id": "correct-victory",
   "metadata": {},
   "source": [
    "**Pytanie**: Czy można wyobrazić sobie zadanie klasyfikacji mejli, niebędące zadaniem klasyfikacji binarnej?"
@ -22,7 +22,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "material-watch",
+   "id": "spiritual-diploma",
   "metadata": {},
   "source": [
    "Zakładamy paradygmat uczenia nadzorowanego, tzn. dysponujemy zbiorem uczącym.\n",
@ -32,7 +32,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "referenced-hello",
+   "id": "secure-performance",
   "metadata": {},
   "source": [
    "## Klasyfikacja regułowa\n",
@ -49,14 +49,14 @@
    "body __FRAUD_XJR\t/(?:who was a|as a|an? honest|you being a|to any) foreigner/i\n",
    "```\n",
    "\n",
-    "Jakie są wady i zalety regułowych filtrów antyspamowych?\n",
+    "**Pytanie:** Jakie są wady i zalety regułowych filtrów antyspamowych?\n",
    "\n",
    "Współcześnie zdecydowanie dominuje użycie metod statystycznych (opartych na nadzorowanym uczeniu maszynowym). Do popularności tych metod przyczynił się artykuł [Plan for spam](http://www.paulgraham.com/spam.html) autorstwa Paula Grahama."
   ]
  },
  {
   "cell_type": "markdown",
-   "id": "cathedral-uganda",
+   "id": "indoor-ending",
   "metadata": {},
   "source": [
    "## Podejście generatywne i dyskryminatywne\n",
@ -72,7 +72,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "powerful-engineer",
+   "id": "pleased-clinic",
   "metadata": {},
   "source": [
    "## Nasz \"dyżurny\" przykład\n",
@ -94,11 +94,31 @@
    "Zakładamy, że dokumenty podlegają lematyzacji i sprowadzeniu do mały liter, więc ostatecznie będziemy mieli następujące ciąg termów:\n",
    "\n",
    "* $x_1=(\\mathit{kupić}, \\mathit{pan}, \\mathit{viagra})$\n",
-    "* $x_2=(\\mathit{tani}, \\mathit{miejsce}, \\mathit{dla}, \\mathit{pana})$\n",
+    "* $x_2=(\\mathit{tani}, \\mathit{miejsce}, \\mathit{dla}, \\mathit{pan})$\n",
    "* $x_3=(\\mathit{viagra}, \\mathit{viagra}, \\mathit{viagra})$\n",
    "* $x_4=(\\mathit{kupić}, \\mathit{tani}, \\mathit{cartridge})$\n",
    "\n",
-    "Uczymy na tym zbiorze klasyfikator, który będziemy testować na dokumencie $d=\\mathit{tania tania viagra dla pana}$, tj. po normalizacji\n",
+    "$P(tani|c) = (1+1)/(9+7) = 2/16 = 0.125$\n",
    "$P(viagra|c) = \\frac{4+1}{9 + 7} = 5/16 = 0.3125 $\n",
    "$P(dla|c) = \\frac{0+1}{9+7} = 1/16 = 0.0625$\n",
    "$P(pan|c) = (1+1)/(9+7) = 2/16 = 0.125 $\n",
    "$P(c) = 0.75$\n",
    "\n",
    "w wersji wielomianowej: $P(c)P(tani|c)P(tani|c)P(viagra|c)P(dla|c)P(pan|c) = 0.75 * 0.125 * 0.125 * 0.3125 * 0.0625 * 0.125= 0.0002861$\n",
    "\n",
    "w werjis Bernoulliego: $P(c)P(U_{dla}=1|c)P(U_{cartridge}=0|c)P(U_{viagra}=1|c)P(U_{pan}=1|c)P(U_{tani}=1|c)P(U_{miejsce}=0|c)P(U_{kup}=0|c)$\n",
    "\n",
    "$P(tani|\\bar{c}) = (1+1)/(4+7) = 2/11 =0.182 $\n",
    "$P(viagra|\\bar{c}) = 1/11 = 0.091  $\n",
    "$P(dla|\\bar{c}) = 2/11 = 0.182 $\n",
    "$P(pan|\\bar{c}) = 2/11 = 0.182 $\n",
    "$P(\\bar{c}) = 0.25$\n",
    "\n",
    "$P(\\bar{c})P(tani|\\bar{c})P(tani|\\bar{c})P(dla|\\bar{c})P(pan|\\bar{c}) = 0.25 * 0.182 * 0.182 * 0.091 * 0.182 * 0.182 = 0.00002496$\n",
    "\n",
    "\n",
    "\n",
    "Uczymy na tym zbiorze klasyfikator, który będziemy testować na dokumencie $d=\\mathit{tania\\ tania\\ viagra\\ dla\\ pana}$, tj. po normalizacji\n",
    "$d=(\\mathit{tani}, \\mathit{tani}, \\mathit{viagra}, \\mathit{dla}, \\mathit{pan})$.\n",
    "\n",
    "**Uwaga:** Przykład jest oczywiście nierealistyczny i trudno będzie nam ocenić sensowność odpowiedzi. Za to będziemy w stanie policzyć ręcznie wynik.\n"
@ -106,7 +126,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "controversial-rotation",
+   "id": "partial-military",
   "metadata": {},
   "source": [
    "## Naiwny klasyfikator bayesowski\n",
@ -127,7 +147,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "spatial-citizenship",
+   "id": "colonial-creature",
   "metadata": {},
   "source": [
    "Mamy dokument $d$ i dwie klasy $c$ i $\\bar{c}$. Policzymy prawdopodobieństwa $P(c|d)$ (mamy dokument $d$, jakie jest prawdopodobieństwo, że to klasa $c$) i $P(\\bar{c}|d)$. A właściwie będziemy te prawdopodobieństwa porównywać.\n",
@ -139,25 +159,25 @@
  },
  {
   "cell_type": "markdown",
-   "id": "united-recognition",
+   "id": "governing-fiction",
   "metadata": {},
   "source": [
    "Zastosujmy najpierw wzór Bayesa.\n",
    "\n",
-    "$P(c|d) = \\frac{P(d|c) P(c)}{P(d)} \\propto P(d|c) P(c)$"
+    "$P(c|d) = \\frac{P(d|c) P(c)}{P(d)}$"
   ]
  },
  {
   "cell_type": "markdown",
-   "id": "present-draft",
+   "id": "northern-spine",
   "metadata": {},
   "source": [
-    "$P(\\bar{c}|d) = \\frac{P(d|\\bar{c}) P(\\bar{c})}{P(d)} \\propto P(d|\\bar{c}) P(\\bar{c}) $"
+    "$P(\\bar{c}|d) = \\frac{P(d|\\bar{c}) P(\\bar{c})}{P(d)}$"
   ]
  },
  {
   "cell_type": "markdown",
-   "id": "accepting-tamil",
+   "id": "utility-induction",
   "metadata": {},
   "source": [
    "(Oczywiście skądinąd $P(\\bar{c}|d) = 1 - P(c|d)$, ale nie będziemy teraz tego wykorzystywali.)"
@ -165,7 +185,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "equipped-outreach",
+   "id": "timely-force",
   "metadata": {},
   "source": [
    "Co możemy pominąć, jeśli tylko porównujemy $P(c|d)$ i $P(\\bar{c}|d)$?\n",
@ -181,7 +201,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "active-motor",
+   "id": "embedded-involvement",
   "metadata": {},
   "source": [
    "#### Prawdopodobieństwo _a priori_\n",
@ -193,12 +213,16 @@
    "gdzie\n",
    "\n",
    "* N - liczba wszystkich dokumentów w zbiorze uczącym\n",
-    "* N_c - liczba dokumentow w zbiorze uczącym z klasą $c$\n"
+    "* N_c - liczba dokumentow w zbiorze uczącym z klasą $c$\n",
    "\n",
    "$\\hat{P}(c) = 0,75$\n",
    "\n",
    "$\\hat{P}(\\bar{c}) = 0,25$\n"
   ]
  },
  {
   "cell_type": "markdown",
-   "id": "trying-indonesian",
+   "id": "virgin-premiere",
   "metadata": {},
   "source": [
    "#### Prawdopodobieństwo _a posteriori_\n",
@ -212,7 +236,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "median-nomination",
+   "id": "acting-zimbabwe",
   "metadata": {},
   "source": [
    "$P(d|c) = P(t_1\\dots t_n|c)$\n",
@ -228,7 +252,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "romantic-verse",
+   "id": "adjustable-disney",
   "metadata": {},
   "source": [
    "Jak oszacować $\\hat{P}(t|c)$?\n",
@ -238,7 +262,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "interracial-today",
+   "id": "associate-variance",
   "metadata": {},
   "source": [
    "### Wygładzanie\n",
@ -260,12 +284,17 @@
    "4. $f(m, 0, 0) = \\frac{1}{m}$\n",
    "5. $\\lim_{T \\to \\inf} f(m, k, T) = \\frac{k}{T}$\n",
    "\n",
    "\n",
    "m=2, k1=2, k2=4, T=6, 2/6 => f(2, 2, 6) > 0.333,  f(2, 4, 6) < 0.666 \n",
    "\n",
    "Jaka funkcja spełnia te aksjomaty?\n",
    "\n",
    "$$f(m, k, T) = \\frac{k+1}{T+m}$$\n",
    "\n",
    "Jest to wygładzanie +1, albo wygładzanie Laplace'a.\n",
    "\n",
    "**Pytanie:** Wymyślić jakiś inny przykład funkcji, która będzie spełniała aksjomaty.\n",
    "\n",
    "\n",
    "\n",
    "\n",
@ -275,7 +304,7 @@
  },
  {
   "cell_type": "markdown",
-   "id": "accepting-stockholm",
+   "id": "complimentary-airplane",
   "metadata": {},
   "source": [
    "Po zastosowaniu do naszego naiwnego klasyfikatora otrzymamy:\n",
@ -283,10 +312,35 @@
    "$$\\hat{P}(t|c) = \\frac{\\#(t,c) + 1}{\\sum_i^{|V|} \\#(t_i,c) + |V|}$$"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "comprehensive-junior",
   "metadata": {},
   "source": [
    "### Metoda Bernoulliego"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "vocational-spanish",
   "metadata": {},
   "source": [
    "$$P(𝑑|𝑐) \\approx P(U=u_1|c)\\dots P(U=u_{|v|})$$, gdzie $u_i = 1$, $t_i$ pojawił się w dokumencie $d$, 0 - w przeciwnym razie\n",
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "enabling-manitoba",
   "metadata": {},
   "source": [
    "$\\hat{P}(U_{viagra}=1|c) = \\frac{\\#(viagra,N_c) + 1}{N_c + 2}$"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
-   "id": "moral-ceremony",
+   "id": "bearing-execution",
   "metadata": {},
   "outputs": [],
   "source": []
--- a/wyk/08_Regresja_liniowa.ipynb
+++ b/wyk/08_Regresja_liniowa.ipynb
@ -0,0 +1,214 @@
 {
 "cells": [
  {
   "cell_type": "markdown",
   "id": "continent-intermediate",
   "metadata": {},
   "source": [
    "# Regresja liniowa\n",
    "\n",
    "Regresja liniowa jest prosta...\n",
    "\n",
    "![Ceny mieszkań](./08_files/linregr1.png)\n",
    "\n",
    "... dosłownie — dopasuj prostą $y = ax + b$ do punktów\n",
    "\n",
    "Należy odgadnąć $a$ i $b$ tak, aby zminimalizować błąd\n",
    "kwadratowy, tj. wartość:\n",
    "\n",
    "$$\\sum_{i=1}^n (y_i - (ax_i + b))^2$$\n",
    "\n",
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "original-speed",
   "metadata": {},
   "source": [
    "Regresje liniowa (jednej zmiennej) jest łatwa do rozwiązania — wystarczy podstawić do wzoru!\n",
    "\n",
    "$$\\hat{b} = \\frac{ \\sum_{i=1}^{n}{x_i y_i} - \\frac{1}{n} \\sum_{i=1}^n x_i\n",
    "  \\sum_{j=1}^n y_j}{ \\sum_{i=1}^n {x_i^2} - \\frac{1}{n} (\\sum_{i=1}^n\n",
    "  x_i)^2 }$$\n",
    "\n",
    "$$\\hat{a} = \\bar{y} - \\hat{b}\\,\\bar{x}$$\n",
    "\n",
    "\n",
    "Na przykład dla mieszkań: $b =$ -30809.203 zł,  $a =$ 5733.693 zł/m$^2$.\n",
    "\n",
    "![Ceny mieszkań](./08_files/linregr2.png)\n",
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "significant-relaxation",
   "metadata": {},
   "source": [
    "## Regresja wielu zmiennych\n",
    "\n",
    "W praktyce mamy do czynienia z **wielowymiarową** regresją\n",
    "liniową.\n",
    "\n",
    "Cena mieszkań może być prognozowana na podstawie:\n",
    "\n",
    "* powierzchni ($x_1 = 32.3$) \n",
    "\n",
    "* liczby pokoi ($x_2 = 3$)\n",
    " \n",
    "* piętra ($x_3 = 4$)\n",
    "\n",
    "* wieku ($x_4 = 13$)\n",
    "\n",
    "* odległości od Dworca Centralnego w Warszawie ($x_5 = 371.3$)\n",
    "\n",
    "* cech zerojedynkowych:\n",
    "\n",
    "  * czy wielka płyta? ($x_6 = 0$)\n",
    "\n",
    "  * czy jest jacuzzi? ($x_7 = 1$)\n",
    "\n",
    "  * czy jest grzyb? ($x_8 = 0$)\n",
    "\n",
    "  * czy to Kielce? ($x_9 = 1$)\n",
    "\n",
    "* ...\n",
    "\n",
    "... więc uogólniamy na wiele ($k$) wymiarów:\n",
    "\n",
    "$$ y = w_0 + w_1x_1 + \\ldots + w_kx_k = w_0 + \\sum_{j=1}^{k} w_jx_j $$\n",
    "\n",
    "gdzie:\n",
    "\n",
    "* $x_1,\\dots,x_k$ -- zmienne, na podstawie których zgadujemy\n",
    "\n",
    "* $w_0, w_1,\\dots,w_k$ -- wagi modelu (do wymyślenia na\n",
    "  podstawie przykładów)\n",
    "\n",
    "* $y$ -- odgadywana wartość\n",
    "\n",
    "Też istnieje wzór ładny wzór na wyliczenie wektora wag!\n",
    "\n",
    "$$\\mathbf{w} = (\\mathbf{X}^{\\rm T}\\mathbf{X})^{-1} \\mathbf{X}^{\\rm T}\\mathbf{y}$$\n",
    "\n",
    "... niestety odwracanie macierzy nie jest tanie :("
   ]
  },
  {
   "cell_type": "markdown",
   "id": "ordinary-appendix",
   "metadata": {},
   "source": [
    "## Kilka sporzeżeń\n",
    "\n",
    "Regresja liniowa to najprostszy możliwy model:\n",
    "\n",
    "* im czegoś więcej na wejściu, tym proporcjonalnie (troszkę) więcej/mniej na wyjściu\n",
    "\n",
    "* nic prostszego nie da się wymyślić (funkcja stała??)\n",
    "\n",
    "* niestety model liniowy czasami kompletnie nie ma sensu (np. wzrost człowieka w\n",
    "  stosunku do wieku)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "egyptian-austria",
   "metadata": {},
   "source": [
    "## Uczenie\n",
    "\n",
    "A jak nauczyć się wag z przykładów?\n",
    "\n",
    "* wzór (z odwracaniem macierzy) — problematyczny\n",
    "\n",
    "### Metoda gradientu prostego\n",
    "\n",
    "![Morskie Oko - Krzysztof Dudzik](08_files/morskieoko.jpg)\n",
    "\n",
    "Schodź wzdłuż lokalnego spadku funkcji błędu.\n",
    "\n",
    "Tak więc w praktyce zamiast podstawiać do wzoru lepiej się uczyć iteracyjnie -\n",
    "  metodą **gradientu prostego** (ang. _gradient descent_).\n",
    "\n",
    "1. Zacznij od byle jakich wag $w_i$ (np. wylosuj)\n",
    "2. Weź losowy przykład uczący $x_1,\\dots,x_n$, $y$.\n",
    "3. Oblicz wyjście $\\hat{y}$ na podstawie $x_1,\\dots,x_n$.\n",
    "4. Oblicz funkcję błędu między $y$ a $\\hat{y}$.\n",
    "5. Zmodyfikuj lekko wagi $(w_i)$ w kierunku spadku funkcji błędu.\n",
    "6. Jeśli błąd jest duży, idź do 2.\n",
    "\n",
    "Modyfikacja wag:\n",
    "\n",
    "$$w_i := w_i - x_i (\\hat{y} - y) \\eta$$\n",
    "\n",
    "gdzie $\\eta$ to **współczynnik uczenia** _learning rate_.\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "exact-train",
   "metadata": {},
   "source": [
    "## Ewaluacja regresji\n",
    "\n",
    "To miary błędu (im mniej, tym lepiej!)}\n",
    "\n",
    "### Błąd bezwzględny (Mean Absolute Error, MAE)\n",
    "\n",
    "$$\\frac{1}{n}\\sum_{i=1}^n |\\hat{y}_i - y_i| $$\n",
    "\n",
    "### Mean Squared Error (MSE)\n",
    "\n",
    "$$\\frac{1}{n}\\sum_{i=1}^n (\\hat{y}_i - y_i)^2$$\n",
    "\n",
    "### Root Mean Squared Error (RMSE)\n",
    "\n",
    "$$\\sqrt{\\frac{1}{n}\\sum_{i=1}^n (\\hat{y}_i - y_i)^2}$$\n",
    "\n"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "selective-agriculture",
   "metadata": {},
   "source": [
    "## Regresja liniowa dla tekstu\n",
    "\n",
    "Czym jest wektor $\\vec{x} = (x_1,\\dots,x_n)$? Wiemy, np. reprezentacja tf-idf (być z trikiem z haszowaniem, Word2vec etc.).\n",
    "\n",
    "![schemat regresji liniowej](08_files/regresja-liniowa-tekst.png)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "numerous-limitation",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
 }
--- a/wyk/08_files/linregr1.pdf
+++ b/wyk/08_files/linregr1.pdf
--- a/wyk/08_files/linregr1.png
+++ b/wyk/08_files/linregr1.png
--- a/wyk/08_files/linregr1.r
+++ b/wyk/08_files/linregr1.r
@ -0,0 +1,8 @@
 library(ggplot2)
 prices = read.csv("mieszkania.tsv", sep="\t", header=TRUE)
 prices$area = prices$powierzchnia
 prices$price = prices$cena
 pdf("linregr1.pdf")
 ggplot(prices, aes(x=area, y=price)) + geom_point()
 dev.off()
--- a/wyk/08_files/linregr2.pdf
+++ b/wyk/08_files/linregr2.pdf
--- a/wyk/08_files/linregr2.png
+++ b/wyk/08_files/linregr2.png
--- a/wyk/08_files/linregr2.r
+++ b/wyk/08_files/linregr2.r
@ -0,0 +1,8 @@
 library(ggplot2)
 prices = read.csv("mieszkania.tsv", sep="\t", header=TRUE)
 prices$area = prices$powierzchnia
 prices$price = prices$cena
 pdf("linregr2.pdf")
 ggplot(prices, aes(x=area, y=price)) + geom_point() + stat_smooth(method=lm, se=FALSE)
 dev.off()
--- a/wyk/08_files/mieszkania.tsv
+++ b/wyk/08_files/mieszkania.tsv
@ -0,0 +1,121 @@
 powierzchnia	cena
 53	215000
 60.01	219990
 54	285000
 60	330000
 63	212000
 39	219000
 76.11	399000
 48	119000
 42.19	260000
 53.41	323000
 65.65	555000
 65	185000
 55	247000
 100	280000
 56	224000
 39	230000
 42.3	179000
 49.65	305000
 68	345000
 37	145000
 103	529000
 62.3	209000
 17.65	42000
 45	500000
 36.15	140000
 45	159000
 50	130000
 48	84000
 36	359000
 39.3	116400
 49.48	136950
 26	85000
 72	469000
 64	239000
 55	435000
 90	175903
 90	175903
 90	175903
 127.88	1710000
 59	649000
 48.7	240000
 73	259000
 32.9	275000
 64	170000
 44.72	174408
 68	275000
 38	323000
 35	110000
 63	165000
 25	69000
 50	290000
 76.312	572325
 65	429000
 52.5	499000
 58	145000
 34	95000
 46	280000
 38	120000
 52	269000
 47	105000
 63	266000
 67.79	275000
 60	550000
 107	1230000
 53	228000
 48.65	148000
 39	140000
 23	170000
 35	195000
 71.19	245000
 75	329000
 53	185000
 51	135000
 42	133000
 38	142000
 45.6	470000
 50	194000
 29	158999
 28.8	199000
 36	199000
 57.43	385621
 57.71	402305
 60.12	395000
 38	210000
 56.28	419000
 60	346800
 41	295000
 28.7	219000
 39	275000
 37	105000
 47	330000
 64	435000
 96	151200
 35.34	87000
 101	489000
 50	129000
 49.5	315000
 14	2000
 31	110000
 50.9	265000
 117	129000
 52.2	250000
 28	140000
 15	5000
 41.7	249000
 56.4	490000
 30.9	161000
 42.3	229000
 53	270000
 72.4	409000
 52.9	370000
 37.77	135000
 82	260000
 32	195000
 59	590000
 62.01	205000
 52.5	543000
 56	170000
 67.61	285000
 51	494000
--- a/wyk/08_files/morskieoko.jpg
+++ b/wyk/08_files/morskieoko.jpg
--- a/wyk/08_files/regresja-liniowa-tekst.png
+++ b/wyk/08_files/regresja-liniowa-tekst.png