Merge git.wmi.amu.edu.pl:filipg/aitech-eks

This commit is contained in:
kubapok 2021-05-04 23:03:11 +02:00
commit 550a399bff
13 changed files with 2722 additions and 25 deletions

File diff suppressed because it is too large Load Diff

File diff suppressed because it is too large Load Diff

View File

@ -2,7 +2,7 @@
"cells": [
{
"cell_type": "markdown",
"id": "damaged-senator",
"id": "moderate-array",
"metadata": {},
"source": [
"# Klasyfikacja binarna dla tekstu\n",
@ -14,7 +14,7 @@
},
{
"cell_type": "markdown",
"id": "explicit-gathering",
"id": "correct-victory",
"metadata": {},
"source": [
"**Pytanie**: Czy można wyobrazić sobie zadanie klasyfikacji mejli, niebędące zadaniem klasyfikacji binarnej?"
@ -22,7 +22,7 @@
},
{
"cell_type": "markdown",
"id": "material-watch",
"id": "spiritual-diploma",
"metadata": {},
"source": [
"Zakładamy paradygmat uczenia nadzorowanego, tzn. dysponujemy zbiorem uczącym.\n",
@ -32,7 +32,7 @@
},
{
"cell_type": "markdown",
"id": "referenced-hello",
"id": "secure-performance",
"metadata": {},
"source": [
"## Klasyfikacja regułowa\n",
@ -49,14 +49,14 @@
"body __FRAUD_XJR\t/(?:who was a|as a|an? honest|you being a|to any) foreigner/i\n",
"```\n",
"\n",
"Jakie są wady i zalety regułowych filtrów antyspamowych?\n",
"**Pytanie:** Jakie są wady i zalety regułowych filtrów antyspamowych?\n",
"\n",
"Współcześnie zdecydowanie dominuje użycie metod statystycznych (opartych na nadzorowanym uczeniu maszynowym). Do popularności tych metod przyczynił się artykuł [Plan for spam](http://www.paulgraham.com/spam.html) autorstwa Paula Grahama."
]
},
{
"cell_type": "markdown",
"id": "cathedral-uganda",
"id": "indoor-ending",
"metadata": {},
"source": [
"## Podejście generatywne i dyskryminatywne\n",
@ -72,7 +72,7 @@
},
{
"cell_type": "markdown",
"id": "powerful-engineer",
"id": "pleased-clinic",
"metadata": {},
"source": [
"## Nasz \"dyżurny\" przykład\n",
@ -94,11 +94,31 @@
"Zakładamy, że dokumenty podlegają lematyzacji i sprowadzeniu do mały liter, więc ostatecznie będziemy mieli następujące ciąg termów:\n",
"\n",
"* $x_1=(\\mathit{kupić}, \\mathit{pan}, \\mathit{viagra})$\n",
"* $x_2=(\\mathit{tani}, \\mathit{miejsce}, \\mathit{dla}, \\mathit{pana})$\n",
"* $x_2=(\\mathit{tani}, \\mathit{miejsce}, \\mathit{dla}, \\mathit{pan})$\n",
"* $x_3=(\\mathit{viagra}, \\mathit{viagra}, \\mathit{viagra})$\n",
"* $x_4=(\\mathit{kupić}, \\mathit{tani}, \\mathit{cartridge})$\n",
"\n",
"Uczymy na tym zbiorze klasyfikator, który będziemy testować na dokumencie $d=\\mathit{tania tania viagra dla pana}$, tj. po normalizacji\n",
"$P(tani|c) = (1+1)/(9+7) = 2/16 = 0.125$\n",
"$P(viagra|c) = \\frac{4+1}{9 + 7} = 5/16 = 0.3125 $\n",
"$P(dla|c) = \\frac{0+1}{9+7} = 1/16 = 0.0625$\n",
"$P(pan|c) = (1+1)/(9+7) = 2/16 = 0.125 $\n",
"$P(c) = 0.75$\n",
"\n",
"w wersji wielomianowej: $P(c)P(tani|c)P(tani|c)P(viagra|c)P(dla|c)P(pan|c) = 0.75 * 0.125 * 0.125 * 0.3125 * 0.0625 * 0.125= 0.0002861$\n",
"\n",
"w werjis Bernoulliego: $P(c)P(U_{dla}=1|c)P(U_{cartridge}=0|c)P(U_{viagra}=1|c)P(U_{pan}=1|c)P(U_{tani}=1|c)P(U_{miejsce}=0|c)P(U_{kup}=0|c)$\n",
"\n",
"$P(tani|\\bar{c}) = (1+1)/(4+7) = 2/11 =0.182 $\n",
"$P(viagra|\\bar{c}) = 1/11 = 0.091 $\n",
"$P(dla|\\bar{c}) = 2/11 = 0.182 $\n",
"$P(pan|\\bar{c}) = 2/11 = 0.182 $\n",
"$P(\\bar{c}) = 0.25$\n",
"\n",
"$P(\\bar{c})P(tani|\\bar{c})P(tani|\\bar{c})P(dla|\\bar{c})P(pan|\\bar{c}) = 0.25 * 0.182 * 0.182 * 0.091 * 0.182 * 0.182 = 0.00002496$\n",
"\n",
"\n",
"\n",
"Uczymy na tym zbiorze klasyfikator, który będziemy testować na dokumencie $d=\\mathit{tania\\ tania\\ viagra\\ dla\\ pana}$, tj. po normalizacji\n",
"$d=(\\mathit{tani}, \\mathit{tani}, \\mathit{viagra}, \\mathit{dla}, \\mathit{pan})$.\n",
"\n",
"**Uwaga:** Przykład jest oczywiście nierealistyczny i trudno będzie nam ocenić sensowność odpowiedzi. Za to będziemy w stanie policzyć ręcznie wynik.\n"
@ -106,7 +126,7 @@
},
{
"cell_type": "markdown",
"id": "controversial-rotation",
"id": "partial-military",
"metadata": {},
"source": [
"## Naiwny klasyfikator bayesowski\n",
@ -127,7 +147,7 @@
},
{
"cell_type": "markdown",
"id": "spatial-citizenship",
"id": "colonial-creature",
"metadata": {},
"source": [
"Mamy dokument $d$ i dwie klasy $c$ i $\\bar{c}$. Policzymy prawdopodobieństwa $P(c|d)$ (mamy dokument $d$, jakie jest prawdopodobieństwo, że to klasa $c$) i $P(\\bar{c}|d)$. A właściwie będziemy te prawdopodobieństwa porównywać.\n",
@ -139,25 +159,25 @@
},
{
"cell_type": "markdown",
"id": "united-recognition",
"id": "governing-fiction",
"metadata": {},
"source": [
"Zastosujmy najpierw wzór Bayesa.\n",
"\n",
"$P(c|d) = \\frac{P(d|c) P(c)}{P(d)} \\propto P(d|c) P(c)$"
"$P(c|d) = \\frac{P(d|c) P(c)}{P(d)}$"
]
},
{
"cell_type": "markdown",
"id": "present-draft",
"id": "northern-spine",
"metadata": {},
"source": [
"$P(\\bar{c}|d) = \\frac{P(d|\\bar{c}) P(\\bar{c})}{P(d)} \\propto P(d|\\bar{c}) P(\\bar{c}) $"
"$P(\\bar{c}|d) = \\frac{P(d|\\bar{c}) P(\\bar{c})}{P(d)}$"
]
},
{
"cell_type": "markdown",
"id": "accepting-tamil",
"id": "utility-induction",
"metadata": {},
"source": [
"(Oczywiście skądinąd $P(\\bar{c}|d) = 1 - P(c|d)$, ale nie będziemy teraz tego wykorzystywali.)"
@ -165,7 +185,7 @@
},
{
"cell_type": "markdown",
"id": "equipped-outreach",
"id": "timely-force",
"metadata": {},
"source": [
"Co możemy pominąć, jeśli tylko porównujemy $P(c|d)$ i $P(\\bar{c}|d)$?\n",
@ -181,7 +201,7 @@
},
{
"cell_type": "markdown",
"id": "active-motor",
"id": "embedded-involvement",
"metadata": {},
"source": [
"#### Prawdopodobieństwo _a priori_\n",
@ -193,12 +213,16 @@
"gdzie\n",
"\n",
"* N - liczba wszystkich dokumentów w zbiorze uczącym\n",
"* N_c - liczba dokumentow w zbiorze uczącym z klasą $c$\n"
"* N_c - liczba dokumentow w zbiorze uczącym z klasą $c$\n",
"\n",
"$\\hat{P}(c) = 0,75$\n",
"\n",
"$\\hat{P}(\\bar{c}) = 0,25$\n"
]
},
{
"cell_type": "markdown",
"id": "trying-indonesian",
"id": "virgin-premiere",
"metadata": {},
"source": [
"#### Prawdopodobieństwo _a posteriori_\n",
@ -212,7 +236,7 @@
},
{
"cell_type": "markdown",
"id": "median-nomination",
"id": "acting-zimbabwe",
"metadata": {},
"source": [
"$P(d|c) = P(t_1\\dots t_n|c)$\n",
@ -228,7 +252,7 @@
},
{
"cell_type": "markdown",
"id": "romantic-verse",
"id": "adjustable-disney",
"metadata": {},
"source": [
"Jak oszacować $\\hat{P}(t|c)$?\n",
@ -238,7 +262,7 @@
},
{
"cell_type": "markdown",
"id": "interracial-today",
"id": "associate-variance",
"metadata": {},
"source": [
"### Wygładzanie\n",
@ -260,12 +284,17 @@
"4. $f(m, 0, 0) = \\frac{1}{m}$\n",
"5. $\\lim_{T \\to \\inf} f(m, k, T) = \\frac{k}{T}$\n",
"\n",
"\n",
"m=2, k1=2, k2=4, T=6, 2/6 => f(2, 2, 6) > 0.333, f(2, 4, 6) < 0.666 \n",
"\n",
"Jaka funkcja spełnia te aksjomaty?\n",
"\n",
"$$f(m, k, T) = \\frac{k+1}{T+m}$$\n",
"\n",
"Jest to wygładzanie +1, albo wygładzanie Laplace'a.\n",
"\n",
"**Pytanie:** Wymyślić jakiś inny przykład funkcji, która będzie spełniała aksjomaty.\n",
"\n",
"\n",
"\n",
"\n",
@ -275,7 +304,7 @@
},
{
"cell_type": "markdown",
"id": "accepting-stockholm",
"id": "complimentary-airplane",
"metadata": {},
"source": [
"Po zastosowaniu do naszego naiwnego klasyfikatora otrzymamy:\n",
@ -283,10 +312,35 @@
"$$\\hat{P}(t|c) = \\frac{\\#(t,c) + 1}{\\sum_i^{|V|} \\#(t_i,c) + |V|}$$"
]
},
{
"cell_type": "markdown",
"id": "comprehensive-junior",
"metadata": {},
"source": [
"### Metoda Bernoulliego"
]
},
{
"cell_type": "markdown",
"id": "vocational-spanish",
"metadata": {},
"source": [
"$$P(𝑑|𝑐) \\approx P(U=u_1|c)\\dots P(U=u_{|v|})$$, gdzie $u_i = 1$, $t_i$ pojawił się w dokumencie $d$, 0 - w przeciwnym razie\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "enabling-manitoba",
"metadata": {},
"source": [
"$\\hat{P}(U_{viagra}=1|c) = \\frac{\\#(viagra,N_c) + 1}{N_c + 2}$"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "moral-ceremony",
"id": "bearing-execution",
"metadata": {},
"outputs": [],
"source": []

View File

@ -0,0 +1,214 @@
{
"cells": [
{
"cell_type": "markdown",
"id": "continent-intermediate",
"metadata": {},
"source": [
"# Regresja liniowa\n",
"\n",
"Regresja liniowa jest prosta...\n",
"\n",
"![Ceny mieszkań](./08_files/linregr1.png)\n",
"\n",
"... dosłownie — dopasuj prostą $y = ax + b$ do punktów\n",
"\n",
"Należy odgadnąć $a$ i $b$ tak, aby zminimalizować błąd\n",
"kwadratowy, tj. wartość:\n",
"\n",
"$$\\sum_{i=1}^n (y_i - (ax_i + b))^2$$\n",
"\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "original-speed",
"metadata": {},
"source": [
"Regresje liniowa (jednej zmiennej) jest łatwa do rozwiązania — wystarczy podstawić do wzoru!\n",
"\n",
"$$\\hat{b} = \\frac{ \\sum_{i=1}^{n}{x_i y_i} - \\frac{1}{n} \\sum_{i=1}^n x_i\n",
" \\sum_{j=1}^n y_j}{ \\sum_{i=1}^n {x_i^2} - \\frac{1}{n} (\\sum_{i=1}^n\n",
" x_i)^2 }$$\n",
"\n",
"$$\\hat{a} = \\bar{y} - \\hat{b}\\,\\bar{x}$$\n",
"\n",
"\n",
"Na przykład dla mieszkań: $b =$ -30809.203 zł, $a =$ 5733.693 zł/m$^2$.\n",
"\n",
"![Ceny mieszkań](./08_files/linregr2.png)\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "significant-relaxation",
"metadata": {},
"source": [
"## Regresja wielu zmiennych\n",
"\n",
"W praktyce mamy do czynienia z **wielowymiarową** regresją\n",
"liniową.\n",
"\n",
"Cena mieszkań może być prognozowana na podstawie:\n",
"\n",
"* powierzchni ($x_1 = 32.3$) \n",
"\n",
"* liczby pokoi ($x_2 = 3$)\n",
" \n",
"* piętra ($x_3 = 4$)\n",
"\n",
"* wieku ($x_4 = 13$)\n",
"\n",
"* odległości od Dworca Centralnego w Warszawie ($x_5 = 371.3$)\n",
"\n",
"* cech zerojedynkowych:\n",
"\n",
" * czy wielka płyta? ($x_6 = 0$)\n",
"\n",
" * czy jest jacuzzi? ($x_7 = 1$)\n",
"\n",
" * czy jest grzyb? ($x_8 = 0$)\n",
"\n",
" * czy to Kielce? ($x_9 = 1$)\n",
"\n",
"* ...\n",
"\n",
"... więc uogólniamy na wiele ($k$) wymiarów:\n",
"\n",
"$$ y = w_0 + w_1x_1 + \\ldots + w_kx_k = w_0 + \\sum_{j=1}^{k} w_jx_j $$\n",
"\n",
"gdzie:\n",
"\n",
"* $x_1,\\dots,x_k$ -- zmienne, na podstawie których zgadujemy\n",
"\n",
"* $w_0, w_1,\\dots,w_k$ -- wagi modelu (do wymyślenia na\n",
" podstawie przykładów)\n",
"\n",
"* $y$ -- odgadywana wartość\n",
"\n",
"Też istnieje wzór ładny wzór na wyliczenie wektora wag!\n",
"\n",
"$$\\mathbf{w} = (\\mathbf{X}^{\\rm T}\\mathbf{X})^{-1} \\mathbf{X}^{\\rm T}\\mathbf{y}$$\n",
"\n",
"... niestety odwracanie macierzy nie jest tanie :("
]
},
{
"cell_type": "markdown",
"id": "ordinary-appendix",
"metadata": {},
"source": [
"## Kilka sporzeżeń\n",
"\n",
"Regresja liniowa to najprostszy możliwy model:\n",
"\n",
"* im czegoś więcej na wejściu, tym proporcjonalnie (troszkę) więcej/mniej na wyjściu\n",
"\n",
"* nic prostszego nie da się wymyślić (funkcja stała??)\n",
"\n",
"* niestety model liniowy czasami kompletnie nie ma sensu (np. wzrost człowieka w\n",
" stosunku do wieku)\n"
]
},
{
"cell_type": "markdown",
"id": "egyptian-austria",
"metadata": {},
"source": [
"## Uczenie\n",
"\n",
"A jak nauczyć się wag z przykładów?\n",
"\n",
"* wzór (z odwracaniem macierzy) — problematyczny\n",
"\n",
"### Metoda gradientu prostego\n",
"\n",
"![Morskie Oko - Krzysztof Dudzik](08_files/morskieoko.jpg)\n",
"\n",
"Schodź wzdłuż lokalnego spadku funkcji błędu.\n",
"\n",
"Tak więc w praktyce zamiast podstawiać do wzoru lepiej się uczyć iteracyjnie -\n",
" metodą **gradientu prostego** (ang. _gradient descent_).\n",
"\n",
"1. Zacznij od byle jakich wag $w_i$ (np. wylosuj)\n",
"2. Weź losowy przykład uczący $x_1,\\dots,x_n$, $y$.\n",
"3. Oblicz wyjście $\\hat{y}$ na podstawie $x_1,\\dots,x_n$.\n",
"4. Oblicz funkcję błędu między $y$ a $\\hat{y}$.\n",
"5. Zmodyfikuj lekko wagi $(w_i)$ w kierunku spadku funkcji błędu.\n",
"6. Jeśli błąd jest duży, idź do 2.\n",
"\n",
"Modyfikacja wag:\n",
"\n",
"$$w_i := w_i - x_i (\\hat{y} - y) \\eta$$\n",
"\n",
"gdzie $\\eta$ to **współczynnik uczenia** _learning rate_.\n"
]
},
{
"cell_type": "markdown",
"id": "exact-train",
"metadata": {},
"source": [
"## Ewaluacja regresji\n",
"\n",
"To miary błędu (im mniej, tym lepiej!)}\n",
"\n",
"### Błąd bezwzględny (Mean Absolute Error, MAE)\n",
"\n",
"$$\\frac{1}{n}\\sum_{i=1}^n |\\hat{y}_i - y_i| $$\n",
"\n",
"### Mean Squared Error (MSE)\n",
"\n",
"$$\\frac{1}{n}\\sum_{i=1}^n (\\hat{y}_i - y_i)^2$$\n",
"\n",
"### Root Mean Squared Error (RMSE)\n",
"\n",
"$$\\sqrt{\\frac{1}{n}\\sum_{i=1}^n (\\hat{y}_i - y_i)^2}$$\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "selective-agriculture",
"metadata": {},
"source": [
"## Regresja liniowa dla tekstu\n",
"\n",
"Czym jest wektor $\\vec{x} = (x_1,\\dots,x_n)$? Wiemy, np. reprezentacja tf-idf (być z trikiem z haszowaniem, Word2vec etc.).\n",
"\n",
"![schemat regresji liniowej](08_files/regresja-liniowa-tekst.png)\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "numerous-limitation",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.9.2"
}
},
"nbformat": 4,
"nbformat_minor": 5
}

BIN
wyk/08_files/linregr1.pdf Normal file

Binary file not shown.

BIN
wyk/08_files/linregr1.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 101 KiB

8
wyk/08_files/linregr1.r Normal file
View File

@ -0,0 +1,8 @@
library(ggplot2)
prices = read.csv("mieszkania.tsv", sep="\t", header=TRUE)
prices$area = prices$powierzchnia
prices$price = prices$cena
pdf("linregr1.pdf")
ggplot(prices, aes(x=area, y=price)) + geom_point()
dev.off()

BIN
wyk/08_files/linregr2.pdf Normal file

Binary file not shown.

BIN
wyk/08_files/linregr2.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 125 KiB

8
wyk/08_files/linregr2.r Normal file
View File

@ -0,0 +1,8 @@
library(ggplot2)
prices = read.csv("mieszkania.tsv", sep="\t", header=TRUE)
prices$area = prices$powierzchnia
prices$price = prices$cena
pdf("linregr2.pdf")
ggplot(prices, aes(x=area, y=price)) + geom_point() + stat_smooth(method=lm, se=FALSE)
dev.off()

121
wyk/08_files/mieszkania.tsv Normal file
View File

@ -0,0 +1,121 @@
powierzchnia cena
53 215000
60.01 219990
54 285000
60 330000
63 212000
39 219000
76.11 399000
48 119000
42.19 260000
53.41 323000
65.65 555000
65 185000
55 247000
100 280000
56 224000
39 230000
42.3 179000
49.65 305000
68 345000
37 145000
103 529000
62.3 209000
17.65 42000
45 500000
36.15 140000
45 159000
50 130000
48 84000
36 359000
39.3 116400
49.48 136950
26 85000
72 469000
64 239000
55 435000
90 175903
90 175903
90 175903
127.88 1710000
59 649000
48.7 240000
73 259000
32.9 275000
64 170000
44.72 174408
68 275000
38 323000
35 110000
63 165000
25 69000
50 290000
76.312 572325
65 429000
52.5 499000
58 145000
34 95000
46 280000
38 120000
52 269000
47 105000
63 266000
67.79 275000
60 550000
107 1230000
53 228000
48.65 148000
39 140000
23 170000
35 195000
71.19 245000
75 329000
53 185000
51 135000
42 133000
38 142000
45.6 470000
50 194000
29 158999
28.8 199000
36 199000
57.43 385621
57.71 402305
60.12 395000
38 210000
56.28 419000
60 346800
41 295000
28.7 219000
39 275000
37 105000
47 330000
64 435000
96 151200
35.34 87000
101 489000
50 129000
49.5 315000
14 2000
31 110000
50.9 265000
117 129000
52.2 250000
28 140000
15 5000
41.7 249000
56.4 490000
30.9 161000
42.3 229000
53 270000
72.4 409000
52.9 370000
37.77 135000
82 260000
32 195000
59 590000
62.01 205000
52.5 543000
56 170000
67.61 285000
51 494000
1 powierzchnia cena
2 53 215000
3 60.01 219990
4 54 285000
5 60 330000
6 63 212000
7 39 219000
8 76.11 399000
9 48 119000
10 42.19 260000
11 53.41 323000
12 65.65 555000
13 65 185000
14 55 247000
15 100 280000
16 56 224000
17 39 230000
18 42.3 179000
19 49.65 305000
20 68 345000
21 37 145000
22 103 529000
23 62.3 209000
24 17.65 42000
25 45 500000
26 36.15 140000
27 45 159000
28 50 130000
29 48 84000
30 36 359000
31 39.3 116400
32 49.48 136950
33 26 85000
34 72 469000
35 64 239000
36 55 435000
37 90 175903
38 90 175903
39 90 175903
40 127.88 1710000
41 59 649000
42 48.7 240000
43 73 259000
44 32.9 275000
45 64 170000
46 44.72 174408
47 68 275000
48 38 323000
49 35 110000
50 63 165000
51 25 69000
52 50 290000
53 76.312 572325
54 65 429000
55 52.5 499000
56 58 145000
57 34 95000
58 46 280000
59 38 120000
60 52 269000
61 47 105000
62 63 266000
63 67.79 275000
64 60 550000
65 107 1230000
66 53 228000
67 48.65 148000
68 39 140000
69 23 170000
70 35 195000
71 71.19 245000
72 75 329000
73 53 185000
74 51 135000
75 42 133000
76 38 142000
77 45.6 470000
78 50 194000
79 29 158999
80 28.8 199000
81 36 199000
82 57.43 385621
83 57.71 402305
84 60.12 395000
85 38 210000
86 56.28 419000
87 60 346800
88 41 295000
89 28.7 219000
90 39 275000
91 37 105000
92 47 330000
93 64 435000
94 96 151200
95 35.34 87000
96 101 489000
97 50 129000
98 49.5 315000
99 14 2000
100 31 110000
101 50.9 265000
102 117 129000
103 52.2 250000
104 28 140000
105 15 5000
106 41.7 249000
107 56.4 490000
108 30.9 161000
109 42.3 229000
110 53 270000
111 72.4 409000
112 52.9 370000
113 37.77 135000
114 82 260000
115 32 195000
116 59 590000
117 62.01 205000
118 52.5 543000
119 56 170000
120 67.61 285000
121 51 494000

BIN
wyk/08_files/morskieoko.jpg Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 291 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 61 KiB