diff --git a/wyk/08_Neuronowy_ngramowy_model.pdf b/wyk/08_Neuronowy_ngramowy_model.pdf
deleted file mode 100644
index c997ccd..0000000
Binary files a/wyk/08_Neuronowy_ngramowy_model.pdf and /dev/null differ
diff --git a/wyk/07_Zanurzenia_slow.ipynb b/wyk/09_Zanurzenia_slow.ipynb
similarity index 92%
rename from wyk/07_Zanurzenia_slow.ipynb
rename to wyk/09_Zanurzenia_slow.ipynb
index 720c72d..476de48 100644
--- a/wyk/07_Zanurzenia_slow.ipynb
+++ b/wyk/09_Zanurzenia_slow.ipynb
@@ -7,7 +7,7 @@
"![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
"
\n",
"
Modelowanie języka
\n",
- " 7. Zanurzenia słów [wykład]
\n",
+ " 09. Zanurzenia słów (Word2vec) [wykład]
\n",
" Filip Graliński (2022)
\n",
"\n",
"\n",
@@ -19,7 +19,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
- "## Zanurzenia słów\n",
+ "## Zanurzenia słów (Word2vec)\n",
"\n"
]
},
@@ -122,7 +122,7 @@
"po prostu będziemy rozpatrywać $|V|$ najczęstszych wyrazów, pozostałe zamienimy\n",
"na specjalny token `` reprezentujący nieznany (*unknown*) wyraz.\n",
"\n",
- "Aby utworzyć taki słownik użyjemy gotowej klasy `Vocab` z pakietu torchtext:\n",
+ "Aby utworzyć taki słownik, użyjemy gotowej klasy `Vocab` z pakietu torchtext:\n",
"\n"
]
},
@@ -313,33 +313,48 @@
"next(iter(DataLoader(train_dataset, batch_size=5)))"
]
},
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "None"
+ ]
+ }
+ ],
+ "source": [
+ "device = 'cuda'\n",
+ "model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)\n",
+ "data = DataLoader(train_dataset, batch_size=5000)\n",
+ "optimizer = torch.optim.Adam(model.parameters())\n",
+ "criterion = torch.nn.NLLLoss()\n",
+ "\n",
+ "model.train()\n",
+ "step = 0\n",
+ "for x, y in data:\n",
+ " x = x.to(device)\n",
+ " y = y.to(device)\n",
+ " optimizer.zero_grad()\n",
+ " ypredicted = model(x)\n",
+ " loss = criterion(torch.log(ypredicted), y)\n",
+ " if step % 100 == 0:\n",
+ " print(step, loss)\n",
+ " step += 1\n",
+ " loss.backward()\n",
+ " optimizer.step()\n",
+ "\n",
+ "torch.save(model.state_dict(), 'model1.bin')"
+ ]
+ },
{
"cell_type": "markdown",
"metadata": {},
"source": [
- " device = 'cuda'\n",
- " model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)\n",
- " data = DataLoader(train_dataset, batch_size=5000)\n",
- " optimizer = torch.optim.Adam(model.parameters())\n",
- " criterion = torch.nn.NLLLoss()\n",
- " \n",
- " model.train()\n",
- " step = 0\n",
- " for x, y in data:\n",
- " x = x.to(device)\n",
- " y = y.to(device)\n",
- " optimizer.zero_grad()\n",
- " ypredicted = model(x)\n",
- " loss = criterion(torch.log(ypredicted), y)\n",
- " if step % 100 == 0:\n",
- " print(step, loss)\n",
- " step += 1\n",
- " loss.backward()\n",
- " optimizer.step()\n",
- " \n",
- " torch.save(model.state_dict(), 'model1.bin')\n",
- "\n",
- "Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:\n",
+ "Policzmy najbardziej prawdopodobne kontynuacje dla zadanego słowa:\n",
"\n"
]
},
@@ -502,7 +517,7 @@
"warstwy liniowej, naszą sieć możemy interpretować jako jednowarstwową\n",
"sieć neuronową, co można zilustrować za pomocą następującego diagramu:\n",
"\n",
- "![img](./07_Zanurzenia_slow/bigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n",
+ "![img](./09_Zanurzenia_slow/bigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n",
"\n"
]
},
@@ -535,7 +550,7 @@
"\n",
"W postaci diagramu można tę interpretację zilustrować w następujący sposób:\n",
"\n",
- "![img](./07_Zanurzenia_slow/bigram2.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot\")\n",
+ "![img](./09_Zanurzenia_slow/bigram2.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot\")\n",
"\n"
]
}
@@ -556,7 +571,7 @@
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
- "version": "3.10.2"
+ "version": "3.10.5"
},
"org": null
},
diff --git a/wyk/07_Zanurzenia_slow.org b/wyk/09_Zanurzenia_slow.org
similarity index 91%
rename from wyk/07_Zanurzenia_slow.org
rename to wyk/09_Zanurzenia_slow.org
index f4c6a42..94352b1 100644
--- a/wyk/07_Zanurzenia_slow.org
+++ b/wyk/09_Zanurzenia_slow.org
@@ -1,4 +1,4 @@
-* Zanurzenia słów
+* Zanurzenia słów (Word2vec)
W praktyce stosowalność słowosieci okazała się zaskakująco
ograniczona. Większy przełom w przetwarzaniu języka naturalnego przyniosły
@@ -47,9 +47,9 @@ ograniczony. Zazwyczaj jest to liczba rzędu kilkudziesięciu wyrazów —
po prostu będziemy rozpatrywać $|V|$ najczęstszych wyrazów, pozostałe zamienimy
na specjalny token ~~ reprezentujący nieznany (/unknown/) wyraz.
-Aby utworzyć taki słownik użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:
+Aby utworzyć taki słownik, użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
from itertools import islice
import regex as re
import sys
@@ -84,7 +84,7 @@ Aby utworzyć taki słownik użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:
16
:end:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
vocab.lookup_tokens([0, 1, 2, 10, 12345])
#+END_SRC
@@ -97,7 +97,7 @@ vocab.lookup_tokens([0, 1, 2, 10, 12345])
Naszą prostą sieć neuronową zaimplementujemy używając frameworku PyTorch.
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
from torch import nn
import torch
@@ -132,7 +132,7 @@ Teraz wyuczmy model. Wpierw tylko potasujmy nasz plik:
shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
#+END_SRC
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
from torch.utils.data import IterableDataset
import itertools
@@ -164,7 +164,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
:results:
:end:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
from torch.utils.data import DataLoader
next(iter(train_dataset))
@@ -175,7 +175,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
(2, 5)
:end:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
from torch.utils.data import DataLoader
next(iter(DataLoader(train_dataset, batch_size=5)))
@@ -186,7 +186,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
[tensor([ 2, 5, 51, 3481, 231]), tensor([ 5, 51, 3481, 231, 4])]
:end:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
device = 'cuda'
model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)
data = DataLoader(train_dataset, batch_size=5000)
@@ -215,9 +215,9 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
None
:end:
-Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:
+Policzmy najbardziej prawdopodobne kontynuacje dla zadanego słowa:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
device = 'cuda'
model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)
model.load_state_dict(torch.load('model1.bin'))
@@ -240,7 +240,7 @@ Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:
Teraz zbadajmy najbardziej podobne zanurzenia dla zadanego słowa:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
vocab = train_dataset.vocab
ixs = torch.tensor(vocab.forward(['kłopot'])).to(device)
@@ -257,7 +257,7 @@ Teraz zbadajmy najbardziej podobne zanurzenia dla zadanego słowa:
[('.', 3, 0.404473215341568), (',', 4, 0.14222915470600128), ('z', 14, 0.10945753753185272), ('?', 6, 0.09583134204149246), ('w', 10, 0.050338443368673325), ('na', 12, 0.020703863352537155), ('i', 11, 0.016762692481279373), ('', 0, 0.014571071602404118), ('...', 15, 0.01453721895813942), ('', 1, 0.011769450269639492)]
:end:
-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
cos = nn.CosineSimilarity(dim=1, eps=1e-6)
embeddings = model.model[0].weight
@@ -313,7 +313,7 @@ warstwy liniowej, naszą sieć możemy interpretować jako jednowarstwową
sieć neuronową, co można zilustrować za pomocą następującego diagramu:
#+CAPTION: Diagram prostego bigramowego neuronowego modelu języka
-[[./07_Zanurzenia_slow/bigram1.drawio.png]]
+[[./09_Zanurzenia_slow/bigram1.drawio.png]]
*** Zanurzenie jako mnożenie przez macierz
@@ -335,4 +335,4 @@ gdzie $E$ będzie tym razem macierzą $m \times |V|$.
W postaci diagramu można tę interpretację zilustrować w następujący sposób:
#+CAPTION: Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot
-[[./07_Zanurzenia_slow/bigram2.drawio.png]]
+[[./09_Zanurzenia_slow/bigram2.drawio.png]]
diff --git a/wyk/10_Neuronowy_ngramowy_model.ipynb b/wyk/10_Neuronowy_ngramowy_model.ipynb
index 3131aaa..c9416d6 100644
--- a/wyk/10_Neuronowy_ngramowy_model.ipynb
+++ b/wyk/10_Neuronowy_ngramowy_model.ipynb
@@ -1,4 +1,3 @@
-
{
"cells": [
{
@@ -16,4 +15,355 @@
"\n"
]
},
-{"cell_type":"markdown","metadata":{},"source":["## Neuronowy n-gramowy model języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Omówiony w poprzedniej części neuronowy bigramowy model języka\nwarunkuje kolejny wyraz jedynie względem bezpośrednio poprzedzającego\n— jak w każdym bigramowym modelu przyjmujemy założenie, że $w_i$\nzależy tylko od $w_{i-1}$. Rzecz jasna jest to bardzo duże\nograniczenie, w rzeczywistości bardzo często prawdopodobieństwo\nkolejnego wyrazu zależy od wyrazu dwie, trzy, cztery itd. pozycje\nwstecz czy w ogólności od wszystkich wyrazów poprzedzających (bez\nwzględu na ich pozycje).\n\n**Pytanie**: Wskaż zależności o zasięgu większym niż 1 wyraz w zdaniu\n/Zatopieni w kłębach dymu cygar i pochyleni nad butelkami z ciemnego\nszkła obywatele tej dzielnicy, jedni zakładali się o wygranę lub\nprzegranę Anglii, drudzy o bankructwo Wokulskiego; jedni nazywali\ngeniuszem Bismarcka, drudzy — awanturnikiem Wokulskiego; jedni\nkrytykowali postępowanie prezydenta MacMahona, inni twierdzili, że\nWokulski jest zdecydowanym wariatem, jeżeli nie czymś gorszym…/\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Trigramowy neuronowy model języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Spróbujmy najpierw rozszerzyć nasz model na trigramy, to znaczy\nbędziemy przewidywać słowo $w_i$ na podstawie słów $w_{i-2}$ i\n$w_{i-1}$.\n\nNajprostsze rozwiązanie polegałoby na zanurzeniu pary $(w_{i-2},\nw_{i-1})$ w całości i postępowaniu jak w przypadku modelu bigramowego.\nByłoby to jednak zupełnie niepraktyczne, jako że:\n\n- liczba zanurzeń do wyuczenia byłaby olbrzymia ($|V|^2$ — byłoby to\n ewentualnie akceptowalne dla modeli operujących na krótszych\n jednostkach niż słowa, np. na znakach),\n- w szczególności zanurzenia dla par $(v, u)$, $(u, v)$, $(u, u)$ i\n $(v, v)$ nie miałyby ze sobą nic wspólnego.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Konketanacja zanurzeń\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Właściwsze rozwiązanie polega na zanurzeniu dalej pojedynczych słów i\nnastępnie ich **konkatenowaniu**.\n\nPrzypomnijmy, że konkatenacja wektorów $\\vec{x_1}$ i $\\vec{x_2}$ to wektor o rozmiarze\n$|\\vec{x_1}| + |\\vec{x_2}|$ powstały ze „sklejania” wektorów $\\vec{x_1}$ i $\\vec{x_2}$.\nKonkatenację wektorów $\\vec{x_1}$ i $\\vec{x_2}$ będziemy oznaczać za pomocą $[\\vec{x_1}, \\vec{x_2}]$.\n\nPrzykład: jeśli $\\vec{x_1} = [-1, 2, 0]$ i $\\vec{x_2} = [3, -3]$,\nwówczas $[\\vec{x_1}, \\vec{x_2}] = [-1, 2, 0, 3, -3]$\n\nOznacza to, że nasza macierz „kontekstowa” $C$ powinna mieć w modelu trigramowym rozmiar nie\n$|V| \\times m$, lecz $|V| \\times (m+m)$ = $|V| \\times 2m$ i wyjście będzie zdefiniowane za pomocą wzoru:\n\n$$\\vec{y} = \\operatorname{softmax}(C[E(w_{i-2}),E(w_{i-1})]),$$\n\nco można przedstawić za pomocą następującego schematu:\n\n![img](./10_Neuronowy_ngramowy_model/trigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n\n"]},{"cell_type":"markdown","metadata":{},"source":["##### Rozbicie macierzy $C$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Zamiast mnożyć macierz $C$ przez konkatenację dwóch wektorów, można\nrozbić macierz $C$ na dwie, powiedzmy $C_{-2}$ i $C_{-1}$, przemnażać\nje osobno przez odpowiadające im wektory i następnie **dodać** macierze,\ntak aby:\n\n$$C[E(w_{i-2}),E(w_{i-1})] = C_{-2}E(w_{i-2}) + C_{-1}E(w_{i-1}).$$\n\nMacierze $C_{-2}$ i $C_{-1}$ będą miały rozmiar $|V| \\times m$.\n\nPrzy tym podejściu możemy powiedzieć, że ostatni i przedostatni wyraz\nmają swoje osobne macierze o potencjalnie różnych wagach — co ma sens,\njako że na inne aspekty zwracamy uwagę przewidując kolejne słowo na\npodstawie wyrazu bezpośrednio poprzedzającego, a na inne — na\npodstawie słowa występującego dwie pozycje wcześniej.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Uogólnienie na $n$-gramowy model języka dla dowolnego $n$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Łatwo uogólnić opisany wyżej trigramowy model języka dla dowolnego $n$.\nUogólniony model można przedstawić za pomocą wzoru:\n\n$$\\vec{y} = \\operatorname{softmax}(C[E(w_{i-n+1}),\\dots,E(w_{i-1})]),$$\n\ngdzie macierz $C$ ma rozmiar $|V| \\times nm$ lub za pomocą wzoru:\n\n$$\\vec{y} = \\operatorname{softmax}(C_{-(n-1)}E(w_{i-n+1}) + \\dots + C_{-1}E(w_{i-1}),$$\n\ngdzie macierze $C_{-(n-1)}$, …, $C_{-1}$ mają rozmiary $|V| \\times m$.\n\nPor. diagram:\n\n![img](./10_Neuronowy_ngramowy_model/ngram.drawio.png \"Diagram prostego n-gramowego neuronowego modelu języka\")\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Dodanie kolejnej warstwy\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W wypadku trigramowego czy — ogólniej — n-gramowego modelu języka dla\n$n \\geq 3$ warto dodać kolejną (**ukrytą**) warstwę, na którą będziemy rzutować\nskonkatenowane embeddingi, zanim zrzutujemy je do długiego wektora\nprawdopodobieństw.\n\nZakładamy, że warstwa ukryta zawiera $h$ neuronów. Wartość $h$ powinna być mniejsza\nniż $nm$ (a może nawet od $m$).\n\n**Pytanie**: Dlaczego wartość $h > nm$ nie jest racjonalnym wyborem?\n\n**Pytanie**: Dlaczego dodanie kolejnej warstwy nie ma sensu dla modelu bigramowego?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Funkcja aktywacji\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Aby warstwa ukryta wnosiła coś nowego, na wyjściu z tej funkcji musimy (dlaczego?)\nzastosować nieliniową **funkcji aktywacji**. Zazwyczaj jako funkcji\naktywacji w sieciach neuronowych używa się funkcji ReLU albo funkcji\nsigmoidalnej. W prostych neuronowych modelach języka sprawdza się też\n**tangens hiperboliczny** (tgh, w literaturze anglojęzycznej tanh):\n\n$$\\operatorname{tgh}(x) = \\frac{e^x - e^{-x}}{e^x + e^{-x}}.$$\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"data":{"image/png":"","text/plain":""},"metadata":{},"output_type":"display_data"}],"source":["import matplotlib.pyplot as plt\nimport torch\nimport torch.nn as nn\n\nx = torch.linspace(-5,5,100)\nplt.xlabel(\"x\")\nplt.ylabel(\"y\")\na = torch.Tensor(x.size()[0]).fill_(2.)\nm = torch.stack([x, a])\nplt.plot(x, nn.functional.tanh(m)[0])\nfname = '10_Neuronowy_ngramowy_model/tanh.png'\nplt.savefig(fname)\nfname"]},{"cell_type":"markdown","metadata":{},"source":["##### Tangens hiperboliczny zastosowany dla wektora\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Tangens hiperboliczny wektora będzie po prostu wektorem tangensów\nhiperbolicznych poszczególnych wartości.\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[],"source":["import torch\nimport torch.nn as nn\n\nv = torch.Tensor([-100, -2.0, 0.0, 0.5, 1000.0])\nnn.functional.tanh(v)"]},{"cell_type":"markdown","metadata":{},"source":["[[[tensor](tensor)([-1.0000, -0.9640, 0.0000, 0.4621, 1.0000])]]\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Wzór i schemat dwuwarstwowego n-gramowego neuronowego modelu języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dwuwarstwowy model języka będzie określony następującym wzorem:\n\n$$\\vec{y} = \\operatorname{softmax}(C\\operatorname{tgh}(W[E(w_{i-n+1}),\\dots,E(w_{i-1})])),$$\n\ngdzie:\n\n- $W$ jest wyuczalną macierzą wag o rozmiarze $h \\times nm$,\n- $C$ będzie macierzą o rozmiarze $|V| \\times h$.\n\nZmodyfikowaną sieć można przedstawić za pomocą następującego schematu:\n\n![img](./10_Neuronowy_ngramowy_model/ngram-tgh.drawio.png \"Dwuwarstwowy n-gramowy neuronowy model języka\")\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Liczba wag w modelu dwuwarstwowym\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Na wagi w modelu dwuwarstwowym składają się:\n\n- zanurzenia: $m|V|$,\n- wagi warstwy ukrytej: $hnm$,\n- wagi warstwy wyjściowej: $|V|h$,\n\na zatem łącznie:\n\n$$m|V| + hnm + |V|h$$\n\nJeśli $h \\approx m$ (co jest realistyczną opcją), wówczas otrzymamy oszacowanie:\n\n$$O(m|V| + nm^2).$$\n\nZauważmy, że względem $n$ oznacza to bardzo korzystną złożoność\n$O(n)$! Oznacza to, że nasz model może działać dla dużo większych\nwartości $n$ niż tradycyjny, statystyczny n-gramowy model języka (dla którego\nwartości $n > 5$ zazwyczaj nie mają sensu).\n\n"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0}
\ No newline at end of file
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Neuronowy n-gramowy model języka\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Omówiony w poprzedniej części neuronowy bigramowy model języka\n",
+ "warunkuje kolejny wyraz jedynie względem bezpośrednio poprzedzającego\n",
+ "— jak w każdym bigramowym modelu przyjmujemy założenie, że $w_i$\n",
+ "zależy tylko od $w_{i-1}$. Rzecz jasna jest to bardzo duże\n",
+ "ograniczenie, w rzeczywistości bardzo często prawdopodobieństwo\n",
+ "kolejnego wyrazu zależy od wyrazu dwie, trzy, cztery itd. pozycje\n",
+ "wstecz czy w ogólności od wszystkich wyrazów poprzedzających (bez\n",
+ "względu na ich pozycje).\n",
+ "\n",
+ "**Pytanie**: Wskaż zależności o zasięgu większym niż 1 wyraz w zdaniu\n",
+ "/Zatopieni w kłębach dymu cygar i pochyleni nad butelkami z ciemnego\n",
+ "szkła obywatele tej dzielnicy, jedni zakładali się o wygranę lub\n",
+ "przegranę Anglii, drudzy o bankructwo Wokulskiego; jedni nazywali\n",
+ "geniuszem Bismarcka, drudzy — awanturnikiem Wokulskiego; jedni\n",
+ "krytykowali postępowanie prezydenta MacMahona, inni twierdzili, że\n",
+ "Wokulski jest zdecydowanym wariatem, jeżeli nie czymś gorszym…/\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Trigramowy neuronowy model języka\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Spróbujmy najpierw rozszerzyć nasz model na trigramy, to znaczy\n",
+ "będziemy przewidywać słowo $w_i$ na podstawie słów $w_{i-2}$ i\n",
+ "$w_{i-1}$.\n",
+ "\n",
+ "Najprostsze rozwiązanie polegałoby na zanurzeniu pary $(w_{i-2},\n",
+ "w_{i-1})$ w całości i postępowaniu jak w przypadku modelu bigramowego.\n",
+ "Byłoby to jednak zupełnie niepraktyczne, jako że:\n",
+ "\n",
+ "- liczba zanurzeń do wyuczenia byłaby olbrzymia ($|V|^2$ — byłoby to\n",
+ " ewentualnie akceptowalne dla modeli operujących na krótszych\n",
+ " jednostkach niż słowa, np. na znakach),\n",
+ "- w szczególności zanurzenia dla par $(v, u)$, $(u, v)$, $(u, u)$ i\n",
+ " $(v, v)$ nie miałyby ze sobą nic wspólnego.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Konketanacja zanurzeń\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Właściwsze rozwiązanie polega na zanurzeniu dalej pojedynczych słów i\n",
+ "następnie ich **konkatenowaniu**.\n",
+ "\n",
+ "Przypomnijmy, że konkatenacja wektorów $\\vec{x_1}$ i $\\vec{x_2}$ to wektor o rozmiarze\n",
+ "$|\\vec{x_1}| + |\\vec{x_2}|$ powstały ze „sklejania” wektorów $\\vec{x_1}$ i $\\vec{x_2}$.\n",
+ "Konkatenację wektorów $\\vec{x_1}$ i $\\vec{x_2}$ będziemy oznaczać za pomocą $[\\vec{x_1}, \\vec{x_2}]$.\n",
+ "\n",
+ "Przykład: jeśli $\\vec{x_1} = [-1, 2, 0]$ i $\\vec{x_2} = [3, -3]$,\n",
+ "wówczas $[\\vec{x_1}, \\vec{x_2}] = [-1, 2, 0, 3, -3]$\n",
+ "\n",
+ "Oznacza to, że nasza macierz „kontekstowa” $C$ powinna mieć w modelu trigramowym rozmiar nie\n",
+ "$|V| \\times m$, lecz $|V| \\times (m+m)$ = $|V| \\times 2m$ i wyjście będzie zdefiniowane za pomocą wzoru:\n",
+ "\n",
+ "$$\\vec{y} = \\operatorname{softmax}(C[E(w_{i-2}),E(w_{i-1})]),$$\n",
+ "\n",
+ "co można przedstawić za pomocą następującego schematu:\n",
+ "\n",
+ "![img](./10_Neuronowy_ngramowy_model/trigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "##### Rozbicie macierzy $C$\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Zamiast mnożyć macierz $C$ przez konkatenację dwóch wektorów, można\n",
+ "rozbić macierz $C$ na dwie, powiedzmy $C_{-2}$ i $C_{-1}$, przemnażać\n",
+ "je osobno przez odpowiadające im wektory i następnie **dodać** macierze,\n",
+ "tak aby:\n",
+ "\n",
+ "$$C[E(w_{i-2}),E(w_{i-1})] = C_{-2}E(w_{i-2}) + C_{-1}E(w_{i-1}).$$\n",
+ "\n",
+ "Macierze $C_{-2}$ i $C_{-1}$ będą miały rozmiar $|V| \\times m$.\n",
+ "\n",
+ "Przy tym podejściu możemy powiedzieć, że ostatni i przedostatni wyraz\n",
+ "mają swoje osobne macierze o potencjalnie różnych wagach — co ma sens,\n",
+ "jako że na inne aspekty zwracamy uwagę przewidując kolejne słowo na\n",
+ "podstawie wyrazu bezpośrednio poprzedzającego, a na inne — na\n",
+ "podstawie słowa występującego dwie pozycje wcześniej.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Uogólnienie na $n$-gramowy model języka dla dowolnego $n$\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Łatwo uogólnić opisany wyżej trigramowy model języka dla dowolnego $n$.\n",
+ "Uogólniony model można przedstawić za pomocą wzoru:\n",
+ "\n",
+ "$$\\vec{y} = \\operatorname{softmax}(C[E(w_{i-n+1}),\\dots,E(w_{i-1})]),$$\n",
+ "\n",
+ "gdzie macierz $C$ ma rozmiar $|V| \\times nm$ lub za pomocą wzoru:\n",
+ "\n",
+ "$$\\vec{y} = \\operatorname{softmax}(C_{-(n-1)}E(w_{i-n+1}) + \\dots + C_{-1}E(w_{i-1}),$$\n",
+ "\n",
+ "gdzie macierze $C_{-(n-1)}$, …, $C_{-1}$ mają rozmiary $|V| \\times m$.\n",
+ "\n",
+ "Por. diagram:\n",
+ "\n",
+ "![img](./10_Neuronowy_ngramowy_model/ngram.drawio.png \"Diagram prostego n-gramowego neuronowego modelu języka\")\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Dodanie kolejnej warstwy\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "W wypadku trigramowego czy — ogólniej — n-gramowego modelu języka dla\n",
+ "$n \\geq 3$ warto dodać kolejną (**ukrytą**) warstwę, na którą będziemy rzutować\n",
+ "skonkatenowane embeddingi, zanim zrzutujemy je do długiego wektora\n",
+ "prawdopodobieństw.\n",
+ "\n",
+ "Zakładamy, że warstwa ukryta zawiera $h$ neuronów. Wartość $h$ powinna być mniejsza\n",
+ "niż $nm$ (a może nawet od $m$).\n",
+ "\n",
+ "**Pytanie**: Dlaczego wartość $h > nm$ nie jest racjonalnym wyborem?\n",
+ "\n",
+ "**Pytanie**: Dlaczego dodanie kolejnej warstwy nie ma sensu dla modelu bigramowego?\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Funkcja aktywacji\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Aby warstwa ukryta wnosiła coś nowego, na wyjściu z tej funkcji musimy (dlaczego?)\n",
+ "zastosować nieliniową **funkcji aktywacji**. Zazwyczaj jako funkcji\n",
+ "aktywacji w sieciach neuronowych używa się funkcji ReLU albo funkcji\n",
+ "sigmoidalnej. W prostych neuronowych modelach języka sprawdza się też\n",
+ "**tangens hiperboliczny** (tgh, w literaturze anglojęzycznej tanh):\n",
+ "\n",
+ "$$\\operatorname{tgh}(x) = \\frac{e^x - e^{-x}}{e^x + e^{-x}}.$$\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "",
+ "text/plain": [
+ ""
+ ]
+ },
+ "metadata": {},
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "import matplotlib.pyplot as plt\n",
+ "import torch\n",
+ "import torch.nn as nn\n",
+ "\n",
+ "x = torch.linspace(-5,5,100)\n",
+ "plt.xlabel(\"x\")\n",
+ "plt.ylabel(\"y\")\n",
+ "a = torch.Tensor(x.size()[0]).fill_(2.)\n",
+ "m = torch.stack([x, a])\n",
+ "plt.plot(x, nn.functional.tanh(m)[0])\n",
+ "fname = '10_Neuronowy_ngramowy_model/tanh.png'\n",
+ "plt.savefig(fname)\n",
+ "fname"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "##### Tangens hiperboliczny zastosowany dla wektora\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Tangens hiperboliczny wektora będzie po prostu wektorem tangensów\n",
+ "hiperbolicznych poszczególnych wartości.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "import torch\n",
+ "import torch.nn as nn\n",
+ "\n",
+ "v = torch.Tensor([-100, -2.0, 0.0, 0.5, 1000.0])\n",
+ "nn.functional.tanh(v)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "[[[tensor](tensor)([-1.0000, -0.9640, 0.0000, 0.4621, 1.0000])]]\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Wzór i schemat dwuwarstwowego n-gramowego neuronowego modelu języka\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Dwuwarstwowy model języka będzie określony następującym wzorem:\n",
+ "\n",
+ "$$\\vec{y} = \\operatorname{softmax}(C\\operatorname{tgh}(W[E(w_{i-n+1}),\\dots,E(w_{i-1})])),$$\n",
+ "\n",
+ "gdzie:\n",
+ "\n",
+ "- $W$ jest wyuczalną macierzą wag o rozmiarze $h \\times nm$,\n",
+ "- $C$ będzie macierzą o rozmiarze $|V| \\times h$.\n",
+ "\n",
+ "Zmodyfikowaną sieć można przedstawić za pomocą następującego schematu:\n",
+ "\n",
+ "![img](./10_Neuronowy_ngramowy_model/ngram-tgh.drawio.png \"Dwuwarstwowy n-gramowy neuronowy model języka\")\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Liczba wag w modelu dwuwarstwowym\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Na wagi w modelu dwuwarstwowym składają się:\n",
+ "\n",
+ "- zanurzenia: $m|V|$,\n",
+ "- wagi warstwy ukrytej: $hnm$,\n",
+ "- wagi warstwy wyjściowej: $|V|h$,\n",
+ "\n",
+ "a zatem łącznie:\n",
+ "\n",
+ "$$m|V| + hnm + |V|h$$\n",
+ "\n",
+ "Jeśli $h \\approx m$ (co jest realistyczną opcją), wówczas otrzymamy oszacowanie:\n",
+ "\n",
+ "$$O(m|V| + nm^2).$$\n",
+ "\n",
+ "Zauważmy, że względem $n$ oznacza to bardzo korzystną złożoność\n",
+ "$O(n)$! Oznacza to, że nasz model może działać dla dużo większych\n",
+ "wartości $n$ niż tradycyjny, statystyczny n-gramowy model języka (dla którego\n",
+ "wartości $n > 5$ zazwyczaj nie mają sensu).\n",
+ "\n"
+ ]
+ }
+ ],
+ "metadata": {
+ "kernelspec": {
+ "display_name": "Python 3 (ipykernel)",
+ "language": "python",
+ "name": "python3"
+ },
+ "language_info": {
+ "codemirror_mode": {
+ "name": "ipython",
+ "version": 3
+ },
+ "file_extension": ".py",
+ "mimetype": "text/x-python",
+ "name": "python",
+ "nbconvert_exporter": "python",
+ "pygments_lexer": "ipython3",
+ "version": "3.10.5"
+ },
+ "org": null
+ },
+ "nbformat": 4,
+ "nbformat_minor": 1
+}