Fix 09

2022-07-06 08:28:27 +02:00 · 2022-07-06 08:28:27 +02:00 · 1e50331206
commit 1e50331206
parent b343653f5e
4 changed files with 411 additions and 46 deletions
--- a/wyk/08_Neuronowy_ngramowy_model.pdf
+++ b/wyk/08_Neuronowy_ngramowy_model.pdf
--- a/wyk/09_Zanurzenia_slow.ipynb
+++ b/wyk/09_Zanurzenia_slow.ipynb
@ -7,7 +7,7 @@
    "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
    "<div class=\"alert alert-block alert-info\">\n",
    "<h1> Modelowanie języka</h1>\n",
-    "<h2> 7. <i>Zanurzenia słów</i>  [wykład]</h2> \n",
+    "<h2> 09. <i>Zanurzenia słów (Word2vec)</i>  [wykład]</h2> \n",
    "<h3> Filip Graliński (2022)</h3>\n",
    "</div>\n",
    "\n",
@ -19,7 +19,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-    "## Zanurzenia słów\n",
+    "## Zanurzenia słów (Word2vec)\n",
    "\n"
   ]
  },
@ -122,7 +122,7 @@
    "po prostu będziemy rozpatrywać $|V|$ najczęstszych wyrazów, pozostałe zamienimy\n",
    "na specjalny token `<unk>` reprezentujący nieznany (*unknown*) wyraz.\n",
    "\n",
-    "Aby utworzyć taki słownik użyjemy gotowej klasy `Vocab` z pakietu torchtext:\n",
+    "Aby utworzyć taki słownik, użyjemy gotowej klasy `Vocab` z pakietu torchtext:\n",
    "\n"
   ]
  },
@ -314,18 +314,28 @@
   ]
  },
  {
-   "cell_type": "markdown",
+   "cell_type": "code",
+   "execution_count": 1,
   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "None"
+     ]
+    }
+   ],
   "source": [
-    "    device = 'cuda'\n",
-    "    model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)\n",
-    "    data = DataLoader(train_dataset, batch_size=5000)\n",
-    "    optimizer = torch.optim.Adam(model.parameters())\n",
-    "    criterion = torch.nn.NLLLoss()\n",
-    "    \n",
-    "    model.train()\n",
-    "    step = 0\n",
-    "    for x, y in data:\n",
+    "device = 'cuda'\n",
+    "model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)\n",
+    "data = DataLoader(train_dataset, batch_size=5000)\n",
+    "optimizer = torch.optim.Adam(model.parameters())\n",
+    "criterion = torch.nn.NLLLoss()\n",
+    "\n",
+    "model.train()\n",
+    "step = 0\n",
+    "for x, y in data:\n",
    "   x = x.to(device)\n",
    "   y = y.to(device)\n",
    "   optimizer.zero_grad()\n",
@ -336,10 +346,15 @@
    "   step += 1\n",
    "   loss.backward()\n",
    "   optimizer.step()\n",
-    "    \n",
-    "    torch.save(model.state_dict(), 'model1.bin')\n",
    "\n",
-    "Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:\n",
+    "torch.save(model.state_dict(), 'model1.bin')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Policzmy najbardziej prawdopodobne kontynuacje dla zadanego słowa:\n",
    "\n"
   ]
  },
@ -502,7 +517,7 @@
    "warstwy liniowej, naszą sieć możemy interpretować jako jednowarstwową\n",
    "sieć neuronową, co można zilustrować za pomocą następującego diagramu:\n",
    "\n",
-    "![img](./07_Zanurzenia_slow/bigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n",
+    "![img](./09_Zanurzenia_slow/bigram1.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka\")\n",
    "\n"
   ]
  },
@ -535,7 +550,7 @@
    "\n",
    "W postaci diagramu można tę interpretację zilustrować w następujący sposób:\n",
    "\n",
-    "![img](./07_Zanurzenia_slow/bigram2.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot\")\n",
+    "![img](./09_Zanurzenia_slow/bigram2.drawio.png \"Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot\")\n",
    "\n"
   ]
  }
@ -556,7 +571,7 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-   "version": "3.10.2"
+   "version": "3.10.5"
  },
  "org": null
 },
--- a/wyk/09_Zanurzenia_slow.org
+++ b/wyk/09_Zanurzenia_slow.org
@ -1,4 +1,4 @@
-* Zanurzenia słów
+* Zanurzenia słów (Word2vec)

 W praktyce stosowalność słowosieci okazała się zaskakująco
 ograniczona. Większy przełom w przetwarzaniu języka naturalnego przyniosły
@ -47,9 +47,9 @@ ograniczony. Zazwyczaj jest to liczba rzędu kilkudziesięciu wyrazów —
 po prostu będziemy rozpatrywać $|V|$ najczęstszych wyrazów, pozostałe zamienimy
 na specjalny token ~<unk>~ reprezentujący nieznany (/unknown/) wyraz.

-Aby utworzyć taki słownik użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:
+Aby utworzyć taki słownik, użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  from itertools import islice
  import regex as re
  import sys
@ -84,7 +84,7 @@ Aby utworzyć taki słownik użyjemy gotowej klasy ~Vocab~ z pakietu torchtext:
 16
 :end:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
 vocab.lookup_tokens([0, 1, 2, 10, 12345])
 #+END_SRC

@ -97,7 +97,7 @@ vocab.lookup_tokens([0, 1, 2, 10, 12345])

 Naszą prostą sieć neuronową zaimplementujemy używając frameworku PyTorch.

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  from torch import nn
  import torch

@ -132,7 +132,7 @@ Teraz wyuczmy model. Wpierw tylko potasujmy nasz plik:
 shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
 #+END_SRC

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  from torch.utils.data import IterableDataset
  import itertools

@ -164,7 +164,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
 :results:
 :end:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  from torch.utils.data import DataLoader

  next(iter(train_dataset))
@ -175,7 +175,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
 (2, 5)
 :end:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  from torch.utils.data import DataLoader

  next(iter(DataLoader(train_dataset, batch_size=5)))
@ -186,7 +186,7 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
 [tensor([   2,    5,   51, 3481,  231]), tensor([   5,   51, 3481,  231,    4])]
 :end:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  device = 'cuda'
  model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)
  data = DataLoader(train_dataset, batch_size=5000)
@ -215,9 +215,9 @@ shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
 None
 :end:

-Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:
+Policzmy najbardziej prawdopodobne kontynuacje dla zadanego słowa:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  device = 'cuda'
  model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size).to(device)
  model.load_state_dict(torch.load('model1.bin'))
@ -240,7 +240,7 @@ Policzmy najbardziej prawdopodobne kontynuację dla zadanego słowa:

 Teraz zbadajmy najbardziej podobne zanurzenia dla zadanego słowa:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  vocab = train_dataset.vocab
  ixs = torch.tensor(vocab.forward(['kłopot'])).to(device)

@ -257,7 +257,7 @@ Teraz zbadajmy najbardziej podobne zanurzenia dla zadanego słowa:
 [('.', 3, 0.404473215341568), (',', 4, 0.14222915470600128), ('z', 14, 0.10945753753185272), ('?', 6, 0.09583134204149246), ('w', 10, 0.050338443368673325), ('na', 12, 0.020703863352537155), ('i', 11, 0.016762692481279373), ('<unk>', 0, 0.014571071602404118), ('...', 15, 0.01453721895813942), ('</s>', 1, 0.011769450269639492)]
 :end:

-#+BEGIN_SRC python :session mysession :exports both :results raw drawer
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
  cos = nn.CosineSimilarity(dim=1, eps=1e-6)

  embeddings = model.model[0].weight
@ -313,7 +313,7 @@ warstwy liniowej, naszą sieć możemy interpretować jako jednowarstwową
 sieć neuronową, co można zilustrować za pomocą następującego diagramu:

 #+CAPTION: Diagram prostego bigramowego neuronowego modelu języka
-[[./07_Zanurzenia_slow/bigram1.drawio.png]]
+[[./09_Zanurzenia_slow/bigram1.drawio.png]]

 *** Zanurzenie jako mnożenie przez macierz

@ -335,4 +335,4 @@ gdzie $E$ będzie tym razem macierzą $m \times |V|$.
 W postaci diagramu można tę interpretację zilustrować w następujący sposób:

 #+CAPTION: Diagram prostego bigramowego neuronowego modelu języka z wejściem w postaci one-hot
-[[./07_Zanurzenia_slow/bigram2.drawio.png]]
+[[./09_Zanurzenia_slow/bigram2.drawio.png]]
--- a/wyk/10_Neuronowy_ngramowy_model.ipynb
+++ b/wyk/10_Neuronowy_ngramowy_model.ipynb