diff --git a/wyk/09_neurozoo.ipynb b/wyk/09_neurozoo.ipynb new file mode 100644 index 0000000..a383f08 --- /dev/null +++ b/wyk/09_neurozoo.ipynb @@ -0,0 +1,1224 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Neurozoo\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Funkcja sigmoidalna\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funkcja sigmoidalna zamienia dowolną wartość („sygnał”) w wartość z przedziału $(0,1)$, czyli wartość, która może być interperetowana jako prawdopodobieństwo.\n", + "\n", + "$$\\sigma(x) = \\frac{1}{1 + e^{-x}}$$\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "tensor(0.6457)" + ] + }, + "execution_count": 1, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import torch\n", + "\n", + "def sigmoid(x):\n", + " return 1 / (1 + torch.exp(-x))\n", + "\n", + "sigmoid(torch.tensor(0.6))" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "'sigmoid.png'" + ] + }, + "execution_count": 2, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "
" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "%matplotlib inline\n", + "import matplotlib.pyplot as plt\n", + "import torch\n", + "\n", + "x = torch.linspace(-5,5,100)\n", + "plt.xlabel(\"x\")\n", + "plt.ylabel(\"y\")\n", + "plt.plot(x, sigmoid(x))\n", + "fname = 'sigmoid.png'\n", + "plt.savefig(fname)\n", + "fname" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "[[file:# Out[32]:\n", + "\n", + " 'sigmoid.png'\n", + "\n", + "![img](./obipy-resources/Tb0Of9.png)]]\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### PyTorch\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funkcja `torch.sigmoid` po prostu stosuje sigmoidę do każdego elementu tensora (*element-wise*).\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "tensor([0.6457, 0.7311, 0.0067])" + ] + }, + "execution_count": 3, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import torch\n", + "\n", + "torch.sigmoid(torch.tensor([0.6, 1.0, -5.0]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Istnieje również `torch.nn.Sigmoid`, które może być używane jako warstwa.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "tensor([0.5000, 0.4502, 0.5987])" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "s = nn.Sigmoid()\n", + "s(torch.tensor([0.0, -0.2, 0.4]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### Implementacja w Pytorchu\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "tensor([0.5000, 0.6225, 0.5744])" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import torch.nn as nn\n", + "import torch\n", + "\n", + "class MySigmoid(nn.Module):\n", + " def __init__(self):\n", + " super(MySigmoid, self).__init__()\n", + "\n", + " def forward(self, x):\n", + " return 1 / (1 + torch.exp(-x))\n", + "\n", + "s = MySigmoid()\n", + "s(torch.tensor([0.0, 0.5, 0.3]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Wagi\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funkcja sigmoidalna nie ma żadnych wyuczalnych wag.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### **Pytanie**: Czy można rozszerzyć funkcję sigmoidalną o jakieś wyuczalne wagi?\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Regresja liniowa\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Softmax\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "W klasyfikacji wieloklasowej należy zwrócić musimy zwrócić rozkład\n", + "prawdopodobieństwa po wszystkich klasach, w przeciwieństwie do\n", + "klasyfikacji binarnej, gdzie wystarczy zwrócić jedną liczbę —\n", + "prawdopodobieństwo pozytywnej klasy ($p$; prawdopodobieństwo drugiej\n", + "klasy to po prostu $1-p$).\n", + "\n", + "A zatem na potrzeby klasyfikacji wieloklasowej potrzeba wektorowego\n", + "odpowiednika funkcji sigmoidalnej, to jest funkcji, która zamienia\n", + "nieznormalizowany wektor $\\vec{z} = [z_1,\\dots,z_k]$ (pochodzący np. z\n", + "poprzedzającej warstwy liniowej) na rozkład prawdopobieństwa.\n", + "Potrzebujemy zatem funkcji $s: \\mathcal{R}^k \\rightarrow [0,1]^k$\n", + "\n", + "spełniającej następujące warunki:\n", + "\n", + "- $s(z_i) = s_i(z) \\in [0,1]$\n", + "- $\\Sigma_i s(z_i) = 1$\n", + "- $z_i > z_j \\Rightarrow s(z_i) > s(z_j)$\n", + "\n", + "Można by podać takie (**błędne**!) rozwiązanie:\n", + "\n", + "$$s(z_i) = \\frac{z_i}{\\Sigma_{j=1}^k z_j}$$\n", + "\n", + "To rozwiązanie zadziała błędnie dla liczb ujemnych, trzeba najpierw\n", + "użyć funkcji monotonicznej, która przekształaca $\\mathcal{R}$ na $\\mathcal{R^+}$.\n", + "Naturalna funkcja tego rodzaju to funkcja wykładnicza $\\exp{x} = e^x$.\n", + "Tym sposobem dochodzimy do funkcji softmax:\n", + "\n", + "$$s(z_i) = \\frac{e^{z_i}}{\\Sigma_{j=1}^k e^{z_j}}$$\n", + "\n", + "Mianownik ułamka w definicji funkcji softmax nazywamy czasami czynnikiem normalizacyjnym:\n", + "$Z(\\vec{z}) = \\Sigma_{j=1}^k e^{z_j}$, wtedy:\n", + "\n", + "$$s(z_i) = \\frac{e^{z_i}}{Z(\\vec{z})}$$\n", + "\n", + "Definicja w PyTorchu:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[75]:\n", + "tensor([0.1182, 0.0022, 0.0059, 0.8737])" + ] + } + ], + "source": [ + "import torch\n", + "\n", + "def softmax(z):\n", + " z_plus = torch.exp(z)\n", + " return z_plus / torch.sum(z_plus)\n", + "\n", + "softmax(torch.tensor([3., -1., 0., 5.]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Soft vs hard\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Dlaczego *softmax*? Czasami używa się funkcji **hardmax**, która np.\n", + "wektora $[3, -1, 0, 5]$ zwróciłaby $[0, 0, 0, 5]$ — to jest po prostu\n", + "wektorowa wersja funkcji zwracającej maksimum. Istnieje też funkcja\n", + "hard\\*arg\\*max, która zwraca wektor *one-hot* — z jedną jedynką na\n", + "pozycji dla największej wartości (zamiast podania największej\n", + "wartości), np. wartość hardargmax dla $[3, -1, 0, 5]$ zwróciłaby $[0,\n", + "0, 0, 1]$.\n", + "\n", + "Zauważmy, że powszechnie przyjęta nazwa *softmax* jest właściwie\n", + "błędna, funkcja ta powinna nazywać się *softargmax*, jako że w\n", + "„miękki” sposób identyfikuje największą wartość przez wartość zbliżoną\n", + "do 1 (na pozostałych pozycjach wektora nie będzie 0).\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### **Pytanie**: Jak można zdefiniować funkcję *softmax* w ścisłym tego słowa znaczeniu („miękki” odpowiednik hardmax, nie hardargmax)?\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### PyTorch\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funkcja `torch.nn.functional.softmax` normalizuje wartości dla całego tensora:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[5]:\n", + "tensor([0.4007, 0.5978, 0.0015])" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "nn.functional.softmax(torch.tensor([0.6, 1.0, -5.0]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "… zobaczmy, jak ta funkcja zachowuje się dla macierzy:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[6]:\n", + "#+BEGIN_EXAMPLE\n", + " tensor([[0.4013, 0.5987],\n", + " [0.0041, 0.9959]])\n", + "#+END_EXAMPLE" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "nn.functional.softmax(torch.tensor([[0.6, 1.0], [-2.0, 3.5]]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Za pomocą (zalecanego zresztą) argumentu `dim` możemy określić wymiar, wzdłuż którego dokonujemy normalizacji:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[8]:\n", + "#+BEGIN_EXAMPLE\n", + " tensor([[0.9309, 0.0759],\n", + " [0.0691, 0.9241]])\n", + "#+END_EXAMPLE" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "nn.functional.softmax(torch.tensor([[0.6, 1.0], [-2.0, 3.5]]), dim=0)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Istnieje również `torch.nn.Softmax`, które może być używane jako warstwa.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[10]:\n", + "tensor([0.3021, 0.2473, 0.4506])" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "s = nn.Softmax(dim=0)\n", + "s(torch.tensor([0.0, -0.2, 0.4]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### Implementacja w Pytorchu\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[48]:\n", + "tensor([0.5000, 0.6225, 0.5744])" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "import torch\n", + "\n", + "class MySoftmax(nn.Module):\n", + " def __init__(self):\n", + " super(MySoftmax, self).__init__()\n", + "\n", + " def forward(self, x):\n", + " ex = torch.exp(x)\n", + " return ex / torch.sum(ex)\n", + "\n", + "s = MySigmoid()\n", + "s(torch.tensor([0.0, 0.5, 0.3]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "###### **Pytanie**: Tak naprawdę wyżej zdefiniowana klasa `MySoftmax` nie zachowuje się identycznie jak `nn.Softmax`. Na czym polega różnica?\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Przypadek szczególny\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Sigmoida jest przypadkiem szczególnym funkcji softmax:\n", + "\n", + "$$\\sigma(x) = \\frac{1}{1 + e^{-x}} = \\frac{e^x}{e^x + 1} = \\frac{e^x}{e^x + e^0} = s([x, 0])_1$$\n", + "\n", + "Ogólniej: softmax na dwuelementowych wektorach daje przesuniętą sigmoidę (przy ustaleniu jednej z wartości).\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "%matplotlib inline\n", + "import matplotlib.pyplot as plt\n", + "import torch\n", + "import torch.nn as nn\n", + "\n", + "x = torch.linspace(-5,5,100)\n", + "plt.xlabel(\"x\")\n", + "plt.ylabel(\"y\")\n", + "a = torch.Tensor(x.size()[0]).fill_(2.)\n", + "m = torch.stack([x, a])\n", + "plt.plot(x, nn.functional.softmax(m, dim=0)[0])\n", + "fname = 'softmax3.png'\n", + "plt.savefig(fname)\n", + "fname" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "[[file:# Out[19]:\n", + "\n", + " 'softmax3.png'\n", + "\n", + "![img](./obipy-resources/gjBA7K.png)]]\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "%matplotlib inline\n", + "import matplotlib.pyplot as plt\n", + "from mpl_toolkits import mplot3d\n", + "import torch\n", + "import torch.nn as nn\n", + "\n", + "x = torch.linspace(-5,5,10)\n", + "y = torch.linspace(-5,5,10)\n", + "fig = plt.figure()\n", + "ax = fig.add_subplot(111, projection='3d')\n", + "plt.xlabel(\"x\")\n", + "plt.ylabel(\"y\")\n", + "X, Y = torch.meshgrid(x, y)\n", + "m = torch.stack([X, Y])\n", + "z = nn.functional.softmax(m, dim=0)\n", + "ax.plot_wireframe(x, y, z[0])\n", + "fname = 'softmax3d.png'\n", + "plt.savefig(fname)\n", + "fname" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "[[file:# Out[27]:\n", + "\n", + " 'softmax3d.png'\n", + "\n", + "![img](./obipy-resources/p96515.png)]]\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Wagi\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Podobnie jak funkcja sigmoidalna, softmax nie ma żadnych wyuczalnych wag.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Zastosowania\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Podstawowym zastosowaniem funkcji softmax jest klasyfikacja\n", + "wieloklasowa, również w wypadku zadań przetwarzania sekwencji, które\n", + "mogą być interpretowane jako klasyfikacja wieloklasowa:\n", + "\n", + "- przewidywanie kolejnego słowa w modelowaniu języka (klasą jest słowo, zbiór klas to słownik)\n", + "- przypisywanie etykiet (np. części mowy) słowom.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### LogSoftmax\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Ze względów obliczeniowych często korzysta się z funkcji **LogSoftmax**\n", + "która zwraca logarytmy pradopodobieństw (*logproby*).\n", + "\n", + "$$log s(z_i) = log \\frac{e^{z_i}}{\\Sigma_{j=1}^k e^{z_j}}$$\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### PyTorch\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[25]:\n", + "tensor([-1.1971, -1.3971, -0.7971])" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "\n", + "s = nn.LogSoftmax(dim=0)\n", + "s(torch.tensor([0.0, -0.2, 0.4]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Niektóre funkcje kosztu (np. `NLLLoss`) zaimplementowane w PyTorchu\n", + "operują właśnie na logarytmach prawdopobieństw.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Przykład: klasyfikacja wieloklasowa\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Na przykładzie rozpoznawania dyscypliny sportu: git://gonito.net/sport-text-classification.git\n", + "\n", + "Wczytujemy zbiór uczący:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[23]:\n", + "#+BEGIN_EXAMPLE\n", + " {'zimowe': 0,\n", + " 'moto': 1,\n", + " 'tenis': 2,\n", + " 'pilka-reczna': 3,\n", + " 'sporty-walki': 4,\n", + " 'koszykowka': 5,\n", + " 'siatkowka': 6,\n", + " 'pilka-nozna': 7}\n", + "#+END_EXAMPLE" + ] + } + ], + "source": [ + "import gzip\n", + "from pytorch_regression.analyzer import vectorize_text, vector_length\n", + "\n", + "texts = []\n", + "labels = []\n", + "labels_dic = {}\n", + "labels_revdic = {}\n", + "c = 0\n", + "\n", + "with gzip.open('sport-text-classification/train/train.tsv.gz', 'rt') as fh:\n", + " for line in fh:\n", + " line = line.rstrip('\\n')\n", + " line = line.replace('\\\\\\t', ' ')\n", + " label, text = line.split('\\t')\n", + " texts.append(text)\n", + " if label not in labels_dic:\n", + " labels_dic[label] =c\n", + " labels_revdic[c] = label\n", + " c += 1\n", + " labels.append(labels_dic[label])\n", + "nb_of_labels = len(labels_dic)\n", + "labels_dic" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Przygotowujemy model:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[8]:" + ] + } + ], + "source": [ + "import torch.nn as nn\n", + "from torch import optim\n", + "\n", + "model = nn.Sequential(\n", + " nn.Linear(vector_length, nb_of_labels),\n", + " nn.LogSoftmax()\n", + " )\n", + "\n", + "optimizer = optim.Adam(model.parameters())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funkcja kosztu to log-loss.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[9]:\n", + "tensor(2.3026)" + ] + } + ], + "source": [ + "import torch\n", + "import torch.nn.functional as F\n", + "\n", + "loss_fn = torch.nn.NLLLoss()\n", + "\n", + "expected_class_id = torch.tensor([2])\n", + "loss_fn(torch.log(\n", + " torch.tensor([[0.3, 0.5, 0.1, 0.0, 0.1]])),\n", + " expected_class_id)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Pętla ucząca:\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[25]:" + ] + } + ], + "source": [ + "iteration = 0\n", + "step = 50\n", + "closs = torch.tensor(0.0, dtype=torch.float, requires_grad=False)\n", + "\n", + "for t, y_exp in zip(texts, labels):\n", + " x = vectorize_text(t).float().unsqueeze(dim=0)\n", + "\n", + " optimizer.zero_grad()\n", + "\n", + " y_logprobs = model(x)\n", + "\n", + " loss = loss_fn(y_logprobs, torch.tensor([y_exp]))\n", + "\n", + " loss.backward()\n", + "\n", + " with torch.no_grad():\n", + " closs += loss\n", + "\n", + " optimizer.step()\n", + "\n", + " if iteration % 50 == 0:\n", + " print((closs / step).item(), loss.item(), iteration, y_exp, torch.exp(y_logprobs), t)\n", + " closs = torch.tensor(0.0, dtype=torch.float, requires_grad=False)\n", + " iteration += 1\n", + "\n", + " if iteration == 5000:\n", + " break" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Model jest tak prosty, że jego wagi są interpretowalne.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[26]:\n", + "tensor([[0.0070, 0.0075, 0.0059, 0.0061, 0.0093, 0.9509, 0.0062, 0.0071]])" + ] + } + ], + "source": [ + "with torch.no_grad():\n", + " x = vectorize_text('NBA').float().unsqueeze(dim=0)\n", + " y_prob = model(x)\n", + "torch.exp(y_prob)" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[32]:\n", + "#+BEGIN_EXAMPLE\n", + " tensor([-2.3693, -2.3421, -2.4205, -2.4353, -2.1499, 2.5163, -2.4351, -2.4546],\n", + " grad_fn=)\n", + "#+END_EXAMPLE" + ] + } + ], + "source": [ + "with torch.no_grad():\n", + " x = vectorize_text('NBA').float().unsqueeze(dim=0)\n", + " ix = torch.argmax(x).item()\n", + "model[0].weight[:,ix]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Możemy nawet zaprezentować wykres przedstawiający rozmieszczenie słów względem dwóch osi odnoszących się do poszczególnych wybranych dyscyplin.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "# Out[45]:" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "%matplotlib inline\n", + "import matplotlib.pyplot as plt\n", + "\n", + "with torch.no_grad():\n", + " words = ['piłka', 'klub', 'kort', 'boisko', 'samochód']\n", + " words_ixs = [torch.argmax(vectorize_text(w).float().unsqueeze(dim=0)).item() for w in words]\n", + "\n", + " x_label = labels_dic['pilka-nozna']\n", + " y_label = labels_dic['tenis']\n", + "\n", + " x = [model[0].weight[x_label, ix] for ix in words_ixs]\n", + " y = [model[0].weight[y_label, ix] for ix in words_ixs]\n", + "\n", + " fig, ax = plt.subplots()\n", + " ax.scatter(x, y)\n", + "\n", + " for i, txt in enumerate(words):\n", + " ax.annotate(txt, (x[i], y[i]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Zadanie etykietowania sekwencji\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Zadanie etykietowania sekwencji (*sequence labelling*) polega na przypisaniu poszczególnym wyrazom (tokenom) tekstu **etykiet** ze skończonego zbioru. Definiując formalnie:\n", + "\n", + "- rozpatrujemy ciąg wejściowy tokenów $(t^1,\\dots,t^K)$\n", + "- dany jest skończony zbiór etykiet $L = \\{l_1,\\dots,l_{|L|}\\}$, dla uproszczenia można założyć, że etykietami\n", + " są po prostu kolejne liczby, tj. $L=\\{0,\\dots,|L|-1\\}$\n", + "- zadanie polega na wygenerowaniu sekwencji etykiet (o tej samej długości co ciąg wejściowy!) $(y^1,\\dots,y^K)$,\n", + " $y^k \\in L$\n", + "\n", + "Zadanie etykietowania można traktować jako przypadek szczególny klasyfikacji wieloklasowej, z tym, że klasyfikacji dokonujemy wielokrotnie — dla każdego tokenu (nie dla każdego tekstu).\n", + "\n", + "Przykłady zastosowań:\n", + "\n", + "- oznaczanie częściami mowy (*POS tagger*) — czasownik, przymiotnik, rzeczownik itd.\n", + "- oznaczanie etykiet nazw w zadaniu NER (nazwisko, kwoty, adresy — najwięcej tokenów będzie miało etykietę pustą, zazwyczaj oznaczaną przez `O`)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### **Pytanie**: czy zadanie tłumaczenia maszynowego można potraktować jako problem etykietowania sekwencji?\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Przykładowe wyzwanie NER CoNLL-2003\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Zob. [https://gonito.net/challenge/en-ner-conll-2003](https://gonito.net/challenge/en-ner-conll-2003).\n", + "\n", + "Przykładowy przykład uczący (`xzcat train.tsv.xz| head -n 1`):\n", + "\n", + "O O B-MISC I-MISC O O O O O B-LOC O B-LOC O O O O O O O O O O O B-MISC I-MISC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER I-PER O B-LOC O O O O O B-PER I-PER O O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O B-LOC O O O O O B-PER I-PER O O O O O\tGOLF - BRITISH MASTERS THIRD ROUND SCORES . NORTHAMPTON , England 1996-08-30 Leading scores after the third round of the British Masters on Friday : 211 Robert Allenby ( Australia ) 69 71 71 212 Pedro Linhart ( Spain ) 72 73 67 216 Miguel Angel Martin ( Spain ) 75 70 71 , Costantino Rocca ( Italy ) 71 73 72 217 Antoine Lebouc ( France ) 74 73 70 , Ian Woosnam 70 76 71 , Francisco Cea ( Spain ) 70 71 76 , Gavin Levenson ( South Africa ) 66 75 76 218 Stephen McAllister 73 76 69 , Joakim Haeggman ( Swe ) 71 77 70 , Jose Coceres ( Argentina ) 69 78 71 , Paul Eales 75 71 72 , Klas Eriksson ( Sweden ) 71 75 72 , Mike Clayton ( Australia ) 69 76 73 , Mark Roe 69 71 78 219 Eamonn Darcy ( Ireland ) 74 76 69 , Bob May ( U.S. ) 74 75 70 , Paul Lawrie 72 75 72 , Miguel Angel Jimenez ( Spain ) 74 72 73 , Peter Mitchell 74 71 75 , Philip Walton ( Ireland ) 71 74 74 , Peter O'Malley ( Australia ) 71 73 75 220 Barry Lane 73 77 70 , Wayne Riley ( Australia ) 71 78 71 , Martin Gates 71 77 72 , Bradley Hughes ( Australia ) 73 75 72 , Peter Hedblom ( Sweden ) 70 75 75 , Retief Goosen ( South Africa ) 71 74 75 , David Gilford 69 74 77 . \n", + "\n", + "W pierwszym polu oczekiwany wynik zapisany za pomocą notacji **BIO**.\n", + "\n", + "Jako metrykę używamy F1 (z pominięciem tagu `O`)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Metryka F1\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Etykietowanie za pomocą klasyfikacji wieloklasowej\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Można potraktować problem etykietowania dokładnie tak jak problem\n", + "klasyfikacji wieloklasowej (jak w przykładzie klasyfikacji dyscyplin\n", + "sportowych powyżej), tzn. rozkład prawdopodobieństwa możliwych etykiet\n", + "uzyskujemy poprzez zastosowanie prostej warstwy liniowej i funkcji softmax:\n", + "\n", + "$$p(l^k=i) = s(\\vec{w}\\vec{v}(t^k))_i = \\frac{e^{\\vec{w}\\vec{v}(t^k)}}{Z},$$\n", + "\n", + "gdzie $\\vec{v}(t^k)$ to reprezentacja wektorowa tokenu $t^k$.\n", + "Zauważmy, że tutaj (w przeciwieństwie do klasyfikacji całego tekstu)\n", + "reprezentacja wektorowa jest bardzo uboga: wektor one-hot! Taki\n", + "klasyfikator w ogóle nie będzie brał pod uwagę kontekstu, tylko sam\n", + "wyraz, więc tak naprawdę zdegeneruje się to do zapamiętania częstości\n", + "etykiet dla każdego słowa osobno.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### Bogatsza reprezentacja słowa\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Można spróbować uzyskać bogatszą reprezentację dla słowa biorąc pod uwagę na przykład:\n", + "\n", + "- długość słowa\n", + "- kształt słowa (*word shape*), np. czy pisany wielkimi literami, czy składa się z cyfr itp.\n", + "- n-gramy znakowe wewnątrz słowa (np. słowo *Kowalski* można zakodować jako sumę wektorów\n", + " trigramów znakówych $\\vec{v}(Kow) + \\vec{v}(owa) + \\vec{v}(wal) + \\vec{v}(als) + \\vec{v}(lsk) + + \\vec{v}(ski)$\n", + "\n", + "Cały czas nie rozpatrujemy jednak w tej metodzie kontekstu wyrazu.\n", + "(*Renault* w pewnym kontekście może być nazwą firmy, w innym —\n", + "nazwiskiem).\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "##### Reprezentacja kontekstu\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Za pomocą wektora można przedstawić nie pojedynczy token $t^k$, lecz\n", + "cały kontekst, dla *okna* o długości $c$ będzie to kontekst $t^{k-c},\\dots,t^k,\\dots,t^{k+c}$.\n", + "Innymi słowy klasyfikujemy token na podstawie jego samego oraz jego kontekstu:\n", + "\n", + "$$p(l^k=i) = \\frac{e^{\\vec{w}\\vec{v}(t^{k-c},\\dots,t^k,\\dots,t^{k+c})}}{Z_k}.$$\n", + "\n", + "Zauważmy, że w tej metodzie w ogóle nie rozpatrujemy sensowności\n", + "sekwencji wyjściowej (etykiet), np. może być bardzo mało\n", + "prawdopodobne, że bezpośrednio po nazwisku występuje data.\n", + "\n", + "Napiszmy wzór określający prawdopodobieństwo całej sekwencji, nie\n", + "tylko pojedynczego tokenu. Na razie będzie to po prostu iloczyn poszczególnych wartości.\n", + "\n", + "$$p(l) = \\prod_{k=1}^K \\frac{e^{\\vec{w}\\vec{v}(t^{k-c},\\dots,t^k,\\dots,t^{k+c})}}{Z_k} = \\frac{e^{\\sum_{k=1}^K\\vec{w}\\vec{v}(t^{k-c},\\dots,t^k,\\dots,t^{k+c})}}{\\prod_{k=1}^K Z_k}$$\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Warunkowe pola losowe\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Warunkowe pola losowe (*Conditional Random Fields*, *CRF*) to klasa\n", + "modeli, które pozwalają uwzględnić zależności między punktami danych\n", + "(które można wyrazić jako graf). Najprostszym przykładem będzie prosty\n", + "graf wyrażający „następowanie po” (czyli sekwencje). Do poprzedniego\n", + "wzoru dodamy składnik $V_{i,j}$ (który można interpretować jako\n", + "macierz) określający prawdopodobieństwo, że po etykiecie o numerze $i$ wystąpi etykieta o numerze $j$.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### **Pytanie**: Czy macierz $V$ musi być symetryczna? Czy $V_{i,j} = V_{j,i}$? Czy jakieś specjalne wartości występują na przekątnej?\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Macierz $V$ wraz z wektorem $\\vec{w}$ będzie stanowiła wyuczalne wagi w naszym modelu.\n", + "\n", + "Wartości $V_{i,j}$ nie stanowią bezpośrednio prawdopodobieństwa, mogą\n", + "przyjmować dowolne wartości, które będę normalizowane podobnie jak to się dzieje w funkcji Softmax.\n", + "\n", + "W takiej wersji warunkowych pól losowych otrzymamy następujący wzór na prawdopodobieństwo całej sekwencji.\n", + "\n", + "$$p(l) = \\frac{e^{\\sum_{k=1}^K\\vec{w}\\vec{v}(t^{k-c},\\dots,t^k,\\dots,t^{k+c}) + \\sum_{k=1}^{K-1} V_{l_k,l_{k+1}}}}{\\prod_{k=1}^K Z_k}$$\n", + "\n" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.9.2" + }, + "org": null + }, + "nbformat": 4, + "nbformat_minor": 1 +}