diff --git a/wyk/09_neurozoo.org b/wyk/09_neurozoo.org
new file mode 100644
index 0000000..56669ea
--- /dev/null
+++ b/wyk/09_neurozoo.org
@@ -0,0 +1,643 @@
+
+* Neurozoo
+** Funkcja sigmoidalna
+
+Funkcja sigmoidalna zamienia dowolną wartość („sygnał”) w wartość z przedziału $(0,1)$, czyli wartość, która może być interperetowana jako prawdopodobieństwo.
+
+$$\sigma(x) = \frac{1}{1 + e^{-x}}$$
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch
+
+  def sigmoid(x):
+      return 1 / (1 + torch.exp(-x))
+
+  sigmoid(torch.tensor(0.6))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[1]:
+: tensor(0.6457)
+:end:
+
+#+BEGIN_SRC ipython :session mysession :results file
+  %matplotlib inline
+  import matplotlib.pyplot as plt
+  import torch
+
+  x = torch.linspace(-5,5,100)
+  plt.xlabel("x")
+  plt.ylabel("y")
+  plt.plot(x, sigmoid(x))
+  fname = 'sigmoid.png'
+  plt.savefig(fname)
+  fname
+#+END_SRC
+
+#+RESULTS:
+[[file:# Out[32]:
+: 'sigmoid.png'
+[[file:./obipy-resources/Tb0Of9.png]]]]
+
+*** PyTorch
+
+Funkcja ~torch.sigmoid~ po prostu stosuje sigmoidę do każdego elementu tensora (/element-wise/).
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch
+
+  torch.sigmoid(torch.tensor([0.6, 1.0, -5.0]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[38]:
+: tensor([0.6457, 0.7311, 0.0067])
+:end:
+
+Istnieje również ~torch.nn.Sigmoid~, które może być używane jako warstwa.
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  s = nn.Sigmoid()
+  s(torch.tensor([0.0, -0.2, 0.4]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[49]:
+: tensor([0.5000, 0.4502, 0.5987])
+:end:
+
+**** Implementacja w Pytorchu
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+    import torch.nn as nn
+    import torch
+
+    class MySigmoid(nn.Module):
+        def __init__(self):
+            super(MySigmoid, self).__init__()
+
+        def forward(self, x):
+            return 1 / (1 + torch.exp(-x))
+
+    s = MySigmoid()
+    s(torch.tensor([0.0, 0.5, 0.3]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[48]:
+: tensor([0.5000, 0.6225, 0.5744])
+:end:
+
+*** Wagi
+
+Funkcja sigmoidalna nie ma żadnych wyuczalnych wag.
+
+**** *Pytanie*: Czy można rozszerzyć funkcję sigmoidalną o jakieś wyuczalne wagi?
+
+** Regresja liniowa
+
+** Softmax
+
+W klasyfikacji wieloklasowej należy zwrócić musimy zwrócić rozkład
+prawdopodobieństwa po wszystkich klasach, w przeciwieństwie do
+klasyfikacji binarnej, gdzie wystarczy zwrócić jedną liczbę —
+prawdopodobieństwo pozytywnej klasy ($p$; prawdopodobieństwo drugiej
+klasy to po prostu $1-p$).
+
+A zatem na potrzeby klasyfikacji wieloklasowej potrzeba wektorowego
+odpowiednika funkcji sigmoidalnej, to jest funkcji, która zamienia
+nieznormalizowany wektor $\vec{z} = [z_1,\dots,z_k]$ (pochodzący np. z
+poprzedzającej warstwy liniowej) na rozkład prawdopobieństwa.
+Potrzebujemy zatem funkcji $s: \mathcal{R}^k \rightarrow [0,1]^k$
+
+spełniającej następujące warunki:
+
+- $s(z_i) = s_i(z) \in [0,1]$
+- $\Sigma_i s(z_i) = 1$
+- $z_i > z_j \Rightarrow s(z_i) > s(z_j)$
+
+Można by podać takie (*błędne*!) rozwiązanie:
+
+$$s(z_i) = \frac{z_i}{\Sigma_{j=1}^k z_j}$$
+
+To rozwiązanie zadziała błędnie dla liczb ujemnych, trzeba najpierw
+użyć funkcji monotonicznej, która przekształaca $\mathcal{R}$ na $\mathcal{R^+}$.
+Naturalna funkcja tego rodzaju to funkcja wykładnicza $\exp{x} = e^x$.
+Tym sposobem dochodzimy do funkcji softmax:
+
+$$s(z_i) = \frac{e^{z_i}}{\Sigma_{j=1}^k e^{z_j}}$$
+
+Mianownik ułamka w definicji funkcji softmax nazywamy czasami czynnikiem normalizacyjnym:
+$Z(\vec{z}) = \Sigma_{j=1}^k e^{z_j}$, wtedy:
+
+$$s(z_i) = \frac{e^{z_i}}{Z(\vec{z})}$$
+
+Definicja w PyTorchu:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch
+
+  def softmax(z):
+      z_plus = torch.exp(z)
+      return z_plus / torch.sum(z_plus)
+
+  softmax(torch.tensor([3., -1., 0., 5.]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[75]:
+: tensor([0.1182, 0.0022, 0.0059, 0.8737])
+:end:
+
+*** Soft vs hard
+
+Dlaczego /softmax/? Czasami używa się funkcji *hardmax*, która np.
+wektora $[3, -1, 0, 5]$ zwróciłaby $[0, 0, 0, 5]$ — to jest po prostu
+wektorowa wersja funkcji zwracającej maksimum. Istnieje też funkcja
+hard*arg*max, która zwraca wektor /one-hot/ — z jedną jedynką na
+pozycji dla największej wartości (zamiast podania największej
+wartości), np. wartość hardargmax dla $[3, -1, 0, 5]$ zwróciłaby $[0,
+0, 0, 1]$.
+
+Zauważmy, że powszechnie przyjęta nazwa /softmax/ jest właściwie
+błędna, funkcja ta powinna nazywać się /softargmax/, jako że w
+„miękki” sposób identyfikuje największą wartość przez wartość zbliżoną
+do 1 (na pozostałych pozycjach wektora nie będzie 0).
+
+**** *Pytanie*: Jak można zdefiniować funkcję /softmax/ w ścisłym tego słowa znaczeniu („miękki” odpowiednik hardmax, nie hardargmax)?
+
+
+
+*** PyTorch
+
+Funkcja ~torch.nn.functional.softmax~ normalizuje wartości dla całego tensora:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  nn.functional.softmax(torch.tensor([0.6, 1.0, -5.0]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[5]:
+: tensor([0.4007, 0.5978, 0.0015])
+:end:
+
+… zobaczmy, jak ta funkcja zachowuje się dla macierzy:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  nn.functional.softmax(torch.tensor([[0.6, 1.0], [-2.0, 3.5]]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[6]:
+#+BEGIN_EXAMPLE
+  tensor([[0.4013, 0.5987],
+  [0.0041, 0.9959]])
+#+END_EXAMPLE
+:end:
+
+Za pomocą (zalecanego zresztą) argumentu ~dim~ możemy określić wymiar, wzdłuż którego dokonujemy normalizacji:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  nn.functional.softmax(torch.tensor([[0.6, 1.0], [-2.0, 3.5]]), dim=0)
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[8]:
+#+BEGIN_EXAMPLE
+  tensor([[0.9309, 0.0759],
+  [0.0691, 0.9241]])
+#+END_EXAMPLE
+:end:
+
+Istnieje również ~torch.nn.Softmax~, które może być używane jako warstwa.
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  s = nn.Softmax(dim=0)
+  s(torch.tensor([0.0, -0.2, 0.4]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[10]:
+: tensor([0.3021, 0.2473, 0.4506])
+:end:
+
+**** Implementacja w Pytorchu
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+  import torch
+
+  class MySoftmax(nn.Module):
+      def __init__(self):
+          super(MySoftmax, self).__init__()
+
+      def forward(self, x):
+          ex = torch.exp(x)
+          return ex / torch.sum(ex)
+
+  s = MySigmoid()
+  s(torch.tensor([0.0, 0.5, 0.3]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[48]:
+: tensor([0.5000, 0.6225, 0.5744])
+:end:
+
+***** *Pytanie*: Tak naprawdę wyżej zdefiniowana klasa ~MySoftmax~ nie zachowuje się identycznie jak ~nn.Softmax~. Na czym polega różnica?
+
+*** Przypadek szczególny
+
+Sigmoida jest przypadkiem szczególnym funkcji softmax:
+
+$$\sigma(x) = \frac{1}{1 + e^{-x}} = \frac{e^x}{e^x + 1} = \frac{e^x}{e^x + e^0} = s([x, 0])_1$$
+
+Ogólniej: softmax na dwuelementowych wektorach daje przesuniętą sigmoidę (przy ustaleniu jednej z wartości).
+
+#+BEGIN_SRC ipython :session mysession :results file
+  %matplotlib inline
+  import matplotlib.pyplot as plt
+  import torch
+  import torch.nn as nn
+
+  x = torch.linspace(-5,5,100)
+  plt.xlabel("x")
+  plt.ylabel("y")
+  a = torch.Tensor(x.size()[0]).fill_(2.)
+  m = torch.stack([x, a])
+  plt.plot(x, nn.functional.softmax(m, dim=0)[0])
+  fname = 'softmax3.png'
+  plt.savefig(fname)
+  fname
+#+END_SRC
+
+#+RESULTS:
+[[file:# Out[19]:
+: 'softmax3.png'
+[[file:./obipy-resources/gjBA7K.png]]]]
+
+#+BEGIN_SRC ipython :session mysession :results file
+  %matplotlib inline
+  import matplotlib.pyplot as plt
+  from mpl_toolkits import mplot3d
+  import torch
+  import torch.nn as nn
+
+  x = torch.linspace(-5,5,10)
+  y = torch.linspace(-5,5,10)
+  fig = plt.figure()
+  ax = fig.add_subplot(111, projection='3d')
+  plt.xlabel("x")
+  plt.ylabel("y")
+  X, Y = torch.meshgrid(x, y)
+  m = torch.stack([X, Y])
+  z = nn.functional.softmax(m, dim=0)
+  ax.plot_wireframe(x, y, z[0])
+  fname = 'softmax3d.png'
+  plt.savefig(fname)
+  fname
+#+END_SRC
+
+#+RESULTS:
+[[file:# Out[27]:
+: 'softmax3d.png'
+[[file:./obipy-resources/p96515.png]]]]
+
+*** Wagi
+
+Podobnie jak funkcja sigmoidalna, softmax nie ma żadnych wyuczalnych wag.
+
+*** Zastosowania
+
+Podstawowym zastosowaniem funkcji softmax jest klasyfikacja
+wieloklasowa, również w wypadku zadań przetwarzania sekwencji, które
+mogą być interpretowane jako klasyfikacja wieloklasowa:
+
+- przewidywanie kolejnego słowa w modelowaniu języka (klasą jest słowo, zbiór klas to słownik)
+- przypisywanie etykiet (np. części mowy) słowom.
+
+** LogSoftmax
+
+Ze względów obliczeniowych często korzysta się z funkcji *LogSoftmax*
+która zwraca logarytmy pradopodobieństw (/logproby/).
+
+$$log s(z_i) = log \frac{e^{z_i}}{\Sigma_{j=1}^k e^{z_j}}$$
+
+*** PyTorch
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+
+  s = nn.LogSoftmax(dim=0)
+  s(torch.tensor([0.0, -0.2, 0.4]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[25]:
+: tensor([-1.1971, -1.3971, -0.7971])
+:end:
+
+Niektóre funkcje kosztu (np. ~NLLLoss~) zaimplementowane w PyTorchu
+operują właśnie na logarytmach prawdopobieństw.
+
+** Przykład: klasyfikacja wieloklasowa
+
+Na przykładzie rozpoznawania dyscypliny sportu: git://gonito.net/sport-text-classification.git
+
+Wczytujemy zbiór uczący:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import gzip
+  from pytorch_regression.analyzer import vectorize_text, vector_length
+
+  texts = []
+  labels = []
+  labels_dic = {}
+  labels_revdic = {}
+  c = 0
+
+  with gzip.open('sport-text-classification/train/train.tsv.gz', 'rt') as fh:
+    for line in fh:
+      line = line.rstrip('\n')
+      line = line.replace('\\\t', ' ')
+      label, text = line.split('\t')
+      texts.append(text)
+      if label not in labels_dic:
+         labels_dic[label] =c
+         labels_revdic[c] = label
+         c += 1
+      labels.append(labels_dic[label])
+  nb_of_labels = len(labels_dic)
+  labels_dic
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[23]:
+#+BEGIN_EXAMPLE
+  {'zimowe': 0,
+  'moto': 1,
+  'tenis': 2,
+  'pilka-reczna': 3,
+  'sporty-walki': 4,
+  'koszykowka': 5,
+  'siatkowka': 6,
+  'pilka-nozna': 7}
+#+END_EXAMPLE
+:end:
+
+Przygotowujemy model:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch.nn as nn
+  from torch import optim
+
+  model = nn.Sequential(
+          nn.Linear(vector_length, nb_of_labels),
+          nn.LogSoftmax()
+        )
+
+  optimizer = optim.Adam(model.parameters())
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[8]:
+:end:
+
+Funkcja kosztu to log-loss.
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  import torch
+  import torch.nn.functional as F
+
+  loss_fn = torch.nn.NLLLoss()
+
+  expected_class_id = torch.tensor([2])
+  loss_fn(torch.log(
+             torch.tensor([[0.3, 0.5, 0.1, 0.0, 0.1]])),
+          expected_class_id)
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[9]:
+: tensor(2.3026)
+:end:
+
+Pętla ucząca:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  iteration = 0
+  step = 50
+  closs = torch.tensor(0.0, dtype=torch.float, requires_grad=False)
+
+  for t, y_exp in zip(texts, labels):
+    x = vectorize_text(t).float().unsqueeze(dim=0)
+
+    optimizer.zero_grad()
+
+    y_logprobs = model(x)
+
+    loss = loss_fn(y_logprobs, torch.tensor([y_exp]))
+
+    loss.backward()
+
+    with torch.no_grad():
+        closs += loss
+
+    optimizer.step()
+
+    if iteration % 50 == 0:
+       print((closs / step).item(), loss.item(), iteration, y_exp, torch.exp(y_logprobs), t)
+       closs = torch.tensor(0.0, dtype=torch.float, requires_grad=False)
+    iteration += 1
+
+    if iteration == 5000:
+       break
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[25]:
+:end:
+
+Model jest tak prosty, że jego wagi są interpretowalne.
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  with torch.no_grad():
+    x = vectorize_text('NBA').float().unsqueeze(dim=0)
+    y_prob = model(x)
+  torch.exp(y_prob)
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[26]:
+: tensor([[0.0070, 0.0075, 0.0059, 0.0061, 0.0093, 0.9509, 0.0062, 0.0071]])
+:end:
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  with torch.no_grad():
+    x = vectorize_text('NBA').float().unsqueeze(dim=0)
+    ix = torch.argmax(x).item()
+  model[0].weight[:,ix]
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[32]:
+#+BEGIN_EXAMPLE
+  tensor([-2.3693, -2.3421, -2.4205, -2.4353, -2.1499,  2.5163, -2.4351, -2.4546],
+  grad_fn=<SelectBackward>)
+#+END_EXAMPLE
+:end:
+
+Możemy nawet zaprezentować wykres przedstawiający rozmieszczenie słów względem dwóch osi odnoszących się do poszczególnych wybranych dyscyplin.
+
+#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+  %matplotlib inline
+  import matplotlib.pyplot as plt
+
+  with torch.no_grad():
+      words = ['piłka', 'klub', 'kort', 'boisko', 'samochód']
+      words_ixs = [torch.argmax(vectorize_text(w).float().unsqueeze(dim=0)).item() for w in words]
+
+      x_label = labels_dic['pilka-nozna']
+      y_label = labels_dic['tenis']
+
+      x = [model[0].weight[x_label, ix] for ix in words_ixs]
+      y = [model[0].weight[y_label, ix] for ix in words_ixs]
+
+      fig, ax = plt.subplots()
+      ax.scatter(x, y)
+
+      for i, txt in enumerate(words):
+          ax.annotate(txt, (x[i], y[i]))
+#+END_SRC
+
+#+RESULTS:
+:results:
+# Out[45]:
+[[file:./obipy-resources/5egYcv.png]]
+:end:
+
+** Zadanie etykietowania sekwencji
+
+Zadanie etykietowania sekwencji (/sequence labelling/) polega na przypisaniu poszczególnym wyrazom (tokenom) tekstu *etykiet* ze skończonego zbioru. Definiując formalnie:
+
+- rozpatrujemy ciąg wejściowy tokenów $(t^1,\dots,t^K)$
+- dany jest skończony zbiór etykiet $L = \{l_1,\dots,l_{|L|}\}$, dla uproszczenia można założyć, że etykietami
+  są po prostu kolejne liczby, tj. $L=\{0,\dots,|L|-1\}$
+- zadanie polega na wygenerowaniu sekwencji etykiet (o tej samej długości co ciąg wejściowy!) $(y^1,\dots,y^K)$,
+  $y^k \in L$
+
+Zadanie etykietowania można traktować jako przypadek szczególny klasyfikacji wieloklasowej, z tym, że klasyfikacji dokonujemy wielokrotnie — dla każdego tokenu (nie dla każdego tekstu).
+
+Przykłady zastosowań:
+
+- oznaczanie częściami mowy (/POS tagger/) — czasownik, przymiotnik, rzeczownik itd.
+- oznaczanie etykiet nazw w zadaniu NER (nazwisko, kwoty, adresy — najwięcej tokenów będzie miało etykietę pustą, zazwyczaj oznaczaną przez ~O~)
+
+*** *Pytanie*: czy zadanie tłumaczenia maszynowego można potraktować jako problem etykietowania sekwencji?
+
+*** Przykładowe wyzwanie NER CoNLL-2003
+
+Zob. <https://gonito.net/challenge/en-ner-conll-2003>.
+
+Przykładowy przykład uczący (~xzcat train.tsv.xz| head -n 1~):
+
+O O B-MISC I-MISC O O O O O B-LOC O B-LOC O O O O O O O O O O O B-MISC I-MISC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER I-PER O B-LOC O O O O O B-PER I-PER O O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O O O O B-PER I-PER O B-LOC O O O O O O B-PER I-PER O B-LOC O O O O O B-PER I-PER O B-LOC O B-LOC O O O O O B-PER I-PER O O O O O	GOLF - BRITISH MASTERS THIRD ROUND SCORES . </S> NORTHAMPTON , England 1996-08-30 </S> Leading scores after </S> the third round of the British Masters on Friday : </S> 211 Robert Allenby ( Australia ) 69 71 71 </S> 212 Pedro Linhart ( Spain ) 72 73 67 </S> 216 Miguel Angel Martin ( Spain ) 75 70 71 , Costantino Rocca </S> ( Italy ) 71 73 72 </S> 217 Antoine Lebouc ( France ) 74 73 70 , Ian Woosnam 70 76 71 , </S> Francisco Cea ( Spain ) 70 71 76 , Gavin Levenson ( South </S> Africa ) 66 75 76 </S> 218 Stephen McAllister 73 76 69 , Joakim Haeggman ( Swe ) 71 77 </S> 70 , Jose Coceres ( Argentina ) 69 78 71 , Paul Eales 75 71 72 , </S> Klas Eriksson ( Sweden ) 71 75 72 , Mike Clayton ( Australia ) </S> 69 76 73 , Mark Roe 69 71 78 </S> 219 Eamonn Darcy ( Ireland ) 74 76 69 , Bob May ( U.S. ) 74 75 70 , </S> Paul Lawrie 72 75 72 , Miguel Angel Jimenez ( Spain ) 74 72 </S> 73 , Peter Mitchell 74 71 75 , Philip Walton ( Ireland ) 71 74 </S> 74 , Peter O'Malley ( Australia ) 71 73 75 </S> 220 Barry Lane 73 77 70 , Wayne Riley ( Australia ) 71 78 71 , </S> Martin Gates 71 77 72 , Bradley Hughes ( Australia ) 73 75 72 , </S> Peter Hedblom ( Sweden ) 70 75 75 , Retief Goosen ( South </S> Africa ) 71 74 75 , David Gilford 69 74 77 . </S>
+
+W pierwszym polu oczekiwany wynik zapisany za pomocą notacji *BIO*.
+
+Jako metrykę używamy F1 (z pominięciem tagu ~O~)
+
+*** Metryka F1
+
+*** Etykietowanie za pomocą klasyfikacji wieloklasowej
+
+Można potraktować problem etykietowania dokładnie tak jak problem
+klasyfikacji wieloklasowej (jak w przykładzie klasyfikacji dyscyplin
+sportowych powyżej), tzn. rozkład prawdopodobieństwa możliwych etykiet
+uzyskujemy poprzez zastosowanie prostej warstwy liniowej i funkcji softmax:
+
+$$p(l^k=i) = s(\vec{w}\vec{v}(t^k))_i = \frac{e^{\vec{w}\vec{v}(t^k)}}{Z},$$
+
+gdzie $\vec{v}(t^k)$ to reprezentacja wektorowa tokenu $t^k$.
+Zauważmy, że tutaj (w przeciwieństwie do klasyfikacji całego tekstu)
+reprezentacja wektorowa jest bardzo uboga: wektor _one-hot_! Taki
+klasyfikator w ogóle nie będzie brał pod uwagę kontekstu, tylko sam
+wyraz, więc tak naprawdę zdegeneruje się to do zapamiętania częstości
+etykiet dla każdego słowa osobno.
+
+**** Bogatsza reprezentacja słowa
+
+Można spróbować uzyskać bogatszą reprezentację dla słowa biorąc pod uwagę na przykład:
+
+- długość słowa
+- kształt słowa (/word shape/), np. czy pisany wielkimi literami, czy składa się z cyfr itp.
+- n-gramy znakowe wewnątrz słowa (np. słowo /Kowalski/ można zakodować jako sumę wektorów
+  trigramów znakówych $\vec{v}(Kow) + \vec{v}(owa) + \vec{v}(wal) + \vec{v}(als) + \vec{v}(lsk) + + \vec{v}(ski)$
+
+Cały czas nie rozpatrujemy jednak w tej metodzie kontekstu wyrazu.
+(/Renault/ w pewnym kontekście może być nazwą firmy, w innym —
+nazwiskiem).
+
+**** Reprezentacja kontekstu
+
+Za pomocą wektora można przedstawić nie pojedynczy token $t^k$, lecz
+cały kontekst, dla /okna/ o długości $c$ będzie to kontekst $t^{k-c},\dots,t^k,\dots,t^{k+c}$.
+Innymi słowy klasyfikujemy token na podstawie jego samego oraz jego kontekstu:
+
+$$p(l^k=i) = \frac{e^{\vec{w}\vec{v}(t^{k-c},\dots,t^k,\dots,t^{k+c})}}{Z_k}.$$
+
+Zauważmy, że w tej metodzie w ogóle nie rozpatrujemy sensowności
+sekwencji wyjściowej (etykiet), np. może być bardzo mało
+prawdopodobne, że bezpośrednio po nazwisku występuje data.
+
+Napiszmy wzór określający prawdopodobieństwo całej sekwencji, nie
+tylko pojedynczego tokenu. Na razie będzie to po prostu iloczyn poszczególnych wartości.
+
+$$p(l) = \prod_{k=1}^K \frac{e^{\vec{w}\vec{v}(t^{k-c},\dots,t^k,\dots,t^{k+c})}}{Z_k} = \frac{e^{\sum_{k=1}^K\vec{w}\vec{v}(t^{k-c},\dots,t^k,\dots,t^{k+c})}}{\prod_{k=1}^K Z_k}$$
+
+** Warunkowe pola losowe
+
+Warunkowe pola losowe (/Conditional Random Fields/, /CRF/) to klasa
+modeli, które pozwalają uwzględnić zależności między punktami danych
+(które można wyrazić jako graf). Najprostszym przykładem będzie prosty
+graf wyrażający „następowanie po” (czyli sekwencje). Do poprzedniego
+wzoru dodamy składnik $V_{i,j}$ (który można interpretować jako
+macierz) określający prawdopodobieństwo, że po etykiecie o numerze $i$ wystąpi etykieta o numerze $j$.
+
+*** *Pytanie*: Czy macierz $V$ musi być symetryczna? Czy $V_{i,j} = V_{j,i}$? Czy jakieś specjalne wartości występują na przekątnej?
+
+Macierz $V$ wraz z wektorem $\vec{w}$ będzie stanowiła wyuczalne wagi w naszym modelu.
+
+Wartości $V_{i,j}$ nie stanowią bezpośrednio prawdopodobieństwa, mogą
+przyjmować dowolne wartości, które będę normalizowane podobnie jak to się dzieje w funkcji Softmax.
+
+W takiej wersji warunkowych pól losowych otrzymamy następujący wzór na prawdopodobieństwo całej sekwencji.
+
+$$p(l) = \frac{e^{\sum_{k=1}^K\vec{w}\vec{v}(t^{k-c},\dots,t^k,\dots,t^{k+c}) + \sum_{k=1}^{K-1} V_{l_k,l_{k+1}}}}{\prod_{k=1}^K Z_k}$$
diff --git a/wyk/pytorch-regression/analyzer.py b/wyk/pytorch_regression/analyzer.py
similarity index 100%
rename from wyk/pytorch-regression/analyzer.py
rename to wyk/pytorch_regression/analyzer.py
diff --git a/wyk/pytorch-regression/analyzer_classification.py b/wyk/pytorch_regression/analyzer_classification.py
similarity index 100%
rename from wyk/pytorch-regression/analyzer_classification.py
rename to wyk/pytorch_regression/analyzer_classification.py
diff --git a/wyk/pytorch-regression/linear0-infer.py b/wyk/pytorch_regression/linear0-infer.py
similarity index 100%
rename from wyk/pytorch-regression/linear0-infer.py
rename to wyk/pytorch_regression/linear0-infer.py
diff --git a/wyk/pytorch-regression/linear0.py b/wyk/pytorch_regression/linear0.py
similarity index 100%
rename from wyk/pytorch-regression/linear0.py
rename to wyk/pytorch_regression/linear0.py
diff --git a/wyk/pytorch-regression/linear1-infer.py b/wyk/pytorch_regression/linear1-infer.py
similarity index 100%
rename from wyk/pytorch-regression/linear1-infer.py
rename to wyk/pytorch_regression/linear1-infer.py
diff --git a/wyk/pytorch-regression/linear1.py b/wyk/pytorch_regression/linear1.py
similarity index 100%
rename from wyk/pytorch-regression/linear1.py
rename to wyk/pytorch_regression/linear1.py
diff --git a/wyk/pytorch-regression/linear1b.py b/wyk/pytorch_regression/linear1b.py
similarity index 100%
rename from wyk/pytorch-regression/linear1b.py
rename to wyk/pytorch_regression/linear1b.py
diff --git a/wyk/pytorch-regression/linear2.py b/wyk/pytorch_regression/linear2.py
similarity index 100%
rename from wyk/pytorch-regression/linear2.py
rename to wyk/pytorch_regression/linear2.py
diff --git a/wyk/pytorch-regression/linear3-infer.py b/wyk/pytorch_regression/linear3-infer.py
similarity index 100%
rename from wyk/pytorch-regression/linear3-infer.py
rename to wyk/pytorch_regression/linear3-infer.py
diff --git a/wyk/pytorch-regression/linear3.py b/wyk/pytorch_regression/linear3.py
similarity index 100%
rename from wyk/pytorch-regression/linear3.py
rename to wyk/pytorch_regression/linear3.py
diff --git a/wyk/pytorch-regression/linear4-batches.py b/wyk/pytorch_regression/linear4-batches.py
similarity index 100%
rename from wyk/pytorch-regression/linear4-batches.py
rename to wyk/pytorch_regression/linear4-batches.py
diff --git a/wyk/pytorch-regression/linear4.py b/wyk/pytorch_regression/linear4.py
similarity index 100%
rename from wyk/pytorch-regression/linear4.py
rename to wyk/pytorch_regression/linear4.py
diff --git a/wyk/pytorch-regression/linear5.py b/wyk/pytorch_regression/linear5.py
similarity index 100%
rename from wyk/pytorch-regression/linear5.py
rename to wyk/pytorch_regression/linear5.py
diff --git a/wyk/pytorch-regression/linear6.py b/wyk/pytorch_regression/linear6.py
similarity index 100%
rename from wyk/pytorch-regression/linear6.py
rename to wyk/pytorch_regression/linear6.py
diff --git a/wyk/pytorch-regression/logistic6.py b/wyk/pytorch_regression/logistic6.py
similarity index 100%
rename from wyk/pytorch-regression/logistic6.py
rename to wyk/pytorch_regression/logistic6.py
diff --git a/wyk/pytorch-regression/my_linear_regressor.py b/wyk/pytorch_regression/my_linear_regressor.py
similarity index 100%
rename from wyk/pytorch-regression/my_linear_regressor.py
rename to wyk/pytorch_regression/my_linear_regressor.py
diff --git a/wyk/pytorch-regression/my_linear_regressor2.py b/wyk/pytorch_regression/my_linear_regressor2.py
similarity index 100%
rename from wyk/pytorch-regression/my_linear_regressor2.py
rename to wyk/pytorch_regression/my_linear_regressor2.py
diff --git a/wyk/pytorch-regression/my_neural_network.py b/wyk/pytorch_regression/my_neural_network.py
similarity index 100%
rename from wyk/pytorch-regression/my_neural_network.py
rename to wyk/pytorch_regression/my_neural_network.py