Merge branch 'master' of git.wmi.amu.edu.pl:filipg/aitech-moj

2022-03-21 12:28:44 +01:00 · 2022-03-21 12:28:44 +01:00 · ba5b5aed5d
commit ba5b5aed5d
parent 1dc32cbbd0 6b35645469
22 changed files with 1097 additions and 33 deletions
--- a/wyk/02_Jezyki.org
+++ b/wyk/02_Jezyki.org
@ -9,7 +9,7 @@ Używać będziemy generatorów.
 *Pytanie* Dlaczego generatory zamiast list?
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  import requests
  url = 'https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt'
@ -31,7 +31,7 @@ Powrót pani
 *** Znaki
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  from itertools import islice
  def get_characters(t):
@ -45,7 +45,7 @@ Powrót pani
 ['K', 's', 'i', 'ę', 'g', 'a', ' ', 'p', 'i', 'e', 'r', 'w', 's', 'z', 'a', '\r', '\n', '\r', '\n', '\r', '\n', '\r', '\n', 'G', 'o', 's', 'p', 'o', 'd', 'a', 'r', 's', 't', 'w', 'o', '\r', '\n', '\r', '\n', 'P', 'o', 'w', 'r', 'ó', 't', ' ', 'p', 'a', 'n', 'i']
 :end:
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  from collections import Counter
  c = Counter(get_characters(pan_tadeusz))
@ -65,7 +65,7 @@ Napiszmy pomocniczą funkcję, która zwraca *listę frekwencyjną*.
 Counter({' ': 63444, 'a': 30979, 'i': 29353, 'e': 25343, 'o': 23050, 'z': 22741, 'n': 15505, 'r': 15328, 's': 15255, 'w': 14625, 'c': 14153, 'y': 13732, 'k': 12362, 'd': 11465, '\r': 10851, '\n': 10851, 't': 10757, 'm': 10269, 'ł': 10059, ',': 9130, 'p': 8031, 'u': 7699, 'l': 6677, 'j': 6586, 'b': 5753, 'ę': 5534, 'ą': 4794, 'g': 4775, 'h': 3915, 'ż': 3334, 'ó': 3097, 'ś': 2524, '.': 2380, 'ć': 1956, ';': 1445, 'P': 1265, 'W': 1258, ':': 1152, '!': 1083, 'S': 1045, 'T': 971, 'I': 795, 'N': 793, 'Z': 785, 'J': 729, '—': 720, 'A': 698, 'K': 683, 'ń': 651, 'M': 585, 'B': 567, 'O': 567, 'C': 556, 'D': 552, '«': 540, '»': 538, 'R': 489, '?': 441, 'ź': 414, 'f': 386, 'G': 358, 'L': 316, 'H': 309, 'Ż': 219, 'U': 184, '…': 157, '*': 150, '(': 76, ')': 76, 'Ś': 71, 'F': 47, 'é': 43, '-': 33, 'Ł': 24, 'E': 23, '/': 19, 'Ó': 13, '8': 10, '9': 8, '2': 6, 'v': 5, 'Ź': 4, '1': 4, '3': 3, 'x': 3, 'V': 3, '7': 2, '4': 2, '5': 2, 'q': 2, 'æ': 2, 'à': 1, 'Ć': 1, '6': 1, '0': 1})
 :end:
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  from collections import Counter
  from collections import OrderedDict
@ -88,7 +88,7 @@ OrderedDict([(' ', 63444), ('a', 30979), ('i', 29353), ('e', 25343), ('o', 23050
 :end:
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  import matplotlib.pyplot as plt
  from collections import OrderedDict
@ -119,7 +119,7 @@ Co rozumiemy pod pojęciem słowa czy wyrazu, nie jest oczywiste. W praktyce zal
 Załóżmy, że przez wyraz rozumieć będziemy nieprzerwany ciąg liter bądź cyfr (oraz gwiazdek
 — to za chwilę ułatwi nam analizę pewnego tekstu…).
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  from itertools import islice
  import regex as re
@ -138,7 +138,7 @@ Załóżmy, że przez wyraz rozumieć będziemy nieprzerwany ciąg liter bądź
 Zobaczmy 20 najczęstszych wyrazów.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  rang_freq_with_labels('pt-words-20', get_words(pan_tadeusz), top=20)
 #+END_SRC
@ -147,7 +147,7 @@ Zobaczmy 20 najczęstszych wyrazów.
 Zobaczmy pełny obraz, już bez etykiet.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  import matplotlib.pyplot as plt
  from math import log
@ -172,7 +172,7 @@ Zobaczmy pełny obraz, już bez etykiet.
 Widać, jak różne skale obejmuje ten wykres. Zastosujemy logarytm,
 najpierw tylko do współrzędnej $y$.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  import matplotlib.pyplot as plt
  from math import log
@ -222,7 +222,7 @@ logarytmicznej dla **obu** osi, otrzymamy kształt zbliżony do linii prostej.
 Tę własność tekstów nazywamy **prawem Zipfa**.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  import matplotlib.pyplot as plt
  from math import log
@ -249,7 +249,7 @@ Tę własność tekstów nazywamy **prawem Zipfa**.
 Powiązane z prawem Zipfa prawo językowe opisuje zależność między
 częstością użycia słowa a jego długością. Generalnie im krótsze słowo, tym częstsze.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  def freq_vs_length(name, g, top=None):
      freq = freq_list(g)
@ -294,7 +294,7 @@ po prostu na jednostkach, nie na ich podciągach.
 Statystyki, które policzyliśmy dla pojedynczych liter czy wyrazów, możemy powtórzyć dla n-gramów.
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  def ngrams(iter, size):
    ngram = []
    for item in iter:
@ -317,7 +317,7 @@ Zawsze powinniśmy się upewnić, czy jest jasne, czy chodzi o n-gramy znakowe c
 *** 3-gramy znakowe
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  log_rang_log_freq('pt-3-char-ngrams-log-log', ngrams(get_characters(pan_tadeusz), 3))
 #+END_SRC
@ -326,7 +326,7 @@ Zawsze powinniśmy się upewnić, czy jest jasne, czy chodzi o n-gramy znakowe c
 *** 2-gramy wyrazowe
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  log_rang_log_freq('pt-2-word-ngrams-log-log', ngrams(get_words(pan_tadeusz), 2))
 #+END_SRC
@ -348,7 +348,7 @@ transkrybować manuskrypt, pozostaje sprawą dyskusyjną, natomiast wybór
 takiego czy innego systemu transkrypcji nie powinien wpływać
 dramatycznie na analizę statystyczną.
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  import requests
  voynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now'
@ -370,28 +370,28 @@ dramatycznie na analizę statystyczną.
 9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP
 :end:
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  rang_freq_with_labels('voy-chars', get_characters(voynich))
 #+END_SRC
 #+RESULTS:
 [[file:02_Jezyki/voy-chars.png]]
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  log_rang_log_freq('voy-log-log', get_words(voynich))
 #+END_SRC
 #+RESULTS:
 [[file:02_Jezyki/voy-log-log.png]]
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  rang_freq_with_labels('voy-words-20', get_words(voynich), top=20)
 #+END_SRC
 #+RESULTS:
 [[file:02_Jezyki/voy-words-20.png]]
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
    log_rang_log_freq('voy-words-log-log', get_words(voynich))
 #+END_SRC
@ -406,7 +406,7 @@ Podstawowe litery są tylko cztery, reprezentują one nukleotydy, z których zbu
 a, g, c, t.
-#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
+#+BEGIN_SRC python :session mysession :exports both :results raw drawer
  import requests
  dna_url = 'https://raw.githubusercontent.com/egreen18/NanO_GEM/master/rawGenome.txt'
@ -423,7 +423,7 @@ a, g, c, t.
 TATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA
 :end:
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  rang_freq_with_labels('dna-chars', get_characters(dna))
 #+END_SRC
@ -436,7 +436,7 @@ Nukleotydy rzeczywiście są jak litery, same w sobie nie niosą
 znaczenia. Dopiero ciągi trzech nukleotydów, /tryplety/, kodują jeden
 z dwudziestu aminokwasów.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  genetic_code = {
       'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
       'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
@ -472,7 +472,7 @@ Z aminokwasów zakodowanych przez tryplet budowane są białka.
 Maszyneria budująca białka czyta sekwencję aż do napotkania
 trypletu STOP (_ powyżej). Taka sekwencja to /gen/.
-#+BEGIN_SRC ipython :session mysession :results file
+#+BEGIN_SRC python :session mysession :results file
  def get_genes(triplets):
    gene = []
    for ammino in triplets:
--- a/wyk/02_Jezyki/dna-aminos.png
+++ b/wyk/02_Jezyki/dna-aminos.png
--- a/wyk/02_Jezyki/dna-chars.png
+++ b/wyk/02_Jezyki/dna-chars.png
--- a/wyk/02_Jezyki/dna_length.png
+++ b/wyk/02_Jezyki/dna_length.png
--- a/wyk/02_Jezyki/pt-2-word-ngrams-log-log.png
+++ b/wyk/02_Jezyki/pt-2-word-ngrams-log-log.png
--- a/wyk/02_Jezyki/pt-3-char-ngrams-log-log.png
+++ b/wyk/02_Jezyki/pt-3-char-ngrams-log-log.png
--- a/wyk/02_Jezyki/pt-chars.png
+++ b/wyk/02_Jezyki/pt-chars.png
--- a/wyk/02_Jezyki/pt-lengths.png
+++ b/wyk/02_Jezyki/pt-lengths.png
--- a/wyk/02_Jezyki/pt-words-20.png
+++ b/wyk/02_Jezyki/pt-words-20.png
--- a/wyk/02_Jezyki/pt-words-log-log.png
+++ b/wyk/02_Jezyki/pt-words-log-log.png
--- a/wyk/02_Jezyki/pt-words-log.png
+++ b/wyk/02_Jezyki/pt-words-log.png
--- a/wyk/02_Jezyki/pt-words.png
+++ b/wyk/02_Jezyki/pt-words.png
--- a/wyk/02_Jezyki/voy-chars.png
+++ b/wyk/02_Jezyki/voy-chars.png
--- a/wyk/02_Jezyki/voy-log-log.png
+++ b/wyk/02_Jezyki/voy-log-log.png
--- a/wyk/02_Jezyki/voy-words-20.png
+++ b/wyk/02_Jezyki/voy-words-20.png
--- a/wyk/02_Jezyki/voy-words-log-log.png
+++ b/wyk/02_Jezyki/voy-words-log-log.png
--- a/wyk/03_Entropia.ipynb
+++ b/wyk/03_Entropia.ipynb
--- a/wyk/03_Entropia.org
+++ b/wyk/03_Entropia.org
@ -11,12 +11,12 @@ W termodynamice entropia jest miarą nieuporządkowania układów
 fizycznych, na przykład pojemników z gazem. Przykładowo, wyobraźmy
 sobie dwa pojemniki z gazem, w którym panuje różne temperatury.
-[[./03_Jezyki/gas-low-entropy.drawio.png]]
+[[./03_Entropia/gas-low-entropy.drawio.png]]
 Jeśli usuniemy przegrodę między pojemnikami, temperatura się wyrówna,
 a uporządkowanie się zmniejszy.
-[[./03_Jezyki/gas-high-entropy.drawio.png]]
+[[./03_Entropia/gas-high-entropy.drawio.png]]
 Innymi słowy, zwiększy się stopień nieuporządkowania układu, czyli właśnie entropia.
@ -46,7 +46,7 @@ losowania do odbiorcy $O$ używając zer i jedynek (bitów).
 Teorioinformacyjną entropię można zdefiniować jako średnią liczbę
 bitów wymaganych do przesłania komunikatu.
-[[./03_Jezyki/communication.drawio.png]]
+[[./03_Entropia/communication.drawio.png]]
 *** Obliczanie entropii — proste przykłady
@ -187,6 +187,25 @@ Załóżmy, że chcemy zmierzyć entropię języka polskiego na przykładzie
 „Pana Tadeusza” — na poziomie znaków. W pierwszym przybliżeniu można
 by policzyć liczbę wszystkich znaków…
 #+BEGIN_SRC python :session mysession :exports both :results raw drawer
  import requests
  from itertools import islice
  url = 'https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt'
  pan_tadeusz = requests.get(url).content.decode('utf-8')
  def get_characters(t):
      yield from t
  list(islice(get_characters(pan_tadeusz), 100, 150))
 #+END_SRC
 #+RESULTS:
 :results:
 ['K', 's', 'i', 'ę', 'g', 'a', ' ', 'p', 'i', 'e', 'r', 'w', 's', 'z', 'a', '\r', '\n', '\r', '\n', '\r', '\n', '\r', '\n', 'G', 'o', 's', 'p', 'o', 'd', 'a', 'r', 's', 't', 'w', 'o', '\r', '\n', '\r', '\n', 'P', 'o', 'w', 'r', 'ó', 't', ' ', 'p', 'a', 'n', 'i']
 :end:
 #+BEGIN_SRC python :session mysession :exports both :results raw drawer
  chars_in_pan_tadeusz = len(set(get_characters(pan_tadeusz)))
  chars_in_pan_tadeusz
@ -241,6 +260,30 @@ Policzmy entropię przy takim założeniu:
 *** Ile wynosi entropia rękopisu Wojnicza?
 #+BEGIN_SRC python :session mysession :exports both :results raw drawer
  import requests
  import re
  voynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now'
  voynich = requests.get(voynich_url).content.decode('utf-8')
  voynich = re.sub(r'\{[^\}]+\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE)
  voynich = voynich.replace('\n\n', '#')
  voynich = voynich.replace('\n', ' ')
  voynich = voynich.replace('#', '\n')
  voynich = voynich.replace('.', ' ')
  voynich[100:150]
 #+END_SRC
 #+RESULTS:
 :results:
 9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP
 :end:
 #+BEGIN_SRC python :session mysession :exports both :results raw drawer
  unigram_entropy(get_characters(voynich))
 #+END_SRC
--- a/wyk/04_Ngramowy_model.ipynb
+++ b/wyk/04_Ngramowy_model.ipynb
--- a/wyk/04_Ngramowy_model.org
+++ b/wyk/04_Ngramowy_model.org
@ -50,15 +50,15 @@ Model języka:
  czy transkrypcję w systemach rozpoznawania mowy (ASR)
  (zanim zaczęto używać do tego sieci neuronowych, gdzie nie
  ma już wyraźnego rozróżnienia między modelem tłumaczenia
-  czy modelem akustycznym a modelem języka
+  czy modelem akustycznym a modelem języka),
 - pomaga znaleźć „podejrzane” miejsca w tekście
-  (korekta pisowni/gramatyki)
+  (korekta pisowni/gramatyki),
 - może być stosowany jako klasyfikator (potrzeba wtedy więcej niż jednego modelu,
-  np. model języka spamów kontra model języka niespamów)
+  np. model języka spamów kontra model języka niespamów),
- może być stosowany w kompresji danych
+- może być stosowany w kompresji danych,
 - bardzo dobry model języka *musi* mieć *w środku* bardzo dobrą *wiedzę*
  o języku i o świecie, można wziąć *„wnętrzności”* modelu, nie dbając o prawdopodobieństwa
-  i użyć modelu w zupełnie innym celu
+  i użyć modelu w zupełnie innym celu.
 ** N-gramowy model języka
@ -79,7 +79,7 @@ $$P_M(w_1\dots w_N) = P_M(w_1)P_M(w_2|w_1)P_M(w_3|w_1w_2)\dots P_M(w_i|w_{i-2}w_
 Zauważmy, że model trigramowy oznacza modelowanie kolejnego wyrazu przy znajomości
 2 (nie 3!) poprzedzających wyrazów (*razem* mamy 3 wyrazy).
-*** Model digramowy
+*** Model digramowy/bigramowy
 Dla $n=2$:
@ -110,3 +110,366 @@ gdzie $\# w_1\dots w_k$ oznacza liczbę wystąpień w korpusie.
 Na przykład, jeśli model $M$ zostanie wyuczony na tekście /do be do be do do/, wówczas
 $P_M(\mathit{be}|\mathit{do})=\frac{2}{3}$.
 ** Ewaluacja modeli języka
 Jak już widzimy, możemy mieć różne modele języka. Nawet jeśli
 pozostajemy tylko na gruncie najprostszych, $n$-gramowych modeli
 języka, inne prawdopodobieństwa uzyskamy dla modelu digramowego, a
 inny dla trigramowego. Jedne modele będą lepsze, inne — gorsze. Jak
 obiektywnie odróżnić dobry model od złego? Innymi słowy, jak ewaluować
 modele języka?
 *** Ewaluacja zewnętrzna i wewnętrzna
 W ewaluacji zewnętrznej (ang. /extrinsic/) ewaluację modelu języka sprowadzamy
 do ewaluacji większego systemu, którego częścią jest model języka, na przykład
 systemu tłumaczenia maszynowego albo systemu ASR.
 Ewaluacja wewnętrzna (ang. /intrinsic/) polega na ewaluacji modelu języka jako takiego.
 *** Podział zbioru
 Po pierwsze, jak zazwyczaj bywa w uczeniu maszynowym, powinniśmy
 podzielić nasz zbiór danych. W modelowaniu języka zbiorem danych jest
 zbiór tekstów w danym języku, czyli korpus języka.
 Powinniśmy podzielić nasz korpus na część uczącą (/training set/) $C = \{w_1\ldots w_N\}$  i testową
 (/test set/) $C' = \{w_1'\ldots w_{N'}'\}$.
 Warto też wydzielić osobny „deweloperski” zbiór testowy (/dev set/) —
 do testowania na bieżąco, optymalizacji hiperparametrów itd. Zbiory
 testowe nie muszą być bardzo duże, np. kilka tysięcy zdań może w zupełności wystarczyć.
 Tak podzielony korpus możemy traktować jako *wyzwanie modelowania języka*.
 **** Przykład wyzwania modelowania języka
 Wyzwanie
 [[https://gonito.net/challenge/challenging-america-word-gap-prediction|Challenging America word-gap prediction]]
 to wyzwanie modelowania amerykańskiej odmiany języka angielskiego, używanej w gazetach w XIX w. i I poł. XX w.
 #+BEGIN_SRC
 $ git clone git://gonito.net/challenging-america-word-gap-prediction
 $ cd challenging-america-word-gap-prediction
 $ xzcat train/in.tsv.xz | wc
 432022 123677147 836787912
 $ xzcat dev-0/in.tsv.xz | wc
 10519 3076536 20650825
 $ xzcat test-A/in.tsv.xz | wc
 7414 2105734 14268877
 #+END_SRC
 Dodajmy, że poszczególne zbiory zawierają teksty z różnych gazet. Jest
 to właściwe podejście, jeśli chcemy mierzyć rzeczywistą skuteczność modeli języka.
 (Teksty z jednej gazety mogłyby być zbyt proste).
 Oto przykład tekstu z wyzwania:
 #+BEGIN_SRC
 $ xzcat train/in.tsv.xz | head -n 1 | fold
 4e04702da929c78c52baf09c1851d3ff	ST	ChronAm	1919.6041095573314
 30.47547	-90.100911	came fiom the last place to this\nplace, and thi
 s place is Where We\nWere, this is the first road I ever\nwas on where you can r
 ide elsewhere\nfrom anywhere and be nowhere.\nHe says, while this train stops ev
 ery-\nwhere, it never stops anywhere un-\nless its somewhere. Well, I says,\nI'm
 glad to hear that, but, accord-\ning to your figures, I left myself\nwhere 1 wa
 s, which is five miles near-\ner to myself than I was when we\nwere where we are
 now.\nWe have now reached Slidell.\nThat's a fine place. The people\ndown there
 remind me of bananas-\nthey come and go in bunches. 811-\ndell used to be noted
 for her tough\npeople. Now she is noted for be,\ntough steaks. Well, I certainl
 y got\none there. When the waiter brought\nit in it was so small I thought. It\n
 was a crack in the plate. I skid,\nwaiter what else have you got? +He\nbrought m
 e in two codfish and one\nsmelt. I said, waiter have you got\npigs feet? He said
 no, rheumatism\nmakes me walk that way. I sald,\nhow is the pumpkin pie?
 said\nit's all squash. The best I could get\nin that hotel was a soup sandwich.\
 nAfter the table battle the waiter and\nI signed an armistice. I then went\nover
 to the hotel clerk and asked for\na room. He said with or without a\nbed? I sai
 d, with a bed. He said,\nI don't think I 'have' a bed long\nenough for you. I sa
 id, well, I'll\naddtwo feettoitwhenIgetinit.\nHe gave me a lovely room on the\nt
 op floor. It was one of those rooms\nthat stands on each side. If you\nhappen to
 get up in the middle of\nthe night you want to be sure and\nget up in the middl
 e of the room.\nThat night I dreamt I was eating\nflannel cakes. When I woke up
 half\nof the blanket was gone. I must\nhave got up on the wrong side of the\nbed
 , for next morning I had an awful\nheadache. I told the manager about\nit. He sa
 id, you have rheumatic\npains. I said, no, I think it is on,\nof those attic roo
 m pains. I nad to\ngetupat5a.m.inthemorningso\nthey could use the sheet to set t
 he\nbreakfast table.
 #+END_SRC
 Zauważmy, że mamy nie tylko tekst, lecz również metadane (czas i
 współrzędne geograficzne). W modelowaniu języka można uwzględnić
 również takie dodatkowe parametry (np. prawdopodobieństwa wystąpienia
 słowa /koronawirus/ wzrasta po roku 2019).
 Zauważmy również, że tekst zawiera błędy OCR-owe (np. /nad/ zamiast
 /had/). Czy w takim razie jest to sensowne wyzwanie modelowania
 języka? Tak, w niektórych przypadkach możemy chcieć modelować tekst z
 uwzględnieniem „zaszumień” wprowadzanych przez ludzi bądź komputery
 (czy II prawo termodynamiki!).
 *** Co podlega ocenie?
 Ogólnie ocenie powinno podlegać prawdopodobieństwo $P_M(C')$, czyli
 prawdopodobieństwo przypisane zbiorowi testowemu $C'$ przez model
 (wyuczony na zbiorze $C$).
 Jeśli oceniamy przewidywania, które człowiek lub komputer czynią, to
 im większe prawdopodobieństwo przypisane do tego, co miało miejsce,
 tym lepiej. Zatem im wyższe $P_M(C')$, tym lepiej.
 Zazwyczaj będziemy rozbijali $P_M(C')$ na prawdopodobieństwa
 przypisane do poszczególnych słów:
 $$P_M(w_1'\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\dots P_M(w'_{N'}|w'_1\dots w'_{N'-1}) = \prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1}).$$
 *** Entropia krzyżowa
 Można powiedzieć, że dobry model języka „wnosi” informację o języku. Jeśli zarówno
 nadawca i odbiorca tekstu mają do dyspozycji ten sam model języka…
 [[./04_Ngramowy_model/lm-communication.drawio.png]]
 … powinni być w stanie zaoszczędzić na długości komunikatu.
 W skrajnym przypadku, jeśli model jest pewny kolejnego słowa, tj.
 $P_M(w'_i|w'_1\ldots w'_{i-1}) = 1$, wówczas w $i$-tym kroku w ogóle
 nic nie trzeba przesyłać przez kanał komunikacji. Taka sytuacja może
 realnie wystąpić, na przykład: z prawdopodobieństwem zbliżonym do 1 po wyrazie
 /Hong/ wystąpi słowo /Kong/, a po wyrazie /przede/ — wyraz /wszystkim/.
 Model języka może pomóc również w mniej skrajnym przypadkach, np.
 jeżeli na danej pozycji w tekście model redukuje cały słownik do dwóch
 wyrazów z prawdopodobieństwem 1/2, wówczas nadawca może zakodować tę
 pozycję za pomocą jednego bitu.
 **** Wzór na entropię krzyżową
 Przypomnijmy, że symbol o prawdopodobieństwie $p$ można zakodować za
 pomocą (średnio) $-\log_2(p)$ bitów, tak więc jeśli nadawca i odbiorca dysponują
 modelem $M$, wówczas można przesłać cały zbiór testowy $C$ za pomocą następującej liczby bitów:
 $$-\sum_{i=1}^{N'} log P_M(w'_i|w'_1\ldots w'_{i-1}).$$
 Aby móc porównywać wyniki dla korpusów dla różnej długości, warto znormalizować
 tę wartość, tzn. podzielić przez długość tekstu:
 $$H(M) = -\frac{\sum_{i=1}^{N'} log P_M(w'_i|w'_1\ldots w'_{i-1})}{N'}.$$
 Tę wartość nazywamy *entropią krzyżową* modelu $M$. Entropia krzyżowa
 mierzy naszą niewiedzę przy założeniu, że dysponujemy modelem $M$. Im niższa wartość
 entropii krzyżowej, tym lepiej, im bowiem mniejsza nasza niewiedza,
 tym lepiej.
 Entropią krzyżową jest często nazywaną funkcją *log loss*, zwłaszcza w
 kontekście jej użycia jako funkcji straty przy uczeniu neuronowych modeli języka
 (o których dowiemy się później).
 *** Wiarygodność
 Innym sposobem mierzenia jakości modelu języka jest odwołanie się do
 *wiarygodności* (ang. /likelihood/). Wiarygodność to
 prawdopodobieństwo przypisane zdarzeniom niejako „po fakcie”. Jak już
 wspomnieliśmy, im wyższe prawdopodobieństwo (wiarygodność) przypisane
 testowej części korpusu, tym lepiej. Innymi słowy, jako metrykę ewaluacji
 używać będziemy prawdopodobieństwa:
 $$P_M(w_1'\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\dots P_M(w'_{N'}|w'_1\dots w'_{N'-1}) = \prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1}),$$
 z tym, że znowu warto znormalizować to prawdopodobieństwo względem rozmiaru korpusu.
 Ze względu na to, że prawdopodobieństwa przemnażamy, zamiast średniej arytmetycznej
 lepiej użyć *średniej geometrycznej*:
 $$\sqrt[N']{P_M(w_1'\dots w_{N'}')} = \sqrt[N']{\prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1})}.$$
 **** Interpretacja wiarygodności
 Co ciekawe, wiarygodność jest używana jako metryka ewaluacji modeli
 języka rzadziej niż entropia krzyżowa (log loss), mimo tego, że wydaje
 się nieco łatwiejsza do interpretacji dla człowieka. Otóż wiarygodność
 to *średnia geometryczna prawdopodobieństw przypisanych przez model języka do słów, które rzeczywiście wystąpiły*.
 **** Związek między wiarygodnością a entropią krzyżową
 Istnieje bardzo prosty związek między entropią krzyżową a wiarygodnością.
 Otóż entropia krzyżowa to po prostu logarytm wiarygodności (z minusem):
 -$$\log_2\sqrt[N']{P_M(w_1'\dots w_N')} = -\frac{\log_2\prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1})}{N'} = -\frac{\sum_{i=1}^{N'} \log_2 P_M(w'_i|w'_1\ldots w'_{i-1})}{N'}.$$
 **** „log-proby”
 W modelowaniu języka bardzo często używa się logarytmów prawdopodobieństw (z angielskiego skrótowo /log probs/),
 zamiast wprost operować na prawdopodobieństwach:
 - dodawanie log probów jest tańsze obliczeniowo niż mnożenie prawdopodobieństw,
 - bardzo małe prawdopodobieństwa znajdują się na granicy dokładności reprezentacji
  liczb zmiennopozycyjnych, log proby są liczbami ujemnymi o „poręczniejszych”
  rzędach wielkości.
 *** Perplexity
 Tak naprawdę w literaturze przedmiotu na ogół używa się jeszcze innej metryki ewaluacji —
 *perplexity*. Perplexity jest definiowane jako:
 $$\operatorname{PP}(M) = 2^{H(M)}.$$
 Intuicyjnie można sobie wyobrazić, że perplexity to liczba możliwości
 prognozowanych przez model z równym prawdopodobieństwem. Na przykład,
 jeśli model przewiduje, że w danym miejscu tekstu może wystąpić z
 równym prawdopodobieństwem jedno z 32 słów, wówczas (jeśli
 rzeczywiście któreś z tych słów wystąpiło) entropia wynosi 5 bitów, a
 perplexity — 32.
 Inaczej: perplexity to po prostu odwrotność wiarygodności:
 $$\operatorname{PP}(M) = \sqrt[N']{P_M(w_1'\dots w_N')}.$$
 Perplexity zależy oczywiście od języka i modelu, ale typowe wartości
 zazwyczaj zawierają się w przedziale 20-400.
 **** Perplexity — przykład
 Wyuczmy model języka przy użyciu gotowego narzędzia [[https://github.com/kpu/kenlm|KenLM]].
 KenLM to zaawansowane narzędzie do tworzenia n-gramowych modeli języka
 (zaimplementowano w nim techniki wygładzania, które omówimy na kolejnym wykładzie).
 Wyuczmy na zbiorze uczącym wspomnianego wyzwania /Challenging America word-gap prediction/
 dwa modele, jeden 3-gramowy, drugi 4-gramowy.
 Z powodu, który za chwilę stanie się jasny, teksty w zbiorze uczącym musimy sobie „poskładać” z kilku „kawałków”.
 #+BEGIN_SRC
 $ cd train
 $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s/<s>/ /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | lmplz -o 3 --skip-symbols > model3.arpa
 $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s/<s>/ /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | lmplz -o 4 --skip-symbols > model4.arpa
 $ cd ../dev-0
 $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s/<s>/ /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | query ../train/model3.arpa
 Perplexity including OOVs:	976.9905056314793
 Perplexity excluding OOVs:	616.5864921901557
 OOVs:	125276
 Tokens:	3452929
 $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s/<s>/ /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | query ../train/model4.arpa
 Perplexity including OOVs:	888.698932611321
 Perplexity excluding OOVs:	559.1231510292068
 OOVs:	125276
 Tokens:	3452929
 #+END_SRC
 Jak widać model 4-gramowy jest lepszy (ma niższe perplexity) niż model 3-gramowy, przynajmniej
 jeśli wierzyć raportowi programu KenLM.
 *** Entropia krzyżowa, wiarygodność i perplexity — podsumowanie
 Trzy omawiane metryki ewaluacji modeli języka (entropia krzyżowa,
 wiarygodność i perplexity) są ze sobą ściśle związane, w gruncie
 rzeczy to po prostu jedna miara.
 |Metryka           | Kierunek             |Najlepsza wartość | Najgorsza wartość |
 |------------------+----------------------+------------------+-------------------|
 |entropia krzyżowa | im mniej, tym lepiej | 0                | $\infty$          |
 |wiarygodność      | im więcej, tym lepiej| 1                | 0                 |
 |perplexity        | im mniej, tym lepiej | 1                | $\infty$          |
 **** Uwaga na zerowe prawdopodobieństwa
 Entropia krzyżowa, wiarygodność czy perplexity są bardzo czułe na zbyt
 dużą pewność siebie. Wystarczy, że dla *jednej* pozycji w zbiorze
 przypiszemy zerowe prawdopodobieństwo, wówczas wszystko „eksploduje”.
 Perplexity i entropia krzyżowa „wybuchają” do nieskończoności,
 wiarygodność spada do zera — bez względu na to, jak dobre są
 przewidywania dotyczące innych pozycji w tekście!
 W przypadku wiarygodności wiąże się to z tym, że wiarygodność
 definiujemy jako iloczyn prawdopodobieństwa, oczywiście wystarczy, że
 jedna liczba w iloczynie była zerem, żeby iloczyn przyjął wartość
 zero. Co więcej, nawet jeśli pominiemy taki skrajny przypadek, to
 średnia geometryczna „ciągnie” w dół, bardzo niska wartość
 prawdopodobieństwa przypisana do rzeczywistego słowa może drastycznie obniżyć
 wartość wiarygodności (i podwyższyć perplexity).
 **** Słowa spoza słownika
 Prostym sposobem przeciwdziałania zerowaniu/wybuchaniu metryk jest
 przypisywanie każdemu możliwemu słowu przynajmniej niskiego
 prawdopodobieństwa $\epsilon$. Niestety, zawsze może pojawić się
 słowa, którego nie było w zbiorze uczącym — *słowo spoza słownika*
 (/out-of-vocabulary word/, /OOV/). W takim przypadku znowu może
 pojawić się zerowy/nieskończony wynik.
 *** Ewaluacja modeli języka w warunkach konkursu
 Jeśli używać tradycyjnych metryk ewaluacji modeli języka (perplexity
 czy wiarygodność), bardzo łatwo można „oszukać” — wystarczy
 zaraportować prawdopodobieństwo 1! Oczywiście to absurd, bo albo
 wszystkim innym tekstom przypisujemy prawdopodobieństwo 0, albo —
 jeśli „oszukańczy” system każdemu innemu tekstowi przypisze
 prawdopodobieństwo 1 — nie mamy do czynienia z poprawnym rozkładem
 prawdopodobieństwa.
 Co gorsza, nawet jeśli wykluczymy scenariusz świadomego oszustwa,
 łatwo /samego siebie/ wprowadzić w błąd. Na przykład przez pomyłkę
 można zwracać zawyżone prawdopodobieństwo (powiedzmy przemnożone przez 2).
 Te problemy stają się szczególnie dokuczliwe, jeśli organizujemy
 wyzwanie, /konkurs/ modelowania języka, gdzie chcemy w sposób
 obiektywny porównywać różne modele języka, tak aby uniknąć celowego
 bądź nieświadomego zawyżania wyników.
 Przedstawimy teraz, w jaki sposób poradzono sobie z tym problemem
 w wyzwaniu /Challenging America word-gap prediction/
 **** Odgadywanie słowa w luce
 Po pierwsze, jaka sama nazwa wskazuje, w wyzwaniu /Challenging America
 word-gap prediction/ zamiast zwracania prawdopodobieństwa dla całego
 tekstu oczekuje się podania rozkładu prawdopodobieństwa dla brakującego słowa.
 Mianowicie, w każdym wierszu wejściu (plik ~in.tsv.xz~) w 7. i 8. polu
 podany jest, odpowiednio, lewy i prawy kontekst słowa do odgadnięcia.
 (W pozostałych polach znajdują się metadane, o których już wspomnieliśmy,
 na razie nie będziemy ich wykorzystywać).
 W pliku z oczekiwanym wyjściem (~expected.tsv~), w odpowiadającym
 wierszu, podawane jest brakujące słowo. Oczywiście w ostatecznym
 teście ~test-A~ plik ~expected.tsv~ jest niedostępny, ukryty przed uczestnikami konkursu.
 **** Zapis rozkładu prawdopodobieństwa
 Dla każdego wiersza wejścia podajemy rozkład prawdopodobieństwa dla
 słowa w luce w formacie:
 #+BEGIN_SRC
 wyraz1:prob1 wyraz2:prob2 ... wyrazN:probN :prob0
 #+END_SRC
 gdzie wyraz1, …, wyrazN to konkretne wyrazy, prob1, …, probN ich prawdopodobieństwa.
 Można podać dowolną liczbę wyrazów.
 Z kolei prob0 to „resztowe” prawdopodobieństwo przypisane do wszystkich pozostałych wyrazów,
 prawdopodobieństwo to pozwala uniknąć problemów związanych ze słowami OOV, trzeba jeszcze tylko dokonać
 modyfikacji metryki
 **** Metryka LikelihoodHashed
 Metryka LikelihoodHashed jest wariantem metryki Likelihood
 (wiarygodności) opracowanym z myślą o wyzwaniach czy konkursach
 modelowania języka. W tej metryce każde słowo wpada pseudolosowo do
 jednego z $2^{10}=1024$ „kubełków”. Numer kubełka jest wyznaczony na
 podstawie funkcji haszującej MurmurHash.
 Prawdopodobieństwa zwrócone przez ewaluowany model są sumowane w
 każdym kubełku, następnie ewaluator zagląda do pliku `expected.tsv` i
 uwzględnia prawdopodobieństwo z kubełka, do którego „wpada” oczekiwane
 słowo. Oczywiście czasami więcej niż jedno słowo może wpaść do
 kubełka, model mógł też „wrzucić” do kubełka tak naprawdę inne słowo
 niż oczekiwane (przypadkiem oba słowa wpadają do jednego kubełka).
 Tak więc LikelihoodHashed będzie nieco zawyżone w stosunku do Likelihood.
 Dlaczego więc taka komplikacja? Otóż LikelihoodHashed nie zakłada
 żadnego słownika, znika problem słów OOV — prawdopodobieństwa resztowe prob0
 są rozkładane równomiernie między wszystkie 1024 kubełki.
 **** Alternatywne metryki
 LikelihoodHashed została zaimplementowana w narzędziu ewaluacyjnym
 [[https://gitlab.com/filipg/geval|GEval]]. Są tam również dostępne
 analogiczne warianty entropii krzyżowej (log loss) i perplexity
 (LogLossHashed i PerplexityHashed).
--- a/wyk/04_Ngramowy_model/lm-communication.drawio
+++ b/wyk/04_Ngramowy_model/lm-communication.drawio
@ -0,0 +1 @@
 <mxfile host="app.diagrams.net" modified="2022-03-18T21:08:49.892Z" agent="5.0 (X11)" etag="RzIxxXjLYk9oBS8CnMsQ" version="16.2.2" type="device"><diagram id="E-zPRpFz5prVeiZgI5WF" name="Page-1">7VjbUtswEP0aP4bxJU7IIyQUhkJhYIbCEyPbii0iW0GWE4evr2TJVzmBcm1n4CFoj+S1tGePdhPDmcb5MQXL6JwEEBu2GeSGMzNsezK0+KcANhJwbVcCIUWBhKwauEZPUIGmQjMUwLS1kBGCGVq2QZ8kCfRZCwOUknV72Zzg9luXIIQacO0DrKO/UcAiie7b4xo/gSiMyjdbo4mciUG5WJ0kjUBA1g3IOTKcKSWEyVGcTyEWsSvjIp/7sWW22hiFCXvJA3R1NohuBmByf3NxZV/f0+Or04Gj9sY25YFhwM+vTEJZREKSAHxUo4eUZEkAhVeTW/WaM0KWHLQ4+AAZ2ygyQcYIhyIWYzULc8RuxeN7rrLulDMxnuVNY9MwLiFFMWSQlljC6Oa2adw1jcKR61amcDWuZrvO5iRhasf2kNsyMCIaW+OtoJRk1FerflL7Mb8zT7xgha5wkmWrU3tQ5i2gIWQ7yLCqrOBqgoTvjm74cxRiwNCqvQ+g8jqs1tXU84Fivz8Tdm1yBXCm3vQLBGDtAy1DeCIvxTCL8YHPCA/g4QpShrhozoAH8SVJEUMk4Us8whiJGwsOMArFBBOp0swJkjGMEjitZGxWHPSEXLiDeQPSo6Zm7aGS36Zjr2s1OwqKGkIemW+Pcy/J7rfiPl5xwxcqbviVihtqirsIPETo/y451/k6yfUG2tUCvTXAcwzzA9E2FEkbqOHMxyBNkd+OX1uVWwPXSWg9bI2wuD1hKbEXJ6V6wyVBfCf1RbjfYWXcCbcUlXqq2Ud0HLn2M46k6jRHBXXVsV/P5khjcwESYExdY1/gCxJnCVoA/wH13rSFXtpEAqUQn1MHaY90YhQE8iKGKXoCXuFPkL4UhyyO7R4a7qw3DXamZFdUVSOrXtLqFfvENjD3rLKlfm2GlEvIfJ7CD+Fs/98petbuotdf4Paczl+r4pmtgre13r2+nI31crarh3v2xvmc+jbWhHoME0iBqF/80JvYI1jX6NvrWnmX83S+5F/PVH0rimY7p1KZOTI/3qHwWWb7ZrRGeuEbfWavqff0hj3CTPVerbiPHjNSTgxkYA74Anu4zOtJPgrF//PSDd+V9CTxrWXVzzwh6XWEGLxegiLZ1xR0iPMkO2deBQB/ERacXcheReEBoIsL7gaxQnB7ptsG7QK1qh31XLMa0du/QXRZdXRWJz2sdsviu7Gq943frP41q8PJp7HKzfpXHllR65/KnKM/</diagram></mxfile>
--- a/wyk/04_Ngramowy_model/lm-communication.drawio.png
+++ b/wyk/04_Ngramowy_model/lm-communication.drawio.png
		`@ -0,0 +1 @@`
							<mxfile host="app.diagrams.net" modified="2022-03-18T21:08:49.892Z" agent="5.0 (X11)" etag="RzIxxXjLYk9oBS8CnMsQ" version="16.2.2" type="device"><diagram id="E-zPRpFz5prVeiZgI5WF" name="Page-1">7VjbUtswEP0aP4bxJU7IIyQUhkJhYIbCEyPbii0iW0GWE4evr2TJVzmBcm1n4CFoj+S1tGePdhPDmcb5MQXL6JwEEBu2GeSGMzNsezK0+KcANhJwbVcCIUWBhKwauEZPUIGmQjMUwLS1kBGCGVq2QZ8kCfRZCwOUknV72Zzg9luXIIQacO0DrKO/UcAiie7b4xo/gSiMyjdbo4mciUG5WJ0kjUBA1g3IOTKcKSWEyVGcTyEWsSvjIp/7sWW22hiFCXvJA3R1NohuBmByf3NxZV/f0+Or04Gj9sY25YFhwM+vTEJZREKSAHxUo4eUZEkAhVeTW/WaM0KWHLQ4+AAZ2ygyQcYIhyIWYzULc8RuxeN7rrLulDMxnuVNY9MwLiFFMWSQlljC6Oa2adw1jcKR61amcDWuZrvO5iRhasf2kNsyMCIaW+OtoJRk1FerflL7Mb8zT7xgha5wkmWrU3tQ5i2gIWQ7yLCqrOBqgoTvjm74cxRiwNCqvQ+g8jqs1tXU84Fivz8Tdm1yBXCm3vQLBGDtAy1DeCIvxTCL8YHPCA/g4QpShrhozoAH8SVJEUMk4Us8whiJGwsOMArFBBOp0swJkjGMEjitZGxWHPSEXLiDeQPSo6Zm7aGS36Zjr2s1OwqKGkIemW+Pcy/J7rfiPl5xwxcqbviVihtqirsIPETo/y451/k6yfUG2tUCvTXAcwzzA9E2FEkbqOHMxyBNkd+OX1uVWwPXSWg9bI2wuD1hKbEXJ6V6wyVBfCf1RbjfYWXcCbcUlXqq2Ud0HLn2M46k6jRHBXXVsV/P5khjcwESYExdY1/gCxJnCVoA/wH13rSFXtpEAqUQn1MHaY90YhQE8iKGKXoCXuFPkL4UhyyO7R4a7qw3DXamZFdUVSOrXtLqFfvENjD3rLKlfm2GlEvIfJ7CD+Fs/98petbuotdf4Paczl+r4pmtgre13r2+nI31crarh3v2xvmc+jbWhHoME0iBqF/80JvYI1jX6NvrWnmX83S+5F/PVH0rimY7p1KZOTI/3qHwWWb7ZrRGeuEbfWavqff0hj3CTPVerbiPHjNSTgxkYA74Anu4zOtJPgrF//PSDd+V9CTxrWXVzzwh6XWEGLxegiLZ1xR0iPMkO2deBQB/ERacXcheReEBoIsL7gaxQnB7ptsG7QK1qh31XLMa0du/QXRZdXRWJz2sdsviu7Gq943frP41q8PJp7HKzfpXHllR65/KnKM/</diagram></mxfile>