aitech-moj/wyk/04_Entropia.ipynb
2022-07-06 09:11:14 +02:00

19 lines
48 KiB
Plaintext

{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
"<div class=\"alert alert-block alert-info\">\n",
"<h1> Modelowanie języka</h1>\n",
"<h2> 04. <i>Entropia</i> [wykład]</h2> \n",
"<h3> Filip Graliński (2022)</h3>\n",
"</div>\n",
"\n",
"![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n",
"\n"
]
},
{"cell_type":"markdown","metadata":{},"source":["## Entropia\n\n"]},{"cell_type":"markdown","metadata":{},"source":["**Entropia** ($E$) to miara nieuporządkowania, niepewności, niewiedzy. Im\nwiększa entropia, tym mniej wiemy. Pojęcie to pierwotnie wywodzi się z\ntermodynamiki, później znaleziono wiele zaskakujących analogii i zastosowań w\ninnych dyscyplinach nauki.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia w fizyce\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W termodynamice entropia jest miarą nieuporządkowania układów\nfizycznych, na przykład pojemników z gazem. Przykładowo, wyobraźmy\nsobie dwa pojemniki z gazem, w którym panuje różne temperatury.\n\n![img](./04_Entropia/gas-low-entropy.drawio.png)\n\nJeśli usuniemy przegrodę między pojemnikami, temperatura się wyrówna,\na uporządkowanie się zmniejszy.\n\n![img](./04_Entropia/gas-high-entropy.drawio.png)\n\nInnymi słowy, zwiększy się stopień nieuporządkowania układu, czyli właśnie entropia.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### II prawo termodynamiki\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Jedno z najbardziej fundamentalnych praw fizyki, II prawo\ntermodynamiki głosi, że w układzie zamkniętym entropia nie spada.\n\n****Pytanie****: Czy to, że napisałem te materiały do wykładu i\n*uporządkowałem* wiedzę odnośnie do statystycznych własności języka, nie\njest sprzeczne z II prawem termodynamiki?\n\nKonsekwencją II prawa termodynamiki jest śmierć cieplna Wszechświata\n(zob. [wizualizacja przyszłości Wszechświata]([https://www.youtube.com/watch?v=uD4izuDMUQA](https://www.youtube.com/watch?v=uD4izuDMUQA))).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia w teorii informacji\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Pojęcie entropii zostało „odkryte” na nowo przez Claude'a Shannona,\ngdy wypracował ogólną teorię informacji.\n\nTeoria informacji zajmuje się między innymi zagadnieniem optymalnego kodowania komunikatów.\n\nWyobraźmy sobie pewne źródło (generator) losowych komunikatów z\nzamkniętego zbioru symboli ($\\Sigma$; nieprzypadkowo używamy oznaczeń\nz poprzedniego wykładu). Nadawca $N$ chce przesłać komunikat o wyniku\nlosowania do odbiorcy $O$ używając zer i jedynek (bitów).\nTeorioinformacyjną entropię można zdefiniować jako średnią liczbę\nbitów wymaganych do przesłania komunikatu.\n\n![img](./04_Entropia/communication.drawio.png)\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Obliczanie entropii — proste przykłady\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że nadawca chce przekazać odbiorcy informację o wyniku rzutu monetą.\nEntropia wynosi wówczas rzecz jasna 1 — na jedno losowanie wystarczy jeden bit\n(informację o tym, że wypadł orzeł, możemy zakodować na przykład za pomocą zera,\nzaś to, że wypadła reszka — za pomocą jedynki).\n\nRozpatrzmy przypadek, gdy nadawca rzuca ośmiościenną kością. Aby przekazać\nwynik, potrzebuje wówczas 3 bity (a więc entropia ośmiościennej kości\nwynosi 3 bity). Przykładowe kodowanie może mieć następującą postać:\n\n| Wynik|Kodowanie|\n|---|---|\n| 1|001|\n| 2|010|\n| 3|011|\n| 4|100|\n| 5|101|\n| 6|110|\n| 7|111|\n| 8|000|\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Obliczenie entropii — trudniejszy przykład\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że $\\Sigma = \\{A, B, C, D\\}$, natomiast poszczególne komunikaty\nsą losowane zgodnie z następującym rozkładem prawdopodobieństwa:\n$P(A)=1/2$, $P(B)=1/4$, $P(C)=1/8$, $P(D)=1/8$. Ile wynosi entropia w\ntakim przypadku? Można by sądzić, że 2, skoro wystarczą 2 bity do\nprzekazania wyniku losowania przy zastosowaniu następującego kodowania:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|00|\n| B|01|\n| C|10|\n| D|11|\n\nProblem w tym, że w rzeczywistości nie jest to *optymalne* kodowanie.\nMożemy sprytnie zmniejszyć średnią liczbę bitów wymaganych do\nprzekazania losowego wyniku przypisując częstszym wynikom krótsze\nkody, rzadszym zaś — dłuższe. Oto takie optymalne kodowanie:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|0|\n| B|10|\n| C|110|\n| D|111|\n\nUżywając takiego kodowanie średnio potrzebujemy:\n\n$$\\frac{1}{2}1 + \\frac{1}{4}2 + \\frac{1}{8}3 + \\frac{1}{8}3 = 1,75$$\n\nbita. Innymi słowy, entropia takiego źródła wynosi 1,75 bita.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Kodowanie musi być jednoznaczne!\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Można by sądzić, że da się stworzyć jeszcze krótsze kodowanie dla omawianego rozkładu nierównomiernego:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|0|\n| B|1|\n| C|01|\n| D|11|\n\nNiestety, nie jest to właściwe rozwiązanie — kodowanie musi być\njednoznaczne nie tylko dla pojedynczego komunikatu, lecz dla całej sekwencji.\nNa przykład ciąg 0111 nie jest jednoznaczny przy tym kodowaniu (ABBB czy CD?).\nPodane wcześniej kodowanie spełnia warunek jednoznaczności, ciąg 0111 można odkodować tylko\njako AD.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Ogólny wzór na entropię.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Na podstawie poprzedniego przykładu można dojść do intuicyjnego wniosku, że\noptymalny kod dla wyniku o prawdopodobieństwie $p$ ma długość $-\\log_2(p)$, a zatem ogólnie\nentropia źródła o rozkładzie prawdopodobieństwa $\\{p_1,\\ldots,p_|\\Sigma|\\}$ wynosi:\n\n$$E = -\\sum_{i=1}^{|\\Sigma|} p_i\\log_2(p_i)$$.\n\nZauważmy, że jest to jeden z nielicznych przypadków, gdy w nauce naturalną\npodstawą logarytmu jest 2 zamiast… podstawy logarytmu naturalnego ($e$).\n\nTeoretycznie można mierzyć entropię używając logarytmu naturalnego\n($\\ln$), jednostką entropii będzie wówczas **nat** zamiast bita,\nniewiele to jednak zmienia i jest mniej poręczne i trudniejsze do interpretacji\n(przynajmniej w kontekście informatyki) niż operowanie na bitach.\n\n****Pytanie**** Ile wynosi entropia zwykłej sześciennej kostki? Jak wygląda\noptymalne kodowanie wyników rzutu taką kostką?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia dla próby Bernoulliego\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Wiemy już, że entropia dla rzutu monetą wynosi 1 bit. A jaki będzie wynik dla źle wyważonej monety?\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"data":{"image/png":"","text/plain":"<matplotlib.figure.Figure>"},"metadata":{},"output_type":"display_data"}],"source":["import matplotlib.pyplot as plt\nfrom math import log\nimport numpy as np\n\ndef binomial_entropy(p):\n return -(p * log(p, 2) + (1-p) * log(1-p, 2))\n\nx = list(np.arange(0.001,1,0.001))\ny = [binomial_entropy(x) for x in x]\nplt.figure().clear()\nplt.xlabel('prawdopodobieństwo wylosowania orła')\nplt.ylabel('entropia')\nplt.plot(x, y)\n\nfname = f'04_Entropia/binomial-entropy.png'\n\nplt.savefig(fname)\n\nfname"]},{"cell_type":"markdown","metadata":{},"source":["**Pytanie** Dla oszukańczej monety (np. dla której wypada zawsze orzeł) entropia\nwynosi 0, czy to wynik zgodny z intuicją?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Entropia a język\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Tekst w danym języku możemy traktować jako ciąg symboli (komunikatów) losowanych według jakiegoś\nrozkładu prawdopodobieństwa. W tym sensie możemy mówić o entropii języka.\n\nOczywiście, jak zawsze, musimy jasno stwierdzić, czym są symbole\njęzyka: literami, wyrazami czy jeszcze jakimiś innymi jednostkami.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Pomiar entropii języka — pierwsze przybliżenie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że chcemy zmierzyć entropię języka polskiego na przykładzie\n„Pana Tadeusza” — na poziomie znaków. W pierwszym przybliżeniu można\nby policzyć liczbę wszystkich znaków…\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"['K', 's', 'i', 'ę', 'g', 'a', ' ', 'p', 'i', 'e', 'r', 'w', 's', 'z', 'a', '\\r', '\\n', '\\r', '\\n', '\\r', '\\n', '\\r', '\\n', 'G', 'o', 's', 'p', 'o', 'd', 'a', 'r', 's', 't', 'w', 'o', '\\r', '\\n', '\\r', '\\n', 'P', 'o', 'w', 'r', 'ó', 't', ' ', 'p', 'a', 'n', 'i']"}],"source":["import requests\nfrom itertools import islice\n\nurl = 'https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt'\npan_tadeusz = requests.get(url).content.decode('utf-8')\n\ndef get_characters(t):\n yield from t\n\nlist(islice(get_characters(pan_tadeusz), 100, 150))"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"95"}],"source":["chars_in_pan_tadeusz = len(set(get_characters(pan_tadeusz)))\nchars_in_pan_tadeusz"]},{"cell_type":"markdown","metadata":{},"source":["… założyć jednostajny rozkład prawdopodobieństwa i w ten sposób policzyć entropię:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"6.569855608330948"}],"source":["from math import log\n\n95 * (1/95) * log(95, 2)"]},{"cell_type":"markdown","metadata":{},"source":["#### Mniej rozrzutne kodowanie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Przypomnijmy sobie jednak, że rozkład jednostek języka jest zawsze\nskrajnie nierównomierny! Jeśli uwzględnić ten nierównomierny rozkład\nznaków, można opracować o wiele efektywniejszy sposób zakodowania znaków składających się na „Pana Tadeusza”\n(częste litery, np. „a” i „e” powinny mieć krótkie kody, a rzadkie, np. „ź” — dłuższe).\n\nPoliczmy entropię przy takim założeniu:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"4.938605272823633"}],"source":["from collections import Counter\nfrom math import log\n\ndef unigram_entropy(t):\n counter = Counter(t)\n\n total = counter.total()\n return -sum((p := count / total) * log(p, 2) for count in counter.values())\n\nunigram_entropy(get_characters(pan_tadeusz))"]},{"cell_type":"markdown","metadata":{},"source":["(Jak dowiemy się na kolejnym wykładzie, zastosowaliśmy tutaj **unigramowy model języka**).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Ile wynosi entropia rękopisu Wojnicza?\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP"}],"source":["import requests\nimport re\n\nvoynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now'\nvoynich = requests.get(voynich_url).content.decode('utf-8')\n\nvoynich = re.sub(r'\\{[^\\}]+\\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE)\n\nvoynich = voynich.replace('\\n\\n', '#')\nvoynich = voynich.replace('\\n', ' ')\nvoynich = voynich.replace('#', '\\n')\n\nvoynich = voynich.replace('.', ' ')\n\nvoynich[100:150]"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"3.902708104423842"}],"source":["unigram_entropy(get_characters(voynich))"]},{"cell_type":"markdown","metadata":{},"source":["#### Rzeczywista entropia?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W rzeczywistości entropia jest jeszcze mniejsza, tekst nie jest\ngenerowany przecież według rozkładu wielomianowego. Istnieją rzecz\njasna pewne zależności między znakami, np. niemożliwe, żeby po „ń”\nwystąpiły litera „a” czy „e”. Na poziomie wyrazów zależności mogę mieć\njeszcze bardziej skrajny charakter, np. po wyrazie „przede” prawie na\npewno wystąpi „wszystkim”, co oznacza, że w takiej sytuacji słowo\n„wszystkim” może zostać zakodowane za pomocą 0 (!) bitów.\n\nMożna uwzględnić takie zależności i uzyskać jeszcze lepsze kodowanie,\na co za tym idzie lepsze oszacowanie entropii. (Jak wkrótce się\ndowiemy, oznacza to użycie digramowego, trigramowego, etc. modelu języka).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Rozmiar skompresowanego pliku jako przybliżenie entropii\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Celem algorytmów kompresji jest właściwie wyznaczanie efektywnych\nsposobów kodowania danych. Możemy więc użyć rozmiaru skompresowanego pliku w bitach\n(po podzieleniu przez oryginalną długość) jako dobrego przybliżenia entropii.\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"3.673019884633768"}],"source":["import zlib\n\ndef entropy_by_compression(t):\n compressed = zlib.compress(t.encode('utf-8'))\n return 8 * len(compressed) / len(t)\n\nentropy_by_compression(pan_tadeusz)"]},{"cell_type":"markdown","metadata":{},"source":["Dla porównania wynik dla rękopisu Wojnicza:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"2.942372881355932"}],"source":["entropy_by_compression(voynich)"]},{"cell_type":"markdown","metadata":{},"source":["#### Gra Shannona\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Innym sposobem oszacowania entropii tekstu jest użycie… ludzi. Można poprosić rodzimych użytkowników\ndanego języka o przewidywanie kolejnych liter (bądź wyrazów) i w ten sposób oszacować entropię.\n\n**Projekt** Zaimplementuj aplikację webową, która umożliwi „rozegranie” gry Shannona.\n\n"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0}