diff --git a/wyk/03_Ngramy.ipynb b/wyk/03_Ngramy.ipynb new file mode 100644 index 0000000..a8cdf75 --- /dev/null +++ b/wyk/03_Ngramy.ipynb @@ -0,0 +1,496 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Modelowanie języka

\n", + "

03. N-gramy [wykład]

\n", + "

Filip Graliński (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## N-gramy\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "W modelowaniu języka często rozpatruje się n-gramy, czyli podciągi o\n", + "rozmiarze $n$.\n", + "\n", + "Na przykład *digramy* (*bigramy*) to zbitki dwóch jednostek, np. liter albo wyrazów.\n", + "\n", + "| $n$|$n$-gram|nazwa|\n", + "|---|---|---|\n", + "| 1|1-gram|unigram|\n", + "| 2|2-gram|digram/bigram|\n", + "| 3|3-gram|trigram|\n", + "| 4|4-gram|tetragram|\n", + "| 5|5-gram|pentagram|\n", + "\n", + "**Pytanie:** Jak nazywa się 6-gram?\n", + "\n", + "Jak widać, dla symetrii mówimy czasami o unigramach, jeśli operujemy\n", + "po prostu na jednostkach, nie na ich podciągach.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### N-gramy z Pana Tadeusza\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Statystyki, które policzyliśmy dla pojedynczych liter czy wyrazów, możemy powtórzyć dla n-gramów.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "[('k', 'o', 't'), ('o', 't', 'e'), ('t', 'e', 'k')]" + ] + } + ], + "source": [ + "def ngrams(iter, size):\n", + " ngram = []\n", + " for item in iter:\n", + " ngram.append(item)\n", + " if len(ngram) == size:\n", + " yield tuple(ngram)\n", + " ngram = ngram[1:]\n", + "\n", + "list(ngrams(\"kotek\", 3))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Zauważmy, że policzyliśmy wszystkie n-gramy, również częściowo się pokrywające.\n", + "\n", + "Zawsze powinniśmy się upewnić, czy jest jasne, czy chodzi o n-gramy znakowe czy wyrazowe\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### 3-gramy znakowe\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "log_rang_log_freq('pt-3-char-ngrams-log-log', ngrams(get_characters(pan_tadeusz), 3))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### 2-gramy wyrazowe\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "log_rang_log_freq('pt-2-word-ngrams-log-log', ngrams(get_words(pan_tadeusz), 2))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Tajemniczy język Manuskryptu Wojnicza\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "[Manuskrypt Wojnicza](https://pl.wikipedia.org/wiki/Manuskrypt_Wojnicza) to powstały w XV w. manuskrypt spisany w\n", + "tajemniczym alfabecie, do dzisiaj nieodszyfrowanym. Rękopis stanowi\n", + "jedną z największych zagadek historii (i lingwistyki).\n", + "\n", + "[Źródło: https://commons.wikimedia.org/wiki/File:VoynichManuscript(135).jpg](./02_Jezyki/voynich135.jpg)\n", + "\n", + "Sami zbadajmy statystyczne własności tekstu manuskryptu. Użyjmy\n", + "transkrypcji Vnow, gdzie poszczególne znaki tajemniczego alfabetu\n", + "zamienione na litery alfabetu łacińskiego, cyfry i gwiazdkę. Jak\n", + "transkrybować manuskrypt, pozostaje sprawą dyskusyjną, natomiast wybór\n", + "takiego czy innego systemu transkrypcji nie powinien wpływać\n", + "dramatycznie na analizę statystyczną.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP" + ] + } + ], + "source": [ + "import requests\n", + "\n", + "voynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now'\n", + "voynich = requests.get(voynich_url).content.decode('utf-8')\n", + "\n", + "voynich = re.sub(r'\\{[^\\}]+\\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE)\n", + "\n", + "voynich = voynich.replace('\\n\\n', '#')\n", + "voynich = voynich.replace('\\n', ' ')\n", + "voynich = voynich.replace('#', '\\n')\n", + "\n", + "voynich = voynich.replace('.', ' ')\n", + "\n", + "voynich[100:150]" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "rang_freq_with_labels('voy-chars', get_characters(voynich))" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "iVBORw0KGgoAAAANSUhEUgAAAoAAAAHgCAYAAAA10dzkAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/YYfK9AAAACXBIWXMAAA9hAAAPYQGoP6dpAAA2SElEQVR4nO3deXhU5cH+8fvMJJksJJOEkISYCQZlCSBbUGTRYkEqbqVardSt1PpKiwvmrVa0qz81rdalr1YUXutaKnVBqa9LcWMR2cKq7GsCBEJYMlnIJJnM74+ESMpiQpZnJuf7ua65JCcz6e2VY8/Nc57nOVYgEAgIAAAAtuEwHQAAAADtiwIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNhJkOEMpqa2u1Z88excbGyrIs03EAAEATBAIBlZaWKi0tTQ6HPcfCKIAtsGfPHnk8HtMxAADAaSgoKFB6errpGEZQAFsgNjZWUt0JFBcXZzgNAABoCq/XK4/H03AdtyMKYAscve0bFxdHAQQAIMTYefqWPW98AwAA2BgFEAAAwGYogAAAADZDAQQAALAZCiAAAIDNUAABAABshgIIAABgMxRAAAAAm6EAAgAA2AwFEAAAwGYogAAAADZDAQxStbUB0xEAAEAHRQEMQjuKy3Xp/yzQ6oLDpqMAAIAOiAIYhP74wQZt2Fuqa57/Um/m7TIdBwAAdDAUwCD06DX9NSYrWVU1tfrlG6v1+zlfq9pfazoWAADoICiAQSguMlzTbxyiu0b3kCS9tGiHbnxhiQ6U+QwnAwAAHQEFMEg5HJbuvrinnr8xWzERTi3edlBXPvOFvtpdYjoaAAAIcRTAIPe9vql6Z/IIZSbFaPfhI7p62iK9s3K36VgAACCEUQBDQI+UWL0zeYRG9eoiX02tpsxapYf/b51qmBcIAABOAwUwRLijwvXCzedq8kVnSZJmLNiun7y4TIfKqwwnAwAAoYYCGEKcDkv3fK+3nr1+sKIjnFq4pVhX/nWh1u3xmo4GAABCCAUwBF16Tle9/YvhykiMVsHBunmB763ZYzoWAAAIERTAENU7NU5zbh+hC3ok6Ui1X7fPXKk/frBBfh4hBwAAvgUFMITFR0fopYnn6bbvdJckPTdvqya+tEwlFdWGkwEAgGBGAQxxToelqeOy9D8TBiky3KH5m/bryr8u1KZ9paajAQCAIEUB7CCuHJCmt34+XOkJUdp5oELj//qFPvyq0HQsAAAQhGxdAHfv3q0bbrhBnTt3VnR0tAYOHKi8vDzTsU5b3zS35tw+UsPP6qyKKr8mvbZCf/5oo2qZFwgAAI5h2wJ46NAhjRgxQuHh4frggw+0bt06Pf7444qPjzcdrUUSYyL0yk/P0y0jMyVJz3y2RT97Zbm8lcwLBAAAdaxAIGDL4aH77rtPX3zxhRYsWHDaP8Pr9crtdqukpERxcXGtmK51zF65S/e9tVa+mlp1T4rR9JuydXZyrOlYAAAYFezX7/Zg2xHAOXPmaMiQIbrmmmuUnJysQYMGacaMGaf8jM/nk9frbfQKZj8YlK43Jw1XmjtS24rLNf6vizR33T7TsQAAgGG2LYDbtm3TtGnT1KNHD3300UeaNGmS7rzzTr3yyisn/Uxubq7cbnfDy+PxtGPi03NOultz7hipoZmJKvPV6NZXluupjzcxLxAAABuz7S3giIgIDRkyRIsWLWo4duedd2rZsmX68ssvT/gZn88nn8/X8LXX65XH4wmJIeRqf60e/r/1emnRDknSxX1S9MS1AxQbGW42GAAA7YxbwDYeAezatav69OnT6FhWVpby8/NP+hmXy6W4uLhGr1AR7nTo91f21WM/7K+IMIfmrtunHzy7SNv2l5mOBgAA2pltC+CIESO0cePGRsc2bdqkbt26GUrUPq4Z4tE/bxum1LhIbSkq0/f/+oU+3cC8QAAA7MS2BfDuu+/W4sWL9cgjj2jLli2aOXOmpk+frsmTJ5uO1uYGeuI1544ROvfMBJVW1uiWl5frr59tkU1nAwAAYDu2nQMoSe+9956mTp2qzZs3KzMzUzk5Obr11lub/PlQn0NQVVOrB9/7Wq8trrvtPa5fqv58zQDFuMIMJwMAoO2E+vW7Ndi6ALZURzmB/rE0X7999ytV+wPqlRKr6Tdlq1vnGNOxAABoEx3l+t0Str0FjG9MOC9Dr//XMCXHurRxX6mueHqh5m3abzoWAABoIxRASJKyuyXoX3eM1KCMeHkrazTxxaV6bt5W5gUCANABUQDRICUuUq//1/m67lyPagPSHz/YoDv+sVIVVTWmowEAgFZEAUQjrjCncq86Rw+N76cwh6X31hTq6mlfquBgheloAACglVAAcRzLsnTD+d0089bzldQpQusLvbrimYX657ICHSyvMh0PAAC0EKuAW8AOq4gKS45o0qt5Wr2rRJLksKTBGQn6blayxmSlqEdyJ1mWZTglAABNZ4fr97ehALaAXU6gymq/Zszfpve/2qv1hd5G3/MkRml07xSNzkrW0MzOighjUBkAENzscv0+FQpgC9jxBNp9+Ig+3VCkT9bv06KtB1RVU9vwvU6uMF3QI0mjs1J0Ua8u6tzJZTApAAAnZsfr93+iALaA3U+giqoaLdxcrE/WF+mTDUUqLvM1fM+ypEGeeI3OStGYrBT1TOFWMQAgONj9+i1RAFuEE+gbtbUBrd1dok/W79PH64u07j9uFacnRGl072SNzkrR0O6JcoU5DSUFANgd128KYItwAp1cYcmRupHB9fv0xX/cKo6JcOqCHl00OitZ556ZqK7xkRRCAEC74fpNAWwRTqCmqaiq0RdbDuiT9fv0yYYi7S/1HfeepE4R6uqOUld3pNLio5QWH6mu7m/+mRzrUpiTBSYAgJbj+k0BbBFOoOarrQ3oqz0l+nh9kT7bUKRN+0rlO2Z08GScDkspsS51jf+mJHZPitGgjAT1SO4kh4P5hQCApuH6TQFsEU6glgsEAjpUUa09h49oz+EjKiyp1J6SIyo8XKnCkiPac7hSe72V8tee/DSNdYVpgCdegzPiNSgjQYMy4hUfHdGO/xYAgFDC9ZsC2CKcQO3DXxvQ/lJfo2K4+/ARrS/0anVBiY5U+4/7zNHRwUEZ8RqckaCeKZ24hQwAkMT1W6IAtggnkHk1/lpt3FeqlfmHtSL/kFbmH9b24vLj3hcT4dQDl/XRj4dmGEgJAAgmXL8pgC3CCRScDpVXaWXBoYZSuLqgRGW+GoU5LL318+Ea4Ik3HREAYBDXbwpgi3AChQZ/bUB3vr5S/7emUN2TYvTenSMVHRFmOhYAwBCu3xKTotDhOR2WHh7fT6lxkdpWXK5H3l9vOhIAAEZRAGEL8dERevzaAZKk1xbn69MN+wwnAgDAHAogbGPE2Um6ZWSmJOneN9c0enYxAAB2QgGErdzzvV7qlRKr4rIq3ffWGjEFFgBgRxRA2EpkuFNPXTdQEU6HPl5fpNeXFZiOBABAu6MAwnayusbpnu/1kiQ9+K91J9w3EACAjowCCFu6ZWSmhnXvrCPVfk2ZtUrV/m9/HjEAAB0FBRC25HBYevzaAYqLDNPqgsN65tMtpiMBANBuKICwrbT4KD30g3MkSc98tkV5Ow8ZTgQAQPugAMLWrhyQpvED0+SvDSjnn6tU5qsxHQkAgDZHAYTt/eH7/XRGfJR2HqjQH+Z8rdpatoYBAHRsFEDYnjsqXI9fO0CWJb2Rt0tjnpynVxfvVEUVo4EAgI7JCrAT7mnjYdIdy6tf7tCjH25Uaf1t4LjIME0YmqGbhp2pM+KjDKcDALQWrt8UwBbhBOp4ynw1enN5gV5ctEM7D1RIkpwOS5f0S9VPR2RqcEa8LMsynBIA0BJcvymALcIJ1HH5awP6bEOR/vbFdi3aeqDheGZSjGJczhN+xmlZio4IU4zLWf/PMMVEOBXtClOnhmNOxdR/r0dyJyXHRbbXvxIAoB7XbynMdAAgGDkdlsb0SdGYPilaX+jVi19s1zur9rTqU0MsSxqamagrB5yhcf1SlRAT0Wo/GwCAU2EEsAX4G4S9HCjz6as9Xp3sPxl/bUDlVX5V+GpUXuVXua9G5VU1KvfVqMLnr/9z3T9LjlRr2/5vymSYw9IFPZI04uwkpSdEy5MYJU9itOIiw9vrXw8AbIPrNwWwRTiB0BIFByv03ppC/Wv1Hq0r9J7wPXGRYUqMiVB8dITio8OV1MmliSPOVN80dzunBYCOg+s3BbBFOIHQWrYUler9tXu1cV+pdh2sUMGhIzpYXnXC98a6wjTz1vN1TjolEABOB9dvCmCLcAKhLZX5alR4+IgOH6nW4YpqHa6o0qxlBVq+85Dio8P1j1vPV1ZXzjsAaC6u3xTAFuEEQnsrrazWjS8s1aqCw+ocE6FZtw3T2cmdTMcCgJDC9ZsngQAhJTYyXC9PPE990+J0oLxKP56xWDsPtN7KZACAPVAAgRDjjg7Xq7cMVa+UWBWV+nTT35Zqf6nPdCwAQAihAAIhKDEmQq/+7Dx5EqO080CFJr60VGU+nl0MAGga2xbA3//+97Isq9ErNTXVdCygyZJjI/XKT4eqc0yEvtrt1aRX81RVU2s6FgAgBNi2AEpS3759VVhY2PBau3at6UhAs2QmxejFiecqOsKphVuK9cs3Vp90o2oAAI6ydQEMCwtTampqw6tLly6mIwHN1j89Xs/dkK0wh6U5q/do2rytpiMBAIKcrQvg5s2blZaWpszMTF133XXatm3bKd/v8/nk9XobvYBgcGHPLnrw+/0kSX/+aKMWbi42nAgAEMxsWwCHDh2qV155RR999JFmzJihvXv3avjw4Tpw4MBJP5Obmyu3293w8ng87ZgYOLUJ53l0TXa6agPSna+v1O7DR0xHAgAEKTaCrldeXq6zzjpL9957r3Jyck74Hp/PJ5/vm+02vF6vPB6PrTeSRHCprPbr6mmL9PUerwaku/X3W89XJ1eY6VgAEFTYCFriylAvJiZG55xzjjZv3nzS97hcLrlcrnZMBTRPZLhTz92QrcufXqjVu0p07kMf63t9U/T9gWcoLT5KkhQR5tCZnaNlWZbhtAAAUyiA9Xw+n9avX68LLrjAdBSgRTyJ0Zp+Y7bue3uttheX651Ve/TOqj2N3nNxnxQ9PWGQIsOdhlICAEyy7S3gX/7yl7riiiuUkZGhoqIiPfTQQ5o3b57Wrl2rbt26NelnMISMYBYIBLR6V4neWblbH6/fp8pqvyTpcEW1amoDuqBHkmbcNIQSCMB2uH7beARw165dmjBhgoqLi9WlSxedf/75Wrx4cZPLHxDsLMvSQE+8Bnri9fsr+zYcX7SlWLe8vFwLNhdr4ovLNGnUWeqeFKOUuEhZlmRJCnPadn0YANiCbUcAWwN/g0CoWrr9oCa+uFTlVf4Tfr9/ultXDkjTZf27qqs7qp3TAUDb4vpNAWwRTiCEsrW7SjRt3hZt3lemnQcqVOU//jFyliWde2aivj8wTVcPTud2MYAOges3BbBFOIHQUfhrAyrz1UiSKqpq9PG6fZqzeo+W7TjU8J4z4qN037jeurx/V1YQAwhpXL8pgC3CCYSObvfhI3pv9R69vGiH9pRUSpKmjOmhKWN6Gk4GAKeP67eNnwQC4NudER+l275zlj7571G67cLukqRZywrE3xsBILRRAAF8q6gIp+6+uKciwx0qLKnUhr2lpiMBAFqAAgigSSLDnRpxVpIk6bONRYbTAABaggIIoMlG9U6WJH22gQIIAKGMAgigyS7q1UWSlLfzkEoqqg2nAQCcLgoggCZLT4hWz5ROqg1I8zfvNx0HAHCaKIAAmuWiXnW3gWcs2Ka3V+xiJBAAQhAFEECzjO2bKklas6tEOf9crR//72K2hQGAEEMBBNAs2d0SNPPWobrtwu5yhTn09R6v1uwqMR0LANAMFEAAzTb8rCRNvTRLl/SrGw18I6/AcCIAQHNQAAGctmuyPZKkOav2qLLabzgNAKCpKIAATtvwszorzR0pb2WN/r1un+k4AIAmogACOG0Oh6Wrs9MlSdPnb1XJEVYEA0AooAACaJHrzstQJ1eYvtrt1TXPLdL6Qi+rggEgyFEAAbTIGfFRmnXb+UqOdWnTvjKN+8sCjX58nvJ2HjIdDQBwEhRAAC3WN82t2ZNHaExWiiKcDm0rLteUWStZGAIAQYoCCKBVnBEfpf+9eYiWPTBGXd2RKjh4RM9+vtV0LADACVAAAbQqd3S4fnN5H0nSc/O26ulPNmvXoQrDqQAAx7ICzNY+bV6vV263WyUlJYqLizMdBwgagUBAP3t5uT7ZUNRwbFj3zro6O13j+qUqxhVmMB0Au+P6TQFsEU4g4OR8NX7NWbVHb63YpcXbDjYcj45w6soBaRqckaDkOJe+07OLLMsymBSA3XD9pgC2CCcQ0DQFByv0zsrdemvFLu040Ph28H9d2F33X5plKBkAO+L6TQFsEU4goHkCgYCWbD+ot/J2aa+3Ugs2F0uSnr8xW9/rm2o4HQC74PpNAWwRTiCgZR56b53+d+F2ucIcmnbDYH23d4rpSABsgOs3q4ABGPSrcb01JitZvppa3fpKnu55Y7XyD7BiGADaGgUQgDHhToem3ZCta4eky18b0Bt5u/Tdxz/XfW+tUcFBiiAAtBVuAbcAQ8hA61mRf0hPfbxZ8zftlySFOy1dP7SbBmXES5K6dY7RQE+8uYAAOgyu3xTAFuEEAlpf3s6DenLuZi3cUtzouGVJs38xghIIoMW4flMAW4QTCGg7CzcX65Uvd6i8qkaFhyu1rbhc552ZqFm3nc++gQBahOs3BbBFOIGA9lFYckSjHvtcvppa/TA7Xb+5rI/c0eGmYwEIUVy/WQQCIAR0dUfpV5f0lmVJb+bt0ugn5unnr+Vp7rp9pqMBQEiiAAIICT8dmak3bhums7rEqLjMpw++2qv//ucqlVZWm44GACGHAgggZAw5M1Hv33WB/nLdQEmSt7JGf1+SbzYUAISgMNMBAKA5XGFOfX/gGaqqqdU9b67Rk3M3aWtRmUb2SNKVA9JYIAIATcAIIICQNH7QGRrdu+4pIm/k7dJdr6/SlFmrdKTKbzoaAAQ9CiCAkBTudGjGTUP0+DUDdNWgM+R0WHp31R79aPqXqqymBALAqVAAAYQsh8PS1dnpeuJHA/X3nw1VfHS41uwq0Ytf7DAdDQCCGgUQQIdwfvfO+s1lfSRJz3y6WUWllYYTAUDwogAC6DB+MOgMDfDEq7zKrz9/tNF0HAAIWhRAAB2Gw2Hpt5fXjQK+kbdL6wu9hhMBQHCiANbLzc2VZVmaMmWK6SgAWiC7W4Iu699VgYA07i8LNHNJvnjiJQA0RgGUtGzZMk2fPl39+/c3HQVAK/jvi3sqzFG3H+D9s9fqqY83G04EAMHF9gWwrKxM119/vWbMmKGEhATTcQC0gu5dOmnWbcP0w+x0SdJfPtmsZz/fYjgVAAQP2xfAyZMn67LLLtOYMWNMRwHQirK7JejP1wzQry7pLUl69MONuujPn+uzDUWGkwGAebZ+FNzrr7+uFStWaNmyZU16v8/nk8/na/ja62WCORDsfj7qLPlq/Hrq483aXlyuiS8t00BPvP735iFK6uQyHQ8AjLDtCGBBQYHuuusuvfbaa4qMjGzSZ3Jzc+V2uxteHo+njVMCaA1TxvTU3Lsv1PndEyVJqwoO6+VFO8yGAgCDrIBNl8e98847+sEPfiCn09lwzO/3y7IsORwO+Xy+Rt+TTjwC6PF4VFJSori4uHbLDuD0BAIBPTl3k/7n07r5gLdekKmp47LkqF8wAsAevF6v3G63ra/ftr0FPHr0aK1du7bRsYkTJ6p379761a9+dVz5kySXyyWXi1tGQKiyLEt3jO6hd1fv0c4DFZqxYLsSYiL0i1Fnm44GAO3KtgUwNjZW/fr1a3QsJiZGnTt3Pu44gI4j3OnQnNtH6q+fbdH0+dv054826t9f71OvlFg99IN+CnfadmYMABvh/+kA2I47KlxTx/XWNdnpqg3UzQmctbxAT3/CfoEA7MG2cwBbA3MIgNAWCAS0ZPtBrcg/pEc/rHt28A+z0/Xg9/sqOsK2N0iADo/rNyOAAGzMsiyd372zfjHqbI0fmCZJejNvl2YuyTecDADaFgUQACQ9ctU56p0aK0n64Ku9htMAQNuiAAKApOiIML008TxJUt7OQ/rwq71ihgyAjooCCAD1Ut2RuvScVEnSpNfy9Pz8bYYTAUDbYBFICzCJFOh49pZU6spnFqqotG7T9winQ11iXfrHrecro3O04XQAWgPXb0YAAaCRVHekltw/Whf0SJIkVflrtfvwEV3/wmLdPWuVKqv9hhMCQMuxzwEA/AfLsvTyxPNUVOpT/sEK/XjGYhUcPKKCg7t1Ue9kXTkgzXREAGgRRgAB4AQcDkup7kidl5mod28fofSEKEnSy4t2qLaWmTMAQhsFEAC+Rd80t35/RV9JdSuEWRwCINRRAAGgCUb2SFL3pBhJ0p8+3KDn5201nAgATh8FEACaIDLcqbk531FmfQl8Yu4mHSjzGU4FAKeHAggATeR0WHr/zguUHOuSr6ZW768tNB0JAE4LBRAAmiEqwqkJ52VIklbmHzYbBgBOEwUQAJppYEa8JOntlbu1dleJ2TAAcBoogADQTIM9CQ1/fn4+i0EAhB4KIAA0kzs6XL+7oo8k6avdjAACCD0UQAA4DeMHniFJ2nGgQq8u3mk4DQA0D4+CA4DTkBAToW6do7XzQIWemrtJ3ZNiZEnyJEbLkxhtOh4AnJIVCAR4ptFp8nq9crvdKikpUVxcnOk4ANrZ/lKfzn3440bHIsMdmnfPRUqJizSUCsC34frNCCAAnLYusS499aOBem7eVtUGAiosqVRpZY0mvZanru5Idenk0tRLsxQZ7jQdFQAaoQACQAuMH3SGxg+qmw/42uKd+vU7X2ll/mGtrP9+9y6ddPPwM43lA4AToQACQCuZcF6GYiPD5D1SrSXbD+q9NYX63ZyvtaWoTP9vfD/T8QCgAQUQAFqJ02Hp+/Wrgy/qnaz31xaqNiC9uninvpuVrIt6JRtOCAB12AYGANpAekK0Nj40TkmdXJKkiS8u0+JtBwynAoA6FEAAaCPhTodyrzqn4evc99dr+vytYvMFAKZRAAGgDV3cJ0XP3ZAtSVq9q0SPvL9By3YcMpwKgN1RAAGgjY3tk6I/XnWO+qe7JUlfbuVWMACzKIAA0MYcDkvXnZehH53rkSR9ua3YcCIAdkcBBIB2cn73zpKkJdsPauSfPtXKfG4FAzCDAggA7aR7Uox6p8YqEJB2HTqiN/J2mY4EwKYogADQTizL0ru3j9BD9ZtCz1ySry1FZYZTAbAjCiAAtCNXmFNXDEhr+PqDtYUG0wCwKwogALQzd1S47r+0tyTp8bmbdKi8ynAiAHZDAQQAA77XN7Xhz/M37zeYBIAdWQG2pD9tXq9XbrdbJSUliouLMx0HQIi5983V+ufyXerkClN0hFOSlBAdoRk3DVFG52jD6YCOi+s3I4AAYMy4c7pKksp8NSoq9amo1KeN+0r13to9hpMB6OgYAWwB/gYBoKV2HapQyZFqSdLbK3brhYXb1dUdqbOTO6mTK0z3X5olTyKjgUBr4vothZkOAAB2lp4QrfSEuj9XVPn1wsLtKiypVGFJpSQpMylG917S22BCAB0RBRAAgsS5ZyZq5s+Gal9ppRZvPahZywv06YYixUWFKz4qXFcNTldEGDN3ALQcBRAAgsjws5MkSWnuKM1aXqANe0v1xw82SJKcDkvXDPGYjAegg+CvkgAQhM49M1E5F/fUD7PTldW1bo7SyoLDKvJWqshbKV+N33BCAKGMRSAtwCRSAO3h70t26oHZXzU6ltQpQp/kjJI7OtxQKiB0cf228QjgtGnT1L9/f8XFxSkuLk7Dhg3TBx98YDoWABznOz27KDUuUg5Lclh1x4rLqvTVnhKzwQCELNuOAP7rX/+S0+nU2WefLUl6+eWX9dhjj2nlypXq27dvk34Gf4MAYMLEF5fqs437dd6ZicpMitF153k0KCPBdCwgZHD9tvEI4BVXXKFLL71UPXv2VM+ePfXwww+rU6dOWrx4seloAHBKPVNiJUlLd9StFH7k/fWGEwEINawCluT3+/XGG2+ovLxcw4YNMx0HAE7pF6POVlp8lPIPVuiFhdu1uahM/tqAnEfvDwPAt7DtCKAkrV27Vp06dZLL5dKkSZM0e/Zs9enT56Tv9/l88nq9jV4A0N7c0eG6efiZ+sWosyRJhyuqNejBf6vgYIXhZABCha0LYK9evbRq1SotXrxYP//5z3XzzTdr3bp1J31/bm6u3G53w8vjYT8uAOYkxkRoSLe6uX/eyhot2X7QcCIAocK2i0BOZMyYMTrrrLP0/PPPn/D7Pp9PPp+v4Wuv1yuPx2PrSaQAzAoEAvr5ayv04dd7ddXgM3T90G4anBEvy+J2MHAyLAKx+QjgfwoEAo0K3n9yuVwN28YcfQGASZZlqVdq3aKQt1fs1tXTFmnuun2GUwEIdrZdBHL//fdr3Lhx8ng8Ki0t1euvv67PP/9cH374oeloANAsVw0+QyvyD2l9oVfFZVXasLdUY/ummo4FIIjZdgRw3759uvHGG9WrVy+NHj1aS5Ys0YcffqiLL77YdDQAaJZunWP06i1D9eOh3SRJf/1si8p8NYZTAQhmth0BfOGFF0xHAIBWdUZ8pCTJV1Or5+dt1X+P7WU4EYBgZdsRQADoaMad07Xhz9uLyw0mARDsKIAA0EHERYbrfyYMkiRt2Fuqfy4v0Kcb9qm2ls0eADRGAQSADiQ1ru428JaiMt375hr99KXl+nxTkeFUAIINBRAAOpDsbgn6yfAz9d3eyQ1lcNt+bgcDaIwCCAAdiNNh6fdX9tXffnKuLulXtxXMtuJybd1fpr0llYbTAQgWtl0FDAAdXeeYCEnSzCX5mrkkX5L0xLUDdNXgdJOxAAQBRgABoIManZWijMRouaPC5Qqr+7/7lfmHzYYCEBQYAQSADqpPWpzm33uRJOlvC7frwffW6VBFleFUAIIBBRAAbCAhJlyStGjrAd30t6WSpHCHpVsv7K7zu3c2GQ2AARRAALCBzKROkqSD5VWav2l/w/Hq2gAFELAhCiAA2MCAdLdm3jq0YSXwhr2lmj5/mw6Vc0sYsCMKIADYgGVZGn5WUsPXy3cc1PT523T4SJXKfDUNx52WpagIp4mIANoRBRAAbCguqm5OYMHBI+r3u48ajluW9NvL+2jiiExT0QC0A7aBAQAb6tY5Wj2SOx13PBCQFmwuNpAIQHtiBBAAbMgV5tRHUy5Ulb+24dhHX+/VXa+vUlllzSk+CaAjoAACgE05HJYiHd/M90uIrntyyKGKKu0tqVSMy6nYyHBT8QC0IW4BAwAkSZ0i68YENheV6fzcT5T9/z7WivxDhlMBaAsUQACAJCkrNU69U2MV7rRkWVKVv1arCw6bjgWgDVAAAQCSpKgIpz6ccqE2P3yprs32SJIqqvyGUwFoCxRAAMBxol11cwOP3SMQQMfBIhAAwHFiIuouD39fvFMffbVXknT5gDTlXNzTZCwArYQRQADAcXqk1O0R6K2s0bbicm0rLtfz87YaTgWgtTACCAA4zpUD0tQ7NU7eymqVVlbrpy8tl6+mVv7agJwOy3Q8AC1EAQQAHMeyLPVKjZUkHTlmIUhltV8xLi4dQKjjv2IAwCm5wr6ZLbR0x0G5o8LljgrXWV2Of5QcgNBAAQQAnJLDYSk6wqmKKr8mvris4fhzN2Trkn6pBpMBOF0sAgEAfKufjcxURmK0MhKj1an+FvCWolLDqQCcLgogAOBb5Yztpfn3XqT5916kH2anS5Iqq2sNpwJwuiiAAIBmcYXXXToqq3lKCBCqmAMIAGgWV1jdU0L2l/m0bX+ZJCkp1qW4yHCTsQA0AwUQANAsUeF1BfDdVXv07qo9Dcc+v2eUUuIiTUYD0ETcAgYANMuoXl3kSYxSbGSYYiPD5LCkI9V+bSkqMx0NQBMxAggAaJasrnFacO93G76+4umFWru7RFU1LAoBQgUjgACAFomo3yjaRwEEQgYFEADQIq6GAsiqYCBUcAsYANAiR0cAZ6/cra/3eBuOW5LG9k1RdrdEQ8kAnAwFEADQIonREZKkzzfu1+cb9zf63r/X7dNnvxxlIBWAU6EAAgBa5O6LeyotPkpV/m/mAB4qr9Ibebt0uKLKYDIAJ0MBBAC0iCcxWr/8Xq9Gx3YUl+uNvF2q9gcMpQJwKiwCAQC0uvD6eYHVflYGA8GIAggAaHXhTksSBRAIVtwCBgC0ughn3fhCbUD6bGORHFZdIQx3WMo+M6HhecIAzLBtAczNzdXbb7+tDRs2KCoqSsOHD9ef/vQn9erV69s/DAA4paNbw0jSxBeXNfretUPS9egPB7R3JADHsO0t4Hnz5mny5MlavHix5s6dq5qaGo0dO1bl5eWmowFAyIuOCNNt3+muPl3jGl5nxEdJkgoOHjGcDoAVCARYoiVp//79Sk5O1rx583ThhRc26TNer1dut1slJSWKi4tr44QAENreX1uoX/x9hc49M0FvTBpuOg5sjOu3jUcA/1NJSYkkKTGRHesBoC2EOY4uDGHcATDNtnMAjxUIBJSTk6ORI0eqX79+J32fz+eTz+dr+Nrr9Z70vQCAxsLrF4bU1LIyGDCNEUBJt99+u9asWaN//OMfp3xfbm6u3G53w8vj8bRTQgAIfWH1W8PUMAIIGGf7EcA77rhDc+bM0fz585Wenn7K906dOlU5OTkNX3u9XkogADRRmKNuzKG8qkYb95Ye9/3YyDCl1S8UAdC2bFsAA4GA7rjjDs2ePVuff/65MjMzv/UzLpdLLperHdIBQMcTEVY3Alhw8Ii+99T8E75nxk1DdHGflPaMBdiSbQvg5MmTNXPmTL377ruKjY3V3r17JUlut1tRUfwNFABaW980t7K7JWhH8fHbbZX6alRVU6tN+0opgEA7sG0BnDZtmiRp1KhRjY6/+OKL+slPftL+gQCgg4sMd+qtn594+5cHZq/V35fkMz8QaCe2LYBsfwgAwcNZv0WMnxXCQLtgFTAAwLiGAshfzoF2QQEEABh3dJPomloKINAeKIAAAOOc9VvE+JkDCLQLCiAAwLj6h4QwAgi0E9suAgEABI+jI4CvfLlDM5fmn/A9rjCH/nhVf13Wv2t7RgM6JEYAAQDGDUh3y2FJtQGpqqb2hK/SyhrNXbfXdFSgQ2AEEABg3OisFK34zcWqqPKf8PtvLN+lJz/epGpuEQOtggIIAAgK8dERio8+8fc6d4qQJNX42ScQaA3cAgYABL1wZ/02MawSBloFBRAAEPTC65cJVzECCLQKCiAAIOiF1RdARgCB1kEBBAAEvfD6J4VUMwIItAoKIAAg6B29BcwqYKB1sAoYABD0wuoXgRyuqNKCzftP+d7eqXHqEutqj1hAyKIAAgCCnivMKUnaeaBCN76w9JTvTerk0pL7R8tZf9sYwPEogACAoDcoI15j+6So4NCRk74nEAhow95SFZf5VFntV4yLSxxwMvzXAQAIepHhTk2/acgp31NVU6uev/5AklTDXEHglFgEAgDoEMKOueXrpwACp0QBBAB0CA4KINBkFEAAQIdxdBSQAgicGgUQANBhHF35W1PLhtHAqVAAAQAdhpMRQKBJKIAAgA6DAgg0DQUQANBhMAcQaBoKIACgw/hmDiAFEDgVNoIGAHQYRwvg/60p1Mr8w9/6/shwhy7uk6LYyPA2TgYEFwogAKDDiAqve2bwM59tafJnbvtOd00dl9VWkYCgRAEEAHQY943L0tsrdqkpN4B3FJdrc1GZikur2jwXEGwogACADuOSfqm6pF9qk947ff5WPfL+BgUCzBeE/bAIBABgSw6rbr5gLQUQNkQBBADY0jcF0HAQwAAKIADAluoXDMvPCCBsiAIIALAlR30DZA4g7IgCCACwJevoLeBaw0EAAyiAAABbcrIIBDZGAQQA2NLROYAsAoEdUQABALbENjCwMwogAMCWrIYRQAog7IcCCACwJaeDfQBhXxRAAIAtHb0FzDYwsCOeBQwAsKWjt4Arq/0qKq08rZ/RpZOrYTsZIJRQAAEAtnR0BHDZjkM67+FPTutnXNI3Vc/dmN2asYB2wS1gAIAtDcqIV2pcpCxLzX4dtXznQXP/AkAL2HoEcP78+XrssceUl5enwsJCzZ49W+PHjzcdCwDQDtITorX4/tGn9dlN+0o19sn5YvogQpWtRwDLy8s1YMAAPfPMM6ajAABCiIMtZBDibD0COG7cOI0bN850DABAiGl4jjD9DyHK1gWwuXw+n3w+X8PXXq/XYBoAgCk8RQShzta3gJsrNzdXbre74eXxeExHAgAYcPQWMP0PoYoC2AxTp05VSUlJw6ugoMB0JACAAZbYRBqhjVvAzeByueRyuUzHAAAY9s1zhM3mAE4XI4AAADSTw8EcQIQ2W48AlpWVacuWLQ1fb9++XatWrVJiYqIyMjIMJgMABDPmACLU2boALl++XBdddFHD1zk5OZKkm2++WS+99JKhVACAYMcqYIQ6WxfAUaNGMYEXANBsR58GxxUEoYo5gAAANJPFCCBCHAUQAIBmOnYOIHeSEIoogAAANNPROYASC0EQmiiAAAA007EFkNvACEUUQAAAmuub/sdCEIQkCiAAAM3kOKYAMgKIUEQBBACgmZgDiFBHAQQAoJmYA4hQZ+uNoAEAOB3H9D89OXeTIsJafzwlxhWmCedmKCEmotV/NkABBACgmcIcllxhDvlqajVjwfY2+9/x+wO6Y3SPNvv5sC8KIAAAzRTmdOjpCYP05bYDbfLzl+04qK92e1Xqq2mTnw9QAAEAOA1j+6ZqbN/UNvnZj7y/Xl/t9vKUEbQZFoEAABBkjk4xpP+hrVAAAQAINkefNWw2BTowCiAAAEHGOvZRI0AboAACABBkjm4zwy1gtBUKIAAAQaZhDiA3gdFGKIAAAAQpRgDRViiAAAAEGYspgGhjFEAAAILM0UUg7AOItkIBBAAgyFhsA4M2RgEEACDIsBE02hoFEACAYFM/BMgqYLQVCiAAAEGGNSBoaxRAAACCDBtBo61RAAEACDINq4AN50DHRQEEACDIMAKItkYBBAAgyHwzB5AGiLZBAQQAIMgwAoi2RgEEACBIUQDRViiAAAAEGYt9ANHGKIAAAAQpRgDRViiAAAAEGYudoNHGKIAAAAQZ9gFEW6MAAgAQZFgFjLZGAQQAIMgcvQPMIhC0FQogAABBxvqmAQJtggIIAECQYQ4g2hoFEACAIPPNHEAqINoGBRAAgCBF/UNboQACABBkGp4EQgNEG6EAAgAQZFgDgrZm+wL47LPPKjMzU5GRkcrOztaCBQtMRwIAAGhTti6As2bN0pQpU/TAAw9o5cqVuuCCCzRu3Djl5+ebjgYAsDEWgaCt2boAPvHEE7rlllv0s5/9TFlZWXrqqafk8Xg0bdo009EAADbGLWC0tTDTAUypqqpSXl6e7rvvvkbHx44dq0WLFp3wMz6fTz6fr+Frr9fbphkBAPZ0dBHIqvzDmvL6SsNpzLqkX6ou6dfVdIwOx7YFsLi4WH6/XykpKY2Op6SkaO/evSf8TG5urv7whz+0RzwAgI0lxERIknYfPqLdq44YTmPWmUkxFMA2YNsCeJTV8LydOoFA4LhjR02dOlU5OTkNX3u9Xnk8njbNBwCwn0v6puqJawfoYHmV6SjGDcpIMB2hQ7JtAUxKSpLT6TxutK+oqOi4UcGjXC6XXC5Xe8QDANhYRJhDVw1ONx0DHZhtF4FEREQoOztbc+fObXR87ty5Gj58uKFUAAAAbc+2I4CSlJOToxtvvFFDhgzRsGHDNH36dOXn52vSpEmmowEAALQZWxfAH/3oRzpw4IAefPBBFRYWql+/fnr//ffVrVs309EAAADajBVgl8nT5vV65Xa7VVJSori4ONNxAABAE3D9tvEcQAAAALuiAAIAANgMBRAAAMBmKIAAAAA2QwEEAACwGQogAACAzVAAAQAAbIYCCAAAYDMUQAAAAJux9aPgWuroQ1S8Xq/hJAAAoKmOXrft/DA0CmALlJaWSpI8Ho/hJAAAoLlKS0vldrtNxzCCZwG3QG1trfbs2aPY2FhZltWqP9vr9crj8aigoMC2zykMZvx+gh+/o+DG7yf4deTfUSAQUGlpqdLS0uRw2HM2HCOALeBwOJSent6m/xtxcXEd7j+8joTfT/DjdxTc+P0Ev476O7LryN9R9qy9AAAANkYBBAAAsBkKYJByuVz63e9+J5fLZToKToDfT/DjdxTc+P0EP35HHRuLQAAAAGyGEUAAAACboQACAADYDAUQAADAZiiAAAAANkMBDELPPvusMjMzFRkZqezsbC1YsMB0JNTLzc3Vueeeq9jYWCUnJ2v8+PHauHGj6Vg4idzcXFmWpSlTppiOgmPs3r1bN9xwgzp37qzo6GgNHDhQeXl5pmNBUk1NjX79618rMzNTUVFR6t69ux588EHV1taajoZWRgEMMrNmzdKUKVP0wAMPaOXKlbrgggs0btw45efnm44GSfPmzdPkyZO1ePFizZ07VzU1NRo7dqzKy8tNR8N/WLZsmaZPn67+/fubjoJjHDp0SCNGjFB4eLg++OADrVu3To8//rji4+NNR4OkP/3pT3ruuef0zDPPaP369Xr00Uf12GOP6emnnzYdDa2MbWCCzNChQzV48GBNmzat4VhWVpbGjx+v3Nxcg8lwIvv371dycrLmzZunCy+80HQc1CsrK9PgwYP17LPP6qGHHtLAgQP11FNPmY4FSffdd5+++OIL7mwEqcsvv1wpKSl64YUXGo5dffXVio6O1quvvmowGVobI4BBpKqqSnl5eRo7dmyj42PHjtWiRYsMpcKplJSUSJISExMNJ8GxJk+erMsuu0xjxowxHQX/Yc6cORoyZIiuueYaJScna9CgQZoxY4bpWKg3cuRIffLJJ9q0aZMkafXq1Vq4cKEuvfRSw8nQ2sJMB8A3iouL5ff7lZKS0uh4SkqK9u7daygVTiYQCCgnJ0cjR45Uv379TMdBvddff10rVqzQsmXLTEfBCWzbtk3Tpk1TTk6O7r//fi1dulR33nmnXC6XbrrpJtPxbO9Xv/qVSkpK1Lt3bzmdTvn9fj388MOaMGGC6WhoZRTAIGRZVqOvA4HAccdg3u233641a9Zo4cKFpqOgXkFBge666y79+9//VmRkpOk4OIHa2loNGTJEjzzyiCRp0KBB+vrrrzVt2jQKYBCYNWuWXnvtNc2cOVN9+/bVqlWrNGXKFKWlpenmm282HQ+tiAIYRJKSkuR0Oo8b7SsqKjpuVBBm3XHHHZozZ47mz5+v9PR003FQLy8vT0VFRcrOzm445vf7NX/+fD3zzDPy+XxyOp0GE6Jr167q06dPo2NZWVl66623DCXCse655x7dd999uu666yRJ55xzjnbu3Knc3FwKYAfDHMAgEhERoezsbM2dO7fR8blz52r48OGGUuFYgUBAt99+u95++219+umnyszMNB0Jxxg9erTWrl2rVatWNbyGDBmi66+/XqtWraL8BYERI0Yct3XSpk2b1K1bN0OJcKyKigo5HI2rgdPpZBuYDogRwCCTk5OjG2+8UUOGDNGwYcM0ffp05efna9KkSaajQXWLC2bOnKl3331XsbGxDaO1brdbUVFRhtMhNjb2uPmYMTEx6ty5M/M0g8Tdd9+t4cOH65FHHtG1116rpUuXavr06Zo+fbrpaJB0xRVX6OGHH1ZGRob69u2rlStX6oknntBPf/pT09HQytgGJgg9++yzevTRR1VYWKh+/frpySefZIuRIHGyuZgvvviifvKTn7RvGDTJqFGj2AYmyLz33nuaOnWqNm/erMzMTOXk5OjWW281HQuSSktL9Zvf/EazZ89WUVGR0tLSNGHCBP32t79VRESE6XhoRRRAAAAAm2EOIAAAgM1QAAEAAGyGAggAAGAzFEAAAACboQACAADYDAUQAADAZiiAAAAANkMBBAAAsBkKIAAAgM1QAAEAAGyGAggAAGAzFEAAAACboQACAADYDAUQAADAZiiAAAAANkMBBAAAsBkKIAAAgM1QAAEAAGyGAggAAGAzFEAAAACboQACAADYDAUQAADAZiiAAAAANkMBBAAAsBkKIAAAgM1QAAEAAGyGAggAAGAzFEAAAACboQACAADYDAUQAADAZiiAAAAANvP/AaFiaqrJfHMyAAAAAElFTkSuQmCC", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "log_rang_log_freq('voy-log-log', get_words(voynich))" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "rang_freq_with_labels('voy-words-20', get_words(voynich), top=20)" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "log_rang_log_freq('voy-words-log-log', get_words(voynich))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Język DNA\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Kod genetyczny przejawia własności zaskakująco podobne do języków naturalnych.\n", + "Przede wszystkim ma charakter dyskretny, genotyp to ciąg symboli ze skończonego alfabetu.\n", + "Podstawowe litery są tylko cztery, reprezentują one nukleotydy, z których zbudowana jest nić DNA:\n", + "a, g, c, t.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "TATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA" + ] + } + ], + "source": [ + "import requests\n", + "\n", + "dna_url = 'https://raw.githubusercontent.com/egreen18/NanO_GEM/master/rawGenome.txt'\n", + "dna = requests.get(dna_url).content.decode('utf-8')\n", + "\n", + "dna = ''.join(dna.split('\\n')[1:])\n", + "dna = dna.replace('N', 'A')\n", + "\n", + "dna[0:100]" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "rang_freq_with_labels('dna-chars', get_characters(dna))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### Tryplety — znaczące cząstki genotypu\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Nukleotydy rzeczywiście są jak litery, same w sobie nie niosą\n", + "znaczenia. Dopiero ciągi trzech nukleotydów, *tryplety*, kodują jeden\n", + "z dwudziestu aminokwasów.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "iVBORw0KGgoAAAANSUhEUgAABLAAAAEsCAYAAADTvUpQAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/YYfK9AAAACXBIWXMAAA9hAAAPYQGoP6dpAAA9HUlEQVR4nO3de1hU9b7H8c8EgogwgQRE4qU0UtEuVEq2A1NBN4hd9rYTRllutU2JpB7TPBlWonkvOXYxDfOSZWal7gg1MQlJQ6lM0txqooFaIl4yQJzzR4/rNKLuGLG1pPfreeZ5nLW+rPnMqFw+/NYam8PhcAgAAAAAAACwqMvMDgAAAAAAAACcDwUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNIosAAAAAAAAGBpFFgAAAAAAACwNAosAAAAAAAAWBoFFgAAAAAAACyNAgsAAAAAAACWRoEFAAAAAAAAS6PAAgAAAAAAgKVRYAEAAAAAAMDSKLAAAAAAAABgaRRYAAAAAAAAsDQKLAAAAAAAAFgaBRYAAAAAAAAsjQILAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABAAAAAADA0iiwAAAAAAAAYGkUWAAAAAAAALA0CiwAAAAAAABYGgUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNIosAAAAAAAAGBpFFgAAAAAAACwNAosAAAAAAAAWBoFFgAAAAAAACzN3ewAqH9OnTqlH374QT4+PrLZbGbHAQAAAADUcw6HQ0ePHlVISIguu4y1OvURBRbq3A8//KDQ0FCzYwAAAAAA/mSKi4vVtGlTs2PgIqDAQp3z8fGR9OsnDl9fX5PTAAAAAADquyNHjig0NNT4eRT1DwUW6tzp0wZ9fX0psAAAAAAAfxguY1N/cWIoAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNIosAAAAAAAAGBpFFgAAAAAAACwNAosAAAAAAAAWJq72QEAM7UYucLsCNo9Ic7sCAAAAAAAWBorsAAAAAAAAGBprMACLM7sVWKsEAMAAAAAmI0VWAAAAAAAALA0CiwAAAAAAABYGgUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABL410IAVww3ikRAAAAAHAxsQILAAAAAAAAlkaBBQAAAAAAAEujwLKAtLQ02Ww2p1twcLCx3+FwKC0tTSEhIfLy8lJ0dLS++eYbp2NUVFRo8ODBCggIkLe3txISErR3716nmbKyMiUlJclut8tutyspKUmHDx92mtmzZ4969eolb29vBQQEKCUlRZWVlRftuQMAAAAAAPwnFFgW0a5dO5WUlBi3r7/+2tg3ceJETZ06VRkZGdq4caOCg4PVvXt3HT161JhJTU3V0qVLtWjRIuXm5urYsWOKj49XdXW1MZOYmKjCwkJlZWUpKytLhYWFSkpKMvZXV1crLi5Ox48fV25urhYtWqQlS5Zo2LBhf8yLAAAAAAAAcBZcxN0i3N3dnVZdneZwODR9+nSNHj1a99xzjyRp7ty5CgoK0sKFCzVo0CCVl5dr9uzZmjdvnrp16yZJmj9/vkJDQ7Vq1SrFxsaqqKhIWVlZys/PV8eOHSVJs2bNUmRkpLZt26awsDBlZ2dr69atKi4uVkhIiCRpypQp6tevn8aNGydfX98/6NUAAAAAAAD4f6zAsojvvvtOISEhatmypf7rv/5LO3fulCTt2rVLpaWliomJMWY9PT0VFRWlvLw8SVJBQYGqqqqcZkJCQhQeHm7MrF+/Xna73SivJKlTp06y2+1OM+Hh4UZ5JUmxsbGqqKhQQUHBObNXVFToyJEjTjcAAAAAAIC6QoFlAR07dtSbb76pjz/+WLNmzVJpaaluu+02/fTTTyotLZUkBQUFOX1MUFCQsa+0tFQeHh7y8/M770xgYGCNxw4MDHSaOfNx/Pz85OHhYcyczfjx443ratntdoWGhtbyFQAAAAAAADg3CiwL6Nmzp+699161b99e3bp104oVKyT9eqrgaTabzeljHA5HjW1nOnPmbPOuzJxp1KhRKi8vN27FxcXnzQUAAAAAAFAbFFgW5O3trfbt2+u7774zrot15gqoAwcOGKulgoODVVlZqbKysvPO7N+/v8ZjHTx40GnmzMcpKytTVVVVjZVZv+Xp6SlfX1+nGwAAAAAAQF2hwLKgiooKFRUV6corr1TLli0VHByslStXGvsrKyu1du1a3XbbbZKkiIgINWjQwGmmpKREW7ZsMWYiIyNVXl6uDRs2GDOff/65ysvLnWa2bNmikpISYyY7O1uenp6KiIi4qM8ZAAAAAADgXHgXQgsYPny4evXqpWbNmunAgQN6/vnndeTIET300EOy2WxKTU1Venq6WrdurdatWys9PV2NGjVSYmKiJMlut6t///4aNmyYmjRpIn9/fw0fPtw4JVGS2rRpox49emjAgAF69dVXJUkDBw5UfHy8wsLCJEkxMTFq27atkpKSNGnSJB06dEjDhw/XgAEDWFUFAAAAAABMQ4FlAXv37tX999+vH3/8UVdccYU6deqk/Px8NW/eXJI0YsQInThxQsnJySorK1PHjh2VnZ0tHx8f4xjTpk2Tu7u7+vTpoxMnTqhr167KzMyUm5ubMbNgwQKlpKQY71aYkJCgjIwMY7+bm5tWrFih5ORkde7cWV5eXkpMTNTkyZP/oFcCAAAAAACgJpvD4XCYHQL1y5EjR2S321VeXm75lVstRq4wO4J2T4g7736zM/6nfNKlkREAAABA/XUp/RwK13ANLAAAAAAAAFgaBRYAAAAAAAAsjQILAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABAAAAAADA0iiwAAAAAAAAYGkUWAAAAAAAALA0CiwAAAAAAABYGgUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNLczQ4AABdbi5ErzI6g3RPizI4AAAAAAJcsCiwAsACzSzYKNgAAAABWximEAAAAAAAAsDQKLAAAAAAAAFgaBRYAAAAAAAAsjQILAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABAAAAAADA0iiwAAAAAAAAYGkUWAAAAAAAALA0CiwAAAAAAABYmrvZAS5lhw8f1oYNG3TgwAGdOnXKad+DDz5oUioAAAAAAID6hQLLRcuWLVPfvn11/Phx+fj4yGazGftsNhsFFgAAAAAAQB3hFMLf6Z133tH3339v3B82bJgeeeQRHT16VIcPH1ZZWZlxO3TokIlJAQAAAAAA6hcKrN+pcePG6tKli7744gtJ0r59+5SSkqJGjRqZnAwAAAAAAKB+o8D6nf7617/qgw8+0D//+U9JUmxsrFFm1bXx48fLZrMpNTXV2OZwOJSWlqaQkBB5eXkpOjpa33zzjdPHVVRUaPDgwQoICJC3t7cSEhK0d+9ep5mysjIlJSXJbrfLbrcrKSlJhw8fdprZs2ePevXqJW9vbwUEBCglJUWVlZUX5bkCAAAAAAD8J1wDqxbat2+vTz/9VJIUFxen//7v/9bWrVvVvn17NWjQwGk2ISHBpcfYuHGjXnvtNXXo0MFp+8SJEzV16lRlZmbq2muv1fPPP6/u3btr27Zt8vHxkSSlpqZq2bJlWrRokZo0aaJhw4YpPj5eBQUFcnNzkyQlJiZq7969ysrKkiQNHDhQSUlJWrZsmSSpurpacXFxuuKKK5Sbm6uffvpJDz30kBwOh2bMmOHScwIAAAAAALgQFFi15OXlJUkaMGCAJOnZZ5+tMWOz2VRdXV3rYx87dkx9+/bVrFmz9PzzzxvbHQ6Hpk+frtGjR+uee+6RJM2dO1dBQUFauHChBg0apPLycs2ePVvz5s1Tt27dJEnz589XaGioVq1apdjYWBUVFSkrK0v5+fnq2LGjJGnWrFmKjIzUtm3bFBYWpuzsbG3dulXFxcUKCQmRJE2ZMkX9+vXTuHHj5OvrW+vnBQAAAAAAcCE4hdBFp06dOufNlfJKkh577DHFxcUZBdRpu3btUmlpqWJiYoxtnp6eioqKUl5eniSpoKBAVVVVTjMhISEKDw83ZtavXy+73W6UV5LUqVMn2e12p5nw8HCjvJJ+PV2yoqJCBQUFZ81dUVGhI0eOON0AAAAAAADqCgVWHfjll18u+BiLFi3Spk2bNH78+Br7SktLJUlBQUFO24OCgox9paWl8vDwkJ+f33lnAgMDaxw/MDDQaebMx/Hz85OHh4cxc6bx48cb19Sy2+0KDQ39PU8ZAAAAAADgd6HAclF1dbWee+45XXXVVWrcuLF27twpSXr66ac1e/bsWh2ruLhYQ4YM0fz589WwYcNzztlsNqf7DoejxrYznTlztnlXZn5r1KhRKi8vN27FxcXnzQQAAAAAAFAbFFguGjdunDIzMzVx4kR5eHgY29u3b6/XX3+9VscqKCjQgQMHFBERIXd3d7m7u2vt2rV66aWX5O7ubqyIOnMF1IEDB4x9wcHBqqysVFlZ2Xln9u/fX+PxDx486DRz5uOUlZWpqqqqxsqs0zw9PeXr6+t0AwAAAAAAqCsUWC5688039dprr6lv377GO/xJUocOHfTtt9/W6lhdu3bV119/rcLCQuN28803q2/fviosLNTVV1+t4OBgrVy50viYyspKrV27VrfddpskKSIiQg0aNHCaKSkp0ZYtW4yZyMhIlZeXa8OGDcbM559/rvLycqeZLVu2qKSkxJjJzs6Wp6enIiIiavW8AAAAAAAA6gLvQuiiffv2qVWrVjW2nzp1SlVVVbU6lo+Pj8LDw522eXt7q0mTJsb21NRUpaenq3Xr1mrdurXS09PVqFEjJSYmSpLsdrv69++vYcOGqUmTJvL399fw4cPVvn1746Lwbdq0UY8ePTRgwAC9+uqrkqSBAwcqPj5eYWFhkqSYmBi1bdtWSUlJmjRpkg4dOqThw4drwIABrKwCAAAAAACmoMByUbt27bRu3To1b97cafvixYt144031vnjjRgxQidOnFBycrLKysrUsWNHZWdny8fHx5iZNm2a3N3d1adPH504cUJdu3ZVZmam0wqxBQsWKCUlxXi3woSEBGVkZBj73dzctGLFCiUnJ6tz587y8vJSYmKiJk+eXOfPCQAAAAAA4PegwHLRM888o6SkJO3bt0+nTp3Se++9p23btunNN9/U8uXLL/j4OTk5TvdtNpvS0tKUlpZ2zo9p2LChZsyYoRkzZpxzxt/fX/Pnzz/vYzdr1qxOngMAAAAAAEBdoMByUa9evfT2228rPT1dNptNY8aM0U033aRly5ape/fuZscDgDrXYuQKUx9/94Q4Ux8fAAAAgHkosC5AbGysYmNjzY4BAAAAAABQr/EuhAAAAAAAALA0VmDVgr+/v7Zv366AgAD5+fnJZrOdc/bQoUN/YDIAAAAAAID6iwKrFqZNm2a869/06dPNDQMAAAAAAPAnQYFVCw899NBZ/wwAAAAAAICLhwLrAlRXV2vp0qUqKiqSzWZTmzZt1Lt3b7m787ICAAAAAADUFZoWF23ZskW9e/dWaWmpwsLCJEnbt2/XFVdcoQ8//FDt27c3OSEAAAAAAED9wLsQuugf//iH2rVrp71792rTpk3atGmTiouL1aFDBw0cONDseAAAAAAAAPUGK7Bc9OWXX+qLL76Qn5+fsc3Pz0/jxo3TLbfcYmIyAAAAAACA+oUVWC4KCwvT/v37a2w/cOCAWrVqZUIiAAAAAACA+okCy0Xp6elKSUnRu+++q71792rv3r169913lZqaqhdeeEFHjhwxbgAAAAAAAHAdpxC6KD4+XpLUp08f2Ww2SZLD4ZAk9erVy7hvs9lUXV1tTkgAAAAAAIB6gALLRWvWrDE7AgAAAAAAwJ8CBZaLoqKizI4AAAAAAADwp0CBdYF+/vln7dmzR5WVlU7bO3ToIIfDob59+2rhwoUmpQMAAAAAALj0UWC56ODBg3r44Yf10UcfnXX/+PHj1a1bN61evfoPTgYAAAAAAFC/8C6ELkpNTVVZWZny8/Pl5eWlrKwszZ07V61bt9aHH34oLy8v9e/fX48++qjZUQEAAAAAAC5prMBy0SeffKIPPvhAt9xyiy677DI1b95c3bt3l6+vr8aPH6/c3FwNHjzY7JgAAAAAAACXPFZguej48eMKDAyUJPn7++vgwYOSpPbt22vTpk1mRgMAAAAAAKhXKLBcFBYWpm3btkmSbrjhBr366qvat2+fXnnlFV155ZUmpwMAAAAAAKg/OIXQRampqSopKZEkPfPMM4qNjdWCBQvk4eGhzMxMc8MBAAAAAADUIxRYLurbt6/x5xtvvFG7d+/Wt99+q2bNmikgIMDEZAAAAAAAAPULpxC66Nlnn9XPP/9s3G/UqJFuuukmeXt769lnnzUxGQAAAAAAQP1CgeWisWPH6tixYzW2//zzzxo7dqwJiQAAAAAAAOonCiwXORwO2Wy2Gtu//PJL+fv7m5AIAAAAAACgfuIaWLXk5+cnm80mm82ma6+91qnEqq6u1rFjx/Too4+amBAAAAAAAKB+ocCqpenTp8vhcOiRRx7R2LFjZbfbjX0eHh5q0aKFIiMjTUwIAAAAAABQv1Bg1dJDDz0kSWrZsqU6d+4sd3deQgAAAAAAgIuJa2C5yMfHR0VFRcb9Dz74QHfddZeeeuopVVZWmpgMAAAAAACgfqHActGgQYO0fft2SdLOnTt13333qVGjRlq8eLFGjBhRq2O9/PLL6tChg3x9feXr66vIyEh99NFHxn6Hw6G0tDSFhITIy8tL0dHR+uabb5yOUVFRocGDBysgIEDe3t5KSEjQ3r17nWbKysqUlJQku90uu92upKQkHT582Glmz5496tWrl7y9vRUQEKCUlBQKOQAAAAAAYCoKLBdt375dN9xwgyRp8eLFioqK0sKFC5WZmaklS5bU6lhNmzbVhAkT9MUXX+iLL77QnXfeqd69exsl1cSJEzV16lRlZGRo48aNCg4OVvfu3XX06FHjGKmpqVq6dKkWLVqk3NxcHTt2TPHx8aqurjZmEhMTVVhYqKysLGVlZamwsFBJSUnG/urqasXFxen48ePKzc3VokWLtGTJEg0bNuwCXikAAAAAAIALwwWcXORwOHTq1ClJ0qpVqxQfHy9JCg0N1Y8//lirY/Xq1cvp/rhx4/Tyyy8rPz9fbdu21fTp0zV69Gjdc889kqS5c+cqKChICxcu1KBBg1ReXq7Zs2dr3rx56tatmyRp/vz5Cg0N1apVqxQbG6uioiJlZWUpPz9fHTt2lCTNmjVLkZGR2rZtm8LCwpSdna2tW7equLhYISEhkqQpU6aoX79+GjdunHx9fV1/wQAAAAAAAFzECiwX3XzzzXr++ec1b948rV27VnFxcZKkXbt2KSgoyOXjVldXa9GiRTp+/LgiIyO1a9culZaWKiYmxpjx9PRUVFSU8vLyJEkFBQWqqqpymgkJCVF4eLgxs379etntdqO8kqROnTrJbrc7zYSHhxvllSTFxsaqoqJCBQUF58xcUVGhI0eOON0AAAAAAADqCgWWi6ZNm6aCggI9/vjjGj16tFq1aiVJevfdd3XbbbfV+nhff/21GjduLE9PTz366KNaunSp2rZtq9LSUkmqUYoFBQUZ+0pLS+Xh4SE/P7/zzgQGBtZ43MDAQKeZMx/Hz89PHh4exszZjB8/3riult1uV2hoaC2fPQAAAAAAwLlxCqGLrr/+em3ZsqXG9kmTJsnNza3WxwsLC1NhYaEOHz6sJUuW6KGHHtLatWuN/TabzWne4XDU2HamM2fONu/KzJlGjRqloUOHGvePHDlCiQUAAAAAAOoMK7Bc1K9fP3366ac1tjds2FANGjSo9fE8PDzUqlUr3XzzzRo/fryuv/56vfjiiwoODpakGiugDhw4YKyWCg4OVmVlpcrKys47s3///hqPe/DgQaeZMx+nrKxMVVVV5z0t0tPT03gHxdM3AAAAAACAukKB5aKjR48qJiZGrVu3Vnp6uvbt21enx3c4HKqoqFDLli0VHByslStXGvsqKyu1du1a41TFiIgINWjQwGmmpKREW7ZsMWYiIyNVXl6uDRs2GDOff/65ysvLnWa2bNmikpISYyY7O1uenp6KiIio0+cHAAAAAADwe1FguWjJkiXat2+fHn/8cS1evFgtWrRQz549tXjxYlVVVdXqWE899ZTWrVun3bt36+uvv9bo0aOVk5Ojvn37ymazKTU1Venp6Vq6dKm2bNmifv36qVGjRkpMTJQk2e129e/fX8OGDdPq1au1efNmPfDAA2rfvr3xroRt2rRRjx49NGDAAOXn5ys/P18DBgxQfHy8wsLCJEkxMTFq27atkpKStHnzZq1evVrDhw/XgAEDWFUFAAAAAABMwzWwLkCTJk00ZMgQDRkyRJs3b9acOXP04IMPqnHjxnrggQeUnJys1q1b/8fj7N+/X0lJSSopKZHdbleHDh2UlZWl7t27S5JGjBihEydOKDk5WWVlZerYsaOys7Pl4+NjHGPatGlyd3dXnz59dOLECXXt2lWZmZlO1+NasGCBUlJSjHcrTEhIUEZGhrHfzc1NK1asUHJysjp37iwvLy8lJiZq8uTJdfWSAcBF02LkCrMjaPeEOLMjAAAAAPUSBVYdKCkpUXZ2trKzs+Xm5qa//vWv+uabb9S2bVtNnDhRTzzxxHk/fvbs2efdb7PZlJaWprS0tHPONGzYUDNmzNCMGTPOOePv76/58+ef97GaNWum5cuXn3cGAOAas0s2CjYAAABcqjiF0EVVVVVasmSJ4uPj1bx5cy1evFhPPPGESkpKNHfuXGVnZ2vevHl69tlnzY4KAAAAAABwSWMFlouuvPJKnTp1Svfff782bNigG264ocZMbGysLr/88j88GwAAAAAAQH1CgeWiadOm6e9//7saNmx4zhk/Pz/t2rXrD0wFAAAAAABQ/3AKoYuCg4PlcDjMjgEAAAAAAFDvsQLLRffee68qKioUERGhqKgoRUdHq3PnzmrcuLHZ0QAAAAAAAOoVVmC5qKysTDk5OUpISNDmzZv197//Xf7+/urUqZNGjhxpdjwAAAAAAIB6gwLLRW5uboqMjNTIkSOVlZWlvLw8JSYmqqCgQJMmTTI7HgAAAAAAQL3BKYQuKioq0tq1a5WTk6O1a9equrpat99+u6ZMmaKoqCiz4wEAAAAAANQbFFguateuna644gqlpqbq6aefVrt27cyOBAAAAAAAUC9xCqGLUlJSdNVVVyktLU2PPPKInnzySX300Uc6duyY2dEAAAAAAADqFQosF02fPl2bNm3S/v379T//8z+qrq7WmDFjFBAQoE6dOpkdDwAAAAAAoN6gwLpAp06d0smTJ1VZWamKigpVVVVp9+7dZscCAAAAAACoNyiwXDRkyBBdf/31CgwM1KBBg/TDDz9o4MCB+vLLL1VaWmp2PAAAAAAAgHqDi7i7aN++fRowYICio6MVHh5udhwAAAAAAIB6iwLLRe+++67ZEQAAAAAAAP4UOIUQAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABAAAAAADA0iiwAAAAAAAAYGm8C6GLqqurNW3aNL3zzjvas2ePKisrnfYfOnTIpGQAALimxcgVZkfQ7glxZkcAAACABbECy0Vjx47V1KlT1adPH5WXl2vo0KG65557dNlllyktLc3seAAAAAAAAPUGBZaLFixYoFmzZmn48OFyd3fX/fffr9dff11jxoxRfn6+2fEAAAAAAADqDQosF5WWlqp9+/aSpMaNG6u8vFySFB8frxUrzD8FAwAAAAAAoL6gwHJR06ZNVVJSIklq1aqVsrOzJUkbN26Up6enmdEAAAAAAADqFQosF919991avXq1JGnIkCF6+umn1bp1az344IN65JFHTE4HAAAAAABQf/AuhC6aMGGC8ee//e1vatq0qfLy8tSqVSslJCSYmAwAAAAAAKB+ocCqI506dVKnTp3MjgEAAAAAAFDvUGBdgG3btmnGjBkqKiqSzWbTddddp8GDByssLMzsaAAAAAAAAPUG18By0bvvvqvw8HAVFBTo+uuvV4cOHbRp0yaFh4dr8eLFZscDAAAAAACoNyiwXDRixAiNGjVK69ev19SpUzV16lTl5eXpqaee0pNPPlmrY40fP1633HKLfHx8FBgYqLvuukvbtm1zmnE4HEpLS1NISIi8vLwUHR2tb775xmmmoqJCgwcPVkBAgLy9vZWQkKC9e/c6zZSVlSkpKUl2u112u11JSUk6fPiw08yePXvUq1cveXt7KyAgQCkpKaqsrKzVcwIAAAAAAKgrFFguKi0t1YMPPlhj+wMPPKDS0tJaHWvt2rV67LHHlJ+fr5UrV+rkyZOKiYnR8ePHjZmJEydq6tSpysjI0MaNGxUcHKzu3bvr6NGjxkxqaqqWLl2qRYsWKTc3V8eOHVN8fLyqq6uNmcTERBUWFiorK0tZWVkqLCxUUlKSsb+6ulpxcXE6fvy4cnNztWjRIi1ZskTDhg2r1XMCAAAAAACoK1wDy0XR0dFat26dWrVq5bQ9NzdXf/nLX2p1rKysLKf7b7zxhgIDA1VQUKA77rhDDodD06dP1+jRo3XPPfdIkubOnaugoCAtXLhQgwYNUnl5uWbPnq158+apW7dukqT58+crNDRUq1atUmxsrIqKipSVlaX8/Hx17NhRkjRr1ixFRkZq27ZtCgsLU3Z2trZu3ari4mKFhIRIkqZMmaJ+/fpp3Lhx8vX1den1AgCgLrQYucLsCNo9Ic7sCAAAAH86FFi18OGHHxp/TkhI0JNPPqmCggLj3Qfz8/O1ePFijR079oIep7y8XJLk7+8vSdq1a5dKS0sVExNjzHh6eioqKkp5eXkaNGiQCgoKVFVV5TQTEhKi8PBw5eXlKTY2VuvXr5fdbjfKK+nXd0+02+3Ky8tTWFiY1q9fr/DwcKO8kqTY2FhVVFSooKBAXbp0qZG3oqJCFRUVxv0jR45c0PMHAAAAAAD4LQqsWrjrrrtqbJs5c6ZmzpzptO2xxx7To48+6tJjOBwODR06VLfffrvCw8MlyTglMSgoyGk2KChI33//vTHj4eEhPz+/GjOnP760tFSBgYE1HjMwMNBp5szH8fPzk4eHxzlPjRw/fvwFl3YAANQXZq8SY4UYAACoj7gGVi2cOnXqd91+e82p2nr88cf11Vdf6a233qqxz2azOd13OBw1tp3pzJmzzbsy81ujRo1SeXm5cSsuLj5vJgAAAAAAgNqgwHLRnj17nE6bO83hcGjPnj0uHXPw4MH68MMPtWbNGjVt2tTYHhwcLEk1VkAdOHDAWC0VHBysyspKlZWVnXdm//79NR734MGDTjNnPk5ZWZmqqqpqrMw6zdPTU76+vk43AAAAAACAusIphC5q0aKF2rRpow8//FDXXHONsf3AgQNq2bJlrVZhORwODR48WEuXLlVOTo5atmzptL9ly5YKDg7WypUrdeONN0qSKisrtXbtWr3wwguSpIiICDVo0EArV65Unz59JEklJSXasmWLJk6cKEmKjIxUeXm5NmzYoFtvvVWS9Pnnn6u8vFy33XabMTNu3DiVlJToyiuvlCRlZ2fL09NTERERrrxUAADAQsw+xVHiNEcAAFB7FFgXoE2bNrr11lv1zjvvqGvXrsZ2h8NRq+M89thjWrhwoT744AP5+PgYK6Dsdru8vLxks9mUmpqq9PR0tW7dWq1bt1Z6eroaNWqkxMREY7Z///4aNmyYmjRpIn9/fw0fPlzt27c33pWwTZs26tGjhwYMGKBXX31VkjRw4EDFx8crLCxMkhQTE6O2bdsqKSlJkyZN0qFDhzR8+HANGDCAlVUAAOAPQckGAADORIHlIpvNppkzZ2rBggWKi4vTxIkTlZKSYuyrjZdfflmSFB0d7bT9jTfeUL9+/SRJI0aM0IkTJ5ScnKyysjJ17NhR2dnZ8vHxMeanTZsmd3d39enTRydOnFDXrl2VmZkpNzc3Y2bBggVKSUkx3q0wISFBGRkZxn43NzetWLFCycnJ6ty5s7y8vJSYmKjJkyfX6jkBAADUZ2aXbBRsAIA/GwosF51eZfXEE0/ouuuu0/3336+vvvpKY8aMcflY52Oz2ZSWlqa0tLRzzjRs2FAzZszQjBkzzjnj7++v+fPnn/exmjVrpuXLl//HTAAAAAAAAH8ECqw60LNnT+Xl5SkhIUEbNmwwOw4AAAD+5MxeISaxSgwAULd4F0IXRUVFycPDw7jftm1bbdiwQX5+frW+BhYAAAAAAADOjRVYLlqzZk2Nbf7+/lq7dq0JaQAAAAAAAOovVmC56F//+pc+/vjjGtuzs7P10UcfmZAIAAAAAACgfqLActHIkSNVXV1dY/upU6c0cuRIExIBAAAAAADUTxRYLvruu+/Utm3bGtuvu+467dixw4REAAAAAAAA9RMFlovsdrt27txZY/uOHTvk7e1tQiIAAAAAAID6iQLLRQkJCUpNTdW///1vY9uOHTs0bNgwJSQkmJgMAAAAAACgfqHActGkSZPk7e2t6667Ti1btlTLli3Vpk0bNWnSRJMnTzY7HgAAAAAAQL3hbnaAS5XdbldeXp5WrlypL7/8Ul5eXurQoYPuuOMOs6MBAAAAltdi5ApTH3/3hDhTHx8AUDsUWBfAZrMpJiZGMTExZkcBAAAAAACotyiwauGll17SwIED1bBhQ7300kvnnU1JSfmDUgEAAAAAANRvFFi1MG3aNPXt21cNGzbUtGnTzjlns9kosAAAAAAAAOoIBVYt7Nq166x/BgAAAAAAwMVDgQUAAAAAZ8GF5gHAOiiwamHo0KG/e3bq1KkXMQkAAAAAAMCfBwVWLWzevPl3zdlstoucBAAAAAAA4M+DAqsW1qxZY3YEAAAAAACAP53LzA4AAAAAAAAAnA8FFgAAAAAAACyNAgsAAAAAAACWRoEFAAAAAAAAS+Mi7gAAAABwCWoxcoXZEbR7QpzZEQD8SbACCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNIosAAAAAAAAGBpFFgAAAAAAACwNAosAAAAAAAAWBoFlgV8+umn6tWrl0JCQmSz2fT+++877Xc4HEpLS1NISIi8vLwUHR2tb775xmmmoqJCgwcPVkBAgLy9vZWQkKC9e/c6zZSVlSkpKUl2u112u11JSUk6fPiw08yePXvUq1cveXt7KyAgQCkpKaqsrLwYTxsAAAAAAOB3ocCygOPHj+v6669XRkbGWfdPnDhRU6dOVUZGhjZu3Kjg4GB1795dR48eNWZSU1O1dOlSLVq0SLm5uTp27Jji4+NVXV1tzCQmJqqwsFBZWVnKyspSYWGhkpKSjP3V1dWKi4vT8ePHlZubq0WLFmnJkiUaNmzYxXvyAAAAAAAA/4G72QEg9ezZUz179jzrPofDoenTp2v06NG65557JElz585VUFCQFi5cqEGDBqm8vFyzZ8/WvHnz1K1bN0nS/PnzFRoaqlWrVik2NlZFRUXKyspSfn6+OnbsKEmaNWuWIiMjtW3bNoWFhSk7O1tbt25VcXGxQkJCJElTpkxRv379NG7cOPn6+v4BrwYAAAAAAIAzCiyL27Vrl0pLSxUTE2Ns8/T0VFRUlPLy8jRo0CAVFBSoqqrKaSYkJETh4eHKy8tTbGys1q9fL7vdbpRXktSpUyfZ7Xbl5eUpLCxM69evV3h4uFFeSVJsbKwqKipUUFCgLl26nDVjRUWFKioqjPtHjhypy5cAAAAAwCWqxcgVpj7+7glxpj4+gLpDgWVxpaWlkqSgoCCn7UFBQfr++++NGQ8PD/n5+dWYOf3xpaWlCgwMrHH8wMBAp5kzH8fPz08eHh7GzNmMHz9eY8eOreUzAwAAAADzUbIBlwaugXWJsNlsTvcdDkeNbWc6c+Zs867MnGnUqFEqLy83bsXFxefNBQAAAAAAUBsUWBYXHBwsSTVWQB04cMBYLRUcHKzKykqVlZWdd2b//v01jn/w4EGnmTMfp6ysTFVVVTVWZv2Wp6enfH19nW4AAAAAAAB1hQLL4lq2bKng4GCtXLnS2FZZWam1a9fqtttukyRFRESoQYMGTjMlJSXasmWLMRMZGany8nJt2LDBmPn8889VXl7uNLNlyxaVlJQYM9nZ2fL09FRERMRFfZ4AAAAAAADnwjWwLODYsWPasWOHcX/Xrl0qLCyUv7+/mjVrptTUVKWnp6t169Zq3bq10tPT1ahRIyUmJkqS7Ha7+vfvr2HDhqlJkyby9/fX8OHD1b59e+NdCdu0aaMePXpowIABevXVVyVJAwcOVHx8vMLCwiRJMTExatu2rZKSkjRp0iQdOnRIw4cP14ABA1hVBQAAAAAATEOBZQFffPGF0zv8DR06VJL00EMPKTMzUyNGjNCJEyeUnJyssrIydezYUdnZ2fLx8TE+Ztq0aXJ3d1efPn104sQJde3aVZmZmXJzczNmFixYoJSUFOPdChMSEpSRkWHsd3Nz04oVK5ScnKzOnTvLy8tLiYmJmjx58sV+CQAAAAAAZ2H2ReYlLjQPa6DAsoDo6Gg5HI5z7rfZbEpLS1NaWto5Zxo2bKgZM2ZoxowZ55zx9/fX/Pnzz5ulWbNmWr58+X/MDAAAAAAA8EfhGlgAAAAAAACwNAosAAAAAAAAWBoFFgAAAAAAACyNAgsAAAAAAACWRoEFAAAAAAAAS6PAAgAAAAAAgKVRYAEAAAAAAMDSKLAAAAAAAABgaRRYAAAAAAAAsDQKLAAAAAAAAFgaBRYAAAAAAAAsjQILAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABAAAAAADA0iiwAAAAAAAAYGkUWAAAAAAAALA0CiwAAAAAAABYGgUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNIosAAAAAAAAGBpFFgAAAAAAACwNAosAAAAAAAAWBoFFgAAAAAAACyNAgsAAAAAAACWRoEFAAAAAAAAS6PAwlnNnDlTLVu2VMOGDRUREaF169aZHQkAAAAAAPxJUWChhrffflupqakaPXq0Nm/erL/85S/q2bOn9uzZY3Y0AAAAAADwJ0SBhRqmTp2q/v376x//+IfatGmj6dOnKzQ0VC+//LLZ0QAAAAAAwJ8QBRacVFZWqqCgQDExMU7bY2JilJeXZ1IqAAAAAADwZ+ZudgBYy48//qjq6moFBQU5bQ8KClJpaelZP6aiokIVFRXG/fLycknSkSNHLl7QOnKq4mezI/zH18nsjL/n79HqGc3OJ1k/I3/PdcPqGa2eTyJjXbB6PomMdcHq+STrZ+RrX92wekb+nuvGpfCz3emMDofD5CS4WGwO/nbxGz/88IOuuuoq5eXlKTIy0tg+btw4zZs3T99++22Nj0lLS9PYsWP/yJgAAAAAANRQXFyspk2bmh0DFwErsOAkICBAbm5uNVZbHThwoMaqrNNGjRqloUOHGvdPnTqlQ4cOqUmTJrLZbBc1r9mOHDmi0NBQFRcXy9fX1+w4NVg9n2T9jFbPJ5GxLlg9n0TGumD1fBIZ64LV80lkrAtWzyeRsS5YPZ9k/YxWz1eXHA6Hjh49qpCQELOj4CKhwIITDw8PRUREaOXKlbr77ruN7StXrlTv3r3P+jGenp7y9PR02nb55ZdfzJiW4+vra+kvCFbPJ1k/o9XzSWSsC1bPJ5GxLlg9n0TGumD1fBIZ64LV80lkrAtWzydZP6PV89UVu91udgRcRBRYqGHo0KFKSkrSzTffrMjISL322mvas2ePHn30UbOjAQAAAACAPyEKLNRw33336aefftKzzz6rkpIShYeH61//+peaN29udjQAAAAAAPAnRIGFs0pOTlZycrLZMSzP09NTzzzzTI1TKK3C6vkk62e0ej6JjHXB6vkkMtYFq+eTyFgXrJ5PImNdsHo+iYx1wer5JOtntHo+oDZ4F0IAAAAAAABY2mVmBwAAAAAAAADOhwILAAAAAAAAlkaBBQAAAAAAAEujwAIAAAAAAIClUWABtdSvXz/ZbDbZbDa5u7urWbNm+uc//6mysjKzozk5cOCABg0apGbNmsnT01PBwcGKjY3V+vXrzY4m6dfX8a677jI7xnmVlpZqyJAhatWqlRo2bKigoCDdfvvteuWVV/Tzzz+bHc/p32KDBg109dVXa/jw4Tp+/LjZ0Zzk5eXJzc1NPXr0MDuKk9Ov3blu/fr1MzVfr1691K1bt7PuW79+vWw2mzZt2vQHpzq73/5b/O3NKn/nZ/t88+6776phw4aaOHGiOaHOcK7XcMeOHWZHc1JaWqrBgwfr6quvlqenp0JDQ9WrVy+tXr3a7GhOrPo1pri4WP3791dISIg8PDzUvHlzDRkyRD/99JPZ0SSd+3XLycmRzWbT4cOH//BMl5ozvzYHBQWpe/fumjNnjk6dOmV2PEn/n3HChAlO299//33ZbDaTUkmvvPKKfHx8dPLkSWPbsWPH1KBBA/3lL39xml23bp1sNpu2b9/+R8eUJDkcDnXr1k2xsbE19s2cOVN2u1179uwxIdmvTv8dP/roozX2JScnW+L7HMAVFFiAC3r06KGSkhLt3r1br7/+upYtW6bk5GSzYzm599579eWXX2ru3Lnavn27PvzwQ0VHR+vQoUNmR7sk7Ny5UzfeeKOys7OVnp6uzZs3a9WqVXriiSe0bNkyrVq1yuyIkv7/3+LOnTv1/PPPa+bMmRo+fLjZsZzMmTNHgwcPVm5urqnfzJ2ppKTEuE2fPl2+vr5O21588UVT8/Xv31+ffPKJvv/++xr75syZoxtuuEE33XSTCcnO7vS/xd/e3nrrLbNjndXrr7+uvn37KiMjQyNGjDA7juFsr2HLli3NjmXYvXu3IiIi9Mknn2jixIn6+uuvlZWVpS5duuixxx4zO57l7dy5UzfffLO2b9+ut956Szt27NArr7yi1atXKzIykq/P9chvv0/86KOP1KVLFw0ZMkTx8fFO5YyZGjZsqBdeeMFSv4Dt0qWLjh07pi+++MLYtm7dOgUHB2vjxo1OvzzMyclRSEiIrr32WjOiymaz6Y033tDnn3+uV1991di+a9cuPfnkk3rxxRfVrFkzU7KdFhoaqkWLFunEiRPGtl9++UVvvfWW6dkAV7mbHQC4FJ1e0SRJTZs21X333afMzExzQ/3G4cOHlZubq5ycHEVFRUmSmjdvrltvvdXkZJeO5ORkubu764svvpC3t7exvX379rr33nvlcDhMTPf/fvtvMTExUWvWrNH777+vl19+2eRkvzp+/Ljeeecdbdy4UaWlpcrMzNSYMWPMjiVJxusmSXa7XTabzWmb2eLj4xUYGKjMzEw988wzxvaff/5Zb7/9ttLT001MV9Nv/y1a2cSJEzVmzBgtXLhQ9957r9lxnFj9NTz9W/sNGzY4fV5s166dHnnkEROTXRoee+wxeXh4KDs7W15eXpKkZs2a6cYbb9Q111yj0aNHW+ZzNy7Mb/8vX3XVVbrpppvUqVMnde3aVZmZmfrHP/5hckKpW7du2rFjh8aPH2+ZlahhYWEKCQlRTk6OOnXqJOnXoqp3795as2aN8vLyjJXJOTk56tKli5lxFRoaqhdffFGPP/64YmJi1KJFC/Xv319du3a1xOqmm266STt37tR7772nvn37SpLee+89hYaG6uqrrzY5HeAaVmABF2jnzp3KyspSgwYNzI5iaNy4sRo3bqz3339fFRUVZse55Pz000/Kzs7WY4895vRD2m+ZucT+fLy8vFRVVWV2DMPbb7+tsLAwhYWF6YEHHtAbb7xhmfLP6tzd3fXggw8qMzPT6TVbvHixKisrjW9G8fuNHDlSzz33nJYvX2658srqDh06pKysrHN+Xrz88sv/+FCXkEOHDunjjz9WcnKyUV6dFhwcrL59++rtt9/m82M9duedd+r666/Xe++9Z3YUSZKbm5vS09M1Y8YM7d271+w4hujoaK1Zs8a4v2bNGkVHRysqKsrYXllZqfXr15teYEnSQw89pK5du+rhhx9WRkaGtmzZotdee83sWIaHH35Yb7zxhnF/zpw5/MIBlzQKLMAFy5cvV+PGjeXl5aVrrrlGW7du1ZNPPml2LIO7u7syMzM1d+5cXX755ercubOeeuopffXVV2ZHuyTs2LFDDodDYWFhTtsDAgKMctBKf9+nbdiwQQsXLlTXrl3NjmKYPXu2HnjgAUm/nlJx7Ngxy10rx8oeeeQR7d69Wzk5Oca2OXPm6J577pGfn595wc7i9OfF396ee+45s2MZPvroI73wwgv64IMPznltMbOd+Rr+/e9/NzuS4fTnxeuuu87sKJek7777Tg6HQ23atDnr/jZt2qisrEwHDx78g5PVdLb/yz179jQ7Vr1w3XXXaffu3WbHMNx999264YYbnFb5mi06OlqfffaZTp48qaNHj2rz5s264447FBUVZXwtzM/P14kTJyxRYEnSa6+9pq1btyo1NVWvvvqqAgMDzY5kSEpKUm5urnbv3q3vv/9en332mfF9GXAp4hRCwAVdunTRyy+/rJ9//lmvv/66tm/frsGDB5sdy8m9996ruLg4rVu3TuvXr1dWVpYmTpyo119/3RLLmi8FZ66y2rBhg06dOqW+fftaZmXb6R80Tp48qaqqKvXu3VszZswwO5Ykadu2bdqwYYPx22Z3d3fdd999mjNnjmULBKu57rrrdNttt2nOnDnq0qWL/v3vf2vdunXKzs42O1oNpz8v/pa/v79JaWrq0KGDfvzxR40ZM0a33HKLfHx8zI5Uw5mv4blWgJrh9Mogq64+vdSdfn09PDxMTnL2/8uff/45P/TWAYfDYbn/Qy+88ILuvPNODRs2zOwokn7993f8+HFt3LhRZWVluvbaaxUYGKioqCglJSXp+PHjysnJUbNmzSxzGlxgYKAGDhyo999/X3fffbfZcZwEBAQoLi5Oc+fOlcPhUFxcnAICAsyOBbiMFViAC7y9vdWqVSt16NBBL730kioqKjR27FizY9XQsGFDde/eXWPGjFFeXp769etnqd+yWVWrVq1ks9n07bffOm2/+uqr1apVqxqnf5ipS5cuKiws1LZt2/TLL7/ovffes8xv/mbPnq2TJ0/qqquukru7u9zd3fXyyy/rvffes9RFY62uf//+WrJkiY4cOaI33nhDzZs3t9Qqu9NOf1787c1KBdZVV12ltWvXqqSkRD169NDRo0fNjlTDma/hlVdeaXYkQ+vWrWWz2VRUVGR2lEvS6a8rW7duPev+b7/9VldccYUlTsU82//lq666yuxY9UJRUZGl3phBku644w7FxsbqqaeeMjuKpF//rzRt2lRr1qzRmjVrjGu5BgcHq2XLlvrss8+0Zs0a3XnnnSYndXb6+xwreuSRR4wzMzh9EJc6CiygDjzzzDOaPHmyfvjhB7OjnFfbtm11/Phxs2NYXpMmTdS9e3dlZGRY/vU6/YNG8+bNLXUdtpMnT+rNN9/UlClTVFhYaNy+/PJLNW/eXAsWLDA74iWjT58+cnNz08KFCzV37lw9/PDDlvsN/qWiWbNmWrt2rQ4cOKCYmBgdOXLE7EiXDH9/f8XGxup///d/z/p58fDhw398qEvI6a8rM2fOdHpHMEkqLS3VggULWB1dz33yySf6+uuvLXn9vQkTJmjZsmXKy8szO4qkX385l5OTo5ycHEVHRxvbo6Ki9PHHHys/P98ypw9eCnr06KHKykpVVlYqNjbW7DjABaHAAupAdHS02rVrZ5l3Bfvpp5905513av78+frqq6+0a9cuLV68WBMnTlTv3r3NjmcoLy93KjcKCwu1Z88es2NJkmbOnKmTJ0/q5ptv1ttvv62ioiJt27ZN8+fP17fffis3NzezI1ra8uXLVVZWpv79+ys8PNzp9re//U2zZ882O+Ilo3Hjxrrvvvv01FNP6YcffrDsD7kVFRUqLS11uv34449mx6qhadOmysnJ0U8//aSYmBiVl5ebHemSMXPmTFVXV+vWW2/VkiVL9N1336moqEgvvfSSIiMjzY5neRkZGaqoqFBsbKw+/fRTFRcXKysrS927d9e1115rmXdoxYU7/flw37592rRpk9LT09W7d2/Fx8frwQcfNDteDe3bt1ffvn0tcwmCLl26KDc3V4WFhcYKLOnXAmvWrFn65ZdfKLBqwc3NTUVFRSoqKuL7V1zyKLCAOjJ06FDNmjVLxcXFZkdR48aN1bFjR02bNk133HGHwsPD9fTTT2vAgAHKyMgwO54hJydHN954o9PNKt/AX3PNNdq8ebO6deumUaNG6frrr9fNN9+sGTNmaPjw4Za6OLUVzZ49W926dZPdbq+x795771VhYaE2bdpkQrJLU//+/VVWVqZu3bqpWbNmZsc5q6ysLF155ZVOt9tvv93sWGd1+nTCw4cPq3v37qwe+p1atmypTZs2qUuXLho2bJjCw8PVvXt3rV69usY1k1BT69attXHjRl199dXq06ePmjdvrp49e+raa6/VZ599psaNG5sdEXXk9OfDFi1aqEePHlqzZo1eeuklffDBB5YtEJ577jnLvAtmly5ddOLECbVq1UpBQUHG9qioKB09elTXXHONQkNDTUx46fH19ZWvr6/ZMYALZnNY5TMVAAAA8CfyzDPPaOrUqcrOzmYVGwAA/wEFFgAAAGCSN954Q+Xl5UpJSdFll3FyxH+yZ88etW3b9pz7t27datmVqgCAC0OBBQAAAOCScPLkSe3evfuc+1u0aGHZd4MDAFwYCiwAAAAAAABYGuuUAQAAAAAAYGkUWAAAAAAAALA0CiwAAAAAAABYGgUWAAAAAAAALI0CCwAAAAAAAJZGgQUAAAAAAABLo8ACAAAAAACApVFgAQAAAAAAwNL+D1Zdk/6zbq58AAAAAElFTkSuQmCC", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "genetic_code = {\n", + " 'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',\n", + " 'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',\n", + " 'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',\n", + " 'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',\n", + " 'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',\n", + " 'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',\n", + " 'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',\n", + " 'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',\n", + " 'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',\n", + " 'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',\n", + " 'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',\n", + " 'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',\n", + " 'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',\n", + " 'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',\n", + " 'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',\n", + " 'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',\n", + " }\n", + "\n", + "def get_triplets(t):\n", + " for triplet in re.finditer(r'.{3}', t):\n", + " yield genetic_code[triplet.group(0)]\n", + "\n", + "rang_freq_with_labels('dna-aminos', get_triplets(dna))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### „Zdania” w języku DNA\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Z aminokwasów zakodowanych przez tryplet budowane są białka.\n", + "Maszyneria budująca białka czyta sekwencję aż do napotkania\n", + "trypletu STOP (\\_ powyżej). Taka sekwencja to *gen*.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "def get_genes(triplets):\n", + " gene = []\n", + " for ammino in triplets:\n", + " if ammino == '_':\n", + " yield gene\n", + " gene = []\n", + " else:\n", + " gene.append(ammino)\n", + "\n", + "plt.figure().clear()\n", + "plt.hist([len(g) for g in get_genes(get_triplets(dna))], bins=100)\n", + "\n", + "fname = '03_Ngramy/dna_length.png'\n", + "\n", + "plt.savefig(fname)\n", + "\n", + "fname" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.9" + }, + "org": null + }, + "nbformat": 4, + "nbformat_minor": 1 +} diff --git a/wyk/03_Ngramy.org b/wyk/03_Ngramy.org new file mode 100644 index 0000000..158581d --- /dev/null +++ b/wyk/03_Ngramy.org @@ -0,0 +1,225 @@ +* N-gramy + +W modelowaniu języka często rozpatruje się n-gramy, czyli podciągi o +rozmiarze $n$. + +Na przykład /digramy/ (/bigramy/) to zbitki dwóch jednostek, np. liter albo wyrazów. + +|$n$| $n$-gram| nazwa | +|---+---------+---------------| +| 1 | 1-gram | unigram | +| 2 | 2-gram | digram/bigram | +| 3 | 3-gram | trigram | +| 4 | 4-gram | tetragram | +| 5 | 5-gram | pentagram | + + +*Pytanie:* Jak nazywa się 6-gram? + +Jak widać, dla symetrii mówimy czasami o unigramach, jeśli operujemy +po prostu na jednostkach, nie na ich podciągach. + +*** N-gramy z Pana Tadeusza + +Statystyki, które policzyliśmy dla pojedynczych liter czy wyrazów, możemy powtórzyć dla n-gramów. + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + def ngrams(iter, size): + ngram = [] + for item in iter: + ngram.append(item) + if len(ngram) == size: + yield tuple(ngram) + ngram = ngram[1:] + + list(ngrams("kotek", 3)) +#+END_SRC + +#+RESULTS: +:results: +[('k', 'o', 't'), ('o', 't', 'e'), ('t', 'e', 'k')] +:end: + +Zauważmy, że policzyliśmy wszystkie n-gramy, również częściowo się pokrywające. + +Zawsze powinniśmy się upewnić, czy jest jasne, czy chodzi o n-gramy znakowe czy wyrazowe + +*** 3-gramy znakowe + +#+BEGIN_SRC ipython :session mysession :results file + log_rang_log_freq('pt-3-char-ngrams-log-log', ngrams(get_characters(pan_tadeusz), 3)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/pt-3-char-ngrams-log-log.png]] + +*** 2-gramy wyrazowe + +#+BEGIN_SRC ipython :session mysession :results file + log_rang_log_freq('pt-2-word-ngrams-log-log', ngrams(get_words(pan_tadeusz), 2)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/pt-2-word-ngrams-log-log.png]] + +** Tajemniczy język Manuskryptu Wojnicza + +[[https://pl.wikipedia.org/wiki/Manuskrypt_Wojnicza][Manuskrypt Wojnicza]] to powstały w XV w. manuskrypt spisany w +tajemniczym alfabecie, do dzisiaj nieodszyfrowanym. Rękopis stanowi +jedną z największych zagadek historii (i lingwistyki). + +[[./02_Jezyki/voynich135.jpg][Źródło: https://commons.wikimedia.org/wiki/File:Voynich_Manuscript_(135).jpg]] + +Sami zbadajmy statystyczne własności tekstu manuskryptu. Użyjmy +transkrypcji Vnow, gdzie poszczególne znaki tajemniczego alfabetu +zamienione na litery alfabetu łacińskiego, cyfry i gwiazdkę. Jak +transkrybować manuskrypt, pozostaje sprawą dyskusyjną, natomiast wybór +takiego czy innego systemu transkrypcji nie powinien wpływać +dramatycznie na analizę statystyczną. + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + import requests + + voynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now' + voynich = requests.get(voynich_url).content.decode('utf-8') + + voynich = re.sub(r'\{[^\}]+\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE) + + voynich = voynich.replace('\n\n', '#') + voynich = voynich.replace('\n', ' ') + voynich = voynich.replace('#', '\n') + + voynich = voynich.replace('.', ' ') + + voynich[100:150] +#+END_SRC + +#+RESULTS: +:results: +9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP +:end: + +#+BEGIN_SRC ipython :session mysession :results file + rang_freq_with_labels('voy-chars', get_characters(voynich)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/voy-chars.png]] + +#+BEGIN_SRC ipython :session mysession :results file + log_rang_log_freq('voy-log-log', get_words(voynich)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/voy-log-log.png]] + +#+BEGIN_SRC ipython :session mysession :results file + rang_freq_with_labels('voy-words-20', get_words(voynich), top=20) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/voy-words-20.png]] + +#+BEGIN_SRC ipython :session mysession :results file + log_rang_log_freq('voy-words-log-log', get_words(voynich)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/voy-words-log-log.png]] + +** Język DNA + +Kod genetyczny przejawia własności zaskakująco podobne do języków naturalnych. +Przede wszystkim ma charakter dyskretny, genotyp to ciąg symboli ze skończonego alfabetu. +Podstawowe litery są tylko cztery, reprezentują one nukleotydy, z których zbudowana jest nić DNA: +a, g, c, t. + + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + import requests + + dna_url = 'https://raw.githubusercontent.com/egreen18/NanO_GEM/master/rawGenome.txt' + dna = requests.get(dna_url).content.decode('utf-8') + + dna = ''.join(dna.split('\n')[1:]) + dna = dna.replace('N', 'A') + + dna[0:100] +#+END_SRC + +#+RESULTS: +:results: +TATAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTA +:end: + +#+BEGIN_SRC ipython :session mysession :results file + rang_freq_with_labels('dna-chars', get_characters(dna)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/dna-chars.png]] + +*** Tryplety — znaczące cząstki genotypu + +Nukleotydy rzeczywiście są jak litery, same w sobie nie niosą +znaczenia. Dopiero ciągi trzech nukleotydów, /tryplety/, kodują jeden +z dwudziestu aminokwasów. + +#+BEGIN_SRC ipython :session mysession :results file + genetic_code = { + 'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M', + 'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T', + 'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K', + 'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R', + 'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L', + 'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P', + 'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q', + 'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R', + 'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V', + 'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A', + 'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E', + 'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G', + 'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S', + 'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L', + 'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_', + 'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W', + } + + def get_triplets(t): + for triplet in re.finditer(r'.{3}', t): + yield genetic_code[triplet.group(0)] + + rang_freq_with_labels('dna-aminos', get_triplets(dna)) +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/dna-aminos.png]] + +*** „Zdania” w języku DNA + +Z aminokwasów zakodowanych przez tryplet budowane są białka. +Maszyneria budująca białka czyta sekwencję aż do napotkania +trypletu STOP (_ powyżej). Taka sekwencja to /gen/. + +#+BEGIN_SRC ipython :session mysession :results file + def get_genes(triplets): + gene = [] + for ammino in triplets: + if ammino == '_': + yield gene + gene = [] + else: + gene.append(ammino) + + plt.figure().clear() + plt.hist([len(g) for g in get_genes(get_triplets(dna))], bins=100) + + fname = '03_Ngramy/dna_length.png' + + plt.savefig(fname) + + fname +#+END_SRC + +#+RESULTS: +[[file:03_Ngramy/dna_length.png]] diff --git a/wyk/03_Ngramy/dna-aminos.png b/wyk/03_Ngramy/dna-aminos.png new file mode 100644 index 0000000..d1f36bd Binary files /dev/null and b/wyk/03_Ngramy/dna-aminos.png differ diff --git a/wyk/03_Ngramy/dna-chars.png b/wyk/03_Ngramy/dna-chars.png new file mode 100644 index 0000000..3a86ed0 Binary files /dev/null and b/wyk/03_Ngramy/dna-chars.png differ diff --git a/wyk/03_Ngramy/dna_length.png b/wyk/03_Ngramy/dna_length.png new file mode 100644 index 0000000..fd043ea Binary files /dev/null and b/wyk/03_Ngramy/dna_length.png differ diff --git a/wyk/03_Ngramy/pt-2-word-ngrams-log-log.png b/wyk/03_Ngramy/pt-2-word-ngrams-log-log.png new file mode 100644 index 0000000..25b8ec9 Binary files /dev/null and b/wyk/03_Ngramy/pt-2-word-ngrams-log-log.png differ diff --git a/wyk/03_Ngramy/pt-3-char-ngrams-log-log.png b/wyk/03_Ngramy/pt-3-char-ngrams-log-log.png new file mode 100644 index 0000000..608ef2a Binary files /dev/null and b/wyk/03_Ngramy/pt-3-char-ngrams-log-log.png differ diff --git a/wyk/03_Ngramy/voy-chars.png b/wyk/03_Ngramy/voy-chars.png new file mode 100644 index 0000000..e21ab90 Binary files /dev/null and b/wyk/03_Ngramy/voy-chars.png differ diff --git a/wyk/03_Ngramy/voy-log-log.png b/wyk/03_Ngramy/voy-log-log.png new file mode 100644 index 0000000..d0a7bee Binary files /dev/null and b/wyk/03_Ngramy/voy-log-log.png differ diff --git a/wyk/03_Ngramy/voy-words-20.png b/wyk/03_Ngramy/voy-words-20.png new file mode 100644 index 0000000..09a37e9 Binary files /dev/null and b/wyk/03_Ngramy/voy-words-20.png differ diff --git a/wyk/03_Ngramy/voy-words-log-log.png b/wyk/03_Ngramy/voy-words-log-log.png new file mode 100644 index 0000000..d0a7bee Binary files /dev/null and b/wyk/03_Ngramy/voy-words-log-log.png differ diff --git a/wyk/03_Ngramy/voynich135.jpg b/wyk/03_Ngramy/voynich135.jpg new file mode 100644 index 0000000..b8bd37a Binary files /dev/null and b/wyk/03_Ngramy/voynich135.jpg differ diff --git a/wyk/04_Entropia.ipynb b/wyk/04_Entropia.ipynb new file mode 100644 index 0000000..a99c70d --- /dev/null +++ b/wyk/04_Entropia.ipynb @@ -0,0 +1,19 @@ + +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Modelowanie języka

\n", + "

04. Entropia [wykład]

\n", + "

Filip Graliński (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n", + "\n" + ] + }, +{"cell_type":"markdown","metadata":{},"source":["## Entropia\n\n"]},{"cell_type":"markdown","metadata":{},"source":["**Entropia** ($E$) to miara nieuporządkowania, niepewności, niewiedzy. Im\nwiększa entropia, tym mniej wiemy. Pojęcie to pierwotnie wywodzi się z\ntermodynamiki, później znaleziono wiele zaskakujących analogii i zastosowań w\ninnych dyscyplinach nauki.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia w fizyce\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W termodynamice entropia jest miarą nieuporządkowania układów\nfizycznych, na przykład pojemników z gazem. Przykładowo, wyobraźmy\nsobie dwa pojemniki z gazem, w którym panuje różne temperatury.\n\n![img](./04_Entropia/gas-low-entropy.drawio.png)\n\nJeśli usuniemy przegrodę między pojemnikami, temperatura się wyrówna,\na uporządkowanie się zmniejszy.\n\n![img](./04_Entropia/gas-high-entropy.drawio.png)\n\nInnymi słowy, zwiększy się stopień nieuporządkowania układu, czyli właśnie entropia.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### II prawo termodynamiki\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Jedno z najbardziej fundamentalnych praw fizyki, II prawo\ntermodynamiki głosi, że w układzie zamkniętym entropia nie spada.\n\n****Pytanie****: Czy to, że napisałem te materiały do wykładu i\n*uporządkowałem* wiedzę odnośnie do statystycznych własności języka, nie\njest sprzeczne z II prawem termodynamiki?\n\nKonsekwencją II prawa termodynamiki jest śmierć cieplna Wszechświata\n(zob. [wizualizacja przyszłości Wszechświata]([https://www.youtube.com/watch?v=uD4izuDMUQA](https://www.youtube.com/watch?v=uD4izuDMUQA))).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia w teorii informacji\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Pojęcie entropii zostało „odkryte” na nowo przez Claude'a Shannona,\ngdy wypracował ogólną teorię informacji.\n\nTeoria informacji zajmuje się między innymi zagadnieniem optymalnego kodowania komunikatów.\n\nWyobraźmy sobie pewne źródło (generator) losowych komunikatów z\nzamkniętego zbioru symboli ($\\Sigma$; nieprzypadkowo używamy oznaczeń\nz poprzedniego wykładu). Nadawca $N$ chce przesłać komunikat o wyniku\nlosowania do odbiorcy $O$ używając zer i jedynek (bitów).\nTeorioinformacyjną entropię można zdefiniować jako średnią liczbę\nbitów wymaganych do przesłania komunikatu.\n\n![img](./04_Entropia/communication.drawio.png)\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Obliczanie entropii — proste przykłady\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że nadawca chce przekazać odbiorcy informację o wyniku rzutu monetą.\nEntropia wynosi wówczas rzecz jasna 1 — na jedno losowanie wystarczy jeden bit\n(informację o tym, że wypadł orzeł, możemy zakodować na przykład za pomocą zera,\nzaś to, że wypadła reszka — za pomocą jedynki).\n\nRozpatrzmy przypadek, gdy nadawca rzuca ośmiościenną kością. Aby przekazać\nwynik, potrzebuje wówczas 3 bity (a więc entropia ośmiościennej kości\nwynosi 3 bity). Przykładowe kodowanie może mieć następującą postać:\n\n| Wynik|Kodowanie|\n|---|---|\n| 1|001|\n| 2|010|\n| 3|011|\n| 4|100|\n| 5|101|\n| 6|110|\n| 7|111|\n| 8|000|\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Obliczenie entropii — trudniejszy przykład\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że $\\Sigma = \\{A, B, C, D\\}$, natomiast poszczególne komunikaty\nsą losowane zgodnie z następującym rozkładem prawdopodobieństwa:\n$P(A)=1/2$, $P(B)=1/4$, $P(C)=1/8$, $P(D)=1/8$. Ile wynosi entropia w\ntakim przypadku? Można by sądzić, że 2, skoro wystarczą 2 bity do\nprzekazania wyniku losowania przy zastosowaniu następującego kodowania:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|00|\n| B|01|\n| C|10|\n| D|11|\n\nProblem w tym, że w rzeczywistości nie jest to *optymalne* kodowanie.\nMożemy sprytnie zmniejszyć średnią liczbę bitów wymaganych do\nprzekazania losowego wyniku przypisując częstszym wynikom krótsze\nkody, rzadszym zaś — dłuższe. Oto takie optymalne kodowanie:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|0|\n| B|10|\n| C|110|\n| D|111|\n\nUżywając takiego kodowanie średnio potrzebujemy:\n\n$$\\frac{1}{2}1 + \\frac{1}{4}2 + \\frac{1}{8}3 + \\frac{1}{8}3 = 1,75$$\n\nbita. Innymi słowy, entropia takiego źródła wynosi 1,75 bita.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Kodowanie musi być jednoznaczne!\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Można by sądzić, że da się stworzyć jeszcze krótsze kodowanie dla omawianego rozkładu nierównomiernego:\n\n| Wynik|Kodowanie|\n|---|---|\n| A|0|\n| B|1|\n| C|01|\n| D|11|\n\nNiestety, nie jest to właściwe rozwiązanie — kodowanie musi być\njednoznaczne nie tylko dla pojedynczego komunikatu, lecz dla całej sekwencji.\nNa przykład ciąg 0111 nie jest jednoznaczny przy tym kodowaniu (ABBB czy CD?).\nPodane wcześniej kodowanie spełnia warunek jednoznaczności, ciąg 0111 można odkodować tylko\njako AD.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Ogólny wzór na entropię.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Na podstawie poprzedniego przykładu można dojść do intuicyjnego wniosku, że\noptymalny kod dla wyniku o prawdopodobieństwie $p$ ma długość $-\\log_2(p)$, a zatem ogólnie\nentropia źródła o rozkładzie prawdopodobieństwa $\\{p_1,\\ldots,p_|\\Sigma|\\}$ wynosi:\n\n$$E = -\\sum_{i=1}^{|\\Sigma|} p_i\\log_2(p_i)$$.\n\nZauważmy, że jest to jeden z nielicznych przypadków, gdy w nauce naturalną\npodstawą logarytmu jest 2 zamiast… podstawy logarytmu naturalnego ($e$).\n\nTeoretycznie można mierzyć entropię używając logarytmu naturalnego\n($\\ln$), jednostką entropii będzie wówczas **nat** zamiast bita,\nniewiele to jednak zmienia i jest mniej poręczne i trudniejsze do interpretacji\n(przynajmniej w kontekście informatyki) niż operowanie na bitach.\n\n****Pytanie**** Ile wynosi entropia zwykłej sześciennej kostki? Jak wygląda\noptymalne kodowanie wyników rzutu taką kostką?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Entropia dla próby Bernoulliego\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Wiemy już, że entropia dla rzutu monetą wynosi 1 bit. A jaki będzie wynik dla źle wyważonej monety?\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"data":{"image/png":"","text/plain":""},"metadata":{},"output_type":"display_data"}],"source":["import matplotlib.pyplot as plt\nfrom math import log\nimport numpy as np\n\ndef binomial_entropy(p):\n return -(p * log(p, 2) + (1-p) * log(1-p, 2))\n\nx = list(np.arange(0.001,1,0.001))\ny = [binomial_entropy(x) for x in x]\nplt.figure().clear()\nplt.xlabel('prawdopodobieństwo wylosowania orła')\nplt.ylabel('entropia')\nplt.plot(x, y)\n\nfname = f'04_Entropia/binomial-entropy.png'\n\nplt.savefig(fname)\n\nfname"]},{"cell_type":"markdown","metadata":{},"source":["**Pytanie** Dla oszukańczej monety (np. dla której wypada zawsze orzeł) entropia\nwynosi 0, czy to wynik zgodny z intuicją?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Entropia a język\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Tekst w danym języku możemy traktować jako ciąg symboli (komunikatów) losowanych według jakiegoś\nrozkładu prawdopodobieństwa. W tym sensie możemy mówić o entropii języka.\n\nOczywiście, jak zawsze, musimy jasno stwierdzić, czym są symbole\njęzyka: literami, wyrazami czy jeszcze jakimiś innymi jednostkami.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Pomiar entropii języka — pierwsze przybliżenie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Załóżmy, że chcemy zmierzyć entropię języka polskiego na przykładzie\n„Pana Tadeusza” — na poziomie znaków. W pierwszym przybliżeniu można\nby policzyć liczbę wszystkich znaków…\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"['K', 's', 'i', 'ę', 'g', 'a', ' ', 'p', 'i', 'e', 'r', 'w', 's', 'z', 'a', '\\r', '\\n', '\\r', '\\n', '\\r', '\\n', '\\r', '\\n', 'G', 'o', 's', 'p', 'o', 'd', 'a', 'r', 's', 't', 'w', 'o', '\\r', '\\n', '\\r', '\\n', 'P', 'o', 'w', 'r', 'ó', 't', ' ', 'p', 'a', 'n', 'i']"}],"source":["import requests\nfrom itertools import islice\n\nurl = 'https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt'\npan_tadeusz = requests.get(url).content.decode('utf-8')\n\ndef get_characters(t):\n yield from t\n\nlist(islice(get_characters(pan_tadeusz), 100, 150))"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"95"}],"source":["chars_in_pan_tadeusz = len(set(get_characters(pan_tadeusz)))\nchars_in_pan_tadeusz"]},{"cell_type":"markdown","metadata":{},"source":["… założyć jednostajny rozkład prawdopodobieństwa i w ten sposób policzyć entropię:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"6.569855608330948"}],"source":["from math import log\n\n95 * (1/95) * log(95, 2)"]},{"cell_type":"markdown","metadata":{},"source":["#### Mniej rozrzutne kodowanie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Przypomnijmy sobie jednak, że rozkład jednostek języka jest zawsze\nskrajnie nierównomierny! Jeśli uwzględnić ten nierównomierny rozkład\nznaków, można opracować o wiele efektywniejszy sposób zakodowania znaków składających się na „Pana Tadeusza”\n(częste litery, np. „a” i „e” powinny mieć krótkie kody, a rzadkie, np. „ź” — dłuższe).\n\nPoliczmy entropię przy takim założeniu:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"4.938605272823633"}],"source":["from collections import Counter\nfrom math import log\n\ndef unigram_entropy(t):\n counter = Counter(t)\n\n total = counter.total()\n return -sum((p := count / total) * log(p, 2) for count in counter.values())\n\nunigram_entropy(get_characters(pan_tadeusz))"]},{"cell_type":"markdown","metadata":{},"source":["(Jak dowiemy się na kolejnym wykładzie, zastosowaliśmy tutaj **unigramowy model języka**).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Ile wynosi entropia rękopisu Wojnicza?\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP"}],"source":["import requests\nimport re\n\nvoynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now'\nvoynich = requests.get(voynich_url).content.decode('utf-8')\n\nvoynich = re.sub(r'\\{[^\\}]+\\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE)\n\nvoynich = voynich.replace('\\n\\n', '#')\nvoynich = voynich.replace('\\n', ' ')\nvoynich = voynich.replace('#', '\\n')\n\nvoynich = voynich.replace('.', ' ')\n\nvoynich[100:150]"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"3.902708104423842"}],"source":["unigram_entropy(get_characters(voynich))"]},{"cell_type":"markdown","metadata":{},"source":["#### Rzeczywista entropia?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W rzeczywistości entropia jest jeszcze mniejsza, tekst nie jest\ngenerowany przecież według rozkładu wielomianowego. Istnieją rzecz\njasna pewne zależności między znakami, np. niemożliwe, żeby po „ń”\nwystąpiły litera „a” czy „e”. Na poziomie wyrazów zależności mogę mieć\njeszcze bardziej skrajny charakter, np. po wyrazie „przede” prawie na\npewno wystąpi „wszystkim”, co oznacza, że w takiej sytuacji słowo\n„wszystkim” może zostać zakodowane za pomocą 0 (!) bitów.\n\nMożna uwzględnić takie zależności i uzyskać jeszcze lepsze kodowanie,\na co za tym idzie lepsze oszacowanie entropii. (Jak wkrótce się\ndowiemy, oznacza to użycie digramowego, trigramowego, etc. modelu języka).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Rozmiar skompresowanego pliku jako przybliżenie entropii\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Celem algorytmów kompresji jest właściwie wyznaczanie efektywnych\nsposobów kodowania danych. Możemy więc użyć rozmiaru skompresowanego pliku w bitach\n(po podzieleniu przez oryginalną długość) jako dobrego przybliżenia entropii.\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"3.673019884633768"}],"source":["import zlib\n\ndef entropy_by_compression(t):\n compressed = zlib.compress(t.encode('utf-8'))\n return 8 * len(compressed) / len(t)\n\nentropy_by_compression(pan_tadeusz)"]},{"cell_type":"markdown","metadata":{},"source":["Dla porównania wynik dla rękopisu Wojnicza:\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"2.942372881355932"}],"source":["entropy_by_compression(voynich)"]},{"cell_type":"markdown","metadata":{},"source":["#### Gra Shannona\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Innym sposobem oszacowania entropii tekstu jest użycie… ludzi. Można poprosić rodzimych użytkowników\ndanego języka o przewidywanie kolejnych liter (bądź wyrazów) i w ten sposób oszacować entropię.\n\n**Projekt** Zaimplementuj aplikację webową, która umożliwi „rozegranie” gry Shannona.\n\n"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0} \ No newline at end of file diff --git a/wyk/04_Entropia.org b/wyk/04_Entropia.org new file mode 100644 index 0000000..a578ae4 --- /dev/null +++ b/wyk/04_Entropia.org @@ -0,0 +1,347 @@ +* Entropia + +*Entropia* ($E$) to miara nieuporządkowania, niepewności, niewiedzy. Im +większa entropia, tym mniej wiemy. Pojęcie to pierwotnie wywodzi się z +termodynamiki, później znaleziono wiele zaskakujących analogii i zastosowań w +innych dyscyplinach nauki. + +*** Entropia w fizyce + +W termodynamice entropia jest miarą nieuporządkowania układów +fizycznych, na przykład pojemników z gazem. Przykładowo, wyobraźmy +sobie dwa pojemniki z gazem, w którym panuje różne temperatury. + +[[./04_Entropia/gas-low-entropy.drawio.png]] + +Jeśli usuniemy przegrodę między pojemnikami, temperatura się wyrówna, +a uporządkowanie się zmniejszy. + +[[./04_Entropia/gas-high-entropy.drawio.png]] + +Innymi słowy, zwiększy się stopień nieuporządkowania układu, czyli właśnie entropia. + +*** II prawo termodynamiki + +Jedno z najbardziej fundamentalnych praw fizyki, II prawo +termodynamiki głosi, że w układzie zamkniętym entropia nie spada. + +**Pytanie**: Czy to, że napisałem te materiały do wykładu i +/uporządkowałem/ wiedzę odnośnie do statystycznych własności języka, nie +jest sprzeczne z II prawem termodynamiki? + +Konsekwencją II prawa termodynamiki jest śmierć cieplna Wszechświata +(zob. [wizualizacja przyszłości Wszechświata](https://www.youtube.com/watch?v=uD4izuDMUQA)). + +*** Entropia w teorii informacji + +Pojęcie entropii zostało „odkryte” na nowo przez Claude'a Shannona, +gdy wypracował ogólną teorię informacji. + +Teoria informacji zajmuje się między innymi zagadnieniem optymalnego kodowania komunikatów. + +Wyobraźmy sobie pewne źródło (generator) losowych komunikatów z +zamkniętego zbioru symboli ($\Sigma$; nieprzypadkowo używamy oznaczeń +z poprzedniego wykładu). Nadawca $N$ chce przesłać komunikat o wyniku +losowania do odbiorcy $O$ używając zer i jedynek (bitów). +Teorioinformacyjną entropię można zdefiniować jako średnią liczbę +bitów wymaganych do przesłania komunikatu. + +[[./04_Entropia/communication.drawio.png]] + +*** Obliczanie entropii — proste przykłady + +Załóżmy, że nadawca chce przekazać odbiorcy informację o wyniku rzutu monetą. +Entropia wynosi wówczas rzecz jasna 1 — na jedno losowanie wystarczy jeden bit +(informację o tym, że wypadł orzeł, możemy zakodować na przykład za pomocą zera, +zaś to, że wypadła reszka — za pomocą jedynki). + +Rozpatrzmy przypadek, gdy nadawca rzuca ośmiościenną kością. Aby przekazać +wynik, potrzebuje wówczas 3 bity (a więc entropia ośmiościennej kości +wynosi 3 bity). Przykładowe kodowanie może mieć następującą postać: + +| Wynik | Kodowanie | +|-------+-----------| +| 1 | 001 | +| 2 | 010 | +| 3 | 011 | +| 4 | 100 | +| 5 | 101 | +| 6 | 110 | +| 7 | 111 | +| 8 | 000 | + +*** Obliczenie entropii — trudniejszy przykład + +Załóżmy, że $\Sigma = \{A, B, C, D\}$, natomiast poszczególne komunikaty +są losowane zgodnie z następującym rozkładem prawdopodobieństwa: +$P(A)=1/2$, $P(B)=1/4$, $P(C)=1/8$, $P(D)=1/8$. Ile wynosi entropia w +takim przypadku? Można by sądzić, że 2, skoro wystarczą 2 bity do +przekazania wyniku losowania przy zastosowaniu następującego kodowania: + +| Wynik | Kodowanie | +|-------+-----------| +| A | 00 | +| B | 01 | +| C | 10 | +| D | 11 | + +Problem w tym, że w rzeczywistości nie jest to /optymalne/ kodowanie. +Możemy sprytnie zmniejszyć średnią liczbę bitów wymaganych do +przekazania losowego wyniku przypisując częstszym wynikom krótsze +kody, rzadszym zaś — dłuższe. Oto takie optymalne kodowanie: + +| Wynik | Kodowanie | +|-------+-----------| +| A | 0 | +| B | 10 | +| C | 110 | +| D | 111 | + + +Używając takiego kodowanie średnio potrzebujemy: + +$$\frac{1}{2}1 + \frac{1}{4}2 + \frac{1}{8}3 + \frac{1}{8}3 = 1,75$$ + +bita. Innymi słowy, entropia takiego źródła wynosi 1,75 bita. + +*** Kodowanie musi być jednoznaczne! + +Można by sądzić, że da się stworzyć jeszcze krótsze kodowanie dla omawianego rozkładu nierównomiernego: + +| Wynik | Kodowanie | +|-------+-----------| +| A | 0 | +| B | 1 | +| C | 01 | +| D | 11 | + +Niestety, nie jest to właściwe rozwiązanie — kodowanie musi być +jednoznaczne nie tylko dla pojedynczego komunikatu, lecz dla całej sekwencji. +Na przykład ciąg 0111 nie jest jednoznaczny przy tym kodowaniu (ABBB czy CD?). +Podane wcześniej kodowanie spełnia warunek jednoznaczności, ciąg 0111 można odkodować tylko +jako AD. + + +*** Ogólny wzór na entropię. + +Na podstawie poprzedniego przykładu można dojść do intuicyjnego wniosku, że +optymalny kod dla wyniku o prawdopodobieństwie $p$ ma długość $-\log_2(p)$, a zatem ogólnie +entropia źródła o rozkładzie prawdopodobieństwa $\{p_1,\ldots,p_|\Sigma|\}$ wynosi: + +$$E = -\sum_{i=1}^{|\Sigma|} p_i\log_2(p_i)$$. + +Zauważmy, że jest to jeden z nielicznych przypadków, gdy w nauce naturalną +podstawą logarytmu jest 2 zamiast… podstawy logarytmu naturalnego ($e$). + +Teoretycznie można mierzyć entropię używając logarytmu naturalnego +($\ln$), jednostką entropii będzie wówczas *nat* zamiast bita, +niewiele to jednak zmienia i jest mniej poręczne i trudniejsze do interpretacji +(przynajmniej w kontekście informatyki) niż operowanie na bitach. + +**Pytanie** Ile wynosi entropia zwykłej sześciennej kostki? Jak wygląda +optymalne kodowanie wyników rzutu taką kostką? + +*** Entropia dla próby Bernoulliego + +Wiemy już, że entropia dla rzutu monetą wynosi 1 bit. A jaki będzie wynik dla źle wyważonej monety? + +#+BEGIN_SRC ipython :session mysession :results file + import matplotlib.pyplot as plt + from math import log + import numpy as np + + def binomial_entropy(p): + return -(p * log(p, 2) + (1-p) * log(1-p, 2)) + + x = list(np.arange(0.001,1,0.001)) + y = [binomial_entropy(x) for x in x] + plt.figure().clear() + plt.xlabel('prawdopodobieństwo wylosowania orła') + plt.ylabel('entropia') + plt.plot(x, y) + + fname = f'04_Entropia/binomial-entropy.png' + + plt.savefig(fname) + + fname +#+END_SRC + +#+RESULTS: +[[file:04_Entropia/binomial-entropy.png]] + +*Pytanie* Dla oszukańczej monety (np. dla której wypada zawsze orzeł) entropia +wynosi 0, czy to wynik zgodny z intuicją? + +** Entropia a język + +Tekst w danym języku możemy traktować jako ciąg symboli (komunikatów) losowanych według jakiegoś +rozkładu prawdopodobieństwa. W tym sensie możemy mówić o entropii języka. + +Oczywiście, jak zawsze, musimy jasno stwierdzić, czym są symbole +języka: literami, wyrazami czy jeszcze jakimiś innymi jednostkami. + +*** Pomiar entropii języka — pierwsze przybliżenie + +Załóżmy, że chcemy zmierzyć entropię języka polskiego na przykładzie +„Pana Tadeusza” — na poziomie znaków. W pierwszym przybliżeniu można +by policzyć liczbę wszystkich znaków… + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + import requests + from itertools import islice + + url = 'https://wolnelektury.pl/media/book/txt/pan-tadeusz.txt' + pan_tadeusz = requests.get(url).content.decode('utf-8') + + def get_characters(t): + yield from t + + list(islice(get_characters(pan_tadeusz), 100, 150)) +#+END_SRC + +#+RESULTS: +:results: +['K', 's', 'i', 'ę', 'g', 'a', ' ', 'p', 'i', 'e', 'r', 'w', 's', 'z', 'a', '\r', '\n', '\r', '\n', '\r', '\n', '\r', '\n', 'G', 'o', 's', 'p', 'o', 'd', 'a', 'r', 's', 't', 'w', 'o', '\r', '\n', '\r', '\n', 'P', 'o', 'w', 'r', 'ó', 't', ' ', 'p', 'a', 'n', 'i'] +:end: + + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + chars_in_pan_tadeusz = len(set(get_characters(pan_tadeusz))) + chars_in_pan_tadeusz +#+END_SRC + +#+RESULTS: +:results: +95 +:end: + +… założyć jednostajny rozkład prawdopodobieństwa i w ten sposób policzyć entropię: + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + from math import log + + 95 * (1/95) * log(95, 2) +#+END_SRC + +#+RESULTS: +:results: +6.569855608330948 +:end: + +*** Mniej rozrzutne kodowanie + +Przypomnijmy sobie jednak, że rozkład jednostek języka jest zawsze +skrajnie nierównomierny! Jeśli uwzględnić ten nierównomierny rozkład +znaków, można opracować o wiele efektywniejszy sposób zakodowania znaków składających się na „Pana Tadeusza” +(częste litery, np. „a” i „e” powinny mieć krótkie kody, a rzadkie, np. „ź” — dłuższe). + +Policzmy entropię przy takim założeniu: + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + from collections import Counter + from math import log + + def unigram_entropy(t): + counter = Counter(t) + + total = counter.total() + return -sum((p := count / total) * log(p, 2) for count in counter.values()) + + unigram_entropy(get_characters(pan_tadeusz)) +#+END_SRC + +#+RESULTS: +:results: +4.938605272823633 +:end: + +(Jak dowiemy się na kolejnym wykładzie, zastosowaliśmy tutaj *unigramowy model języka*). + +*** Ile wynosi entropia rękopisu Wojnicza? + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + import requests + import re + + voynich_url = 'http://www.voynich.net/reeds/gillogly/voynich.now' + voynich = requests.get(voynich_url).content.decode('utf-8') + + voynich = re.sub(r'\{[^\}]+\}|^<[^>]+>|[-# ]+', '', voynich, flags=re.MULTILINE) + + voynich = voynich.replace('\n\n', '#') + voynich = voynich.replace('\n', ' ') + voynich = voynich.replace('#', '\n') + + voynich = voynich.replace('.', ' ') + + voynich[100:150] +#+END_SRC + +#+RESULTS: +:results: +9 OR 9FAM ZO8 QOAR9 Q*R 8ARAM 29 [O82*]OM OPCC9 OP +:end: + + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + unigram_entropy(get_characters(voynich)) +#+END_SRC + +#+RESULTS: +:results: +3.902708104423842 +:end: + +*** Rzeczywista entropia? + +W rzeczywistości entropia jest jeszcze mniejsza, tekst nie jest +generowany przecież według rozkładu wielomianowego. Istnieją rzecz +jasna pewne zależności między znakami, np. niemożliwe, żeby po „ń” +wystąpiły litera „a” czy „e”. Na poziomie wyrazów zależności mogę mieć +jeszcze bardziej skrajny charakter, np. po wyrazie „przede” prawie na +pewno wystąpi „wszystkim”, co oznacza, że w takiej sytuacji słowo +„wszystkim” może zostać zakodowane za pomocą 0 (!) bitów. + +Można uwzględnić takie zależności i uzyskać jeszcze lepsze kodowanie, +a co za tym idzie lepsze oszacowanie entropii. (Jak wkrótce się +dowiemy, oznacza to użycie digramowego, trigramowego, etc. modelu języka). + +*** Rozmiar skompresowanego pliku jako przybliżenie entropii + +Celem algorytmów kompresji jest właściwie wyznaczanie efektywnych +sposobów kodowania danych. Możemy więc użyć rozmiaru skompresowanego pliku w bitach +(po podzieleniu przez oryginalną długość) jako dobrego przybliżenia entropii. + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + import zlib + + def entropy_by_compression(t): + compressed = zlib.compress(t.encode('utf-8')) + return 8 * len(compressed) / len(t) + + entropy_by_compression(pan_tadeusz) +#+END_SRC + +#+RESULTS: +:results: +3.673019884633768 +:end: + +Dla porównania wynik dla rękopisu Wojnicza: + +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer + entropy_by_compression(voynich) +#+END_SRC + +#+RESULTS: +:results: +2.942372881355932 +:end: + +*** Gra Shannona + +Innym sposobem oszacowania entropii tekstu jest użycie… ludzi. Można poprosić rodzimych użytkowników +danego języka o przewidywanie kolejnych liter (bądź wyrazów) i w ten sposób oszacować entropię. + +*Projekt* Zaimplementuj aplikację webową, która umożliwi „rozegranie” gry Shannona. diff --git a/wyk/04_Entropia/binomial-entropy.png b/wyk/04_Entropia/binomial-entropy.png new file mode 100644 index 0000000..e16dd0f Binary files /dev/null and b/wyk/04_Entropia/binomial-entropy.png differ diff --git a/wyk/04_Entropia/communication.drawio b/wyk/04_Entropia/communication.drawio new file mode 100644 index 0000000..13aa4d0 --- /dev/null +++ b/wyk/04_Entropia/communication.drawio @@ -0,0 +1 @@ +1VbbcpswEP0aHpMxEGznMbFzmTZtPc1Dk0cZrUGJ0LpC2JCvrwTC3OzcO9P6waM9klbsObtaOf4sya8kWcffkAJ3vBHNHX/ueN7piav/DVBUQOAFFRBJRivIbYBb9gQWHFk0YxTSzkKFyBVbd8EQhYBQdTAiJW67y1bIu6euSQQD4DYkfIj+YlTFFTr1Jg1+DSyK65Pd8Wk1k5B6sY0kjQnFbQvyLxx/JhFVNUryGXDDXc1Lte/ywOzuwyQI9ZoNX6X3O78fXS/phv3kIss2X7wj62VDeGYD/k4o2YbEfrMqaiL056/NMEv4WahQOv75BqRimqobsgS+wJQphkIvWaJSmLQWnHEWmQmFa43GKuHacPUQM8WZgNlOvJEG7SfpvZAfjNXdMagzDzABJQu9xG7wTizpRc/eNhr6Fopb8o0tRmzWRDvPDbF6YLl9A88nA55/0CVD+b8THfj/GNHBgOiDBK845GfmitBUgKB2OA85SVMWdvmTmAkKtEMc0MHV8SJtLVqCPbTUmAROFNt03e/jyp6wQKYPbtJ/2lNl0qM7xUyGYHe174yeo8B7wZEiMgI1cFRKtwv7/WqOB2o+EkGcWeBMDf6ISSbYIwkf2EBlo05ZL10hia2QUCsFck/pJIxS4+NcQsqeyLL0Z0RfmyDLsINzJ5g/Vz+2GdnNTQtoJ8jh7D1YbEejY7dun+/NkHoJrlYp/BXNpnuluLUmShVjhILwiwbtlVez5gbNRVYK9wBKFfZ9QDKFXVkhZ+rObD8OrHXfmpnn1nNpFLUhdKB3beO+9OD3fvVs46W0Om4WIJkmzmTUm24IzVNZis/waV8aVaW91MqHufPqRPnQtTsZFOoVCJDE9C8dY5EskQ9r9ON9rb7LdTov9FPM9reyaXZzKq0yp8qPT2h8bu+F4U6GjW/8OY1Pm80rsarS5qntX/wB \ No newline at end of file diff --git a/wyk/04_Entropia/communication.drawio.png b/wyk/04_Entropia/communication.drawio.png new file mode 100644 index 0000000..3338d9e Binary files /dev/null and b/wyk/04_Entropia/communication.drawio.png differ diff --git a/wyk/04_Entropia/gas-high-entropy.drawio b/wyk/04_Entropia/gas-high-entropy.drawio new file mode 100644 index 0000000..667bb82 --- /dev/null +++ b/wyk/04_Entropia/gas-high-entropy.drawio @@ -0,0 +1 @@ +jZPfb4MgEMf/Gh+bKFS3vs513bLsqUv2TIQKLXiO0mr31w/l/JVmydAofO444HtHRHPT7iyr5QdwoSMS8zaizxEhm3Xivx24BZCSNIDSKh5QMoG9+hEIY6QXxcV54egAtFP1EhZQVaJwC8ashWbpdgC9XLVmpbgD+4Lpe/qluJOBPpKHib8KVcph5STbBIthgzOGOEvGoQmoPxzdRjS3AC70TJsL3Wk36BIUePnDOm7Misr9Z8LpuNrG5ppe31ylDf1+P+6yFR7jyvQFDxyRtX8/ww937m6DHBYuFRddxDiiT41UTuxrVnTWxuffM+mM9qPEd8/OwmmUjXpyUFrnoMH20egh7Z6OQ+VmPLQxwsyS9c1bcN/COtH+KUgyyuzLU4ARzt68C04gFGsMS5OmOG6mRJM1MjlLcoaMYW2VY+hJft/BDAzDKdO9bXZd6PYX \ No newline at end of file diff --git a/wyk/04_Entropia/gas-high-entropy.drawio.png b/wyk/04_Entropia/gas-high-entropy.drawio.png new file mode 100644 index 0000000..69022e4 Binary files /dev/null and b/wyk/04_Entropia/gas-high-entropy.drawio.png differ diff --git a/wyk/04_Entropia/gas-low-entropy.drawio b/wyk/04_Entropia/gas-low-entropy.drawio new file mode 100644 index 0000000..5ab76e1 --- /dev/null +++ b/wyk/04_Entropia/gas-low-entropy.drawio @@ -0,0 +1 @@ +5ZVRT8IwEMc/zR5NtpUVeBRENMYnTHw0db1t1W7FUhj46b3RbmMwEk3UmJgQcv3f7a79/QvzyDTfzjVbZveKg/RCn289cuWF4XgQ4Hcl7KwQhZEVUi24lYJWWIh3cKLv1LXgsOoUGqWkEcuuGKuigNh0NKa1KrtliZLdqUuWwomwiJk8VR8FN5lVR+Gw1W9ApFk9OaBjm8lZXexarDLGVWml/eHIzCNTrZSxUb6dgqzY1Vwsgesz2WZjGgrzmQdeXy5mfr6JNremkDl5u3uZ04vQdtkwuXYHdps1u5qAVuuCQ9XE98ikzISBxZLFVbZEy1HLTC5xFWC4Mlq9NqQIKomQcqqk0vtuJEmAxnFTeZDhw/GzX41wWwJtYHv2rEFDEG8eqByM3mGJeyAk7vrsjtZl62HgePnZgX/Uacxdm7Rp3ZLFwMH9Amjy26A5g1HSC5rGI3hOvgc0if4a6KgHNJU4dcLFBsPU7E8+wM/DU2CDugIHdoqODEJMps+Fmm2hCjgywklMirTAZYxYAfVJBV3gv8ylS+SC82pMr+3di/EdPw965NogOnGN9phGfso0+hXTwv9pGhn9mmm4bN9L+9zBy53MPgA= \ No newline at end of file diff --git a/wyk/04_Entropia/gas-low-entropy.drawio.png b/wyk/04_Entropia/gas-low-entropy.drawio.png new file mode 100644 index 0000000..0217e1c Binary files /dev/null and b/wyk/04_Entropia/gas-low-entropy.drawio.png differ diff --git a/wyk/05_Ngramowy_model.ipynb b/wyk/05_Ngramowy_model.ipynb new file mode 100644 index 0000000..2eb2875 --- /dev/null +++ b/wyk/05_Ngramowy_model.ipynb @@ -0,0 +1,19 @@ + +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Modelowanie języka

\n", + "

05. N-gramowe modele języka i ich zastosowania [wykład]

\n", + "

Filip Graliński (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n", + "\n" + ] + }, +{"cell_type":"markdown","metadata":{},"source":["## N-gramowe modele języka i ich zastosowania\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Przypomnienie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Przypomnijmy, że model języka zwraca prawdopodobieństwo dla danego\nciągu symboli (tokenów, wyrazów itp.) $w_1\\ldots w_N$ (o długości $N$):\n\n$$P_M(w_1\\ldots w_N) = ?$$\n\nW dalszym ciągu będziemy zakładali, że będziemy operować na wyrazach.\nZbiór wszystkich wyrazów nazywa się **słownikiem** (ang. *vocabulary*,\nnie *dictionary!*), w literaturze dotyczącej modelowania języka\nzazwyczaj oznacza się go literą $V$ (częściej niż $\\Sigma$).\nDale zakładamy, że słownik jest skończony.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Co jeszcze potrafi model języka?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["##### Przewidywanie kolejnego słowa\n\n"]},{"cell_type":"markdown","metadata":{},"source":["$$P_M(w_N|w_1\\ldots w_{N-1}) = \\frac{P_M(w_1\\dots w_{N-1}w_N*)}{P_M(w_1\\dots w_{n-1}*)} = \\frac{\\sum_{\\alpha \\in\n \\Sigma^*}P_M(w_1\\dots w_N\\alpha)}{\\sum_{\\alpha\\in\\Sigma^*}P(w_1\\dots w_{n-1}\\alpha)}$$\n\n$P_M(w_N|w_1\\ldots w_{N-1})$ to właściwie skrót notacyjny, pełny zapis powinien mieć następujący kształt:\n\n$$P_M(X_N=w_N|X_1=w_1,\\ldots,X_{N-1}=w_{N-1}),$$\n\ngdzie $P_M(X_i=w)$ oznacza prawdopodobieństwo, że na $i$-tej pozycji wystąpi słowo $w$.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["##### Odgadywanie słowa w luce\n\n"]},{"cell_type":"markdown","metadata":{},"source":["$$P_M(w_1\\dots w_{i-1}?w_{i+1}\\dots w_N) = \\operatorname{argmax}_w P_M(w_1\\ldots w_{i-1}ww_{i+1}\\dots w_N)$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Przykład dla autentycznego modelu języku\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Zobaczmy przykładowe zastosowania i wyniki dla modelu języku\nwyuczonego na tekstach z II poł. XX w.\n\n![img](./05_Ngramowy_model/tabelka.png)\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Do czego stosujemy model języka?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Model języka sam w sobie nie jest zbyt użyteczny. To raczej środek do celu\nniż cel sam w sobie.\n\nModel języka:\n\n- ma zastosowanie w kryptoanalizie\n - Oxmynsxq mkx lo kmrsofon li cdenisxq sdc kvzrklodsm mrkbkmdobc kxn bozvkmsxq okmr yxo li dro 13dr voddob zvkmon pebdrob kvyxq sx dro kvzrklod.\n- pomaga(ł) wybrać właściwe tłumaczenie w tłumaczeniu maszynowym\n czy transkrypcję w systemach rozpoznawania mowy (ASR)\n (zanim zaczęto używać do tego sieci neuronowych, gdzie nie\n ma już wyraźnego rozróżnienia między modelem tłumaczenia\n czy modelem akustycznym a modelem języka),\n- pomaga znaleźć „podejrzane” miejsca w tekście\n (korekta pisowni/gramatyki),\n- może być stosowany jako klasyfikator (potrzeba wtedy więcej niż jednego modelu,\n np. model języka spamów kontra model języka niespamów),\n- może być stosowany w kompresji danych,\n- bardzo dobry model języka **musi** mieć **w środku** bardzo dobrą **wiedzę**\n o języku i o świecie, można wziąć **„wnętrzności”** modelu, nie dbając o prawdopodobieństwa\n i użyć modelu w zupełnie innym celu.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### N-gramowy model języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Zawsze prawdziwe:\n\n$$P_M(w_1\\dots w_N) = P_M(w_1)P_M(w_2|w_1)\\dots P_M(w_N|w_1\\dots w_{N-1}).$$\n\nMożna aproksymować prawdopodobieństwa używając $n$-gramów:\n\n$$P_M(w_1\\dots w_N) \\approx P_M(w_1)\\dots P_M(w_i|w_{i-n+1}\\dots w_{i-1})\\dots P_M(w_N|w_{N-n+1}\\dots w_{N-1}).$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Model trigramowy\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dla $n=3$:\n\n$$P_M(w_1\\dots w_N) = P_M(w_1)P_M(w_2|w_1)P_M(w_3|w_1w_2)\\dots P_M(w_i|w_{i-2}w_{i-1})\\dots P_M(w_N|w_{N-2}w_{N-1}).$$\n\nZauważmy, że model trigramowy oznacza modelowanie kolejnego wyrazu przy znajomości\n2 (nie 3!) poprzedzających wyrazów (**razem** mamy 3 wyrazy).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Model digramowy/bigramowy\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dla $n=2$:\n\n$$P_M(w_1\\dots w_N) = P_M(w_1)P_M(w_2|w_1)P_M(w_3|w_2)\\dots P_M(w_i|w_{i-1})\\dots P_M(w_N|w_{N-1})$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Model unigramowy\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dla $n=1$ uzyskujemy przypadek szczególny:\n\n$$P_M(w_1\\dots w_N) = P_M(w_1)P_M(w_2)P_M(w_3)\\dots P_M(w_N) = \\prod_{i=1}^N P_M(w_i)$$\n\nZauważmy, że w modelu unigramowym w ogóle nie bierzemy pod uwagę kolejności wyrazów.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Estymacja prawdopodobieństw\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dla $n$-gramowego modelu potrzebujmy estymować wartości:\n\n$$P_M(w_i|w_{i-n+1}\\dots w_{i-1}).$$\n\nPrawdopodobieństwa te estymujemy na podstawie jakiegoś **korpusu tekstów**\n(możemy nazywać go również **zbiorem uczącym**).\n\nNajprostszy sposób:\n\n$$P_M(w_i|w_{i-n+1}\\dots w_{i-1}) = \\frac{\\# w_{i-n+1}\\dots w_{i-1}w_i}{\\# w_{i-n+1}\\dots w_{i-1}},$$\n\ngdzie $\\# w_1\\dots w_k$ oznacza liczbę wystąpień w korpusie.\n\nNa przykład, jeśli model $M$ zostanie wyuczony na tekście *do be do be do do*, wówczas\n$P_M(\\mathit{be}|\\mathit{do})=\\frac{2}{3}$.\n\n"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0} \ No newline at end of file diff --git a/wyk/05_Ngramowy_model.org b/wyk/05_Ngramowy_model.org new file mode 100644 index 0000000..8f637c8 --- /dev/null +++ b/wyk/05_Ngramowy_model.org @@ -0,0 +1,112 @@ + +* N-gramowe modele języka i ich zastosowania + +*** Przypomnienie + +Przypomnijmy, że model języka zwraca prawdopodobieństwo dla danego +ciągu symboli (tokenów, wyrazów itp.) $w_1\ldots w_N$ (o długości $N$): + +$$P_M(w_1\ldots w_N) = ?$$ + +W dalszym ciągu będziemy zakładali, że będziemy operować na wyrazach. +Zbiór wszystkich wyrazów nazywa się *słownikiem* (ang. /vocabulary/, +nie /dictionary!/), w literaturze dotyczącej modelowania języka +zazwyczaj oznacza się go literą $V$ (częściej niż $\Sigma$). +Dale zakładamy, że słownik jest skończony. + +*** Co jeszcze potrafi model języka? + +**** Przewidywanie kolejnego słowa + +$$P_M(w_N|w_1\ldots w_{N-1}) = \frac{P_M(w_1\dots w_{N-1}w_N*)}{P_M(w_1\dots w_{n-1}*)} = \frac{\sum_{\alpha \in + \Sigma^*}P_M(w_1\dots w_N\alpha)}{\sum_{\alpha\in\Sigma^*}P(w_1\dots w_{n-1}\alpha)}$$ + +$P_M(w_N|w_1\ldots w_{N-1})$ to właściwie skrót notacyjny, pełny zapis powinien mieć następujący kształt: + +$$P_M(X_N=w_N|X_1=w_1,\ldots,X_{N-1}=w_{N-1}),$$ + +gdzie $P_M(X_i=w)$ oznacza prawdopodobieństwo, że na $i$-tej pozycji wystąpi słowo $w$. + +**** Odgadywanie słowa w luce + +$$P_M(w_1\dots w_{i-1}?w_{i+1}\dots w_N) = \operatorname{argmax}_w P_M(w_1\ldots w_{i-1}ww_{i+1}\dots w_N)$$ + +*** Przykład dla autentycznego modelu języku + +Zobaczmy przykładowe zastosowania i wyniki dla modelu języku +wyuczonego na tekstach z II poł. XX w. + +[[./05_Ngramowy_model/tabelka.png]] + +*** Do czego stosujemy model języka? + +Model języka sam w sobie nie jest zbyt użyteczny. To raczej środek do celu +niż cel sam w sobie. + +Model języka: +- ma zastosowanie w kryptoanalizie + - Oxmynsxq mkx lo kmrsofon li cdenisxq sdc kvzrklodsm mrkbkmdobc kxn bozvkmsxq okmr yxo li dro 13dr voddob zvkmon pebdrob kvyxq sx dro kvzrklod. +- pomaga(ł) wybrać właściwe tłumaczenie w tłumaczeniu maszynowym + czy transkrypcję w systemach rozpoznawania mowy (ASR) + (zanim zaczęto używać do tego sieci neuronowych, gdzie nie + ma już wyraźnego rozróżnienia między modelem tłumaczenia + czy modelem akustycznym a modelem języka), +- pomaga znaleźć „podejrzane” miejsca w tekście + (korekta pisowni/gramatyki), +- może być stosowany jako klasyfikator (potrzeba wtedy więcej niż jednego modelu, + np. model języka spamów kontra model języka niespamów), +- może być stosowany w kompresji danych, +- bardzo dobry model języka *musi* mieć *w środku* bardzo dobrą *wiedzę* + o języku i o świecie, można wziąć *„wnętrzności”* modelu, nie dbając o prawdopodobieństwa + i użyć modelu w zupełnie innym celu. + +** N-gramowy model języka + +Zawsze prawdziwe: + +$$P_M(w_1\dots w_N) = P_M(w_1)P_M(w_2|w_1)\dots P_M(w_N|w_1\dots w_{N-1}).$$ + +Można aproksymować prawdopodobieństwa używając $n$-gramów: + +$$P_M(w_1\dots w_N) \approx P_M(w_1)\dots P_M(w_i|w_{i-n+1}\dots w_{i-1})\dots P_M(w_N|w_{N-n+1}\dots w_{N-1}).$$ + +*** Model trigramowy + +Dla $n=3$: + +$$P_M(w_1\dots w_N) = P_M(w_1)P_M(w_2|w_1)P_M(w_3|w_1w_2)\dots P_M(w_i|w_{i-2}w_{i-1})\dots P_M(w_N|w_{N-2}w_{N-1}).$$ + +Zauważmy, że model trigramowy oznacza modelowanie kolejnego wyrazu przy znajomości +2 (nie 3!) poprzedzających wyrazów (*razem* mamy 3 wyrazy). + +*** Model digramowy/bigramowy + +Dla $n=2$: + +$$P_M(w_1\dots w_N) = P_M(w_1)P_M(w_2|w_1)P_M(w_3|w_2)\dots P_M(w_i|w_{i-1})\dots P_M(w_N|w_{N-1})$$ + +*** Model unigramowy + +Dla $n=1$ uzyskujemy przypadek szczególny: + +$$P_M(w_1\dots w_N) = P_M(w_1)P_M(w_2)P_M(w_3)\dots P_M(w_N) = \prod_{i=1}^N P_M(w_i)$$ + +Zauważmy, że w modelu unigramowym w ogóle nie bierzemy pod uwagę kolejności wyrazów. + +*** Estymacja prawdopodobieństw + +Dla $n$-gramowego modelu potrzebujmy estymować wartości: + +$$P_M(w_i|w_{i-n+1}\dots w_{i-1}).$$ + +Prawdopodobieństwa te estymujemy na podstawie jakiegoś *korpusu tekstów* +(możemy nazywać go również *zbiorem uczącym*). + +Najprostszy sposób: + +$$P_M(w_i|w_{i-n+1}\dots w_{i-1}) = \frac{\# w_{i-n+1}\dots w_{i-1}w_i}{\# w_{i-n+1}\dots w_{i-1}},$$ + +gdzie $\# w_1\dots w_k$ oznacza liczbę wystąpień w korpusie. + +Na przykład, jeśli model $M$ zostanie wyuczony na tekście /do be do be do do/, wówczas +$P_M(\mathit{be}|\mathit{do})=\frac{2}{3}$. diff --git a/wyk/05_Ngramowy_model/tabelka.pdf b/wyk/05_Ngramowy_model/tabelka.pdf new file mode 100644 index 0000000..c44d268 Binary files /dev/null and b/wyk/05_Ngramowy_model/tabelka.pdf differ diff --git a/wyk/05_Ngramowy_model/tabelka.png b/wyk/05_Ngramowy_model/tabelka.png new file mode 100644 index 0000000..5f29011 Binary files /dev/null and b/wyk/05_Ngramowy_model/tabelka.png differ diff --git a/wyk/06_Ewaluacja.ipynb b/wyk/06_Ewaluacja.ipynb new file mode 100644 index 0000000..a82eabf --- /dev/null +++ b/wyk/06_Ewaluacja.ipynb @@ -0,0 +1,19 @@ + +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Modelowanie języka

\n", + "

06. Ewaluacja modeli języka [wykład]

\n", + "

Filip Graliński (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n", + "\n" + ] + }, +{"cell_type":"markdown","metadata":{},"source":["## Ewaluacja modeli języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Jak już widzimy, możemy mieć różne modele języka. Nawet jeśli\npozostajemy tylko na gruncie najprostszych, $n$-gramowych modeli\njęzyka, inne prawdopodobieństwa uzyskamy dla modelu digramowego, a\ninny dla trigramowego. Jedne modele będą lepsze, inne — gorsze. Jak\nobiektywnie odróżnić dobry model od złego? Innymi słowy, jak ewaluować\nmodele języka?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Ewaluacja zewnętrzna i wewnętrzna\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W ewaluacji zewnętrznej (ang. *extrinsic*) ewaluację modelu języka sprowadzamy\ndo ewaluacji większego systemu, którego częścią jest model języka, na przykład\nsystemu tłumaczenia maszynowego albo systemu ASR.\n\nEwaluacja wewnętrzna (ang. *intrinsic*) polega na ewaluacji modelu języka jako takiego.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Podział zbioru\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Po pierwsze, jak zazwyczaj bywa w uczeniu maszynowym, powinniśmy\npodzielić nasz zbiór danych. W modelowaniu języka zbiorem danych jest\nzbiór tekstów w danym języku, czyli korpus języka.\nPowinniśmy podzielić nasz korpus na część uczącą (*training set*) $C = \\{w_1\\ldots w_N\\}$ i testową\n(*test set*) $C' = \\{w_1'\\ldots w_{N'}'\\}$.\n\nWarto też wydzielić osobny „deweloperski” zbiór testowy (*dev set*) —\ndo testowania na bieżąco, optymalizacji hiperparametrów itd. Zbiory\ntestowe nie muszą być bardzo duże, np. kilka tysięcy zdań może w zupełności wystarczyć.\n\nTak podzielony korpus możemy traktować jako **wyzwanie modelowania języka**.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Przykład wyzwania modelowania języka\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Wyzwanie\n[https://gonito.net/challenge/challenging-america-word-gap-prediction|Challenging America word-gap prediction](https://gonito.net/challenge/challenging-america-word-gap-prediction|Challenging America word-gap prediction)\nto wyzwanie modelowania amerykańskiej odmiany języka angielskiego, używanej w gazetach w XIX w. i I poł. XX w.\n\n $ git clone git://gonito.net/challenging-america-word-gap-prediction\n $ cd challenging-america-word-gap-prediction\n $ xzcat train/in.tsv.xz | wc\n 432022 123677147 836787912\n $ xzcat dev-0/in.tsv.xz | wc\n 10519 3076536 20650825\n $ xzcat test-A/in.tsv.xz | wc\n 7414 2105734 14268877\n\nDodajmy, że poszczególne zbiory zawierają teksty z różnych gazet. Jest\nto właściwe podejście, jeśli chcemy mierzyć rzeczywistą skuteczność modeli języka.\n(Teksty z jednej gazety mogłyby być zbyt proste).\n\nOto przykład tekstu z wyzwania:\n\n $ xzcat train/in.tsv.xz | head -n 1 | fold\n 4e04702da929c78c52baf09c1851d3ff\tST\tChronAm\t1919.6041095573314\n 30.47547\t-90.100911\tcame fiom the last place to this\\nplace, and thi\n s place is Where We\\nWere, this is the first road I ever\\nwas on where you can r\n ide elsewhere\\nfrom anywhere and be nowhere.\\nHe says, while this train stops ev\n ery-\\nwhere, it never stops anywhere un-\\nless its somewhere. Well, I says,\\nI'm\n glad to hear that, but, accord-\\ning to your figures, I left myself\\nwhere 1 wa\n s, which is five miles near-\\ner to myself than I was when we\\nwere where we are\n now.\\nWe have now reached Slidell.\\nThat's a fine place. The people\\ndown there\n remind me of bananas-\\nthey come and go in bunches. 811-\\ndell used to be noted\n for her tough\\npeople. Now she is noted for be,\\ntough steaks. Well, I certainl\n y got\\none there. When the waiter brought\\nit in it was so small I thought. It\\n\n was a crack in the plate. I skid,\\nwaiter what else have you got? +He\\nbrought m\n e in two codfish and one\\nsmelt. I said, waiter have you got\\npigs feet? He said\n no, rheumatism\\nmakes me walk that way. I sald,\\nhow is the pumpkin pie?\n said\\nit's all squash. The best I could get\\nin that hotel was a soup sandwich.\\\n nAfter the table battle the waiter and\\nI signed an armistice. I then went\\nover\n to the hotel clerk and asked for\\na room. He said with or without a\\nbed? I sai\n d, with a bed. He said,\\nI don't think I 'have' a bed long\\nenough for you. I sa\n id, well, I'll\\naddtwo feettoitwhenIgetinit.\\nHe gave me a lovely room on the\\nt\n op floor. It was one of those rooms\\nthat stands on each side. If you\\nhappen to\n get up in the middle of\\nthe night you want to be sure and\\nget up in the middl\n e of the room.\\nThat night I dreamt I was eating\\nflannel cakes. When I woke up\n half\\nof the blanket was gone. I must\\nhave got up on the wrong side of the\\nbed\n , for next morning I had an awful\\nheadache. I told the manager about\\nit. He sa\n id, you have rheumatic\\npains. I said, no, I think it is on,\\nof those attic roo\n m pains. I nad to\\ngetupat5a.m.inthemorningso\\nthey could use the sheet to set t\n he\\nbreakfast table.\n\nZauważmy, że mamy nie tylko tekst, lecz również metadane (czas i\nwspółrzędne geograficzne). W modelowaniu języka można uwzględnić\nrównież takie dodatkowe parametry (np. prawdopodobieństwa wystąpienia\nsłowa *koronawirus* wzrasta po roku 2019).\n\nZauważmy również, że tekst zawiera błędy OCR-owe (np. *nad* zamiast\n*had*). Czy w takim razie jest to sensowne wyzwanie modelowania\njęzyka? Tak, w niektórych przypadkach możemy chcieć modelować tekst z\nuwzględnieniem „zaszumień” wprowadzanych przez ludzi bądź komputery\n(czy II prawo termodynamiki!).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Co podlega ocenie?\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Ogólnie ocenie powinno podlegać prawdopodobieństwo $P_M(C')$, czyli\nprawdopodobieństwo przypisane zbiorowi testowemu $C'$ przez model\n(wyuczony na zbiorze $C$).\n\nJeśli oceniamy przewidywania, które człowiek lub komputer czynią, to\nim większe prawdopodobieństwo przypisane do tego, co miało miejsce,\ntym lepiej. Zatem im wyższe $P_M(C')$, tym lepiej.\n\nZazwyczaj będziemy rozbijali $P_M(C')$ na prawdopodobieństwa\nprzypisane do poszczególnych słów:\n\n$$P_M(w_1'\\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\\dots P_M(w'_{N'}|w'_1\\dots w'_{N'-1}) = \\prod_{i=1}^{N'} P_M(w'_i|w'_1\\ldots w'_{i-1}).$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Entropia krzyżowa\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Można powiedzieć, że dobry model języka „wnosi” informację o języku. Jeśli zarówno\nnadawca i odbiorca tekstu mają do dyspozycji ten sam model języka…\n\n![img](./06_Ewaluacja/lm-communication.drawio.png)\n\n… powinni być w stanie zaoszczędzić na długości komunikatu.\n\nW skrajnym przypadku, jeśli model jest pewny kolejnego słowa, tj.\n$P_M(w'_i|w'_1\\ldots w'_{i-1}) = 1$, wówczas w $i$-tym kroku w ogóle\nnic nie trzeba przesyłać przez kanał komunikacji. Taka sytuacja może\nrealnie wystąpić, na przykład: z prawdopodobieństwem zbliżonym do 1 po wyrazie\n*Hong* wystąpi słowo *Kong*, a po wyrazie *przede* — wyraz *wszystkim*.\n\nModel języka może pomóc również w mniej skrajnym przypadkach, np.\njeżeli na danej pozycji w tekście model redukuje cały słownik do dwóch\nwyrazów z prawdopodobieństwem 1/2, wówczas nadawca może zakodować tę\npozycję za pomocą jednego bitu.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Wzór na entropię krzyżową\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Przypomnijmy, że symbol o prawdopodobieństwie $p$ można zakodować za\npomocą (średnio) $-\\log_2(p)$ bitów, tak więc jeśli nadawca i odbiorca dysponują\nmodelem $M$, wówczas można przesłać cały zbiór testowy $C$ za pomocą następującej liczby bitów:\n\n$$-\\sum_{i=1}^{N'} log P_M(w'_i|w'_1\\ldots w'_{i-1}).$$\n\nAby móc porównywać wyniki dla korpusów dla różnej długości, warto znormalizować\ntę wartość, tzn. podzielić przez długość tekstu:\n\n$$H(M) = -\\frac{\\sum_{i=1}^{N'} log P_M(w'_i|w'_1\\ldots w'_{i-1})}{N'}.$$\n\nTę wartość nazywamy **entropią krzyżową** modelu $M$. Entropia krzyżowa\nmierzy naszą niewiedzę przy założeniu, że dysponujemy modelem $M$. Im niższa wartość\nentropii krzyżowej, tym lepiej, im bowiem mniejsza nasza niewiedza,\ntym lepiej.\n\nEntropią krzyżową jest często nazywaną funkcją **log loss**, zwłaszcza w\nkontekście jej użycia jako funkcji straty przy uczeniu neuronowych modeli języka\n(o których dowiemy się później).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Wiarygodność\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Innym sposobem mierzenia jakości modelu języka jest odwołanie się do\n**wiarygodności** (ang. *likelihood*). Wiarygodność to\nprawdopodobieństwo przypisane zdarzeniom niejako „po fakcie”. Jak już\nwspomnieliśmy, im wyższe prawdopodobieństwo (wiarygodność) przypisane\ntestowej części korpusu, tym lepiej. Innymi słowy, jako metrykę ewaluacji\nużywać będziemy prawdopodobieństwa:\n\n$$P_M(w_1'\\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\\dots P_M(w'_{N'}|w'_1\\dots w'_{N'-1}) = \\prod_{i=1}^{N'} P_M(w'_i|w'_1\\ldots w'_{i-1}),$$\n\nz tym, że znowu warto znormalizować to prawdopodobieństwo względem rozmiaru korpusu.\nZe względu na to, że prawdopodobieństwa przemnażamy, zamiast średniej arytmetycznej\nlepiej użyć **średniej geometrycznej**:\n\n$$\\sqrt[N']{P_M(w_1'\\dots w_{N'}')} = \\sqrt[N']{\\prod_{i=1}^{N'} P_M(w'_i|w'_1\\ldots w'_{i-1})}.$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Interpretacja wiarygodności\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Co ciekawe, wiarygodność jest używana jako metryka ewaluacji modeli\njęzyka rzadziej niż entropia krzyżowa (log loss), mimo tego, że wydaje\nsię nieco łatwiejsza do interpretacji dla człowieka. Otóż wiarygodność\nto **średnia geometryczna prawdopodobieństw przypisanych przez model języka do słów, które rzeczywiście wystąpiły**.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Związek między wiarygodnością a entropią krzyżową\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Istnieje bardzo prosty związek między entropią krzyżową a wiarygodnością.\nOtóż entropia krzyżowa to po prostu logarytm wiarygodności (z minusem):\n\n-$$\\log_2\\sqrt[N']{P_M(w_1'\\dots w_N')} = -\\frac{\\log_2\\prod_{i=1}^{N'} P_M(w'_i|w'_1\\ldots w'_{i-1})}{N'} = -\\frac{\\sum_{i=1}^{N'} \\log_2 P_M(w'_i|w'_1\\ldots w'_{i-1})}{N'}.$$\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### „log-proby”\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W modelowaniu języka bardzo często używa się logarytmów prawdopodobieństw (z angielskiego skrótowo *log probs*),\nzamiast wprost operować na prawdopodobieństwach:\n\n- dodawanie log probów jest tańsze obliczeniowo niż mnożenie prawdopodobieństw,\n- bardzo małe prawdopodobieństwa znajdują się na granicy dokładności reprezentacji\n liczb zmiennopozycyjnych, log proby są liczbami ujemnymi o „poręczniejszych”\n rzędach wielkości.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Perplexity\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Tak naprawdę w literaturze przedmiotu na ogół używa się jeszcze innej metryki ewaluacji —\n**perplexity**. Perplexity jest definiowane jako:\n\n$$\\operatorname{PP}(M) = 2^{H(M)}.$$\n\nIntuicyjnie można sobie wyobrazić, że perplexity to liczba możliwości\nprognozowanych przez model z równym prawdopodobieństwem. Na przykład,\njeśli model przewiduje, że w danym miejscu tekstu może wystąpić z\nrównym prawdopodobieństwem jedno z 32 słów, wówczas (jeśli\nrzeczywiście któreś z tych słów wystąpiło) entropia wynosi 5 bitów, a\nperplexity — 32.\n\nInaczej: perplexity to po prostu odwrotność wiarygodności:\n\n$$\\operatorname{PP}(M) = \\sqrt[N']{P_M(w_1'\\dots w_N')}.$$\n\nPerplexity zależy oczywiście od języka i modelu, ale typowe wartości\nzazwyczaj zawierają się w przedziale 20-400.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Perplexity — przykład\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Wyuczmy model języka przy użyciu gotowego narzędzia [https://github.com/kpu/kenlm|KenLM](https://github.com/kpu/kenlm|KenLM).\nKenLM to zaawansowane narzędzie do tworzenia n-gramowych modeli języka\n(zaimplementowano w nim techniki wygładzania, które omówimy na kolejnym wykładzie).\n\nWyuczmy na zbiorze uczącym wspomnianego wyzwania *Challenging America word-gap prediction*\ndwa modele, jeden 3-gramowy, drugi 4-gramowy.\n\nZ powodu, który za chwilę stanie się jasny, teksty w zbiorze uczącym musimy sobie „poskładać” z kilku „kawałków”.\n\n $ cd train\n $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\\\n/ /g;s// /g;@f=split/\\t/;print \"$f[7] $f[0] $f[8]\\n\"' | lmplz -o 3 --skip-symbols > model3.arpa\n $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\\\n/ /g;s// /g;@f=split/\\t/;print \"$f[7] $f[0] $f[8]\\n\"' | lmplz -o 4 --skip-symbols > model4.arpa\n $ cd ../dev-0\n $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\\\n/ /g;s// /g;@f=split/\\t/;print \"$f[7] $f[0] $f[8]\\n\"' | query ../train/model3.arpa\n Perplexity including OOVs:\t976.9905056314793\n Perplexity excluding OOVs:\t616.5864921901557\n OOVs:\t125276\n Tokens:\t3452929\n $ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\\\n/ /g;s// /g;@f=split/\\t/;print \"$f[7] $f[0] $f[8]\\n\"' | query ../train/model4.arpa\n Perplexity including OOVs:\t888.698932611321\n Perplexity excluding OOVs:\t559.1231510292068\n OOVs:\t125276\n Tokens:\t3452929\n\nJak widać model 4-gramowy jest lepszy (ma niższe perplexity) niż model 3-gramowy, przynajmniej\njeśli wierzyć raportowi programu KenLM.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Entropia krzyżowa, wiarygodność i perplexity — podsumowanie\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Trzy omawiane metryki ewaluacji modeli języka (entropia krzyżowa,\nwiarygodność i perplexity) są ze sobą ściśle związane, w gruncie\nrzeczy to po prostu jedna miara.\n\n| Metryka|Kierunek|Najlepsza wartość|Najgorsza wartość|\n|---|---|---|---|\n| entropia krzyżowa|im mniej, tym lepiej|0|$\\infty$|\n| wiarygodność|im więcej, tym lepiej|1|0|\n| perplexity|im mniej, tym lepiej|1|$\\infty$|\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Uwaga na zerowe prawdopodobieństwa\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Entropia krzyżowa, wiarygodność czy perplexity są bardzo czułe na zbyt\ndużą pewność siebie. Wystarczy, że dla **jednej** pozycji w zbiorze\nprzypiszemy zerowe prawdopodobieństwo, wówczas wszystko „eksploduje”.\nPerplexity i entropia krzyżowa „wybuchają” do nieskończoności,\nwiarygodność spada do zera — bez względu na to, jak dobre są\nprzewidywania dotyczące innych pozycji w tekście!\n\nW przypadku wiarygodności wiąże się to z tym, że wiarygodność\ndefiniujemy jako iloczyn prawdopodobieństwa, oczywiście wystarczy, że\njedna liczba w iloczynie była zerem, żeby iloczyn przyjął wartość\nzero. Co więcej, nawet jeśli pominiemy taki skrajny przypadek, to\nśrednia geometryczna „ciągnie” w dół, bardzo niska wartość\nprawdopodobieństwa przypisana do rzeczywistego słowa może drastycznie obniżyć\nwartość wiarygodności (i podwyższyć perplexity).\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Słowa spoza słownika\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Prostym sposobem przeciwdziałania zerowaniu/wybuchaniu metryk jest\nprzypisywanie każdemu możliwemu słowu przynajmniej niskiego\nprawdopodobieństwa $\\epsilon$. Niestety, zawsze może pojawić się\nsłowa, którego nie było w zbiorze uczącym — **słowo spoza słownika**\n(*out-of-vocabulary word*, *OOV*). W takim przypadku znowu może\npojawić się zerowy/nieskończony wynik.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Ewaluacja modeli języka w warunkach konkursu\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Jeśli używać tradycyjnych metryk ewaluacji modeli języka (perplexity\nczy wiarygodność), bardzo łatwo można „oszukać” — wystarczy\nzaraportować prawdopodobieństwo 1! Oczywiście to absurd, bo albo\nwszystkim innym tekstom przypisujemy prawdopodobieństwo 0, albo —\njeśli „oszukańczy” system każdemu innemu tekstowi przypisze\nprawdopodobieństwo 1 — nie mamy do czynienia z poprawnym rozkładem\nprawdopodobieństwa.\n\nCo gorsza, nawet jeśli wykluczymy scenariusz świadomego oszustwa,\nłatwo *samego siebie* wprowadzić w błąd. Na przykład przez pomyłkę\nmożna zwracać zawyżone prawdopodobieństwo (powiedzmy przemnożone przez 2).\n\nTe problemy stają się szczególnie dokuczliwe, jeśli organizujemy\nwyzwanie, *konkurs* modelowania języka, gdzie chcemy w sposób\nobiektywny porównywać różne modele języka, tak aby uniknąć celowego\nbądź nieświadomego zawyżania wyników.\n\nPrzedstawimy teraz, w jaki sposób poradzono sobie z tym problemem\nw wyzwaniu *Challenging America word-gap prediction*\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Odgadywanie słowa w luce\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Po pierwsze, jaka sama nazwa wskazuje, w wyzwaniu *Challenging America\nword-gap prediction* zamiast zwracania prawdopodobieństwa dla całego\ntekstu oczekuje się podania rozkładu prawdopodobieństwa dla brakującego słowa.\n\nMianowicie, w każdym wierszu wejściu (plik `in.tsv.xz`) w 7. i 8. polu\npodany jest, odpowiednio, lewy i prawy kontekst słowa do odgadnięcia.\n(W pozostałych polach znajdują się metadane, o których już wspomnieliśmy,\nna razie nie będziemy ich wykorzystywać).\nW pliku z oczekiwanym wyjściem (`expected.tsv`), w odpowiadającym\nwierszu, podawane jest brakujące słowo. Oczywiście w ostatecznym\nteście `test-A` plik `expected.tsv` jest niedostępny, ukryty przed uczestnikami konkursu.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Zapis rozkładu prawdopodobieństwa\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Dla każdego wiersza wejścia podajemy rozkład prawdopodobieństwa dla\nsłowa w luce w formacie:\n\n wyraz1:prob1 wyraz2:prob2 ... wyrazN:probN :prob0\n\ngdzie wyraz1, …, wyrazN to konkretne wyrazy, prob1, …, probN ich prawdopodobieństwa.\nMożna podać dowolną liczbę wyrazów.\nZ kolei prob0 to „resztowe” prawdopodobieństwo przypisane do wszystkich pozostałych wyrazów,\nprawdopodobieństwo to pozwala uniknąć problemów związanych ze słowami OOV, trzeba jeszcze tylko dokonać\nmodyfikacji metryki\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Metryka LikelihoodHashed\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Metryka LikelihoodHashed jest wariantem metryki Likelihood\n(wiarygodności) opracowanym z myślą o wyzwaniach czy konkursach\nmodelowania języka. W tej metryce każde słowo wpada pseudolosowo do\njednego z $2^{10}=1024$ „kubełków”. Numer kubełka jest wyznaczony na\npodstawie funkcji haszującej MurmurHash.\n\nPrawdopodobieństwa zwrócone przez ewaluowany model są sumowane w\nkażdym kubełku, następnie ewaluator zagląda do pliku \\`expected.tsv\\` i\nuwzględnia prawdopodobieństwo z kubełka, do którego „wpada” oczekiwane\nsłowo. Oczywiście czasami więcej niż jedno słowo może wpaść do\nkubełka, model mógł też „wrzucić” do kubełka tak naprawdę inne słowo\nniż oczekiwane (przypadkiem oba słowa wpadają do jednego kubełka).\nTak więc LikelihoodHashed będzie nieco zawyżone w stosunku do Likelihood.\n\nDlaczego więc taka komplikacja? Otóż LikelihoodHashed nie zakłada\nżadnego słownika, znika problem słów OOV — prawdopodobieństwa resztowe prob0\nsą rozkładane równomiernie między wszystkie 1024 kubełki.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["#### Alternatywne metryki\n\n"]},{"cell_type":"markdown","metadata":{},"source":["LikelihoodHashed została zaimplementowana w narzędziu ewaluacyjnym\n[https://gitlab.com/filipg/geval|GEval](https://gitlab.com/filipg/geval|GEval). Są tam również dostępne\nanalogiczne warianty entropii krzyżowej (log loss) i perplexity\n(LogLossHashed i PerplexityHashed).\n\n"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0} \ No newline at end of file diff --git a/wyk/06_Ewaluacja.org b/wyk/06_Ewaluacja.org new file mode 100644 index 0000000..651ca18 --- /dev/null +++ b/wyk/06_Ewaluacja.org @@ -0,0 +1,363 @@ +* Ewaluacja modeli języka + +Jak już widzimy, możemy mieć różne modele języka. Nawet jeśli +pozostajemy tylko na gruncie najprostszych, $n$-gramowych modeli +języka, inne prawdopodobieństwa uzyskamy dla modelu digramowego, a +inny dla trigramowego. Jedne modele będą lepsze, inne — gorsze. Jak +obiektywnie odróżnić dobry model od złego? Innymi słowy, jak ewaluować +modele języka? + +** Ewaluacja zewnętrzna i wewnętrzna + +W ewaluacji zewnętrznej (ang. /extrinsic/) ewaluację modelu języka sprowadzamy +do ewaluacji większego systemu, którego częścią jest model języka, na przykład +systemu tłumaczenia maszynowego albo systemu ASR. + +Ewaluacja wewnętrzna (ang. /intrinsic/) polega na ewaluacji modelu języka jako takiego. + +** Podział zbioru + +Po pierwsze, jak zazwyczaj bywa w uczeniu maszynowym, powinniśmy +podzielić nasz zbiór danych. W modelowaniu języka zbiorem danych jest +zbiór tekstów w danym języku, czyli korpus języka. +Powinniśmy podzielić nasz korpus na część uczącą (/training set/) $C = \{w_1\ldots w_N\}$ i testową +(/test set/) $C' = \{w_1'\ldots w_{N'}'\}$. + +Warto też wydzielić osobny „deweloperski” zbiór testowy (/dev set/) — +do testowania na bieżąco, optymalizacji hiperparametrów itd. Zbiory +testowe nie muszą być bardzo duże, np. kilka tysięcy zdań może w zupełności wystarczyć. + +Tak podzielony korpus możemy traktować jako *wyzwanie modelowania języka*. + +*** Przykład wyzwania modelowania języka + +Wyzwanie +[[https://gonito.net/challenge/challenging-america-word-gap-prediction|Challenging America word-gap prediction]] +to wyzwanie modelowania amerykańskiej odmiany języka angielskiego, używanej w gazetach w XIX w. i I poł. XX w. + +#+BEGIN_SRC +$ git clone git://gonito.net/challenging-america-word-gap-prediction +$ cd challenging-america-word-gap-prediction +$ xzcat train/in.tsv.xz | wc +432022 123677147 836787912 +$ xzcat dev-0/in.tsv.xz | wc +10519 3076536 20650825 +$ xzcat test-A/in.tsv.xz | wc +7414 2105734 14268877 +#+END_SRC + +Dodajmy, że poszczególne zbiory zawierają teksty z różnych gazet. Jest +to właściwe podejście, jeśli chcemy mierzyć rzeczywistą skuteczność modeli języka. +(Teksty z jednej gazety mogłyby być zbyt proste). + +Oto przykład tekstu z wyzwania: + +#+BEGIN_SRC +$ xzcat train/in.tsv.xz | head -n 1 | fold +4e04702da929c78c52baf09c1851d3ff ST ChronAm 1919.6041095573314 +30.47547 -90.100911 came fiom the last place to this\nplace, and thi +s place is Where We\nWere, this is the first road I ever\nwas on where you can r +ide elsewhere\nfrom anywhere and be nowhere.\nHe says, while this train stops ev +ery-\nwhere, it never stops anywhere un-\nless its somewhere. Well, I says,\nI'm + glad to hear that, but, accord-\ning to your figures, I left myself\nwhere 1 wa +s, which is five miles near-\ner to myself than I was when we\nwere where we are + now.\nWe have now reached Slidell.\nThat's a fine place. The people\ndown there + remind me of bananas-\nthey come and go in bunches. 811-\ndell used to be noted + for her tough\npeople. Now she is noted for be,\ntough steaks. Well, I certainl +y got\none there. When the waiter brought\nit in it was so small I thought. It\n +was a crack in the plate. I skid,\nwaiter what else have you got? +He\nbrought m +e in two codfish and one\nsmelt. I said, waiter have you got\npigs feet? He said + no, rheumatism\nmakes me walk that way. I sald,\nhow is the pumpkin pie? +said\nit's all squash. The best I could get\nin that hotel was a soup sandwich.\ +nAfter the table battle the waiter and\nI signed an armistice. I then went\nover + to the hotel clerk and asked for\na room. He said with or without a\nbed? I sai +d, with a bed. He said,\nI don't think I 'have' a bed long\nenough for you. I sa +id, well, I'll\naddtwo feettoitwhenIgetinit.\nHe gave me a lovely room on the\nt +op floor. It was one of those rooms\nthat stands on each side. If you\nhappen to + get up in the middle of\nthe night you want to be sure and\nget up in the middl +e of the room.\nThat night I dreamt I was eating\nflannel cakes. When I woke up +half\nof the blanket was gone. I must\nhave got up on the wrong side of the\nbed +, for next morning I had an awful\nheadache. I told the manager about\nit. He sa +id, you have rheumatic\npains. I said, no, I think it is on,\nof those attic roo +m pains. I nad to\ngetupat5a.m.inthemorningso\nthey could use the sheet to set t +he\nbreakfast table. +#+END_SRC + +Zauważmy, że mamy nie tylko tekst, lecz również metadane (czas i +współrzędne geograficzne). W modelowaniu języka można uwzględnić +również takie dodatkowe parametry (np. prawdopodobieństwa wystąpienia +słowa /koronawirus/ wzrasta po roku 2019). + +Zauważmy również, że tekst zawiera błędy OCR-owe (np. /nad/ zamiast +/had/). Czy w takim razie jest to sensowne wyzwanie modelowania +języka? Tak, w niektórych przypadkach możemy chcieć modelować tekst z +uwzględnieniem „zaszumień” wprowadzanych przez ludzi bądź komputery +(czy II prawo termodynamiki!). + +** Co podlega ocenie? + +Ogólnie ocenie powinno podlegać prawdopodobieństwo $P_M(C')$, czyli +prawdopodobieństwo przypisane zbiorowi testowemu $C'$ przez model +(wyuczony na zbiorze $C$). + +Jeśli oceniamy przewidywania, które człowiek lub komputer czynią, to +im większe prawdopodobieństwo przypisane do tego, co miało miejsce, +tym lepiej. Zatem im wyższe $P_M(C')$, tym lepiej. + +Zazwyczaj będziemy rozbijali $P_M(C')$ na prawdopodobieństwa +przypisane do poszczególnych słów: + +$$P_M(w_1'\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\dots P_M(w'_{N'}|w'_1\dots w'_{N'-1}) = \prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1}).$$ + +** Entropia krzyżowa + +Można powiedzieć, że dobry model języka „wnosi” informację o języku. Jeśli zarówno +nadawca i odbiorca tekstu mają do dyspozycji ten sam model języka… + +[[./06_Ewaluacja/lm-communication.drawio.png]] + +… powinni być w stanie zaoszczędzić na długości komunikatu. + +W skrajnym przypadku, jeśli model jest pewny kolejnego słowa, tj. +$P_M(w'_i|w'_1\ldots w'_{i-1}) = 1$, wówczas w $i$-tym kroku w ogóle +nic nie trzeba przesyłać przez kanał komunikacji. Taka sytuacja może +realnie wystąpić, na przykład: z prawdopodobieństwem zbliżonym do 1 po wyrazie +/Hong/ wystąpi słowo /Kong/, a po wyrazie /przede/ — wyraz /wszystkim/. + +Model języka może pomóc również w mniej skrajnym przypadkach, np. +jeżeli na danej pozycji w tekście model redukuje cały słownik do dwóch +wyrazów z prawdopodobieństwem 1/2, wówczas nadawca może zakodować tę +pozycję za pomocą jednego bitu. + +*** Wzór na entropię krzyżową + +Przypomnijmy, że symbol o prawdopodobieństwie $p$ można zakodować za +pomocą (średnio) $-\log_2(p)$ bitów, tak więc jeśli nadawca i odbiorca dysponują +modelem $M$, wówczas można przesłać cały zbiór testowy $C$ za pomocą następującej liczby bitów: + +$$-\sum_{i=1}^{N'} log P_M(w'_i|w'_1\ldots w'_{i-1}).$$ + +Aby móc porównywać wyniki dla korpusów dla różnej długości, warto znormalizować +tę wartość, tzn. podzielić przez długość tekstu: + +$$H(M) = -\frac{\sum_{i=1}^{N'} log P_M(w'_i|w'_1\ldots w'_{i-1})}{N'}.$$ + +Tę wartość nazywamy *entropią krzyżową* modelu $M$. Entropia krzyżowa +mierzy naszą niewiedzę przy założeniu, że dysponujemy modelem $M$. Im niższa wartość +entropii krzyżowej, tym lepiej, im bowiem mniejsza nasza niewiedza, +tym lepiej. + +Entropią krzyżową jest często nazywaną funkcją *log loss*, zwłaszcza w +kontekście jej użycia jako funkcji straty przy uczeniu neuronowych modeli języka +(o których dowiemy się później). + +** Wiarygodność + +Innym sposobem mierzenia jakości modelu języka jest odwołanie się do +*wiarygodności* (ang. /likelihood/). Wiarygodność to +prawdopodobieństwo przypisane zdarzeniom niejako „po fakcie”. Jak już +wspomnieliśmy, im wyższe prawdopodobieństwo (wiarygodność) przypisane +testowej części korpusu, tym lepiej. Innymi słowy, jako metrykę ewaluacji +używać będziemy prawdopodobieństwa: + +$$P_M(w_1'\dots w_{N'}') = P_M(w'_1)P_M(w'_2|w'_1)\dots P_M(w'_{N'}|w'_1\dots w'_{N'-1}) = \prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1}),$$ + +z tym, że znowu warto znormalizować to prawdopodobieństwo względem rozmiaru korpusu. +Ze względu na to, że prawdopodobieństwa przemnażamy, zamiast średniej arytmetycznej +lepiej użyć *średniej geometrycznej*: + +$$\sqrt[N']{P_M(w_1'\dots w_{N'}')} = \sqrt[N']{\prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1})}.$$ + +*** Interpretacja wiarygodności + +Co ciekawe, wiarygodność jest używana jako metryka ewaluacji modeli +języka rzadziej niż entropia krzyżowa (log loss), mimo tego, że wydaje +się nieco łatwiejsza do interpretacji dla człowieka. Otóż wiarygodność +to *średnia geometryczna prawdopodobieństw przypisanych przez model języka do słów, które rzeczywiście wystąpiły*. + +*** Związek między wiarygodnością a entropią krzyżową + +Istnieje bardzo prosty związek między entropią krzyżową a wiarygodnością. +Otóż entropia krzyżowa to po prostu logarytm wiarygodności (z minusem): + +-$$\log_2\sqrt[N']{P_M(w_1'\dots w_N')} = -\frac{\log_2\prod_{i=1}^{N'} P_M(w'_i|w'_1\ldots w'_{i-1})}{N'} = -\frac{\sum_{i=1}^{N'} \log_2 P_M(w'_i|w'_1\ldots w'_{i-1})}{N'}.$$ + +*** „log-proby” + +W modelowaniu języka bardzo często używa się logarytmów prawdopodobieństw (z angielskiego skrótowo /log probs/), +zamiast wprost operować na prawdopodobieństwach: + +- dodawanie log probów jest tańsze obliczeniowo niż mnożenie prawdopodobieństw, +- bardzo małe prawdopodobieństwa znajdują się na granicy dokładności reprezentacji + liczb zmiennopozycyjnych, log proby są liczbami ujemnymi o „poręczniejszych” + rzędach wielkości. + +** Perplexity + +Tak naprawdę w literaturze przedmiotu na ogół używa się jeszcze innej metryki ewaluacji — +*perplexity*. Perplexity jest definiowane jako: + +$$\operatorname{PP}(M) = 2^{H(M)}.$$ + +Intuicyjnie można sobie wyobrazić, że perplexity to liczba możliwości +prognozowanych przez model z równym prawdopodobieństwem. Na przykład, +jeśli model przewiduje, że w danym miejscu tekstu może wystąpić z +równym prawdopodobieństwem jedno z 32 słów, wówczas (jeśli +rzeczywiście któreś z tych słów wystąpiło) entropia wynosi 5 bitów, a +perplexity — 32. + +Inaczej: perplexity to po prostu odwrotność wiarygodności: + +$$\operatorname{PP}(M) = \sqrt[N']{P_M(w_1'\dots w_N')}.$$ + +Perplexity zależy oczywiście od języka i modelu, ale typowe wartości +zazwyczaj zawierają się w przedziale 20-400. + +*** Perplexity — przykład + +Wyuczmy model języka przy użyciu gotowego narzędzia [[https://github.com/kpu/kenlm|KenLM]]. +KenLM to zaawansowane narzędzie do tworzenia n-gramowych modeli języka +(zaimplementowano w nim techniki wygładzania, które omówimy na kolejnym wykładzie). + +Wyuczmy na zbiorze uczącym wspomnianego wyzwania /Challenging America word-gap prediction/ +dwa modele, jeden 3-gramowy, drugi 4-gramowy. + +Z powodu, który za chwilę stanie się jasny, teksty w zbiorze uczącym musimy sobie „poskładać” z kilku „kawałków”. + +#+BEGIN_SRC +$ cd train +$ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s// /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | lmplz -o 3 --skip-symbols > model3.arpa +$ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s// /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | lmplz -o 4 --skip-symbols > model4.arpa +$ cd ../dev-0 +$ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s// /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | query ../train/model3.arpa +Perplexity including OOVs: 976.9905056314793 +Perplexity excluding OOVs: 616.5864921901557 +OOVs: 125276 +Tokens: 3452929 +$ xzcat in.tsv.xz | paste expected.tsv - | perl -ne 'chomp;s/\\n/ /g;s// /g;@f=split/\t/;print "$f[7] $f[0] $f[8]\n"' | query ../train/model4.arpa +Perplexity including OOVs: 888.698932611321 +Perplexity excluding OOVs: 559.1231510292068 +OOVs: 125276 +Tokens: 3452929 +#+END_SRC + +Jak widać model 4-gramowy jest lepszy (ma niższe perplexity) niż model 3-gramowy, przynajmniej +jeśli wierzyć raportowi programu KenLM. + +** Entropia krzyżowa, wiarygodność i perplexity — podsumowanie + +Trzy omawiane metryki ewaluacji modeli języka (entropia krzyżowa, +wiarygodność i perplexity) są ze sobą ściśle związane, w gruncie +rzeczy to po prostu jedna miara. + +|Metryka | Kierunek |Najlepsza wartość | Najgorsza wartość | +|------------------+----------------------+------------------+-------------------| +|entropia krzyżowa | im mniej, tym lepiej | 0 | $\infty$ | +|wiarygodność | im więcej, tym lepiej| 1 | 0 | +|perplexity | im mniej, tym lepiej | 1 | $\infty$ | + +*** Uwaga na zerowe prawdopodobieństwa + +Entropia krzyżowa, wiarygodność czy perplexity są bardzo czułe na zbyt +dużą pewność siebie. Wystarczy, że dla *jednej* pozycji w zbiorze +przypiszemy zerowe prawdopodobieństwo, wówczas wszystko „eksploduje”. +Perplexity i entropia krzyżowa „wybuchają” do nieskończoności, +wiarygodność spada do zera — bez względu na to, jak dobre są +przewidywania dotyczące innych pozycji w tekście! + +W przypadku wiarygodności wiąże się to z tym, że wiarygodność +definiujemy jako iloczyn prawdopodobieństwa, oczywiście wystarczy, że +jedna liczba w iloczynie była zerem, żeby iloczyn przyjął wartość +zero. Co więcej, nawet jeśli pominiemy taki skrajny przypadek, to +średnia geometryczna „ciągnie” w dół, bardzo niska wartość +prawdopodobieństwa przypisana do rzeczywistego słowa może drastycznie obniżyć +wartość wiarygodności (i podwyższyć perplexity). + + +*** Słowa spoza słownika + +Prostym sposobem przeciwdziałania zerowaniu/wybuchaniu metryk jest +przypisywanie każdemu możliwemu słowu przynajmniej niskiego +prawdopodobieństwa $\epsilon$. Niestety, zawsze może pojawić się +słowa, którego nie było w zbiorze uczącym — *słowo spoza słownika* +(/out-of-vocabulary word/, /OOV/). W takim przypadku znowu może +pojawić się zerowy/nieskończony wynik. + + +** Ewaluacja modeli języka w warunkach konkursu + +Jeśli używać tradycyjnych metryk ewaluacji modeli języka (perplexity +czy wiarygodność), bardzo łatwo można „oszukać” — wystarczy +zaraportować prawdopodobieństwo 1! Oczywiście to absurd, bo albo +wszystkim innym tekstom przypisujemy prawdopodobieństwo 0, albo — +jeśli „oszukańczy” system każdemu innemu tekstowi przypisze +prawdopodobieństwo 1 — nie mamy do czynienia z poprawnym rozkładem +prawdopodobieństwa. + +Co gorsza, nawet jeśli wykluczymy scenariusz świadomego oszustwa, +łatwo /samego siebie/ wprowadzić w błąd. Na przykład przez pomyłkę +można zwracać zawyżone prawdopodobieństwo (powiedzmy przemnożone przez 2). + +Te problemy stają się szczególnie dokuczliwe, jeśli organizujemy +wyzwanie, /konkurs/ modelowania języka, gdzie chcemy w sposób +obiektywny porównywać różne modele języka, tak aby uniknąć celowego +bądź nieświadomego zawyżania wyników. + +Przedstawimy teraz, w jaki sposób poradzono sobie z tym problemem +w wyzwaniu /Challenging America word-gap prediction/ + +*** Odgadywanie słowa w luce + +Po pierwsze, jaka sama nazwa wskazuje, w wyzwaniu /Challenging America +word-gap prediction/ zamiast zwracania prawdopodobieństwa dla całego +tekstu oczekuje się podania rozkładu prawdopodobieństwa dla brakującego słowa. + +Mianowicie, w każdym wierszu wejściu (plik ~in.tsv.xz~) w 7. i 8. polu +podany jest, odpowiednio, lewy i prawy kontekst słowa do odgadnięcia. +(W pozostałych polach znajdują się metadane, o których już wspomnieliśmy, +na razie nie będziemy ich wykorzystywać). +W pliku z oczekiwanym wyjściem (~expected.tsv~), w odpowiadającym +wierszu, podawane jest brakujące słowo. Oczywiście w ostatecznym +teście ~test-A~ plik ~expected.tsv~ jest niedostępny, ukryty przed uczestnikami konkursu. + +*** Zapis rozkładu prawdopodobieństwa + +Dla każdego wiersza wejścia podajemy rozkład prawdopodobieństwa dla +słowa w luce w formacie: + +#+BEGIN_SRC +wyraz1:prob1 wyraz2:prob2 ... wyrazN:probN :prob0 +#+END_SRC + +gdzie wyraz1, …, wyrazN to konkretne wyrazy, prob1, …, probN ich prawdopodobieństwa. +Można podać dowolną liczbę wyrazów. +Z kolei prob0 to „resztowe” prawdopodobieństwo przypisane do wszystkich pozostałych wyrazów, +prawdopodobieństwo to pozwala uniknąć problemów związanych ze słowami OOV, trzeba jeszcze tylko dokonać +modyfikacji metryki + +*** Metryka LikelihoodHashed + +Metryka LikelihoodHashed jest wariantem metryki Likelihood +(wiarygodności) opracowanym z myślą o wyzwaniach czy konkursach +modelowania języka. W tej metryce każde słowo wpada pseudolosowo do +jednego z $2^{10}=1024$ „kubełków”. Numer kubełka jest wyznaczony na +podstawie funkcji haszującej MurmurHash. + +Prawdopodobieństwa zwrócone przez ewaluowany model są sumowane w +każdym kubełku, następnie ewaluator zagląda do pliku `expected.tsv` i +uwzględnia prawdopodobieństwo z kubełka, do którego „wpada” oczekiwane +słowo. Oczywiście czasami więcej niż jedno słowo może wpaść do +kubełka, model mógł też „wrzucić” do kubełka tak naprawdę inne słowo +niż oczekiwane (przypadkiem oba słowa wpadają do jednego kubełka). +Tak więc LikelihoodHashed będzie nieco zawyżone w stosunku do Likelihood. + +Dlaczego więc taka komplikacja? Otóż LikelihoodHashed nie zakłada +żadnego słownika, znika problem słów OOV — prawdopodobieństwa resztowe prob0 +są rozkładane równomiernie między wszystkie 1024 kubełki. + +*** Alternatywne metryki + +LikelihoodHashed została zaimplementowana w narzędziu ewaluacyjnym +[[https://gitlab.com/filipg/geval|GEval]]. Są tam również dostępne +analogiczne warianty entropii krzyżowej (log loss) i perplexity +(LogLossHashed i PerplexityHashed). diff --git a/wyk/06_Ewaluacja/lm-communication.drawio b/wyk/06_Ewaluacja/lm-communication.drawio new file mode 100644 index 0000000..36a18c8 --- /dev/null +++ b/wyk/06_Ewaluacja/lm-communication.drawio @@ -0,0 +1 @@ +7VjbUtswEP0aP4bxJU7IIyQUhkJhYIbCEyPbii0iW0GWE4evr2TJVzmBcm1n4CFoj+S1tGePdhPDmcb5MQXL6JwEEBu2GeSGMzNsezK0+KcANhJwbVcCIUWBhKwauEZPUIGmQjMUwLS1kBGCGVq2QZ8kCfRZCwOUknV72Zzg9luXIIQacO0DrKO/UcAiie7b4xo/gSiMyjdbo4mciUG5WJ0kjUBA1g3IOTKcKSWEyVGcTyEWsSvjIp/7sWW22hiFCXvJA3R1NohuBmByf3NxZV/f0+Or04Gj9sY25YFhwM+vTEJZREKSAHxUo4eUZEkAhVeTW/WaM0KWHLQ4+AAZ2ygyQcYIhyIWYzULc8RuxeN7rrLulDMxnuVNY9MwLiFFMWSQlljC6Oa2adw1jcKR61amcDWuZrvO5iRhasf2kNsyMCIaW+OtoJRk1FerflL7Mb8zT7xgha5wkmWrU3tQ5i2gIWQ7yLCqrOBqgoTvjm74cxRiwNCqvQ+g8jqs1tXU84Fivz8Tdm1yBXCm3vQLBGDtAy1DeCIvxTCL8YHPCA/g4QpShrhozoAH8SVJEUMk4Us8whiJGwsOMArFBBOp0swJkjGMEjitZGxWHPSEXLiDeQPSo6Zm7aGS36Zjr2s1OwqKGkIemW+Pcy/J7rfiPl5xwxcqbviVihtqirsIPETo/y451/k6yfUG2tUCvTXAcwzzA9E2FEkbqOHMxyBNkd+OX1uVWwPXSWg9bI2wuD1hKbEXJ6V6wyVBfCf1RbjfYWXcCbcUlXqq2Ud0HLn2M46k6jRHBXXVsV/P5khjcwESYExdY1/gCxJnCVoA/wH13rSFXtpEAqUQn1MHaY90YhQE8iKGKXoCXuFPkL4UhyyO7R4a7qw3DXamZFdUVSOrXtLqFfvENjD3rLKlfm2GlEvIfJ7CD+Fs/98petbuotdf4Paczl+r4pmtgre13r2+nI31crarh3v2xvmc+jbWhHoME0iBqF/80JvYI1jX6NvrWnmX83S+5F/PVH0rimY7p1KZOTI/3qHwWWb7ZrRGeuEbfWavqff0hj3CTPVerbiPHjNSTgxkYA74Anu4zOtJPgrF//PSDd+V9CTxrWXVzzwh6XWEGLxegiLZ1xR0iPMkO2deBQB/ERacXcheReEBoIsL7gaxQnB7ptsG7QK1qh31XLMa0du/QXRZdXRWJz2sdsviu7Gq943frP41q8PJp7HKzfpXHllR65/KnKM/ \ No newline at end of file diff --git a/wyk/06_Ewaluacja/lm-communication.drawio.png b/wyk/06_Ewaluacja/lm-communication.drawio.png new file mode 100644 index 0000000..6b9a8d4 Binary files /dev/null and b/wyk/06_Ewaluacja/lm-communication.drawio.png differ