From ce903c6dd6728f2a0150c34ae96bd935de4cd102 Mon Sep 17 00:00:00 2001 From: Filip Gralinski Date: Wed, 16 Feb 2022 18:26:16 +0100 Subject: [PATCH] Aktualizacja 01 --- wyk/01_Jezyk.ipynb | 295 ++++++++++++++++++++++++++++++++++++++++++++- wyk/01_Jezyk.org | Bin 1658 -> 8862 bytes 2 files changed, 294 insertions(+), 1 deletion(-) diff --git a/wyk/01_Jezyk.ipynb b/wyk/01_Jezyk.ipynb index 1905717..2147737 100644 --- a/wyk/01_Jezyk.ipynb +++ b/wyk/01_Jezyk.ipynb @@ -1 +1,294 @@ -{"cells":[{"cell_type":"markdown","metadata":{},"source":["## Język — różne perspektywy\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Słowo wstępne\n\n"]},{"cell_type":"markdown","metadata":{},"source":["W matematyce istnieją dwa spojrzenia na rzeczywistość: ciągłe i dyskretne.\n\nOtaczająca nas rzeczywistość fizyczna jest z natury ciągła\n(przynajmniej jeśli nie operujemy w mikroskali), lecz język\njest dyskretnym wyłomem w ciągłej rzeczywistości.\n\n"]},{"cell_type":"markdown","metadata":{},"source":["### Lingwistyka matematyczna\n\n"]},{"cell_type":"markdown","metadata":{},"source":["Przypomnijmy sobie definicję języka przyjętą w lingwistyce\nmatematycznej, w kontekście na przykład teorii.\n\n****Alfabetem**** nazywamy skończony zbiór symboli.\n\n****Łańcuchem**** nad alfabetem $\\Sigma$ nazywamy dowolny, skończony,\nciąg złożony z symboli z $\\Sigma$\n\n****Językiem**** nazywamy dowolny, skończony bądź nieskończony, zbiór łańcuchów.\n\nW tym formalnym ujęciu językami są na przykład następujące zbiory:\n\n- ${\\mathit{poniedziałek},\\mathit{wtorek},\\mathit{środa},\\mathit{czwartek},\\mathit{piątek},\\mathit{sobota},\\mathit{niedziela}$\n- ${\\mathit{ab},\\mathit{abb},\\mathit{abbb},\\mathit{abbbb},\\ldots}$\n\nTo podejście, z jednej strony oczywiście nie do końca się potocznym\nrozumieniem słowa *język*, z drugiej kojarzy nam się z takimi\nnarzędziami informatyki jak wyrażenia regularne, automaty skończenie\nstanowe czy gramatyki języków programowania.\n\n"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"abbb"}],"source":["import regex as re\nrx = re.compile(r'ab+')\n\nrx.search('żabbba').group(0)"]},{"cell_type":"code","execution_count":1,"metadata":{},"outputs":[{"name":"stdout","output_type":"stream","text":"abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb"}],"source":["import rstr\n\nrstr.xeger(r'ab+')"]}],"metadata":{"org":null,"kernelspec":{"display_name":"Python 3","language":"python","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.5.2"}},"nbformat":4,"nbformat_minor":0} \ No newline at end of file +{ + "cells": [ + { + "attachments": {}, + "cell_type": "markdown", + "id": "1de4614f", + "metadata": {}, + "source": [ + "# Język — różne perspektywy\n", + "\n", + "## Słowo wstępne\n", + "\n", + "W matematyce istnieją dwa spojrzenia na rzeczywistość: ciągłe i\n", + "dyskretne.\n", + "\n", + "Otaczająca nas rzeczywistość fizyczna jest z natury ciągła (przynajmniej\n", + "jeśli nie operujemy w mikroskali), lecz język jest dyskretnym wyłomem w\n", + "ciągłej rzeczywistości.\n", + "\n", + "## Lingwistyka matematyczna\n", + "\n", + "Przypomnijmy sobie definicję języka przyjętą w lingwistyce\n", + "matematycznej, w kontekście na przykład teorii.\n", + "\n", + "****Alfabetem**** nazywamy skończony zbiór symboli.\n", + "\n", + "****Łańcuchem**** nad alfabetem $\\Sigma$ nazywamy dowolny, skończony,\n", + "ciąg złożony z symboli z $\\Sigma$\n", + "\n", + "****Językiem**** nazywamy dowolny, skończony bądź nieskończony, zbiór\n", + "łańcuchów.\n", + "\n", + "W tym formalnym ujęciu językami są na przykład następujące zbiory:\n", + "\n", + "- ${\\mathit{poniedziałek},\\mathit{wtorek},\\mathit{środa},\\mathit{czwartek},\\mathit{piątek},\\mathit{sobota},\\mathit{niedziela}$\n", + "- ${\\mathit{ab},\\mathit{abb},\\mathit{abbb},\\mathit{abbbb},\\ldots}$\n", + "\n", + "To podejście, z jednej strony oczywiście nie do końca się potocznym\n", + "rozumieniem słowa *język*, z drugiej kojarzy nam się z takimi\n", + "narzędziami informatyki jak wyrażenia regularne, automaty skończenie\n", + "stanowe czy gramatyki języków programowania.\n", + "\n", + "``` ipython\n", + "import regex as re\n", + "rx = re.compile(r'ab+')\n", + "\n", + "rx.search('żabbba').group(0)\n", + "```\n", + "\n", + "abbb\n", + "\n", + "``` ipython\n", + "import rstr\n", + "\n", + "rstr.xeger(r'ab+')\n", + "```\n", + "\n", + "abbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb\n", + "\n", + "## Ujęcie probabilistyczne\n", + "\n", + "Na tym wykładzie przyjmiemy inną perspektywą, częściowo ciągłą, opartą\n", + "na probabilistyce. Język będziemy definiować poprzez ****rozkład\n", + "prawdopodobieństwa****: sensownym wypowiedziom czy tekstom będziemy\n", + "przypisywać stosunkowe wysokie prawdopodobieństwo, „ułomnym” tekstom —\n", + "niższe (być może zerowe).\n", + "\n", + "Na ogół nie mamy jednak do czynienia z językiem jako takim tylko z jego\n", + "przybliżeniami, ****modelami**** (model może być lepszy lub gorszy, ale\n", + "przynajmniej powinien być użyteczny…). Formalnie $M$ nazywamy modelem\n", + "języka (nad skończonym alfabetem $Sigma$), jeśli dyskretny określa\n", + "rozkład prawdopodobieństwa $P_M$:\n", + "\n", + "$$P_M \\colon \\Sigma^{*} \\rightarrow [0,1].$$\n", + "\n", + "Rzecz jasna, skoro mamy do czynienia z rozkładem prawdopodobieństwa, to:\n", + "\n", + "$$\\Sum_{\\alpha \\in \\Sigma^{*}} P_M(\\alpha) = 1$$\n", + "\n", + "Jeśli $M$ ma być modelem języka polskiego, oczekiwalibyśmy, że dla\n", + "napisów:\n", + "\n", + "- $z_1$ — *W tym stanie rzeczy pan Ignacy coraz częściej myślał o\n", + " Wokulskim.*\n", + "- $z_2$ — *Po wypełniony zbiornik pełny i należne kwotę, usłyszała w\n", + " attendant*\n", + "- $z_3$ — *xxxxyźźźźźit backspace hoooooooooop x y z*\n", + "\n", + "zachodzić będzie:\n", + "\n", + "$$ P_M(z_1) > P_M(z_2) > P_M(z_3). $$\n", + "\n", + "Moglibyśmy sprowadzić tę definicję języka do tej „dyskretnej”, tzn.\n", + "moglibyśmy przyjąć, że łańcuch $\\alpha$ należy do języka wyznaczonego\n", + "przez model $M$, jeśli $P_M(\\alpha) > 0$.\n", + "\n", + "****Pytanie**** Czy moglibyśmy w ten sposób język nieskończony? Czy może\n", + "istnieć dyskretny rozkład prawdopodobieństwa dla nieskończonego zbioru?\n", + "\n", + "## Co jest symbolem?\n", + "\n", + "Model języka daje rozkład prawdopodobieństwa nad zbiorem łańcuchów\n", + "opartym na skończonym alfabecie, tj. zbiorze symboli. W praktyce alfabet\n", + "nie musi być zgodny z potocznym czy językoznawczym rozumieniem tego\n", + "słowa. To znaczy alfabet może być zbiorem znaków (liter), ale modelować\n", + "język możemy też przyjmując inny typ symboli: sylaby, morfemy (cząstki\n", + "wyrazów) czy po prostu całe wyrazy.\n", + "\n", + "Powinniśmy przy tym pamiętać, że, koniec końców, w pamięci komputera\n", + "wszelkiego rodzaju łańcuchy są zapisywane jako ciągi zer i jedynek —\n", + "bitów. Omówmy pokrótce techniczną stronę modelowania języka.\n", + "\n", + "# Kodowanie znaków\n", + "\n", + "## Cóż może być prostszego od pliku tekstowego?\n", + "\n", + "``` example\n", + "Ala ma kota.\n", + "```\n", + "\n", + "Komputer nic nie wie o literach.\n", + "\n", + "… w rzeczywistości operuje tylko na liczbach …\n", + "\n", + "… czy raczej na zerach i jedynkach …\n", + "\n", + "… a tak naprawdę na ciągłym sygnale elektrycznym …\n", + "\n", + "![](attachment:./digitalsignal.jpg)\n", + "\n", + "… zera i jedynki są w naszej głowie …\n", + "\n", + "… co jest dziwne, *naprawdę* dziwne …\n", + "\n", + "… ale nikt normalny się tym nie przejmuje.\n", + "\n", + "## Jak zakodować literę?\n", + "\n", + "Zakodowanie pikseli składających się na kształtu (****glyfu****) litery\n", + "A *oczywiście* nie jest dobrym pomysłem.\n", + "\n", + "![](attachment:./raster.png)\n", + "\n", + "Nie, potrzebujemy *arbitralnego* kodowania dla wszystkich możliwych\n", + "kształtów litery A (*w naszych głowach*): A, $\\mathcal{A}$,\n", + "$\\mathbb{A}$, $\\mathfrak{A}$ powinny otrzymać ten sam kod, powiedzmy 65\n", + "(binarnie: 1000001).\n", + "\n", + "## ASCII\n", + "\n", + "ASCII to 7-bitowy (****nie**** 8-bitowy!) system kodowania znaków.\n", + "\n", + "``` ipython\n", + "for code in range(0, 128):\n", + " print(f'{code}: {chr(code)}')\n", + "```\n", + "\n", + "0: \u0000 1: \u0001 2: \u0002 3: \u0003 4: \u0004 5: \u0005 6: \u0006 7: \u0007 8: \b 9: 10:\n", + "\n", + "11: \u000b", + " 12: \f", + " 13: 14: \u000e 15: \u000f 16: \u0010 17: \u0011 18: \u0012 19: \u0013 20: \u0014 21: \u0015 22: \u0016\n", + "23: \u0017 24: \u0018 25: \u0019 26: \u001a 27: \u001b 28: \u001c", + " 29: \u001d", + " 30: \u001e", + " 31: \u001f 32: 33: ! 34: \"\n", + "35: \\# 36: \\$ 37: % 38: & 39: ' 40: ( 41: ) 42: \\* 43: + 44: , 45: - 46:\n", + ". 47: / 48: 0 49: 1 50: 2 51: 3 52: 4 53: 5 54: 6 55: 7 56: 8 57: 9 58:\n", + ": 59: ; 60: \\< 61: = 62: \\> 63: ? 64: @ 65: A 66: B 67: C 68: D 69: E\n", + "70: F 71: G 72: H 73: I 74: J 75: K 76: L 77: M 78: N 79: O 80: P 81: Q\n", + "82: R 83: S 84: T 85: U 86: V 87: W 88: X 89: Y 90: Z 91: \\[ 92: \\\\ 93:\n", + "\\] 94: ^ 95: \\_ 96: \\` 97: a 98: b 99: c 100: d 101: e 102: f 103: g\n", + "104: h 105: i 106: j 107: k 108: l 109: m 110: n 111: o 112: p 113: q\n", + "114: r 115: s 116: t 117: u 118: v 119: w 120: x 121: y 122: z 123: {\n", + "124: \\| 125: } 126: \\~ 127: \n", + "\n", + "## Jak zejść na poziom bitów?\n", + "\n", + "### Linux — wiersz poleceń\n", + "\n", + "Linux command line:\n", + "\n", + "``` example\n", + "$ echo 'Ala ma kota' > file.txt\n", + "$ hexdump -C file.txt\n", + "00000000 41 6c 61 20 6d 61 20 6b 6f 74 61 0a |Ala ma kota.|\n", + "0000000c\n", + "```\n", + "\n", + "### Edytor tekstu (Emacs)\n", + "\n", + "![](attachment:./hexl-mode.png)\n", + "\n", + "### Uwaga!\n", + "\n", + "- kiedy dzieje się coś dziwnego, sprawdź co tak *naprawdę* jest w\n", + " pliku\n", + "- ASCII jest 7-bitowym kodowaniem (128 znaków)\n", + " - choć zazwyczaj uzupełnionym (ang. *padded*) do 8 bitów\n", + " - nie mów plik *plik ASCII*, kiedy masz na myśli *prosty/czysty\n", + " plik tekstowy* (ang. *plain text file*)\n", + "\n", + "## Higiena plików tekstowych\n", + "\n", + "### Piekło końca wiersza\n", + "\n", + "![](attachment:./dante.jpg)\n", + "\n", + "Więcej na\n", + "\n", + "\n", + "### Dobre rady\n", + "\n", + "- żadnych niepotrzebnych spacji na końcu wiersza\n", + "\n", + "- żadnych niepotrzebnych pustych wierszy na końcu pliku\n", + "\n", + "- … ale ostatni wiersz powinien zakończyć się znakiem końca wiersza\n", + "\n", + "- nie używać znaków tabulacji (zamiast tego 4 spacje)\n", + "\n", + " - wyjątek: pliki TSV\n", + " - wyjątek: pliki Makefile\n", + "\n", + "- uwaga na niestandardowe spacje i dziwne znaki o zerowej długości\n", + "\n", + "## Unikod\n", + "\n", + "ASCII obejmuje 128 znaków: litery alfabetu łacińskiego (właściwie\n", + "angielskiego), cyfry, znaki interpunkcyjne, znaki specjalne itd.\n", + "\n", + "Co z pozostałymi znakami? Polskimi ogonkami, czeskimi haczykami,\n", + "francuskimi akcentami, cyrylicą, koreańskim alfabetem, chińskimi\n", + "znakami, rongorongo?\n", + "\n", + "워싱턴, 부산, 삼성\n", + "\n", + "Rozwiązaniem jest Unikod (ang. *Unicode*) system, który przypisuje\n", + "znakom używanym przez ludzkość liczby (kody, ang. *code points*).\n", + "\n", + "| Znak | Kod ASCII | Kod Unikodowy |\n", + "|-------|-----------|---------------|\n", + "| 9 | 57 | 57 |\n", + "| a | 97 | 97 |\n", + "| ą | \\- | 261 |\n", + "| ł | \\- | 322 |\n", + "| \\$ℵ\\$ | \\- | 1488 |\n", + "| ặ | \\- | 7861 |\n", + "| ☣ | \\- | 9763 |\n", + "| 😇 | \\- | 128519 |\n", + "\n", + "## UTF-8\n", + "\n", + "Kody znaków są pojęciem abstrakcyjnym. Potrzebujemy konkretnego\n", + "****kodowania**** by zamienić kody w sekwencję bajtów.\n", + "Najpopularniejszym kodowaniem jest UTF-8.\n", + "\n", + "W kodowaniu UTF-8 znaki zapisywane za pomocą 1, 2, 3 lub 4 bajtów.\n", + "\n", + "| Znak | Kod Unikodowy |\n", + "|-------|---------------|\n", + "| 9 | 57 |\n", + "| a | 97 |\n", + "| ą | 261 |\n", + "| ł | 322 |\n", + "| \\$ℵ\\$ | 1488 |\n", + "| ặ | 7861 |\n", + "| ☣ | 9763 |\n", + "| 😇 | 128519 |" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3 (ipykernel)", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.2" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/wyk/01_Jezyk.org b/wyk/01_Jezyk.org index 8f55daa4fd724a468b86b3749d92895c5d276b19..9409664385c8a10645510fc0c78e22b0e55c3916 100644 GIT binary patch literal 8862 zcmcJUTXP#ncE@v1s*}q7er;!&h=f3Z07(!;cJ0Wryer$16-!!eYCMCkiC?2s2vz@ z>2vv?GpeHBID49BWBus|-`4RbA1$7To}PMfGWEu3HqTV0qHixAMe|6{ll1KAH1w3Z zrvsCE{L6Zt_LDU9z0uiY-JctsOruepd!cW1Xf#*7JexBmT0A>@($PKt?D1gn2rAvr zl5y;%p;uGt?bP&g1CO4NB^T-Rv7cwX9EKw=Np;SgbQWhNH={PEah`={6o@2DT0EQh znrj`gmD$J(GCkLUKaQhhY$pCzRZkF1kL=c!Wm<}p1$v&b;lSgfTmh!%w$k$v8qK`r zhXdJNHa07jAg5Bd5NH}9&xo~?sEaIp@7NFh9*Y(W8!cjUpQ60Eo|Mdbo?7ZR54};9 zm*Xf*z478%4@T%g2*-;@rms^kihU=}mC3Q`dK?Urg$BJFS$iBUKJ4XDnCZOhfAUeR zlPu^)6GyW6mf`KJH!O(y+LTQ6#?ftm5SWb>uRdll3A5@N)2gyZs&iDfcy3oI7vP*q z7NRU?Xa0HVK8K_3o;~g_K9=KK$zCmmXU|UHPd=J+2KRKzfgMM2U=S?OGqloF=Kb66 zT-E+GONUXYJBgPhJ{Lh&UUj^aX%wf4<~WAB6MM;Q!d-0U?9I%*SZVDCGDRbyccLXI zc|43y^jEm5^`cD$r()=*QsaHwr>~R(QID0B~Es3f~GV(Z@ z;*n>MF~{?Zc(pR`b*+^OTNj_Pq_Zb@0_%CXu2k>@8)(%OyXZ%Fmjv_0he5ptG3?v&!IKTn% zdmIY?l004JLGg9GGjcAB{wG}LWXAzP1;M)$RuhWAucDZMI5XjzbKJDo#rjs1i8oE~ z*vYJ`2T{yrRhfx9#ATWmZHWllQp^_5vy`M9W}klW{jHjQ-Nkg2vT+3(%h_&fnZ4s3kvichi`-sj0<1~9wWz%SqU~B_Si)inS{W*}R zn=PINWOlKj{>0!g*eLlhw}(`C%sHO3rxrJh}>P( zGjdXvaOXHlc^!^52NL8s!uel)|JXlZy4dK z_)_7sZ2#yzt7lZOrC%;Co2$!RZ1w1UrEWxnQj36KOu{%u$oqN74{JzK558Smr8mO6 zIrluQVdX1kHt?N2K6~O0X9<7+SJo=TIYd3y!b-Q8XP{6)eH^ny9YUG&Q4C}04`S9! z`*~UKY*drBf zuw&8L>=lc(uSWPW=-$H&^IGY@`pLJ#0tw2r(5a~BUd&}5W-0lpN%Cz zZjNPCbEHJu56EA0 zwA>dtEt{AwAv=iTW66x0WY@<@3h)x-mb2KF-N#fCLzJX5-4m$n-ey?QEeY);Cqjx{ z$|mzE$%0yk)MqWZDm9Jo^&A3)r<6HvPS59IFrBd-qvj;IiH%q2sZW(STb&(P5hRdH ztRkmUx!U|?^S>{Nkk~=S%R_60s#bWl4_mioq0;_ynZ}ZGswfa)nW8M=s zNfaCsdA{$61X;(#3ZfD3QJTCh^fo>>6HEqnATvm=L_th1pcXcqWMlwRyf>k75DSds zp%9PZL}4*isu$O$q1Dt)2|-k62;Ft6Mp%`O^}nkDqghJiS(Sm5uE3f;2`$7=!hyHBQ`L=T zd#gjur!gcyOgE1&J&-vMJNiLy7;nn;)F6I*jgJ0t)$Hh>P`e%dlWMP{ ze@g9l^iQi+NB@jE=;)tS?T-FAb=Xmj9S}(af}d9nD1JdTc6kWJFRBJ4zoZ(_{IY65 z^ed_X)vv0?VMqU(YO>O=t0t7cp_)+srfRa-Z>c7hqkHqq1{#c(C(>yX!q4Vv@Nv{ z?Sa~dwypM|JyiS9cGNz!f2LZ{ep$7k{fcTq`?6|5`-*Bo`{$|!?G@F6_Ept__Nr<@ z`N08LwifL zq5TWhhV~uRhW55gZ{4E1q{%)-;V1u#rum~f>)oGObQbpV3ZLy$jyv|Mt_TSb77V1kT(b1(W zSBjo2ujtPNChQaFLJyZILqeHQH#7-9(wEk9?j_LuF)f{1dXlOQJ@iicvtX*Xudbfj zXvH6`_Zqs@)2)VX?&wy(yy$A(I@Sk!a=&8;4ySAUYp1H9?_JF96++v!enxxIAp|nW zwZQZe+DeiO5M{D0XrxRBGXL(}49rW?w*(vY0snLuz`r&b_2{-22~ny%$`KMaE!Cc_ z?a!r6n}fhz0#D%OVy}HzM&DJ8CERWj_)6HbMf}^=sF7pJO-_yhoatFUTb6RnCt%ie zeQNrBuV3GiBDh_gq@|X$DqzeCz&yloGSFsp`wGAUVg?dD+SG8mNF`#`H5eVcLn55oBo8RiFTSE2Zp6%44#ubj1s2K;|!|na-ri zHY}z}>$W6zHUO#MGJ#KQ!0>HnE$Awh&AHT<@Ix0GAMm}R=d#5Ilk7OA)8b?RJb3YxHefFs38ZyT z`TEuy3AWRI+6U24`$~w*bD}!xoanq;LKBXx?TJ(mlurd*YcQYS|1AdgB!p71NrN&mv`LDG|2+RtHX2C zio0SOW#@9kCO^CExp}+IrhQ}iNoUBL4mUnKt+Cf`yLm|W?;rnL zNh9Mqeh2NfbwB;iKYiiE!-LkYdkM$?`p54)DQ;vq#}V(@Z&{RanKKcC!4A)&n z>y>*r5rMf@h*NDD3NUtzKcBS~aowr(nj;k)_nc=fIW`>#k3oTztcd$TNV>>Pt|_|&zPc7 delta 7 OcmbQ|`io~n6&nB!69XCm