From df77177f5bd6ecc0b035be7f6a290457ced412e9 Mon Sep 17 00:00:00 2001 From: kt63707 Date: Thu, 21 Nov 2024 09:09:54 +0100 Subject: [PATCH] Upload files to "Przewodnik_studenta_lab" --- .../04LRAP_przewodnik.ipynb | 491 ++++++++++++++++++ 1 file changed, 491 insertions(+) create mode 100644 Przewodnik_studenta_lab/04LRAP_przewodnik.ipynb diff --git a/Przewodnik_studenta_lab/04LRAP_przewodnik.ipynb b/Przewodnik_studenta_lab/04LRAP_przewodnik.ipynb new file mode 100644 index 0000000..cae73fb --- /dev/null +++ b/Przewodnik_studenta_lab/04LRAP_przewodnik.ipynb @@ -0,0 +1,491 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "1e9456", + "metadata": { + "collapsed": false + }, + "source": [ + "# Generowanie zmiennych losowych o dowolnym rozkładzie w Pythonie. Dyskretne zmienne losowe wielowymiarowe w Pythonie." + ] + }, + { + "cell_type": "markdown", + "id": "382d67", + "metadata": { + "collapsed": false + }, + "source": [ + "## Metoda odwracania dystrybuanty\n", + "\n", + "Istnieje wiele różnych metod generowania liczb losowych o zadanym rozkładzie prawdopodobieństwa. Dzisiaj omówimy jedną z nich - będzie to metoda odwracania dystrybuanty." + ] + }, + { + "cell_type": "markdown", + "id": "dcfe80", + "metadata": { + "collapsed": false + }, + "source": [ + "### Dystrybuanta i dystrybuanta empiryczna\n", + "\n", + "Przypomnijmy najpierw, że dystrybuanta jest jedną z funkcji, za pomocą której można zdefiniować rozkład prawdopodobieństwa zmiennej losowej. Zgodnie z definicją dystrybuantę zmiennej losowej $X$ liczymy ze wzoru:\n", + "\n", + "$$ F_{X}(x)=\\mathbb{P}(X\\le x) = \\mathbb{P}(X^{-1}\\left((-\\infty,x]\\right)),$$\n", + "\n", + "dla dowolnego $ x\\in\\mathbb{R}$. Ponadto, jeśli zmienna losowa $X$ jest dyskretna, a jej zbiór atomów to $A=\\{a_1,a_2,\\ldots\\}$, to \n", + "\n", + "$$F_{X}(x)=\\sum_{a\\in A, a\\le x}\\mathbb{P}(X=a). $$\n", + "\n", + "Chcąc zbadać, jak wygląda rozkład pewnej zmiennej losowej na podstawie próbki, możemy spróbować oszacować właśnie dystrybuantę. W tym celu definiujemy tzw. **dystrbuantę empiryczną**.\n", + "\n", + "**Definicja (dystrybuanta empiryczna)**\n", + "\n", + "Niech $x_1,x_2,\\ldots, x_n$ będzie próbką wylosowaną z rozkładu o dystrybuancie $F$. Funkcję $\\hat{F}:\\mathbb{R}\\rightarrow [0,1]$ zdefiniowaną wzorem\n", + "\n", + "$$\\hat{F}(x)=\\frac{1}{n}\\sum_{i=1}^n\\pmb{1}_{(-\\infty,x]}(x_i)=\\frac{\\#\\{i:x_i\\leq x\\}}{n}$$\n", + "\n", + "nazywamy **dystrybuantą empiryczną**.\n", + "\n", + "Innymi słowy, chcąc wyznaczyć wartość dystrybuanty empirycznej w punkcie $x$ sprawdzamy, ile wyników z naszej próbki jest mniejszych lub równych od $x$ i porównujemy tę liczbę z całkowitą liczbą otrzymanych wyników.\n", + "\n", + "Chcąc wyznaczyć dystrybuantę empiryczną w Pythonie, możemy posłużyć się funkcją `ecdf(x)` z pakietu `stats` z biblioteki `scipy`. Argumentem tej funkcji jest wektor próbek. Załóżmy, że `f` jest dystrybuantą empiryczną wygenerowaną za pomocą polecenia `ecdf(x)`. Wówczas możemy badać jej właściwości za pomocą następujących poleceń:\n", + "\n", + "* `f.cdf.quantiles` - zwraca wektor unikalnych wartości w próbce,\n", + "* `f.cdf.probabilities` - zwraca wektor skumulowanych prawdopodobieństw związanych z wartościami z poprzedniego podpunktu,\n", + "* `f.cdf.evaluate(t)` - zwraca wartość dystrybuanty empirycznej w punkcie $t$,\n", + "* `f.cdf.plot(ax)` - rysuje wykres dystrybuanty empirycznej na zadanych osiach.\n", + "\n", + "**Przykład 1**\n", + "\n", + "Załóżmy, że w $10$ rzutach czworościenną kostką do gry otrzymaliśmy następujące wyniki: $1, 1, 4, 1, 3, 2, 2, 1, 4, 4$. Na podstawie otrzymanych wyników wyznacz dystrybuantę empiryczną zmiennej losowej $X$ oznaczającej liczbę wyrzuconych oczek w rzucie czworościenną kostką. Następnie zbadaj własności tej dystrybuanty i zwizualizuj ją na wykresie." + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "9e518c", + "metadata": { + "collapsed": false + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Wartości otzymane w eksperymencie: [1. 2. 3. 4.]\n", + "Skumulowane prawdopodobieństwa dla otrzymanych wartości: [0.4 0.6 0.7 1. ]\n", + "Wartości dystrybuany empirycznej w punktach 0, 2, 3.5: 0.0 0.7 1.0\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "execution_count": 3, + "metadata": { + "image/png": { + "height": 440, + "width": 720 + }, + "needs_background": "light" + }, + "output_type": "execute_result" + } + ], + "source": [ + "from scipy import stats\n", + "import matplotlib.pyplot as plt\n", + "\n", + "# Wprowadzamy dane z zadania i generujemy dystrybuantę empiryczną\n", + "x = [1, 1, 4, 1, 2, 2, 3, 1, 4, 4]\n", + "f = stats.ecdf(x)\n", + "\n", + "# Badamy własności otrzymanej funkcji\n", + "x = f.cdf.quantiles\n", + "print('Wartości otzymane w eksperymencie:', x)\n", + "p = f.cdf.probabilities\n", + "print('Skumulowane prawdopodobieństwa dla otrzymanych wartości:', p)\n", + "print('Wartości dystrybuany empirycznej w punktach 0, 2, 3.5:', f.cdf.evaluate(0),f.cdf.evaluate(3),f.cdf.evaluate(5))\n", + "\n", + "# Rysujemy wykres dystrybuanty empirycznej\n", + "os = plt.subplot()\n", + "f.cdf.plot(os)\n", + "plt.title('Dystrybuanta empiryczna')\n", + "plt.xlabel('x')\n", + "plt.ylabel('F(x)')\n", + "plt.xticks(x)\n", + "plt.yticks(p)\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "39c337", + "metadata": { + "collapsed": false + }, + "source": [ + "### Dystrybuanta pseudoodwrotna\n", + "\n", + "Metoda odwracania dystrybuanty opiera się na następującym twierdzeniu:\n", + "\n", + "**Twierdzenie (metoda odwracania dystrybuanty)**\n", + "\n", + "Niech $F$ będzie dystrybuantą pewnej zmiennej losowej, a $U$ będzie zmienną losową o rozkładzie jednostajnym na odcinku $(0,1)$. Jeśli $F^{-1}$ jest funkcją odwrotną do $F$, to funkcja $X=F^{-1}(U)$ jest zmienną losową o dystrybuancie $F$.\n", + "\n", + "Niestety, nie wszystkie zmienne losowe mają dystrybuanty, które są funkcjami odwracalnymi. Dlatego w praktyce będziemy korzystać z tzw. dystrybuanty pseudoodwrotnej, którą możemy zdefiniować dla dowolnej zmiennej losowej.\n", + "\n", + "**Definicja (dystrybuanta pseudoodwrotna)**\n", + "\n", + "Niech $F:\\mathbb{R}\\rightarrow [0,1]$ będzie dystrybuantą zmiennej losowej $X$. Wtedy funkcję $F^-:(0,1)\\rightarrow \\mathbb{R}$ definiowaną wzorem\n", + "\n", + "$$F^-(u)=\\inf\\{x:F(x)\\geq u\\}$$\n", + "\n", + "nazywamy **dystrybuantą pseudoodwrotną**.\n", + "\n", + "Jeśli $F$ jest dystrybuantą, która posiada funkcję odwrotną $F^{-1}$, to $F^-=F^{-1}$.\n", + "\n", + "**Twierdzenie (ogólna metoda odwracania dystrybuanty)**\n", + "\n", + "Niech $F$ będzie dystrybuantą pewnej zmiennej losowej, a $U$ będzie zmienną losową o rozkładzie jednostajnym na odcinku $(0,1)$. Jeśli $F^-$ jest dystrybuantą pseudoodwrotną do $F$, to funkcja $X=F^-(U)$ jest zmienną losową o dystrybuancie $F$.\n", + "\n", + "Powyższe twierdzenia stanowią podstawę następującego algorytmu, który pozwala generować zmienne losowe o dowolnym rozkładzie.\n", + "\n", + "**Algorytm (Generowanie zmiennych losowych przez odwracanie dystrybuanty)**\n", + "\n", + "1. Generujemy $n$ liczb pseudolosowych $u_1,u_2,\\ldots,u_n$ z rozkładu jednostajnego na odcinku $(0,1)$.\n", + "2. Obliczamy $x_i=F^-(u_i)$ dla $i=1,2,\\ldots,n$.\n", + "\n", + "Przypomnijmy, że do generowania liczb pseudolosowych o rozkładzie jednostajnym $U(0,1)$ możemy użyć polecenia `uniform.rvs(size=n)` z pakietu `scipy.stats`, gdzie $n$ jest rozmiarem próbki, którą chcemy otrzymać.\n", + "\n", + "**Przykład 2**\n", + "\n", + " Niech $X$ będzie zmienną losową o dystrybuancie $F:\\mathbb{R}\\rightarrow [0,1]$ danej wzorem:\n", + " \n", + " $$F(x)=\\begin{cases} 0, &\\text{ dla }x<0,\\\\\n", + "x^2, &\\text{ dla } x\\in[0,1],\\\\\n", + "1, &\\text{ dla } x>1.\\end{cases}$$\n", + "\n", + "Wygeneruj $100$ liczb zgodnie z rozkładem zmiennej losowej $X$. Następnie wyznacz dystrybuantę empiryczną na podstawie otrzymanej próbki i porównaj ją z rzeczywistą dystrybuantą zmiennej losowej $X$.\n", + "\n", + "Wyznaczmy najpierw dystrybuantę pseudoodwrotną do dystrybuanty $F$. Niech $u\\in (0,1)$. Wówczas:\n", + "\n", + "$$F^-(u)=\\inf\\{x:F(x)\\geq u\\}=\\inf\\{x:x>0\\wedge x^2\\geq u\\}=\\sqrt{u}.$$\n", + "\n", + "Zobaczmy, jak możemy wykorzystać dystrybuantę pseudoodwrotną do generowania liczb o rozkładzie zgodnym z rozkładem zmiennej losowej $X$." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "ad3784", + "metadata": { + "collapsed": false + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "execution_count": 4, + "metadata": { + "image/png": { + "height": 441, + "width": 707 + }, + "needs_background": "light" + }, + "output_type": "execute_result" + } + ], + "source": [ + "import numpy as np\n", + "\n", + "# Definiujemy dystrybuantę pseudoodwrotną\n", + "def F_pseudoinverse(u):\n", + " x = [i**(1/2) for i in u]\n", + " return x\n", + "\n", + "# Generujemy 100 liczb o rozkładzie zgodnym z rozkładem zmiennej losowej X, używając dystrybuanty pseudoodwrotnej\n", + "u = stats.uniform.rvs(size=100)\n", + "probki = F_pseudoinverse(u)\n", + "\n", + "# Wyznaczamy dystrybuantę empiryczną na podstawie wygenerowanej próbki\n", + "F_empirical = stats.ecdf(probki)\n", + "\n", + "# Narysujemy wykresy dystrybuanty zmiennej losowej i dystrybuanty empirycznej\n", + "x = np.linspace(0, 1, 200)\n", + "y1 = [i**2 for i in x]\n", + "y2 = F_empirical.cdf.evaluate(x)\n", + "\n", + "plt.plot(x, y1, label='dystrybuanta zmiennej losowej X', color='red')\n", + "plt.plot(x, y2, label='dystrybuanta empiryczna wygenerowanej próbki', color='blue')\n", + "plt.title('Porównanie dystrybuanty i dystrybuanty empirycznej')\n", + "plt.xlabel('x')\n", + "plt.legend()\n", + "plt.grid()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "ba7094", + "metadata": { + "collapsed": false + }, + "source": [ + "**Przykład 3**\n", + "\n", + "Załóżmy, że $X$ jest zmienną losową o następującym rozkładzie:\n", + "\n", + "\n", + "| $k$ | $0$ | $1$ |\n", + "| --- | --- | --- |\n", + "| $\\mathbb{P}(X=k)$ | $0{,}8$ | $0{,}2$ | \n", + "\n", + "Znajdź dystrybuantę i dystrybuantę pseudoodwrotną dla tej zmiennej losowej. Następnie wygeneruj próbkę $100$ liczb zgodnie z rozkładem zmiennej losowej $X$, używając metody odwracania dystrybuanty i porównaj rozkład otrzymanych liczb z rozkładem tej zmiennej losowej.\n", + "\n", + "Zacznijmy od wyznaczenia wzoru dystrybuanty:\n", + "\n", + "$$F(x)=\\begin{cases}\n", + "0, &\\text{ dla } x<0,\\\\\n", + "0{,}8, &\\text{ dla } 0\\leq x<1,\\\\\n", + "1, &\\text{ dla } 1\\leq x.\n", + "\\end{cases}$$\n", + "\n", + "Przejdziemy teraz do dystrybuanty pseudoodwrotnej. Spróbujemy najpierw wyznaczyć jej wartość w przykładowym punkcie $u=0{,}1$. Zgodnie z definicją dystrybuanty pseudoodwrotnej musimy znaleźć możliwie najmniejszą liczbę rzeczywistą $x$, dla której zachodzi nierówność $F(x)\\geq u$. Patrząc na wzór dystrybuanty, możemy łatwo zauważyć, że taką liczbą będzie $x=0$. Możemy też łatwo stwierdzić, że dystrybuanta pseudoodwrotna będzie przyjmować wartość $0$ dla wszystkich argumentów $0< u\\leq 0{,}8$. W podobny sposób możemy wyznaczyć pozostałą część wzoru na dystrybuantę pseudoodwrotną:\n", + "\n", + "$$F^-(u)=\\begin{cases}\n", + "0, &\\text{ dla } 0" + ] + }, + "execution_count": 5, + "metadata": { + "image/png": { + "height": 441, + "width": 721 + }, + "needs_background": "light" + }, + "output_type": "execute_result" + } + ], + "source": [ + "# Definiujemy dystrybuantę zmiennej losowej X\n", + "def F(x):\n", + " n = len(x)\n", + " y = [0]*n\n", + " for i in range(n):\n", + " if x[i] < 0:\n", + " y[i] = 0\n", + " elif x[i] < 1:\n", + " y[i] = 0.8\n", + " else:\n", + " y[i] = 1\n", + " return y\n", + "\n", + "# Definiujemy dystrybuantę pseudoodwrotną zmiennej losowej X\n", + "def F_inv(u):\n", + " n = len(u)\n", + " y = [0]*n\n", + " for i in range(n):\n", + " if u[i] < 0.8:\n", + " y[i] = 0\n", + " else:\n", + " y[i] = 1\n", + " return y\n", + "\n", + "# Generujemy próbkę 100 liczb używając metody odwracania dystrybuanty\n", + "u = stats.uniform.rvs(size=100)\n", + "probki = F_inv(u)\n", + "\n", + "# Aby porównać rozkład zmiennej losowej X z rozkładem wylosowanych liczb możemy porównać funkcję masy prawdopodobieństwa zmiennej losowej X z częstotliwością wylosowanych liczb\n", + "atomy = [0, 1]\n", + "pr = [0.8, 0.2]\n", + "\n", + "jedynki = np.count_nonzero(probki)\n", + "zera = 100 - jedynki\n", + "czestotliwosc = [zera/100, jedynki/100]\n", + "\n", + "plt.bar(atomy, pr,label='Funkcja masy prawdopodobieństwa zmiennej losowej X', width=0.3, color='blue', align='center')\n", + "plt.bar(atomy, czestotliwosc, label='Częstotliwość liczb w próbce', width=0.3, color='red', align='edge')\n", + "plt.legend()\n", + "plt.xlabel('Atomy')\n", + "plt.ylabel('Prawdopodobieństwa / częstotliwości')\n", + "plt.title('Porównanie funkcji masy prawdopodobieństwa X i częstotliwości liczb w próbce')\n", + "plt.grid()\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "90ade4", + "metadata": { + "collapsed": false + }, + "source": [ + "Ogólnie, w przypadku zmiennej losowej dyskretnej o rozkładzie $\\mathbb{P}(X=x_i)=p_i$ dla $i=1,2,\\ldots,n$ dystrybuantę pseudoodwrotną możemy przedstawić graficznie w następujący sposób:\n", + "\n", + "![image](dystr_odwrotna.png)\n", + "\n", + "Zatem jeśli chcemy znaleźć wartość $F^-(u)$, możemy podzielić przedział $(0,1)$ na mniejsze przedziały, których długości są równe kolejnym wartościom $p_i$ i które odpowiadają kolejnym atomom $x_i$. Następnie wystarczy sprawdzić, do którego z przedziałów należy $u$." + ] + }, + { + "cell_type": "markdown", + "id": "3f5655", + "metadata": { + "collapsed": false + }, + "source": [ + "## Dyskretne zmienne losowe wielowymiarowe\n", + "\n", + "W celu badania dyskretnych zmiennych losowych wielowymiarowych w Pythonie, będziemy posługiwać się macierzami, czyli obiektami klasy `ndarray`. Sposób ich generowania został już omówiony na początku poprzedniego przewodnika *03LRAP*. Warto jednak znać klika innych przydatnych funkcji z biblioteki NumPy. \n", + "\n", + "* `A.sum(axis=k)` - jeśli *A* jest obiektem klasy `ndarray`, to ta funkcja zwróci sumy elementów tej macierzy. Opcjonalny argument `axis` pozwala sumować elementy z poszczególnych kolumn (jeśli $k=0$) lub wierszy (jeśli $k=1$);\n", + "* `numpy(A, weights=None)` - oblicza średnią wartość elementów z macierzy *A*. W opcjonalnym argumencie `weights` możemy podać wagi, aby wyznaczyć średnią ważoną. Wagi powinny być podane jako macierz liczb o tych samych wymiarach, co macierz *A*.\n", + "\n", + "**Przykład 4**\n", + "\n", + "Dany jest dyskretny wektor losowy $(X,Y)$ o rozkładzie podanym w poniższej tabeli:\n", + "\n", + "| $X$ \\ $Y$ | $1$ | $2$ | $3$ | $4$ |\n", + "| --- | --- | --- | --- | --- |\n", + "| $-2$ | $0{,}1$ | $0{,}2$ | $0$ | $0{,}1$ |\n", + "| $2$ | $0{,}3$ | $0$ | $0{,}2$ | $0{,}1$ |\n", + "\n", + "* Znajdź rozkład brzegowy zmiennej losowej $Y$.\n", + "* Oblicz $\\mathbb{E}Y$ oraz $Var(Y)$.\n", + "* Oblicz $\\mathbb{E}(\\sqrt{|XY|})$.\n" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "id": "4f9d77", + "metadata": { + "collapsed": false + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Rozkład brzegowy zmiennej losowej Y:\n", + "P(Y=1)=0.4\n", + "P(Y=2)=0.2\n", + "P(Y=3)=0.2\n", + "P(Y=4)=0.2\n", + "EY=2.2\n", + "Var(Y)=1.3599999999999994\n", + "E(sqrt(|XY|))=2.021268798455112\n" + ] + } + ], + "source": [ + "# Definiujemy wektory atomów zmiennych losowych X i Y oraz tabelkę z prawdopodobieństwem łącznym\n", + "atomy_X = np.array([[-2], [2]])\n", + "atomy_Y = np.array([[1, 2, 3, 4]])\n", + "pr_laczne = np.array([[0.1, 0.2, 0, 0.1], [0.3, 0, 0.2, 0.1]]) # Zakładamy, że wiersze tej tabeli odpowiadają atomom zmiennej losowej X, a kolumny atomom zmiennej losowej Y\n", + "\n", + "# Szukamy rozkładu brzegowego zmiennej losowej Y\n", + "pr_Y = np.array([pr_laczne.sum(axis=0)])\n", + "print('Rozkład brzegowy zmiennej losowej Y:')\n", + "for k in range(4):\n", + " print('P(Y=', atomy_Y[0, k], ')=', pr_Y[0, k], sep=\"\")\n", + " \n", + "# Szukamy EY oraz Var(Y)\n", + "EY = np.average(atomy_Y, weights=pr_Y)\n", + "print('EY=', EY, sep=\"\")\n", + "EY2 = np.average(atomy_Y**2, weights=pr_Y)\n", + "VarY = EY2 - EY**2\n", + "print('Var(Y)=', VarY, sep=\"\")\n", + "\n", + "# Szukamy E(sqrt(|XY|)). Skorzystamy z ,,prawa leniwego statystyka''\n", + "XY = np.dot(abs(atomy_X)**(1/2), atomy_Y**(1/2)) # pomocnicza tabelka, która zawiera wszystkie iloczyny postaci (pierwiastek z |x_i|)*(pierwiastek z y_j), gdzie x_i, y_j to odpowiednio atomy zmiennych losowych X i Y\n", + "E = np.average(XY, weights=pr_laczne)\n", + "print('E(sqrt(|XY|))=', E, sep=\"\")" + ] + }, + { + "cell_type": "code", + "execution_count": 0, + "id": "a1029e", + "metadata": { + "collapsed": false + }, + "outputs": [ + ], + "source": [ + ] + } + ], + "metadata": { + "kernelspec": { + "argv": [ + "/usr/bin/python3", + "-m", + "ipykernel", + "--HistoryManager.enabled=False", + "--matplotlib=inline", + "-c", + "%config InlineBackend.figure_formats = set(['retina'])\nimport matplotlib; matplotlib.rcParams['figure.figsize'] = (12, 7)", + "-f", + "{connection_file}" + ], + "display_name": "Python 3 (system-wide)", + "env": { + }, + "language": "python", + "metadata": { + "cocalc": { + "description": "Python 3 programming language", + "priority": 100, + "url": "https://www.python.org/" + } + }, + "name": "python3", + "resource_dir": "/ext/jupyter/kernels/python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.12" + } + }, + "nbformat": 4, + "nbformat_minor": 4 +} \ No newline at end of file