{ "cells": [ { "cell_type": "markdown", "id": "1e9456", "metadata": { "collapsed": false }, "source": [ "# Generowanie zmiennych losowych o dowolnym rozkładzie w Pythonie. Dyskretne zmienne losowe wielowymiarowe w Pythonie." ] }, { "cell_type": "markdown", "id": "382d67", "metadata": { "collapsed": false }, "source": [ "## Metoda odwracania dystrybuanty\n", "\n", "Istnieje wiele różnych metod generowania liczb losowych o zadanym rozkładzie prawdopodobieństwa. Dzisiaj omówimy jedną z nich - będzie to metoda odwracania dystrybuanty." ] }, { "cell_type": "markdown", "id": "dcfe80", "metadata": { "collapsed": false }, "source": [ "### Dystrybuanta i dystrybuanta empiryczna\n", "\n", "Przypomnijmy najpierw, że dystrybuanta jest jedną z funkcji, za pomocą której można zdefiniować rozkład prawdopodobieństwa zmiennej losowej. Zgodnie z definicją dystrybuantę zmiennej losowej $X$ liczymy ze wzoru:\n", "\n", "$$ F_{X}(x)=\\mathbb{P}(X\\le x) = \\mathbb{P}(X^{-1}\\left((-\\infty,x]\\right)),$$\n", "\n", "dla dowolnego $ x\\in\\mathbb{R}$. Ponadto, jeśli zmienna losowa $X$ jest dyskretna, a jej zbiór atomów to $A=\\{a_1,a_2,\\ldots\\}$, to \n", "\n", "$$F_{X}(x)=\\sum_{a\\in A, a\\le x}\\mathbb{P}(X=a). $$\n", "\n", "Chcąc zbadać, jak wygląda rozkład pewnej zmiennej losowej na podstawie próbki, możemy spróbować oszacować właśnie dystrybuantę. W tym celu definiujemy tzw. **dystrbuantę empiryczną**.\n", "\n", "**Definicja (dystrybuanta empiryczna)**\n", "\n", "Niech $x_1,x_2,\\ldots, x_n$ będzie próbką wylosowaną z rozkładu o dystrybuancie $F$. Funkcję $\\hat{F}:\\mathbb{R}\\rightarrow [0,1]$ zdefiniowaną wzorem\n", "\n", "$$\\hat{F}(x)=\\frac{1}{n}\\sum_{i=1}^n\\pmb{1}_{(-\\infty,x]}(x_i)=\\frac{\\#\\{i:x_i\\leq x\\}}{n}$$\n", "\n", "nazywamy **dystrybuantą empiryczną**.\n", "\n", "Innymi słowy, chcąc wyznaczyć wartość dystrybuanty empirycznej w punkcie $x$ sprawdzamy, ile wyników z naszej próbki jest mniejszych lub równych od $x$ i porównujemy tę liczbę z całkowitą liczbą otrzymanych wyników.\n", "\n", "Chcąc wyznaczyć dystrybuantę empiryczną w Pythonie, możemy posłużyć się funkcją `ecdf(x)` z pakietu `stats` z biblioteki `scipy`. Argumentem tej funkcji jest wektor próbek. Załóżmy, że `f` jest dystrybuantą empiryczną wygenerowaną za pomocą polecenia `ecdf(x)`. Wówczas możemy badać jej właściwości za pomocą następujących poleceń:\n", "\n", "* `f.cdf.quantiles` - zwraca wektor unikalnych wartości w próbce,\n", "* `f.cdf.probabilities` - zwraca wektor skumulowanych prawdopodobieństw związanych z wartościami z poprzedniego podpunktu,\n", "* `f.cdf.evaluate(t)` - zwraca wartość dystrybuanty empirycznej w punkcie $t$,\n", "* `f.cdf.plot(ax)` - rysuje wykres dystrybuanty empirycznej na zadanych osiach.\n", "\n", "**Przykład 1**\n", "\n", "Załóżmy, że w $10$ rzutach czworościenną kostką do gry otrzymaliśmy następujące wyniki: $1, 1, 4, 1, 3, 2, 2, 1, 4, 4$. Na podstawie otrzymanych wyników wyznacz dystrybuantę empiryczną zmiennej losowej $X$ oznaczającej liczbę wyrzuconych oczek w rzucie czworościenną kostką. Następnie zbadaj własności tej dystrybuanty i zwizualizuj ją na wykresie." ] }, { "cell_type": "code", "execution_count": 3, "id": "9e518c", "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Wartości otzymane w eksperymencie: [1. 2. 3. 4.]\n", "Skumulowane prawdopodobieństwa dla otrzymanych wartości: [0.4 0.6 0.7 1. ]\n", "Wartości dystrybuany empirycznej w punktach 0, 2, 3.5: 0.0 0.7 1.0\n" ] }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "execution_count": 3, "metadata": { "image/png": { "height": 440, "width": 720 }, "needs_background": "light" }, "output_type": "execute_result" } ], "source": [ "from scipy import stats\n", "import matplotlib.pyplot as plt\n", "\n", "# Wprowadzamy dane z zadania i generujemy dystrybuantę empiryczną\n", "x = [1, 1, 4, 1, 2, 2, 3, 1, 4, 4]\n", "f = stats.ecdf(x)\n", "\n", "# Badamy własności otrzymanej funkcji\n", "x = f.cdf.quantiles\n", "print('Wartości otzymane w eksperymencie:', x)\n", "p = f.cdf.probabilities\n", "print('Skumulowane prawdopodobieństwa dla otrzymanych wartości:', p)\n", "print('Wartości dystrybuany empirycznej w punktach 0, 2, 3.5:', f.cdf.evaluate(0),f.cdf.evaluate(3),f.cdf.evaluate(5))\n", "\n", "# Rysujemy wykres dystrybuanty empirycznej\n", "os = plt.subplot()\n", "f.cdf.plot(os)\n", "plt.title('Dystrybuanta empiryczna')\n", "plt.xlabel('x')\n", "plt.ylabel('F(x)')\n", "plt.xticks(x)\n", "plt.yticks(p)\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "39c337", "metadata": { "collapsed": false }, "source": [ "### Dystrybuanta pseudoodwrotna\n", "\n", "Metoda odwracania dystrybuanty opiera się na następującym twierdzeniu:\n", "\n", "**Twierdzenie (metoda odwracania dystrybuanty)**\n", "\n", "Niech $F$ będzie dystrybuantą pewnej zmiennej losowej, a $U$ będzie zmienną losową o rozkładzie jednostajnym na odcinku $(0,1)$. Jeśli $F^{-1}$ jest funkcją odwrotną do $F$, to funkcja $X=F^{-1}(U)$ jest zmienną losową o dystrybuancie $F$.\n", "\n", "Niestety, nie wszystkie zmienne losowe mają dystrybuanty, które są funkcjami odwracalnymi. Dlatego w praktyce będziemy korzystać z tzw. dystrybuanty pseudoodwrotnej, którą możemy zdefiniować dla dowolnej zmiennej losowej.\n", "\n", "**Definicja (dystrybuanta pseudoodwrotna)**\n", "\n", "Niech $F:\\mathbb{R}\\rightarrow [0,1]$ będzie dystrybuantą zmiennej losowej $X$. Wtedy funkcję $F^-:(0,1)\\rightarrow \\mathbb{R}$ definiowaną wzorem\n", "\n", "$$F^-(u)=\\inf\\{x:F(x)\\geq u\\}$$\n", "\n", "nazywamy **dystrybuantą pseudoodwrotną**.\n", "\n", "Jeśli $F$ jest dystrybuantą, która posiada funkcję odwrotną $F^{-1}$, to $F^-=F^{-1}$.\n", "\n", "**Twierdzenie (ogólna metoda odwracania dystrybuanty)**\n", "\n", "Niech $F$ będzie dystrybuantą pewnej zmiennej losowej, a $U$ będzie zmienną losową o rozkładzie jednostajnym na odcinku $(0,1)$. Jeśli $F^-$ jest dystrybuantą pseudoodwrotną do $F$, to funkcja $X=F^-(U)$ jest zmienną losową o dystrybuancie $F$.\n", "\n", "Powyższe twierdzenia stanowią podstawę następującego algorytmu, który pozwala generować zmienne losowe o dowolnym rozkładzie.\n", "\n", "**Algorytm (Generowanie zmiennych losowych przez odwracanie dystrybuanty)**\n", "\n", "1. Generujemy $n$ liczb pseudolosowych $u_1,u_2,\\ldots,u_n$ z rozkładu jednostajnego na odcinku $(0,1)$.\n", "2. Obliczamy $x_i=F^-(u_i)$ dla $i=1,2,\\ldots,n$.\n", "\n", "Przypomnijmy, że do generowania liczb pseudolosowych o rozkładzie jednostajnym $U(0,1)$ możemy użyć polecenia `uniform.rvs(size=n)` z pakietu `scipy.stats`, gdzie $n$ jest rozmiarem próbki, którą chcemy otrzymać.\n", "\n", "**Przykład 2**\n", "\n", " Niech $X$ będzie zmienną losową o dystrybuancie $F:\\mathbb{R}\\rightarrow [0,1]$ danej wzorem:\n", " \n", " $$F(x)=\\begin{cases} 0, &\\text{ dla }x<0,\\\\\n", "x^2, &\\text{ dla } x\\in[0,1],\\\\\n", "1, &\\text{ dla } x>1.\\end{cases}$$\n", "\n", "Wygeneruj $100$ liczb zgodnie z rozkładem zmiennej losowej $X$. Następnie wyznacz dystrybuantę empiryczną na podstawie otrzymanej próbki i porównaj ją z rzeczywistą dystrybuantą zmiennej losowej $X$.\n", "\n", "Wyznaczmy najpierw dystrybuantę pseudoodwrotną do dystrybuanty $F$. Niech $u\\in (0,1)$. Wówczas:\n", "\n", "$$F^-(u)=\\inf\\{x:F(x)\\geq u\\}=\\inf\\{x:x>0\\wedge x^2\\geq u\\}=\\sqrt{u}.$$\n", "\n", "Zobaczmy, jak możemy wykorzystać dystrybuantę pseudoodwrotną do generowania liczb o rozkładzie zgodnym z rozkładem zmiennej losowej $X$." ] }, { "cell_type": "code", "execution_count": 4, "id": "ad3784", "metadata": { "collapsed": false }, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "execution_count": 4, "metadata": { "image/png": { "height": 441, "width": 707 }, "needs_background": "light" }, "output_type": "execute_result" } ], "source": [ "import numpy as np\n", "\n", "# Definiujemy dystrybuantę pseudoodwrotną\n", "def F_pseudoinverse(u):\n", " x = [i**(1/2) for i in u]\n", " return x\n", "\n", "# Generujemy 100 liczb o rozkładzie zgodnym z rozkładem zmiennej losowej X, używając dystrybuanty pseudoodwrotnej\n", "u = stats.uniform.rvs(size=100)\n", "probki = F_pseudoinverse(u)\n", "\n", "# Wyznaczamy dystrybuantę empiryczną na podstawie wygenerowanej próbki\n", "F_empirical = stats.ecdf(probki)\n", "\n", "# Narysujemy wykresy dystrybuanty zmiennej losowej i dystrybuanty empirycznej\n", "x = np.linspace(0, 1, 200)\n", "y1 = [i**2 for i in x]\n", "y2 = F_empirical.cdf.evaluate(x)\n", "\n", "plt.plot(x, y1, label='dystrybuanta zmiennej losowej X', color='red')\n", "plt.plot(x, y2, label='dystrybuanta empiryczna wygenerowanej próbki', color='blue')\n", "plt.title('Porównanie dystrybuanty i dystrybuanty empirycznej')\n", "plt.xlabel('x')\n", "plt.legend()\n", "plt.grid()\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "ba7094", "metadata": { "collapsed": false }, "source": [ "**Przykład 3**\n", "\n", "Załóżmy, że $X$ jest zmienną losową o następującym rozkładzie:\n", "\n", "\n", "| $k$ | $0$ | $1$ |\n", "| --- | --- | --- |\n", "| $\\mathbb{P}(X=k)$ | $0{,}8$ | $0{,}2$ | \n", "\n", "Znajdź dystrybuantę i dystrybuantę pseudoodwrotną dla tej zmiennej losowej. Następnie wygeneruj próbkę $100$ liczb zgodnie z rozkładem zmiennej losowej $X$, używając metody odwracania dystrybuanty i porównaj rozkład otrzymanych liczb z rozkładem tej zmiennej losowej.\n", "\n", "Zacznijmy od wyznaczenia wzoru dystrybuanty:\n", "\n", "$$F(x)=\\begin{cases}\n", "0, &\\text{ dla } x<0,\\\\\n", "0{,}8, &\\text{ dla } 0\\leq x<1,\\\\\n", "1, &\\text{ dla } 1\\leq x.\n", "\\end{cases}$$\n", "\n", "Przejdziemy teraz do dystrybuanty pseudoodwrotnej. Spróbujemy najpierw wyznaczyć jej wartość w przykładowym punkcie $u=0{,}1$. Zgodnie z definicją dystrybuanty pseudoodwrotnej musimy znaleźć możliwie najmniejszą liczbę rzeczywistą $x$, dla której zachodzi nierówność $F(x)\\geq u$. Patrząc na wzór dystrybuanty, możemy łatwo zauważyć, że taką liczbą będzie $x=0$. Możemy też łatwo stwierdzić, że dystrybuanta pseudoodwrotna będzie przyjmować wartość $0$ dla wszystkich argumentów $0< u\\leq 0{,}8$. W podobny sposób możemy wyznaczyć pozostałą część wzoru na dystrybuantę pseudoodwrotną:\n", "\n", "$$F^-(u)=\\begin{cases}\n", "0, &\\text{ dla } 0" ] }, "execution_count": 5, "metadata": { "image/png": { "height": 441, "width": 721 }, "needs_background": "light" }, "output_type": "execute_result" } ], "source": [ "# Definiujemy dystrybuantę zmiennej losowej X\n", "def F(x):\n", " n = len(x)\n", " y = [0]*n\n", " for i in range(n):\n", " if x[i] < 0:\n", " y[i] = 0\n", " elif x[i] < 1:\n", " y[i] = 0.8\n", " else:\n", " y[i] = 1\n", " return y\n", "\n", "# Definiujemy dystrybuantę pseudoodwrotną zmiennej losowej X\n", "def F_inv(u):\n", " n = len(u)\n", " y = [0]*n\n", " for i in range(n):\n", " if u[i] < 0.8:\n", " y[i] = 0\n", " else:\n", " y[i] = 1\n", " return y\n", "\n", "# Generujemy próbkę 100 liczb używając metody odwracania dystrybuanty\n", "u = stats.uniform.rvs(size=100)\n", "probki = F_inv(u)\n", "\n", "# Aby porównać rozkład zmiennej losowej X z rozkładem wylosowanych liczb możemy porównać funkcję masy prawdopodobieństwa zmiennej losowej X z częstotliwością wylosowanych liczb\n", "atomy = [0, 1]\n", "pr = [0.8, 0.2]\n", "\n", "jedynki = np.count_nonzero(probki)\n", "zera = 100 - jedynki\n", "czestotliwosc = [zera/100, jedynki/100]\n", "\n", "plt.bar(atomy, pr,label='Funkcja masy prawdopodobieństwa zmiennej losowej X', width=0.3, color='blue', align='center')\n", "plt.bar(atomy, czestotliwosc, label='Częstotliwość liczb w próbce', width=0.3, color='red', align='edge')\n", "plt.legend()\n", "plt.xlabel('Atomy')\n", "plt.ylabel('Prawdopodobieństwa / częstotliwości')\n", "plt.title('Porównanie funkcji masy prawdopodobieństwa X i częstotliwości liczb w próbce')\n", "plt.grid()\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "90ade4", "metadata": { "collapsed": false }, "source": [ "Ogólnie, w przypadku zmiennej losowej dyskretnej o rozkładzie $\\mathbb{P}(X=x_i)=p_i$ dla $i=1,2,\\ldots,n$ dystrybuantę pseudoodwrotną możemy przedstawić graficznie w następujący sposób:\n", "\n", "![image](dystr_odwrotna.png)\n", "\n", "Zatem jeśli chcemy znaleźć wartość $F^-(u)$, możemy podzielić przedział $(0,1)$ na mniejsze przedziały, których długości są równe kolejnym wartościom $p_i$ i które odpowiadają kolejnym atomom $x_i$. Następnie wystarczy sprawdzić, do którego z przedziałów należy $u$." ] }, { "cell_type": "markdown", "id": "3f5655", "metadata": { "collapsed": false }, "source": [ "## Dyskretne zmienne losowe wielowymiarowe\n", "\n", "W celu badania dyskretnych zmiennych losowych wielowymiarowych w Pythonie, będziemy posługiwać się macierzami, czyli obiektami klasy `ndarray`. Sposób ich generowania został już omówiony na początku poprzedniego przewodnika *03LRAP*. Warto jednak znać klika innych przydatnych funkcji z biblioteki NumPy. \n", "\n", "* `A.sum(axis=k)` - jeśli *A* jest obiektem klasy `ndarray`, to ta funkcja zwróci sumy elementów tej macierzy. Opcjonalny argument `axis` pozwala sumować elementy z poszczególnych kolumn (jeśli $k=0$) lub wierszy (jeśli $k=1$);\n", "* `numpy(A, weights=None)` - oblicza średnią wartość elementów z macierzy *A*. W opcjonalnym argumencie `weights` możemy podać wagi, aby wyznaczyć średnią ważoną. Wagi powinny być podane jako macierz liczb o tych samych wymiarach, co macierz *A*.\n", "\n", "**Przykład 4**\n", "\n", "Dany jest dyskretny wektor losowy $(X,Y)$ o rozkładzie podanym w poniższej tabeli:\n", "\n", "| $X$ \\ $Y$ | $1$ | $2$ | $3$ | $4$ |\n", "| --- | --- | --- | --- | --- |\n", "| $-2$ | $0{,}1$ | $0{,}2$ | $0$ | $0{,}1$ |\n", "| $2$ | $0{,}3$ | $0$ | $0{,}2$ | $0{,}1$ |\n", "\n", "* Znajdź rozkład brzegowy zmiennej losowej $Y$.\n", "* Oblicz $\\mathbb{E}Y$ oraz $Var(Y)$.\n", "* Oblicz $\\mathbb{E}(\\sqrt{|XY|})$.\n" ] }, { "cell_type": "code", "execution_count": 10, "id": "4f9d77", "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Rozkład brzegowy zmiennej losowej Y:\n", "P(Y=1)=0.4\n", "P(Y=2)=0.2\n", "P(Y=3)=0.2\n", "P(Y=4)=0.2\n", "EY=2.2\n", "Var(Y)=1.3599999999999994\n", "E(sqrt(|XY|))=2.021268798455112\n" ] } ], "source": [ "# Definiujemy wektory atomów zmiennych losowych X i Y oraz tabelkę z prawdopodobieństwem łącznym\n", "atomy_X = np.array([[-2], [2]])\n", "atomy_Y = np.array([[1, 2, 3, 4]])\n", "pr_laczne = np.array([[0.1, 0.2, 0, 0.1], [0.3, 0, 0.2, 0.1]]) # Zakładamy, że wiersze tej tabeli odpowiadają atomom zmiennej losowej X, a kolumny atomom zmiennej losowej Y\n", "\n", "# Szukamy rozkładu brzegowego zmiennej losowej Y\n", "pr_Y = np.array([pr_laczne.sum(axis=0)])\n", "print('Rozkład brzegowy zmiennej losowej Y:')\n", "for k in range(4):\n", " print('P(Y=', atomy_Y[0, k], ')=', pr_Y[0, k], sep=\"\")\n", " \n", "# Szukamy EY oraz Var(Y)\n", "EY = np.average(atomy_Y, weights=pr_Y)\n", "print('EY=', EY, sep=\"\")\n", "EY2 = np.average(atomy_Y**2, weights=pr_Y)\n", "VarY = EY2 - EY**2\n", "print('Var(Y)=', VarY, sep=\"\")\n", "\n", "# Szukamy E(sqrt(|XY|)). Skorzystamy z ,,prawa leniwego statystyka''\n", "XY = np.dot(abs(atomy_X)**(1/2), atomy_Y**(1/2)) # pomocnicza tabelka, która zawiera wszystkie iloczyny postaci (pierwiastek z |x_i|)*(pierwiastek z y_j), gdzie x_i, y_j to odpowiednio atomy zmiennych losowych X i Y\n", "E = np.average(XY, weights=pr_laczne)\n", "print('E(sqrt(|XY|))=', E, sep=\"\")" ] }, { "cell_type": "code", "execution_count": 0, "id": "a1029e", "metadata": { "collapsed": false }, "outputs": [ ], "source": [ ] } ], "metadata": { "kernelspec": { "argv": [ "/usr/bin/python3", "-m", "ipykernel", "--HistoryManager.enabled=False", "--matplotlib=inline", "-c", "%config InlineBackend.figure_formats = set(['retina'])\nimport matplotlib; matplotlib.rcParams['figure.figsize'] = (12, 7)", "-f", "{connection_file}" ], "display_name": "Python 3 (system-wide)", "env": { }, "language": "python", "metadata": { "cocalc": { "description": "Python 3 programming language", "priority": 100, "url": "https://www.python.org/" } }, "name": "python3", "resource_dir": "/ext/jupyter/kernels/python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.12" } }, "nbformat": 4, "nbformat_minor": 4 }