Bootstrap-t-student/bootstrap-t.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Projekt - Test t studenta\n",
    "\n",
    "- Marcin Kostrzewski\n",
    "- Krystian Wasilewski\n",
    "- Mateusz Tylka\n",
    "\n",
    "## Test t studenta\n",
    "\n",
    "Metoda statystyczna służącą do porównania dwóch średnich między sobą gdy znamy liczbę badanych próbek, średnią arytmetyczną oraz wartość odchylenia standardowego lub wariancji.\n",
    "Jest to jeden z mniej skomplikowanych i bardzo często wykorzystywanych testów statystycznych używanych do weryfikacji hipotez. Dzięki niemu możemy dowiedzieć się czy dwie różne średnie są różne niechcący (w wyniku przypadku) czy są różne istotnie statystycznie (np. z uwagi na naszą manipulację eksperymentalna).\n",
    "Wyróżniamy 3 wersję testu t:\n",
    "\n",
    "1. test t Studenta dla jednej próby\n",
    "2. test t Studenta dla prób niezależnych  \n",
    "3. test t Studenta dla prób zależnych"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Test Shapiro Wilka\n",
    "\n",
    "Wszystkie rodzaje testów są testami parametrycznymi, a co za tym idzie nasze mierzone zmienne ilościowe powinny mieć rozkład normalny.  \n",
    "Dzięki testowi Shapiro Wilka możemy sprawdzić to założenie."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Testowanie hipotez metodą bootstrap\n",
    "\n",
    "**Bootstrap** – metoda szacowania (estymacji) wyników poprzez wielokrotne losowanie ze zwracaniem z próby. Polega ona na utworzeniu nowego rozkładu wyników, na podstawie posiadanych danych, poprzez wielokrotne losowanie wartości z posiadanej próby. Metoda ze zwracaniem polega na tym, że po wylosowaniu danej wartości, “wraca” ona z powrotem do zbioru.\n",
    "\n",
    "Metoda bootstrapowa znajduje zastosowanie w sytuacji, w której nie znamy rozkładu z populacji z której pochodzi próbka lub w przypadku rozkładów małych lub asymetrycznych. W takim wypadku, dzięki tej metodzie, wyniki testów parametrycznych i analiz opartych o modele liniowe są bardziej precyzyjne. Zazwyczaj losuje się wiele próbek, np. 2000 czy 5000."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Definicje funkcji"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 40,
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "import numpy as np\n",
    "import pandas as pd\n",
    "import matplotlib.pyplot as plt\n",
    "from enum import Enum\n",
    "from scipy.stats import ttest_ind, ttest_1samp, ttest_rel, shapiro"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 41,
   "metadata": {},
   "outputs": [],
   "source": [
    "dataset = pd.read_csv('experiment_data.csv') # TODO: del?"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 42,
   "metadata": {},
   "outputs": [],
   "source": [
    "class Alternatives(Enum):\n",
    "    LESS = 'less'\n",
    "    GREATER = 'greater'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 43,
   "metadata": {},
   "outputs": [],
   "source": [
    "def calculate_t_difference(t_stat_sample, t_stat_list, alternative):\n",
    "    \"\"\"\n",
    "    Funkcja oblicza procent statystyk testowych powstałych z prób bootstrapowych, \n",
    "    które róznią się od statystyki testowej powstałej ze zbioru według hipotezy alternatywnej.\n",
    "    \"\"\"\n",
    "    all_stats = len(t_stat_list)\n",
    "    stats_different_count = 0\n",
    "    for t_stat_boot in t_stat_list:\n",
    "        if alternative is Alternatives.LESS and t_stat_boot > t_stat_sample:\n",
    "            stats_different_count += 1 \n",
    "        elif alternative is Alternatives.GREATER and t_stat_boot < t_stat_sample:\n",
    "            stats_different_count += 1\n",
    "    return stats_different_count / all_stats"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 44,
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def t_test_1_samp(sample_1, population_mean=None, alternative=Alternatives.LESS):\n",
    "    \"\"\"\n",
    "    Funkcja przeprowadza test T-studenta dla jednej zmiennej.\n",
    "    \"\"\"\n",
    "    t_stat_from_sample, _ = ttest_1samp(a=sample_1, popmean=population_mean, alternative=alternative.value)\n",
    "    t_stat_list = get_t_stats(sample_1, t_stat_fn=ttest_1samp, alternative=alternative, population_mean=population_mean)\n",
    "\n",
    "    p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n",
    "\n",
    "    return p, t_stat_from_sample, t_stat_list"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "metadata": {},
   "outputs": [],
   "source": [
    "def t_test_ind(sample_1, sample_2, alternative=Alternatives.LESS):\n",
    "    \"\"\"\n",
    "    Funkcja przeprowadza test T-studenta dla dwóch zmiennych niezależnych.\n",
    "    \"\"\"\n",
    "    t_stat_from_sample, _ = ttest_ind(sample_1, sample_2, alternative=alternative.value)\n",
    "    t_stat_list = get_t_stats(sample_1, sample_2, alternative=alternative, t_stat_fn=ttest_ind)\n",
    "\n",
    "    p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n",
    "\n",
    "    return p, t_stat_from_sample, t_stat_list"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "metadata": {},
   "outputs": [],
   "source": [
    "def t_test_dep(sample_1, sample_2, alternative=Alternatives.LESS):\n",
    "    \"\"\"\n",
    "    Funkcja przeprowadza test T-studenta dla dwóch zmiennych zależnych.\n",
    "    \"\"\"\n",
    "    t_stat_list = get_t_stats(sample_1, sample_2, alternative=alternative, t_stat_fn=ttest_rel)\n",
    "    t_stat_from_sample, _ = ttest_rel(sample_1, sample_2, alternative=alternative.value)\n",
    "\n",
    "    p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n",
    "\n",
    "    return p, t_stat_from_sample, t_stat_list"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 47,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_t_stats(sample_1, sample_2=None, t_stat_fn=ttest_1samp, alternative=Alternatives.LESS, population_mean=None):\n",
    "    \"\"\"Funkcja oblicza listę statystyk testowych dla każdej próbki bootstrapowej wybranej na podstawie danych sample_1 i sample_2\"\"\"\n",
    "    t_stat_list = []\n",
    "\n",
    "    # One sample test\n",
    "    if t_stat_fn is ttest_1samp and sample_2 is None:\n",
    "        if not population_mean:\n",
    "            raise Exception(\"population_mean not provided\")\n",
    "        for bootstrap in generate_bootstraps(sample_1):\n",
    "            stat, _ = t_stat_fn(bootstrap, population_mean, alternative=alternative.value)\n",
    "            t_stat_list.append(stat)\n",
    "        return t_stat_list\n",
    "\n",
    "    # Two sample test\n",
    "    for bootstrap_sample in generate_bootstraps(pd.concat((sample_1, sample_2), ignore_index=True)):\n",
    "        bootstrap_1 = bootstrap_sample.iloc[: len(bootstrap_sample) // 2]\n",
    "        bootstrap_2 = bootstrap_sample.iloc[len(bootstrap_sample) // 2 :]\n",
    "        stat, _ = t_stat_fn(bootstrap_1, bootstrap_2, alternative=alternative.value)\n",
    "        t_stat_list.append(stat)\n",
    "    return t_stat_list"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 48,
   "metadata": {},
   "outputs": [],
   "source": [
    "def pretty_print_test(p, t_stat_from_sample, t_stat_list, thesis, alternative, max_print=5):\n",
    "    print('Wyniki bootstrapowej wersji testu T-studenta')\n",
    "    print()\n",
    "    print(f'Hipoteza: {thesis}')\n",
    "    if alternative is Alternatives.LESS:\n",
    "        print(f'Hipoteza alternatywna: średnia jest mniejsza')\n",
    "    else:\n",
    "        print(f'Hipoteza alternatywna: średnia jest większa')\n",
    "    print()\n",
    "    print(f'p: {p}')\n",
    "    print(f'Wartość statystyki testowej z próby: {t_stat_from_sample}')\n",
    "    print(f'Wartości statystyk z prób boostrapowych:')\n",
    "\n",
    "    t_stat_list_len = len(t_stat_list)\n",
    "    for i in range(min(max_print, t_stat_list_len)):\n",
    "        print(f'{t_stat_list[i]}, ', end='')\n",
    "    if max_print < t_stat_list_len:\n",
    "        remaining = t_stat_list_len - max_print\n",
    "        print(f'... (i {remaining} pozostałych)')\n",
    "\n",
    "    print()\n",
    "    print()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 49,
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def generate_bootstraps(data, n_bootstraps=1000):\n",
    "    data_size = data.shape[0]\n",
    "    for _ in range(n_bootstraps):\n",
    "        indices =  np.random.choice(len(data), size=data_size)\n",
    "        yield data.iloc[indices, :]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 50,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def bootstrap_one_sample(sample, population_mean, alternative=Alternatives.LESS):\n",
    "    p, t, ts = t_test_1_samp(\n",
    "        sample_1=sample,\n",
    "        population_mean=population_mean,\n",
    "        alternative=alternative,\n",
    "    )\n",
    "    \n",
    "    pretty_print_test(p, t, ts, f'średnia jest równa {population_mean}', alternative)\n",
    "    print()\n",
    "    return p, t, ts"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 51,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def bootstrap_independent(sample_1, sample_2, alternative=Alternatives.LESS):\n",
    "    p, t, ts = t_test_ind(\n",
    "        sample_1=sample_1,\n",
    "        sample_2=sample_2,\n",
    "        alternative=alternative,\n",
    "    )\n",
    "    \n",
    "    pretty_print_test(p, t, ts, 'średnie są takie same', alternative)\n",
    "    return p, t, ts"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 52,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def bootstrap_dependent(sample_1, sample_2, alternative=Alternatives.LESS):\n",
    "    p, t, ts = t_test_dep(\n",
    "        sample_1=sample_1,\n",
    "        sample_2=sample_2,\n",
    "        alternative=alternative,\n",
    "    )\n",
    "    \n",
    "    pretty_print_test(p, t, ts, 'średnie są takie same', alternative)\n",
    "    return p, t, ts"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 53,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def draw_distribution(stats, comparision_value):\n",
    "    \"\"\"\n",
    "    Funkcja rysuje rozkład statystyki testowej\n",
    "    @param stats: lista statystyk testowych\n",
    "    @param comparision_value: pierwotna próbka\n",
    "    \"\"\"\n",
    "    plt.hist(stats)\n",
    "    plt.axvline(comparision_value, color='red')\n",
    "    plt.xlabel('Test statistic value')\n",
    "    plt.ylabel('Frequency')\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Wczytanie danych"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "0    169.5557\ndtype: float64\n0    175.1417\ndtype: float64\n0    79.6342\ndtype: float64\n0    76.5602\ndtype: float64\n"
     ]
    }
   ],
   "source": [
    "dataset = pd.read_csv('experiment_data.csv')\n",
    "heights_female = pd.DataFrame(dataset['Female height'].to_numpy())  # xd\n",
    "heights_male = pd.DataFrame(dataset['Male height'].to_numpy())\n",
    "weights_before = pd.DataFrame(dataset['Weight before'].to_numpy())\n",
    "weights_after = pd.DataFrame(dataset['Weight after'].to_numpy())\n",
    "print(np.mean(heights_female))\n",
    "print(np.mean(heights_male))\n",
    "print(np.mean(weights_before))\n",
    "print(np.mean(weights_after))\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Jedna próba\n",
    "\n",
    "**Test t Studenta dla jednej próby** wykorzystujemy gdy chcemy porównać średnią “teoretyczną” ze średnią, którą faktycznie możemy zaobserwować w naszej bazie danych. Średnia teoretyczna to średnia pochodząca z innych badań lub po prostu bez większych uzasadnień pochodząca z naszej głowy.\n",
    "\n",
    "Wyobraźmy sobie, że mamy dane z takimi zmiennymi jak wzrost pewnej grupy ludzi. Dzięki testowi t Studenta dla jednej próby możemy dowiedzieć się np. czy wzrost naszego młodszego brata wynoszący 160cm odbiega znacząco od średniej wzrostu tej grupy.\n",
    "\n",
    "### Hipoteza\n",
    "\n",
    "*H0: Badana próba została wylosowana z populacji, w której wzrost osób wynosi średnio 160cm.*  \n",
    "*H1: Badana próba została wylosowana z populacji gdzie średni wzrost jest większy 160cm.*\n",
    "\n",
    "### Sprawdzenie założeń\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {},
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "p = 0.791\n"
     ]
    }
   ],
   "source": [
    "# Sprawdzamy, czy próby mają rozkład normalny\n",
    "shapiro_test = shapiro(heights_female)\n",
    "print(f\"p = {round(shapiro_test.pvalue,4)}\")"
   ]
  },
  {
   "source": [
    "P wartość jest większa niż alfa = 0.05, więc próba ma prawdopodobnie rozkład normalny. Możemy stostować testy."
   ],
   "cell_type": "markdown",
   "metadata": {}
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Test\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 56,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnia jest równa 160.0\nHipoteza alternatywna: średnia jest większa\n\np: 0.5\nWartość statystyki testowej z próby: [19.1207964]\nWartości statystyk z prób boostrapowych:\n[17.41702865], [19.17874674], [20.59090525], [17.666445], [19.3593138], ... (i 95 pozostałych)\n\n\n\n"
     ]
    },
    {
     "output_type": "display_data",
     "data": {
      "text/plain": "<Figure size 432x288 with 1 Axes>",
      "image/svg+xml": "<?xml version=\"1.0\" encoding=\"utf-8\" standalone=\"no\"?>\n<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n  \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n<svg xmlns:xlink=\"http://www.w3.org/1999/xlink\" width=\"392.14375pt\" height=\"262.19625pt\" viewBox=\"0 0 392.14375 262.19625\" xmlns=\"http://www.w3.org/2000/svg\" version=\"1.1\">\n <metadata>\n  <rdf:RDF xmlns:dc=\"http://purl.org/dc/elements/1.1/\" xmlns:cc=\"http://creativecommons.org/ns#\" xmlns:rdf=\"http://www.w3.org/1999/02/22-rdf-syntax-ns#\">\n   <cc:Work>\n    <dc:type rdf:resource=\"http://purl.org/dc/dcmitype/StillImage\"/>\n    <dc:date>2022-05-18T12:02:51.846030</dc:date>\n    <dc:format>image/svg+xml</dc:format>\n    <dc:creator>\n     <cc:Agent>\n      <dc:title>Matplotlib v3.5.2, https://matplotlib.org/</dc:title>\n     </cc:Agent>\n    </dc:creator>\n   </cc:Work>\n  </rdf:RDF>\n </metadata>\n <defs>\n  <style type=\"text/css\">*{stroke-linejoin: round; stroke-linecap: butt}</style>\n </defs>\n <g id=\"figure_1\">\n  <g id=\"patch_1\">\n   <path d=\"M 0 262.19625 \nL 392.14375 262.19625 \nL 392.14375 0 \nL 0 0 \nL 0 262.19625 \nz\n\" style=\"fill: none\"/>\n  </g>\n  <g id=\"axes_1\">\n   <g id=\"patch_2\">\n    <path d=\"M 50.14375 224.64 \nL 384.94375 224.64 \nL 384.94375 7.2 \nL 50.14375 7.2 \nz\n\" style=\"fill: #ffffff\"/>\n   </g>\n   <g id=\"patch_3\">\n    <path d=\"M 65.361932 224.64 \nL 95.798295 224.64 \nL 95.798295 159.244511 \nL 65.361932 159.244511 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_4\">\n    <path d=\"M 95.798295 224.64 \nL 126.234659 224.64 \nL 126.234659 104.748271 \nL 95.798295 104.748271 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_5\">\n    <path d=\"M 126.234659 224.64 \nL 156.671023 224.64 \nL 156.671023 82.949774 \nL 126.234659 82.949774 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_6\">\n    <path d=\"M 156.671023 224.64 \nL 187.107386 224.64 \nL 187.107386 17.554286 \nL 156.671023 17.554286 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_7\">\n    <path d=\"M 187.107386 224.64 \nL 217.54375 224.64 \nL 217.54375 50.25203 \nL 187.107386 50.25203 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_8\">\n    <path d=\"M 217.54375 224.64 \nL 247.980114 224.64 \nL 247.980114 115.647519 \nL 217.54375 115.647519 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_9\">\n    <path d=\"M 247.980114 224.64 \nL 278.416477 224.64 \nL 278.416477 61.151278 \nL 247.980114 61.151278 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_10\">\n    <path d=\"M 278.416477 224.64 \nL 308.852841 224.64 \nL 308.852841 191.942256 \nL 278.416477 191.942256 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_11\">\n    <path d=\"M 308.852841 224.64 \nL 339.289205 224.64 \nL 339.289205 191.942256 \nL 308.852841 191.942256 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_12\">\n    <path d=\"M 339.289205 224.64 \nL 369.725568 224.64 \nL 369.725568 181.043008 \nL 339.289205 181.043008 \nz\n\" clip-path=\"url(#p1d4603d369)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"matplotlib.axis_1\">\n    <g id=\"xtick_1\">\n     <g id=\"line2d_1\">\n      <defs>\n       <path id=\"ma6477f8760\" d=\"M 0 0 \nL 0 3.5 \n\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </defs>\n      <g>\n       <use xlink:href=\"#ma6477f8760\" x=\"75.382988\" y=\"224.64\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </g>\n     </g>\n     <g id=\"text_1\">\n      <!-- 17 -->\n      <g transform=\"translate(69.020488 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path id=\"DejaVuSans-31\" d=\"M 794 531 \nL 1825 531 \nL 1825 4091 \nL 703 3866 \nL 703 4441 \nL 1819 4666 \nL 2450 4666 \nL 2450 531 \nL 3481 531 \nL 3481 0 \nL 7
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEGCAYAAAB/+QKOAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWwElEQVR4nO3debRlZX3m8e8joEYholIiAmUZm2BwgGCJsRUtZybHOEDHBKNtObZCx1YcOtr2sHCllcSQiERo1CASBwwKKJgWUSNCFRaTQEPTGAsQEJRBjaTw13+cXeF4ec+tU5d7zr637vez1llnD+/e+7fvXes+d0/vTlUhSdJM9+m7AEnSwmRASJKaDAhJUpMBIUlqMiAkSU1b913AfNphhx1qxYoVfZehxeSKKwbfu+/ebx1ST9auXfvjqlrWmrdFBcSKFStYs2ZN32VoMVm1avB99tl9ViH1JskPRs3zFJMkqcmAkCQ1GRCSpCYDQpLUZEBIkpoMCElSkwEhSWoyICRJTQaEJKlpi3qSWovDiiNO623b1xx5YG/blhYbjyAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqcmAkCQ1GRCSpKaJddaX5HjgIODGqnpcN+1kYPeuyfbAT6tqr8ay1wC3A3cBG6pq5aTqlCS1TbI31xOAo4FPbpxQVa/cOJzkQ8Ctsyz/zKr68cSqkyTNamIBUVXnJFnRmpckwCuAZ01q+5Kke6evaxD7AjdU1ZUj5hdwZpK1SVbPtqIkq5OsSbLmpptumvdCJWmp6isgDgFOmmX+06pqb2B/4M1Jnj6qYVUdW1Urq2rlsmXL5rtOSVqyph4QSbYGXgqcPKpNVV3bfd8InALsM53qJEkb9XEE8Rzg8qpa35qZ5IFJtts4DDwPuGSK9UmSmGBAJDkJ+A6we5L1SV7bzTqYGaeXkjwiyend6I7At5JcCJwHnFZVX5lUnZKktknexXTIiOmvbky7DjigG74a2HNSdUmSxuOT1JKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqcmAkCQ1GRCSpCYDQpLUNMk3ykkLzoojTvu18c9cfTMAB8+YPt+uOfLAia5fmgSPICRJTQaEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUtMk30l9fJIbk1wyNO39Sa5Nsq77HDBi2f2SXJHkqiRHTKpGSdJokzyCOAHYrzH9qKraq/ucPnNmkq2AvwL2B/YADkmyxwTrlCQ1TCwgquoc4JY5LLoPcFVVXV1VdwKfAV40r8VJkjapj6423pLkj4A1wJ9U1U9mzN8Z+OHQ+HrgyaNWlmQ1sBpg+fLl81yqtLjN7FpkmuxeZPGb9kXqjwKPBvYCrgc+dG9XWFXHVtXKqlq5bNmye7s6SVJnqgFRVTdU1V1V9SvgbxicTprpWmDXofFdummSpCmaakAk2Wlo9CXAJY1m5wO7JXlUkvsCBwOnTqM+SdLdJnYNIslJwCpghyTrgfcBq5LsBRRwDfD6ru0jgI9X1QFVtSHJW4CvAlsBx1fVpZOqU5LUNrGAqKpDGpOPG9H2OuCAofHTgXvcAitJmh6fpJYkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqWliLwzSwrfiiNP6LkHSAuYRhCSpaWIBkeT4JDcmuWRo2p8luTzJRUlOSbL9iGWvSXJxknVJ1kyqRknSaJM8gjgB2G/GtLOAx1XVE4D/A7xrluWfWVV7VdXKCdUnSZrFxAKiqs4Bbpkx7cyq2tCNngvsMqntS5LunT6vQbwGOGPEvALOTLI2yeop1iRJ6vRyF1OS9wAbgBNHNHlaVV2b5GHAWUku745IWutaDawGWL58+UTqlaSlaOpHEEleDRwE/EFVVatNVV3bfd8InALsM2p9VXVsVa2sqpXLli2bQMWStDRNNSCS7Ae8A3hhVf18RJsHJtlu4zDwPOCSVltJ0uRM8jbXk4DvALsnWZ/ktcDRwHYMThutS3JM1/YRSU7vFt0R+FaSC4HzgNOq6iuTqlOS1DbWNYgkj6+qizdnxVV1SGPycSPaXgcc0A1fDey5OduSJM2/cY8g/jrJeUnelORBE61IkrQgjBUQVbUv8AfArsDaJJ9O8tyJViZJ6tXY1yCq6krgvcA7gWcAH+m6zXjppIqTJPVnrIBI8oQkRwGXAc8CXlBVv9MNHzXB+iRJPRn3Qbm/BD4OvLuqfrFxYlVdl+S9E6lMktSrcQPiQOAXVXUXQJL7APevqp9X1acmVp0kqTfjXoP4GvAbQ+MP6KZJkrZQ4wbE/avqjo0j3fADJlOSJGkhGDcgfpZk740jSZ4I/GKW9pKkRW7caxCHAZ9Nch0Q4OHAKydVlCSpf2MFRFWdn+QxwO7dpCuq6l8mV5YkqW+b8z6IJwErumX2TkJVfXIiVS0hK444re8SJKlp3M76PgU8GlgH3NVNLsCAkKQt1LhHECuBPUa94EeStOUZ9y6mSxhcmJYkLRHjHkHsAHw/yXnALzdOrKoXTqQqSVLvxg2I90+yCEnSwjPuba7fSPJIYLeq+lqSBwBbTbY0SVKfxu3u+3XA54CPdZN2Br44oZokSQvAuBep3ww8FbgN/vXlQQ/b1EJJjk9yY5JLhqY9JMlZSa7svh88YtlDuzZXJjl0zDolSfNk3ID4ZVXduXEkydYMnoPYlBOA/WZMOwL4h6raDfiHbvzXJHkI8D7gycA+wPtGBYkkaTLGDYhvJHk38Bvdu6g/C3xpUwtV1TnALTMmvwj4RDf8CeDFjUWfD5xVVbdU1U+As7hn0EiSJmjcu5iOAF4LXAy8HjidwRvm5mLHqrq+G/4RsGOjzc7AD4fG13fT7iHJamA1wPLly+dYkjRZdqmixWjcu5h+BfxN95k3VVVJ7tXT2VV1LHAswMqVK33SW5Lmybh9Mf0/Gtccquq35rDNG5LsVFXXJ9kJuLHR5lpg1dD4LsDZc9iWJGmONqcvpo3uD7wceMgct3kqcChwZPf99402XwX+x9CF6ecB75rj9iRJczDWReqqunnoc21V/Tlw4KaWS3IS8B1g9yTrk7yWQTA8N8mVwHO6cZKsTPLxbnu3AP8VOL/7fKCbJkmaknFPMe09NHofBkcUm1y2qg4ZMevZjbZrgH8/NH48cPw49UmS5t+4p5g+NDS8AbgGeMW8VyNJWjDGvYvpmZMuRJK0sIx7iuk/zja/qj48P+VIkhaKzbmL6UkM7kACeAFwHnDlJIqSJPVv3IDYBdi7qm4HSPJ+4LSqetWkCpMk9Wvcvph2BO4cGr+TdhcZkqQtxLhHEJ8EzktySjf+Yu7ucE+StAUa9y6m/57kDGDfbtIfV9X3JleWJKlv455iAngAcFtV/QWwPsmjJlSTJGkBGPeVo+8D3snd/SFtA/ztpIqSJPVv3COIlwAvBH4GUFXXAdtNqihJUv/GDYg7q6rouvxO8sDJlSRJWgjGDYi/S/IxYPskrwO+xjy/PEiStLBs8i6mJAFOBh4D3AbsDvxpVZ014dokST0ap8vuSnJ6VT0eMBQkaYkY9xTTBUmeNNFKJEkLyrhPUj8ZeFWSaxjcyRQGBxdPmFRhkqR+zRoQSZZX1T8Bz59SPZKkBWJTp5i+CFBVPwA+XFU/GP7MZYNJdk+ybuhzW5LDZrRZleTWoTZ/OpdtSZLmblOnmDI0/FvzscGqugLYCyDJVsC1wCmNpt+sqoPmY5uSpM23qSOIGjE8X54N/N+5Ho1IkiZnUwGxZ3cK6HbgCd3wbUluT3LbPGz/YOCkEfOekuTCJGckeeyoFSRZnWRNkjU33XTTPJQkSYJNnGKqqq0mteEk92XQv9O7GrMvAB5ZVXckOYDBtZDdRtR4LHAswMqVKydxlCNJS9LmdPc93/YHLqiqG2bOqKrbquqObvh0YJskO0y7QElayvoMiEMYcXopycO7Lj5Isg+DOm+eYm2StOSN+6DcvOp6g30u8PqhaW8AqKpjgJcBb0yyAfgFcHD
     },
     "metadata": {
      "needs_background": "light"
     }
    }
   ],
   "source": [
    "tested_mean = 160.0\n",
    "\n",
    "p, t, ts = bootstrap_one_sample(heights_female, tested_mean, alternative=Alternatives.GREATER)\n",
    "draw_distribution([x[0] for x in ts], t)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Wniosek\n",
    "\n",
    "Nie mamy podstaw, żeby odrzucić hipotezę zerową mówiącą, że średnia wynosi 160."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Dwie próby niezależne\n",
    "\n",
    "**Test t Studenta dla prób niezależnych** jest najczęściej stosowaną metodą statystyczną w celu porównania średnich z dwóch niezależnych od siebie grup. Wykorzystujemy go gdy chcemy porównać dwie grupy pod względem jakiejś zmiennej ilościowej. Na przykład gdy chcemy porównać średni wzrost kobiet i mężczyzn w danej grupie.\n",
    "Zazwyczaj dwie średnie z różnych od siebie grup będą się różnić. Test t Studenta powie nam jednak czy owe różnice są istotne statystycznie – czy nie są przypadkowe.\n",
    "Jeśli wynik testu t Studenta będzie istotny na poziomie p < 0,05 możemy odrzucić hipotezę zerową na rzecz hipotezy alternatywnej.\n",
    "\n",
    "## Hipoteza\n",
    "\n",
    "*H0: Średni wzrost w grupie mężczyzn jest taki sam jak średni w grupie kobiet. Hipoteza alternatywna z kolei*  \n",
    "*H1: Kobiety będą niższe od mężczyzn pod względem wzrostu.*\n",
    "\n",
    "## Sprawdzenie założeń\n",
    "\n",
    "Założenie o rozkładzie normalnym danych - sprawdzane testem Shapiro-Wilka"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 57,
   "metadata": {},
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "p = 0.791\np = 0.7535\n"
     ]
    }
   ],
   "source": [
    "shapiro_test = shapiro(heights_female)\n",
    "print(f\"p = {round(shapiro_test.pvalue,4)}\")\n",
    "\n",
    "shapiro_test = shapiro(heights_male)\n",
    "print(f\"p = {round(shapiro_test.pvalue,4)}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "Wartości **p** w teście Shapiro-Wilka powyżej **0.05** -> Dane prawdopodobnie mają rozkład normalny"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Test"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnie są takie same\nHipoteza alternatywna: średnia jest mniejsza\n\np: 0.0\nWartość statystyki testowej z próby: [8.04931557]\nWartości statystyk z prób boostrapowych:\n[0.2748409], [-0.61193473], [1.24335163], [-2.56879464], [0.34249038], ... (i 95 pozostałych)\n\n\n"
     ]
    },
    {
     "output_type": "display_data",
     "data": {
      "text/plain": "<Figure size 432x288 with 1 Axes>",
      "image/svg+xml": "<?xml version=\"1.0\" encoding=\"utf-8\" standalone=\"no\"?>\n<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n  \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n<svg xmlns:xlink=\"http://www.w3.org/1999/xlink\" width=\"392.14375pt\" height=\"262.19625pt\" viewBox=\"0 0 392.14375 262.19625\" xmlns=\"http://www.w3.org/2000/svg\" version=\"1.1\">\n <metadata>\n  <rdf:RDF xmlns:dc=\"http://purl.org/dc/elements/1.1/\" xmlns:cc=\"http://creativecommons.org/ns#\" xmlns:rdf=\"http://www.w3.org/1999/02/22-rdf-syntax-ns#\">\n   <cc:Work>\n    <dc:type rdf:resource=\"http://purl.org/dc/dcmitype/StillImage\"/>\n    <dc:date>2022-05-18T12:02:55.815731</dc:date>\n    <dc:format>image/svg+xml</dc:format>\n    <dc:creator>\n     <cc:Agent>\n      <dc:title>Matplotlib v3.5.2, https://matplotlib.org/</dc:title>\n     </cc:Agent>\n    </dc:creator>\n   </cc:Work>\n  </rdf:RDF>\n </metadata>\n <defs>\n  <style type=\"text/css\">*{stroke-linejoin: round; stroke-linecap: butt}</style>\n </defs>\n <g id=\"figure_1\">\n  <g id=\"patch_1\">\n   <path d=\"M 0 262.19625 \nL 392.14375 262.19625 \nL 392.14375 0 \nL 0 0 \nL 0 262.19625 \nz\n\" style=\"fill: none\"/>\n  </g>\n  <g id=\"axes_1\">\n   <g id=\"patch_2\">\n    <path d=\"M 50.14375 224.64 \nL 384.94375 224.64 \nL 384.94375 7.2 \nL 50.14375 7.2 \nz\n\" style=\"fill: #ffffff\"/>\n   </g>\n   <g id=\"patch_3\">\n    <path d=\"M 65.361932 224.64 \nL 80.32579 224.64 \nL 80.32579 195.056327 \nL 65.361932 195.056327 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_4\">\n    <path d=\"M 80.32579 224.64 \nL 95.289647 224.64 \nL 95.289647 204.917551 \nL 80.32579 204.917551 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_5\">\n    <path d=\"M 95.289647 224.64 \nL 110.253505 224.64 \nL 110.253505 165.472653 \nL 95.289647 165.472653 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_6\">\n    <path d=\"M 110.253505 224.64 \nL 125.217363 224.64 \nL 125.217363 17.554286 \nL 110.253505 17.554286 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_7\">\n    <path d=\"M 125.217363 224.64 \nL 140.18122 224.64 \nL 140.18122 56.999184 \nL 125.217363 56.999184 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_8\">\n    <path d=\"M 140.18122 224.64 \nL 155.145078 224.64 \nL 155.145078 27.41551 \nL 140.18122 27.41551 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_9\">\n    <path d=\"M 155.145078 224.64 \nL 170.108936 224.64 \nL 170.108936 106.305306 \nL 155.145078 106.305306 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_10\">\n    <path d=\"M 170.108936 224.64 \nL 185.072794 224.64 \nL 185.072794 106.305306 \nL 170.108936 106.305306 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_11\">\n    <path d=\"M 185.072794 224.64 \nL 200.036651 224.64 \nL 200.036651 204.917551 \nL 185.072794 204.917551 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_12\">\n    <path d=\"M 200.036651 224.64 \nL 215.000509 224.64 \nL 215.000509 175.333878 \nL 200.036651 175.333878 \nz\n\" clip-path=\"url(#pe75ca4c90e)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"matplotlib.axis_1\">\n    <g id=\"xtick_1\">\n     <g id=\"line2d_1\">\n      <defs>\n       <path id=\"m6c6f9a8310\" d=\"M 0 0 \nL 0 3.5 \n\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </defs>\n      <g>\n       <use xlink:href=\"#m6c6f9a8310\" x=\"87.830669\" y=\"224.64\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </g>\n     </g>\n     <g id=\"text_1\">\n      <!-- −2 -->\n      <g transform=\"translate(80.459575 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path id=\"DejaVuSans-2212\" d=\"M 678 2272 \nL 4684 2272 \nL 4684 1741 \nL 678 1741 \nL 678 2272 \nz\n\" transform=\"scale(0.015625)\"/>\n        <path id=\"DejaVuSans
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEGCAYAAAB/+QKOAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAXRklEQVR4nO3de7RedX3n8feHgBdABeQMIhBDHQaLKEiPqMVLFERuiraOwowOWmvEwVEcOzVql1rbmYWr46VKK6aAeEF0vGBRUIlWvLUqIXJHCkNREhCiUC7qSIPf+ePZkcfj7yRPkueSk/N+rbXX2Zff3vv7JHA+2Zfn90tVIUnSTNtMugBJ0pbJgJAkNRkQkqQmA0KS1GRASJKatp10AcO066671qJFiyZdhiSNz7XX9n7uu+8m7X7JJZf8pKqmWtu2qoBYtGgRK1asmHQZkjQ+ixf3fl500SbtnuSHs23zFpMkqcmAkCQ1GRCSpCYDQpLUZEBIkpoMCElSkwEhSWoyICRJTQaEJKlpq/om9XyzaOn5m7zvjaccPcRKJG2NvIKQJDUZEJKkJgNCktRkQEiSmgwISVLTyAIiyV5Jvpbk6iRXJXldt36XJMuTXNf93HmW/U/o2lyX5IRR1SlJahvlFcRa4A1VtR/wZOCkJPsBS4GvVtU+wFe75d+QZBfgbcCTgIOBt80WJJKk0RhZQFTVLVW1spu/G7gG2AM4Fvhw1+zDwPMbuz8HWF5Vt1fVHcBy4IhR1SpJ+m1jeQaRZBHwBOC7wG5VdUu36cfAbo1d9gBu6lte1a2TJI3JyL9JnWRH4DPAyVV1V5Jfb6uqSlKbefwlwBKAhQsXbs6hNCC/wS3NDyO9gkiyHb1wOLuqPtutvjXJ7t323YHbGruuBvbqW96zW/dbqmpZVU1X1fTU1NTwipekeW6UbzEFOAO4pqre3bfpPGDdW0knAH/f2P3LwOFJdu4eTh/erZMkjckoryAOAV4KPCvJpd10FHAK8Owk1wGHdcskmU5yOkBV3Q78BXBxN72jWydJGpORPYOoqm8BmWXzoY32K4A/7ls+EzhzNNVJkjbEb1JLkpoMCElSkwEhSWoyICRJTQaEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpyYCQJDUZEJKkJgNCktQ0sgGDkpwJHAPcVlX7d+s+CezbNdkJ+NeqOrCx743A3cB9wNqqmh5VnZKktpEFBHAWcCrwkXUrqurF6+aTvAu4cz37P7OqfjKy6iRJ6zXKIUe/kWRRa1uSAC8CnjWq80uSNs+knkE8Dbi1qq6bZXsBFya5JMmS9R0oyZIkK5KsWLNmzdALlaT5alIBcTxwznq2P7WqDgKOBE5K8vTZGlbVsqqarqrpqampYdcpSfPW2AMiybbAHwCfnK1NVa3uft4GnAscPJ7qJEnrTOIK4jDgB1W1qrUxyQ5JHrJuHjgcuHKM9UmSGGFAJDkH+Cdg3ySrkryi23QcM24vJXlkkgu6xd2AbyW5DPgecH5VfWlUdUqS2kb5FtPxs6x/WWPdzcBR3fwNwAGjqks9i5aeP+kSJG3h/Ca1JKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmgwISVKTASFJajIgJElNoxxR7swktyW5sm/d25OsTnJpNx01y75HJLk2yfVJlo6qRknS7EZ5BXEWcERj/Xuq6sBuumDmxiQLgL8BjgT2A45Pst8I65QkNYwsIKrqG8Dtm7DrwcD1VXVDVd0LfAI4dqjFSZI2aBLPIF6T5PLuFtTOje17ADf1La/q1jUlWZJkRZIVa9asGXatkjRvjTsgPgA8GjgQuAV41+YesKqWVdV0VU1PTU1t7uEkSZ2xBkRV3VpV91XVr4C/o3c7aabVwF59y3t26yRJYzTWgEiye9/iC4ArG80uBvZJsneSBwDHAeeNoz5J0v22HdWBk5wDLAZ2TbIKeBuwOMmBQAE3Aq/q2j4SOL2qjqqqtUleA3wZWACcWVVXjapOSVLbyAKiqo5vrD5jlrY3A0f1LV8A/NYrsJKk8fGb1JKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqcmAkCQ1GRCSpCYDQpLUNFBAJHncqAuRJG1ZBr2C+Nsk30vyX5M8bKQVSZK2CAMFRFU9DfjP9MZpuCTJx5M8e6SVSZImauBnEFV1HfBnwBuBZwDvS/KDJH8wquIkSZMz6DOIxyd5D3AN8CzguVX1u938e0ZYnyRpQga9gng/sBI4oKpOqqqV8OtxHP6stUOSM5PcluTKvnV/1V11XJ7k3CQ7zbLvjUmuSHJpkhUb9YkkSUMxaEAcDXy8qn4BkGSbJNsDVNVHZ9nnLOCIGeuWA/tX1eOBfwbetJ5zPrOqDqyq6QFrlCQN0aAB8RXgwX3L23frZlVV3wBun7Huwqpa2y1+B9hzwPNLksZs0IB4UFXds26hm99+M8/9R8AXZ9lWwIVJLkmyZDPPI0naBIMGxM+SHLRuIcnvAb/Y1JMmeQuwFjh7liZPraqDgCOBk5I8fT3HWpJkRZIVa9as2dSSJEkzbDtgu5OBTyW5GQjwCODFm3LCJC8DjgEOrapqtamq1d3P25KcCxwMfGOWtsuAZQDT09PN40mSNt5AAVFVFyd5DLBvt+raqvq3jT1ZkiOAPwWeUVU/n6XNDsA2VXV3N3848I6NPZckafMMegUB8ERgUbfPQUmoqo/M1jjJOcBiYNckq4C30Xtr6YHA8iQA36mqE5M8Eji9qo4CdgPO7bZvS+/tqS9t7AeTJG2egQIiyUeBRwOXAvd1qwuYNSCq6vjG6jNmaXszcFQ3fwNwwCB1ae5ZtPT8iZz3xlOOnsh5pbls0CuIaWC/2Z4ZSJK2PoO+xXQlvQfTkqR5YtAriF2Bq5N8D/jlupVV9byRVCVJmrhBA+LtoyxCkrTlGfQ1168neRSwT1V9peuHacFoS5MkTdKg3X2/Evg08MFu1R7A50ZUkyRpCzDoQ+qTgEOAu+DXgwf9u1EVJUmavEED4pdVde+6hSTb0vsehCRpKzVoQHw9yZuBB3djUX8K+PzoypIkTdqgAbEUWANcAbwKuIBZRpKTJG0dBn2L6VfA33WTJGkeGLQvpn+h8cyhqn5n6BVJkrYIG9MX0zoPAv4jsMvwy5EkbSkGegZRVT/tm1ZX1XsBu8eUpK3YoLeYDupb3IbeFcXGjCUhSZpjBv0l/66++bXAjcCLhl6NJGmLMehbTM/clIMnOZPe+NO3VdX+3bpdgE/SG53uRuBFVXVHY98TuP9V2r+sqg9vSg2SpE0z6C2m/76+7VX17lk2nQWcym+OPLcU+GpVnZJkabf8xhnn24XeEKXT9N6euiTJea0gkSSNxqBflJsGXk2vk749gBOBg4CHdFNTVX0DuH3G6mOBdVcDHwae39j1OcDyqrq9C4XlwBED1ipJGoJBn0HsCRxUVXcDJHk7cH5VvWQTzrlbVd3Szf8Y2K3RZg/gpr7lVd2635JkCbAEYOHChZtQjiSpZdAriN2Ae/uW76X9i32jdGNcb1anf1W1rKqmq2p6ampqc0uSJHUGvYL4CPC9JOd2y8/n/ttEG+vWJLtX1S1Jdgdua7RZDSzuW94TuGgTzydJ2gSDflHufwIvB+7oppdX1f/axHOeB5zQzZ8A/H2jzZeBw5PsnGRn4PBunSRpTAa9xQSwPXBXVf01sCrJ3hvaIck5wD8B+yZZleQVwCnAs5NcBxzWLZNkOsnpAFV1O/AXwMXd9I5unSRpTAZ9zXXdK6f7Ah8CtgM+Rm+UuVlV1fGzbDq00XYF8Md9y2cCZw5SnyRp+Aa9gngB8DzgZwBVdTPreb1VkjT3DRoQ9/a/cZRkh9GVJEnaEgwaEP8nyQeBnZK8EvgKDh4kSVu1DT6DSBJ6fSc9BriL3nOIt1bV8hHXJkmaoA0GRFVVkguq6nH0uryQJM0Dg95iWpnkiSOtRJK0RRn0m9RPAl6S5EZ6bzKF3sXF40dVmCRpstYbEEkWVtWP6PWuKkm
     },
     "metadata": {
      "needs_background": "light"
     }
    }
   ],
   "source": [
    "p, t, ts = bootstrap_independent(heights_male, heights_female)\n",
    "ts = [x[0] for x in ts]\n",
    "draw_distribution(ts, t)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Wniosek"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Dwie próby zależne\n",
    "\n",
    "W odróżnieniu od testu dla prób niezależnych, gdzie porównujemy dwie grupy, ten rodzaj testu stosujemy gdy poddajemy analizie tą samą pojedynczą grupę, ale dwukrotnie w czasie.\n",
    "\n",
    "**Przykład**: Porównane zostały wagi przed dietą i po diecie.\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "### Hipoteza\n",
    "H0 - Średnia waga nie uległa zmianie po zastosowaniu diety\n",
    "H1 - Średnia waga po diecie jest znacząco mniejsza od wagi przed dietą\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "\n",
    "### Sprawdzenie założeń\n",
    "\n",
    "Założenie o rozkładzie normalnym danych - sprawdzane testem Shapiro-Wilka"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 59,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "p = 0.3308\np = 0.4569\n"
     ]
    }
   ],
   "source": [
    "shapiro_test = shapiro(weights_before)\n",
    "print(f\"p = {round(shapiro_test.pvalue,4)}\")\n",
    "\n",
    "shapiro_test = shapiro(weights_after)\n",
    "print(f\"p = {round(shapiro_test.pvalue,4)}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "Wartości **p** w teście Shapiro-Wilka powyżej **0.05** -> Dane prawdopodobnie mają rozkład normalny"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Test"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 39,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnie są takie same\nHipoteza alternatywna: średnia jest mniejsza\n\np: 0.0\nWartość statystyki testowej z próby: [48.30834167]\nWartości statystyk z prób boostrapowych:\n[-0.18332849], [-1.21537352], [1.64628473], [1.06552535], [-0.71420173], ... (i 95 pozostałych)\n\n\n"
     ]
    },
    {
     "output_type": "display_data",
     "data": {
      "text/plain": "<Figure size 432x288 with 1 Axes>",
      "image/svg+xml": "<?xml version=\"1.0\" encoding=\"utf-8\" standalone=\"no\"?>\n<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\n  \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\n<svg xmlns:xlink=\"http://www.w3.org/1999/xlink\" width=\"393.485968pt\" height=\"262.19625pt\" viewBox=\"0 0 393.485968 262.19625\" xmlns=\"http://www.w3.org/2000/svg\" version=\"1.1\">\n <metadata>\n  <rdf:RDF xmlns:dc=\"http://purl.org/dc/elements/1.1/\" xmlns:cc=\"http://creativecommons.org/ns#\" xmlns:rdf=\"http://www.w3.org/1999/02/22-rdf-syntax-ns#\">\n   <cc:Work>\n    <dc:type rdf:resource=\"http://purl.org/dc/dcmitype/StillImage\"/>\n    <dc:date>2022-05-18T12:02:30.324226</dc:date>\n    <dc:format>image/svg+xml</dc:format>\n    <dc:creator>\n     <cc:Agent>\n      <dc:title>Matplotlib v3.5.2, https://matplotlib.org/</dc:title>\n     </cc:Agent>\n    </dc:creator>\n   </cc:Work>\n  </rdf:RDF>\n </metadata>\n <defs>\n  <style type=\"text/css\">*{stroke-linejoin: round; stroke-linecap: butt}</style>\n </defs>\n <g id=\"figure_1\">\n  <g id=\"patch_1\">\n   <path d=\"M 0 262.19625 \nL 393.485968 262.19625 \nL 393.485968 0 \nL 0 0 \nL 0 262.19625 \nz\n\" style=\"fill: none\"/>\n  </g>\n  <g id=\"axes_1\">\n   <g id=\"patch_2\">\n    <path d=\"M 50.14375 224.64 \nL 384.94375 224.64 \nL 384.94375 7.2 \nL 50.14375 7.2 \nz\n\" style=\"fill: #ffffff\"/>\n   </g>\n   <g id=\"patch_3\">\n    <path d=\"M 65.361932 224.64 \nL 68.00557 224.64 \nL 68.00557 172.868571 \nL 65.361932 172.868571 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_4\">\n    <path d=\"M 68.00557 224.64 \nL 70.649208 224.64 \nL 70.649208 214.285714 \nL 68.00557 214.285714 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_5\">\n    <path d=\"M 70.649208 224.64 \nL 73.292846 224.64 \nL 73.292846 131.451429 \nL 70.649208 131.451429 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_6\">\n    <path d=\"M 73.292846 224.64 \nL 75.936484 224.64 \nL 75.936484 100.388571 \nL 73.292846 100.388571 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_7\">\n    <path d=\"M 75.936484 224.64 \nL 78.580122 224.64 \nL 78.580122 17.554286 \nL 75.936484 17.554286 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_8\">\n    <path d=\"M 78.580122 224.64 \nL 81.22376 224.64 \nL 81.22376 27.908571 \nL 78.580122 27.908571 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_9\">\n    <path d=\"M 81.22376 224.64 \nL 83.867398 224.64 \nL 83.867398 100.388571 \nL 81.22376 100.388571 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_10\">\n    <path d=\"M 83.867398 224.64 \nL 86.511036 224.64 \nL 86.511036 110.742857 \nL 83.867398 110.742857 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_11\">\n    <path d=\"M 86.511036 224.64 \nL 89.154674 224.64 \nL 89.154674 162.514286 \nL 86.511036 162.514286 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"patch_12\">\n    <path d=\"M 89.154674 224.64 \nL 91.798312 224.64 \nL 91.798312 172.868571 \nL 89.154674 172.868571 \nz\n\" clip-path=\"url(#pbb38b03de6)\" style=\"fill: #1f77b4\"/>\n   </g>\n   <g id=\"matplotlib.axis_1\">\n    <g id=\"xtick_1\">\n     <g id=\"line2d_1\">\n      <defs>\n       <path id=\"m15befd83cc\" d=\"M 0 0 \nL 0 3.5 \n\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </defs>\n      <g>\n       <use xlink:href=\"#m15befd83cc\" x=\"78.506233\" y=\"224.64\" style=\"stroke: #000000; stroke-width: 0.8\"/>\n      </g>\n     </g>\n     <g id=\"text_1\">\n      <!-- 0 -->\n      <g transform=\"translate(75.324983 239.238437)scale(0.1 -0.1)\">\n       <defs>\n        <path id=\"DejaVuSans-30\" d=\"M 2034 4250 \nQ 1547 4250 1301 3770 \nQ 1056 3291 1056 2328 \nQ 1056 1369 1301 889 \nQ 1547 409 2034 409 \nQ 2525 409 2770 889 \nQ 3016 1369 3016 2328 \nQ 3016 32
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYkAAAEGCAYAAACQO2mwAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAXrklEQVR4nO3dfbRddX3n8ffHBJ8ABeQaMRBDHYpFhUivqAVtQEUEFG1ZCqMO7VijDo7i6Gi0s8TacRauWT5UaaWppKBFfAZRUIkURG1VLjFAABkoE2sCkijIgzrS4Hf+ODtwuD07OTfcc87Nve/XWmfdvX/7t/f57nDJJ/vpt1NVSJLUy8NGXYAkaeYyJCRJrQwJSVIrQ0KS1MqQkCS1mj/qAqbTnnvuWYsXLx51GZI0PDfc0Pm5//7btfqVV175s6oaa1s+q0Ji8eLFTExMjLoMSRqepUs7Py+7bLtWT/LjrS33dJMkqZUhIUlqZUhIkloZEpKkVoaEJKmVISFJajWwkEiyT5JLk1yX5Nokb2na90iyKsmNzc/dW9Y/qelzY5KTBlWnJKndII8kNgNvq6oDgGcDJyc5AFgOXFJV+wGXNPMPkmQP4FTgWcAhwKltYSJJGpyBhURV3VpVq5vpu4HrgYXAccDZTbezgZf1WP1FwKqqur2q7gBWAUcNqlZJUm9DeeI6yWLgGcD3gQVVdWuz6KfAgh6rLAR+0jW/vmnrte1lwDKARYsWTVPF7RYvv/D+6XWnHTPw75OkURr4heskuwBfBE6pqru6l1XntXgP6dV4VbWiqsaranxsrHX4EUnSdhhoSCTZiU5AnFNVX2qab0uyV7N8L2Bjj1U3APt0ze/dtEmShmiQdzcFOBO4vqo+1LXoAmDL3UonAV/usfo3gCOT7N5csD6yaZMkDdEgjyQOBV4DHJFkTfM5GjgNeGGSG4EXNPMkGU/yCYCquh34S+CK5vO+pk2SNEQDu3BdVd8B0rL4+T36TwB/1jW/Elg5mOokSf3wiWtJUitDQpLUypCQJLUyJCRJrWbVO66HzaevJc12HklIkloZEpKkVoaEJKmVISFJamVISJJaGRKSpFaGhCSplSEhSWplSEiSWhkSkqRWhoQkqdXAxm5KshI4FthYVU9r2j4L7N902Q34RVUt6bHuOuBu4D5gc1WND6pOSVK7QQ7wdxZwOvDJLQ1V9cot00k+CNy5lfUPr6qfDaw6SdI2DfL1pZcnWdxrWZIArwCOGNT3S5IeulFdk3gucFtV3diyvICLk1yZZNkQ65IkdRnV+yROBM7dyvLDqmpDkscDq5L8qKou79WxCZFlAIsWLZr+SiVpDhv6kUSS+cAfAZ9t61NVG5qfG4HzgEO20ndFVY1X1fjY2Nh0lytJc9ooTje9APhRVa3vtTDJzkl23TINHAmsHWJ9kqTGwEIiybnAPwP7J1mf5LXNohOYdKopyROTXNTMLgC+k+Qq4AfAhVX19UHVKUlqN8i7m05saf+THm23AEc30zcDBw2qLklS/3ziWpLUypCQJLUyJCRJrQwJSVIrQ0KS1MqQkCS1MiQkSa0MCUlSK0NCktTKkJAktTIkJEmtDAlJUitDQpLUypCQJLUyJCRJrQwJSVIrQ0KS1GqQry9dmWRjkrVdbe9NsiHJmuZzdMu6RyW5IclNSZYPqkZJ0tYN8kjiLOCoHu0frqolzeeiyQuTzAP+GngxcABwYpIDBlinJKnFwEKiqi4Hbt+OVQ8Bbqqqm6vqXuAzwHHTWpwkqS+juCbxpiRXN6ejdu+xfCHwk6759U1bT0mWJZlIMrFp06bprlWS5rRhh8THgScDS4BbgQ8+1A1W1YqqGq+q8bGxsYe6OUlSl6GGRFXdVlX3VdVvgb+jc2ppsg3APl3zezdtkqQhG2pIJNmra/blwNoe3a4A9kuyb5KHAycAFwyjPknSg80f1IaTnAssBfZMsh44FViaZAlQwDrg9U3fJwKfqKqjq2pzkjcB3wDmASur6tpB1SlJajewkKiqE3s0n9nS9xbg6K75i4B/d3usJGm4fOJaktTKkJAktTIkJEmtDAlJUitDQpLUypCQJLUyJCRJrQwJSVIrQ0KS1MqQkCS1MiQkSa0MCUlSK0NCktTKkJAktTIkJEmtDAlJUitDQpLUamAhkWRlko1J1na1/e8kP0pydZLzkuzWsu66JNckWZNkYlA1SpK2rq+QSPL07dj2WcBRk9pWAU+rqgOB/wO8ayvrH15VS6pqfDu+W5I0Dfo9kvibJD9I8l+SPLafFarqcuD2SW0XV9XmZvZ7wN79lypJGra+QqKqngu8CtgHuDLJp5O88CF+938Gvtb2lcDFSa5MsmxrG0myLMlEkolNmzY9xJIkSd36viZRVTcC/wN4J/CHwEeb6wt/NNUvTfLnwGbgnJYuh1XVwcCLgZOTPG8rda2oqvGqGh8bG5tqKZKkrej3msSBST4MXA8cAbykqn6vmf7wVL4wyZ8AxwKvqqrq1aeqNjQ/NwLnAYdM5TskSdOj3yOJjwGrgYOq6uSqWg1QVbfQObroS5KjgHcAL62qX7X02TnJrlumgSOBtb36SpIGa36f/Y4Bfl1V9wEkeRjwyKr6VVV9qtcKSc4FlgJ7JlkPnErnbqZHAKuSAHyvqt6Q5InAJ6rqaGABcF6zfD7w6ar6+vbuoCRp+/UbEt8EXgDc08w/GrgY+IO2FarqxB7NZ7b0vQU4upm+GTioz7okSQPUb0g8sqq2BARVdU+SRw+ophlp8fIL+1q+7rRjhlGOJA1Fv9ckfpnk4C0zSX4f+PVgSpIkzRT9HkmcAnw+yS1AgCcArxxUUZKkmaGvkKiqK5I8Bdi/abqhqv5tcGVJkmaCfo8kAJ4JLG7WOTgJVfXJgVQlSZoR+gqJJJ8CngysAe5rmgswJCRpFuv3SGIcOKDtCWlJ0uzU791Na+lcrJYkzSH9HknsCVyX5AfAb7Y0VtVLB1KVJGlG6Dck3jvIIiRJM1O/t8B+K8mTgP2q6pvN09bzBlvajqn7yWyfvpa0o+t3qPDXAV8A/rZpWgicP6CaJEkzRL8Xrk8GDgXugvtfQPT4QRUlSZoZ+g2J31TVvVtmksyn85yEJGkW6zckvpXk3cCjmndbfx74yuDKkiTNBP2GxHJgE3AN8HrgIqbwRjpJ0o6p37ubfgv8XfORJM0R/d7d9H+T3Dz508d6K5NsTLK2q22PJKuS3Nj83L1l3ZOaPjcmOan/XZIkTZd+TzeN0xkF9pnAc4GPAv/Qx3pnAUdNalsOXFJV+wGXNPMPkmQPOu/EfhZwCHBqW5hIkganr5Coqp93fTZU1UeAbT4pVlWXA7dPaj4OOLuZPht4WY9VXwSsqqrbq+oOYBX/PmwkSQPW71DhB3fNPozOkcVU3kXRbUFV3dpM/xRY0KPPQuAnXfPrm7ZetS0DlgEsWrRoO0uSJPXS71/0H+ya3gysA17xUL+8qirJQ3reoqpWACsAxsfHfXZDkqZRv3c3HT6N33lbkr2q6tYkewEbe/TZACztmt8buGwaa5Ak9aHf003/bWvLq+pDU/jOC4CTgNOan1/u0ecbwP/qulh9JPCuKXyHJGkaTOXupjfSuS6wEHgDcDCwa/PpKcm5wD8D+ydZn+S1dMLhhUluBF7QzJNkPMknAKrqduAvgSuaz/uaNknSEPV7TWJv4OCquhsgyXuBC6vq1VtbqapObFn0/B59J4A/65pfCazssz5J0gD0eySxALi3a/5eet+VJEmaRfo9kvgk8IMk5zXzL+OBZx0kSbNUv3c3vT/J1+g8bQ3wp1X1w8GVJUmaCfo93QTwaOCuqvorYH2SfQdUkyRphuh3gL9TgXfywG2oO9Hf2E2SpB1Yv9ckXg48A1gNUFW3JGm99XW2WLz8wlGXIEkj1e/ppnurqmheWZpk58GVJEmaKfoNic8l+VtgtySvA76JLyCSpFlvm6ebkgT4LPAU4C5gf+A9VbVqwLVJkkZsmyHRjNR6UVU9nc57HSRJc0S/p5tWJ3nmQCuRJM04/d7d9Czg1UnWAb8EQucg48BBFSZJGr2thkSSRVX1r3ReJyp
     },
     "metadata": {
      "needs_background": "light"
     }
    }
   ],
   "source": [
    "p, t, ts = bootstrap_dependent(weights_before, weights_after)\n",
    "ts = [x[0] for x in ts]\n",
    "draw_distribution(ts, t)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Wniosek\n",
    "\n",
    "???"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": false,
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "interpreter": {
   "hash": "1b132c2ed43285dcf39f6d01712959169a14a721cf314fe69015adab49bb1fd1"
  },
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10-final"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}