{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Projekt - Test t studenta\n", "\n", "- Marcin Kostrzewski\n", "- Krystian Wasilewski\n", "- Mateusz Tylka\n", "\n", "## Test t studenta\n", "\n", "Metoda statystyczna służącą do porównania dwóch średnich między sobą gdy znamy liczbę badanych próbek, średnią arytmetyczną oraz wartość odchylenia standardowego lub wariancji.\n", "Jest to jeden z mniej skomplikowanych i bardzo często wykorzystywanych testów statystycznych używanych do weryfikacji hipotez. Dzięki niemu możemy dowiedzieć się czy dwie różne średnie są różne niechcący (w wyniku przypadku) czy są różne istotnie statystycznie (np. z uwagi na naszą manipulację eksperymentalna).\n", "Wyróżniamy 3 wersję testu t:\n", "\n", "1. test t Studenta dla jednej próby\n", "2. test t Studenta dla prób niezależnych \n", "3. test t Studenta dla prób zależnych" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Test Shapiro Wilka\n", "\n", "Wszystkie rodzaje testów są testami parametrycznymi, a co za tym idzie nasze mierzone zmienne ilościowe powinny mieć rozkład normalny. \n", "Dzięki testowi Shapiro Wilka możemy sprawdzić to założenie." ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Testowanie hipotez metodą bootstrap\n", "\n", "**Bootstrap** – metoda szacowania (estymacji) wyników poprzez wielokrotne losowanie ze zwracaniem z próby. Polega ona na utworzeniu nowego rozkładu wyników, na podstawie posiadanych danych, poprzez wielokrotne losowanie wartości z posiadanej próby. Metoda ze zwracaniem polega na tym, że po wylosowaniu danej wartości, “wraca” ona z powrotem do zbioru.\n", "\n", "Metoda bootstrapowa znajduje zastosowanie w sytuacji, w której nie znamy rozkładu z populacji z której pochodzi próbka lub w przypadku rozkładów małych lub asymetrycznych. W takim wypadku, dzięki tej metodzie, wyniki testów parametrycznych i analiz opartych o modele liniowe są bardziej precyzyjne. Zazwyczaj losuje się wiele próbek, np. 2000 czy 5000." ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# Definicje funkcji" ] }, { "cell_type": "code", "execution_count": 40, "metadata": { "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "from enum import Enum\n", "from scipy.stats import ttest_ind, ttest_1samp, ttest_rel, shapiro" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [], "source": [ "dataset = pd.read_csv('experiment_data.csv') # TODO: del?" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [], "source": [ "class Alternatives(Enum):\n", " LESS = 'less'\n", " GREATER = 'greater'" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [], "source": [ "def calculate_t_difference(t_stat_sample, t_stat_list, alternative):\n", " \"\"\"\n", " Funkcja oblicza procent statystyk testowych powstałych z prób bootstrapowych, \n", " które róznią się od statystyki testowej powstałej ze zbioru według hipotezy alternatywnej.\n", " \"\"\"\n", " all_stats = len(t_stat_list)\n", " stats_different_count = 0\n", " for t_stat_boot in t_stat_list:\n", " if alternative is Alternatives.LESS and t_stat_boot > t_stat_sample:\n", " stats_different_count += 1 \n", " elif alternative is Alternatives.GREATER and t_stat_boot < t_stat_sample:\n", " stats_different_count += 1\n", " return stats_different_count / all_stats" ] }, { "cell_type": "code", "execution_count": 44, "metadata": { "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def t_test_1_samp(sample_1, population_mean=None, alternative=Alternatives.LESS):\n", " \"\"\"\n", " Funkcja przeprowadza test T-studenta dla jednej zmiennej.\n", " \"\"\"\n", " t_stat_from_sample, _ = ttest_1samp(a=sample_1, popmean=population_mean, alternative=alternative.value)\n", " t_stat_list = get_t_stats(sample_1, t_stat_fn=ttest_1samp, alternative=alternative, population_mean=population_mean)\n", "\n", " p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n", "\n", " return p, t_stat_from_sample, t_stat_list" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [], "source": [ "def t_test_ind(sample_1, sample_2, alternative=Alternatives.LESS):\n", " \"\"\"\n", " Funkcja przeprowadza test T-studenta dla dwóch zmiennych niezależnych.\n", " \"\"\"\n", " t_stat_from_sample, _ = ttest_ind(sample_1, sample_2, alternative=alternative.value)\n", " t_stat_list = get_t_stats(sample_1, sample_2, alternative=alternative, t_stat_fn=ttest_ind)\n", "\n", " p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n", "\n", " return p, t_stat_from_sample, t_stat_list" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [], "source": [ "def t_test_dep(sample_1, sample_2, alternative=Alternatives.LESS):\n", " \"\"\"\n", " Funkcja przeprowadza test T-studenta dla dwóch zmiennych zależnych.\n", " \"\"\"\n", " t_stat_list = get_t_stats(sample_1, sample_2, alternative=alternative, t_stat_fn=ttest_rel)\n", " t_stat_from_sample, _ = ttest_rel(sample_1, sample_2, alternative=alternative.value)\n", "\n", " p = calculate_t_difference(t_stat_from_sample, t_stat_list, alternative)\n", "\n", " return p, t_stat_from_sample, t_stat_list" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [], "source": [ "def get_t_stats(sample_1, sample_2=None, t_stat_fn=ttest_1samp, alternative=Alternatives.LESS, population_mean=None):\n", " \"\"\"Funkcja oblicza listę statystyk testowych dla każdej próbki bootstrapowej wybranej na podstawie danych sample_1 i sample_2\"\"\"\n", " t_stat_list = []\n", "\n", " # One sample test\n", " if t_stat_fn is ttest_1samp and sample_2 is None:\n", " if not population_mean:\n", " raise Exception(\"population_mean not provided\")\n", " for bootstrap in generate_bootstraps(sample_1):\n", " stat, _ = t_stat_fn(bootstrap, population_mean, alternative=alternative.value)\n", " t_stat_list.append(stat)\n", " return t_stat_list\n", "\n", " # Two sample test\n", " for bootstrap_sample in generate_bootstraps(pd.concat((sample_1, sample_2), ignore_index=True)):\n", " bootstrap_1 = bootstrap_sample.iloc[: len(bootstrap_sample) // 2]\n", " bootstrap_2 = bootstrap_sample.iloc[len(bootstrap_sample) // 2 :]\n", " stat, _ = t_stat_fn(bootstrap_1, bootstrap_2, alternative=alternative.value)\n", " t_stat_list.append(stat)\n", " return t_stat_list" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "def pretty_print_test(p, t_stat_from_sample, t_stat_list, thesis, alternative, max_print=5):\n", " print('Wyniki bootstrapowej wersji testu T-studenta')\n", " print()\n", " print(f'Hipoteza: {thesis}')\n", " if alternative is Alternatives.LESS:\n", " print(f'Hipoteza alternatywna: średnia jest mniejsza')\n", " else:\n", " print(f'Hipoteza alternatywna: średnia jest większa')\n", " print()\n", " print(f'p: {p}')\n", " print(f'Wartość statystyki testowej z próby: {t_stat_from_sample}')\n", " print(f'Wartości statystyk z prób boostrapowych:')\n", "\n", " t_stat_list_len = len(t_stat_list)\n", " for i in range(min(max_print, t_stat_list_len)):\n", " print(f'{t_stat_list[i]}, ', end='')\n", " if max_print < t_stat_list_len:\n", " remaining = t_stat_list_len - max_print\n", " print(f'... (i {remaining} pozostałych)')\n", "\n", " print()\n", " print()" ] }, { "cell_type": "code", "execution_count": 49, "metadata": { "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def generate_bootstraps(data, n_bootstraps=1000):\n", " data_size = data.shape[0]\n", " for _ in range(n_bootstraps):\n", " indices = np.random.choice(len(data), size=data_size)\n", " yield data.iloc[indices, :]" ] }, { "cell_type": "code", "execution_count": 50, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def bootstrap_one_sample(sample, population_mean, alternative=Alternatives.LESS):\n", " p, t, ts = t_test_1_samp(\n", " sample_1=sample,\n", " population_mean=population_mean,\n", " alternative=alternative,\n", " )\n", " \n", " pretty_print_test(p, t, ts, f'średnia jest równa {population_mean}', alternative)\n", " print()\n", " return p, t, ts" ] }, { "cell_type": "code", "execution_count": 51, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def bootstrap_independent(sample_1, sample_2, alternative=Alternatives.LESS):\n", " p, t, ts = t_test_ind(\n", " sample_1=sample_1,\n", " sample_2=sample_2,\n", " alternative=alternative,\n", " )\n", " \n", " pretty_print_test(p, t, ts, 'średnie są takie same', alternative)\n", " return p, t, ts" ] }, { "cell_type": "code", "execution_count": 52, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def bootstrap_dependent(sample_1, sample_2, alternative=Alternatives.LESS):\n", " p, t, ts = t_test_dep(\n", " sample_1=sample_1,\n", " sample_2=sample_2,\n", " alternative=alternative,\n", " )\n", " \n", " pretty_print_test(p, t, ts, 'średnie są takie same', alternative)\n", " return p, t, ts" ] }, { "cell_type": "code", "execution_count": 53, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [ "def draw_distribution(stats, comparision_value):\n", " \"\"\"\n", " Funkcja rysuje rozkład statystyki testowej\n", " @param stats: lista statystyk testowych\n", " @param comparision_value: pierwotna próbka\n", " \"\"\"\n", " plt.hist(stats)\n", " plt.axvline(comparision_value, color='red')\n", " plt.xlabel('Test statistic value')\n", " plt.ylabel('Frequency')\n", " plt.show()" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# Wczytanie danych" ] }, { "cell_type": "code", "execution_count": 54, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "0 169.5557\ndtype: float64\n0 175.1417\ndtype: float64\n0 79.6342\ndtype: float64\n0 76.5602\ndtype: float64\n" ] } ], "source": [ "dataset = pd.read_csv('experiment_data.csv')\n", "heights_female = pd.DataFrame(dataset['Female height'].to_numpy()) # xd\n", "heights_male = pd.DataFrame(dataset['Male height'].to_numpy())\n", "weights_before = pd.DataFrame(dataset['Weight before'].to_numpy())\n", "weights_after = pd.DataFrame(dataset['Weight after'].to_numpy())\n", "print(np.mean(heights_female))\n", "print(np.mean(heights_male))\n", "print(np.mean(weights_before))\n", "print(np.mean(weights_after))\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# Jedna próba\n", "\n", "**Test t Studenta dla jednej próby** wykorzystujemy gdy chcemy porównać średnią “teoretyczną” ze średnią, którą faktycznie możemy zaobserwować w naszej bazie danych. Średnia teoretyczna to średnia pochodząca z innych badań lub po prostu bez większych uzasadnień pochodząca z naszej głowy.\n", "\n", "Wyobraźmy sobie, że mamy dane z takimi zmiennymi jak wzrost pewnej grupy ludzi. Dzięki testowi t Studenta dla jednej próby możemy dowiedzieć się np. czy wzrost naszego młodszego brata wynoszący 160cm odbiega znacząco od średniej wzrostu tej grupy.\n", "\n", "### Hipoteza\n", "\n", "*H0: Badana próba została wylosowana z populacji, w której wzrost osób wynosi średnio 160cm.* \n", "*H1: Badana próba została wylosowana z populacji gdzie średni wzrost jest większy 160cm.*\n", "\n", "### Sprawdzenie założeń\n" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "p = 0.791\n" ] } ], "source": [ "# Sprawdzamy, czy próby mają rozkład normalny\n", "shapiro_test = shapiro(heights_female)\n", "print(f\"p = {round(shapiro_test.pvalue,4)}\")" ] }, { "source": [ "P wartość jest większa niż alfa = 0.05, więc próba ma prawdopodobnie rozkład normalny. Możemy stostować testy." ], "cell_type": "markdown", "metadata": {} }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Test\n" ] }, { "cell_type": "code", "execution_count": 56, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnia jest równa 160.0\nHipoteza alternatywna: średnia jest większa\n\np: 0.5\nWartość statystyki testowej z próby: [19.1207964]\nWartości statystyk z prób boostrapowych:\n[17.41702865], [19.17874674], [20.59090525], [17.666445], [19.3593138], ... (i 95 pozostałych)\n\n\n\n" ] }, { "output_type": "display_data", "data": { "text/plain": "
", "image/svg+xml": "\n\n\n \n \n \n \n 2022-05-18T12:02:51.846030\n image/svg+xml\n \n \n Matplotlib v3.5.2, https://matplotlib.org/\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n\n", "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEGCAYAAAB/+QKOAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjUuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8qNh9FAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWwElEQVR4nO3debRlZX3m8e8joEYholIiAmUZm2BwgGCJsRUtZybHOEDHBKNtObZCx1YcOtr2sHCllcSQiERo1CASBwwKKJgWUSNCFRaTQEPTGAsQEJRBjaTw13+cXeF4ec+tU5d7zr637vez1llnD+/e+7fvXes+d0/vTlUhSdJM9+m7AEnSwmRASJKaDAhJUpMBIUlqMiAkSU1b913AfNphhx1qxYoVfZehxeSKKwbfu+/ebx1ST9auXfvjqlrWmrdFBcSKFStYs2ZN32VoMVm1avB99tl9ViH1JskPRs3zFJMkqcmAkCQ1GRCSpCYDQpLUZEBIkpoMCElSkwEhSWoyICRJTQaEJKlpi3qSWovDiiNO623b1xx5YG/blhYbjyAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqcmAkCQ1GRCSpKaJddaX5HjgIODGqnpcN+1kYPeuyfbAT6tqr8ay1wC3A3cBG6pq5aTqlCS1TbI31xOAo4FPbpxQVa/cOJzkQ8Ctsyz/zKr68cSqkyTNamIBUVXnJFnRmpckwCuAZ01q+5Kke6evaxD7AjdU1ZUj5hdwZpK1SVbPtqIkq5OsSbLmpptumvdCJWmp6isgDgFOmmX+06pqb2B/4M1Jnj6qYVUdW1Urq2rlsmXL5rtOSVqyph4QSbYGXgqcPKpNVV3bfd8InALsM53qJEkb9XEE8Rzg8qpa35qZ5IFJtts4DDwPuGSK9UmSmGBAJDkJ+A6we5L1SV7bzTqYGaeXkjwiyend6I7At5JcCJwHnFZVX5lUnZKktknexXTIiOmvbky7DjigG74a2HNSdUmSxuOT1JKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqcmAkCQ1GRCSpCYDQpLUNMk3ykkLzoojTvu18c9cfTMAB8+YPt+uOfLAia5fmgSPICRJTQaEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUtMk30l9fJIbk1wyNO39Sa5Nsq77HDBi2f2SXJHkqiRHTKpGSdJokzyCOAHYrzH9qKraq/ucPnNmkq2AvwL2B/YADkmyxwTrlCQ1TCwgquoc4JY5LLoPcFVVXV1VdwKfAV40r8VJkjapj6423pLkj4A1wJ9U1U9mzN8Z+OHQ+HrgyaNWlmQ1sBpg+fLl81yqtLjN7FpkmuxeZPGb9kXqjwKPBvYCrgc+dG9XWFXHVtXKqlq5bNmye7s6SVJnqgFRVTdU1V1V9SvgbxicTprpWmDXofFdummSpCmaakAk2Wlo9CXAJY1m5wO7JXlUkvsCBwOnTqM+SdLdJnYNIslJwCpghyTrgfcBq5LsBRRwDfD6ru0jgI9X1QFVtSHJW4CvAlsBx1fVpZOqU5LUNrGAqKpDGpOPG9H2OuCAofHTgXvcAitJmh6fpJYkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmgwISVKTASFJajIgJElNBoQkqWliLwzSwrfiiNP6LkHSAuYRhCSpaWIBkeT4JDcmuWRo2p8luTzJRUlOSbL9iGWvSXJxknVJ1kyqRknSaJM8gjgB2G/GtLOAx1XVE4D/A7xrluWfWVV7VdXKCdUnSZrFxAKiqs4Bbpkx7cyq2tCNngvsMqntS5LunT6vQbwGOGPEvALOTLI2yeop1iRJ6vRyF1OS9wAbgBNHNHlaVV2b5GHAWUku745IWutaDawGWL58+UTqlaSlaOpHEEleDRwE/EFVVatNVV3bfd8InALsM2p9VXVsVa2sqpXLli2bQMWStDRNNSCS7Ae8A3hhVf18RJsHJtlu4zDwPOCSVltJ0uRM8jbXk4DvALsnWZ/ktcDRwHYMThutS3JM1/YRSU7vFt0R+FaSC4HzgNOq6iuTqlOS1DbWNYgkj6+qizdnxVV1SGPycSPaXgcc0A1fDey5OduSJM2/cY8g/jrJeUnelORBE61IkrQgjBUQVbUv8AfArsDaJJ9O8tyJViZJ6tXY1yCq6krgvcA7gWcAH+m6zXjppIqTJPVnrIBI8oQkRwGXAc8CXlBVv9MNHzXB+iRJPRn3Qbm/BD4OvLuqfrFxYlVdl+S9E6lMktSrcQPiQOAXVXUXQJL7APevqp9X1acmVp0kqTfjXoP4GvAbQ+MP6KZJkrZQ4wbE/avqjo0j3fADJlOSJGkhGDcgfpZk740jSZ4I/GKW9pKkRW7caxCHAZ9Nch0Q4OHAKydVlCSpf2MFRFWdn+QxwO7dpCuq6l8mV5YkqW+b8z6IJwErumX2TkJVfXIiVS0hK444re8SJKlp3M76PgU8GlgH3NVNLsCAkKQt1LhHECuBPUa94EeStOUZ9y6mSxhcmJYkLRHjHkHsAHw/yXnALzdOrKoXTqQqSVLvxg2I90+yCEnSwjPuba7fSPJIYLeq+lqSBwBbTbY0SVKfxu3u+3XA54CPdZN2Br44oZokSQvAuBep3ww8FbgN/vXlQQ/b1EJJjk9yY5JLhqY9JMlZSa7svh88YtlDuzZXJjl0zDolSfNk3ID4ZVXduXEkydYMnoPYlBOA/WZMOwL4h6raDfiHbvzXJHkI8D7gycA+wPtGBYkkaTLGDYhvJHk38Bvdu6g/C3xpUwtV1TnALTMmvwj4RDf8CeDFjUWfD5xVVbdU1U+As7hn0EiSJmjcu5iOAF4LXAy8HjidwRvm5mLHqrq+G/4RsGOjzc7AD4fG13fT7iHJamA1wPLly+dYkjRZdqmixWjcu5h+BfxN95k3VVVJ7tXT2VV1LHAswMqVK33SW5Lmybh9Mf0/Gtccquq35rDNG5LsVFXXJ9kJuLHR5lpg1dD4LsDZc9iWJGmONqcvpo3uD7wceMgct3kqcChwZPf99402XwX+x9CF6ecB75rj9iRJczDWReqqunnoc21V/Tlw4KaWS3IS8B1g9yTrk7yWQTA8N8mVwHO6cZKsTPLxbnu3AP8VOL/7fKCbJkmaknFPMe09NHofBkcUm1y2qg4ZMevZjbZrgH8/NH48cPw49UmS5t+4p5g+NDS8AbgGeMW8VyNJWjDGvYvpmZMuRJK0sIx7iuk/zja/qj48P+VIkhaKzbmL6UkM7kACeAFwHnDlJIqSJPVv3IDYBdi7qm4HSPJ+4LSqetWkCpMk9Wvcvph2BO4cGr+TdhcZkqQtxLhHEJ8EzktySjf+Yu7ucE+StAUa9y6m/57kDGDfbtIfV9X3JleWJKlv455iAngAcFtV/QWwPsmjJlSTJGkBGPeVo+8D3snd/SFtA/ztpIqSJPVv3COIlwAvBH4GUFXXAdtNqihJUv/GDYg7q6rouvxO8sDJlSRJWgjGDYi/S/IxYPskrwO+xjy/PEiStLBs8i6mJAFOBh4D3AbsDvxpVZ014dokST0ap8vuSnJ6VT0eMBQkaYkY9xTTBUmeNNFKJEkLyrhPUj8ZeFWSaxjcyRQGBxdPmFRhkqR+zRoQSZZX1T8Bz59SPZKkBWJTp5i+CFBVPwA+XFU/GP7MZYNJdk+ybuhzW5LDZrRZleTWoTZ/OpdtSZLmblOnmDI0/FvzscGqugLYCyDJVsC1wCmNpt+sqoPmY5uSpM23qSOIGjE8X54N/N+5Ho1IkiZnUwGxZ3cK6HbgCd3wbUluT3LbPGz/YOCkEfOekuTCJGckeeyoFSRZnWRNkjU33XTTPJQkSYJNnGKqqq0mteEk92XQv9O7GrMvAB5ZVXckOYDBtZDdRtR4LHAswMqVKydxlCNJS9LmdPc93/YHLqiqG2bOqKrbquqObvh0YJskO0y7QElayvoMiEMYcXopycO7Lj5Isg+DOm+eYm2StOSN+6DcvOp6g30u8PqhaW8AqKpjgJcBb0yyAfgFcHDXm6wkaUp6CYiq+hnw0BnTjhkaPho4etp1SZLu1ucpJknSAmZASJKaDAhJUpMBIUlqMiAkSU0GhCSpyYCQJDUZEJKkJgNCktRkQEiSmnrpamMhWnHEaX2XIEkLikcQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpqbeASHJNkouTrEuypjE/ST6S5KokFyXZu486JWmp6vtBuWdW1Y9HzNsf2K37PBn4aPctSZqChXyK6UXAJ2vgXGD7JDv1XZQkLRV9BkQBZyZZm2R1Y/7OwA+Hxtd3035NktVJ1iRZc9NNN02oVElaevoMiKdV1d4MTiW9OcnT57KSqjq2qlZW1cply5bNb4WStIT1FhBVdW33fSNwCrDPjCbXArsOje/STZMkTUEvAZHkgUm22zgMPA+4ZEazU4E/6u5m+j3g1qq6fsqlStKS1dddTDsCpyTZWMOnq+orSd4AUFXHAKcDBwBXAT8H/rinWiVpSeolIKrqamDPxvRjhoYLePM065Ik3W0h3+YqSeqRASFJajIgJElNBoQkqcmAkCQ19d1ZnyRtMVYccVov273myAMnsl6PICRJTQaEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpya42JE1EX91OaP54BCFJapp6QCTZNcnXk3w/yaVJ3tZosyrJrUnWdZ8/nXadkrTU9XGKaQPwJ1V1QZLtgLVJzqqq789o982qOqiH+iRJ9HAEUVXXV9UF3fDtwGXAztOuQ5I0u16vQSRZAfwu8N3G7KckuTDJGUkeO93KJEm93cWUZFvg88BhVXXbjNkXAI+sqjuSHAB8EdhtxHpWA6sBli9fPrmCJWmJ6eUIIsk2DMLhxKr6wsz5VXVbVd3RDZ8ObJNkh9a6qurYqlpZVSuXLVs20bolaSnp4y6mAMcBl1XVh0e0eXjXjiT7MKjz5ulVKUnq4xTTU4E/BC5Osq6b9m5gOUBVHQO8DHhjkg3AL4CDq6p6qFWSlqypB0RVfQvIJtocDRw9nYokSS0+SS1JajIgJElNBoQkqcmAkCQ1GRCSpCYDQpLUZEBIkpoMCElSkwEhSWoyICRJTQaEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlqMiAkSU0GhCSpqZeASLJfkiuSXJXkiMb8+yU5uZv/3SQreihTkpa0qQdEkq2AvwL2B/YADkmyx4xmrwV+UlX/BjgK+OB0q5Qk9XEEsQ9wVVVdXVV3Ap8BXjSjzYuAT3TDnwOenSRTrFGSlryte9jmzsAPh8bXA08e1aaqNiS5FXgo8OOZK0uyGljdjd6R5Ip5r/jX7dCqYwux5PbtKRsHPnjQVIuZZ0vu97aFmLd9y707x/LIUTP6CIh5VVXHAsdOa3tJ1lTVymltb5rct8XJfVucFsO+9XGK6Vpg16HxXbppzTZJtgYeBNw8leokSUA/AXE+sFuSRyW5L3AwcOqMNqcCh3bDLwP+d1XVFGuUpCVv6qeYumsKbwG+CmwFHF9Vlyb5ALCmqk4FjgM+leQq4BYGIbJQTO10Vg/ct8XJfVucFvy+xX/MJUktPkktSWoyICRJTQbELJIcn+TGJJcMTTs5ybruc02SdT2WOGcj9m2vJOd2+7YmyT591jhXI/ZtzyTfSXJxki8l+c0+a5yLJLsm+XqS7ye5NMnbuukPSXJWkiu77wf3XevmmmXfXt6N/yrJgr4ldJRZ9u3Pklye5KIkpyTZvudS78FrELNI8nTgDuCTVfW4xvwPAbdW1QemXty91Nq3JGcCR1XVGUkOAN5RVat6LHNORuzb+cDbq+obSV4DPKqq/nOfdW6uJDsBO1XVBUm2A9YCLwZeDdxSVUd2fZs9uKre2V+lm2+WfSvgV8DHGPz+1vRX5dzMsm+7MLhDc0MyeNRtof3ePIKYRVWdw+Auqnvouv54BXDSVIuaJyP2rYCN/1k/CLhuqkXNkxH79tvAOd3wWcDvT7WoeVBV11fVBd3w7cBlDHodGO6a5hMM/vgsKqP2raouq6pJ944wUbPs25lVtaFrdi6DwFhQFv2T1D3aF7ihqq7su5B5dBjw1ST/k8E/D/+233Lm1aUM/pB+EXg5v/6w5qLT9XD8u8B3gR2r6vpu1o+AHfuqaz7M2Lctyiz79hrg5KkXtAkeQczdISzSo4dZvBE4vKp2BQ5n8DzKluI1wJuSrAW2A+7suZ45S7It8HngsKq6bXhe90Dpoj1vPNu+LXaj9i3Je4ANwIl91TaKRxBz0HX/8VLgiX3XMs8OBd7WDX8W+HiPtcyrqroceB5Akt8GDuy3orlJsg2DPzInVtUXusk3JNmpqq7vznff2F+Fczdi37YIo/YtyauBg4BnL8TeIjyCmJvnAJdX1fq+C5ln1wHP6IafBWwxp8+SPKz7vg/wXuCYfivafN11r+OAy6rqw0OzhrumORT4+2nXdm/Nsm+L3qh9S7If8A7ghVX1877qm413Mc0iyUnAKgbd8t4AvK+qjktyAnBuVS26PzIbtfYNuAL4CwZHlv8MvKmq1vZV41yN2LdtgTd3Tb4AvGsh/sc2myRPA74JXMzgzh6AdzM4n/13wHLgB8Arqqp5c8VCNcu+3Q/4S2AZ8FNgXVU9v48a52qWffsIg/3b2BHpuVX1hulXOJoBIUlq8hSTJKnJgJAkNRkQkqQmA0KS1GRASJKaDAgtKkkeOtSb7o+SXDs0ft8xll+VZOwuRJKsSPLvNrddkpVJPjJf7e+tJGcv1t5Q1R8DQotKVd1cVXtV1V4MHnY7auN4VY3TfcYqNq+PqRXAJgNiZruqWlNVb53H9tLUGRBa9JI8Mck3kqxN8tWuuwmSvLXrg/+iJJ/pOkp7A3B4d8Sx74z1PGPoaOR7XdfMRwL7dtMO7/7z/2aSC7rPxrCZ2W5Vki9vxnqH22+b5H9l8O6Ki5L8/ow690vy2aHx4WU/msG7PC5N8l9G/LzuGBp+WffgJ0mWJfl8kvO7z1Pn+jvRFqKq/PhZlB/g/cB/Av4RWNZNeyVwfDd8HXC/bnj7oWXePmJ9XwKe2g1vy+CJ8lXAl4faPAC4fze8G7CmG57Z7l/Hx1zvcPsPAn8+NO/BM+rcGvgn4IHd+EeBV3XDD+m+twLOBp7QjZ8NrOyG7xha18uAE7rhTwNP64aXM+gaovffs5/+PnbWp8XufsDjgLMGXd6wFbCx6+uLgBOTfJFBN9+b8m3gw0lOBL5QVeu7dQ7bBjg6yV7AXQzeMzEf6x32HODgjSNV9ZPhmTV4wcxXgBck+RyDjgff0c1+RZLVDEJkJ2APBj+HcTwH2GOott9Msm1V3THLMtqCGRBa7AJcWlVPacw7EHg68ALgPUkeP9uKavBGttOAA4BvJ2n1+XM4g/6d9mRwivafN1XgmOvdXJ8B3sLgxUhrqur2JI8C3g48qap+0p06un+rpKHh4fn3AX6vqja5T1oavAahxe6XwLIkT4FBt8pJHtv12rprVX0deCeDN+RtC9zO4H0Q95Dk0VV1cVV9EDgfeEyj/YOA66vqV8AfMjhiYR7WO+ws7u5YkLTfMf0NYG/gdQzCAgZvA/wZcGuSHYH9R6z/hiS/0/2MXjI0/UzgPwxtd68Ry2uJMCC02P2KwXn0Dya5EFjH4C6lrYC/TXIx8D3gI1X1UwbXA17SukgNHJbkkiQXAf8CnMHg9MxdSS5Mcjjw18Ch3bYew+APMo12m7veYf8NeHC3zIXAM2fudFXdBXyZQQh8uZt2YbevlzO4nvDtET+zI7pl/pG7T8cBvBVY2V0Y/z6DC/pawuzNVZLU5BGEJKnJgJAkNRkQkqQmA0KS1GRASJKaDAhJUpMBIUlq+v/Aa8GYN/SqPQAAAABJRU5ErkJggg==\n" }, "metadata": { "needs_background": "light" } } ], "source": [ "tested_mean = 160.0\n", "\n", "p, t, ts = bootstrap_one_sample(heights_female, tested_mean, alternative=Alternatives.GREATER)\n", "draw_distribution([x[0] for x in ts], t)" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Wniosek\n", "\n", "Nie mamy podstaw, żeby odrzucić hipotezę zerową mówiącą, że średnia wynosi 160." ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# Dwie próby niezależne\n", "\n", "**Test t Studenta dla prób niezależnych** jest najczęściej stosowaną metodą statystyczną w celu porównania średnich z dwóch niezależnych od siebie grup. Wykorzystujemy go gdy chcemy porównać dwie grupy pod względem jakiejś zmiennej ilościowej. Na przykład gdy chcemy porównać średni wzrost kobiet i mężczyzn w danej grupie.\n", "Zazwyczaj dwie średnie z różnych od siebie grup będą się różnić. Test t Studenta powie nam jednak czy owe różnice są istotne statystycznie – czy nie są przypadkowe.\n", "Jeśli wynik testu t Studenta będzie istotny na poziomie p < 0,05 możemy odrzucić hipotezę zerową na rzecz hipotezy alternatywnej.\n", "\n", "## Hipoteza\n", "\n", "*H0: Średni wzrost w grupie mężczyzn jest taki sam jak średni w grupie kobiet. Hipoteza alternatywna z kolei* \n", "*H1: Kobiety będą niższe od mężczyzn pod względem wzrostu.*\n", "\n", "## Sprawdzenie założeń\n", "\n", "Założenie o rozkładzie normalnym danych - sprawdzane testem Shapiro-Wilka" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "p = 0.791\np = 0.7535\n" ] } ], "source": [ "shapiro_test = shapiro(heights_female)\n", "print(f\"p = {round(shapiro_test.pvalue,4)}\")\n", "\n", "shapiro_test = shapiro(heights_male)\n", "print(f\"p = {round(shapiro_test.pvalue,4)}\")" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "Wartości **p** w teście Shapiro-Wilka powyżej **0.05** -> Dane prawdopodobnie mają rozkład normalny" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Test" ] }, { "cell_type": "code", "execution_count": 58, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnie są takie same\nHipoteza alternatywna: średnia jest mniejsza\n\np: 0.0\nWartość statystyki testowej z próby: [8.04931557]\nWartości statystyk z prób boostrapowych:\n[0.2748409], [-0.61193473], [1.24335163], [-2.56879464], [0.34249038], ... (i 95 pozostałych)\n\n\n" ] }, { "output_type": "display_data", "data": { "text/plain": "
", "image/svg+xml": "\n\n\n \n \n \n \n 2022-05-18T12:02:55.815731\n image/svg+xml\n \n \n Matplotlib v3.5.2, https://matplotlib.org/\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n\n", "image/png": "\n" }, "metadata": { "needs_background": "light" } } ], "source": [ "p, t, ts = bootstrap_independent(heights_male, heights_female)\n", "ts = [x[0] for x in ts]\n", "draw_distribution(ts, t)" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Wniosek" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "# Dwie próby zależne\n", "\n", "W odróżnieniu od testu dla prób niezależnych, gdzie porównujemy dwie grupy, ten rodzaj testu stosujemy gdy poddajemy analizie tą samą pojedynczą grupę, ale dwukrotnie w czasie.\n", "\n", "**Przykład**: Porównane zostały wagi przed dietą i po diecie.\n" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "### Hipoteza\n", "H0 - Średnia waga nie uległa zmianie po zastosowaniu diety\n", "H1 - Średnia waga po diecie jest znacząco mniejsza od wagi przed dietą\n" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "\n", "### Sprawdzenie założeń\n", "\n", "Założenie o rozkładzie normalnym danych - sprawdzane testem Shapiro-Wilka" ] }, { "cell_type": "code", "execution_count": 59, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "p = 0.3308\np = 0.4569\n" ] } ], "source": [ "shapiro_test = shapiro(weights_before)\n", "print(f\"p = {round(shapiro_test.pvalue,4)}\")\n", "\n", "shapiro_test = shapiro(weights_after)\n", "print(f\"p = {round(shapiro_test.pvalue,4)}\")" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "Wartości **p** w teście Shapiro-Wilka powyżej **0.05** -> Dane prawdopodobnie mają rozkład normalny" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Test" ] }, { "cell_type": "code", "execution_count": 39, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "Wyniki bootstrapowej wersji testu T-studenta\n\nHipoteza: średnie są takie same\nHipoteza alternatywna: średnia jest mniejsza\n\np: 0.0\nWartość statystyki testowej z próby: [48.30834167]\nWartości statystyk z prób boostrapowych:\n[-0.18332849], [-1.21537352], [1.64628473], [1.06552535], [-0.71420173], ... (i 95 pozostałych)\n\n\n" ] }, { "output_type": "display_data", "data": { "text/plain": "
", "image/svg+xml": "\n\n\n \n \n \n \n 2022-05-18T12:02:30.324226\n image/svg+xml\n \n \n Matplotlib v3.5.2, https://matplotlib.org/\n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n\n", "image/png": "\n" }, "metadata": { "needs_background": "light" } } ], "source": [ "p, t, ts = bootstrap_dependent(weights_before, weights_after)\n", "ts = [x[0] for x in ts]\n", "draw_distribution(ts, t)" ] }, { "cell_type": "markdown", "metadata": { "collapsed": false }, "source": [ "## Wniosek\n", "\n", "???" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": false, "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [] }, { "cell_type": "code", "execution_count": null, "metadata": { "pycharm": { "name": "#%%\n" } }, "outputs": [], "source": [] } ], "metadata": { "interpreter": { "hash": "1b132c2ed43285dcf39f6d01712959169a14a721cf314fe69015adab49bb1fd1" }, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.10-final" } }, "nbformat": 4, "nbformat_minor": 2 }