Statystyka/podsumowanie/README.md

# Podsumowanie
Podsumowanie zajęć. Zadania z zajęć są na tym repozytorium. [Link](http://wolynski.home.amu.edu.pl/E4BC1/index.html) do strony z wykładami. DSTTLI Hasło: E4BC1


---
## LAB 1
Zakres:
- wstęp do języka R

- wykład 1 na stronie


### R
Lista:
```r
# wektory
rep(TRUE, 3)
seq(1, 20, by=1)
order(zad6, decreasing = TRUE)]

# pętle
for(i in 1:length(zad5)){}
while (licznik <= length(x)){}
repeat {
  if (licznik > length(x)) {
    break
  }
}

# funkcja, pakiety
minmax <- function(x){}
install.packages("schoolmath")
library(schoolmath)
```

### Zagadnienia
![operatory](lab1/operatory.png)

![logiczne](lab1/logiczne.png)


---
## LAB 2
Zagadnienia:
- ciąg dalszy wprowadzenie do R

- wykład 1 na stronie


### R
Lista:
```r
# ładowanie danych
dane <- read.table("dane1.csv", header = TRUE, sep = ";")
load(url("http://ls.home.amu.edu.pl/data_sets/Centrala.RData"))
ankieta <- read.table("http://ls.home.amu.edu.pl/data_sets/ankieta.txt", header = TRUE)
computers <- read.csv("http://pp98647.home.amu.edu.pl/wp-content/uploads/2021/06/computers.csv")
```


### Zagadnienia
Lista:
- **Wektor** musi zawierać takie same typy, **lista** może różne.

- **Macierze**, ogólniej to są **tablice** reprezentowane przez wektor atomowy

- **Czynniki**: dla ("f", "p", "f") zwraca "f", "p"

- **Ramki danych** to jak w excelu arkusze


---
## LAB 3
Zagadnienia:
- **Statystka opisowa** - zaprezentowanie cechy X na próbce za pomocą tabeli, wykresu

- Wykład 2 na stronie


### R
```r
# rozkład empiryczny
ankieta <- read.table("http://ls.home.amu.edu.pl/data_sets/ankieta.txt", header = TRUE)
empiryczny <- data.frame(cbind(liczebnosc = table(ankieta$wynik),
                               procent = prop.table(table(ankieta$wynik))))

# wykres ramkowy
barplot(table(ankieta$wynik),
        xlab = "Odpowiedzi", ylab = "Odpowiedzi",
        main = "Rozkład empiryczny zmiennej wynik")

# inne
install.packages("e1071")
library(e1071)
skewness(x)
kurtosis(x)
```


### Zagadnienia
Lista:
- **Miara asymetrii rozkładu** - w którą stronę - prawo/lewo, zmienna się rozkłada.
    - zero to symetryczny
    - dodatnie to prawostronnie asymetryczny - lewa część jest większa
    - ujemna to lewostronnie asymetryczna - prawa część jest większa<br/>
![asymetria](lab3/asymetria.png)

- **Kurtoza** - miara skupienia wartości wokół średniej. Porównuje rozkład empiryczny z rozkładem normalnym.
    - Większa niż 0, im większa wartość tym bardziej wartości skupione wokół średniej
    - Dla rozkładu normalnego = 0
    - Dla ujemnych (min -2) wykres jest bardziej spłaszczony niż rozkłąd normalny<br/>
![kurtoza](lab3/kurtoza.png)

- **Odchylenie standardowe** - intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (na przykład wieku, inflacji, kursu walutowego) są rozrzucone wokół jej średniej.
Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej. Odchylenie standardowe z próby ma trochę inny wzór [link](https://pl.wikipedia.org/wiki/Odchylenie_standardowe#Odchylenie_standardowe_z_próby)

- **Współczynnik zmienności** - podaje się w procentach, jest to relacja odchylenia standardowego ze średnią. Mówi nam jak bardzo wartości odbiegają od siebie. Dzięki temu ze jest w procentach mozemy porównywać rózne rozkłady.
    - [Przykład](https://pl.wikipedia.org/wiki/Współczynnik_zmienności)
<br/><br/>

- **Funkcja gęstości** - nieujemna funkcja rzeczywista, określona dla rozkładu prawdopodobieństwa, taka że całka z tej funkcji, obliczona w odpowiednich granicach, jest równa prawdopodobieństwu wystąpienia danego zdarzenia losowego.

- **Histogram** – składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe wartości cechy, natomiast ich wysokość jest określona przez liczebności (lub częstości, ewentualnie gęstość prawdopodobieństwa) elementów wpadających do określonego przedziału klasowego.

- **Kwantyl** rzędu p to taka zmienna dla której prawdopodobieństwo wystąpienia od 0 do tej zmiennej jest równe p.
Kwantyl rzędu 1/2 to inaczej mediana. Kwantyle rzędu 1/4, 2/4, 3/4 są inaczej nazywane kwartylami.
    - pierwszy kwartyl (notacja: Q1) = dolny kwartyl = kwantyl rzędu 1/4 = 25% obserwacji jest położonych poniżej
    - drugi kwartyl (notacja: Q2) = mediana = kwantyl rzędu 1/2 = dzieli zbiór obserwacji na połowę
    - trzeci kwartyl (notacja: Q3) = górny kwartyl = kwantyl rzędu 3/4 = dzieli zbiór obserwacji na dwie części odpowiednio po 75% położonych poniżej tego kwartyla i 25% położonych powyżej<br/>
![kwanty](lab3/kwantyl.png)

- **Wykres ramkowy**<br/>
![ramkowy1](lab3/ramkowy1.png)
![ramkowy2](lab3/ramkowy2.png)

- **Rozkład empiryczny** – uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną w próbie przy pomocy częstości ich występowania.

- Statystki opisowe - rodzaje<br/>
![dodatek](lab3/dodatek.png)


---
## LAB 4
Zagadnienia:
- rozkłady statystyczne

- wykład 3 i 4 na stronie


### R
```r
# odchylenie standardowe dla próby to musimy dodatkowo pomnozyc przez ten pierwiastek na koncu!!!
a_est_mm <- mean(czas_oczek_tramwaj) - sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))

barplot(counts, 
        xlab = "Liczba zgloszen", ylab = "Prawdopodobienstwo",
        main = "Rozklady empiryczny i teoretyczny liczby zgloszen",
        col = c("red", "blue"), legend = rownames(counts), beside = TRUE)

#kwanty-kwantyl, linia to moj estymator
qqplot(rpois(length(Centrala$Liczba), lambda = lambda_est), Centrala$Liczba,
       xlab = "Kwantyle teoretyczne", ylab = "Kwantyle empiryczne",
       main = "Wykres kwantyl-kwantyl dla liczby zgloszen")
qqline(Centrala$Liczba, distribution = function(probs) { qpois(probs, lambda = lambda_est) })

# odchylenie standardowe dla próby to musimy dodatkowo pomnozyc przez ten pierwiastek na koncu!!!
a_est_mm <- mean(czas_oczek_tramwaj) - 
  sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))
b_est_mm<- mean(czas_oczek_tramwaj) + 
  sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))

# metoda największej warygodności
a_est <- min(czas_oczek_tramwaj)
b_est <- max(czas_oczek_tramwaj)

# metoda najwiekszej warygodnosci
curve(dunif(x, a_est, b_est), 
      add = TRUE, col = "blue", lwd = 2)

#metoda momentów
curve(dunif(x, a_est_mm, b_est_mm), 
      add = TRUE, col = "green", lwd = 2)

# bootstrap
library(boot)
dane <- rnorm(100)
meanboot <- function(x,i)mean(x[i])
bmean=boot(dane,meanboot,1000)
hist(bmean$t-mean(dane),prob=T,main='')
curve(dnorm(x,0,1/sqrt(length(dane))),add=T,col='red')

# monte carlo
dane <- rnorm(100)
mcmean <- vector('numeric',1000)
for(i in 1:1000) mcmean[i] <- mean(rnorm(100))
hist(mcmean,prob=T,main='')
curve(dnorm(x,0,0.1),add=T,col='red')
```


### Rozkłady statystyczne
Jeżeli próbka jest reprezentatywna, to stanowi ona podstawę do wnioskowania o populacji z której pochodzi. Wnioskowanie takie wymaga zbudowania modelu “zachowania się” zmiennej (cechy) X w populacji. Budowa modelu polega na przyjęciu założenia o rozkładzie (teoretycznym) zmiennej X w populacji oraz traktowaniu obserwacji jako wartości tej zmiennej.
<br/><br/>

W wykresach na dole to wartość cechy a wysokość słupka to prawdopodobieństwo wystąpienia tej wartości.

- Rozkład Dwumianowy:<br/>
![dwumianowy](lab4/dwumianowy.png)
![dwumianowy2](lab4/dwumianowy2.png)

- Rozkład Poissona:<br/>
![poissona](lab4/poissona.png)

- Rozkład Jednostajny:<br/>
![jednostajny](lab4/jednostajny.png)
![jednostajny2](lab4/jednostajny2.png)

- Rozkład Normalny:<br/>
![normalny](lab4/normalny.png)

- Rozkład Wykładniczy:<br/>
![wykladniczy](lab4/wykladniczy.png)
![wykladniczy2](lab4/wykladniczy2.png)

- Rozkład Rayleigha:<br/>
![rayleigh](lab4/rayleigh.png)
![rayleigh2](lab4/rayleigh2.png)

- Inne rozkłady:<br/>
![inne](lab4/inne.png)


### Zagadnienia
- Wykres kwantyl-kwantyl - służy do porównania dwóch rozkładów na podstawie kwantyli. Może służyć do porównania wartości estymowanych z rzeczywistymi. Punkt (x,y) odpowiada jednemu kwantylowi drugiego rodzaju - współrzędna y względem kwantyla tego samego rzędu pierwszego rozkładu - współrzędna x.<br/>
![kwantylkwantyl](lab4/kwantylkwantyl.png)

- Empiryczne - wynikające z doświadczenia

- Próba statystyczna – zbiór obserwacji statystycznych wybranych (zwykle wylosowanych) z populacji.


### Estymacja
- Estymator - statystyka (funkcja mierzalna określona na przestrzeni statystycznej) służąca do szacowania wartości parametru rozkładu.

- Estymator nieobciążony - wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.

- Moment - moment zwykły rzędu k zmiennej losowej to wartość oczekiwana k-tej potęgi tej zmiennej.
    - zmienna losowa to funkcja prawdopodobieństwa
    - wartość oczekiwana to wartość określająca spodziewany wynik doświadczenia losowego. Dobrym estymatorem wartości oczekiwanej jest średnia.<br/>
![moment](lab4/moment.png)

- Metody wyznaczania estymatorów:

    - Metoda momentów. Zwykle momenty uk są funkcjami parametrów. Tworzymy układ równań uk = estymator momentu<br/>
    ![metodamomentow](lab4/metodamomentow.png)
    ![metodamomentow2](lab4/metodamomentow2.png)

    - Metoda największej wiarogodności<br/>
    ![nw](lab4/nw.png)

    - Metoda Monte Carlo - losowanie, porównywanie<br/>
    ![mc1](lab4/mc1.png)
    ![mc2](lab4/mc2.png)

    - Metoda bootstrapowa - mamy jakąś próbę z n obeserwacjami i z tej próby losujemy elementy - uzyskujemy próbkę bootstrapową. Powtarzając ten proces otrzymujemy ciąg próbek i odpowiadających jej wartości statystyki. Dzięki tej metodzie, wyniki testów parametrycznych i analiz opartych o modele liniowe są bardziej precyzyjne. Metoda szacowania (estymacji) wyników poprzez wielokrotne losowanie ze zwracaniem z próby. Przydatna gdy nie znamy typu rozkładu.<br/>
    ![bootstrap](lab4/bootstrap.png)


- Rozkłady estymatorów

    - chi-kwadrat - rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym.<br/>
    ![chi](lab4/chi.png)

    - Model wykładniczy<br/>
    ![ewykladniczy](lab4/ewykladniczy.png)

    - Model normalny<br/>
    ![enormalny](lab4/enormalny.png)


---
## LAB 5
Zagadnienia:
- przedziały ufności

- wykład 5 na stronie


### R
```r
# klasyczne przedziały ufności
library(EnvStats)
epois(Centrala$Liczba,
      method = "mle/mme/mvue",
      ci = TRUE, ci.type = "two-sided", conf.level = 0.95, 
      ci.method = "exact")$interval$limits
eexp(Czas,ci=T)

# klasyczne przedziały ufności
load("Awarie.RData")
attach(Awarie)
m <- mean(Czas)
n <- length(Czas)
a <- 0.05

# chi-kwadrat
L <- qchisq(a/2,2*n)/(2*n*m) 
R <- qchisq(1-(a/2),2*n)/(2*n*m)

# bootstrapowe przedziały ufności
library(boot)
load("Awarie.RData")
attach(Awarie)
lambdaboot <- function(x,i) 1/mean(x[i])
blambda <- boot(Czas,lambdaboot,1000)
boot.ci(blambda,conf=0.95,type='perc')
```


### Zagadnienia
- Estymacja przedziałowa - np jakieś urządzenie moze działać na pewnym przedziale wartości.

- Chcemy "złapać" jakąś wartość w przedział. Jest to lepsze niz próba oszacowania dokładnej wartości.
Jeżeli konstruujemy jakiś przedział z poziomem ufności 0,95 to na 100 prób w 95 nasz parametr jest w przedziale.

- Na podstawie funkcji centralnej mozemy stworzyć przedziały ufności. Funkcję centralną bierzemy z tabelki.
Podstawiamy funkcję centralną do prawdopodobieństwa oraz 1-a, wsadzamy parametr pomiędzy funkcję i wyliczamy a i b. a i b to przedział ufności. Jest przykład w pdfie w labach 5.<br/>
![ufnosc](lab5/ufnosc.png)

- Rozkład t-Studenta - kolejny typ rozkładu. Podobny to rozkładu normalnego.<br/>
![student](lab5/student.png)

- Dodatkowe<br/>
![inne](lab5/inne.png)

- Bootstrapowe przedziały ufności - po prostu przedział ufności z próbki bootstrapowej. (Z niewielkiej próby tworzymy losując ze zwracaniem zestaw wielu prób)<br/>
![bootstrap](lab5/bootstrap.png)


---
## LAB 6
Zagadnienia:
- testy statystyczne, testowanie hipotez statystycznych

- testy t-studenta

- wykład 6 i 7 na stronie


### R
```r
x <- c(78.2, 78.5, 75.6, 78.5, 78.5, 77.4, 76.6)
y <- c(76.1, 75.2, 75.8, 77.3, 77.3, 77.0, 74.4, 76.2, 73.5, 77.4)
boxplot(x, y)

shapiro.test(x)$p.value
qqnorm(x)
qqline(x)

shapiro.test(y)$p.value
qqnorm(y)
qqline(y)

var(x)
var(y)
var.test(x, y, alternative = "less")$p.value
```


## Testy statystyczne
- Testujemy czy wartość parametru jest istotnie różna od zadanej wartości. Musimy podać hipotezę alternatywną - działanie które podejmujemy jeśli hipoteza zerowa jest fałszywa.

- Obszary krytyczne<br/>
![krytyczne](lab6/krytyczne.png)

- Błędy pierwszego i drugiego rodzaju. Przez to możemy podjąć dwie decyzje - "odrzucamy hipotezę zerową" lub "nie ma podstaw do odrzucenia hipotezy zerowej".
    - Odrzucamy hipotezę zerową gdy jest ona prawdziwa - błąd I rodzaju.

    - Przyjmujemy hipotezę zerową gdy jest ona fałszywa - błąd II rodzaju.<br/>
    ![bledy](lab6/bledy.png)<br/><br/>


- Wybór wartości krytycznej - Ustalamy poziom istotności testu α i dobieramy wartość krytyczną tak, aby
     - prawdopodobieństwo popełnienia błędu I rodzaju było mniejsze lub równe α,

     - prawdopodobieństwo popełnienia błędu II rodzaju było minimalne.<br/><br/>


- Testy ilorazu wiarogodności<br/>
![wiarygodnosc](lab6/wiarygodnosc.png)


### Zagadnienia
- P-wartość (p-value) to graniczny poziom istotności - najmniejszy, przy którym zaobserwowana wartość statystyki testowej prowadzi do odrzucenia hipotezy zerowej. Im p-wartość jest większa, tym bardziej hipoteza H0 jest prawdziwa. Im mniejsza tym niej prawdopodobna jest hipoteza H0. Wartość p, p-wartość, prawdopodobieństwo testowe. Sposoby obliczania z obszaru:
    - Prawostronny obszar krytyczny

    - Lewostronny obszar krytyczny

    - Dwustronny obszar krytyczny<br/><br/>


- Test t Studenta jest metodą statystyczną służącą do porównania dwóch średnich między sobą jeśli znamy liczbę badanych osób, średnią arytmetyczną oraz wartość odchylenia standardowego lub wariancji.
<br/><br/>
Jest to jeden z mniej skomplikowanych i bardzo często wykorzystywanych testów statystycznych używanych do weryfikacji hipotez. Dzięki niemu możemy dowiedzieć się czy dwie różne średnie są różne niechcący (w wyniku przypadku) czy są różne istotnie statystycznie (np. z uwagi na naszą manipulację eksperymentalna).
<br/><br/>
Są gotowe wzory do których podstawiamy wartości w zalezności od rodzaju próby. **Przykład w pdf w labach 6 - dla jednej próby lub dla dwóch wzory są na stronie**.
    - Założenie normalności rozkładów błędów możemy (ewentualnie) zastąpić założeniem mówiącym o dysponowaniu dużą próbą, tzn.
    
    - Próby niezależne - obserwacje w poszczególnych populacjach (grupach) dokonywane są na różnych jednostkach eksperymentalnych.

    - Próby zależne - obserwacje dokonywane są dwukrotnie na tych samych jednostkach eksperymentalnych.<br/><br/>


- Test Shapiro-Wilka- hipotezy:
    - H0 : Próba pochodzi z populacji o rozkładzie normalnym
    
    - H1 : Próba nie pochodzi z populacji o rozkładzie normalnym.


    Hipoteza zerowa tego testu mówi nam o tym, że nasza próba badawcza pochodzi z populacji o normalnym rozkładzie. Jeśli test Shapiro-Wilka osiąga istotność statystyczną (p < 0,05), świadczy to o rozkładzie oddalonym od krzywej Gaussa. W przypadku tego testu najczęściej chcemy otrzymać wartości nieistotne statystyczne (p > 0,05), ponieważ świadczą one o zgodności rozkładu zmiennej z rozkładem normalnym.

- Var.test (test F dla dwóch wariancji) - wariancja - Intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości. Wg dokumentacji jest to test pozwalający porównać wariancje z dwóch rozkładów normalnych.