Statystyka/podsumowanie
Jakub Adamski 36e5d414a8 fix
2021-06-18 11:27:22 +02:00
..
lab1 lab1-3 2021-06-17 15:50:43 +02:00
lab3 lab1-3 2021-06-17 15:50:43 +02:00
lab4 lab4 done 2021-06-18 11:25:55 +02:00
README.md fix 2021-06-18 11:27:22 +02:00

Podsumowanie

Podsumowanie zajęć. Zadania z zajęć są na tym repozytorium. Link do strony z wykładami. DSTTLI Hasło: E4BC1


LAB 1

Zakres:

  • wstęp do języka R

  • wykład 1 na stronie

R

Lista:

# wektory
rep(TRUE, 3)
seq(1, 20, by=1)
order(zad6, decreasing = TRUE)]

# pętle
for(i in 1:length(zad5)){}
while (licznik <= length(x)){}
repeat {
  if (licznik > length(x)) {
    break
  }
}

# funkcja, pakiety
minmax <- function(x){}
install.packages("schoolmath")
library(schoolmath)

Zagadnienia

operatory

logiczne


LAB 2

Zagadnienia:

  • ciąg dalszy wprowadzenie do R

  • wykład 1 na stronie

R

Lista:

# ładowanie danych
dane <- read.table("dane1.csv", header = TRUE, sep = ";")
load(url("http://ls.home.amu.edu.pl/data_sets/Centrala.RData"))
ankieta <- read.table("http://ls.home.amu.edu.pl/data_sets/ankieta.txt", header = TRUE)
computers <- read.csv("http://pp98647.home.amu.edu.pl/wp-content/uploads/2021/06/computers.csv")

Zagadnienia

Lista:

  • Wektor musi zawierać takie same typy, lista może różne.

  • Macierze, ogólniej to są tablice reprezentowane przez wektor atomowy

  • Czynniki: dla ("f", "p", "f") zwraca "f", "p"

  • Ramki danych to jak w excelu arkusze


LAB 3

Zagadnienia:

  • Statystka opisowa - zaprezentowanie cechy X na próbce za pomocą tabeli, wykresu

  • Wykład 2 na stronie

R

# rozkład empiryczny
ankieta <- read.table("http://ls.home.amu.edu.pl/data_sets/ankieta.txt", header = TRUE)
empiryczny <- data.frame(cbind(liczebnosc = table(ankieta$wynik),
                               procent = prop.table(table(ankieta$wynik))))

# wykres ramkowy
barplot(table(ankieta$wynik),
        xlab = "Odpowiedzi", ylab = "Odpowiedzi",
        main = "Rozkład empiryczny zmiennej wynik")

# inne
install.packages("e1071")
library(e1071)
skewness(x)
kurtosis(x)

Zagadnienia

Lista:

  • Miara asymetrii rozkładu - w którą stronę - prawo/lewo, zmienna się rozkłada.

    • zero to symetryczny
    • dodatnie to prawostronnie asymetryczny - lewa część jest większa
    • ujemna to lewostronnie asymetryczna - prawa część jest większa
      asymetria
  • Kurtoza - miara skupienia wartości wokół średniej. Porównuje rozkład empiryczny z rozkładem normalnym.

    • Większa niż 0, im większa wartość tym bardziej wartości skupione wokół średniej
    • Dla rozkładu normalnego = 0
    • Dla ujemnych (min -2) wykres jest bardziej spłaszczony niż rozkłąd normalny
      kurtoza
  • Odchylenie standardowe - intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (na przykład wieku, inflacji, kursu walutowego) są rozrzucone wokół jej średniej. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej. Odchylenie standardowe z próby ma trochę inny wzór link

  • Współczynnik zmienności - podaje się w procentach, jest to relacja odchylenia standardowego ze średnią. Mówi nam jak bardzo wartości odbiegają od siebie. Dzięki temu ze jest w procentach mozemy porównywać rózne rozkłady.

  • Funkcja gęstości - nieujemna funkcja rzeczywista, określona dla rozkładu prawdopodobieństwa, taka że całka z tej funkcji, obliczona w odpowiednich granicach, jest równa prawdopodobieństwu wystąpienia danego zdarzenia losowego.

  • Histogram składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe wartości cechy, natomiast ich wysokość jest określona przez liczebności (lub częstości, ewentualnie gęstość prawdopodobieństwa) elementów wpadających do określonego przedziału klasowego.

  • Kwantyl rzędu p to taka zmienna dla której prawdopodobieństwo wystąpienia od 0 do tej zmiennej jest równe p. Kwantyl rzędu 1/2 to inaczej mediana. Kwantyle rzędu 1/4, 2/4, 3/4 są inaczej nazywane kwartylami.

    • pierwszy kwartyl (notacja: Q1) = dolny kwartyl = kwantyl rzędu 1/4 = 25% obserwacji jest położonych poniżej
    • drugi kwartyl (notacja: Q2) = mediana = kwantyl rzędu 1/2 = dzieli zbiór obserwacji na połowę
    • trzeci kwartyl (notacja: Q3) = górny kwartyl = kwantyl rzędu 3/4 = dzieli zbiór obserwacji na dwie części odpowiednio po 75% położonych poniżej tego kwartyla i 25% położonych powyżej
      kwanty
  • Wykres ramkowy
    ramkowy1 ramkowy2

  • Rozkład empiryczny uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną w próbie przy pomocy częstości ich występowania.

  • Statystki opisowe - rodzaje
    dodatek


LAB 4

Zagadnienia:

  • rozkłady statystyczne

  • wykład 3 i 4 na stronie

R

# odchylenie standardowe dla próby to musimy dodatkowo pomnozyc przez ten pierwiastek na koncu!!!
a_est_mm <- mean(czas_oczek_tramwaj) - sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))

barplot(counts, 
        xlab = "Liczba zgloszen", ylab = "Prawdopodobienstwo",
        main = "Rozklady empiryczny i teoretyczny liczby zgloszen",
        col = c("red", "blue"), legend = rownames(counts), beside = TRUE)

#kwanty-kwantyl, linia to moj estymator
qqplot(rpois(length(Centrala$Liczba), lambda = lambda_est), Centrala$Liczba,
       xlab = "Kwantyle teoretyczne", ylab = "Kwantyle empiryczne",
       main = "Wykres kwantyl-kwantyl dla liczby zgloszen")
qqline(Centrala$Liczba, distribution = function(probs) { qpois(probs, lambda = lambda_est) })

# odchylenie standardowe dla próby to musimy dodatkowo pomnozyc przez ten pierwiastek na koncu!!!
a_est_mm <- mean(czas_oczek_tramwaj) - 
  sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))
b_est_mm<- mean(czas_oczek_tramwaj) + 
  sqrt(3) * sd(czas_oczek_tramwaj) * sqrt((length(czas_oczek_tramwaj) - 1) / (length(czas_oczek_tramwaj)))

# metoda największej warygodności
a_est <- min(czas_oczek_tramwaj)
b_est <- max(czas_oczek_tramwaj)

# metoda najwiekszej warygodnosci
curve(dunif(x, a_est, b_est), 
      add = TRUE, col = "blue", lwd = 2)

#metoda momentów
curve(dunif(x, a_est_mm, b_est_mm), 
      add = TRUE, col = "green", lwd = 2)

Rozkłady statystyczne

Jeżeli próbka jest reprezentatywna, to stanowi ona podstawę do wnioskowania o populacji z której pochodzi. Wnioskowanie takie wymaga zbudowania modelu “zachowania się” zmiennej (cechy) X w populacji. Budowa modelu polega na przyjęciu założenia o rozkładzie (teoretycznym) zmiennej X w populacji oraz traktowaniu obserwacji jako wartości tej zmiennej.

W wykresach na dole to wartość cechy a wysokość słupka to prawdopodobieństwo wystąpienia tej wartości.

  • Rozkład Dwumianowy:
    dwumianowy dwumianowy2

  • Rozkład Poissona:
    poissona

  • Rozkład Jednostajny:
    jednostajny jednostajny2

  • Rozkład Normalny:
    normalny

  • Rozkład Wykładniczy:
    wykladniczy wykladniczy2

  • Rozkład Rayleigha:
    rayleigh rayleigh2

  • Inne rozkłady:
    inne

Zagadnienia

  • Wykres kwantyl-kwantyl - służy do porównania dwóch rozkładów na podstawie kwantyli. Może służyć do porównania wartości estymowanych z rzeczywistymi. Punkt (x,y) odpowiada jednemu kwantylowi drugiego rodzaju - współrzędna y względem kwantyla tego samego rzędu pierwszego rozkładu - współrzędna x.
    kwantylkwantyl

  • Empiryczne - wynikające z doświadczenia

Estymacja

  • Estymator - statystyka (funkcja mierzalna określona na przestrzeni statystycznej) służąca do szacowania wartości parametru rozkładu.

  • Estymator nieobciążony - wartość oczekiwana rozkładu estymatora jest równa wartości szacowanego parametru.

  • Moment - moment zwykły rzędu k zmiennej losowej to wartość oczekiwana k-tej potęgi tej zmiennej.

    • zmienna losowa to funkcja prawdopodobieństwa
    • wartość oczekiwana to wartość określająca spodziewany wynik doświadczenia losowego. Dobrym estymatorem wartości oczekiwanej jest średnia.
      moment
  • Metody wyznaczania estymatorów:

    • Metoda momentów. Zwykle momenty uk są funkcjami parametrów. Tworzymy układ równań uk = estymator momentu
      metodamomentow metodamomentow2

    • Metoda największej wiarogodności
      nw

    • Metoda Monte Carlo - losowanie, porównywanie
      mc1 mc2

    • Metoda bootstrapowa - mamy jakąś próbę z n obeserwacjami i z tej próby losujemy elementy - uzyskujemy próbkę bootstrapową. Powtarzając ten proces otrzymujemy ciąg próbek i odpowiadających jej wartości statystyki. Dzięki tej metodzie, wyniki testów parametrycznych i analiz opartych o modele liniowe są bardziej precyzyjne. Metoda szacowania (estymacji) wyników poprzez wielokrotne losowanie ze zwracaniem z próby. Przydatna gdy nie znamy typu rozkładu.
      bootstrap

  • Rozkłady estymatorów

    • chi-kwadrat - rozkład zmiennej losowej, która jest sumą k kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym.
      chi

    • Model wykładniczy
      ewykladniczy

    • Model normalny
      enormalny


LAB 5

Zagadnienia:

  • przedziały ufności

  • wykład 5 na stronie

R

Zagadnienia


LAB 6

Zagadnienia:

  • testy statystyczne, testowanie hipotez statystycznych

  • testy t-studenta

  • wykład 6 i 7 na stronie

R

Zagadnienia