Go to file
2024-12-14 01:00:42 +01:00
zajecia1 zajecia3 i zajecia4 2024-12-07 11:54:47 +01:00
zajecia2 zajecia3 i zajecia4 2024-12-07 11:54:47 +01:00
zajecia3 zajecia 3 fix 2024-12-07 12:04:28 +01:00
zajecia4 zajecia3 i zajecia4 2024-12-07 11:54:47 +01:00
zajecia5 add zajecia5 zajecia6 2024-12-08 13:26:08 +01:00
zajecia6 add zajecia5 zajecia6 2024-12-08 13:26:08 +01:00
zajecia7 zajecia 7 2024-12-14 01:00:42 +01:00
README.md zajecia3 i zajecia4 2024-12-07 11:54:47 +01:00

Analiza i wizualizacja danych w Pythonie

Materiały do zajęć Analiza i wizualizacja danych w Pythonie prowadzone na Wydziale Matematyki i Informatyki UAM w ramach studiów podyplomowych Przetwarzanie danych - Big Data. Kurs 2024/2025

Informacja o przedmiocie

Prowadzący:

Materiały do przedmiotu

Program jest cześciowo wzorowany na https://github.com/tomekd/python . Spora cześć zadań się pokrywa, ale nie wszystkie.

Do nauki można wykorzystać wiele tutoriali internetowych python (w wersji python3). Pomocne mogą byc w szczególności:

Ogólny Plan zajęć

  • Zajęcia 1 - Wprowadzenie do python 1/2
  • Zajęcia 2 - Wprowadzenie do python 2/2
  • Zajęcia 3 - pandas
  • Zajęcia 4 - numpy
  • Zajęcia 5 - scikit-learn 1
  • Zajęcia 6 - scikit-learn 2
  • Zajęcia 7 - przetwarzanie tekstu w python
  • Zajęcia 8 - przetwarzanie obrazów w python
  • Zajęcia 9 - zajęcia z analizy wizualizacji danych
  • Zajęcia 10 - zajęcia z analizy wizualizacji danych
  • Zajęcia 11 - zajęcia z analizy wizualizacji danych
  • Zaliczenie - Zaliczenie przedmiotu 8 luty 14:30-16.45

Zaliczenie przedmiotu

Forma

  • Projekt wykonujemy w grupach (1-3) osoby
  • Kod źródłowy powinien być umieszczony na git wraz z plikiem environment.yml przeznaczonym do instalacji środowiska dla conda
  • Prezentacja całego projektu powinna trwać 12 minut przy pomocy powerpoint lub jupyter notebook
  • Zachęcam do stworzenia bardziej rozbudowanego projektu bazującego na Państwa zainteresowaniach
  • Proszę uwzględnić, że dodatkowo należy będzie pokazać repozytorium kodu

Zadania

  • Należy wybrać interesujący zbiór danych (akceptacja grup oraz zbioru danych przez prowadzącego na drugich lub trzecich zajęciach). Np. dane tabularyczne (conajmniej 15 kolumn jeżeli jedna tabelka, może być również kilka tabelek), moga być również dane tekstowe lub obrazkowe.
  • zaprezentować analizę tego zbioru danych (tabelki, wykresy, wnioski) w max 12 minut- zaliczenie na ocenę
  • Należy wytrenować prosty model uczenia maszynowego (lub użyć gotowego modelu) i zaprezentować jego wyniki na zbiorze testowym. Jakość modelu nie będzie oceniana, ale powinien radzić sobie lepiej niż bardzo prosty model (klasa większościowa dla klasyfikacji lub średnia dla regresji)- zaliczenie na ocenę 4

Skala ocen

3 - kod i environment.yml w repozytorium, omówienie zbioru, ogólna analiza, statystki opisowe (wskaźniki + tabelki), conajmniej 3 różne wizualizacje (np. barplot, scatterplot, violinplot- powinny być poprawne wzgledem danej zmiennej) 4 - to co na 4 oraz conajmniej 5 różnych wizualizacje (np. barplot, scatterplot, violinplot, heatmapa, w tym choć jeden bardziej zaawansowany), model uczenia maszynowego w sklearn 5 - to co na 5 oraz conajmniej 2 zaawansowane wykresy/raporty w quarto

Termin oddania zadań do będzie jeszcze podany.

Dodatkowe materiały

jupyter notebook

bash

git

pycharm tutorial: