4.2 KiB
Analiza i wizualizacja danych w Pythonie
Materiały do zajęć Analiza i wizualizacja danych w Pythonie prowadzone na Wydziale Matematyki i Informatyki UAM w ramach studiów podyplomowych Przetwarzanie danych - Big Data. Kurs 2024/2025
Informacja o przedmiocie
Prowadzący:
- dr inż. Jakub Pokrywka. Kontakt przez komunikator MS TEAMS lub mailowy (jakub.pokrywka@amu.edu.pl).
- mgr Anna Kaluba
Materiały do przedmiotu
Program jest cześciowo wzorowany na https://github.com/tomekd/python . Spora cześć zadań się pokrywa, ale nie wszystkie.
Do nauki można wykorzystać wiele tutoriali internetowych python (w wersji python3). Pomocne mogą byc w szczególności:
- [https://docs.python.org/3/](Dokumentacja pythona)
- Learning Python, 5th Edition by Lutz, Mark
- datacamp.com: Portal DataCamp zawiera wiele interaktywych kursów nt. poszczególnych elementów języka Python (również dla języka R.).
- Python3: From None to Machine Learning
- Real Python
- Dive in Python: Klasyczny kurs programowania w Pythonie.
- Filmy na Youtubie: seria filmów od Microsoftu nt. podstaw programowania w Pythonie.
- Automate the boring stuff with python
Ogólny Plan zajęć
- Zajęcia 1 - Wprowadzenie do python 1/2
- Zajęcia 2 - Wprowadzenie do python 2/2
- Zajęcia 3 - pandas
- Zajęcia 4 - numpy
- Zajęcia 5 - scikit-learn
- Zajęcia 6 - przetwarzanie tekstu w python
- Zajęcia 7 - przetwarzanie obrazów w python
- Zajęcia 8 - zajęcia z analizy wizualizacji danych
- Zajęcia 9 - zajęcia z analizy wizualizacji danych
- Zajęcia 10 - zajęcia z analizy wizualizacji danych
- Zajęcia 11 - Zaliczenie
Zaliczenie przedmiotu
Forma
- Projekt wykonujemy w grupach (1-3) osoby
- Kod źródłowy powinien być umieszczony na git wraz z plikiem
environment.yml
przeznaczonym do instalacji środowiska dla conda - Prezentacja całego projektu powinna trwać 12 minut przy pomocy powerpoint lub jupyter notebook
- Zachęcam do stworzenia bardziej rozbudowanego projektu bazującego na Państwa zainteresowaniach
- Proszę uwzględnić, że dodatkowo należy będzie pokazać repozytorium kodu
Zadania
- Należy wybrać interesujący zbiór danych (akceptacja grup oraz zbioru danych przez prowadzącego na drugich lub trzecich zajęciach). Np. dane tabularyczne (conajmniej 15 kolumn jeżeli jedna tabelka, może być również kilka tabelek), moga być również dane tekstowe lub obrazkowe.
- zaprezentować analizę tego zbioru danych (tabelki, wykresy, wnioski) w max 12 minut- zaliczenie na ocenę
- Należy wytrenować prosty model uczenia maszynowego (lub użyć gotowego modelu) i zaprezentować jego wyniki na zbiorze testowym. Jakość modelu nie będzie oceniana, ale powinien radzić sobie lepiej niż bardzo prosty model (klasa większościowa dla klasyfikacji lub średnia dla regresji)- zaliczenie na ocenę 4
Skala ocen
3 - kod i environment.yml w repozytorium, omówienie zbioru, ogólna analiza, statystki opisowe (wskaźniki + tabelki), conajmniej 3 różne wizualizacje (np. barplot, scatterplot, violinplot- powinny być poprawne wzgledem danej zmiennej) 4 - to co na 4 oraz conajmniej 5 różnych wizualizacje (np. barplot, scatterplot, violinplot, heatmapa, w tym choć jeden bardziej zaawansowany), model uczenia maszynowego w sklearn 5 - to co na 5 oraz conajmniej 2 zaawansowane wykresy/raporty w quarto
Termin oddania zadań do będzie jeszcze podany.
Dodatkowe materiały
jupyter notebook
bash
- https://www.earthdatascience.org/courses/intro-to-earth-data-science/open-reproducible-science/bash/
- https://www.educative.io/blog/bash-shell-command-cheat-sheet
git
- https://git.wmi.amu.edu.pl/
- https://www.freecodecamp.org/news/learn-the-basics-of-git-in-under-10-minutes-da548267cc91/
- https://git-scm.com/docs/gittutorial
- https://git-scm.com/book/en/v2