SysInf/Tematy projektów_2023.ipynb

8.2 KiB

Tematy projektów proponowanych w roku akademickim 2023/2024

W ninejszym pliku podane są przykładowe tematy projektów, które mogą stać się inspiracją do projektu wykonywanego przez studentów w roku akaedmickim 2023/2024.

W pierwszej części podane są tematy nowych projektów - proponowanych obecnie.

W drugiej części podane są tematy projektów realizowanych w roku akademickim 2022/2023, w których zawarty był element analizy danych / uczenia maszynowego.

Grupa może wybrać temat:

  • spośród proponowanych obecnie,
  • spośród realizowanych w roku 2022/2023,
  • włąsny w uzgodnieniu z wykładowcą.

Warunkiem akceptacji tematu jest zastosowanie metody uczenia maszynowego.

Warunkiem koniecznym zaliczenia projektu będzie ewaluacja modelu opracowanego w ramach zadania w systemie Gonito lub na platformie Kaggle.

Tematy nowe

Temat oparty na wyzwaniu z platformy Gonito

Grupa może wybrać dowolny temat oparty na istniejącym wyzwaniu na platformie Gonito. Dokładna treść projektu powinna zostać uzgodniona z prowadzącymi. Przykładowe wyzwania z platformy Gonito, które mogą stać się inspiracją dla projektów to:

  • wyzwania zwiąane z wyceną mieszkań
  • wyzwanie Meteo Rain - prognoza opadów deszczu

Temat oparty na wyzwaniu z platformu Kaggle

Platforma Kaggle udostępnia dużą liczbę wyzwań - dla każdego z nich podając zbiory danych trenujących. Dodatkową motywacją skorzystania z danych na tej platformie jest możliwość (ale nie jest to konieczność) wzięcia udziału w konkursie z dziedziny uczenia maszynowego.

https://www.kaggle.com/datasets

Temat oparty na danych z GUS

Główny urząd statystyczny udostępnia zestawy danych w formacie _csv dotyczące życia w Polsce. Na podstawie tych danych można wytrenować system uczenia mazynowego pomocny w analizie i przewidywaniu zachowań polskiego społeczeństwa.

https://stat.gov.pl/

Temat oparty na danych dotyczących Europy

Eurostat jest europejskim odpowiednikiem GUSu. Dane satystystyczne z tego zbioru są dostępne tutaj:

https://ec.europa.eu/eurostat/data/database

Temat oparty na danych z wyszukiwarki Google

W wyszukiwarce Google dzięki odpowiedniemu zapytaniu można odszukać zbiór danych trenujących do zadanego przez siebie tematu. Warto wypróbować tę możliwość - nawet jeśli nie doprowadzi do sformułowania tematu.

https://datasetsearch.research.google.com/

Tematy proponowane lub realizowane w roku 2022/2023

Portfel inwestycyjny

Celem projektu jest opracowanie algorytmu predykcji notowań spółek na bazie danych z www.gpw.pl/archiwum-notowan.

Komentarz (2023): Projekt został zrealizowany, ale model predykcji nie został poddany ewaluacji.

Handel walutami

Celem projektu jest opracowanie algorytmu predykcji notowań walut na podstawie danych ze strony https://www.nbp.pl/home.aspx?f=/statystyka/kursy.html. Tak opracowany algorytm należy zastosować w atrakcyjnej aplikacji, np. w grze dla wielu osób handlujących walutami (w grze należy założyć, że gracze nie mają wglądu w przyszłe notowania i określić zasady zwycięstwa).

Komentarz (2023): Ten temat nie został wybrany w roku 2022.

Anonimizacja zdjęć pojazdów

Celem projektu jest wytrenowanie algorytmu uczenia maszynowego, który znajduje i zasłania wrażliwe elementy na zdjęciu pojazdu. Są to m.in. tablice rejestracyjne i twarze osób znajdujących się w pojeździe. Algorytm może bazować na kodzie otwarto-źródłowym. Do trenowania należy skorzystać z bazy danych zdjęć udostępnionej specjalnie dla tego projektu. W ramach projektu wskazane jest opracowanie również interfejsu użytkownika.

Komentarz (2023): Projekt w efekcie nie był realizowany z powodu braku dostępu do bazy zdjęć. W przypadku realizacji tego projektu niezbędne byłoby pozyskania bazy danych zdjęć.

Wycena wartości szkody na podstawie zdjęć

Celem projektu jest wytrenowanie algorytmu uczenia maszynowego, który szacuje wartość szkody na podstawie zestawu zdjęć uszkodzonego pojazdu. Algorytm może bazować na kodzie otwarto-źródłowym. Do trenowania należy skorzystać z bazy danych zdjęć udostępnionej specjalnie dla tego projektu.

Komentarz (2023): Projekt realizowano w dwóch niezależnych grupach. Obie grupy miały spore trudności z pozyskaniem odpowiednio dużej bazy danych.

Generowanie obrazów z ich opisów

Celem projektu jest wykorzystanie otwartego kodu do generowania obrazów z tekstu (https://stability.ai/blog/stable-diffusion-public-release). (Przykład takiego wykorzystania można zobaczyć na stronie creator.nightcafe.studio.) W projekcie można wykorzystać dostępny kod w dowolny sposób.

Komentarz (2023): Ten temat nie został wybrany w roku 2022. Wydaje się, że aby ten temat mógł być zastosowany obecnie, należałoby dla wybranego zadania opracować jakąś metodę ewaluacji oraz przygotować zbiór testowy.

Rozpoznawanie biedronki azjatyckiej

Celem projektu było zaklasyfikowanie zdjęcia zawierającego biedronkę do jednej z klas: biedronka polska i biedronka azjatycka.

Komentarz (2023): Ten niezwykle przydatny temat (wydaje się, że polska biedronka jest pod ochroną, a azjatycka jest szkodnikiem) został wymyślony przez studentów. Realizacja tego projektu wymagała wygenerowania sztucznych danych treningowych (np. poprzez przetworzenie istniejących zdjęć) ze względu na niewielką liczbę danych autentycznych.

Czym jest system Gonito?

Gonito to platforma do oceny skuteczności algorytmów sztucznej inteligencji. W systemie Gonito tworzone są tzw. wyzwania, które służą do ewaluacji rozwiązań określonego zadania. Wyzwanie składa się z następujących elementów:

  • opis zadania, które ma być rozwiązane algorytmem uczenia maszynowego;
  • otwarte repozytorium algorytmów służących do rozwiązania zadania; użytkownicy platformy przekazują swoje propozycje algorytmów do tego repozytorium;
  • zestaw danych testowych, do których porównywane są wyniki działania wszystkich algorytmów znajdujących się w repozytorium;
  • metryka oceny algorytmów z repozytorium;
  • tabela ocen algorytmów z repozytorium wyliczonych według metryki oceny.