moj-2024-ns-cw/04_zadania.ipynb

1.7 KiB

Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami

Zadania (jeżeli wymagają napisania programu) piszemy w języku Python

Zadanie 1 (170 punktów)

Na podstawie zbioru danych https://huggingface.co/datasets/mteb/tweet_sentiment_extraction stwórz model bazujący na dwukierunkowej sieci neuronowej LSTM (proszę skorzystać z gotowego modułu LSTM w bibliotece torch) do klasyfikacji sentymentu tekstów w postaci tweetów. Można skorzystać z gotowych embeddingów lub wytrenować własne - względem uznania. Metody filtrowania tekstów (często zawierają wiele różnych znaków/symboli, które mogą mieć znaczenie) również należą do Państwa zadania.

Model należy wytrenować na podzbiorze "train" ze zbioru danych, natomiast ewaluację dokonujemy na podzbiorze "test".

Liczba punktów zależy od wyniku metryki accuracy na zbiorze testowym:

  • 0-50% - 0 punktów
  • 50-60% - 40 punktów
  • 60-70% - 70 punktow
  • 70-80% - 120 punktów
  • 80-100% (lub 2 najlepsze wyniki powyżej 70%) - 170 punktów