5.3 KiB
5.3 KiB
Modelowanie Języka
9. Model neuronowy typu word2vec [ćwiczenia]
Zadania
Proszę wykonać zadanie 1 lub zadanie 2 (nie oba naraz). Zadanie 3 można zrobić niezależnie.
Zadanie 1
Wzorując się na materiałach z wykładu stworzyć 5-gramowy model neuronowy oparty na jednym ze schematów z wykładu, np.
Warunkiem koniecznym jest, żeby przewidywać słowo środkowe, np. Mając tekst ['Ala', 'ma', '[MASK]' 'i', 'psa'] chcemy przewidzieć kontekst środkowego słowa (tutaj '[MASK]')
Warunki zaliczenia:
- wynik widoczny na platformie zarówno dla dev i dla test
- wynik dla dev i test lepszy (niższy) niż 6.50 (liczone przy pomocy geval)
- deadline do końca dnia 15 maja 2024
- commitując rozwiązanie proszę również umieścić rozwiązanie w pliku /run.py (czyli na szczycie katalogu). Można przekonwertować jupyter do pliku python przez File → Download as → Python. Rozwiązanie nie musi być w pythonie, może być w innym języku.
- zadania wykonujemy samodzielnie
- w nazwie commita podaj nr indeksu
- w tagach podaj neural-network oraz 5gram!
- zadanie tym razem jest dla polskiego odpowiednika word-gap https://gonito.net/challenge-my-submissions/retro-gap
- metryka to LogLossHashed (praktycznie to samo, co PerlpexityHased). Przelicznik, to LogLossHased = log(PerplexityHashed). Podając równe prawd. dla każdego słowa dostaniemy 6.93, bo log(1024) = 6.93
Punktacja:
- podstawa: 60 punktów
- 40 punktów z najlepszy wynik z 2 grup
- 20 punktów z 3 kolejno najlepszych wyników z 2 grup
Jak stworzyć model?
- warto bazować na kodzie ze wykładu 7 Zanurzenia słów
- elementy, które na pewno trzeba będzie wykorzystać to: nn.Embedding, nn.Linear, nn.Softmax
- w odróżnieniu do materiałów z wykładu lepiej nie korzystać z nn.Sequential, tylko wszystki operacje zapisywać w model.forward. Przy użyciu sequential może być problem np. z dodawaniem lub konkatenacją tensorów
W jaki sposób uzyskać lepszy wynik?
- Po pierwsze proszę stosować sie do rad z poprzednich cwiczeń (trenowanie przez kilka epok i monitorowanie wyniku na zbiorze deweloperskim)
- dobry start to zawsze zaczęcie od jak najprostszego modelu (czyli 1 warstwa liniowa, zwykłe dodawanie embeddingów słów) i dopiero później go rozbudowywać monitorując wynik. Jest to rada uniwersalna w uczeniu maszynowym.
- Poza tym warto wypróbować przynajmniej kilka modeli z wykładu. Mając zaimplementowany cały kod dla jednego modelu, wystarczy jedynie delikatnie zmienić architekturę modelu i wytrenować go od nowa. Cała reszta kodu zostaje bez zmian.
- warto spróbować dodanie np 2 warstw liniowych (lub nawet 3) zamiast jednej warstwy (koniecznie trzeba dodać między nimi funkcję aktywacji, np RELU).
- poza tym można zmieniać różne parametry (np. wielkość słownika, wielkość warstwy ukrytej, różne funkcje aktywacji)
Zadanie 2
Proszę zrobić parameter Hyperparameter Tuning dla zadania 1 i zaprezentować na forum grupy razem z wnioskami
- wymóg wyniku najlepszego modelu, conajwyżej 6.10
- wnioski nie muszą być specjalnie rozbudowane, prezentacja może trwać 3-5minut lub dłużej
- należy wybrać dla siebie metodę hypermarameter tuningu
- należy stworzyć conajmniej 10 modeli, należy pokazać wyniku dla conajmniej paru
- oczywiście kod musi być automatyczny (a nie ręcznie zmieniamy paratery), natomiast nie ma wymogu korzystania ze specjalnych bibliotek
- podstawa punktów 100
- za wynik lepszy (niższy) niż 5.50 +20 punktów
- użycie GPU na dowolnym cloud lub od WMI + 30 punktów
- deadline do końca dnia 15 maja 2024