aitech-moj-2023/cw/06_wygładzanie_modeli_językowych.ipynb
Jakub Pokrywka 6eac2876a4 update
2022-07-05 11:27:26 +02:00

7.9 KiB

Logo 1

Modelowanie Języka

6. Wygładzanie modeli językowych [ćwiczenia]

Jakub Pokrywka (2022)

Logo 2

class Model():
    
    def __init__(self, vocab_size,  alfa, UNK_token= '<UNK>'):
        pass
    
    def train(corpus:list) -> None:
        pass
    
    def predict(text: list, probs: str) -> float:
        pass

Perplexity:

$$PPL(W) := P(w_1, w_2, \ldots, w_n)^\frac{-1}{N} $$

Dla modelu bigramowego:

$$PPL(W) := (\prod_{i=1}^{N} P(w_i|w_{i-1} )^\frac{-1}{N} $$ $$PPL(W) := ( P(w_2|w_1)*P(w_3|w_2)_P(w_4|w_3) \ldots * P(w_n|w_{n-1}) )^\frac{-1}{N} $$

Np. dla korpusu ewaluacyjnego: "Ala ma kota i rybkę" i modelu bigramowego:

$$PPL(W) := ( P(ma|Ala)*P(kota|ma)*P(i|kota)*P(rybkę|i) )^\frac{-1}{5} $$

lub z tokenem $$ :

$$PPL(W) := (P(Ala|) * P(ma|Ala)*P(kota|ma)*P(i|kota)*P(rybkę|i) )^\frac{-1}{6} $$

Co jeżeli w cały korpusie trenującym ani razu nie wystąpił bigram "i rybkę"?

Zadania do wyboru:

- wygładzanie za pomocą plusalpha (tunowanie na zbiorze deweloperskim parametru alpha- TAG plusaplha
- wygładzanie za pomocą interpolacji (tunowanie na zbiorze deweloperskim współczynników interpolacji) - TAG interpolation
- wygładzanie motodą Good-Turing (nie ma potrzeby tunowanania) - TAG backoff
- wygładzanie za pomocą back-off (nie ma potrzeby tunowania, nie ma potrzeby, żeby było prawdopodobieństwo) - TAG backoff

Punktacja

Za zadanie można otrzymać 70 punktów + 40 punktów za najlepszy wynik z zajęć (2 grup modelowanie języka)

Warunki zaliczenia:

  • wynik widoczny na platformie zarówno dla dev i dla test
  • wynik dla dev i test lepszy (niższy) niż 1024.00
  • deadline do końca dnia 03.04
  • commitując rozwiązanie proszę również umieścić rozwiązanie w pliku /run.py (czyli na szczycie katalogu). Można przekonwertować jupyter do pliku python przez File → Download as → Python. Rozwiązanie nie musi być w pythonie, może być w innym języku.
  • zadania wykonujemy samodzielnie
  • w nazwie commita podaj nr indeksu
  • w tagach podaj tag opisany jak wyżej!

Jak tunować parametry na zbiorze deweloperskim?

  • tworzymy model opisany jak przez "klasę abstrakcyjną" na początku notebooku. Model ma podany jako parametr konstruktora pewien parametr wygładzania np. alpha
  • tworzymy wiele modeli z różnymi parametrami, uczymy je i sprawdzamy na zbiorze deweloperskim, dostając np. taką tabelkę:
parametr alfa pplHashed na dev-0
0.0 404
0.1 370
0.2 343
0.3 339
0.4 320
0.5 337
0.6 398
0.7 404
0.8 432
0.9 426
1.0 433

Wybieramy najlepszy parametr względem metryki. Tutaj najlepszy wynik to 320 osiągany dla parametru alfa=0.4. Zatem taki model oddajemy w zadaniu na gonito.

Oczywiście robienie tabelki nie jest konieczne. Podobnie postępujemy, jeżeli parametrów będzie więcej niż 1. Ilość modeli do stworzenia będzie rosła wykładnioczo względem ilości parametrów. Np. jeżeli każdy parametr będzie miał 10 możliwości i chcemy przetestować 3 parametry, to mamy 10^3 możliwości. Dlatego warto wtedy ograniczać zakres, np. zamiast 10 możliwości wziąć 3 możliwości.

Dlaczego używamy osobnego zbioru deweloperskiego?
Object `deweloperskiego` not found.

Wymogi dla zadań

Zadanie plusalpha:

  • model powininen być bigramowy lub trigramowy
  • należy tunować alpha na zbiorze deweloperskim

Zadanie wygładzanie za pomocą interpolacji

  • model powinien składać się z conajmniej dwóch modeli (np. unigramowy + bigramowy) z parametrem alpha, który steruje ile powinno wchodzić prawdopodobieństwa jednego modelu, a ile prawdopodbieństwa drugiego modelu
  • należy tunować parametr alpha (lub 2 parametry, jeżeli będą 3 modele) na zbiorze deweloperskim

Zadanie wygładzanie za pomocą metody Back-off

  • model powinien składać się z conajmniej dwóch modeli (np. unigramowy + bigramowy). Jeżeli dla modelu bigramowego będzie za mało bigramów zaczynająch się od danego tokenu, należy użyć modelu unigramowego.
  • można tunować parametr k, czyli parametr mówiący ile razy conajmniej musi wystąpić dany token (początek bigramu), abyśmy użyli tego bigramu, zamiast modelu unigramowego. Ale nie trzeba tego robić.

Zadanie wygładzanie za pomocą metody Good-Turing

  • model powinien być conajmiej bigramowy
  • nie ma potrzeby tunowania parametrów, ponieważ model nie ma parametrów
  • pewną trudność może stanowić zliczanie: $ \frac{N_{r+1}}{N_r} $ Warto zatem zrobić przygotować odpowiednie wartości w czasie trenowania modelu.