moj-2024-ns-cw/02_zadania.ipynb

3.5 KiB

Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami

Zadania (jeżeli wymagają napisania programu) piszemy w języku Python

Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:

https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk

Zadanie 1 (5 punktów)

Pobierz plik https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip i wczytaj jego zawartość. Następnie zamień wielkie litery na małe oraz usuń wszystkie znaki niebędące literami od "a" do "z" lub spacją.

Zadanie 2 (50 punktów)

Stwórz model trigramowy (dla słów) na podstawie korpusu z zadania 1. Model musi bazować na słowniku składającym się z 15000 najczęściej występujących słów + token [UNK] reprezentujący wszystkie pozostałe słowa (czyli łącznie 15001 słów/tokenów w słowniku)

Wymagane kroki:

  1. Zliczenie liczby wystąpień słów w korpusie
  2. Stworzenie słownika poprzez wydzielenie 15000 najczęściej występujących słów
  3. Zliczenie bigramów na bazie słownika (czyli zliczamy w taki sposób, aby słowa z poza słownika traktować jako token [UNK])
  4. Zliczenie trigramów na bazie słownika (analogicznie jak w punkcie 3)

Zadanie 3 (25 punktów)

Na podstawie modelu trigramowego z zadania 2, wypisz 5 najbardziej prawdopodobnych słów wraz z ich wartościami prawdopodobieństwa po następujących dwóch wcześniejszych słowach, bez uwzględnienia tokenu [UNK] (wskazówka - prawdopodobieństwo słowa X3 po słowach X1, X2 można otrzymać poprzez: trigram_count(X1, X2, X3) / bigram_count(X1, X2)):

  1. this year
  2. the mr
  3. they have
  4. the best
  5. a few

Zadanie 4 (10 punktów)

Korzystając z modelu trigramowego z zadania 2, oblicz prawdopodobieństwo następujących zdań (czyli iloczyn prawdopodobieństw kolejnych słów pod warunkiem wystąpienia wcześniejszej sekwencji słów):

  1. "it has been a"
  2. "it been has a"

Zadanie 5 (30 punktów)

Za pomocą modelu trigramowego z zadania 2, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu [UNK] zakładając następujące wejście do modelu:

  1. it took
  2. because there
  3. actually it
  4. in my
  5. after a