"Pobierz plik https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip i wczytaj jego zawartość. Następnie zamień wielkie litery na małe oraz usuń wszystkie znaki niebędące literami od \"a\" do \"z\" lub spacją."
"Stwórz model trigramowy (dla słów) na podstawie korpusu z zadania 1. Model musi bazować na słowniku składającym się z 15000 najczęściej występujących słów + token [UNK] reprezentujący wszystkie pozostałe słowa (czyli łącznie 15001 słów/tokenów w słowniku)\n",
"1. Zliczenie liczby wystąpień słów w korpusie\n",
"2. Stworzenie słownika poprzez wydzielenie 15000 najczęściej występujących słów\n",
"3. Zliczenie bigramów na bazie słownika (czyli zliczamy w taki sposób, aby słowa z poza słownika traktować jako token [UNK])\n",
"4. Zliczenie trigramów na bazie słownika (analogicznie jak w punkcie 3)\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Zadanie 3 (25 punktów)\n",
"Na podstawie modelu trigramowego z zadania 2, wypisz 5 najbardziej prawdopodobnych słów wraz z ich wartościami prawdopodobieństwa po następujących dwóch wcześniejszych słowach (wskazówka - prawdopodobieństwo słowa X3 po słowach X1, X2 można otrzymać poprzez: trigram_count(X1, X2, X3) / bigram_count(X1, X2)):\n",
"1. this year\n",
"2. the mr\n",
"3. they have\n",
"4. the best\n",
"5. a few"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Zadanie 4 (10 punktów) \n",
"\n",
"Korzystając z modelu trigramowego z zadania 2, oblicz prawdopodobieństwo następujących zdań (czyli iloczyn prawdopodobieństw kolejnych słów pod warunkiem wystąpienia wcześniejszej sekwencji słów):\n",
"1. \"it has been a\"\n",
"2. \"it been has a\""
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Zadanie 5 (30 punktów)\n",
"Za pomocą modelu trigramowego z zadania 2, wygeneruj zdania o długości 15 tokenów (słów) zakładając następujące wejście do modelu:\n",