"- Wybierz tekst w dowolnym języku (10 000 000 słów).\n",
"- Podziel zbiór na train/test w proporcji 90/100.\n",
"- Stwórz unigramowy model językowy.\n",
"- Stwórz bigramowy model językowy.\n",
"- Stwórz trigramowy model językowy.\n",
"- Wymyśl 5 krótkich zdań. Dla każdego oblicz jego prawdopodobieństwo.\n",
"- Napisz włąsnoręcznie funkcję, która liczy perplexity na korpusie i policz perplexity na każdym z modeli dla podzbiorów train i test.\n",
"- Wygeneruj tekst, zaczynając od wymyślonych 5 początków. Postaraj się, żeby dla obu funkcji, a przynajmniej dla `high_probable_next_word`, teksty były orginalne.\n",
"- Stwórz model dla korpusu z ZADANIE 1 i policz perplexity dla każdego z tekstów (zrób split 90/10) dla train i test.\n",
"- Dokonaj klasyfikacji za pomocą modelu językowego.\n",
"- Zastosuj wygładzanie metodą Laplace'a.\n",
"- Znajdź duży zbiór danych dla klasyfikacji binarnej, wytrenuj osobne modele dla każdej z klas i użyj dla klasyfikacji."