moj-2024-ns-cw/02_zadania.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",
    "Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n",
    "\n",
    "\n",
    "Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n",
    "\n",
    "https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 1 (5 punktów)\n",
    "Pobierz plik https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip i wczytaj jego zawartość. Następnie zamień wielkie litery na małe oraz usuń wszystkie znaki niebędące literami od \"a\" do \"z\" lub spacją."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 2 (50 punktów)\n",
    "\n",
    "Stwórz model trigramowy (dla słów) na podstawie korpusu z zadania 1. Model musi bazować na słowniku składającym się z 15000 najczęściej występujących słów + token [UNK] reprezentujący wszystkie pozostałe słowa (czyli łącznie 15001 słów/tokenów w słowniku)\n",
    "\n",
    "Wymagane kroki:\n",
    "1. Zliczenie liczby wystąpień słów w korpusie\n",
    "2. Stworzenie słownika poprzez wydzielenie 15000 najczęściej występujących słów\n",
    "3. Zliczenie bigramów na bazie słownika (czyli zliczamy w taki sposób, aby słowa z poza słownika traktować jako token [UNK])\n",
    "4. Zliczenie trigramów na bazie słownika (analogicznie jak w punkcie 3)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 3 (25 punktów)\n",
    "Na podstawie modelu trigramowego z zadania 2, wypisz 5 najbardziej prawdopodobnych słów wraz z ich wartościami prawdopodobieństwa po następujących dwóch wcześniejszych słowach, bez uwzględnienia tokenu [UNK] (wskazówka - prawdopodobieństwo słowa X3 po słowach X1, X2 można otrzymać poprzez: trigram_count(X1, X2, X3) / bigram_count(X1, X2)):\n",
    "1. this year\n",
    "2. the mr\n",
    "3. they have\n",
    "4. the best\n",
    "5. a few"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 4 (10 punktów) \n",
    "\n",
    "Korzystając z modelu trigramowego z zadania 2, oblicz prawdopodobieństwo następujących zdań (czyli iloczyn prawdopodobieństw kolejnych słów pod warunkiem wystąpienia wcześniejszej sekwencji słów):\n",
    "1. \"it has been a\"\n",
    "2. \"it been has a\""
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 5 (30 punktów)\n",
    "Za pomocą modelu trigramowego z zadania 2, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu [UNK] zakładając następujące wejście do modelu:\n",
    "1. it took\n",
    "2. because there\n",
    "3. actually it\n",
    "4. in my\n",
    "5. after a"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "python39",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.18"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`{`
			`"cells": [`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",`
Fix typos 2024-04-17 10:45:19 +02:00			`"Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n",`
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`"\n",`
			`"\n",`
			`"Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n",`
			`"\n",`
			`"https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 1 (5 punktów)\n",`
Fix typos 2024-04-17 10:45:19 +02:00			`"Pobierz plik https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip i wczytaj jego zawartość. Następnie zamień wielkie litery na małe oraz usuń wszystkie znaki niebędące literami od \"a\" do \"z\" lub spacją."`
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 2 (50 punktów)\n",`
			`"\n",`
Fix typos 2024-04-17 10:45:19 +02:00			`"Stwórz model trigramowy (dla słów) na podstawie korpusu z zadania 1. Model musi bazować na słowniku składającym się z 15000 najczęściej występujących słów + token [UNK] reprezentujący wszystkie pozostałe słowa (czyli łącznie 15001 słów/tokenów w słowniku)\n",`
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`"\n",`
			`"Wymagane kroki:\n",`
			`"1. Zliczenie liczby wystąpień słów w korpusie\n",`
			`"2. Stworzenie słownika poprzez wydzielenie 15000 najczęściej występujących słów\n",`
			`"3. Zliczenie bigramów na bazie słownika (czyli zliczamy w taki sposób, aby słowa z poza słownika traktować jako token [UNK])\n",`
			`"4. Zliczenie trigramów na bazie słownika (analogicznie jak w punkcie 3)\n"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 3 (25 punktów)\n",`
Update notebooks content 2024-04-19 16:44:55 +02:00			`"Na podstawie modelu trigramowego z zadania 2, wypisz 5 najbardziej prawdopodobnych słów wraz z ich wartościami prawdopodobieństwa po następujących dwóch wcześniejszych słowach, bez uwzględnienia tokenu [UNK] (wskazówka - prawdopodobieństwo słowa X3 po słowach X1, X2 można otrzymać poprzez: trigram_count(X1, X2, X3) / bigram_count(X1, X2)):\n",`
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`"1. this year\n",`
			`"2. the mr\n",`
			`"3. they have\n",`
			`"4. the best\n",`
			`"5. a few"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 4 (10 punktów) \n",`
			`"\n",`
			`"Korzystając z modelu trigramowego z zadania 2, oblicz prawdopodobieństwo następujących zdań (czyli iloczyn prawdopodobieństw kolejnych słów pod warunkiem wystąpienia wcześniejszej sekwencji słów):\n",`
			`"1. \"it has been a\"\n",`
			`"2. \"it been has a\""`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 5 (30 punktów)\n",`
Update notebook 2024-04-19 18:29:29 +02:00			`"Za pomocą modelu trigramowego z zadania 2, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu [UNK] zakładając następujące wejście do modelu:\n",`
Zadania 2 notebook 2024-04-17 10:33:09 +02:00			`"1. it took\n",`
			`"2. because there\n",`
			`"3. actually it\n",`
			`"4. in my\n",`
			`"5. after a"`
			`]`
			`}`
			`],`
			`"metadata": {`
			`"kernelspec": {`
			`"display_name": "python39",`
			`"language": "python",`
			`"name": "python3"`
			`},`
			`"language_info": {`
			`"codemirror_mode": {`
			`"name": "ipython",`
			`"version": 3`
			`},`
			`"file_extension": ".py",`
			`"mimetype": "text/x-python",`
			`"name": "python",`
			`"nbconvert_exporter": "python",`
			`"pygments_lexer": "ipython3",`
			`"version": "3.9.18"`
			`}`
			`},`
			`"nbformat": 4,`
			`"nbformat_minor": 2`
			`}`