moj-2024-ns-cw/03_zadania.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",
    "Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n",
    "\n",
    "\n",
    "Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n",
    "\n",
    "https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk\n",
    "\n",
    "oraz dla zajęć 03 bardzo pomocny będzie notebook:\n",
    "\n",
    "https://git.wmi.amu.edu.pl/filipg/aitech-moj-2023/src/branch/master/wyk/09_Zanurzenia_slow.ipynb"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 1 (110 punktów)\n",
    "\n",
    "Na podstawie zbioru danych z poprzednich zajęć (https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip) stwórz tetragramowy (czyli wykorzystujący 3 słowa do predykcji czwartego słowa) neuronowy model języka bazujący na zanurzeniach słów. Zadanie proszę wykonać przy użyciu biblioteki torch (warto wykorzystać również bibliotekę torchtext) w języku Python. Kroki wymagane do wykonania zadania:\n",
    "\n",
    "1. Zamiana wielkich liter na małe oraz usunięcie wszystkich znaków niebędących literami od \"a\" do \"z\" lub spacją - 5 punktów\n",
    "2. Stworzenie słownika składającego się z 20000 najczęściej występujących słów + token &lt;unk> dla pozostałych słów (uwaga - token &lt;unk> też posiada swoje zanurzenie) - 5 punktów\n",
    "3. Poprawne zaimplementowanie architektury tetragramowego modelu bazującego na zanurzeniach o rozmiarze 200 przyjmującego na wejściu 3 tokeny - 40 punktów.\n",
    "4. Wytrenowanie modelu na 3 epokach na całym korpusie z malejącą wartością funkcji straty w czasie trenowania (jeżeli będzie widać, że wartość funkcji straty nie maleje na przestrzeni treningu, to znaczy że coś jest nie tak - wtedy punkty nie zostaną przyznane) - 60 punktów"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 2 (40 punktów)\n",
    "\n",
    "Za pomocą modelu z zadania 1, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu &lt;unk> jako potencjalnie kolejny nowy token, zakładając następujące wejście do modelu:\n",
    "1. it will be\n",
    "2. they went for\n",
    "3. (tutaj proszę wybrać samemu 3 słowa ze słownika i przeprowadzić proces generowania sekwencji)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "python39",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.18"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
Add notebooks for zajecia3 2024-05-09 11:25:34 +02:00			`{`
			`"cells": [`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",`
			`"Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n",`
			`"\n",`
			`"\n",`
			`"Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n",`
			`"\n",`
			`"https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk\n",`
			`"\n",`
			`"oraz dla zajęć 03 bardzo pomocny będzie notebook:\n",`
			`"\n",`
			`"https://git.wmi.amu.edu.pl/filipg/aitech-moj-2023/src/branch/master/wyk/09_Zanurzenia_slow.ipynb"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 1 (110 punktów)\n",`
			`"\n",`
			`"Na podstawie zbioru danych z poprzednich zajęć (https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip) stwórz tetragramowy (czyli wykorzystujący 3 słowa do predykcji czwartego słowa) neuronowy model języka bazujący na zanurzeniach słów. Zadanie proszę wykonać przy użyciu biblioteki torch (warto wykorzystać również bibliotekę torchtext) w języku Python. Kroki wymagane do wykonania zadania:\n",`
			`"\n",`
			`"1. Zamiana wielkich liter na małe oraz usunięcie wszystkich znaków niebędących literami od \"a\" do \"z\" lub spacją - 5 punktów\n",`
			`"2. Stworzenie słownika składającego się z 20000 najczęściej występujących słów + token <unk> dla pozostałych słów (uwaga - token <unk> też posiada swoje zanurzenie) - 5 punktów\n",`
			`"3. Poprawne zaimplementowanie architektury tetragramowego modelu bazującego na zanurzeniach o rozmiarze 200 przyjmującego na wejściu 3 tokeny - 40 punktów.\n",`
			`"4. Wytrenowanie modelu na 3 epokach na całym korpusie z malejącą wartością funkcji straty w czasie trenowania (jeżeli będzie widać, że wartość funkcji straty nie maleje na przestrzeni treningu, to znaczy że coś jest nie tak - wtedy punkty nie zostaną przyznane) - 60 punktów"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### Zadanie 2 (40 punktów)\n",`
			`"\n",`
			`"Za pomocą modelu z zadania 1, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu <unk> jako potencjalnie kolejny nowy token, zakładając następujące wejście do modelu:\n",`
			`"1. it will be\n",`
			`"2. they went for\n",`
			`"3. (tutaj proszę wybrać samemu 3 słowa ze słownika i przeprowadzić proces generowania sekwencji)"`
			`]`
			`}`
			`],`
			`"metadata": {`
			`"kernelspec": {`
			`"display_name": "python39",`
			`"language": "python",`
			`"name": "python3"`
			`},`
			`"language_info": {`
			`"codemirror_mode": {`
			`"name": "ipython",`
			`"version": 3`
			`},`
			`"file_extension": ".py",`
			`"mimetype": "text/x-python",`
			`"name": "python",`
			`"nbconvert_exporter": "python",`
			`"pygments_lexer": "ipython3",`
			`"version": "3.9.18"`
			`}`
			`},`
			`"nbformat": 4,`
			`"nbformat_minor": 2`
			`}`