{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n", "Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n", "\n", "\n", "Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n", "\n", "https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk\n", "\n", "oraz dla zajęć 03 bardzo pomocny będzie notebook:\n", "\n", "https://git.wmi.amu.edu.pl/filipg/aitech-moj-2023/src/branch/master/wyk/09_Zanurzenia_slow.ipynb" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Zadanie 1 (110 punktów)\n", "\n", "Na podstawie zbioru danych z poprzednich zajęć (https://git.wmi.amu.edu.pl/ryssta/moj-2024-ns-cw/src/branch/main/challenging_america_50k_texts.zip) stwórz tetragramowy (czyli wykorzystujący 3 słowa do predykcji czwartego słowa) neuronowy model języka bazujący na zanurzeniach słów. Zadanie proszę wykonać przy użyciu biblioteki torch (warto wykorzystać również bibliotekę torchtext) w języku Python. Kroki wymagane do wykonania zadania:\n", "\n", "1. Zamiana wielkich liter na małe oraz usunięcie wszystkich znaków niebędących literami od \"a\" do \"z\" lub spacją - 5 punktów\n", "2. Stworzenie słownika składającego się z 20000 najczęściej występujących słów + token <unk> dla pozostałych słów (uwaga - token <unk> też posiada swoje zanurzenie) - 5 punktów\n", "3. Poprawne zaimplementowanie architektury tetragramowego modelu bazującego na zanurzeniach o rozmiarze 200 przyjmującego na wejściu 3 tokeny - 40 punktów.\n", "4. Wytrenowanie modelu na 3 epokach na całym korpusie z malejącą wartością funkcji straty w czasie trenowania (jeżeli będzie widać, że wartość funkcji straty nie maleje na przestrzeni treningu, to znaczy że coś jest nie tak - wtedy punkty nie zostaną przyznane) - 60 punktów" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Zadanie 2 (40 punktów)\n", "\n", "Za pomocą modelu z zadania 1, wygeneruj zdania (bazując na dodawaniu do sekwencji najbardziej prawdopodobnego tokenu) o długości 15 tokenów (słów) bez uwzględniania tokenu <unk> jako potencjalnie kolejny nowy token, zakładając następujące wejście do modelu:\n", "1. it will be\n", "2. they went for\n", "3. (tutaj proszę wybrać samemu 3 słowa ze słownika i przeprowadzić proces generowania sekwencji)" ] } ], "metadata": { "kernelspec": { "display_name": "python39", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.18" } }, "nbformat": 4, "nbformat_minor": 2 }