+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
+ "
+ "
Modelowanie Języka
+ " 8. Model neuronowy typu word2vec [ćwiczenia]
+ " Jakub Pokrywka (2022)
+ "\n",
+ "\n",
+ "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
## Zadania
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
Proszę wykonać zadanie 1 lub zadanie 2 (nie oba naraz). Zadanie 3 można zrobić niezależnie.
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Zadanie 1\n",
+ "\n",
+ "Wzorując się na materiałach z wykładu stworzyć 5-gramowy model neuronowy oparty na jednym ze schematów z wykładu, np.\n",
+ "\n",
+ "\n",
+ "![img](bow1.drawio.png \"Model typu worek słów\")\n",
+ "\n",
+ "\n",
+ "Warunkiem koniecznym jest, żeby przewidywać słowo środkowe, np. Mając tekst ['Ala', 'ma', '[MASK]'\n",
+ " 'i', 'psa'] chcemy przewidzieć kontekst środkowego słowa (tutaj '[MASK]')\n",
+ "\n",
+ "\n",
+ "\n",
+ "\n",
+ "Warunki zaliczenia:\n",
+ "- wynik widoczny na platformie zarówno dla dev i dla test\n",
+ "- wynik dla dev i test lepszy (niższy) niż 6.50 (liczone przy pomocy geval)\n",
+ "- deadline do końca dnia 08.05\n",
+ "- commitując rozwiązanie proszę również umieścić rozwiązanie w pliku /run.py (czyli na szczycie katalogu). Można przekonwertować jupyter do pliku python przez File → Download as → Python. Rozwiązanie nie musi być w pythonie, może być w innym języku.\n",
+ "- zadania wykonujemy samodzielnie\n",
+ "- w nazwie commita podaj nr indeksu\n",
+ "- w tagach podaj **neural-network** oraz **5gram**!\n",
+ "- zadanie tym razem jest dla polskiego odpowiednika word-gap https://gonito.net/challenge-my-submissions/retro-gap\n",
+ "- metryka to LogLossHashed (praktycznie to samo, co PerlpexityHased). Przelicznik, to LogLossHased = log(PerplexityHashed). Podając równe prawd. dla każdego słowa dostaniemy 6.93, bo log(1024) = 6.93\n",
+ "\n",
+ "Punktacja:\n",
+ "- podstawa: 60 punktów\n",
+ "- 40 punktów z najlepszy wynik z 2 grup\n",
+ "- 20 punktów z 3 kolejno najlepszych wyników z 2 grup\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Jak stworzyć model?\n",
+ "- warto bazować na kodzie ze wykładu 7 Zanurzenia słów\n",
+ "- elementy, które na pewno trzeba będzie wykorzystać to: nn.Embedding, nn.Linear, nn.Softmax\n",
+ "- w odróżnieniu do materiałów z wykładu lepiej nie korzystać z nn.Sequential, tylko wszystki operacje zapisywać w model.forward. Przy użyciu sequential może być problem np. z dodawaniem lub konkatenacją tensorów"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
### W jaki sposób uzyskać lepszy wynik?
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "- Po pierwsze proszę stosować sie do rad z poprzednich cwiczeń (trenowanie przez kilka epok i monitorowanie wyniku na zbiorze deweloperskim)\n",
+ "- dobry start to zawsze zaczęcie od jak najprostszego modelu (czyli 1 warstwa liniowa, zwykłe dodawanie embeddingów słów) i dopiero później go rozbudowywać monitorując wynik. Jest to rada uniwersalna w uczeniu maszynowym.\n",
+ "- Poza tym warto wypróbować przynajmniej kilka modeli z wykładu. Mając zaimplementowany cały kod dla jednego modelu, wystarczy jedynie delikatnie zmienić architekturę modelu i wytrenować go od nowa. Cała reszta kodu zostaje bez zmian.\n",
+ "- warto spróbować dodanie np 2 warstw liniowych (lub nawet 3) zamiast jednej warstwy (koniecznie trzeba dodać między nimi funkcję aktywacji, np RELU).\n",
+ "- poza tym można zmieniać różne parametry (np. wielkość słownika, wielkość warstwy ukrytej, różne funkcje aktywacji)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Zadanie 2\n",
+ "\n",
+ "Proszę zrobić parameter Hyperparameter Tuning dla zadania 1 i zaprezentować na forum grupy razem z wnioskami\n",
+ "\n",
+ "- wymóg wyniku najlepszego modelu, conajwyżej 6.10\n",
+ "- wnioski nie muszą być specjalnie rozbudowane, prezentacja może trwać 3-5minut lub dłużej\n",
+ "- należy wybrać dla siebie metodę hypermarameter tuningu\n",
+ "- należy stworzyć conajmniej 10 modeli, należy pokazać wyniku dla conajmniej paru\n",
+ "- oczywiście kod musi być automatyczny (a nie ręcznie zmieniamy paratery), natomiast nie ma wymogu korzystania ze specjalnych bibliotek\n",
+ "- podstawa punktów 100\n",
+ "- za wynik lepszy (niższy) niż 5.50 +20 punktów\n",
+ "- użycie GPU na dowolnym cloud lub od WMI + 30 punktów\n",
+ "- termin 16.05 na zajęciach\n",
+ "- punkty przyznam na MS TEAMS, ale proszę zgłosić te rozwiązanie na gonito (nie trzeba w żadnym challenge ani z konkretymi tagami)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Zadanie 3\n",
+ "\n",
+ "Zaangażowanie się w pygonito.\n",
+ "\n",
+ "- https://github.com/filipggg/pygonito\n",
+ "- dobra okazja, żeby nauczyć się tworzyć paczki pythonowe\n",
+ "- wsparcie ode mnie lub prof. Gralińskiego przy tworzeniu\n",
+ "- może się przydać przy pracy magisterskiej (jeżeli wyzwanie będzie na gonito)\n",
+ "- ilość punktów zależy od zakresu pracy. Sczególnie warto samemu zaproponować co zrobić) Zakres prac i punktów do dogdania\n",
+ "- w celu ustalenia szczegółów proszę sie zgłosić do mnie\n",
+ "- termin dowolny"
+ ]
+ }
+ ],
+ "metadata": {
+ "author": "Jakub Pokrywka",
+ "email": "kubapok@wmi.amu.edu.pl",
+ "kernelspec": {
+ "display_name": "Python 3 (ipykernel)",
+ "language": "python",
+ "name": "python3"
+ },
+ "lang": "pl",
+ "language_info": {
+ "codemirror_mode": {
+ "name": "ipython",
+ "version": 3
+ },
+ "file_extension": ".py",
+ "mimetype": "text/x-python",
+ "name": "python",
+ "nbconvert_exporter": "python",
+ "pygments_lexer": "ipython3",
+ "version": "3.9.7"
+ },
+ "subtitle": "0.Informacje na temat przedmiotu[ćwiczenia]",
+ "title": "Ekstrakcja informacji",
+ "year": "2021"
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
+ "\n",
+ "
Modelowanie języka
+ " 7. Zanurzenia słów [wykład]
+ " Filip Graliński (2022)
+ "\n",
+ "\n",
+ "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
## Zanurzenia słów
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "W praktyce stosowalność słowosieci okazała się zaskakująco\n",
+ "ograniczona. Większy przełom w przetwarzaniu języka naturalnego przyniosły\n",
+ "wielowymiarowe reprezentacje słów, inaczej: zanurzenia słów.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
### „Wymiary" słów
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Moglibyśmy zanurzyć (ang. *embed*) w wielowymiarowej przestrzeni, tzn. zdefiniować odwzorowanie\n",
+ "$E \\colon V \\rightarrow \\mathcal{R}^m$ dla pewnego $m$ i określić taki sposób estymowania\n",
+ "prawdopodobieństw $P(u|v)$, by dla par $E(v)$ i $E(v')$ oraz $E(u)$ i $E(u')$ znajdujących się w pobliżu\n",
+ "(według jakiejś metryki odległości, na przykład zwykłej odległości euklidesowej):\n",
+ "\n",
+ "$$P(u|v) \\approx P(u'|v').$$\n",
+ "\n",
+ "$E(u)$ nazywamy zanurzeniem (embeddingiem) słowa.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
#### Wymiary określone z góry?
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Można by sobie wyobrazić, że $m$ wymiarów mogłoby być z góry\n",
+ "określonych przez lingwistę. Wymiary te byłyby związane z typowymi\n",
+ "„osiami” rozpatrywanymi w językoznawstwie, na przykład:\n",
+ "\n",
+ "- czy słowo jest wulgarne, pospolite, potoczne, neutralne czy książkowe?\n",
+ "- czy słowo jest archaiczne, wychodzące z użycia czy jest neologizmem?\n",
+ "- czy słowo dotyczy kobiet, czy mężczyzn (w sensie rodzaju gramatycznego i/lub\n",
+ " socjolingwistycznym)?\n",
+ "- czy słowo jest w liczbie pojedynczej czy mnogiej?\n",
+ "- czy słowo jest rzeczownikiem czy czasownikiem?\n",
+ "- czy słowo jest rdzennym słowem czy zapożyczeniem?\n",
+ "- czy słowo jest nazwą czy słowem pospolitym?\n",
+ "- czy słowo opisuje konkretną rzecz czy pojęcie abstrakcyjne?\n",
+ "- …\n",
+ "\n",
+ "W praktyce okazało się jednak, że lepiej, żeby komputer uczył się sam\n",
+ "możliwych wymiarów — z góry określamy tylko $m$ (liczbę wymiarów).\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
### Bigramowy model języka oparty na zanurzeniach
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Zbudujemy teraz najprostszy model język oparty na zanurzeniach. Będzie to właściwie najprostszy\n",
+ "**neuronowy model języka**, jako że zbudowany model można traktować jako prostą sieć neuronową.\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
#### Słownik
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "W typowym neuronowym modelu języka rozmiar słownika musi być z góry\n",
+ "ograniczony. Zazwyczaj jest to liczba rzędu kilkudziesięciu wyrazów —\n",
+ "po prostu będziemy rozpatrywać $|V|$ najczęstszych wyrazów, pozostałe zamienimy\n",
+ "na specjalny token `` reprezentujący nieznany (*unknown*) wyraz.\n",
+ "\n",
+ "Aby utworzyć taki słownik użyjemy gotowej klasy `Vocab` z pakietu torchtext:\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 2,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stderr",
+ "output_type": "stream",
+ "text": [
+ },
+ {
+ "data": {
+ "text/plain": [
+ "16"
+ ]
+ },
+ "execution_count": 2,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "from itertools import islice\n",
+ "import regex as re\n",
+ "import sys\n",
+ "from torchtext.vocab import build_vocab_from_iterator\n",
+ "\n",
+ "\n",
+ "def get_words_from_line(line):\n",
+ " line = line.rstrip()\n",
+ " yield ''\n",
+ " for m in re.finditer(r'[\\p{L}0-9\\*]+|\\p{P}+', line):\n",
+ " yield m.group(0).lower()\n",
+ " yield ''\n",
+ "\n",
+ "\n",
+ "def get_word_lines_from_file(file_name):\n",
+ " with open(file_name, 'r') as fh:\n",
+ " for line in fh:\n",
+ " yield get_words_from_line(line)\n",
+ "\n",
+ "vocab_size = 20000\n",
+ "\n",
+ "vocab = build_vocab_from_iterator(\n",
+ " get_word_lines_from_file('opensubtitlesA.pl.txt'),\n",
+ " max_tokens = vocab_size,\n",
+ " specials = [''])\n",
+ "\n",
+ "vocab['jest']"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 3,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "['', '', '', 'w', 'policyjny']"
+ ]
+ },
+ "execution_count": 3,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
vocab.lookup_tokens([0, 1, 2, 10, 12345])
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
#### Definicja sieci
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
Naszą prostą sieć neuronową zaimplementujemy używając frameworku PyTorch.
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 4,
+ "metadata": {},
+ "outputs": [
+ {
+ "source": [
+ "from torch import nn\n",
+ "import torch\n",
+ "\n",
+ "embed_size = 100\n",
+ "\n",
+ "class SimpleBigramNeuralLanguageModel(nn.Module):\n",
+ " def __init__(self, vocabulary_size, embedding_size):\n",
+ " super(SimpleBigramNeuralLanguageModel, self).__init__()\n",
+ " self.model = nn.Sequential(\n",
+ " nn.Embedding(vocabulary_size, embedding_size),\n",
+ " nn.Linear(embedding_size, vocabulary_size),\n",
+ " nn.Softmax()\n",
+ " )\n",
+ "\n",
+ " def forward(self, x):\n",
+ " return self.model(x)\n",
+ "\n",
+ "model = SimpleBigramNeuralLanguageModel(vocab_size, embed_size)\n",
+ "\n",
+ "vocab.set_default_index(vocab[''])\n",
+ "ixs = torch.tensor(vocab.forward(['pies']))\n",
+ "out[0][vocab['jest']]"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Teraz wyuczmy model. Wpierw tylko potasujmy nasz plik:\n",
+ "\n",
+ " shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt\n",
+ "\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 6,
+ "metadata": {},
+ "outputs": [],
+ "source": [
!shuf < opensubtitlesA.pl.txt > opensubtitlesA.pl.shuf.txt
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 7,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "from torch.utils.data import IterableDataset\n",
+ "import itertools\n",
+ "\n",
+ "def look_ahead_iterator(gen):\n",
+ " prev = None\n",
+ " for item in gen:\n",
+ " if prev is not None:\n",
+ " yield (prev, item)\n",
+ " prev = item\n",
+ "\n",
+ "class Bigrams(IterableDataset):\n",
+ " def __init__(self, text_file, vocabulary_size):\n",
+ " self.vocab = build_vocab_from_iterator(\n",
+ " get_word_lines_from_file(text_file),\n",
+ " max_tokens = vocabulary_size,\n",
+ " specials = [''])\n",
+ " self.vocab.set_default_index(self.vocab[''])\n",
+ " self.vocabulary_size = vocabulary_size\n",
+ " self.text_file = text_file\n",
+ "\n",
+ " def __iter__(self):\n",
+ " return look_ahead_iterator(\n",
+ " (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))\n",
+ "\n",
+ "train_dataset = Bigrams('opensubtitlesA.pl.shuf.txt', vocab_size)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 8,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "(2, 72)"
+ ]
+ },
+ "execution_count": 8,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
from torch.utils.data import DataLoader

next(iter(train_dataset))
+ "\n",
+ "next(iter(train_dataset))"
+ ]
+ },
+ {
+ "from torch.utils.data import DataLoader\n",
