Neural trigram model fixed

Neural trigram model
2023-06-03 23:35:00 +02:00 · 2023-05-09 20:31:19 +02:00
5 changed files with 1851 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -6,3 +6,6 @@
 *.o
 .DS_Store
 .token
 train/
 test-A/
 dev-0/
--- a/gonito.yaml
+++ b/gonito.yaml
@ -0,0 +1,20 @@
 description: trigram model prediction
 tags:
  - neural-network
  - trigram
 params:
  epochs: 5
  learning-rate: 0.001
  vocab_size: 30000
  embed_size: 300
  hidden_size: 150
  batch_size: 1000
 unwanted-params:
  - model-file
  - vocab-file
 param-files:
  - "*.yaml"
  - config/*.yaml
 links:
  - title: "repository"
    url: "https://git.wmi.amu.edu.pl/s444465/challenging-america-word-gap-prediction.git"
--- a/main.py
+++ b/main.py
--- a/neural_trigram.ipynb
+++ b/neural_trigram.ipynb
--- a/neural_trigram.py
+++ b/neural_trigram.py
@ -0,0 +1,163 @@
 # -*- coding: utf-8 -*-
 import itertools
 import lzma
 import numpy as np
 import regex as re
 import torch
 from torch import nn
 from torch.utils.data import IterableDataset, DataLoader
 from torchtext.vocab import build_vocab_from_iterator
 vocab_size = 30000
 embed_size = 300
 hidden_size = 150
 batch_size = 1000
 device = 'cuda'
 train_path = 'train/in.tsv.xz'
 model_path = 'model.bin'
 # Commented out IPython magic to ensure Python compatibility.
 from google.colab import drive
 drive.mount('modelowanie_jezyka', force_remount=True)
 # %cd /content/modelowanie_jezyka/MyDrive/modelowanie_jezyka
 def process_line(line):
    separated = line.split('\t')
    left = separated[6].replace(r'\n', ' ').strip()
    right = separated[7].replace(r'\n', ' ').strip()
    line = left + ' ' + right
    return line
 def get_line(line):
    line = process_line(line)
    for word in line.split():
        yield word
 def get_word_lines_from_file(file_name):
    i = 0
    with lzma.open(file_name, mode='rt', encoding='utf-8') as fid:
        for line in fid:
            if i > 100_000:
              break
            i += 1
            yield get_line(line)
 def double_look_ahead_iterator(gen):
    prev_prev = None
    prev = None
    for item in gen:
        if prev_prev is not None:
            yield np.asarray((prev_prev, prev, item))
        prev_prev = prev
        prev = item
 def prediction(words, model, top):
    words_tensor = [train_dataset.vocab.forward([word]) for word in words]
    word_t = torch.tensor(words_tensor).view(-1).to(device)
    out = model(word_t)
    top = torch.topk(out[0], top)
    top_indices = top.indices.tolist()
    top_probs = top.values.tolist()
    top_words = vocab.lookup_tokens(top_indices)
    zipped = list(zip(top_words, top_probs))
    for index, element in enumerate(zipped):
        unk = None
        if '<unk>' in element:
            unk = zipped.pop(index)
            zipped.append(('', unk[1]))
            break
    if unk is None:
        zipped[-1] = ('', zipped[-1][1])
    return ' '.join([f'{x[0]}:{x[1]}' for x in zipped])
 def create_outputs(folder_name, model, top):
    print(f'Creating outputs in {folder_name}')
    with lzma.open(f'{folder_name}/in.tsv.xz', mode='rt', encoding='utf-8') as fid:
        with open(f'{folder_name}/out-top={top}.tsv', 'w', encoding='utf-8', newline='\n') as f:
            for line in fid:
                separated = line.split('\t')
                prefix = separated[6].replace(r'\n', ' ').split()[-2:]
                output_line = prediction(prefix, model, top)
                f.write(output_line + '\n')
 def train_model(lr):
    model = TrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)
    data = DataLoader(train_dataset, batch_size=batch_size)
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)
    criterion = torch.nn.NLLLoss()
    model.train()
    step = 0
    for batch in data:
        x = batch[:, :2]
        y = batch[:, 2]
        x = x.to(device)
        y = y.to(device)
        optimizer.zero_grad()
        predicted = model(x)
        loss = criterion(torch.log(predicted), y)
        if step % 100 == 0:
            print(step, loss)
        step += 1
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 10)
        optimizer.step()
    torch.save(model.state_dict(), model_path)
 def with_hyperparams():
      train_model(lr=0.001)
      model = TrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)
      model.load_state_dict(torch.load(model_path))
      model.eval()
      for top in [100, 200, 400, 600, 800]:
          create_outputs('dev-0', model, top)
          create_outputs('test-A', model, top)
 """### Classes"""
 class Trigrams(IterableDataset):
    def __init__(self, text_file, vocabulary_size):
        self.vocab = build_vocab_from_iterator(
            get_word_lines_from_file(text_file),
            max_tokens=vocabulary_size,
            specials=['<unk>'])
        self.vocab.set_default_index(self.vocab['<unk>'])
        self.vocabulary_size = vocabulary_size
        self.text_file = text_file
    def __iter__(self):
        return double_look_ahead_iterator(
            (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))
 class TrigramNeuralLanguageModel(nn.Module):
    def __init__(self, vocabulary_size, embedding_size, hidden_size):
        super(TrigramNeuralLanguageModel, self).__init__()
        self.embedding_size = embedding_size
        self.embedding = nn.Embedding(vocabulary_size, embedding_size)
        self.linear = nn.Linear(2 * embedding_size, hidden_size)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, vocabulary_size)
        self.softmax = nn.Softmax()
    def forward(self, x):
        x = self.embedding(x).view((-1, 2 * self.embedding_size))
        x = self.linear(x)
        x = self.relu(x)
        x = self.linear2(x)
        return self.softmax(x)
 vocab = build_vocab_from_iterator(
    get_word_lines_from_file(train_path),
    max_tokens=vocab_size,
    specials=['<unk>']
 )
 vocab.set_default_index(vocab['<unk>'])
 train_dataset = Trigrams(train_path, vocab_size)
 with_hyperparams()
Author	SHA1	Message	Date
Andrzej Preibisz	a096f7bd29	Neural trigram model fixed	2023-06-03 23:35:00 +02:00
Andrzej Preibisz	c1d7f18b1d	Neural trigram model	2023-05-09 20:31:19 +02:00