24 changed files with 18098 additions and 107873 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,9 @@
 Challenging America word-gap prediction
 ===================================
 Guess a word in a gap.
 Evaluation metric
 -----------------
 LikelihoodHashed is the metric
--- a/config.txt
+++ b/config.txt
@ -0,0 +1 @@
 --metric PerplexityHashed --precision 2  --in-header in-header.tsv  --out-header out-header.tsv
--- a/create_vocab.py
+++ b/create_vocab.py
@ -1,30 +0,0 @@
 from itertools import islice
 import regex as re
 import sys
 from torchtext.vocab import build_vocab_from_iterator
 import lzma
 import scripts
 def get_word_lines_from_file(file_name):
  counter=0
  with lzma.open(file_name, 'r') as fh:
    for line in fh:
      counter+=1
      # if counter == 10000:
      #   break
      line = line.decode("utf-8")
      yield scripts.get_words_from_line(line)
 vocab_size = scripts.vocab_size
 vocab = build_vocab_from_iterator(
    get_word_lines_from_file('train/in.tsv.xz'),
    max_tokens = vocab_size,
    specials = ['<unk>'])
 import pickle
 with open("vocab.pickle", 'wb') as handle:
    pickle.dump(vocab, handle)
--- a/dev-0/out-epochs=1,learning-rate=0.00001,
+++ b/dev-0/out-epochs=1,learning-rate=0.00001,
--- a/dev-0/out-epochs=1,learning-rate=0.0001,batch_size=12800.tsv
+++ b/dev-0/out-epochs=1,learning-rate=0.0001,batch_size=12800.tsv
--- a/dev-0/out-epochs=1,learning-rate=0.0001,batch_size=6400.tsv
+++ b/dev-0/out-epochs=1,learning-rate=0.0001,batch_size=6400.tsv
--- a/dev-0/out-epochs=2,learning-rate=0.0001,batch_size=6400.tsv
+++ b/dev-0/out-epochs=2,learning-rate=0.0001,batch_size=6400.tsv
--- a/dev-0/out-epochs=3,learning-rate=0.0001,batch_size=6400.tsv
+++ b/dev-0/out-epochs=3,learning-rate=0.0001,batch_size=6400.tsv
--- a/dev-0/out-epochs=4,learning-rate=0.0001,batch_size=6400.tsv
+++ b/dev-0/out-epochs=4,learning-rate=0.0001,batch_size=6400.tsv
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/BIN
+++ b/BIN
--- a/gonito.yaml
+++ b/gonito.yaml
@ -1,14 +0,0 @@
 description: Zajęcia 8
 tags:
  - trigram
  - neural-network
  - hidden-layer
  - hiperparameters
 params:
  epochs: 1,2,3,4
  learning-rate: 0.0001,0.00001
  batch-size: 6400,12800
  training-set: 100000-lines
 links:
  - title: "Git WMI"
    url: "https://git.wmi.amu.edu.pl/s444463/neural_word_gap"
--- a/in-header.tsv
+++ b/in-header.tsv
@ -0,0 +1 @@
 FileId	Year	LeftContext	RightContext
--- a/inference.py
+++ b/inference.py
@ -1,107 +0,0 @@
 from torch import nn
 import torch
 from torch.utils.data import IterableDataset
 import itertools
 import lzma
 import regex as re
 import pickle
 import scripts
 import os
 os.environ["CUDA_VISIBLE_DEVICES"] = "1"
 class SimpleTrigramNeuralLanguageModel(nn.Module):
  def __init__(self, vocabulary_size, embedding_size):
      super(SimpleTrigramNeuralLanguageModel, self).__init__()
      self.embedings = nn.Embedding(vocabulary_size, embedding_size)
      self.linear = nn.Linear(embedding_size*2, vocabulary_size)
      self.linear_first_layer = nn.Linear(embedding_size*2, embedding_size*2)
      self.relu = nn.ReLU()
      self.softmax = nn.Softmax()
    #   self.model = nn.Sequential(
    #       nn.Embedding(vocabulary_size, embedding_size),
    #       nn.Linear(embedding_size, vocabulary_size),
    #       nn.Softmax()
    #   )
  def forward(self, x):
      emb_1 = self.embedings(x[0])
      emb_2 = self.embedings(x[1])
      first_layer = self.linear_first_layer(torch.cat((emb_1, emb_2), dim=1))
      after_relu = self.relu(first_layer)
      concated = self.linear(after_relu)
      y = self.softmax(concated)
      return y
 vocab_size = scripts.vocab_size
 embed_size = 100
 device = 'cuda'
 model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size).to(device)
 model.load_state_dict(torch.load('batch_model_epoch_0.bin'))
 model.eval()
 with open("vocab.pickle", 'rb') as handle:
    vocab = pickle.load(handle)
 vocab.set_default_index(vocab['<unk>'])
 step = 0
 with lzma.open('dev-0/in.tsv.xz', 'rb') as file:
    for line in file:
        line = line.decode('utf-8')
        line = line.rstrip()
        # line = line.lower()
        line = line.replace("\\\\n", ' ')
        line_splitted = line.split('\t')[-2:] 
        prev = list(scripts.get_words_from_line(line_splitted[0]))[-1]
        next =  list(scripts.get_words_from_line(line_splitted[1]))[0]
        # prev = line[0].split(' ')[-1]
        # next = line[1].split(' ')[0]
        x = torch.tensor(vocab.forward([prev]))
        z = torch.tensor(vocab.forward([next]))
        x = x.to(device)
        z = z.to(device)
        ypredicted = model([x, z])
        try:
            top = torch.topk(ypredicted[0], 128)
        except:
            print(ypredicted[0])
            raise Exception('aa')
        top_indices = top.indices.tolist()
        top_probs = top.values.tolist()
        top_words = vocab.lookup_tokens(top_indices)
        string_to_print = ''
        sum_probs = 0
        for w, p in zip(top_words, top_probs):
            if '<unk>' in w:
                continue
            if re.search(r'\p{L}+', w):
                string_to_print += f"{w}:{p} "
                sum_probs += p
        if string_to_print == '':
            print(f"the:0.2 a:0.3 :0.5")
            continue
        unknow_prob = 1 - sum_probs
        string_to_print += f":{unknow_prob}"
        print(string_to_print)
--- a/out-header.tsv
+++ b/out-header.tsv
@ -0,0 +1 @@
 Word
--- a/run.py
+++ b/run.py
@ -0,0 +1,153 @@
 import lzma
 import matplotlib.pyplot as plt
 from math import log
 from collections import OrderedDict
 from collections import Counter
 import regex as re
 from itertools import islice
 def freq_list(g, top=None):
    c = Counter(g)
    if top is None:
       items = c.items()
    else:
       items = c.most_common(top)
    return OrderedDict(sorted(items, key=lambda t: -t[1]))
 def get_words(t):
    for m in re.finditer(r'[\p{L}0-9-\*]+', t):
        yield m.group(0)
 def ngrams(iter, size):
  ngram = []
  for item in iter:
    ngram.append(item)
    if len(ngram) == size:
        yield tuple(ngram)
        ngram = ngram[1:]
 PREFIX_TRAIN = 'train' 
 words = []
 counter_lines = 0
 with lzma.open(f'{PREFIX_TRAIN}/in.tsv.xz', 'r') as train, open(f'{PREFIX_TRAIN}/expected.tsv', 'r') as expected:
    for t_line, e_line in zip(train, expected):
        t_line = t_line.decode("utf-8")
        t_line = t_line.rstrip()
        e_line = e_line.rstrip()
        t_line_splitted_by_tab = t_line.split('\t')
        t_line_cleared = t_line_splitted_by_tab[-2] + ' ' + e_line + ' ' + t_line_splitted_by_tab[-1]
        words += t_line_cleared.split()
        counter_lines+=1
        if counter_lines > 90000:
            break
 # lzmaFile = lzma.open('dev-0/in.tsv.xz', 'rb')
 # content = lzmaFile.read().decode("utf-8")
 # words = get_words(trainset)
 ngrams_ = ngrams(words, 2)
 def create_probabilities_bigrams(w_c, b_c):
    probabilities_bigrams = {}
    for bigram, bigram_amount in b_c.items():
        if bigram_amount <=2:
            continue
        p_word_before = bigram_amount / w_c[bigram[0]] 
        p_word_after = bigram_amount / w_c[bigram[1]]
        probabilities_bigrams[bigram] = (p_word_before, p_word_after)
    return probabilities_bigrams
 words_c = Counter(words)
 word_=''
 bigram_c = Counter(ngrams_)
 ngrams_=''
 probabilities = create_probabilities_bigrams(words_c, bigram_c)
 items = probabilities.items()
 probabilities = OrderedDict(sorted(items, key=lambda t:t[1], reverse=True))
 items=''
 # sorted_by_freq = freq_list(ngrams)
 PREFIX_VALID = 'test-A'
 def count_probabilities(w_b, w_a, probs, w_c, b_c):
    results_before = {}
    results_after = {}
    for bigram, probses in probs.items():
        if len(results_before) > 20 or len(results_after) > 20:
            break
        if w_b == bigram[0]:
            results_before[bigram] = probses[0]
        if w_a == bigram[1]:
            results_after[bigram] = probses[1]
    a=1
    best_ = {}
    for bigram, probses in results_before.items():
        for bigram_2, probses_2 in results_after.items():
            best_[bigram[1]] = probses * probses_2
    for bigram, probses in results_after.items():
            for bigram_2, probses_2 in results_before.items():
                if bigram[0] in best_:
                    if probses * probses_2 < probses_2:
                        continue
                best_[bigram[0]] = probses * probses_2
    items = best_.items()
    return OrderedDict(sorted(items, key=lambda t:t[1], reverse=True))
 with lzma.open(f'{PREFIX_VALID}/in.tsv.xz', 'r') as train:
    for t_line in train:
        t_line = t_line.decode("utf-8")
        t_line = t_line.rstrip()
        t_line = t_line.replace('\\n', ' ')
        t_line_splitted_by_tab = t_line.split('\t')
        words_pre = t_line_splitted_by_tab[-2].split()
        words_po = t_line_splitted_by_tab[-1].split()
        w_pre = words_pre[-1]
        w_po = words_po[0]
        probs_ordered = count_probabilities(w_pre, w_po,probabilities, words_c, bigram_c)
        if len(probs_ordered) ==0:
            print(f"the:0.5 a:0.3 :0.2")
            continue
        result_string = ''
        counter_ = 0
        for word_, p in probs_ordered.items():
            if counter_>4:
                break
            re_ = re.search(r'\p{L}+', word_)
            if re_:
                word_cleared = re_.group(0)
                result_string += f"{word_cleared}:{str(p)} "
            else:
                if result_string == '':
                    result_string = f"the:0.5 a:0.3 "
                continue
            counter_+=1
        result_string += ':0.1'
        print(result_string)
        a=1
--- a/test-A/out-epochs=1,learning-rate=0.00001,batch_size=6400.tsv
+++ b/test-A/out-epochs=1,learning-rate=0.00001,batch_size=6400.tsv
--- a/test-A/out-epochs=1,learning-rate=0.0001,batch_size=12800.tsv
+++ b/test-A/out-epochs=1,learning-rate=0.0001,batch_size=12800.tsv
--- a/test-A/out-epochs=1,learning-rate=0.0001,batch_size=6400.tsv
+++ b/test-A/out-epochs=1,learning-rate=0.0001,batch_size=6400.tsv
--- a/test-A/out-epochs=2,learning-rate=0.0001,batch_size=6400.tsv
+++ b/test-A/out-epochs=2,learning-rate=0.0001,batch_size=6400.tsv
--- a/test-A/out-epochs=3,learning-rate=0.0001,batch_size=6400.tsv
+++ b/test-A/out-epochs=3,learning-rate=0.0001,batch_size=6400.tsv
--- a/test-A/out-epochs=4,learning-rate=0.0001,batch_size=6400.tsv
+++ b/test-A/out-epochs=4,learning-rate=0.0001,batch_size=6400.tsv
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
--- a/train.py
+++ b/train.py
@ -1,124 +0,0 @@
 from torch import nn
 import torch
 from torch.utils.data import IterableDataset
 import itertools
 import lzma
 import regex as re
 import pickle
 import scripts
 def look_ahead_iterator(gen):
    prev = None
    current = None
    next = None
    for next in gen:
        if prev is not None and current is not None:
            yield (prev, current, next)
        prev = current
        current = next
 def get_word_lines_from_file(file_name):
  counter=0
  with lzma.open(file_name, 'r') as fh:
    for line in fh:
      counter+=1
      if counter == 100000:
        break
      line = line.decode("utf-8")
      yield scripts.get_words_from_line(line)
 class Trigrams(IterableDataset):
  def load_vocab(self):
    with open("vocab.pickle", 'rb') as handle:
        vocab = pickle.load( handle)
    return vocab
  def __init__(self, text_file, vocabulary_size):
      self.vocab = self.load_vocab()
      self.vocab.set_default_index(self.vocab['<unk>'])
      self.vocabulary_size = vocabulary_size
      self.text_file = text_file
  def __iter__(self):
     return look_ahead_iterator(
         (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))
 vocab_size = scripts.vocab_size
 train_dataset = Trigrams('train/in.tsv.xz', vocab_size)
 #=== trenowanie
 from torch import nn
 import torch
 from torch.utils.data import DataLoader
 embed_size = 100
 class SimpleTrigramNeuralLanguageModel(nn.Module):
  def __init__(self, vocabulary_size, embedding_size):
      super(SimpleTrigramNeuralLanguageModel, self).__init__()
      self.embedings = nn.Embedding(vocabulary_size, embedding_size)
      self.linear = nn.Linear(embedding_size*2, vocabulary_size)
      self.linear_first_layer = nn.Linear(embedding_size*2, embedding_size*2)
      self.relu = nn.ReLU()
      self.softmax = nn.Softmax()
    #   self.model = nn.Sequential(
    #       nn.Embedding(vocabulary_size, embedding_size),
    #       nn.Linear(embedding_size, vocabulary_size),
    #       nn.Softmax()
    #   )
  def forward(self, x):
      emb_1 = self.embedings(x[0])
      emb_2 = self.embedings(x[1])
      first_layer = self.linear_first_layer(torch.cat((emb_1, emb_2), dim=1))
      after_relu = self.relu(first_layer)
      concated = self.linear(after_relu)
      y = self.softmax(concated)
      return y
 model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size)
 vocab = train_dataset.vocab
 device = 'cuda'
 model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size).to(device)
 data = DataLoader(train_dataset, batch_size=12800)
 optimizer = torch.optim.Adam(model.parameters(), lr=scripts.learning_rate)
 criterion = torch.nn.NLLLoss()
 model.train()
 step = 0
 epochs = 4
 for i in range(epochs):
  for x, y, z in data:
    x = x.to(device)
    y = y.to(device)
    z = z.to(device)
    optimizer.zero_grad()
    ypredicted = model([x, z])
    loss = criterion(torch.log(ypredicted), y)
    if step % 2000 == 0:
        print(step, loss)
    #     torch.save(model.state_dict(), f'model1_{step}.bin')
    step += 1
    loss.backward()
    optimizer.step()
  torch.save(model.state_dict(), f'batch_model_epoch_{i}.bin')
  print(step, loss, f'model_epoch_{i}.bin')
 torch.save(model.state_dict(), 'model_tri1.bin')
		`@ -0,0 +1 @@`
							`--metric PerplexityHashed --precision 2 --in-header in-header.tsv --out-header out-header.tsv`