Delete 'lab5.py'

2023-05-13 10:52:54 +02:00 · 2023-05-13 10:52:54 +02:00 · 9cc73ca767
commit 9cc73ca767
parent 4e07117b92
1 changed files with 0 additions and 177 deletions
--- a/lab5.py
+++ b/lab5.py
@ -1,177 +0,0 @@
-from tqdm import tqdm
-from collections import Counter
-import mmap
-import pickle
-from math import prod
-from copy import deepcopy
-import random
-
-
-class TetragramModel:
-    def __init__(self):
-        self.vocab = None
-        self.ngram_counts = None
-
-    def get_num_lines(self, filename):
-        fp = open(filename, 'r+')
-        buf = mmap.mmap(fp.fileno(), 0)
-        lines = 0
-        while buf.readline():
-            lines += 1
-        fp.close()
-        return lines
-
-    def train(self, filename, vocab_size=5000, load_ngrams=None):
-        def get_vocab(filename, vocab_size):
-            file_vocab = Counter()
-            with open(filename, encoding='utf-8') as f:
-                for line in tqdm(f, total=self.get_num_lines(filename), desc=f'Generating vocab'):
-                    line = ' '.join(line.strip().split('\t')[-2:]).replace(r'\n', ' ').split()
-                    line_vocab = Counter(line)
-                    file_vocab.update(line_vocab)
-            if len(file_vocab) > vocab_size:
-                file_vocab = [tup[0] for tup in file_vocab.most_common(vocab_size)]
-            else:
-                file_vocab = file_vocab.keys()
-            return file_vocab
-
-        def get_gram_counts(filename):
-            gram_names = ['unigrams', 'bigrams', 'trigrams', 'tetragrams']
-            ngram_counts = {name: Counter() for name in gram_names}
-            with open(filename, encoding='utf-8') as f:
-                for line in tqdm(f, total=self.get_num_lines(filename), desc=f'Generating n-gram counts'):
-                    line = line.strip().replace(r'\n', ' ').split('\t')[-2:]
-                    for line_part in line:
-                        line_part = [word if word in self.vocab else '<UNK>' for word in line_part.split()]
-                        line_unigrams = Counter(line_part)
-                        line_bigrams = Counter([tuple(line_part[i: i + 2]) for i in range(len(line_part) - 2 + 1)])
-                        line_trigrams = Counter([tuple(line_part[i: i + 3]) for i in range(len(line_part) - 3 + 1)])
-                        line_tetragrams = Counter([tuple(line_part[i: i + 4]) for i in range(len(line_part) - 4 + 1)])
-                        ngram_counts['unigrams'].update(line_unigrams)
-                        ngram_counts['bigrams'].update(line_bigrams)
-                        ngram_counts['trigrams'].update(line_trigrams)
-                        ngram_counts['tetragrams'].update(line_tetragrams)
-            return ngram_counts
-
-        self.vocab = get_vocab(filename, vocab_size)
-        if load_ngrams:
-            print('Loading n-gram model from file...')
-            with open(load_ngrams, "rb") as f:
-                self.ngram_counts = pickle.load(f)
-            print('Model loaded.')
-        else:
-            self.ngram_counts = get_gram_counts(filename)
-
-    def get_ngram_prob(self, ngram):
-        try:
-            if type(ngram) == str:
-                return self.ngram_counts['unigrams'][ngram] / sum(self.ngram_counts['unigrams'].values())
-            ngram_len = len(ngram)
-            if ngram_len == 2:
-                return self.ngram_counts['bigrams'][ngram] / self.ngram_counts['unigrams'][ngram[0]]
-            elif ngram_len == 3:
-                return self.ngram_counts['trigrams'][ngram] / self.ngram_counts['bigrams'][ngram[:2]]
-            else:
-                return self.ngram_counts['tetragrams'][ngram] / self.ngram_counts['trigrams'][ngram[:3]]
-        except ZeroDivisionError:
-            return 0
-
-    def predict_gaps(self, filename, lambdas=(0.25, 0.25, 0.25, 0.25), top_k=False, k=10):
-        with open(filename, encoding='utf-8') as f, open('out.tsv', 'w', encoding='utf-8') as out:
-            for line in tqdm(f, total=self.get_num_lines(filename), desc=f'Generating gap predictions'):
-                line = line.strip().replace(r'\n', ' ').split('\t')[-2:]
-                left_context = [word if word in self.vocab else '<UNK>' for word in line[0].split()]
-                right_context = [word if word in self.vocab else '<UNK>' for word in line[1].split()]
-                context_probs = dict()
-                vocab_keys = deepcopy(list(self.vocab))
-                vocab_keys.append('<UNK>')
-                for word in vocab_keys:
-                    tetragrams_probs = []
-                    for i in range(4):
-                        tetragram = tuple(left_context[-4:][1 + i:] + [word] + right_context[:4][:-4 + i])
-                        unigram_prob = self.get_ngram_prob(tetragram[-1])
-                        bigram_prob = self.get_ngram_prob(tetragram[-2:])
-                        trigram_prob = self.get_ngram_prob(tetragram[-3:])
-                        tetragram_prob = self.get_ngram_prob(tetragram)
-                        interpolated_prob = (unigram_prob * lambdas[0]) + (bigram_prob * lambdas[1]) + (
-                                    trigram_prob * lambdas[2]) + (tetragram_prob * lambdas[3])
-                        tetragrams_probs.append(interpolated_prob)
-                    tetragrams_final_prob = prod(tetragrams_probs)
-                    context_probs[word] = tetragrams_final_prob
-                if top_k:
-                    sorted_top = sorted(context_probs.items(), key=lambda x: x[1], reverse=True)[:k]
-                    probs_sum = sum([y for x, y in sorted_top])
-                    sorted_top = [(x, y / probs_sum) for x, y in sorted_top]
-                    probs_string = ''
-                    unk_string = ''
-                    for tup in sorted_top:
-                        if tup[0] == '<UNK>':
-                            unk_string += f':{tup[1]}'
-                        else:
-                            probs_string += f'{tup[0]}:{tup[1]}\t'
-                    probs_string += unk_string
-                    probs_string = probs_string.strip()
-                    out.write(probs_string + '\n')
-                else:
-                    probs_sum = sum(context_probs.values())
-                    unk_prob = context_probs.pop('<UNK>') / probs_sum
-                    context_probs_normalized = [(unigram, prob / probs_sum) for unigram, prob in context_probs.items()]
-                    probs_string = '\t'.join([f'{unigram}:{prob}' for unigram, prob in
-                                              sorted(context_probs_normalized, key=lambda x: x[1], reverse=True)])
-                    if unk_prob > 0:
-                        probs_string += f"\t:{unk_prob}"
-                    out.write(probs_string + '\n')
-
-    def generate(self, prompt, length, temperature=0.5):
-        # for simplicity we assume that the prompt is always at least a trigram in terms of length
-        generation = prompt.split()
-        prompt = prompt.split()[-3:]
-        prompt = [word if word in self.vocab else '<UNK>' for word in prompt]
-        for i in tqdm(range(length), desc=f'Generating text'):
-            next_tri = [(k, v) for k, v in self.ngram_counts['tetragrams'].items() if list(k[:3]) == prompt and k[-1] != '<UNK>']
-            if next_tri:
-                top3 = sorted(next_tri, key=lambda x: x[1], reverse=True)[:min(3, len(next_tri))]
-                if random.choice([i for i in range(1, 11)]) > temperature * 10:
-                    if len(next_tri) < 3:
-                        generation.append(random.choice(list(self.ngram_counts['unigrams'].keys())))
-                    else:
-                        generation.append(random.choice(top3)[0][-1])
-                else:
-                    generation.append(top3[0][0][-1])
-            else:
-                next_bi = [(k, v) for k, v in self.ngram_counts['trigrams'].items() if list(k[:2]) == prompt[-2:] and k[-1] != '<UNK>']
-                if next_bi:
-                    top3 = sorted(next_bi, key=lambda x: x[1], reverse=True)[:min(3, len(next_bi))]
-                    if random.choice([i for i in range(1, 11)]) > temperature * 10:
-                        if len(next_bi) < 3:
-                            generation.append(random.choice(list(self.ngram_counts['unigrams'].keys())))
-                        else:
-                            generation.append(random.choice(top3)[0][-1])
-                    else:
-                        generation.append(top3[0][0][-1])
-                else:
-                    next_uni = [(k, v) for k, v in self.ngram_counts['bigrams'].items() if list(k[:1]) == prompt[-1:] and k[-1] != '<UNK>']
-                    if next_uni:
-                        top3 = sorted(next_uni, key=lambda x: x[1], reverse=True)[:min(3, len(next_uni))]
-                        if random.choice([i for i in range(1, 11)]) > temperature * 10:
-                            if len(next_uni) < 3:
-                                generation.append(random.choice(list(self.ngram_counts['unigrams'].keys())))
-                            else:
-                                generation.append(random.choice(top3)[0][-1])
-                        else:
-                            generation.append(top3[0][0][-1])
-                    else:
-                        generation.append(random.choice(list(self.ngram_counts['unigrams'].keys())))
-            prompt = generation[-3:]
-        print(' '.join(generation))
-
-
-# model = TetragramModel()
-# model.train('train.tsv', vocab_size=X)
-# model.predict_gaps('dev-0/in.tsv', top_k=True, k=5, lambdas=(X, X, X, X))
-# model.predict_gaps('test-A/in.tsv', top_k=True, k=5, lambdas=(X, X, X, X))
-# model.generate('According to recent news', length=50)
-# model.generate('Recent studies have shown that', length=50)
-# model.generate('Today I was taking a stroll in the park when suddenly', length=50)
-# model.generate('The most unbelievable story ever told goes like this', length=50)
-# model.generate('The war between', length=50)