second try

2023-04-04 23:33:33 +02:00 · 2023-04-04 23:33:33 +02:00 · c7d96f1597
commit c7d96f1597
parent 9a1a5628a9
3 changed files with 4706 additions and 4697 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/run.py
+++ b/run.py
@ -28,9 +28,10 @@ def ngrams(iter, size):
        yield tuple(ngram)
        ngram = ngram[1:]
-PREFIX_TRAIN = 'dev-0' 
+PREFIX_TRAIN = 'train' 
-trainset = ''
+words = []
 counter_lines = 0
 with lzma.open(f'{PREFIX_TRAIN}/in.tsv.xz', 'r') as train, open(f'{PREFIX_TRAIN}/expected.tsv', 'r') as expected:
    for t_line, e_line in zip(train, expected):
        t_line = t_line.decode("utf-8")
@ -42,15 +43,15 @@ with lzma.open(f'{PREFIX_TRAIN}/in.tsv.xz', 'r') as train, open(f'{PREFIX_TRAIN}
        t_line_cleared = t_line_splitted_by_tab[-2] + ' ' + e_line + ' ' + t_line_splitted_by_tab[-1]
        words += t_line_cleared.split()
-        trainset += t_line_cleared + ' '
+        counter_lines+=1
        if counter_lines > 90000:
            break
 trainset = trainset.replace('\\n', ' ')
 # lzmaFile = lzma.open('dev-0/in.tsv.xz', 'rb')
 # content = lzmaFile.read().decode("utf-8")
 words = trainset.split()
 # words = get_words(trainset)
 ngrams_ = ngrams(words, 2)
@ -59,7 +60,7 @@ ngrams_ = ngrams(words, 2)
 def create_probabilities_bigrams(w_c, b_c):
    probabilities_bigrams = {}
    for bigram, bigram_amount in b_c.items():
-        if bigram_amount <=6:
+        if bigram_amount <=2:
            continue
        p_word_before = bigram_amount / w_c[bigram[0]] 
        p_word_after = bigram_amount / w_c[bigram[1]]
@ -67,18 +68,17 @@ def create_probabilities_bigrams(w_c, b_c):
    return probabilities_bigrams
 words_c = Counter(words)
 word_=''
 bigram_c = Counter(ngrams_)
 ngrams_=''
 probabilities = create_probabilities_bigrams(words_c, bigram_c)
 items = probabilities.items()
 probabilities = OrderedDict(sorted(items, key=lambda t:t[1], reverse=True))
-probabilities
+items=''
 # sorted_by_freq = freq_list(ngrams)
 # print(bigram_c)
 PREFIX_VALID = 'test-A'
@ -137,7 +137,16 @@ with lzma.open(f'{PREFIX_VALID}/in.tsv.xz', 'r') as train:
        for word_, p in probs_ordered.items():
            if counter_>4:
                break
-            result_string += f"{word_}:{str(p)} "
+            re_ = re.search(r'\p{L}+', word_)
            if re_:
                word_cleared = re_.group(0)
                result_string += f"{word_cleared}:{str(p)} "
            else:
                if result_string == '':
                    result_string = f"the:0.5 a:0.3 "
                continue
            counter_+=1
        result_string += ':0.1'
        print(result_string)
--- a/test-A/out.tsv
+++ b/test-A/out.tsv