s430705

2022-04-03 19:28:02 +02:00 · 2022-04-03 19:28:02 +02:00 · 206774da84
commit 206774da84
parent 3d96a41f40
3 changed files with 10132 additions and 10144 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/run.py
+++ b/run.py
@ -69,30 +69,18 @@ def prepare_output(file_path):


 def train_model(training_data):
-    for _, row in training_data.iterrows():
+    for index, row in training_data.iterrows():
        text = preprocess_text(str(row["final"]))
        words = word_tokenize(text)
        for w1, w2, w3 in trigrams(words, pad_right=True, pad_left=True):
-            if all([w1, w2]):
-                model[(w1, w2)][w2] += 1
-    total_count = 0
-    for w1, w2 in model:
-        total_count = float(sum(model[(w1, w2)].values()))
-        for w3 in model[(w1, w2)]:
-            model[(w1, w2)][w3] /= total_count
-    # for index, row in training_data.iterrows():
-    #     text = preprocess_text(str(row['final']))
-    #     words = word_tokenize(text)
-    #     for w1, w2, w3 in trigrams(words, pad_right=True, pad_left=True):
-    #         if w1 and w2 and w3:
-    #             model[(w1, w2)][w3] += 1
-    #
-    # for w1, w2 in model:
-    #     total_count = float(sum(model[(w1, w2)].values()))
-    #     for w3 in model:
-    #         model[(w1, w2)][w3] /= total_count
+            if w1 and w2 and w3:
+                model[(w2, w3)][w1] += 1
+                model[(w1, w2)][w3] += 1

-        # print(model)
+    for word_pair in model:
+        num_n_grams = float(sum(model[word_pair].values()))
+        for word in model[word_pair]:
+            model[word_pair][word] /= num_n_grams


 data = pd.read_csv(
--- a/test-A/out.tsv
+++ b/test-A/out.tsv