working learing

2021-06-16 12:51:01 +02:00 · 2021-06-16 12:51:01 +02:00 · f3404fc347
commit f3404fc347
parent 2f7e3f3d97
3 changed files with 127 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -6,3 +6,5 @@
 *.o
 .DS_Store
 .token
+.vscode
+fa/*
--- a/main.py
+++ b/main.py
@ -0,0 +1,96 @@
+import os
+from util import Model
+import spacy
+import torch
+import numpy as np
+import tqdm
+
+def clean_string(str):
+    str = str.replace('\n', '')
+    return str
+
+def extract_word(line):
+    return line.split(" ")[1]
+
+def line2word(line):
+    word = extract_word(line)
+    word = clean_string(word)
+    return word
+
+def find_interpunction(line, classes):
+    result = [x for x in classes if x in line]
+    if len(result) > 0:
+        return result[0]
+    else:
+        return ['']
+
+def words_to_vecs(list_of_words):
+    return [nlp(x).vector for x in list_of_words]
+
+def softXEnt(input, target):
+    m = torch.nn.LogSoftmax(dim = 1)
+    logprobs = m(input)
+    return  -(target * logprobs).sum() / input.shape[0]
+
+def compute_class_vector(mark, classes):
+    result = np.zeros(len(classes))
+    for x in range(len(classes)):
+        if classes[x] == mark[0]:
+            result[x] == 1
+    return torch.tensor(result, dtype=torch.long)
+
+
+
+data_dir = "./fa/poleval_final_dataset/train"
+data_nopunc_dir = "./fa/poleval_final_dataset1/train"
+
+data_paths = os.listdir(data_dir)
+data_paths = [data_dir + "/" + x for x in data_paths]
+
+classes = [',', '.', '?', '!', '-', ':', '...']
+nlp = spacy.load("pl_core_news_sm")
+context_size = 5
+
+model = Model()
+epochs = 5
+output_prefix = "model"
+hidden_state = torch.randn((2, 1, 300), requires_grad=True)
+cell_state = torch.randn((2, 1, 300), requires_grad=True)
+
+model.train()
+optimizer = torch.optim.AdamW(model.parameters(), lr=0.02)
+loss_function = softXEnt
+
+for epoch in range(epochs):
+    for path in tqdm.tqdm(data_paths):
+        with open(path, "r") as file:
+            list = file.readlines()[:-1]
+            for i in range(0, len(list) - context_size - 1):
+                model.zero_grad()
+                x = list[i: i + context_size]
+                x = [line2word(y) for y in x]
+                x_1 = [line2word(list[i + context_size + 1])]
+                x = x + x_1
+                x = words_to_vecs(x)
+                mark = find_interpunction(x, classes)
+                mark = words_to_vecs(mark)
+                
+                x = torch.tensor(x, dtype=torch.float)
+                mark = torch.tensor(mark, dtype=torch.float)
+
+                output, (hidden_state, cell_state) = model.forward(x, hidden_state, cell_state)
+                output = output.squeeze(1)
+                loss = loss_function(output, compute_class_vector(mark, classes))
+                loss.backward()
+                optimizer.step()
+                hidden_state = hidden_state.detach()
+                cell_state = cell_state.detach()
+
+                """
+                vector -> (96,), np nadarray
+                """
+    print("Epoch: {}".format(epoch))
+    torch.save(
+            model.state_dict(),
+            os.path.join("./", f"{output_prefix}-{epoch}.pt"),
+        )
--- a/util.py
+++ b/util.py
@ -0,0 +1,29 @@
+import torch
+
+class Model(torch.nn.Module):
+    
+    def __init__(self):
+        super(Model, self).__init__()
+        # in: 4 słowa kontekstu przed i 1 słowo kontekstu po 
+        """
+        5 in features
+        150 out features
+        """
+        self.dense1 = torch.nn.Linear(6, 150, bias=False)
+        self.tanh1 = torch.nn.Tanh()
+        """
+        150 in features
+        300 hidden values
+        2 num layers
+        """
+        self.lstm = torch.nn.LSTM(150, 300, 2)
+        self.dense2 = torch.nn.Linear(300, 7)
+        self.softmax = torch.nn.Softmax()
+
+    def forward(self, data, hidden_state, cell_state):
+        data = self.dense1(data.T)
+        data = self.tanh1(data)
+        data, (hidden_state, cell_state) = self.lstm(data.unsqueeze(1), (hidden_state, cell_state))
+        data = self.dense2(data)
+        data = self.softmax(data)
+        return data, (hidden_state, cell_state)