working on it

2021-06-20 19:04:16 +02:00 · 2021-06-20 19:04:16 +02:00 · a2f39d1f56
commit a2f39d1f56
parent 1397a7a5c2
1 changed files with 104 additions and 0 deletions
--- a/main.py
+++ b/main.py
@ -0,0 +1,104 @@
+from os import sep
+from nltk import word_tokenize
+import pandas as pd
+import torch
+from tqdm import tqdm
+from torchtext.vocab import vocab
+from collections import Counter, OrderedDict
+import spacy
+from torchcrf import CRF
+from torch.utils.data import DataLoader
+
+nlp = spacy.load('en_core_web_sm')
+
+class Model(torch.nn.Module):
+    def __init__(self, num_tags, seq_length):
+        super(Model, self).__init__()
+        self.emb = torch.nn.Embedding(len(vocab.get_itos()), 100)
+        self.gru = torch.nn.GRU(100, 256, 1, batch_first=True)
+        self.hidden2tag = torch.nn.Linear(256, 9)
+        self.crf = CRF(num_tags, batch_first=True)
+        self.relu = torch.nn.ReLU()
+        self.fc1 = torch.nn.Linear(1, seq_length)
+        self.softmax = torch.nn.Softmax(dim=0)
+        self.sigm = torch.nn.Sigmoid()
+
+    def forward(self, data, tags):
+        emb = self.relu(self.emb(data))
+        out, h_n = self.gru(emb)
+        # out = self.dense1(out.squeeze(0).T)
+        out = self.hidden2tag(out)
+        out = self.crf(out, tags.T)
+        out = self.sigm(self.fc1(torch.tensor([out])))
+        return out
+
+
+def process_document(document):
+    # return [str(tok.lemma) for tok in nlp(document)]
+    return document.split(" ")
+
+def build_vocab(dataset):
+    counter = Counter()
+    for document in dataset:
+        counter.update(process_document(document))
+    sorted_by_freq_tuples = sorted(counter.items(), key=lambda x: x[1], reverse=True)
+    ordered_dict = OrderedDict(sorted_by_freq_tuples)
+    v = vocab(counter)
+    default_index = -1
+    v.set_default_index(default_index)
+    return v
+
+def data_process(dt):
+    return [ torch.tensor([vocab[token]  for token in  document.split(" ") ], dtype = torch.long) for document in dt]
+
+def labels_process(dt):
+    return [ torch.tensor([labels_vocab[token]  for token in  document.split(" ") ], dtype = torch.long) for document in dt]
+
+data = pd.read_csv("train/train.tsv", sep="\t")
+data.columns = ["labels", "text"]
+
+vocab = build_vocab(data['text'])
+# labels_vocab = build_vocab(data['labels'])
+
+labels_vocab = {
+    'O': 0,
+    'B-PER': 1,
+    'B-LOC': 2,
+    'I-PER': 3,
+    'B-MISC': 4,
+    'I-MISC': 5,
+    'I-LOC': 6,
+    'B-ORG': 7,
+    'I-ORG': 8
+}
+
+train_tokens_ids = data_process(data["text"])
+train_labels = labels_process(data["labels"])
+num_tags = 9
+NUM_EPOCHS = 5
+seq_length = 15
+
+model = Model(num_tags, seq_length)
+criterion = torch.nn.CrossEntropyLoss()
+optimizer = torch.optim.Adam(model.parameters())
+
+train_dataloader = DataLoader(list(zip(train_tokens_ids, train_labels)), batch_size=64, shuffle=True)
+# test_dataloader = DataLoader(train_labels, batch_size=64, shuffle=True)
+
+for i in range(NUM_EPOCHS):
+    model.train()
+    #for i in tqdm(range(500)):
+    for i in tqdm(range(len(train_labels))):
+        for k in range(0, len(train_tokens_ids[i]) - seq_length, seq_length):
+            batch_tokens = train_tokens_ids[i][k: k + seq_length].unsqueeze(0)
+            tags = train_labels[i][k: k + seq_length].unsqueeze(1)
+            
+            predicted_tags = model(batch_tokens, tags)
+
+            optimizer.zero_grad()
+            tags = torch.tensor([x[0] for x in tags])
+            loss  = criterion(predicted_tags.unsqueeze(0),tags.T)
+            
+            loss.backward()
+            optimizer.step()
+            model.zero_grad()