gorgot to add files

2023-05-31 20:48:15 +02:00 · 2023-05-31 20:48:15 +02:00 · f8bec5bc13
commit f8bec5bc13
parent 04decdd5ba
2 changed files with 86 additions and 0 deletions
--- a/scripts.py
+++ b/scripts.py
@ -0,0 +1,16 @@
+import regex as re
+import string 
+
+
+def get_words_from_line(line):
+  line = line.rstrip()
+  # line = line.lower()
+  line = line.strip()
+  line = line.translate(str.maketrans('', '', string.punctuation))
+#   yield '<s>'
+  for m in re.finditer(r'[\p{L}0-9\*]+|\p{P}+', line):
+     yield m.group(0).lower()
+#   yield '</s>'
+
+vocab_size = 60000
+learning_rate=0.0001
--- a/utils.py
+++ b/utils.py
@ -0,0 +1,70 @@
+import regex as re
+import string 
+from torch import nn
+import torch
+from torch.utils.data import DataLoader
+
+from torch.utils.data import IterableDataset
+import itertools
+import lzma
+import regex as re
+import pickle
+import scripts
+import string 
+
+
+def get_words_from_line(line):
+  line = line.rstrip()
+  line = line.lower()
+  line = line.strip()
+  line = line.translate(str.maketrans('', '', string.punctuation))
+  yield '<s>'
+  for m in re.finditer(r'\p{L}+', line):
+     yield m.group(0)
+  yield '</s>'
+
+vocab_size = 32000
+learning_rate=0.0001
+embed_size = 100
+device = 'cuda'
+
+class LanguageModel(nn.Module):
+  def __init__(self, vocabulary_size, embedding_size):
+      super(LanguageModel, self).__init__()
+      self.embedings = nn.Embedding(vocabulary_size, embedding_size)
+      self.linear = nn.Linear(embedding_size*3, vocabulary_size)
+
+      self.linear_first_layer = nn.Linear(embedding_size*5, embedding_size*3)
+      self.relu = nn.ReLU()
+      self.softmax = nn.Softmax()
+
+    #   self.model = nn.Sequential(
+    #       nn.Embedding(vocabulary_size, embedding_size),
+    #       nn.Linear(embedding_size, vocabulary_size),
+    #       nn.Softmax()
+    #   )
+
+  def forward(self, x_in):
+    #   emb_1 = self.embedings(x[0])
+    #   emb_2 = self.embedings(x[1])
+
+
+
+      embeddings = [self.embedings(x) for x in x_in]
+
+      first = embeddings[0]
+      to_sum = embeddings[1:6]
+      to_concat = embeddings[6:]
+
+      for t in to_sum:
+        first = torch.add(first, t)
+
+      to_concat.insert(0, first)
+
+      first_layer = self.linear_first_layer(torch.cat(to_concat, dim=1))
+      after_relu = self.relu(first_layer)
+      concated = self.linear(after_relu)
+
+      y = self.softmax(concated)
+
+      return y