link to embeddings

neural network
bayes lib
2021-05-24 10:08:57 +02:00 · 2021-05-23 19:11:17 +02:00 · 2021-05-12 13:23:10 +02:00
7 changed files with 21953 additions and 0 deletions
--- a/bayes2.py
+++ b/bayes2.py
@ -0,0 +1,40 @@
+import gzip
+import io
+import pandas as pd 
+import numpy as np 
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.naive_bayes import MultinomialNB
+from sklearn.pipeline import make_pipeline
+from sklearn.metrics import accuracy_score
+
+def read_data_gz(baseUrl):
+    f = gzip.open(baseUrl,'r')
+    data_unzip = f.read()
+    data = pd.read_table(io.StringIO(data_unzip.decode('utf-8')), error_bad_lines=False, header= None)
+    return data
+
+baseUrl = '/home/przemek/ekstrakcja/sport-text-classification-ball-ISI-public/'
+data = read_data_gz(baseUrl + 'train/train.tsv.gz')
+
+y_train = data[0].values
+x_train = data[1].values
+
+model = make_pipeline(TfidfVectorizer(), MultinomialNB())
+model.fit(x_train, y_train)
+
+# dev-0
+x_dev = pd.read_table(baseUrl + 'dev-0/in.tsv', error_bad_lines=False, header= None)
+x_dev = x_dev[0].values
+
+y_pred = model.predict(x_dev)
+y_pred.tofile(baseUrl + 'dev-0/out.tsv', sep='\n')
+# --------------
+
+# test-A
+x_testA =  pd.read_table(baseUrl + '/test-A/in.tsv', error_bad_lines=False, header= None)
+x_testA= x_testA[0].values
+
+y_predA = model.predict(x_testA)
+y_predA.tofile(baseUrl + 'test-A/out.tsv', sep='\n')
+# --------------
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/dev-0/out2.tsv
+++ b/dev-0/out2.tsv
--- a/BIN
+++ b/BIN
--- a/neural.py
+++ b/neural.py
@ -0,0 +1,119 @@
+import gensim
+import nltk
+import pandas as pd 
+import numpy as np 
+import os
+import io
+import gzip
+import torch
+
+# wget http://publications.it.p.lodz.pl/2016/word_embeddings/pl-embeddings-cbow.txt
+
+
+def read_data_gz(baseUrl):
+    f = gzip.open(baseUrl,'r')
+    data_unzip = f.read()
+    data = pd.read_table(io.StringIO(data_unzip.decode('utf-8')), error_bad_lines=False, header= None)
+    return data
+
+def preprocess(data):
+    data_tokenize = [nltk.word_tokenize(x) for x in data]
+
+    for doc in data_tokenize:
+        i = 0
+        while i < len(doc):
+            if doc[i].isalpha():
+                doc[i] = doc[i].lower()
+            else:
+                del doc[i]
+            i += 1
+    return data_tokenize
+
+class NeuralNetworkModel(torch.nn.Module):
+
+    def __init__(self):
+        super(NeuralNetworkModel, self).__init__()
+        self.fc1 = torch.nn.Linear(100,200)
+        self.fc2 = torch.nn.Linear(200,1)
+
+    def forward(self, x):
+        x = self.fc1(x)
+        x = torch.relu(x)
+        x = self.fc2(x)
+        x = torch.sigmoid(x)
+        return x
+
+data_train = read_data_gz('train/train.tsv.gz')
+data_dev = pd.read_table('dev-0/in.tsv', error_bad_lines=False, header= None)
+data_test = pd.read_table('test-A/in.tsv', error_bad_lines=False, header= None)
+
+model = gensim.models.KeyedVectors.load_word2vec_format('pl-embeddings-cbow.txt', binary=False)
+
+y_train = data_train[0].values
+x_train = data_train[1].values
+x_dev  =  data_dev[0].values
+x_test = data_test[0].values
+
+x_train_tokenize = preprocess(x_train)
+x_dev_tokenize = preprocess(x_dev)
+x_test_tokenize = preprocess(x_test)
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+x_train_vectors = [np.mean([model[word] for word in content if word in model] or [np.zeros(100)], axis=0) for content in x_train_tokenize]
+x_train_vectors = np.array(x_train_vectors)
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+x_dev_vectors= [np.mean([model[word] for word in content if word in model] or [np.zeros(100)], axis=0) for content in x_dev_tokenize]
+x_dev_vectors = np.array(x_dev_vectors, dtype=np.float32)
+x_dev_tensor = torch.tensor(x_dev_vectors.astype(np.float32))
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+x_test_vectors= [np.mean([model[word] for word in content if word in model] or [np.zeros(100)], axis=0) for content in x_test_tokenize]
+x_test_vectors = np.array(x_test_vectors, dtype=np.float32)
+x_test_tensor = torch.tensor(x_test_vectors.astype(np.float32))
+
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+model_nn = NeuralNetworkModel()
+criterion = torch.nn.BCELoss()
+optimizer = torch.optim.SGD(model_nn.parameters(), lr=0.01)
+ 
+batch_size = 10
+print('Trenowanie modelu...')
+ 
+for epoch in range(6):
+    loss_score = 0
+    acc_score = 0
+    items_total = 0
+    model_nn.train()
+    for i in range(0, y_train.shape[0], batch_size):
+        X = x_train_vectors[i:i+batch_size]
+        X = torch.tensor(X.astype(np.float32))
+        Y = y_train[i:i+batch_size]
+        Y = torch.tensor(Y.astype(np.float32)).reshape(-1,1)
+ 
+        Y_predictions = model_nn(X)
+        acc_score += torch.sum((Y_predictions > 0.5) == Y).item()
+        items_total += Y.shape[0] 
+
+        optimizer.zero_grad()
+        loss = criterion(Y_predictions, Y)
+        loss.backward()
+        optimizer.step()
+
+
+        loss_score += loss.item() * Y.shape[0]
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+ypred = model_nn(x_dev_tensor)
+ypred = ypred.cpu().detach().numpy() 
+ypred = (ypred > 0.5)
+ypred = np.asarray(ypred, dtype=np.int32)
+ypred.tofile('dev-0/out.tsv', sep='\n')
+
+# -------------------------------------------------------------------------------------------------------------------------------------------
+ypredtest = model_nn(x_test_tensor)
+ypredtest = ypredtest.cpu().detach().numpy() 
+ypredtest = (ypredtest > 0.5)
+ypredtest = np.asarray(ypredtest, dtype=np.int32)
+ypredtest.tofile('test-A/out.tsv', sep='\n')
--- a/test-A/out.tsv
+++ b/test-A/out.tsv
--- a/test-A/out2.tsv
+++ b/test-A/out2.tsv
Author	SHA1	Message	Date
s434766	3529b9ebf1	link to embeddings	2021-05-24 10:08:57 +02:00
s434766	5ae7c95f2c	neural network	2021-05-23 19:11:17 +02:00
s434766	a16904d4cf	bayes lib	2021-05-12 13:23:10 +02:00