tokenize words

2021-05-25 22:06:25 +02:00 · 2021-05-25 22:06:25 +02:00 · 894a4fbebb
commit 894a4fbebb
parent 2e150d9a9a
1 changed files with 25 additions and 2 deletions
--- a/main.py
+++ b/main.py
@ -1,7 +1,7 @@
 import pandas as pd
 import numpy as np
-import gzip
-
+from gensim import downloader
+from nltk.tokenize import word_tokenize

 x_labels = (pd.read_csv('in-header.tsv', sep='\t')).columns
 y_labels = (pd.read_csv('out-header.tsv', sep='\t')).columns
@ -16,3 +16,26 @@ x_test = pd.read_table('test-A/in.tsv', error_bad_lines=False,
                       header=None, quoting=3, names=x_labels)

 print(x_train)
+
+x_train = x_train[x_labels[0]].str.lower()
+x_dev = x_dev[x_labels[0]].str.lower()
+x_test = x_test[x_labels[0]].str.lower()
+y_train = y_train[y_labels[0]]
+
+x_train = [word_tokenize(x) for x in x_train]
+x_dev = [word_tokenize(x) for x in x_dev]
+x_test = [word_tokenize(x) for x in x_test]
+
+print(x_train)
+
+
+# w2v = downloader.load('glove-wiki-gigaword-200')
+
+# def document_vector(doc):
+#     return np.mean([word2vec[word] for word in doc if word in word2vec] or [np.zeros(50)], axis=0)
+
+# for doc in x_train:
+
+# x_train = [document_vector(doc) for doc in x_train]
+# x_dev = [document_vector(doc) for doc in x_dev]
+# x_test = [document_vector(doc) for doc in x_test]