s444421

2022-05-08 22:05:57 +02:00 · 2022-05-08 22:05:57 +02:00 · ad6d4f7f28
commit ad6d4f7f28
parent 756ef4277a
3 changed files with 10510 additions and 0 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/run.py
+++ b/run.py
@ -0,0 +1,86 @@
+#!/usr/bin/env python
+# coding: utf-8
+
+# In[171]:
+
+
+import pandas as pd
+from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
+from sklearn.naive_bayes import MultinomialNB
+
+
+# In[172]:
+
+
+f = open("train\in.tsv", "r", encoding='utf-8')
+lines = f.readlines()
+x_train = pd.DataFrame(lines)
+x_train.rename(columns = {0 : 'text'}, inplace = True)
+
+
+# In[173]:
+
+
+y_train = pd.read_csv('train\expected.tsv', sep='\t', names=['paranormal'], encoding='utf-8')
+
+
+# In[174]:
+
+
+tfidf_vectorizer=TfidfVectorizer(max_df=0.95, max_features=500)
+tfidf_vectorizer.fit_transform(x_train['text'].values)
+x_train_prepared = tfidf_vectorizer.transform(x_train['text'].values).toarray()
+
+
+# In[175]:
+
+
+mnb = MultinomialNB()
+model_mnb = mnb.fit(x_train_prepared, y_train.values.ravel())
+
+
+# In[176]:
+
+
+f = open("dev-0\in.tsv", "r", encoding='utf-8')
+lines = f.readlines()
+x_dev = pd.DataFrame(lines)
+x_dev.rename(columns = {0 : 'text'}, inplace = True)
+
+x_dev_prepared = tfidf_vectorizer.transform(x_dev['text'].values).toarray()
+
+y_dev = pd.read_csv('dev-0\expected.tsv', sep='\t', names=['paranormal'], encoding='utf-8')
+
+y_dev_pred = model_mnb.predict(x_dev_prepared)
+
+
+# In[177]:
+
+
+file = open('dev-0\out.tsv', 'w')
+for y in y_dev_pred:
+    file.write(f'{y}\n')
+file.close()
+
+
+# In[179]:
+
+
+f = open("test-A\in.tsv", "r", encoding='utf-8')
+lines = f.readlines()
+x_test = pd.DataFrame(lines)
+x_test.rename(columns = {0 : 'text'}, inplace = True)
+
+x_test_prepared = tfidf_vectorizer.transform(x_test['text'].values).toarray()
+
+y_test_pred = model_mnb.predict(x_test_prepared)
+
+
+# In[180]:
+
+
+file = open('test-A\out.tsv', 'w')
+for y in y_test_pred:
+    file.write(f'{y}\n')
+file.close()
+
--- a/test-A/out.tsv
+++ b/test-A/out.tsv