First logistic regression model testing

2022-01-11 12:36:15 +01:00 · 2022-01-11 12:36:15 +01:00 · 8a94bb7f1f
commit 8a94bb7f1f
parent eea6f1b259
1 changed files with 52 additions and 5 deletions
--- a/twitter.py
+++ b/twitter.py
@ -2,6 +2,11 @@
 import pandas as pd
 import os
 import re
+import numpy as np
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import confusion_matrix,classification_report
+from copy import deepcopy
 # %% [markdown]
 ### Reading data - this part need changing when data
 # %%
@ -14,7 +19,7 @@ data_all = pd.read_csv(filepath, header=0,
    )
 # data.columns = ['index', 'id','date', 'query', 'user', 'text']
 # %%
-data = data_all.loc[:,['Tweet', 'Sentiment']]
+# data = data_all.loc[:,['Tweet', 'Sentiment']]
 # %% [markdown]
 ### Function definitions
 # %%
@ -23,14 +28,17 @@ change_dict = {
    " username ": ['@\w+|@'],
    " url ": ['http\S*'],
    " emoji ": ["[;:][dbop\(\)\[\]]|[^\w][dbop\(\)\[\]][;:]|xd+|\S*&\S*", "[^\w\s,.?!:;#\'\"\(\)\$\-\+%\[\]\|]"],
-    " number ": ["[\+\-\$]?[\d]+[,\.]?[\d]+[%]?"],
+    " number ": ["[\+\-\$]?[\d]+[,\.\:k]?[\d]?[%]?"],
    # standardization
    ', ': ['\s,'],
    '. ': ['\s\.'],
-    ' ': ['\s{2,}', '\n'],
+    ' ': ['\s{2,}', '\n', '^rt[\s]+', '\s\:\s'],
    "'": ["<EFBFBD>"],
    '?': ["\s\?"],
    '!': ["\s\!"],
+    '".': ["\s\"\."],
+    '",': ["\s\"\,"],
+    '" ': ["\s\"\s"]
    }

 def clean_lines(line, change_dict):
@ -60,6 +68,45 @@ def truncate_duplicated_letters_to_two(line):
 # %% [markdown]
 ### Cleaning
 # %%
-text = [clean_lines(x, change_dict) for x in data.loc[:, 'Tweet'].values.tolist()]
+text = [clean_lines(x, change_dict) for x in data_all.loc[:, 'Tweet'].values.tolist()]
 text = [truncate_duplicated_letters_to_two(x).strip() for x in text]
-data.Tweet = text
+data_all_clean = deepcopy(data_all)
+data_all_clean.Tweet = text
+data_all_clean = data_all_clean.dropna(subset = ["sent_score"], inplace=False)
+# %% [markdown]
+### Testing models
+# %%
+data_model = data_all_clean.loc[:, ['Tweet', 'sent_score']]
+idx = data_model.index
+data_model['random_number'] = np.random.randn(len(idx))
+train_set = data_model[data_model['random_number'] <= 0.8]
+test_set = data_model[data_model['random_number'] > 0.8]
+# %%
+vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
+train_matrix = vectorizer.fit_transform(train_set['Tweet'])
+test_matrix = vectorizer.transform(test_set['Tweet'])
+# %%
+lr = LogisticRegression()
+X_train = train_matrix
+X_test = test_matrix
+y_train = train_set['sent_score']
+y_test = test_set['sent_score']
+lr.fit(X_train,y_train)
+# %%
+predictions = lr.predict(X_test)
+# %%
+y_test_arr = np.asarray(y_test)
+confusion_matrix(predictions,y_test_arr)
+# %%
+print(classification_report(predictions,y_test))
+# %% [markdown]
+#               precision    recall  f1-score   support
+
+#         -1.0       0.91      0.96      0.94      1188
+#          0.0       0.99      0.97      0.98      4733
+#          1.0       0.97      0.98      0.98      4799
+
+#     accuracy                           0.97     10720
+#    macro avg       0.96      0.97      0.96     10720
+# weighted avg       0.97      0.97      0.97     10720
+# %%