ver 4 full train + stop words

2021-05-13 11:16:26 +02:00 · 2021-05-13 11:16:26 +02:00 · ee39a6ffd5
commit ee39a6ffd5
parent 78ae1c52a8
3 changed files with 34222 additions and 34221 deletions
--- a/dev-0/out.tsv
+++ b/dev-0/out.tsv
--- a/main.py
+++ b/main.py
@ -3,6 +3,7 @@ import pandas as pd
 from sklearn.linear_model import LinearRegression
 from sklearn.pipeline import make_pipeline
 from sklearn.feature_extraction.text import TfidfVectorizer
+from stop_words import get_stop_words

 col_names = ['start_date', 'end_date', 'title', 'source', 'content']

@ -17,7 +18,7 @@ X_dev = dev_set['content']
 X_test = test_set['content']

 print('Trenowanie modelu...')
-model = make_pipeline(TfidfVectorizer(), LinearRegression())
+model = make_pipeline(TfidfVectorizer(stop_words=get_stop_words('polish')), LinearRegression())
 model.fit(X_train, y_train)

 print('Predykcje...')
--- a/test-A/out.tsv
+++ b/test-A/out.tsv