retroc2/retroc2.py

#!/usr/bin/env python
# coding: utf-8

# # retroc2

# In[1]:


import lzma
import csv
from stop_words import get_stop_words
import gensim
import itertools
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
from sklearn.linear_model import LinearRegression


# In[68]:


def read_data(filename):
    all_data = lzma.open(filename).read().decode('UTF-8').split('\n')
    return [line.split('\t') for line in all_data][:-1]

train_data = read_data('train/train.tsv.xz')[::250]


# In[69]:


train_data[0]


# In[70]:


stop_words = get_stop_words('pl') + ['a', 'u', 'i', 'z', 'w', 'o']
print(stop_words)


# In[71]:


train_data_tokenized = [list(set(gensim.utils.tokenize(x[4], lowercase = True))) for x in train_data]


# In[72]:


train_data_tokenized[0]


# In[73]:


train_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in train_data_tokenized]
train_data_stemmatized[0]


# In[74]:


vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([' '.join(i) for i in train_data_stemmatized])


# In[75]:


feature_names = vectorizer.get_feature_names()
dense = vectors.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)


# In[76]:


len(train_data)


# In[77]:


df[:10]


# In[78]:


vectorizer.transform(['__ ma kota']).toarray()[0]


# In[79]:


train_Y = [(float(x[0]) + float(x[1])) / 2 for x in train_data]


# In[80]:


model = LinearRegression()  # definicja modelu
model.fit(df, train_Y)  # dopasowanie modelu


# In[81]:


model.predict(df[:10])


# In[82]:


with open('dev-0/in.tsv', "r", encoding="utf-8") as f:
    dev_0_data = [line.rstrip() for line in f]

dev_0_data_tokenized = [list(set(gensim.utils.tokenize(x, lowercase = True))) for x in dev_0_data]
dev_0_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in dev_0_data_tokenized]
dev_0_data = [' '.join(i) for i in dev_0_data_stemmatized]


# In[83]:


y_predicted = model.predict(vectorizer.transform(dev_0_data).toarray())


# In[84]:


y_predicted[:10]


# In[92]:


f = open("dev-0/out.tsv", "a")
for i in y_predicted:
    f.write(str(round(i, 11)) + '\n')
f.close()


# In[86]:


with open('dev-0/expected.tsv', "r", encoding="utf-8") as f:
    e = [line.rstrip() for line in f]


# In[94]:


import math
t = []
for i in range(len(y_predicted)):
    tmp = (float(y_predicted[i]) - float(e[i])) ** 2
    t.append(tmp)
print(math.sqrt(sum(t)/len(y_predicted)))


# In[88]:


with open('test-A/in.tsv', "r", encoding="utf-8") as f:
    test_A_data = [line.rstrip() for line in f]

test_A_data_tokenized = [list(set(gensim.utils.tokenize(x, lowercase = True))) for x in test_A_data]
test_A_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in test_A_data_tokenized]
test_A_data = [' '.join(i) for i in test_A_data_stemmatized]


# In[89]:


y_test_predicted = model.predict(vectorizer.transform(test_A_data).toarray())


# In[90]:


y_test_predicted[:10]


# In[93]:


f = open("test-A/out.tsv", "a")
for i in y_test_predicted:
    f.write(str(round(i, 11)) + '\n')
f.close()


# In[ ]:
add script 2021-05-18 22:41:52 +02:00			`#!/usr/bin/env python`
			`# coding: utf-8`

			`# # retroc2`

			`# In[1]:`


			`import lzma`
			`import csv`
			`from stop_words import get_stop_words`
			`import gensim`
			`import itertools`
			`from sklearn.feature_extraction.text import TfidfVectorizer`
			`import pandas as pd`
			`from sklearn.linear_model import LinearRegression`


update script 2021-05-18 22:46:19 +02:00			`# In[68]:`
add script 2021-05-18 22:41:52 +02:00

			`def read_data(filename):`
			`all_data = lzma.open(filename).read().decode('UTF-8').split('\n')`
			`return [line.split('\t') for line in all_data][:-1]`

update script 2021-05-18 22:46:19 +02:00			`train_data = read_data('train/train.tsv.xz')[::250]`
add script 2021-05-18 22:41:52 +02:00

update script 2021-05-18 22:46:19 +02:00			`# In[69]:`
add script 2021-05-18 22:41:52 +02:00

			`train_data[0]`


update script 2021-05-18 22:46:19 +02:00			`# In[70]:`
add script 2021-05-18 22:41:52 +02:00

			`stop_words = get_stop_words('pl') + ['a', 'u', 'i', 'z', 'w', 'o']`
			`print(stop_words)`


update script 2021-05-18 22:46:19 +02:00			`# In[71]:`
add script 2021-05-18 22:41:52 +02:00

			`train_data_tokenized = [list(set(gensim.utils.tokenize(x[4], lowercase = True))) for x in train_data]`


update script 2021-05-18 22:46:19 +02:00			`# In[72]:`
add script 2021-05-18 22:41:52 +02:00

			`train_data_tokenized[0]`


update script 2021-05-18 22:46:19 +02:00			`# In[73]:`
add script 2021-05-18 22:41:52 +02:00

			`train_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in train_data_tokenized]`
			`train_data_stemmatized[0]`


update script 2021-05-18 22:46:19 +02:00			`# In[74]:`
add script 2021-05-18 22:41:52 +02:00

			`vectorizer = TfidfVectorizer()`
			`vectors = vectorizer.fit_transform([' '.join(i) for i in train_data_stemmatized])`


update script 2021-05-18 22:46:19 +02:00			`# In[75]:`
add script 2021-05-18 22:41:52 +02:00

			`feature_names = vectorizer.get_feature_names()`
			`dense = vectors.todense()`
			`denselist = dense.tolist()`
			`df = pd.DataFrame(denselist, columns=feature_names)`


update script 2021-05-18 22:46:19 +02:00			`# In[76]:`
add script 2021-05-18 22:41:52 +02:00

			`len(train_data)`


update script 2021-05-18 22:46:19 +02:00			`# In[77]:`
add script 2021-05-18 22:41:52 +02:00

			`df[:10]`


update script 2021-05-18 22:46:19 +02:00			`# In[78]:`
add script 2021-05-18 22:41:52 +02:00

			`vectorizer.transform(['__ ma kota']).toarray()[0]`


update script 2021-05-18 22:46:19 +02:00			`# In[79]:`
add script 2021-05-18 22:41:52 +02:00

			`train_Y = [(float(x[0]) + float(x[1])) / 2 for x in train_data]`


update script 2021-05-18 22:46:19 +02:00			`# In[80]:`
add script 2021-05-18 22:41:52 +02:00

			`model = LinearRegression() # definicja modelu`
			`model.fit(df, train_Y) # dopasowanie modelu`


update script 2021-05-18 22:46:19 +02:00			`# In[81]:`
add script 2021-05-18 22:41:52 +02:00

			`model.predict(df[:10])`


update script 2021-05-18 22:46:19 +02:00			`# In[82]:`
add script 2021-05-18 22:41:52 +02:00

			`with open('dev-0/in.tsv', "r", encoding="utf-8") as f:`
			`dev_0_data = [line.rstrip() for line in f]`

			`dev_0_data_tokenized = [list(set(gensim.utils.tokenize(x, lowercase = True))) for x in dev_0_data]`
			`dev_0_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in dev_0_data_tokenized]`
			`dev_0_data = [' '.join(i) for i in dev_0_data_stemmatized]`


update script 2021-05-18 22:46:19 +02:00			`# In[83]:`
add script 2021-05-18 22:41:52 +02:00

			`y_predicted = model.predict(vectorizer.transform(dev_0_data).toarray())`


update script 2021-05-18 22:46:19 +02:00			`# In[84]:`
add script 2021-05-18 22:41:52 +02:00

			`y_predicted[:10]`


update script 2021-05-18 22:46:19 +02:00			`# In[92]:`
add script 2021-05-18 22:41:52 +02:00

			`f = open("dev-0/out.tsv", "a")`
			`for i in y_predicted:`
			`f.write(str(round(i, 11)) + '\n')`
			`f.close()`


update script 2021-05-18 22:46:19 +02:00			`# In[86]:`
add script 2021-05-18 22:41:52 +02:00

			`with open('dev-0/expected.tsv', "r", encoding="utf-8") as f:`
			`e = [line.rstrip() for line in f]`


update script 2021-05-18 22:46:19 +02:00			`# In[94]:`
add script 2021-05-18 22:41:52 +02:00

			`import math`
			`t = []`
			`for i in range(len(y_predicted)):`
			`tmp = (float(y_predicted[i]) - float(e[i])) ** 2`
			`t.append(tmp)`
			`print(math.sqrt(sum(t)/len(y_predicted)))`


update script 2021-05-18 22:46:19 +02:00			`# In[88]:`
add script 2021-05-18 22:41:52 +02:00

			`with open('test-A/in.tsv', "r", encoding="utf-8") as f:`
			`test_A_data = [line.rstrip() for line in f]`

			`test_A_data_tokenized = [list(set(gensim.utils.tokenize(x, lowercase = True))) for x in test_A_data]`
			`test_A_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in test_A_data_tokenized]`
			`test_A_data = [' '.join(i) for i in test_A_data_stemmatized]`


update script 2021-05-18 22:46:19 +02:00			`# In[89]:`
add script 2021-05-18 22:41:52 +02:00

			`y_test_predicted = model.predict(vectorizer.transform(test_A_data).toarray())`


update script 2021-05-18 22:46:19 +02:00			`# In[90]:`
add script 2021-05-18 22:41:52 +02:00

			`y_test_predicted[:10]`


update script 2021-05-18 22:46:19 +02:00			`# In[93]:`
add script 2021-05-18 22:41:52 +02:00

			`f = open("test-A/out.tsv", "a")`
			`for i in y_test_predicted:`
			`f.write(str(round(i, 11)) + '\n')`
			`f.close()`

update script 2021-05-18 22:46:19 +02:00
			`# In[ ]:`