fix predict.py
This commit is contained in:
parent
3bb3c26b5d
commit
773683e7d4
BIN
.predict.py.swp
BIN
.predict.py.swp
Binary file not shown.
BIN
.train.py.swp
BIN
.train.py.swp
Binary file not shown.
146
dev-0/out.tsv
146
dev-0/out.tsv
@ -55,7 +55,7 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -101,7 +101,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -148,16 +148,16 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -200,7 +200,7 @@
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -309,7 +309,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -319,7 +319,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -515,7 +515,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -560,7 +560,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -689,7 +689,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -739,7 +739,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -749,7 +749,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -763,7 +763,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -902,7 +902,7 @@
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
P
|
||||
@ -1042,7 +1042,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -1069,7 +1069,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1085,7 +1085,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -1220,7 +1220,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -1252,7 +1252,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1461,7 +1461,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1528,7 +1528,7 @@
|
||||
P
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1543,7 +1543,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1591,7 +1591,7 @@
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1863,7 +1863,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -1900,7 +1900,7 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -1979,7 +1979,7 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -2018,7 +2018,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -2051,7 +2051,7 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
P
|
||||
@ -2101,7 +2101,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -2160,7 +2160,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -2171,7 +2171,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -2326,7 +2326,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -2516,7 +2516,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -2608,7 +2608,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
@ -2672,7 +2672,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -2690,7 +2690,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -2825,7 +2825,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -2908,7 +2908,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -2929,7 +2929,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -2944,7 +2944,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3060,7 +3060,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3103,7 +3103,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -3165,7 +3165,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -3202,7 +3202,7 @@
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3282,7 +3282,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3344,7 +3344,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3400,7 +3400,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
@ -3469,11 +3469,11 @@
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -3507,13 +3507,13 @@
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
@ -3579,7 +3579,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -3612,7 +3612,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
@ -3632,7 +3632,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -3891,7 +3891,7 @@
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -3918,11 +3918,11 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
@ -3937,7 +3937,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -3974,7 +3974,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -4144,16 +4144,16 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -4206,7 +4206,7 @@
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
P
|
||||
@ -4293,7 +4293,7 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -4391,7 +4391,7 @@
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
@ -4452,9 +4452,9 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -4640,7 +4640,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -4752,7 +4752,7 @@
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
@ -4805,7 +4805,7 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
@ -5034,14 +5034,14 @@
|
||||
S
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
P
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -5113,7 +5113,7 @@
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
S
|
||||
@ -5211,10 +5211,10 @@
|
||||
P
|
||||
P
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
P
|
||||
S
|
||||
S
|
||||
|
|
1
naive.test-A.md5
Normal file
1
naive.test-A.md5
Normal file
@ -0,0 +1 @@
|
||||
e412b617206095df98ac606360b222d0 naive_base_model.pkl
|
Binary file not shown.
14
predict.py
14
predict.py
@ -7,9 +7,9 @@ import re
|
||||
def clear_tokens(tokens):
|
||||
tokens = tokens.replace('\\n', ' ')
|
||||
tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens)
|
||||
tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@]+', ' ', tokens)
|
||||
tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@\’\>\″\±]+', ' ', tokens)
|
||||
tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens)
|
||||
tokens = re.sub(r'[0-9]+', ' ', tokens)
|
||||
tokens = re.sub(r'œ|·', '', tokens)
|
||||
tokens = re.sub(r' +', ' ', tokens)
|
||||
return tokens
|
||||
|
||||
@ -33,7 +33,7 @@ def calc_post_prob(post, paranormal_class_logprob, sceptic_class_logprob, word_l
|
||||
product += paranormal_class_logprob
|
||||
probs[abs(product)] = class_
|
||||
#print(probs)
|
||||
|
||||
# mozna jeszcze zrobic aby bralo kluczowe slowa i wtedy decydowalo ze paranormal
|
||||
return probs[max(probs.keys())]
|
||||
|
||||
|
||||
@ -43,10 +43,10 @@ def main():
|
||||
paranormal_class_logprob = pickle_list[0]
|
||||
sceptic_class_logprob = pickle_list[1]
|
||||
word_logprobs = pickle_list[2]
|
||||
in_file = "test-A/in.tsv"
|
||||
#in_file = "dev-0/in.tsv"
|
||||
out_file = "test-A/out.tsv"
|
||||
#out_file = "dev-0/out.tsv"
|
||||
#in_file = "test-A/in.tsv"
|
||||
in_file = "dev-0/in.tsv"
|
||||
#out_file = "test-A/out.tsv"
|
||||
out_file = "dev-0/out.tsv"
|
||||
print (f"in {in_file}")
|
||||
print (f"out {out_file}")
|
||||
with open(in_file) as in_f, open(out_file, 'w') as out_f:
|
||||
|
364
test-A/out.tsv
364
test-A/out.tsv
File diff suppressed because it is too large
Load Diff
12
train.py
12
train.py
@ -25,9 +25,11 @@ def clear_tokens(tokens):
|
||||
tokens = tokens.replace('\\n', ' ')
|
||||
# delete links, special characters, kropki, and \n
|
||||
tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens)
|
||||
tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@]+', ' ', tokens)
|
||||
tokens = re.sub(r'(|\-|\_)([a-z]+(\-|\_))+[a-z]+(|\-|\_)', ' ', tokens)
|
||||
tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@\’\>\″\±]+', ' ', tokens)
|
||||
tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens)
|
||||
tokens = re.sub(r'[0-9]+', ' ', tokens)
|
||||
tokens = re.sub(r'œ|·', '', tokens)
|
||||
tokens = re.sub(r' +', ' ', tokens)
|
||||
return tokens
|
||||
|
||||
@ -67,10 +69,10 @@ def calc_word_logprobs(word_counts):
|
||||
return word_logprobs
|
||||
|
||||
def main():
|
||||
expected = './train/expected.tsv'
|
||||
#expected = './dev-0/expected.tsv'
|
||||
in_f = './train/in.tsv'
|
||||
#in_f = './dev-0/in.tsv'
|
||||
#expected = './train/expected.tsv'
|
||||
expected = './dev-0/expected.tsv'
|
||||
#in_f = './train/in.tsv'
|
||||
in_f = './dev-0/in.tsv'
|
||||
print (f"expected {expected}")
|
||||
print (f"in {in_f}")
|
||||
paranormal_class_lgprob, skeptic_class_logprob = calc_class_logprob(expected)
|
||||
|
Loading…
Reference in New Issue
Block a user