diff --git a/.predict.py.swp b/.predict.py.swp index 33a0c1c..20449b0 100644 Binary files a/.predict.py.swp and b/.predict.py.swp differ diff --git a/.train.py.swp b/.train.py.swp index e116518..a259799 100644 Binary files a/.train.py.swp and b/.train.py.swp differ diff --git a/dev-0/out.tsv b/dev-0/out.tsv index cad4f7c..5772d85 100644 --- a/dev-0/out.tsv +++ b/dev-0/out.tsv @@ -55,7 +55,7 @@ P P S - S + P S S P @@ -101,7 +101,7 @@ S P S - P + S S P S @@ -148,16 +148,16 @@ P S S - S - S P S P S P S + P S P + P S P S @@ -200,7 +200,7 @@ P S P - P + S S S P @@ -309,7 +309,7 @@ S P S - P + S S S P @@ -319,7 +319,7 @@ S S S - P + S P S P @@ -515,7 +515,7 @@ S P S - P + S S S S @@ -560,7 +560,7 @@ S S S - P + S S P S @@ -689,7 +689,7 @@ P S S - S + P S P S @@ -739,7 +739,7 @@ S S S - S + P P S S @@ -749,7 +749,7 @@ S S S - P + S P S S @@ -763,7 +763,7 @@ S P S - S + P S P S @@ -902,7 +902,7 @@ P P P - S + P P P P @@ -1042,7 +1042,7 @@ S S S - P + S P S S @@ -1069,7 +1069,7 @@ S S P - S + P S S S @@ -1085,7 +1085,7 @@ S S S - S + P S P S @@ -1220,7 +1220,7 @@ S S S - S + P P S P @@ -1252,7 +1252,7 @@ P S S - P + S S S S @@ -1461,7 +1461,7 @@ S S P - S + P S S S @@ -1528,7 +1528,7 @@ P P P - P + S S S S @@ -1543,7 +1543,7 @@ S S S - P + S S S S @@ -1591,7 +1591,7 @@ S P P - P + S S S S @@ -1863,7 +1863,7 @@ S P S - S + P S P S @@ -1900,7 +1900,7 @@ P P S - S + P S S S @@ -1979,7 +1979,7 @@ P P S - S + P S S S @@ -2018,7 +2018,7 @@ P S S - P + S S P S @@ -2051,7 +2051,7 @@ P P S - S + P P P P @@ -2101,7 +2101,7 @@ S S S - S + P S S S @@ -2160,7 +2160,7 @@ P S S - S + P P S S @@ -2171,7 +2171,7 @@ S S S - S + P P S P @@ -2326,7 +2326,7 @@ S S S - P + S S S S @@ -2516,7 +2516,7 @@ S S S - P + S P S P @@ -2608,7 +2608,7 @@ S S S - P + S P P P @@ -2672,7 +2672,7 @@ S S S - P + S S S S @@ -2690,7 +2690,7 @@ S S P - P + S S S P @@ -2825,7 +2825,7 @@ P S S - S + P S S P @@ -2908,7 +2908,7 @@ P S S - P + S P S P @@ -2929,7 +2929,7 @@ S P S - P + S S S P @@ -2944,7 +2944,7 @@ S S P - S + P S S S @@ -3060,7 +3060,7 @@ S S S - P + S S S S @@ -3103,7 +3103,7 @@ S P S - P + S S S P @@ -3165,7 +3165,7 @@ S P S - S + P S S P @@ -3202,7 +3202,7 @@ S P P - S + P S S S @@ -3282,7 +3282,7 @@ P S S - P + S S S S @@ -3344,7 +3344,7 @@ S S S - P + S S S S @@ -3400,7 +3400,7 @@ S S S - P + S S P P @@ -3469,11 +3469,11 @@ P S P - S + P P S S - P + S P S S @@ -3507,13 +3507,13 @@ P S P - S P - S + P S S P P + P S P P @@ -3579,7 +3579,7 @@ S S P - S + P P S P @@ -3612,7 +3612,7 @@ P S S - P + S P S P @@ -3632,7 +3632,7 @@ S S S - P + S P S S @@ -3891,7 +3891,7 @@ S P P - P + S S S P @@ -3918,11 +3918,11 @@ P P S - S - S + P S S P + P S P P @@ -3937,7 +3937,7 @@ S S S - P + S S S S @@ -3974,7 +3974,7 @@ S P S - P + S S S S @@ -4144,16 +4144,16 @@ S S S + P S S S S S - S - P P P P + S P S S @@ -4206,7 +4206,7 @@ S S S - P + S P P P @@ -4293,7 +4293,7 @@ P P S - S + P S S P @@ -4391,7 +4391,7 @@ P S P - S + P S P S @@ -4452,9 +4452,9 @@ P P S - P S P + P S S S @@ -4640,7 +4640,7 @@ P S S - P + S P S S @@ -4752,7 +4752,7 @@ P S S - P + S P S S @@ -4805,7 +4805,7 @@ S S P - S + P S S P @@ -5034,14 +5034,14 @@ S S P - P S S S S S - P S + P + P S S S @@ -5113,7 +5113,7 @@ S P S - S + P S S S @@ -5211,10 +5211,10 @@ P P S - P S S - P + S + S P S S diff --git a/naive.test-A.md5 b/naive.test-A.md5 new file mode 100644 index 0000000..32655f8 --- /dev/null +++ b/naive.test-A.md5 @@ -0,0 +1 @@ +e412b617206095df98ac606360b222d0 naive_base_model.pkl diff --git a/naive_base_model.pkl b/naive_base_model.pkl index 97a7109..784759f 100644 Binary files a/naive_base_model.pkl and b/naive_base_model.pkl differ diff --git a/out.md5 b/out.md5 new file mode 100644 index 0000000..e9dc4dc --- /dev/null +++ b/out.md5 @@ -0,0 +1 @@ +ef6348d2025d24efeb647366abf2102f test-A/out.tsv diff --git a/predict.py b/predict.py index af9d79f..354aaac 100755 --- a/predict.py +++ b/predict.py @@ -6,10 +6,10 @@ import re def clear_tokens(tokens): tokens = tokens.replace('\\n', ' ') - tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens) - tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@]+', ' ', tokens) + tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens) + tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@\’\>\″\±]+', ' ', tokens) tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens) - tokens = re.sub(r'[0-9]+', ' ', tokens) + tokens = re.sub(r'œ|·', '', tokens) tokens = re.sub(r' +', ' ', tokens) return tokens @@ -33,7 +33,7 @@ def calc_post_prob(post, paranormal_class_logprob, sceptic_class_logprob, word_l product += paranormal_class_logprob probs[abs(product)] = class_ #print(probs) - +# mozna jeszcze zrobic aby bralo kluczowe slowa i wtedy decydowalo ze paranormal return probs[max(probs.keys())] @@ -43,10 +43,10 @@ def main(): paranormal_class_logprob = pickle_list[0] sceptic_class_logprob = pickle_list[1] word_logprobs = pickle_list[2] - in_file = "test-A/in.tsv" - #in_file = "dev-0/in.tsv" - out_file = "test-A/out.tsv" - #out_file = "dev-0/out.tsv" + #in_file = "test-A/in.tsv" + in_file = "dev-0/in.tsv" + #out_file = "test-A/out.tsv" + out_file = "dev-0/out.tsv" print (f"in {in_file}") print (f"out {out_file}") with open(in_file) as in_f, open(out_file, 'w') as out_f: diff --git a/test-A/out.tsv b/test-A/out.tsv index c654d7d..9c28d95 100644 --- a/test-A/out.tsv +++ b/test-A/out.tsv @@ -9,7 +9,7 @@ S S S - S + P S S P @@ -56,13 +56,13 @@ P S S - P + S S S P P P - S + P P S S @@ -110,7 +110,7 @@ P S S - P + S S P P @@ -164,7 +164,7 @@ S P S - S + P P S S @@ -180,7 +180,7 @@ S S P - P + S S P S @@ -189,7 +189,7 @@ S P S - S + P S P P @@ -210,7 +210,7 @@ S P P - S + P S P P @@ -269,7 +269,7 @@ P S S - P + S S S P @@ -309,7 +309,7 @@ P S S - S + P S S P @@ -379,7 +379,7 @@ S P S - P + S P P S @@ -428,7 +428,7 @@ S S P - S + P S P S @@ -472,18 +472,18 @@ P P P - S + P S S S P - S + P S S S P S - P + S S P S @@ -550,7 +550,7 @@ P P S - P + S P S S @@ -560,7 +560,7 @@ S S P - S + P S P P @@ -570,7 +570,7 @@ P S S - S + P P P S @@ -623,13 +623,13 @@ P P P - S + P S P S S P - S + P S P S @@ -668,7 +668,7 @@ S S S - S + P P S P @@ -689,7 +689,7 @@ P P P - S + P S S P @@ -712,7 +712,7 @@ S S P - P + S P P P @@ -734,9 +734,9 @@ S S S - S P - S + P + P S S S @@ -752,7 +752,7 @@ P P P - P + S P S P @@ -768,7 +768,7 @@ P P S - P + S S P S @@ -786,7 +786,7 @@ P S P - S + P P P S @@ -814,16 +814,16 @@ S S S - S - S - S P S S + P S P P P + P + P S S S @@ -851,7 +851,7 @@ S S P - S + P P S S @@ -897,7 +897,7 @@ S S P - S + P S S P @@ -916,15 +916,15 @@ S P S - S + P S P S P P P - S - S + P + P P P P @@ -983,7 +983,7 @@ S P P - P + S P P S @@ -994,14 +994,14 @@ P S S - S + P S P P S P S - S + P S S S @@ -1077,7 +1077,7 @@ S P S - S + P S P P @@ -1092,7 +1092,7 @@ P P P - P + S S P S @@ -1118,7 +1118,7 @@ S S P - P + S S P P @@ -1133,11 +1133,11 @@ P S S - S - S P S + P S + P S P S @@ -1174,7 +1174,7 @@ P S P - S + P P P S @@ -1200,7 +1200,7 @@ S P S - P + S P P P @@ -1231,7 +1231,7 @@ S P P - S + P S S P @@ -1291,14 +1291,14 @@ S P P - P + S P S P S S S - P + S S S S @@ -1327,7 +1327,7 @@ S S S - S + P P S S @@ -1381,7 +1381,7 @@ P S P - S + P S P S @@ -1465,7 +1465,7 @@ P S S - S + P S S P @@ -1486,14 +1486,14 @@ P P S - S + P S P S S P S - S + P S S S @@ -1542,7 +1542,7 @@ P P P - S + P P S P @@ -1552,7 +1552,7 @@ P P P - S + P P S P @@ -1614,7 +1614,7 @@ P S P - S + P S S P @@ -1636,7 +1636,7 @@ P S P - S + P P S P @@ -1665,7 +1665,7 @@ P P S - S + P P S S @@ -1725,7 +1725,7 @@ S S P - S + P P S P @@ -1775,7 +1775,7 @@ P S S - P + S P P P @@ -1871,12 +1871,12 @@ S S S - S + P P S P P - S + P S P P @@ -1897,7 +1897,7 @@ S S S - P + S S S P @@ -1977,7 +1977,7 @@ S P S - S + P P S P @@ -2082,7 +2082,7 @@ S P P - S + P P S S @@ -2139,9 +2139,9 @@ S S P - S P - S + P + P S P P @@ -2151,14 +2151,14 @@ P P P - S + P P S P S P P - S + P S S P @@ -2199,7 +2199,7 @@ S P S - S + P S P S @@ -2226,7 +2226,7 @@ S P P - S + P P P S @@ -2245,7 +2245,7 @@ S S P - S + P P S P @@ -2265,7 +2265,7 @@ S S S - P + S S P P @@ -2330,7 +2330,7 @@ P S P - P + S P S S @@ -2338,7 +2338,7 @@ S P S - S + P P S S @@ -2378,7 +2378,7 @@ P S P - S + P P S P @@ -2389,7 +2389,7 @@ S S S - P + S S S S @@ -2408,14 +2408,14 @@ S P S - S + P S P P S P S - S + P S P S @@ -2429,7 +2429,7 @@ S P S - S + P P P S @@ -2466,16 +2466,16 @@ P P P - S P - S - S + P + P + P P S S S S - S + P S S S @@ -2490,7 +2490,7 @@ P S S - P + S S P S @@ -2558,7 +2558,7 @@ S P S - S + P P S S @@ -2584,7 +2584,7 @@ S S P - S + P P S S @@ -2607,7 +2607,7 @@ S S S - S + P P S P @@ -2636,7 +2636,7 @@ S S S - S + P S S P @@ -2659,7 +2659,7 @@ P P S - S + P S S S @@ -2667,7 +2667,7 @@ P P P - S + P P P S @@ -2756,7 +2756,7 @@ S S P - P + S P S P @@ -2808,13 +2808,13 @@ S P S - S + P S S S S P - P + S S P S @@ -2881,7 +2881,7 @@ S S P - S + P P S S @@ -2978,7 +2978,7 @@ S P P - P + S P S S @@ -3022,7 +3022,7 @@ S P S - S + P S P S @@ -3036,16 +3036,16 @@ S P P - S P - S P S P S + P S S P + P S S P @@ -3090,7 +3090,7 @@ S S S - S + P S S S @@ -3185,7 +3185,7 @@ P S S - S + P P S P @@ -3224,7 +3224,7 @@ P P S - P + S S S P @@ -3260,10 +3260,10 @@ P S P + P S S - S - S + P P S S @@ -3279,7 +3279,7 @@ S S P - S + P P S S @@ -3316,7 +3316,7 @@ P P S - S + P S P P @@ -3329,7 +3329,7 @@ S P P - S + P S S P @@ -3388,7 +3388,7 @@ P S P - S + P P S P @@ -3411,7 +3411,7 @@ S S S - S + P P S P @@ -3447,7 +3447,7 @@ P S S - S + P P S S @@ -3472,7 +3472,7 @@ P P S - S + P P P S @@ -3492,7 +3492,7 @@ S S S - S + P P S S @@ -3567,7 +3567,7 @@ S S S - P + S P S P @@ -3600,11 +3600,11 @@ P S P - S - S P + S P P + S P P P @@ -3631,7 +3631,7 @@ S S P - S + P S P S @@ -3647,13 +3647,13 @@ P S P - P S - P S + P S S P + P S S P @@ -3672,7 +3672,7 @@ S S S - P + S P P P @@ -3681,14 +3681,14 @@ S P P - S + P S P S S P S - S + P S S P @@ -3756,7 +3756,7 @@ S S S - P + S S P P @@ -3808,7 +3808,7 @@ S S P - S + P P S P @@ -3817,7 +3817,7 @@ S P S - P + S P S P @@ -3836,7 +3836,7 @@ P P P - S + P S S S @@ -3852,7 +3852,7 @@ P P S - P + S P S P @@ -3869,7 +3869,7 @@ P S S - P + S S S P @@ -3886,14 +3886,14 @@ P P S - P + S P P S P P P - P + S P S S @@ -3904,13 +3904,13 @@ S P S - S + P S P P S P - S + P P P P @@ -3918,7 +3918,7 @@ S S S - P + S S S S @@ -3971,7 +3971,7 @@ P S P - S + P S P S @@ -3999,11 +3999,11 @@ S S S + P S + P S - S - S - S + P S S P @@ -4053,7 +4053,7 @@ P P P - S + P S S S @@ -4078,7 +4078,7 @@ P S S - S + P P S P @@ -4087,18 +4087,18 @@ S S P + P S S - S - S + P P S S P S S - S P + S P P S @@ -4126,7 +4126,7 @@ S P P - P + S P S P @@ -4160,10 +4160,10 @@ P S P - P S S - P + S + S P P P @@ -4195,7 +4195,7 @@ S S P - S + P S S S @@ -4212,7 +4212,7 @@ S S S - S + P S S P @@ -4225,7 +4225,7 @@ S P S - P + S P P S @@ -4254,7 +4254,7 @@ S P P - P + S S S S @@ -4268,16 +4268,16 @@ P P S - S - S P S - S + P S S P P P + P + P S S P @@ -4301,7 +4301,7 @@ P S P - S + P S P P @@ -4311,14 +4311,14 @@ S S S - S - P P P P S + P S P + P S S S @@ -4386,7 +4386,7 @@ S S P - P + S P P P @@ -4398,7 +4398,7 @@ S P S - S + P S S P @@ -4416,7 +4416,7 @@ S P P - S + P S P S @@ -4514,7 +4514,7 @@ S P S - S + P P P P @@ -4534,7 +4534,7 @@ S P S - S + P P P P @@ -4574,7 +4574,7 @@ P S S - S + P S P S @@ -4601,7 +4601,7 @@ S P S - P + S P P P @@ -4617,9 +4617,9 @@ S S S - P S S + P S P P @@ -4642,7 +4642,7 @@ P S P - S + P S P S @@ -4650,7 +4650,7 @@ S P P - S + P P P S @@ -4661,7 +4661,7 @@ P S P - S + P S P P @@ -4691,7 +4691,7 @@ P P S - P + S S S S @@ -4732,7 +4732,7 @@ P S S - S + P S S S @@ -4742,7 +4742,7 @@ P S S - P + S P P P @@ -4785,8 +4785,8 @@ P P P - P S + P S S P @@ -4794,7 +4794,7 @@ S P S - S + P S S P @@ -4870,7 +4870,7 @@ S S S - P + S P P S @@ -4934,7 +4934,7 @@ S P P - S + P S P P @@ -4969,15 +4969,15 @@ S P P - P S S S S S S - P S + P + P S S S @@ -4989,7 +4989,7 @@ S S S - S + P S P P @@ -5019,7 +5019,7 @@ P S S - S + P S P P @@ -5032,7 +5032,7 @@ P S P - P + S S S S @@ -5056,7 +5056,7 @@ P S S - S + P S S S @@ -5088,7 +5088,7 @@ P P S - P + S P P S @@ -5111,7 +5111,7 @@ S S S - P + S S P P @@ -5149,4 +5149,4 @@ P P P - P + S diff --git a/train.py b/train.py index 7be0bd3..9bf2d30 100755 --- a/train.py +++ b/train.py @@ -25,9 +25,11 @@ def clear_tokens(tokens): tokens = tokens.replace('\\n', ' ') # delete links, special characters, kropki, and \n tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens) - tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@]+', ' ', tokens) + tokens = re.sub(r'(|\-|\_)([a-z]+(\-|\_))+[a-z]+(|\-|\_)', ' ', tokens) + tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@\’\>\″\±]+', ' ', tokens) tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens) tokens = re.sub(r'[0-9]+', ' ', tokens) + tokens = re.sub(r'œ|·', '', tokens) tokens = re.sub(r' +', ' ', tokens) return tokens @@ -67,10 +69,10 @@ def calc_word_logprobs(word_counts): return word_logprobs def main(): - expected = './train/expected.tsv' - #expected = './dev-0/expected.tsv' - in_f = './train/in.tsv' - #in_f = './dev-0/in.tsv' + #expected = './train/expected.tsv' + expected = './dev-0/expected.tsv' + #in_f = './train/in.tsv' + in_f = './dev-0/in.tsv' print (f"expected {expected}") print (f"in {in_f}") paranormal_class_lgprob, skeptic_class_logprob = calc_class_logprob(expected)