diff --git a/.predict.py.swp b/.predict.py.swp index 20449b0..bd51602 100644 Binary files a/.predict.py.swp and b/.predict.py.swp differ diff --git a/.train.py.swp b/.train.py.swp index a259799..b1dcd49 100644 Binary files a/.train.py.swp and b/.train.py.swp differ diff --git a/dev-0/out.tsv b/dev-0/out.tsv index 5772d85..76d3b4f 100644 --- a/dev-0/out.tsv +++ b/dev-0/out.tsv @@ -29,7 +29,7 @@ S P S - S + P S S S @@ -55,7 +55,7 @@ P P S - P + S S S P @@ -83,7 +83,7 @@ P P S - S + P P S S @@ -118,7 +118,7 @@ S S S - S + P P S S @@ -156,7 +156,7 @@ S P S - P + S P S P @@ -171,11 +171,11 @@ S S S - S - S - S P S + P + P + P S S P @@ -200,7 +200,7 @@ P S P - S + P S S P @@ -259,7 +259,7 @@ S S S - S + P S S S @@ -337,7 +337,7 @@ S S S - S + P S P S @@ -380,7 +380,7 @@ P S P - S + P S S S @@ -393,7 +393,7 @@ S S P - S + P S P S @@ -515,7 +515,7 @@ S P S - S + P S S S @@ -560,8 +560,8 @@ S S S - S - S + P + P P S S @@ -641,7 +641,7 @@ S P P - S + P S S S @@ -661,7 +661,7 @@ P P S - S + P S P S @@ -736,7 +736,7 @@ S S S - S + P S S P @@ -749,9 +749,9 @@ S S S - S P - S + P + P S P P @@ -799,7 +799,7 @@ S S P - S + P S S S @@ -869,13 +869,13 @@ S S S - S + P P S P P P - S + P S S S @@ -948,7 +948,7 @@ S S S - S + P S S S @@ -965,7 +965,7 @@ S S S - S + P S P P @@ -987,7 +987,7 @@ P P S - S + P S S S @@ -1085,7 +1085,7 @@ S S S - P + S S P S @@ -1114,7 +1114,7 @@ P S S - S + P P S S @@ -1128,7 +1128,7 @@ S P S - S + P S P S @@ -1229,63 +1229,15 @@ S P S - S - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - P - S - P - S - P - P - S - S - S - S - P - S - S - P - S - S P S - P S S - P S S P S S - P - P S S P @@ -1295,164 +1247,72 @@ S S S - P - P - P - P - S - P - S - S - P S P P S S - S P S - P S S S P S - S - S P S - S - S - S - S - S - S - S P - S - S - S P S S S S - S - S P S S P S - P - S - S S P S - S - S - S - S - S - S - S - S P - P - S - S - S S S P - P - S S S - S - P P S S - S - S - S - S P - S - S - S - S P S S - S - S - S - S - S - S - S P S S S S S - S - S - S - P - P - S - S - P - S - S P - S - S - S - S P P - S - S - S - S P P S - S P S S - S - S - S - S P - P - S S P - S P S S - P S P - P - S S - S - P P - P - S S S S @@ -1461,8 +1321,6 @@ S S P - P - S S S S @@ -1475,3798 +1333,71 @@ S P S - S - S - S - S P S S S - P S S S P S S - S - S - S - S - P - S - P P - P - S S - S - S - S - P P S S - P - S - P S P S - P - P S S S S - P S S S S P P - P - S - S - S S S S S S P - S P S S S S - S - S - S - S - S - S - S - S - S - S - S P P S - P S S S S S P - P S - P S S - P S P S S S - P - S - S - P - P S S S - P - P S S - P S P - P - S S S S S S - S - S - S - S - P - S - S - S - S - P - P - S - P - P - P - S - S - P - S - S - P - S - P - S - S - S - S - S - S - P - S - S - P - S - S - P - S - P - S - P - S - S - S - P - S - S - S - S - S - P - S - P - P - S - P - S - S - S - P - S - P - S - P - P - S - P - S - S - P - S - P - P - S - P - S - P - S - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - P - S - S - P - S - S - S - P - P - P - S - P - S - S - S - S - S - S - S - S - S - S - S - S - P - P - S - S - S - P - P - P - S - S - P - S - S - S - S - P - S - S - P - P - S - S - P - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - S - S - S - S - P - P - P - P - P - S - P - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - P - S - S - P - P - S - S - S - S - S - S - S - P - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - P - P - P - S - S - S - S - S - S - P - S - S - P - P - P - P - S - S - P - S - P - S - S - S - S - P - S - S - S - S - S - S - P - P - P - S - P - S - P - S - P - S - S - S - S - P - S - P - S - S - S - S - S - S - S - P - S - S - S - S - P - S - S - P - S - S - S - S - S - P - S - S - P - P - S - P - S - S - S - S - P - P - P - S - S - S - S - P - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - P - P - P - P - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - P - S - P - S - P - S - S - S - S - S - S - S - P - P - P - S - P - S - S - P - S - S - P - P - P - S - P - S - S - S - S - P - P - P - P - P - P - S - P - S - S - S - P - P - S - P - P - S - S - S - P - S - P - P - P - S - S - P - S - P - S - S - P - S - S - S - S - P - S - S - S - S - S - P - S - S - S - P - S - P - S - S - S - P - S - S - S - S - P - P - P - S - S - S - S - P - P - S - P - P - P - P - S - S - S - S - S - P - S - S - S - S - S - S - S - P - S - S - S - P - S - P - S - S - P - S - S - S - S - S - P - P - P - S - P - S - P - S - P - S - S - P - S - S - S - S - S - S - P - S - S - S - S - S - S - P - S - S - S - P - P - P - S - P - S - S - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - S - S - P - P - P - S - S - S - P - P - S - S - S - P - P - P - S - P - S - S - S - S - S - P - S - S - P - P - S - S - S - S - S - S - S - S - S - P - P - S - P - S - S - P - S - S - S - S - P - S - P - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - P - P - S - S - P - P - P - S - S - P - P - S - S - S - S - S - P - P - S - S - S - P - S - P - S - S - S - P - S - S - P - S - S - S - P - S - S - S - P - S - S - S - S - P - P - P - S - P - S - P - P - P - S - P - S - S - P - S - S - S - S - S - S - S - S - S - P - S - S - S - P - S - S - P - S - P - S - S - P - P - S - S - P - P - P - S - S - S - S - S - P - S - S - P - P - P - S - S - S - S - S - S - S - S - P - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - S - S - P - S - S - S - P - S - S - S - P - S - P - S - S - S - P - P - P - S - P - P - P - S - S - P - P - P - P - S - S - P - S - S - P - S - S - S - P - P - S - S - S - S - S - P - P - S - S - S - P - P - S - S - P - S - P - S - P - P - P - P - S - P - P - P - S - P - S - S - S - P - S - S - S - P - S - S - S - S - S - S - P - S - P - S - S - S - P - S - S - S - P - P - P - S - P - S - S - P - P - S - S - S - S - S - S - S - S - S - P - S - P - P - P - S - S - S - P - P - P - S - P - S - P - S - S - S - S - P - S - S - S - S - S - S - P - S - P - P - S - S - S - P - S - S - S - S - S - S - P - S - P - S - S - S - P - S - P - S - S - S - P - S - S - P - P - S - S - P - S - P - S - S - P - P - S - S - P - S - P - P - S - P - S - S - S - S - P - S - P - P - S - S - S - S - S - S - P - S - P - S - P - S - S - P - P - S - S - S - P - S - S - S - S - P - S - S - P - P - S - S - S - P - S - S - P - S - S - P - S - S - S - S - P - S - P - P - P - P - P - P - S - S - S - P - P - S - S - P - S - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - S - S - P - P - P - S - S - P - S - P - S - S - S - S - P - P - P - S - S - P - S - S - S - S - S - P - P - P - S - S - S - S - S - P - P - S - S - S - S - S - P - S - P - S - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - P - P - P - S - S - S - P - S - S - P - S - P - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - P - P - S - S - S - P - S - S - P - S - P - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - P - S - P - S - S - P - P - S - S - P - S - P - S - S - P - P - S - P - S - S - S - P - S - P - S - S - P - S - P - S - S - S - S - S - S - S - S - S - S - S - P - P - P - P - P - P - S - S - P - S - S - P - S - S - P - P - S - S - P - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - P - S - S - P - P - S - S - S - S - P - S - S - P - S - S - P - S - S - S - S - S - P - P - S - S - P - P - S - P - S - S - S - S - S - S - S - S - S - P - S - P - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - P - S - P - P - S - S - S - S - S - P - S - P - S - S - P - P - S - S - S - S - S - P - S - S - P - S - P - S - S - S - P - S - P - S - P - S - S - S - S - S - S - P - S - S - S - P - P - S - P - S - S - S - S - P - S - S - P - S - S - S - P - S - S - S - P - P - S - S - S - P - S - P - P - P - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - P - S - P - S - S - S - S - P - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - P - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - P - S - S - S - S - P - P - P - S - P - S - P - P - P - P - S - P - S - P - S - S - P - S - P - S - S - S - S - S - P - P - S - S - S - S - P - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - P - S - S - S - P - S - S - S - P - S - P - P - S - P - P - S - S - P - S - S - P - S - S - S - S - S - S - P - S - S - S - S - P - P - S - S - P - S - S - P - P - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - P - S - P - S - P - P - S - S - S - P - S - P - P - S - S - S - P - S - P - S - S - S - S - S - S - P - S - S - S - S - P - P - S - P - S - P - S - S - P - P - S - P - S - S - S - S - P - S - P - P - P - S - S - P - S - S - S - S - S - S - S - P - P - S - S - S - S - P - S - S - P - P - P - S - S - S - S - S - S - S - P - S - S - S - P - P - S - S - P - S - P - P - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - P - S - S - S - P - S - S - P - S - S - S - S - S - P - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - S - P - S - S - P - P - S - S - S - S - S - S - S - P - S - S - S - S - S - S - P - S - S - P - S - S - S - S - P - P - S - S - S - P - S - P - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - S - P - S - P - P - P - P - P - S - S - S - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - P - S - P - S - P - S - S - S - S - S - P - P - S - P - S - S - P - P - S - P - S - S - P - S - S - P - S - S - S - S - S - S - P - P - S - S - P - S - P - P - S - P - S - S - S - P - P - S - S - S - S - S - P - P - S - S - S - S - S - S - S - S - P - S - P - S - P - P - S - S - S - P - S - S - P - S - S - S - P - S - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - S - S - P - P - P - S - S - P - S - S - S - S - P - P - P - P - S - S - P - S - S - P - S - P - P - P - S - S - S - P - S - S - P - S - S - S - S - P - S - S - S - S - P - S - P - P - S - P - S - S - P - S - S - S - S - S - S - S - P - P - S - P - P - P - S - S - P - P - P - S - P - P - S - S - S - S - P - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - P - S - S - S - P - S - P - S - P - P - S - P - S - S - P - S - S - P - S - S - S - S - S - S - S - S - P - P - P - S - S - S - P - P - S - S - S - S - S - S - S - P - P - P - S - P - S - S - S - S - S - S - S - S - P - P - P - S - S - P - S - S - S - P - S - S - S - P - P - P - S - P - P - S - S - S - P - S - P - S - P - S - S - S - P - P - S - S - S - P - S - S - S - S - S - S - P - S - S - P - S - P - P - P - S - S - S - S - P - S - S - P - S - S - S - S - S - S - S - S - P - S - P - S - S - S - S - S - S - S - P - S - P - S - S - P - S - P - P - P - S - P - P - S - S - S - P - S - S - S - S - S - S - P - P - P - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - P - S - S - P - S - S - P - S - S - S - S - P - P - P - S - S - P - S - P - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - P - P - P - S - S - S - S - S - P - P - P - S - S - S - S - P - P - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - P - S - P - P - S - S - P - P - P - S - P - S - S - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - P - S - S - P - S - S - S - S - P - S - S - S - P - P - S - S - S - S - P - S - P - S - S - S - S - S - S - P - S - P - S - P - S - S - S - P - P - S - S - P - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - P - P - S - P - S - S - S - P - S - S - S - P - S - P - P - S - S - S - P - P - P - S - S - S - S - P - P - S - S - S - S - S - P - S - P - S - S - S - P - P - P - S - P - S - S - P - P - S - P - P - S - P - S - P - P - S - S - S - S - S - S - S - S - S - S - S - P - P - P - S - S - S - S - S - P - S - S - S - S - S - P - P - S - P - P - S - S - S - P - S - S - S - S - P - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - P - S - S - P - P - S - S - S - S - S - S - P - S - S - S - S - S - S - S - P - S - P - P - S - S - S - S - S - S - S - P - S - S - S - S - P - P - S - P - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - P - P - S - S - S - P - S - S - S - P - P - S - S - P - S - S - P - P - S - S - S - S - S - S - S - P - S - S - S - S - P - S - S - S - S - S - S - P - P - P - P - S - S - P - S - S - S - P - P - S - S - S - P - S - S - S - S - P - P - S - S - P - P - P - S - P - P - S - P - S - S - S - P - P - P - S - P - S - S - S - S - S - S - S - P - P - P - S - S - P - S - S - P - S - S - S - S - S - S - P - S - S - S - S - S - P - P - P - S - P - S - S - P - S - P - P - S - S - S - P - S - S - P - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - P - S - S - S - S - S - S - P - S - S - P - P - P - P - S - P - P - S - S - P - S - S - S - S - P - P - P - P - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - P - S - S - S - S - P - P - P - P - S - S - S - P - S - P - S - S - S - P - P - S - P - S - P - S - S - S - S - S - S - S - S - P - S - P - P - S - P - S - S - S - P - P - S - S - S - S - P - P - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - P - P - S - P - S - S - P - S - P - S - S - S - P - P - S - S - S - S - S - S - S - S - P - S - S - S - S - S - S - S - P - P - S - P - S - S - S - S - S - S - S - S - S - S - P - P - S - S - P - S - S - S - S - P - P - S - P - P - P - S - S - S - P - S - S - S - S - S - S - S - S - S - P - P - P - S - S - S - S - S - S - P - S - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - P - S - P - P - S - P - S - P - P - P - S - P - S - S - S - S - S - S - S - S - P - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - P - S - P - S - S - P - P - S - P - S - S - S - S - S - S - P - P - P - P - P - P - P - S - S - P - P - S - S - S - S - P - S - S - P - S - S - S - P - S - S - P - S - P - P - S - S - S - S - S - S - S - S - S - S - P - S - P - S - S - S - S - S - S - S - S - S - P - S - S - S - P - S - P - P - P - P - S - P - S - S - P - S - S - S - S - P - S - P - S - S - P - S - P - S - S - P - S - P - P - P - S - S - S - S - S - P - S - S - P - S - S - P - S - S - S - P - S - S - S - P - P - S - P - S - P - S - S - P - S - S - S - S - P - S - S - S - S - S - P - P - S - S - S - P - P - S - P - S - P - P - S - S - S - S - P - S - S - P - P - S - S - P - S - S - P - S - S - S - S - S - S - S - S - P - S - P - P - P - S - P - S - S - S - S - S - S - P - S - P - P - S - S - P - S - S - S - S - P - S - P - S - S - S - S - S - S - S - S - P - S - S - S - P - S - S - P - S - P - S - S - S - P - S - S - P - P - P - P - S - P - P - P - S - S - S - P - S - S - S - S - S - S - S - S - S - S - P - S - S - S - P - S - P - S - P - S - S - S - S - S - S - P - P - P - S - S - S - S - P - S - P - S - P - S - P - S - P - S - P - P - P - S - P - S - P - S - S - P - P - S - S - S - S - S - P - S - S - S - S - S - S - P - P - P - S - S - S - S - S - S - P - S - S - S - S - S - S - P - S - S - P - S - S - S - P - S - S - S - S - P - P - S - S - S - S - S - S - S - S - S - S - S - S - P - P - S - S - S - S - P - P - S - P - S - S - S - S - S - S - S - S - S - P - S - P - S - S - P - S - S - S - P - P - S - S - P - P - S - S - P - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - P - S - P - S - S - S - S - S - P - P - S - S - S - P - P - P - S - P - P - S - P - S - S - P - S - S - P - S - S - P - S - S - S - P - S - S - S - S - S - S - S - S - S - S - P - S - S - P - P - S - P - P - P - P - S - S - S - P - S - S - P - S - P - S - S - S - P - P - S - P - S - P - P - S - S - S - P - P - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - P - S - S - P - P - P - P - P - S - S - S - S - P - S - P - P - S - S - S - P - S - P - S - S - P - P - S - S - S - P - P - S - S - P - S - P - S - P - P - S - S - S - S - S - S - P - S - S - S - S - S - S - P - P - S - S - S - S - P - S - P - S - P - P - P - S - S - S - S - S - S - P - S - S - S - S - P - S - S - P - S - S - S - P - S - S - S - P - S - S - P - S - P - P - S - S - S - P - P - P - P - S - S - P - S - S - S - S - S - S - P - P - S - S - S - S - P - S - S - S - S - S - P - P - S - S - P - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - P - P - S - P - S - S - S - P - S - S - S - S - S - P - S - S - S - S - S - S - S - S - S - P - P - P - S - S - S - P - S - P - P - S - P - S - S - P - S - P - S - P - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - S - P - P - S - S - P - S - S - S - S - P - P - S - P - P - S - P - S - S - P - P - S - P - P - S - S - S - P - S - S - S - S - S - S - S - S - S - S - S - S - S - P - S - S - S - S - P - S - P - S - S - S - P - S - P - S - S - S - S - S - P - P - P - P - S - P - P - P - S - P - S - P - P - P - P - P - S - S - P - P - S - S - S - S - S - P - S - S - S - S - S - S - P - P - S - S - S - S - S - S - S - P - P - S - S - P - S - P - P - S - P - P - S - P - P - S - S - S - S - S - S - S - S - S - S - P - S - S - P - S - P - S - S - S - S - S - P - S - P - S diff --git a/naive_base_model.pkl b/naive_base_model.pkl index 784759f..4a503b2 100644 Binary files a/naive_base_model.pkl and b/naive_base_model.pkl differ diff --git a/predict.py b/predict.py index 354aaac..857f1dd 100755 --- a/predict.py +++ b/predict.py @@ -4,24 +4,29 @@ import pickle import math import re -def clear_tokens(tokens): +def clear_tokens(tokens, is_text=True): tokens = tokens.replace('\\n', ' ') tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens) tokens = re.sub(r'[\n\&\"\?\\\'\*\[\]\,\;\.\=\+\(\)\!\/\:\`\~\%\^\$\#\@\’\>\″\±]+', ' ', tokens) tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens) + tokens = re.sub(r'[0-9]+', ' ', tokens) tokens = re.sub(r'œ|·', '', tokens) - tokens = re.sub(r' +', ' ', tokens) + if is_text: + tokens = re.sub(r' +', ' ', tokens) + else: + tokens = re.sub(r' +', '', tokens) return tokens def calc_post_prob(post, paranormal_class_logprob, sceptic_class_logprob, word_logprobs): # dla kazdego tokenu z danego posta text, timestap = post.rstrip('\n').split('\t') - text = clear_tokens(text) + text = clear_tokens(text, True) tokens = text.lower().split(' ') probs = {0.0 : 'sceptic', 0.0 : 'paranormal'} for class_ in word_logprobs.keys(): product = 1 for token in tokens: + token = clear_tokens(token, False) try: product += word_logprobs[class_][token] except KeyError: @@ -34,8 +39,13 @@ def calc_post_prob(post, paranormal_class_logprob, sceptic_class_logprob, word_l probs[abs(product)] = class_ #print(probs) # mozna jeszcze zrobic aby bralo kluczowe slowa i wtedy decydowalo ze paranormal + if search_for_keywords(text): + return 'paranormal' return probs[max(probs.keys())] +def search_for_keywords(text): + keywords = ['paranormal', 'ufo', 'aliens', 'conspiracy', 'aliens'] + return any(keyword in text for keyword in keywords) def main(): with open('naive_base_model.pkl', 'rb') as f: @@ -43,10 +53,10 @@ def main(): paranormal_class_logprob = pickle_list[0] sceptic_class_logprob = pickle_list[1] word_logprobs = pickle_list[2] - #in_file = "test-A/in.tsv" - in_file = "dev-0/in.tsv" - #out_file = "test-A/out.tsv" - out_file = "dev-0/out.tsv" + in_file = "test-A/in.tsv" + #in_file = "dev-0/in.tsv" + out_file = "test-A/out.tsv" + #out_file = "dev-0/out.tsv" print (f"in {in_file}") print (f"out {out_file}") with open(in_file) as in_f, open(out_file, 'w') as out_f: diff --git a/test-A/out.tsv b/test-A/out.tsv index 9c28d95..48c4cbd 100644 --- a/test-A/out.tsv +++ b/test-A/out.tsv @@ -9,7 +9,7 @@ S S S - P + S S S P @@ -56,7 +56,7 @@ P S S - S + P S S P @@ -83,14 +83,14 @@ S S P - S P - S - S + P P S + P S P + P S P S @@ -99,7 +99,7 @@ P S P - S + P P P P @@ -137,13 +137,13 @@ P P S - S + P S P P S P - S + P P S S @@ -188,7 +188,7 @@ S S P - S + P P S P @@ -219,7 +219,7 @@ S P P - S + P S P P @@ -227,7 +227,7 @@ P P P - S + P P S P @@ -268,13 +268,13 @@ S P S - S - S + P S S P + P S - S + P S S P @@ -336,7 +336,7 @@ P P P - S + P S S P @@ -353,7 +353,7 @@ S S S - S + P S S S @@ -361,8 +361,8 @@ S P S - S - S + P + P P S P @@ -379,7 +379,7 @@ S P S - S + P P P S @@ -399,7 +399,7 @@ S P P - S + P S S S @@ -426,16 +426,16 @@ S P S - S P P - S + P + P P S S P S - S + P P S S @@ -453,7 +453,7 @@ P S P - S + P P S P @@ -472,7 +472,7 @@ P P P - P + S S S S @@ -484,7 +484,7 @@ P S S - S + P P S P @@ -514,7 +514,7 @@ S P S - S + P S S P @@ -560,7 +560,7 @@ S S P - P + S S P P @@ -587,7 +587,7 @@ P P P - S + P S S S @@ -682,10 +682,10 @@ S P P - S P P - S + P + P P P P @@ -709,15 +709,15 @@ S S P - S - S P S P P P + P + P S - S + P P S P @@ -733,13 +733,13 @@ S S S - S P + S P P S S - S + P S P P @@ -782,7 +782,7 @@ S S S - S + P P S P @@ -825,7 +825,7 @@ P P S - S + P S S P @@ -861,7 +861,7 @@ P P S - S + P P P S @@ -894,11 +894,11 @@ P P P - S + P S P P - S + P S P P @@ -950,7 +950,7 @@ P P S - S + P S S S @@ -980,10 +980,10 @@ S P S - S P P - S + P + P P P S @@ -992,13 +992,13 @@ P S P - S + P S P S P P - S + P P S P @@ -1068,7 +1068,7 @@ P P S - S + P P P S @@ -1077,11 +1077,11 @@ S P S - P + S S P P - S + P P S P @@ -1097,15 +1097,15 @@ P S P - S P P P P - S + P S P P + P S P S @@ -1133,11 +1133,11 @@ P S S - P S - P S P + P + P S P S @@ -1185,7 +1185,7 @@ S S P - S + P S P S @@ -1196,16 +1196,16 @@ S S S - S - S P S + P S P P P P P + P S P S @@ -1231,7 +1231,7 @@ S P P - P + S S S P @@ -1287,11 +1287,11 @@ S S P - S + P S P P - S + P P S P @@ -1320,7 +1320,7 @@ P S S - S + P S P S @@ -1351,7 +1351,7 @@ S P P - S + P P P S @@ -1517,7 +1517,7 @@ S P P - S + P S P S @@ -1552,9 +1552,9 @@ P P P + S P P - S P S P @@ -1665,10 +1665,10 @@ P P S + S P P S - S P S S @@ -1731,10 +1731,10 @@ P S P - S P P - S + P + P P P S @@ -1745,7 +1745,7 @@ P P S - S + P P P S @@ -1775,7 +1775,7 @@ P S S - S + P P P P @@ -1834,10 +1834,10 @@ P S P + P S S - S - S + P S P P @@ -1871,7 +1871,7 @@ S S S - P + S P S P @@ -1906,7 +1906,7 @@ S S S - S + P P S S @@ -1935,7 +1935,7 @@ P S S - S + P P P S @@ -1954,7 +1954,7 @@ S S P - S + P P S S @@ -2000,7 +2000,7 @@ S S S - S + P P S P @@ -2055,7 +2055,7 @@ S S S - S + P P P P @@ -2084,7 +2084,7 @@ P P P - S + P S S P @@ -2103,18 +2103,18 @@ P S S - S - S + P + P S S S P S P + P S S - S - S + P S P P @@ -2137,7 +2137,7 @@ P P S - S + P P P P @@ -2151,7 +2151,7 @@ P P P - P + S P S P @@ -2218,7 +2218,7 @@ P S P - S + P S P S @@ -2292,7 +2292,7 @@ P S S - S + P S P P @@ -2304,7 +2304,7 @@ P S S - S + P P S P @@ -2330,7 +2330,7 @@ P S P - S + P P S S @@ -2369,7 +2369,7 @@ P S S - S + P P S S @@ -2389,7 +2389,7 @@ S S S - S + P S S S @@ -2429,7 +2429,7 @@ S P S - P + S P P S @@ -2477,7 +2477,7 @@ S P S - S + P S P S @@ -2490,8 +2490,8 @@ P S S - S - S + P + P P S P @@ -2501,7 +2501,7 @@ S P P - S + P S S S @@ -2510,14 +2510,14 @@ S S P - S + P S P S S P P - S + P P P S @@ -2589,16 +2589,16 @@ S S S - S P - S P S + P + P S S S P - S + P P P P @@ -2635,7 +2635,7 @@ P S S - S + P P S S @@ -2650,12 +2650,12 @@ S S S - S + P S S P S - S + P P P S @@ -2682,7 +2682,7 @@ S S S - S + P P S S @@ -2760,7 +2760,7 @@ P S P - S + P P P P @@ -2839,7 +2839,7 @@ S P S - S + P S S S @@ -2873,11 +2873,11 @@ S S P - S - S + P S S P + P S S P @@ -2892,10 +2892,10 @@ S P S + P S S - S - S + P P S S @@ -2920,14 +2920,14 @@ S S S - S + P P S S P P S - S + P S P P @@ -3018,7 +3018,7 @@ P P S - S + P S P S @@ -3036,7 +3036,7 @@ S P P - P + S P S P @@ -3049,7 +3049,7 @@ S S P - S + P P S P @@ -3090,7 +3090,7 @@ S S S - P + S S S S @@ -3107,7 +3107,7 @@ P P S - S + P S P S @@ -3137,7 +3137,7 @@ S P S - S + P P P S @@ -3185,7 +3185,7 @@ P S S - P + S P S P @@ -3213,7 +3213,7 @@ S P S - S + P P S P @@ -3251,7 +3251,7 @@ P S S - S + P S P P @@ -3275,8 +3275,8 @@ S S P - S - S + P + P S P P @@ -3326,7 +3326,7 @@ S P P - S + P P P P @@ -3354,7 +3354,7 @@ S S P - S + P P P S @@ -3362,7 +3362,7 @@ P P P - S + P P P S @@ -3378,7 +3378,7 @@ S S S - S + P S S S @@ -3388,7 +3388,7 @@ P S P - P + S P S P @@ -3410,7 +3410,7 @@ P S S - S + P P P S @@ -3502,7 +3502,7 @@ S S S - S + P P S P @@ -3557,7 +3557,7 @@ P P P - S + P S P P @@ -3567,7 +3567,7 @@ S S S - S + P P S P @@ -3576,7 +3576,7 @@ S S S - S + P S S P @@ -3604,13 +3604,13 @@ S P P - S P P P - S P S + P + P S S S @@ -3632,15 +3632,15 @@ S P P - S P - S P S + P S S S S + P S S S @@ -3652,7 +3652,7 @@ P S S - P + S P S S @@ -3670,7 +3670,7 @@ P S S - S + P S S P @@ -3688,7 +3688,7 @@ S P S - P + S S S P @@ -3697,7 +3697,7 @@ P P S - S + P P S S @@ -3711,7 +3711,7 @@ P P S - S + P S S S @@ -3744,7 +3744,7 @@ P P S - S + P S P S @@ -3772,7 +3772,7 @@ S P P - S + P S P S @@ -3798,7 +3798,7 @@ P P P - S + P S P S @@ -3808,16 +3808,16 @@ S S P + S P P - S P P P S P S - S + P P S P @@ -3852,7 +3852,7 @@ P P S - S + P P S P @@ -3878,7 +3878,7 @@ P P S - S + P P S S @@ -3886,7 +3886,7 @@ P P S - S + P P P S @@ -3914,7 +3914,7 @@ P P P - S + P S S S @@ -3932,13 +3932,13 @@ P S S - S + P P S S P S - S + P S S P @@ -3971,7 +3971,7 @@ P S P - P + S S P S @@ -3993,7 +3993,7 @@ S P S - S + P P S S @@ -4035,7 +4035,7 @@ S P P - S + P S S S @@ -4098,7 +4098,7 @@ S S P - S + P P P S @@ -4126,7 +4126,7 @@ S P P - S + P P S P @@ -4163,7 +4163,7 @@ S S S - S + P P P P @@ -4199,7 +4199,7 @@ S S S - S + P P S S @@ -4273,7 +4273,7 @@ P S S - P + S P P P @@ -4283,16 +4283,16 @@ P P P - S - S P S - S + P S P S + P S P + P S S S @@ -4326,7 +4326,7 @@ S S P - S + P S S S @@ -4344,7 +4344,7 @@ S S P - S + P P S S @@ -4359,7 +4359,7 @@ P S S - S + P P S P @@ -4422,12 +4422,12 @@ S S S + P + P S S S - S - S - S + P P P S @@ -4438,13 +4438,13 @@ P P S - S + P P P S P P - S + P P P P @@ -4481,7 +4481,7 @@ S S S - S + P P S P @@ -4507,7 +4507,7 @@ P S S - S + P P P P @@ -4523,7 +4523,7 @@ S S S - S + P P S S @@ -4546,7 +4546,7 @@ P P P - S + P S P S @@ -4614,7 +4614,7 @@ P P S - S + P S S S @@ -4633,10 +4633,10 @@ P P S - S + P P S - S + P S S P @@ -4672,7 +4672,7 @@ P P S - S + P S P P @@ -4691,7 +4691,7 @@ P P S - S + P S S S @@ -4730,7 +4730,7 @@ S P P - S + P S P S @@ -4740,7 +4740,7 @@ S P P - S + P S S P @@ -4762,7 +4762,7 @@ P P P - S + P S S P @@ -4785,17 +4785,17 @@ P P P - S + P P S - S + P P S S P S - P S + P S P S @@ -4825,11 +4825,11 @@ P S S - S - S P S + P S + P S S P @@ -4888,7 +4888,7 @@ S P S - S + P S S P @@ -4958,18 +4958,18 @@ P P S - S + P S P P - S + P S S P S P P - S + P S S S @@ -5020,7 +5020,7 @@ S S P - S + P P P S @@ -5040,7 +5040,7 @@ S S S - S + P P S S @@ -5057,7 +5057,7 @@ S S P - S + P S S P @@ -5108,7 +5108,7 @@ S P S - S + P S S S @@ -5118,7 +5118,7 @@ S P P - S + P P S S diff --git a/train.py b/train.py index 9bf2d30..0773add 100755 --- a/train.py +++ b/train.py @@ -21,7 +21,7 @@ def calc_class_logprob(expected_path): return math.log(paranol_prob), math.log(sceptic_prob) -def clear_tokens(tokens): +def clear_tokens(tokens, is_text=True): tokens = tokens.replace('\\n', ' ') # delete links, special characters, kropki, and \n tokens = re.sub(r'\(((http)|(https)).*((\.com)|(\.net)|(\.jpg)|(\.html))\)'," ", tokens) @@ -30,7 +30,10 @@ def clear_tokens(tokens): tokens = re.sub(r'[\.\-][\.\-]+', ' ', tokens) tokens = re.sub(r'[0-9]+', ' ', tokens) tokens = re.sub(r'œ|·', '', tokens) - tokens = re.sub(r' +', ' ', tokens) + if is_text: + tokens = re.sub(r' +', ' ', tokens) + else: + tokens = re.sub(r' +', '', tokens) return tokens # ile razy slowo wystepuje w dokumentach w danej klasie @@ -41,10 +44,11 @@ def calc_word_count(in_path, expected_path): class_ = exp.rstrip('\n').replace(' ','') text, timestap =line.rstrip('\n').split('\t') #print(f"text {type(text)}") - text = clear_tokens(text) + text = clear_tokens(text, True) tokens = text.lower().split(' ') #print(f"tokens {type(tokens)}") for token in tokens: + clear_tokens(token,False) if class_ == 'P': word_counts['paranormal'][token] += 1 elif class_ == 'S': @@ -69,10 +73,10 @@ def calc_word_logprobs(word_counts): return word_logprobs def main(): - #expected = './train/expected.tsv' - expected = './dev-0/expected.tsv' - #in_f = './train/in.tsv' - in_f = './dev-0/in.tsv' + expected = './train/expected.tsv' + #expected = './dev-0/expected.tsv' + in_f = './train/in.tsv' + #in_f = './dev-0/in.tsv' print (f"expected {expected}") print (f"in {in_f}") paranormal_class_lgprob, skeptic_class_logprob = calc_class_logprob(expected)