Update bigram with new regex
This commit is contained in:
parent
0b9f952661
commit
59132bf9c6
Binary file not shown.
@ -116,7 +116,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
P
|
P
|
||||||
@ -1850,7 +1850,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -2511,7 +2511,7 @@
|
|||||||
P
|
P
|
||||||
P
|
P
|
||||||
P
|
P
|
||||||
P
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -2788,7 +2788,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
@ -2924,7 +2924,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -3521,7 +3521,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
|
|
10
predict.py
10
predict.py
@ -30,11 +30,11 @@ def calc_post_class(post, paranormal_class_logprob, sceptic_class_logprob, bigra
|
|||||||
|
|
||||||
def clear_post(post):
|
def clear_post(post):
|
||||||
post = post.replace('\\n', ' ')
|
post = post.replace('\\n', ' ')
|
||||||
post = re.sub(r'(\(|)(http|https|www)[a-zA-Z0-9\.\:\/\_\=\&\;\-\?\+]+(\)|)', '', post)
|
post = re.sub(r'(\(|)(http|https|www)[a-zA-Z0-9\.\:\/\_\=\&\;\-\?\+\%]+(\)|)', '', post)
|
||||||
post = re.sub(r'[\.\,]+', ' ', post)
|
post = re.sub(r'[\.\,\/\~]+', ' ', post)
|
||||||
post = re.sub(r'(<|>)','',post)
|
post = re.sub(r'(<|>|\@[a-zA-Z0-9]+)','',post)
|
||||||
post = re.sub(r'[\'\(\)\?\*\"\`\;0-9\[\]\:\%]+', '', post)
|
post = re.sub(r'[\'\(\)\?\*\"\`\;0-9\[\]\:\%\|]+', '', post)
|
||||||
post = re.sub(r' \- ', ' ', post)
|
post = re.sub(r'( \- |\-\-+)', ' ', post)
|
||||||
post = re.sub(r' +', ' ', post)
|
post = re.sub(r' +', ' ', post)
|
||||||
post = post.rstrip(' ')
|
post = post.rstrip(' ')
|
||||||
return post
|
return post
|
||||||
|
@ -235,7 +235,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -343,7 +343,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -357,7 +357,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -425,7 +425,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -441,7 +441,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
P
|
P
|
||||||
@ -456,7 +456,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -694,7 +694,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
@ -844,7 +844,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
@ -998,7 +998,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -1268,7 +1268,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
@ -1383,7 +1383,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -1582,7 +1582,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -1788,7 +1788,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -1855,7 +1855,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -1986,7 +1986,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -2217,7 +2217,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -2227,7 +2227,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -3282,7 +3282,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -3378,7 +3378,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
@ -3724,7 +3724,7 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -3765,7 +3765,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -4111,7 +4111,7 @@
|
|||||||
P
|
P
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
P
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -4190,7 +4190,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
@ -4344,7 +4344,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -4421,19 +4421,19 @@
|
|||||||
S
|
S
|
||||||
P
|
P
|
||||||
P
|
P
|
||||||
P
|
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
P
|
|
||||||
S
|
S
|
||||||
P
|
P
|
||||||
S
|
S
|
||||||
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
@ -4763,7 +4763,7 @@
|
|||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
P
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
S
|
S
|
||||||
|
|
12
train.py
12
train.py
@ -25,11 +25,11 @@ def calc_class_logprob(expected_path):
|
|||||||
def clear_post(post):
|
def clear_post(post):
|
||||||
post = post.replace('\\n', ' ')
|
post = post.replace('\\n', ' ')
|
||||||
# delete links
|
# delete links
|
||||||
post = re.sub(r'(\(|)(http|https|www)[a-zA-Z0-9\.\:\/\_\=\&\;\?\+]+(\)|)', '', post)
|
post = re.sub(r'(\(|)(http|https|www)[a-zA-Z0-9\.\:\/\_\=\&\;\?\+\-\%]+(\)|)', '', post)
|
||||||
post = re.sub(r'[\.\,\/]+', ' ', post)
|
post = re.sub(r'[\.\,\/\~]+', ' ', post)
|
||||||
post = re.sub(r'(<|>)','',post)
|
post = re.sub(r'(<|>|\@[a-zA-Z0-9]+)','',post)
|
||||||
post = re.sub(r'[\'\(\)\?\*\"\`\;0-9\[\]\:\%]+', '', post)
|
post = re.sub(r'[\'\(\)\?\*\"\`\;0-9\[\]\:\%\|]+', '', post)
|
||||||
post = re.sub(r' \- ', ' ', post)
|
post = re.sub(r'( \- |\-\-+)', ' ', post)
|
||||||
post = re.sub(r' +', ' ', post)
|
post = re.sub(r' +', ' ', post)
|
||||||
post = post.rstrip(' ')
|
post = post.rstrip(' ')
|
||||||
return post
|
return post
|
||||||
@ -45,7 +45,7 @@ def calc_bigram_count(in_path, expected_path):
|
|||||||
for index in range(len(tokens)-1):
|
for index in range(len(tokens)-1):
|
||||||
# if there is next token we append current and next
|
# if there is next token we append current and next
|
||||||
bigram = tokens[index] + " " + tokens[index + 1]
|
bigram = tokens[index] + " " + tokens[index + 1]
|
||||||
#print(bigram)
|
print(bigram)
|
||||||
#print (f"bigram constructed from ;;;;{tokens[index]}:{tokens[index+1]};;;;;;;")
|
#print (f"bigram constructed from ;;;;{tokens[index]}:{tokens[index+1]};;;;;;;")
|
||||||
if class_ == 'P':
|
if class_ == 'P':
|
||||||
bigram_counts['paranormal'][bigram] +=1
|
bigram_counts['paranormal'][bigram] +=1
|
||||||
|
Loading…
Reference in New Issue
Block a user