forked from kubapok/en-ner-conll-2003
Update
This commit is contained in:
parent
6b27900d65
commit
f266ad8686
12
BIO_fixer.py
12
BIO_fixer.py
@ -72,12 +72,20 @@ def fix_bio_labels(data_old):
|
||||
data_new[i].append('I-ORG')
|
||||
elif (data_old[i][j] == 'I-MISC' or data_old[i][j] == 'I-LOC' or data_old[i][j] == 'I-ORG') and data_old[i][j-1] == 'I-PER':
|
||||
data_new[i].append('I-PER')
|
||||
elif data_old[i][j] == 'I-LOC' and data_old[i][j-1] == "O":
|
||||
data_new[i].append('B-LOC')
|
||||
elif data_old[i][j] == 'I-MISC' and data_old[i][j-1] == "O":
|
||||
data_new[i].append('B-MISC')
|
||||
elif data_old[i][j] == 'I-ORG' and data_old[i][j-1] == "O":
|
||||
data_new[i].append('B-ORG')
|
||||
elif data_old[i][j] == 'I-PER' and data_old[i][j - 1] == "O":
|
||||
data_new[i].append('B-PER')
|
||||
else:
|
||||
data_new[i].append(data_old[i][j])
|
||||
return data_new
|
||||
|
||||
|
||||
if __name__ == "__main__":
|
||||
data = read("test-A/out.tsv")
|
||||
data = read("dev-0/out.tsv")
|
||||
data = fix_bio_labels(data)
|
||||
save(data, "test-A/out.tsv")
|
||||
save(data, "dev-0/out.tsv")
|
2
test.py
2
test.py
@ -1,2 +0,0 @@
|
||||
print("list A: ", len("O O B-PER O O O O O O O O O B-LOC O O B-LOC I-LOC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-LOC O O O O O O O O O O B-LOC O O O O O O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O O O O O O O O O O O B-PER O B-PER O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O B-MISC O O B-PER O O O O O O O O O O B-LOC O B-LOC O O B-PER O O O O B-LOC O O O O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-MISC O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O O O O O O O B-LOC O B-PER I-PER O O O O B-PER O O O O O O O O O O O O B-LOC O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O B-PER I-PER O O O O O O O".split(sep=" ")))
|
||||
print("list B: ", len("O O B-ORG O O O O O O O O O B-LOC O O B-MISC I-MISC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-ORG O O O O O O O O O O B-ORG O O O O B-ORG O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O B-ORG O O O O O O O O O O O B-PER I-PER O B-PER I-PER O O O O O O O O O B-ORG O B-LOC O O B-PER O O O O B-LOC O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O B-ORG O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O B-LOC O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O B-ORG O O O O O O O O O O O O O B-PER I-PER O B-MISC O O B-PER I-PER O O O O O O O O B-ORG O O O O O O O".split(sep=" ")))
|
Loading…
Reference in New Issue
Block a user