This commit is contained in:
Piotr Kopycki 2021-06-22 21:28:06 +02:00
parent 6b27900d65
commit f266ad8686
2 changed files with 10 additions and 4 deletions

View File

@ -72,12 +72,20 @@ def fix_bio_labels(data_old):
data_new[i].append('I-ORG') data_new[i].append('I-ORG')
elif (data_old[i][j] == 'I-MISC' or data_old[i][j] == 'I-LOC' or data_old[i][j] == 'I-ORG') and data_old[i][j-1] == 'I-PER': elif (data_old[i][j] == 'I-MISC' or data_old[i][j] == 'I-LOC' or data_old[i][j] == 'I-ORG') and data_old[i][j-1] == 'I-PER':
data_new[i].append('I-PER') data_new[i].append('I-PER')
elif data_old[i][j] == 'I-LOC' and data_old[i][j-1] == "O":
data_new[i].append('B-LOC')
elif data_old[i][j] == 'I-MISC' and data_old[i][j-1] == "O":
data_new[i].append('B-MISC')
elif data_old[i][j] == 'I-ORG' and data_old[i][j-1] == "O":
data_new[i].append('B-ORG')
elif data_old[i][j] == 'I-PER' and data_old[i][j - 1] == "O":
data_new[i].append('B-PER')
else: else:
data_new[i].append(data_old[i][j]) data_new[i].append(data_old[i][j])
return data_new return data_new
if __name__ == "__main__": if __name__ == "__main__":
data = read("test-A/out.tsv") data = read("dev-0/out.tsv")
data = fix_bio_labels(data) data = fix_bio_labels(data)
save(data, "test-A/out.tsv") save(data, "dev-0/out.tsv")

View File

@ -1,2 +0,0 @@
print("list A: ", len("O O B-PER O O O O O O O O O B-LOC O O B-LOC I-LOC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-LOC O O O O O O O O O O B-LOC O O O O O O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O O O O O O O O O O O B-PER O B-PER O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O B-MISC O O B-PER O O O O O O O O O O B-LOC O B-LOC O O B-PER O O O O B-LOC O O O O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-MISC O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O O O O O O O B-LOC O B-PER I-PER O O O O B-PER O O O O O O O O O O O O B-LOC O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O B-PER I-PER O O O O O O O".split(sep=" ")))
print("list B: ", len("O O B-ORG O O O O O O O O O B-LOC O O B-MISC I-MISC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-ORG O O O O O O O O O O B-ORG O O O O B-ORG O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O B-ORG O O O O O O O O O O O B-PER I-PER O B-PER I-PER O O O O O O O O O B-ORG O B-LOC O O B-PER O O O O B-LOC O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O B-ORG O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O B-LOC O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O B-ORG O O O O O O O O O O O O O B-PER I-PER O B-MISC O O B-PER I-PER O O O O O O O O B-ORG O O O O O O O".split(sep=" ")))