diff --git a/BIO_fixer.py b/BIO_fixer.py index f625569..b97a65b 100644 --- a/BIO_fixer.py +++ b/BIO_fixer.py @@ -72,12 +72,20 @@ def fix_bio_labels(data_old): data_new[i].append('I-ORG') elif (data_old[i][j] == 'I-MISC' or data_old[i][j] == 'I-LOC' or data_old[i][j] == 'I-ORG') and data_old[i][j-1] == 'I-PER': data_new[i].append('I-PER') + elif data_old[i][j] == 'I-LOC' and data_old[i][j-1] == "O": + data_new[i].append('B-LOC') + elif data_old[i][j] == 'I-MISC' and data_old[i][j-1] == "O": + data_new[i].append('B-MISC') + elif data_old[i][j] == 'I-ORG' and data_old[i][j-1] == "O": + data_new[i].append('B-ORG') + elif data_old[i][j] == 'I-PER' and data_old[i][j - 1] == "O": + data_new[i].append('B-PER') else: data_new[i].append(data_old[i][j]) return data_new if __name__ == "__main__": - data = read("test-A/out.tsv") + data = read("dev-0/out.tsv") data = fix_bio_labels(data) - save(data, "test-A/out.tsv") \ No newline at end of file + save(data, "dev-0/out.tsv") \ No newline at end of file diff --git a/test.py b/test.py deleted file mode 100644 index 508f618..0000000 --- a/test.py +++ /dev/null @@ -1,2 +0,0 @@ -print("list A: ", len("O O B-PER O O O O O O O O O B-LOC O O B-LOC I-LOC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-LOC O O O O O O O O O O B-LOC O O O O O O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O O O O O O O O O O O B-PER O B-PER O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O B-MISC O O B-PER O O O O O O O O O O B-LOC O B-LOC O O B-PER O O O O B-LOC O O O O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-MISC O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O O O O O O O B-LOC O B-PER I-PER O O O O B-PER O O O O O O O O O O O O B-LOC O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O B-PER I-PER O O O O B-PER I-PER O O O O O O O B-PER I-PER O O O O O O O".split(sep=" "))) -print("list B: ", len("O O B-ORG O O O O O O O O O B-LOC O O B-MISC I-MISC O B-PER I-PER O O O O O O O B-ORG O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O B-ORG O B-ORG O O O O O O B-ORG O O O O O O O O O O B-ORG O O O O B-ORG O O O O O O O O B-LOC I-LOC O B-ORG O O O O O O O O O O O O O O B-LOC O B-PER I-PER O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O B-ORG O O O O O O O O O O O B-PER I-PER O B-PER I-PER O O O O O O O O O B-ORG O B-LOC O O B-PER O O O O B-LOC O O O O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O B-ORG O O O O O O O O O B-PER O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-LOC O B-ORG O B-PER I-PER O O O O O B-LOC O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O O B-LOC O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O B-ORG O O O O O O O O O O O O O O O O O O O O B-MISC B-PER I-PER O O O O O B-PER I-PER O O O O B-PER I-PER O O O O B-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O B-ORG O O O O O O B-ORG O O O O O O O O O O O O O B-PER I-PER O B-MISC O O B-PER I-PER O O O O O O O O B-ORG O O O O O O O".split(sep=" ")))