en-ner-conll-2003

Go to file

Anna Nowak 9b83de8a7d Seq labeling		2021-06-07 12:41:08 +02:00
dev-0	Seq labeling	2021-06-07 12:41:08 +02:00
test-A	Seq labeling	2021-06-07 12:41:08 +02:00
train	init	2021-05-19 09:52:24 +02:00
.gitignore	Seq labeling	2021-06-07 12:41:08 +02:00
config.txt	init	2021-05-19 09:52:24 +02:00
README.md	Seq labeling	2021-06-07 12:41:08 +02:00
seq_labeling.py	Seq labeling	2021-06-07 12:41:08 +02:00
seq_labeling.py.ipynb	Seq labeling	2021-06-07 12:41:08 +02:00

Sequence labeling

Oba modele zostały wytrenowane na GPU
Zakomentowany kod dotyczy przetwarzania danych z pomocą dodatkowych tagów <alpha> i <notalpha> dołączanych do każdego tokenu.
Dodatkowy tag określał czy rozpatrywany token zawiera jedynie litery (metoda w pythonie .isalpha())
Kod został zakomentowany ponieważ wyniki jakie dawał model były znacznie gorsze niż wyniki dostarczane przez starszy model nieuwzględniający tej cechy

Model	BIO-F1	F-score on tokens
Bez wykorzystania dodatkowych specjalnych tagów	0.72120	0.96108
Z wykorzystaniem `<alpha>` i `<notalpha>`	0.02011	0.47556

Po wykonaniu predykcji dane są dodatkowo przetwarzane przez metodę process_output() w celu korekcji błędów w prefixach B- I-

Przedstawione wyniki są przed wykonaniem metody process_output() bez której geval nie mógł przetworzyć rozpoznanych danych