Go to file
2021-06-07 12:41:08 +02:00
dev-0 Seq labeling 2021-06-07 12:41:08 +02:00
test-A Seq labeling 2021-06-07 12:41:08 +02:00
train init 2021-05-19 09:52:24 +02:00
.gitignore Seq labeling 2021-06-07 12:41:08 +02:00
config.txt init 2021-05-19 09:52:24 +02:00
README.md Seq labeling 2021-06-07 12:41:08 +02:00
seq_labeling.py Seq labeling 2021-06-07 12:41:08 +02:00
seq_labeling.py.ipynb Seq labeling 2021-06-07 12:41:08 +02:00

Sequence labeling

  • Oba modele zostały wytrenowane na GPU
  • Zakomentowany kod dotyczy przetwarzania danych z pomocą dodatkowych tagów <alpha> i <notalpha> dołączanych do każdego tokenu.
  • Dodatkowy tag określał czy rozpatrywany token zawiera jedynie litery (metoda w pythonie .isalpha())
  • Kod został zakomentowany ponieważ wyniki jakie dawał model były znacznie gorsze niż wyniki dostarczane przez starszy model nieuwzględniający tej cechy

Wyniki dla danych DEV-0:

Model BIO-F1 F-score on tokens
Bez wykorzystania dodatkowych specjalnych tagów 0.72120 0.96108
Z wykorzystaniem <alpha> i <notalpha> 0.02011 0.47556

Po wykonaniu predykcji dane są dodatkowo przetwarzane przez metodę process_output() w celu korekcji błędów w prefixach B- I-

Historia uczenia modelu z dodatkowymi tagami:

Przedstawione wyniki są przed wykonaniem metody process_output() bez której geval nie mógł przetworzyć rozpoznanych danych

  • epoch: 0 f1: 0.0537073084409839 acc: 0.8107132944768248
  • epoch: 1 f1: 0.089452662072598 acc: 0.8185401054676659
  • epoch: 2 f1: 0.15310687655343827 acc: 0.8247849014709964
  • epoch: 3 f1: 0.22250960106591425 acc: 0.8331668054399112
  • epoch: 4 f1: 0.2932823798284066 acc: 0.8437690813211213
  • epoch: 5 f1: 0.35180547994919253 acc: 0.8530021278564159
  • epoch: 6 f1: 0.40077889892016283 acc: 0.8614765473216763
  • epoch: 7 f1: 0.4414580649653588 acc: 0.868887038578962
  • epoch: 8 f1: 0.47653752277493205 acc: 0.8754278841705986
  • epoch: 9 f1: 0.5030662305805396 acc: 0.8805347395688777
  • epoch: 10 f1: 0.5222469785969888 acc: 0.8840780830789157
  • epoch: 11 f1: 0.5367523662482379 acc: 0.8869738181145341
  • epoch: 12 f1: 0.5481466626558373 acc: 0.8890646683319456
  • epoch: 13 f1: 0.5576371758117208 acc: 0.8910444999537422
  • epoch: 14 f1: 0.5628658861096328 acc: 0.892025164215006