aitech-eks-pub/cw/05_NDA_IE.ipynb

5.8 KiB

Zajecia: ekstrakcja informacji z dokumentów

Przedstawianie zadania z wyszukiwarek

Osoby, które zrobiły zadanie- proszę o krótką prezentację na początku zajęć oraz wklikanie hand-in w zadaniu na MS TEAMS

Wyzwanie Kleister NDA

Proszę sforkować repozytorium https://git.wmi.amu.edu.pl/kubapok/kleister-nda-clone i pobrać na komputer

Metryki w klasyfikacji binarnej

$TP$ = TRUE POSITIVE

$TN$ = TRUE NEGATIVE

$FP$ = FALSE POSITIVE

$FN$ = FALSE POSITIVE

ACCURACY = $\frac{TP + TN}{TP + TN + FP + FN}$

PRECISION = $\frac{TP}{TP + FP}$

RECALL = $\frac{TP}{TP + FN}$

F1 = $2 \times \frac{PRECISION \times RECALL}{PRECISION + RECALL}$

from sklearn.metrics import *
true = [0] * 30 + [1] * 70
predicted = [0] * 30 + [1] * 70
accuracy_score(true, predicted)
1.0
precision_score(true, predicted)
1.0
recall_score(true, predicted)
1.0
f1_score(true, predicted)
1.0

Automatyczna ocena kleister NDA

W katalogu głównym projektu:

wget https://gonito.net/get/bin/geval

chmod u+x geval

./geval -t dev-0 (dla zbioru deweloperskiego)

ZADANIE DOMOWE KLEISTER NDA

  • stworzyć regułowy ekstraktor informacji (np. na podstawie wyrażeń regularnych)
  • wygenerować pliki train/out.tsv, dev-0/out.tsv, test-A/out.tsv
  • dodać do commita w swoim forku powyższe pliki wraz z ze skryptem (skryptami), który pomógł je wygenerować. Skrypty powinny byc w formie tekstowej (jeżeli to jupyter to proszę przekonwertować do zwykłego pliku .py, np jupyter nbconvert --to script a.ipynb)
  • wynik zaliczający zadanie to więcej niż 0.1 wg metryki F1 dla zbioru test-A
  • punkty za zadanie: 40, a dla 5 osób które osiągną najwyższy wyniki dostaną 70 punktów zamiast 40
  • zadanie oddajemy do 27 kwietnia w MS TEAMS podając link do repozytorium. Proszę albo nadać użytkownikowi kubapok uprawnienia do przeglądania repozytorium, albo zrobić je publiczne

ZADANIE DOMOWE Przygotuj wyzwanie dotyczące tekstu zgodne ze standardami Gonito

Warunki konieczne:

  • wyzwanie musi spełniać standardy Gonito
  • w szczególności musi przechodzić walidację (geval --validate --expected-directory .)
  • wyzwanie musi być dostarczone jako repozytorium git
  • leży również dostarczyć osobne repozytorium ze skryptami tworzącymi wyzwanie
  • leży także dostarczyć jedno przykładowe rozwiązanie - baseline (może być prosty/"głupi")
  • cały zbiór danych musi mieć co najmniej 5 tys. elementów Punktacja:
  • bazowa liczba punktów za spełnienie - 80 punktów
  • +30 - interesujący zbiór danych
  • +30 - rozmiar zbioru
  • +10 - zbiór z ekstrakcji informacji (podobny do Kleister Charity/NDA)
  • maksimum: 150 punktów Uwaga: nie jest to wymaganie, ale zachęcamy do opracowywanie zbiorów danych potrzebnych do pracy magisterskiej.

Termin 5 maj 2021 (proszę w MS TEAMS podać link do repozytorium albo publicznego albo z dostępem dla kubapok i filipg na git.wmi)