Zajecia: ekstrakcja informacji z dokumentów

Osoby, które zrobiły zadanie- proszę o krótką prezentację na początku zajęć oraz wklikanie hand-in w zadaniu na MS TEAMS

Proszę sforkować repozytorium https://git.wmi.amu.edu.pl/kubapok/kleister-nda-clone i pobrać na komputer

$TP$ = TRUE POSITIVE

$TN$ = TRUE NEGATIVE

$FP$ = FALSE POSITIVE

$FN$ = FALSE POSITIVE

ACCURACY = $\frac{TP + TN}{TP + TN + FP + FN}$

PRECISION = $\frac{TP}{TP + FP}$

RECALL = $\frac{TP}{TP + FN}$

F1 = $2 \times \frac{PRECISION \times RECALL}{PRECISION + RECALL}$

from sklearn.metrics import *

true = [0] * 30 + [1] * 70

predicted = [0] * 30 + [1] * 70

accuracy_score(true, predicted)

1.0

precision_score(true, predicted)

1.0

recall_score(true, predicted)

1.0

f1_score(true, predicted)

1.0

W katalogu głównym projektu:

wget https://gonito.net/get/bin/geval

chmod u+x geval

./geval -t dev-0 (dla zbioru deweloperskiego)

stworzyć regułowy ekstraktor informacji (np. na podstawie wyrażeń regularnych)
wygenerować pliki train/out.tsv, dev-0/out.tsv, test-A/out.tsv
dodać do commita w swoim forku powyższe pliki wraz z ze skryptem (skryptami), który pomógł je wygenerować. Skrypty powinny byc w formie tekstowej (jeżeli to jupyter to proszę przekonwertować do zwykłego pliku .py, np jupyter nbconvert --to script a.ipynb)
wynik zaliczający zadanie to więcej niż 0.1 wg metryki F1 dla zbioru test-A
punkty za zadanie: 40, a dla 5 osób które osiągną najwyższy wyniki dostaną 70 punktów zamiast 40
zadanie oddajemy do 27 kwietnia w MS TEAMS podając link do repozytorium. Proszę albo nadać użytkownikowi kubapok uprawnienia do przeglądania repozytorium, albo zrobić je publiczne

Warunki konieczne:

wyzwanie musi spełniać standardy Gonito
w szczególności musi przechodzić walidację (geval --validate --expected-directory .)
wyzwanie musi być dostarczone jako repozytorium git
leży również dostarczyć osobne repozytorium ze skryptami tworzącymi wyzwanie
leży także dostarczyć jedno przykładowe rozwiązanie - baseline (może być prosty/"głupi")
cały zbiór danych musi mieć co najmniej 5 tys. elementów Punktacja:
bazowa liczba punktów za spełnienie - 80 punktów
+30 - interesujący zbiór danych
+30 - rozmiar zbioru
+10 - zbiór z ekstrakcji informacji (podobny do Kleister Charity/NDA)
maksimum: 150 punktów Uwaga: nie jest to wymaganie, ale zachęcamy do opracowywanie zbiorów danych potrzebnych do pracy magisterskiej.

Termin 5 maj 2021 (proszę w MS TEAMS podać link do repozytorium albo publicznego albo z dostępem dla kubapok i filipg na git.wmi)