6.5 KiB
Ekstrakcja informacji
5. Ekstrakcja informacji z dokumentów [ćwiczenia]
Jakub Pokrywka (2021)
Zajecia: ekstrakcja informacji z dokumentów
Przedstawianie zadania z wyszukiwarek
Osoby, które zrobiły zadanie- proszę o krótką prezentację na początku zajęć oraz wklikanie hand-in w zadaniu na MS TEAMS
Wyzwanie Kleister NDA
Proszę sforkować repozytorium https://git.wmi.amu.edu.pl/kubapok/kleister-nda-clone i pobrać na komputer
Metryki w klasyfikacji binarnej
$TP$ = TRUE POSITIVE
$TN$ = TRUE NEGATIVE
$FP$ = FALSE POSITIVE
$FN$ = FALSE POSITIVE
ACCURACY = $\frac{TP + TN}{TP + TN + FP + FN}$
PRECISION = $\frac{TP}{TP + FP}$
RECALL = $\frac{TP}{TP + FN}$
F1 = $2 \times \frac{PRECISION \times RECALL}{PRECISION + RECALL}$
from sklearn.metrics import *
true = [0] * 30 + [1] * 70
predicted = [0] * 30 + [1] * 70
accuracy_score(true, predicted)
1.0
precision_score(true, predicted)
1.0
recall_score(true, predicted)
1.0
f1_score(true, predicted)
1.0
Automatyczna ocena kleister NDA
W katalogu głównym projektu:
wget https://gonito.net/get/bin/geval
chmod u+x geval
./geval -t dev-0
(dla zbioru deweloperskiego)
ZADANIE DOMOWE KLEISTER NDA
- stworzyć regułowy ekstraktor informacji (np. na podstawie wyrażeń regularnych)
- wygenerować pliki
train/out.tsv
,dev-0/out.tsv
,test-A/out.tsv
- dodać do commita w swoim forku powyższe pliki wraz z ze skryptem (skryptami), który pomógł je wygenerować. Skrypty powinny byc w formie tekstowej (jeżeli to jupyter to proszę przekonwertować do zwykłego pliku .py, np jupyter nbconvert --to script a.ipynb)
- wynik zaliczający zadanie to więcej niż 0.1 wg metryki F1 dla zbioru test-A
- punkty za zadanie: 40, a dla 5 osób które osiągną najwyższy wyniki dostaną 70 punktów zamiast 40
- zadanie oddajemy do 27 kwietnia w MS TEAMS podając link do repozytorium. Proszę albo nadać użytkownikowi kubapok uprawnienia do przeglądania repozytorium, albo zrobić je publiczne
ZADANIE DOMOWE Przygotuj wyzwanie dotyczące tekstu zgodne ze standardami Gonito
Warunki konieczne:
- wyzwanie musi spełniać standardy Gonito
- w szczególności musi przechodzić walidację (
geval --validate --expected-directory .
) - wyzwanie musi być dostarczone jako repozytorium git
- leży również dostarczyć osobne repozytorium ze skryptami tworzącymi wyzwanie
- leży także dostarczyć jedno przykładowe rozwiązanie - baseline (może być prosty/"głupi")
- cały zbiór danych musi mieć co najmniej 5 tys. elementów Punktacja:
- bazowa liczba punktów za spełnienie - 80 punktów
- +30 - interesujący zbiór danych
- +30 - rozmiar zbioru
- +10 - zbiór z ekstrakcji informacji (podobny do Kleister Charity/NDA)
- maksimum: 150 punktów Uwaga: nie jest to wymaganie, ale zachęcamy do opracowywanie zbiorów danych potrzebnych do pracy magisterskiej.
Termin 5 maj 2021 (proszę w MS TEAMS podać link do repozytorium albo publicznego albo z dostępem dla kubapok i filipg na git.wmi)