aitech-eks-pub-22/cw/05_NDA_IE.ipynb
Jakub Pokrywka 81d0d0928a add 05 06
2022-04-20 09:56:20 +02:00

6.3 KiB

Logo 1

Ekstrakcja informacji

5. Ekstrakcja informacji z dokumentów [ćwiczenia]

Jakub Pokrywka (2021)

Logo 2

Zajecia: ekstrakcja informacji z dokumentów

Przedstawianie zadania z wyszukiwarek

Osoby, które zrobiły zadanie- proszę o krótką prezentację na początku zajęć oraz wklikanie hand-in w zadaniu na MS TEAMS

Wyzwanie Kleister NDA

Proszę pobrać z gonito https://gonito.net/challenge/kleister-nda

Metryki w klasyfikacji

$TP$ = TRUE POSITIVE

$TN$ = TRUE NEGATIVE

$FP$ = FALSE POSITIVE

$FN$ = FALSE POSITIVE

ACCURACY = $\frac{TP + TN}{TP + TN + FP + FN}$

PRECISION = $\frac{TP}{TP + FP}$

RECALL = $\frac{TP}{TP + FN}$

F1 = $2 \times \frac{PRECISION \times RECALL}{PRECISION + RECALL}$

from sklearn.metrics import *
true = [0] * 30 + [1] * 70
predicted = [0] * 30 + [1] * 70
accuracy_score(true, predicted)
1.0
precision_score(true, predicted)
1.0
recall_score(true, predicted)
1.0
f1_score(true, predicted)
1.0

Automatyczna ocena kleister NDA

W katalogu głównym projektu:

wget https://gonito.net/get/bin/geval

chmod u+x geval

./geval -t dev-0 (dla zbioru deweloperskiego)

ZADANIE DOMOWE KLEISTER NDA

  • stworzyć regułowy ekstraktor informacji (np. na podstawie wyrażeń regularnych)
  • wygenerować pliki train/out.tsv, dev-0/out.tsv, test-A/out.tsv
  • dodać do commita w swoim forku powyższe pliki wraz z ze skryptem (skryptami), który pomógł je wygenerować. Skrypty powinny byc w formie tekstowej (jeżeli to jupyter to proszę przekonwertować do zwykłego pliku .py, np jupyter nbconvert --to script a.ipynb)
  • wynik zaliczający zadanie to więcej niż 0.1 wg metryki F1 dla zbioru test-A
  • punkty za zadanie: 40, a dla 5 osób które osiągną najwyższy wyniki dostaną 70 punktów zamiast 40
  • zadanie oddajemy do 03.05 w gonito

ZADANIE DOMOWE Przygotuj wyzwanie dotyczące tekstu zgodne ze standardami Gonito

Warunki konieczne:

  • wyzwanie musi spełniać standardy Gonito
  • w szczególności musi przechodzić walidację (geval --validate --expected-directory .)
  • wyzwanie musi być dostarczone jako repozytorium git
  • leży również dostarczyć osobne repozytorium ze skryptami tworzącymi wyzwanie
  • leży także dostarczyć jedno przykładowe rozwiązanie - baseline (może być prosty/"głupi")
  • cały zbiór danych musi mieć co najmniej 5 tys. elementów Punktacja:
  • bazowa liczba punktów za spełnienie - 80 punktów
  • +30 - interesujący zbiór danych
  • +30 - rozmiar zbioru
  • +10 - zbiór z ekstrakcji informacji (podobny do Kleister Charity/NDA)
  • maksimum: 150 punktów Uwaga: nie jest to wymaganie, ale zachęcamy do opracowywanie zbiorów danych potrzebnych do pracy magisterskiej.

Termin 10 maj 2022 na zajęciach (proszę sie zgłosić do prowadzącego)