Go to file
Jakub Pokrywka 98b0b55131 baseline- tfidf cosine similarity score order between query and candidate 2022-02-08 13:31:41 +01:00
dev-0 baseline- tfidf cosine similarity score order between query and candidate 2022-02-08 13:31:41 +01:00
test-A baseline- tfidf cosine similarity score order between query and candidate 2022-02-08 13:31:41 +01:00
train Init 2022-02-08 09:22:22 +01:00
.gitignore Init 2022-02-08 09:22:22 +01:00
README.md Init 2022-02-08 09:22:22 +01:00
baseline-random-input.py baseline- return input in randomized order 2022-02-08 12:58:58 +01:00
baseline-tfidf.py baseline- tfidf cosine similarity score order between query and candidate 2022-02-08 13:31:41 +01:00
config.txt Init 2022-02-08 09:22:22 +01:00
in-header.tsv Init 2022-02-08 09:22:22 +01:00
out-header.tsv Init 2022-02-08 09:22:22 +01:00

README.md

Dialogi z lektur

Format danych

Pierwsza kolumna zbioru in.tsv zawiera początek dialogu pewnej lektury. Dialogi mogą być być prowadzone przez dowolną ilość osób i nie zawierają innych adnotacji niż sama wypowiedź (np. komentarzy narratora). Poszczególne wypowiedzi w początku dialogu oddzielone są separatorem [SEP]. Każda kolejna kolumna to propozycja kontynuacji dialogu. Kontynuacja dialogu może pochodzić z tej samej lub innej lektury. Istnieje tylko jedna taka poprawna kontynuacja dialogu- ta, która faktycznie występuje w książce. Zadaniem jest zwrócić poprawną kontynuację dialogu.

Jako format wyjściowy zwróć wszystkie proponowane kontynuacje dialogu uszeregowane w kolejności od najbardziej prawdopodobnej do najmniej prawdopodbnej. Propozycje powinny być identyczne jak w pliku in.tsv i oddzielone tabulacjami.

Metryka

Metryka ewaluacji to Mean Reciprocal Rank (MRR) lub Mean Average Precision (MAP). W przypadku niniejszego zadania, gdzie tylko jedna odpowiedź jest prawidłowa, metryki MRR i MAP są tożsame.

Zasady wyzwania

Dozwolone jest używanie gotowych, dostępnych modeli językowych (np. https://github.com/sdadas/polish-roberta ), ale nie wolno odwoływać się do żadnych danych poza tymi, zawartymi w zadaniu. W szczególności nie wolno korzystać z żadnych książek, np. dotrenowywać modelu językowego na lekturach innych, niż te zawarte w zadaniu.

Przykład

Przykładowy wiersz in.tsv z trzema propozycjami kontynuacji dialogu:

Cześć, jestem Adam![SEP]Cześć, mam na imię Ala[SEP]Jak się masz?	Milordzie, fortuna nam sprzyja!	Dobrze. A Ty?	Co się stało?

Odpowiadający wiersz z expected.tsv:

Dobrze. A Ty?

Przykładowy plik out.tsv:

Dobrze. A Ty?	Co się stało?	Milordzie, fortuna nam sprzyja!

Directory structure

  • README.md — this file
  • config.txt — configuration file
  • train/ — directory with training data
  • train/train.tsv — sample train set
  • dev-0/ — directory with dev (test) data
  • dev-0/in.tsv — input data for the dev set
  • dev-0/expected.tsv — expected (reference) data for the dev set
  • test-A — directory with test data
  • test-A/in.tsv — input data for the test set
  • test-A/expected.tsv — expected (reference) data for the test set