s402227/petite-difference-challenge2-pretrained

"He Said She Said" classification challenge (2nd edition) - see gonito.net - pretrained models

Go to file

Karol Kaczmarek 2033259867 from scratch RoBERTa MLM + classfier		2020-06-13 21:30:25 +02:00
dev-0	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
dev-1	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
test-A	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
.gitignore	Init	2020-06-13 20:19:17 +02:00
1-create-data.sh	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
2-preproc-classifier.sh	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
2-preproc-mlm.sh	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
3-train-mlm.sh	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
4-finetune.sh	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
5-eval.py	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
config.txt	Init	2020-06-13 20:19:17 +02:00
dict-mlm.txt	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00
README.md	Init	2020-06-13 20:19:17 +02:00
vocab_spm_bpe.model	from scratch RoBERTa MLM + classfier	2020-06-13 21:30:25 +02:00

README.md

"He Said She Said" classification challenge (2nd edition)

Give the probability that a text in Polish was written by a man.

This challenge is based on the "He Said She Said" corpus for Polish. The corpus was created by grepping gender-specific first person expressions (e.g. "zrobiłem/zrobiłam", "jestem zadowolony/zadowolona", "będę robił/robiła") in the Common Crawl corpus. Such expressions were normalised here into masculine forms.

Classes

0 — text written by a woman
1 — text written by a man

Directory structure

README.md — this file
config.txt — configuration file
train/ — directory with training data
train/train.tsv.gz — train set (gzipped), the class is given in the first column, a text fragment in the second one
train/meta.tsv.gz — metadata (do not use during training)
dev-0/ — directory with dev (test) data
dev-0/in.tsv — input data for the dev set (text fragments)
dev-0/expected.tsv — expected (reference) data for the dev set
dev-0/meta.tsv — metadata (not used during testing)
dev-1/ — directory with extra dev (test) data
dev-1/in.tsv — input data for the extra dev set (text fragments)
dev-1/expected.tsv — expected (reference) data for the extra dev set
dev-1/meta.tsv — metadata (not used during testing)
test-A — directory with test data
test-A/in.tsv — input data for the test set (text fragments)
test-A/expected.tsv — expected (reference) data for the test set (hidden)