forked from kubapok/retroc2
init
This commit is contained in:
commit
33b70ce7b1
3
.gitignore
vendored
Normal file
3
.gitignore
vendored
Normal file
@ -0,0 +1,3 @@
|
||||
*~
|
||||
*.swp
|
||||
*.o
|
142
README.md
Normal file
142
README.md
Normal file
@ -0,0 +1,142 @@
|
||||
|
||||
RetroC2 temporal classification challenge
|
||||
=========================================
|
||||
|
||||
Guess the publication year of a Polish text.
|
||||
|
||||
This is the second (larger and improved) edition of the challenge, see
|
||||
[http://gonito.net/challenge/retroc]() for the first edition.
|
||||
|
||||
Example
|
||||
-------
|
||||
|
||||
For instance, you are expected to guess the publication year of this 500-word
|
||||
text:
|
||||
|
||||
> Gazet, a tam o osobie zamformuie się. Uwiadomienie. Stosownie do
|
||||
> dodatku gazety W. Xiestwa Poznańskiego Nru 74. Ig15. niźey podpisany
|
||||
> odwoluiąc się, w którey wszelkie pełnomocnictwa komukolwiek priez
|
||||
> niego dane, od daty teyźe gazety za nieważne mieć chce, dziś więc
|
||||
> potwierdza to, kassuiac i umarzaiąc pełnomocnictw» Ur. Podgurskiemu
|
||||
> przez siebie uczyni o n e, w P o z n a n i u dnia 3. Mala 1816 r.
|
||||
> Psirohońshi. Odmienienie mieszkania. Donoszę Szanowney Publiczności,
|
||||
> iż mieszkanie moie z Dominikjńskiey ulicy przeniosłem na Szeroką
|
||||
> ulicę do JP. Fi asa pod Nr 114 na pierwszym piętrze, i handel zboża
|
||||
> nadal prowadzić będę. Poznań dnia 6. Maia 1816. Meyer Marcuse. III
|
||||
> 111---»-- Do przedania. Kamienica w rynku podNrcra 62, o trzech
|
||||
> piętrach, wraz z zabudowaniami, w bardzo dobrym znayduiąca się
|
||||
> stanie, do szynku i przyimowania gości urządzona, iest zwolney ręki
|
||||
> do przedania. Dokładnieyszą wiadomość powziąść można u właściciela.
|
||||
> Do przedania. Dom za Świętym Marcinem pod N rem 42. z browarnią,
|
||||
> staynią, studnią i wielkićm podwórzem, niemniey kilkanaście szachtów
|
||||
> kamieni, iest na dniu 24m Czerwca r. b. z wolney .ręki do
|
||||
> sprzedania. Każdy ochotę mający kupna, o kondycyach sprzedaży
|
||||
> dowiedzieć się mole tu w Voznaniu w rynku pod N rem 57. u S tanisław
|
||||
> a PoweIskiego. Do przedania. Na mocy w Prześwietnym Sądzie Pokoiti
|
||||
> Powiatu tuteyszego pomiędzy Szl. Henrykiem Eichbaum, właścicielem
|
||||
> młyna papierni w MuchodzU 5 A 7 II nie, Powiatu Międzyrzeckiego, a
|
||||
> Szl. Wilhelmem Ferdynandem Naukę, Kredy torem pryncypalnym z młyna
|
||||
> wodnego w Muchodzinie, na dniu 29m miesiąca Marca roku bieżąesgo
|
||||
> itawartey i w ley n.ierze do podpisanego uczynionego wniosku,
|
||||
> zesunie młyn papiernia, wraz do tego należącemi gruntami, w wsi
|
||||
> Muchodzinie w Powiecie Międzyrzeckim leżąca, według urzedowey na
|
||||
> dniu I I Kwietnia roku bieżącego zdziałaney taxy, na summe. 2246
|
||||
> Tal. 12 dgr, oszacowana, w drodze lieytacyi public-zney więcey
|
||||
> daiącemu za gotowa Ziraz zjpłatę, i wypełnieniem kondycyi kupna,
|
||||
> sprzedana; do którey to sprzedaży termin pierwszy do publikacyi
|
||||
> kondycyi kupna 1 przedsunowczego przysądzenia, na żądanie
|
||||
> Iineressentow, na dzieli 12. miesiąca Czerwca roku bieżącego
|
||||
> w.kascelląryi Urzędnika podpisanego o godzinie iotey przed południem
|
||||
> wyznaczonym zostaie.- Wzywa się więc ninśeyszem Publiczność kupna
|
||||
> tego ochotę maiącą, oraz wszelcy Kredyiorowie e x q u o c u n q u e
|
||||
> jur e d o młyna tego papierni twierdzić prawa sobie mogący, aby w
|
||||
> terminie wzwyż wyrażonym osobiście lub przez prawnie umocowanych
|
||||
> Pełnomocników stawilisię; pierwsi swe licyta, drudzy zaś swe realne
|
||||
> pretensye do protokółu podali, a nay więcey licytuiącemu nie«
|
||||
> ruchomości powyż wymienioney zprzyległościami przygotowawcze
|
||||
> przysądzenie nastąpi. Kredytprowie zaś "Z swerni pretensyami do
|
||||
> nieruchomości tey za prekludowanych, a to sub prejudicio perpetui
|
||||
> silentii uważani zostaną. Zbiór obiaśnień i kondycyi kupna przeyrzeć
|
||||
> każdy interessuiący może u podpisanego. Międzyrzecz dnia 20.
|
||||
> Kwietnia i816\\ Ur ząd P isars t wa Aktowego Powiatu
|
||||
> Międzyrzeckiego. M. GądkowskL Do przedania. Podaie się do publiczney
|
||||
> wiadomości, iż podpisany Komornik Sądowy Powiatu Krobskiego,
|
||||
> zatradowane inwentarze, to iest: konie, woły, krowy, owce i t. d. i
|
||||
> porządki gospodarskie, Wmu Kamieńskiemu, Possessocpwi dóbr
|
||||
> Sobiałkowskich, za kaucyą na zabezpieczenie inwentarzy gruntowych,
|
||||
> do massy konkursowey JOO.XiazatSujftoivsftjcji należących, w wsi
|
||||
> Sobiałkowie pod Rawiczem
|
||||
|
||||
(Yes, there might be a lot of OCR noise there!)
|
||||
|
||||
The perfect answer for this text is 1816.37021856342 (year with a
|
||||
fraction representing a specific day, May, 15th, 1816 for this
|
||||
example). You could as well return non-integer numbers, for instance
|
||||
if you are sure that the text was published in 1977, but you have no
|
||||
idea on which day, the optimal decision is to return 1977.5.
|
||||
|
||||
The metric is root mean squared error.
|
||||
|
||||
Directory structure
|
||||
-------------------
|
||||
|
||||
* `README.md` — this file
|
||||
* `config.txt` — GEval configuration file
|
||||
* `train/` — directory with training data
|
||||
* `train/train.tsv.xz` — train set (compressed with xz, not gzip!)
|
||||
* `train/meta.tsv.xz` — metadata (do **not** use in training)
|
||||
* `dev-0/` — directory with dev (test) data from the same sources as the train set
|
||||
* `dev-0/in.tsv` — input text for the dev set
|
||||
* `dev-0/expected.tsv` — expected data for the dev set (publication years)
|
||||
* `dev-0/meta.tsv.xz` — metadata (do **not** use while testing)
|
||||
* `dev-1/` — directory with dev (test) data from different source than the train set
|
||||
* `dev-1/in.tsv` — input text for the dev set
|
||||
* `dev-1/expected.tsv` — expected data for the dev set (publication years)
|
||||
* `dev-1/meta.tsv.xz` — metadata (do **not** use while testing)
|
||||
* `test-A` — directory with test data
|
||||
* `test-A/in.tsv` — input text for the test set
|
||||
* `test-A/expected.tsv` — expected data for the test set (hidden)
|
||||
* `test-A/meta.tsv.xz` — hidden metadata
|
||||
|
||||
Structure of data sets
|
||||
----------------------
|
||||
|
||||
Dev and tests test sets are balanced for years (or at least it was
|
||||
attempted to balance them for years — for some years there was not enough material).
|
||||
|
||||
The `dev-0` dataset was created using the same sources as the train set, but
|
||||
`dev-1` and `test-A` were generated using sources different from
|
||||
`dev-0` (and different to each other), so `dev-0` is likely to be
|
||||
easier than `dev-1`.
|
||||
|
||||
Metadata files are given for reference, do not use them for training.
|
||||
|
||||
Format of the train set
|
||||
-----------------------
|
||||
|
||||
The format of the train set is different from test sets. There is more
|
||||
information there and you are free to exploit it.
|
||||
|
||||
TAB-separated columns:
|
||||
|
||||
* beginning of the period in which a text is known to be published, given as a year
|
||||
with a possible fraction (note that various time granularities are given in this
|
||||
data set — daily, monthly, yearly, etc.),
|
||||
* end of the period in which a text is known to be published,
|
||||
* title normalised,
|
||||
* symbol of the source (usually a Polish digital library).
|
||||
* ~500-word-long text snippet.
|
||||
|
||||
Format of the test sets
|
||||
-----------------------
|
||||
|
||||
The input file is just a list of ~500-word-long text snippets, each
|
||||
given in a separate line.
|
||||
|
||||
The `expected.tsv` file is a list of publication years (with fractions).
|
||||
|
||||
Format of the output files
|
||||
--------------------------
|
||||
|
||||
For each input line, publication year should be given (it is the same
|
||||
as `expected.tsv` files). The name of the output files is `out.tsv`.
|
1
config.txt
Normal file
1
config.txt
Normal file
@ -0,0 +1 @@
|
||||
--metric RMSE --precision 4
|
20000
dev-0/expected.tsv
Normal file
20000
dev-0/expected.tsv
Normal file
File diff suppressed because it is too large
Load Diff
20000
dev-0/in.tsv
Normal file
20000
dev-0/in.tsv
Normal file
File diff suppressed because one or more lines are too long
BIN
dev-0/meta.tsv.xz
Normal file
BIN
dev-0/meta.tsv.xz
Normal file
Binary file not shown.
11563
dev-1/expected.tsv
Normal file
11563
dev-1/expected.tsv
Normal file
File diff suppressed because it is too large
Load Diff
11563
dev-1/in.tsv
Normal file
11563
dev-1/in.tsv
Normal file
File diff suppressed because one or more lines are too long
BIN
dev-1/meta.tsv.xz
Normal file
BIN
dev-1/meta.tsv.xz
Normal file
Binary file not shown.
14220
test-A/in.tsv
Normal file
14220
test-A/in.tsv
Normal file
File diff suppressed because one or more lines are too long
BIN
train/meta.tsv.xz
Normal file
BIN
train/meta.tsv.xz
Normal file
Binary file not shown.
BIN
train/train.tsv.xz
Normal file
BIN
train/train.tsv.xz
Normal file
Binary file not shown.
Loading…
Reference in New Issue
Block a user