diff --git a/README.md b/README.md new file mode 100644 index 0000000..9299577 --- /dev/null +++ b/README.md @@ -0,0 +1,142 @@ + +RetroC2 temporal classification challenge +========================================= + +Guess the publication year of a Polish text. + +This is the second (larger and improved) edition of the challenge, see +[http://gonito.net/challenge/retroc]() for the first edition. + +Example +------- + +For instance, you are expected to guess the publication year of this 500-word +text: + +> Gazet, a tam o osobie zamformuie się. Uwiadomienie. Stosownie do +> dodatku gazety W. Xiestwa Poznańskiego Nru 74. Ig15. niźey podpisany +> odwoluiąc się, w którey wszelkie pełnomocnictwa komukolwiek priez +> niego dane, od daty teyźe gazety za nieważne mieć chce, dziś więc +> potwierdza to, kassuiac i umarzaiąc pełnomocnictw» Ur. Podgurskiemu +> przez siebie uczyni o n e, w P o z n a n i u dnia 3. Mala 1816 r. +> Psirohońshi. Odmienienie mieszkania. Donoszę Szanowney Publiczności, +> iż mieszkanie moie z Dominikjńskiey ulicy przeniosłem na Szeroką +> ulicę do JP. Fi asa pod Nr 114 na pierwszym piętrze, i handel zboża +> nadal prowadzić będę. Poznań dnia 6. Maia 1816. Meyer Marcuse. III +> 111---»-- Do przedania. Kamienica w rynku podNrcra 62, o trzech +> piętrach, wraz z zabudowaniami, w bardzo dobrym znayduiąca się +> stanie, do szynku i przyimowania gości urządzona, iest zwolney ręki +> do przedania. Dokładnieyszą wiadomość powziąść można u właściciela. +> Do przedania. Dom za Świętym Marcinem pod N rem 42. z browarnią, +> staynią, studnią i wielkićm podwórzem, niemniey kilkanaście szachtów +> kamieni, iest na dniu 24m Czerwca r. b. z wolney .ręki do +> sprzedania. Każdy ochotę mający kupna, o kondycyach sprzedaży +> dowiedzieć się mole tu w Voznaniu w rynku pod N rem 57. u S tanisław +> a PoweIskiego. Do przedania. Na mocy w Prześwietnym Sądzie Pokoiti +> Powiatu tuteyszego pomiędzy Szl. Henrykiem Eichbaum, właścicielem +> młyna papierni w MuchodzU 5 A 7 II nie, Powiatu Międzyrzeckiego, a +> Szl. Wilhelmem Ferdynandem Naukę, Kredy torem pryncypalnym z młyna +> wodnego w Muchodzinie, na dniu 29m miesiąca Marca roku bieżąesgo +> itawartey i w ley n.ierze do podpisanego uczynionego wniosku, +> zesunie młyn papiernia, wraz do tego należącemi gruntami, w wsi +> Muchodzinie w Powiecie Międzyrzeckim leżąca, według urzedowey na +> dniu I I Kwietnia roku bieżącego zdziałaney taxy, na summe. 2246 +> Tal. 12 dgr, oszacowana, w drodze lieytacyi public-zney więcey +> daiącemu za gotowa Ziraz zjpłatę, i wypełnieniem kondycyi kupna, +> sprzedana; do którey to sprzedaży termin pierwszy do publikacyi +> kondycyi kupna 1 przedsunowczego przysądzenia, na żądanie +> Iineressentow, na dzieli 12. miesiąca Czerwca roku bieżącego +> w.kascelląryi Urzędnika podpisanego o godzinie iotey przed południem +> wyznaczonym zostaie.- Wzywa się więc ninśeyszem Publiczność kupna +> tego ochotę maiącą, oraz wszelcy Kredyiorowie e x q u o c u n q u e +> jur e d o młyna tego papierni twierdzić prawa sobie mogący, aby w +> terminie wzwyż wyrażonym osobiście lub przez prawnie umocowanych +> Pełnomocników stawilisię; pierwsi swe licyta, drudzy zaś swe realne +> pretensye do protokółu podali, a nay więcey licytuiącemu nie« +> ruchomości powyż wymienioney zprzyległościami przygotowawcze +> przysądzenie nastąpi. Kredytprowie zaś "Z swerni pretensyami do +> nieruchomości tey za prekludowanych, a to sub prejudicio perpetui +> silentii uważani zostaną. Zbiór obiaśnień i kondycyi kupna przeyrzeć +> każdy interessuiący może u podpisanego. Międzyrzecz dnia 20. +> Kwietnia i816\\ Ur ząd P isars t wa Aktowego Powiatu +> Międzyrzeckiego. M. GądkowskL Do przedania. Podaie się do publiczney +> wiadomości, iż podpisany Komornik Sądowy Powiatu Krobskiego, +> zatradowane inwentarze, to iest: konie, woły, krowy, owce i t. d. i +> porządki gospodarskie, Wmu Kamieńskiemu, Possessocpwi dóbr +> Sobiałkowskich, za kaucyą na zabezpieczenie inwentarzy gruntowych, +> do massy konkursowey JOO.XiazatSujftoivsftjcji należących, w wsi +> Sobiałkowie pod Rawiczem + +(Yes, there might be a lot of OCR noise there!) + +The perfect answer for this text is 1816.37021856342 (year with a +fraction representing a specific day, May, 15th, 1816 for this +example). You could as well return non-integer numbers, for instance +if you are sure that the text was published in 1977, but you have no +idea on which day, the optimal decision is to return 1977.5. + +The metric is root mean squared error. + +Directory structure +------------------- + +* `README.md` — this file +* `config.txt` — GEval configuration file +* `train/` — directory with training data +* `train/train.tsv.xz` — train set (compressed with xz, not gzip!) +* `train/meta.tsv.xz` — metadata (do **not** use in training) +* `dev-0/` — directory with dev (test) data from the same sources as the train set +* `dev-0/in.tsv` — input text for the dev set +* `dev-0/expected.tsv` — expected data for the dev set (publication years) +* `dev-0/meta.tsv.xz` — metadata (do **not** use while testing) +* `dev-1/` — directory with dev (test) data from different source than the train set +* `dev-1/in.tsv` — input text for the dev set +* `dev-1/expected.tsv` — expected data for the dev set (publication years) +* `dev-1/meta.tsv.xz` — metadata (do **not** use while testing) +* `test-A` — directory with test data +* `test-A/in.tsv` — input text for the test set +* `test-A/expected.tsv` — expected data for the test set (hidden) +* `test-A/meta.tsv.xz` — hidden metadata + +Structure of data sets +---------------------- + +Dev and tests test sets are balanced for years (or at least it was +attempted to balance them for years — for some years there was not enough material). + +The `dev-0` dataset was created using the same sources as the train set, but +`dev-1` and `test-A` were generated using sources different from +`dev-0` (and different to each other), so `dev-0` is likely to be +easier than `dev-1`. + +Metadata files are given for reference, do not use them for training. + +Format of the train set +----------------------- + +The format of the train set is different from test sets. There is more +information there and you are free to exploit it. + +TAB-separated columns: + +* beginning of the period in which a text is known to be published, given as a year + with a possible fraction (note that various time granularities are given in this + data set — daily, monthly, yearly, etc.), +* end of the period in which a text is known to be published, +* title normalised, +* symbol of the source (usually a Polish digital library). +* ~500-word-long text snippet. + +Format of the test sets +----------------------- + +The input file is just a list of ~500-word-long text snippets, each +given in a separate line. + +The `expected.tsv` file is a list of publication years (with fractions). + +Format of the output files +-------------------------- + +For each input line, publication year should be given (it is the same +as `expected.tsv` files). The name of the output files is `out.tsv`. diff --git a/config.txt b/config.txt new file mode 100644 index 0000000..4bd7dad --- /dev/null +++ b/config.txt @@ -0,0 +1 @@ +--metric RMSE --precision 4