Improved En-Pl Europarl

This commit is contained in:
Jakub 2020-01-28 18:51:11 +01:00
commit 2cb44ca173
21 changed files with 605160 additions and 0 deletions

2
.gitignore vendored Normal file
View File

@ -0,0 +1,2 @@
*~
temp/

40
README.md Normal file
View File

@ -0,0 +1,40 @@
English-Polish Europarl
=======================
Translate Europarl proceedings from English into Polish.
Sources
-------
The data set is based on the [EUROPARL
v7](http://opus.lingfil.uu.se/Europarl.php) corpus prepared by [Jörg
Tiedemann](http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf).
Metric
------
[BLEU](https://en.wikipedia.org/wiki/BLEU) is used as the evaluation
metric.
Directory structure
-------------------
* `README.md` — this file
* `config.txt` — GEval configuration file
* `train/` — directory with training data
* `train/train.tsv` — train set (English-Polish corpus of 550K sentence pairs, the Polish sentence is given in the first column, the English sentence — in the second one)
* `dev-0/` — directory with development data (10K sentence pairs)
* `dev-0/in.tsv` — input data for the dev set (English utterances)
* `dev-0/expected.tsv` — expected (reference) data for the dev set (Polish utterances)
* `test-A` — directory with test data (5K sentence pairs)
* `test-A/in.tsv` — input data for the test set
* `test-A/expected.tsv` — expected data for the test set (not available in the master branch)
The Polish utterances in `{dev-0,test-A}/expected.tsv` are tokenized
(by [Moses](http://www.statmt.org/moses/) tokenizer.perl script), but the English utterances in all the files and Polish utterances in `train/train.tsv` are *NOT* tokenized.
Note that some of the files have `.tsv` extension, even though they
actually do not contain TABs — this is just for the compatibility with
[Gonito](http://gonito.net) platform.

File diff suppressed because one or more lines are too long

11
clean.rb Normal file
View File

@ -0,0 +1,11 @@
regexp = /[ \t]*([^\.\!\?])[ \t]*\n/
while l=gets
l.gsub!(/[ \t]*<[^<>]*>[ \t]*/, "")
l.capitalize!
if regexp.match(l) then l.gsub!(/[ \t]*\n/, " .\n") end
#l.gsub!(/(.+)(\1)+/, '\1') nie poprawia wyniku
puts l
end

1
config.txt Normal file
View File

@ -0,0 +1 @@
--metric BLEU --precision 4

10000
dev-0/expected.tsv Normal file

File diff suppressed because it is too large Load Diff

10000
dev-0/in.tsv Normal file

File diff suppressed because it is too large Load Diff

10000
dev-0/out.tsv Normal file

File diff suppressed because it is too large Load Diff

10000
dev-0/prev_out.tsv Normal file

File diff suppressed because it is too large Load Diff

9
improve.sh Executable file
View File

@ -0,0 +1,9 @@
ruby clean.rb < dev-0/prev_out.tsv > dev-0/out.tsv
ruby clean.rb < test-A/prev_out.tsv > test-A/out.tsv
score=`geval -t dev-0`
echo "$(date -u): ${score}" >> score.txt

9
out_files_denorm.py Normal file
View File

@ -0,0 +1,9 @@
import sys
import re
for line in sys.stdin:
out = line.strip().replace("<EOS>", " ")
out = out.replace("<BLANK>", " ")
out = re.sub(r" ([,:.!?\)])", r"\1", out)
out = re.sub(r"([\(]) ", r"\1", out)
print(out)

5000
test-A/in.tsv Normal file

File diff suppressed because it is too large Load Diff

5000
test-A/out.tsv Normal file

File diff suppressed because it is too large Load Diff

5000
test-A/prev_out.tsv Normal file

File diff suppressed because it is too large Load Diff

11
test/clean.rb Normal file
View File

@ -0,0 +1,11 @@
regexp = /[ \t]*([^\.\!\?])[ \t]*\n/
while l=gets
l.gsub!(/[ \t]*<[^<>]*>[ \t]*/, "")
l.capitalize!
if regexp.match(l) then l.gsub!(/[ \t]*\n/, " .\n") end
l.gsub!(/(.+)(\1)+/, '\1')
puts l
end

17
test/out.txt Normal file
View File

@ -0,0 +1,17 @@
Kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością wysokości dodatkowych kosztów .
Tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe .
To nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody .
Chciałbym także , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła .
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwesti .
Poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć .
Dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania .
Systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie .
Sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji wyniku regulujących działalność 75% do 75% okresu odpoczynku .
Panie przewodniczący , panie komisarzu , panie i panowie !
Panie przewodniczący , panie komisarzu , panie i panowie ?
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , .
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech .
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów uni europejskiej i oczekuje jeden z największych .
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i mam tu i .
W grę wchodzą wielkie przykłady , w moim kraju , w portugali , w meksyku , w meksyku , .
Dlatego mówimy tę kwestię jest obrona praw społecznych .

17
test/out2.txt Normal file
View File

@ -0,0 +1,17 @@
Kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością wysokości dodatkowych kosztów .
Tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe .
To nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody .
Chciałbym także , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła .
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwesti .
Poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć .
Dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania .
Systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie .
Sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji wyniku regulujących działalność 75% do 75% okresu odpoczynku .
Panie przewodniczący , panie komisarzu , panie i panowie !
Panie przewodniczący , panie komisarzu , panie i panowie ?
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , .
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech .
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów uni europejskiej i oczekuje jeden z największych .
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i .
W grę wchodzą wielkie przykłady , w moim kraju , w portugali , w meksyku , .
Dlatego mówimy tę kwestię jest obrona praw społecznych .

17
test/text Normal file
View File

@ -0,0 +1,17 @@
kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością w wysokości dodatkowych kosztów . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
to nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody <EOS> <BLANK>
chciałbym także , aby zapewnić , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwestii
poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji w wyniku regulujących działalność 75% do 75% okresu odpoczynku . <EOS>
Panie przewodniczący , panie komisarzu , panie i panowie !
Panie przewodniczący , panie komisarzu , panie i panowie ?
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , .
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech lat w ostatniej czterech .
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów unii europejskiej i oczekuje jeden z największych .
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i mam tu i mam tu i mam tu i .
W grę wchodzą wielkie przykłady , w moim kraju , w portugalii , w meksyku , w meksyku , w meksyku , w meksyku , .
Dlatego mówimy tę kwestię jest obrona praw społecznych .

550000
train/train.tsv Normal file

File diff suppressed because it is too large Load Diff

BIN
train/train.tsv.gz Normal file

Binary file not shown.

25
train_set_prune.py Normal file
View File

@ -0,0 +1,25 @@
from polyglot.detect import Detector
from polyglot.detect.base import UnknownLanguage
import sys
import warnings
warnings.filterwarnings("ignore")
counter = 0
langauges = ['Polish']
for line in sys.stdin:
pl, _ = line.split('\t')
d = Detector(pl, quiet=True)
lan = d.language.code
if not d.reliable:
continue
if lan != 'pl':
name = d.language.name
if name not in langauges:
langauges.append(name)
counter += 1
else:
with open("./train/clear-train.tsv", 'a') as f:
f.write(line)
print(counter, langauges, len(langauges))