Improved En-Pl Europarl
This commit is contained in:
commit
2cb44ca173
2
.gitignore
vendored
Normal file
2
.gitignore
vendored
Normal file
@ -0,0 +1,2 @@
|
||||
*~
|
||||
temp/
|
40
README.md
Normal file
40
README.md
Normal file
@ -0,0 +1,40 @@
|
||||
|
||||
English-Polish Europarl
|
||||
=======================
|
||||
|
||||
Translate Europarl proceedings from English into Polish.
|
||||
|
||||
Sources
|
||||
-------
|
||||
|
||||
The data set is based on the [EUROPARL
|
||||
v7](http://opus.lingfil.uu.se/Europarl.php) corpus prepared by [Jörg
|
||||
Tiedemann](http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf).
|
||||
|
||||
Metric
|
||||
------
|
||||
|
||||
[BLEU](https://en.wikipedia.org/wiki/BLEU) is used as the evaluation
|
||||
metric.
|
||||
|
||||
|
||||
Directory structure
|
||||
-------------------
|
||||
|
||||
* `README.md` — this file
|
||||
* `config.txt` — GEval configuration file
|
||||
* `train/` — directory with training data
|
||||
* `train/train.tsv` — train set (English-Polish corpus of 550K sentence pairs, the Polish sentence is given in the first column, the English sentence — in the second one)
|
||||
* `dev-0/` — directory with development data (10K sentence pairs)
|
||||
* `dev-0/in.tsv` — input data for the dev set (English utterances)
|
||||
* `dev-0/expected.tsv` — expected (reference) data for the dev set (Polish utterances)
|
||||
* `test-A` — directory with test data (5K sentence pairs)
|
||||
* `test-A/in.tsv` — input data for the test set
|
||||
* `test-A/expected.tsv` — expected data for the test set (not available in the master branch)
|
||||
|
||||
The Polish utterances in `{dev-0,test-A}/expected.tsv` are tokenized
|
||||
(by [Moses](http://www.statmt.org/moses/) tokenizer.perl script), but the English utterances in all the files and Polish utterances in `train/train.tsv` are *NOT* tokenized.
|
||||
|
||||
Note that some of the files have `.tsv` extension, even though they
|
||||
actually do not contain TABs — this is just for the compatibility with
|
||||
[Gonito](http://gonito.net) platform.
|
1
TAU_translator_from_scratch.ipynb
Normal file
1
TAU_translator_from_scratch.ipynb
Normal file
File diff suppressed because one or more lines are too long
11
clean.rb
Normal file
11
clean.rb
Normal file
@ -0,0 +1,11 @@
|
||||
|
||||
regexp = /[ \t]*([^\.\!\?])[ \t]*\n/
|
||||
while l=gets
|
||||
l.gsub!(/[ \t]*<[^<>]*>[ \t]*/, "")
|
||||
l.capitalize!
|
||||
if regexp.match(l) then l.gsub!(/[ \t]*\n/, " .\n") end
|
||||
#l.gsub!(/(.+)(\1)+/, '\1') nie poprawia wyniku
|
||||
puts l
|
||||
|
||||
|
||||
end
|
1
config.txt
Normal file
1
config.txt
Normal file
@ -0,0 +1 @@
|
||||
--metric BLEU --precision 4
|
10000
dev-0/expected.tsv
Normal file
10000
dev-0/expected.tsv
Normal file
File diff suppressed because it is too large
Load Diff
10000
dev-0/in.tsv
Normal file
10000
dev-0/in.tsv
Normal file
File diff suppressed because it is too large
Load Diff
10000
dev-0/out.tsv
Normal file
10000
dev-0/out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
10000
dev-0/prev_out.tsv
Normal file
10000
dev-0/prev_out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
9
improve.sh
Executable file
9
improve.sh
Executable file
@ -0,0 +1,9 @@
|
||||
|
||||
|
||||
ruby clean.rb < dev-0/prev_out.tsv > dev-0/out.tsv
|
||||
|
||||
ruby clean.rb < test-A/prev_out.tsv > test-A/out.tsv
|
||||
|
||||
|
||||
score=`geval -t dev-0`
|
||||
echo "$(date -u): ${score}" >> score.txt
|
9
out_files_denorm.py
Normal file
9
out_files_denorm.py
Normal file
@ -0,0 +1,9 @@
|
||||
import sys
|
||||
import re
|
||||
|
||||
for line in sys.stdin:
|
||||
out = line.strip().replace("<EOS>", " ")
|
||||
out = out.replace("<BLANK>", " ")
|
||||
out = re.sub(r" ([,:.!?\)])", r"\1", out)
|
||||
out = re.sub(r"([\(]) ", r"\1", out)
|
||||
print(out)
|
5000
test-A/in.tsv
Normal file
5000
test-A/in.tsv
Normal file
File diff suppressed because it is too large
Load Diff
5000
test-A/out.tsv
Normal file
5000
test-A/out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
5000
test-A/prev_out.tsv
Normal file
5000
test-A/prev_out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
11
test/clean.rb
Normal file
11
test/clean.rb
Normal file
@ -0,0 +1,11 @@
|
||||
|
||||
regexp = /[ \t]*([^\.\!\?])[ \t]*\n/
|
||||
while l=gets
|
||||
l.gsub!(/[ \t]*<[^<>]*>[ \t]*/, "")
|
||||
l.capitalize!
|
||||
if regexp.match(l) then l.gsub!(/[ \t]*\n/, " .\n") end
|
||||
l.gsub!(/(.+)(\1)+/, '\1')
|
||||
puts l
|
||||
|
||||
|
||||
end
|
17
test/out.txt
Normal file
17
test/out.txt
Normal file
@ -0,0 +1,17 @@
|
||||
Kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością wysokości dodatkowych kosztów .
|
||||
Tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe .
|
||||
To nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody .
|
||||
Chciałbym także , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła .
|
||||
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwesti .
|
||||
Poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć .
|
||||
Dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania .
|
||||
Systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie .
|
||||
Sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji wyniku regulujących działalność 75% do 75% okresu odpoczynku .
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie !
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ?
|
||||
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , .
|
||||
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech .
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów uni europejskiej i oczekuje jeden z największych .
|
||||
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i mam tu i .
|
||||
W grę wchodzą wielkie przykłady , w moim kraju , w portugali , w meksyku , w meksyku , .
|
||||
Dlatego mówimy tę kwestię jest obrona praw społecznych .
|
17
test/out2.txt
Normal file
17
test/out2.txt
Normal file
@ -0,0 +1,17 @@
|
||||
Kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością wysokości dodatkowych kosztów .
|
||||
Tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe .
|
||||
To nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody .
|
||||
Chciałbym także , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła .
|
||||
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwesti .
|
||||
Poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć .
|
||||
Dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania .
|
||||
Systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie .
|
||||
Sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji wyniku regulujących działalność 75% do 75% okresu odpoczynku .
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie !
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ?
|
||||
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , .
|
||||
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech .
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów uni europejskiej i oczekuje jeden z największych .
|
||||
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i .
|
||||
W grę wchodzą wielkie przykłady , w moim kraju , w portugali , w meksyku , .
|
||||
Dlatego mówimy tę kwestię jest obrona praw społecznych .
|
17
test/text
Normal file
17
test/text
Normal file
@ -0,0 +1,17 @@
|
||||
kiedy zostanie ustanowiony 4 tysiące ton rocznie to jedno z całą pewnością w wysokości dodatkowych kosztów . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
|
||||
tendencja do tego , aby zaradzić w sprawie niektórych unijnych programów na unię europejską nie są szkodliwe . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
|
||||
to nie dla nas dobrym sposobem na podstawie polityki rybołówstwa , czy w naszej własnej , czy jesteśmy w naszej wodach lub wody <EOS> <BLANK>
|
||||
chciałbym także , aby zapewnić , aby zapewnić , aby pieniądze ue pogrążyła się państwa trzecie ue w krajach trzecich , że pieniądze ue pogrążyła
|
||||
( de ) panie przewodniczący , pani komisarz , panie i panowie ! cieszę się , że parlament wreszcie zagłosują w tej sprawie trzeciej kwestii
|
||||
poprawka do rozporządzenia rady w sprawie środków finansowych w społeczności we wspólnocie , której musimy wdrożyć . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
|
||||
dotyczy to w szczególności sektora rybołówstwa stosunków , czyli o badania i badania . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
|
||||
systemy kontroli nad wspólną polityką rybołówstwa oraz ich wdrażanie . <EOS> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK> <BLANK>
|
||||
sprawozdawca przedstawił wysiłek w celu ochrony jego pochodzeniu wspomniał o konieczności znacznego ograniczenia emisji w wyniku regulujących działalność 75% do 75% okresu odpoczynku . <EOS>
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie !
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ?
|
||||
Chciałbym podziękować kontrsprawozdawcom , sprawozdawczyniom pomocniczym , produktach , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , wyjaśnienia , .
|
||||
Szczególnie dziękuję panu posłowi harbourowi za hojne uznanie , że kieruje się w pracy w ostatniej czterech lat w ostatniej czterech lat w ostatniej czterech .
|
||||
Panie przewodniczący , panie komisarzu , panie i panowie ! rynek wewnętrzny jest niewątpliwie jednym z największych sukcesów unii europejskiej i oczekuje jeden z największych .
|
||||
Panie i panowie ! uważam , że podsumuję - i ja tu i mam tu i mam tu i mam tu i mam tu i .
|
||||
W grę wchodzą wielkie przykłady , w moim kraju , w portugalii , w meksyku , w meksyku , w meksyku , w meksyku , .
|
||||
Dlatego mówimy tę kwestię jest obrona praw społecznych .
|
550000
train/train.tsv
Normal file
550000
train/train.tsv
Normal file
File diff suppressed because it is too large
Load Diff
BIN
train/train.tsv.gz
Normal file
BIN
train/train.tsv.gz
Normal file
Binary file not shown.
25
train_set_prune.py
Normal file
25
train_set_prune.py
Normal file
@ -0,0 +1,25 @@
|
||||
from polyglot.detect import Detector
|
||||
from polyglot.detect.base import UnknownLanguage
|
||||
import sys
|
||||
import warnings
|
||||
|
||||
|
||||
warnings.filterwarnings("ignore")
|
||||
counter = 0
|
||||
langauges = ['Polish']
|
||||
for line in sys.stdin:
|
||||
pl, _ = line.split('\t')
|
||||
d = Detector(pl, quiet=True)
|
||||
lan = d.language.code
|
||||
if not d.reliable:
|
||||
continue
|
||||
|
||||
if lan != 'pl':
|
||||
name = d.language.name
|
||||
if name not in langauges:
|
||||
langauges.append(name)
|
||||
counter += 1
|
||||
else:
|
||||
with open("./train/clear-train.tsv", 'a') as f:
|
||||
f.write(line)
|
||||
print(counter, langauges, len(langauges))
|
Loading…
Reference in New Issue
Block a user