redesign
This commit is contained in:
parent
b95e4bde17
commit
7dda4c480a
17
Dockerfile
17
Dockerfile
@ -1,17 +0,0 @@
|
||||
FROM ubuntu:16.04
|
||||
|
||||
|
||||
# Set the locale
|
||||
RUN apt-get update && apt-get install -y locales
|
||||
RUN sed -i -e 's/# pl_PL.UTF-8 UTF-8/pl_PL.UTF-8 UTF-8/' /etc/locale.gen && locale-gen
|
||||
ENV LANG pl_PL.UTF-8
|
||||
ENV LANGUAGE pl_PL:pl
|
||||
ENV LC_ALL pl_PL.UTF-8
|
||||
|
||||
RUN apt-get install -y git cmake g++
|
||||
RUN git clone https://git.wmi.amu.edu.pl/rjawor/concordia-server.git
|
||||
RUN git clone https://github.com/clab/fast_align
|
||||
RUN cd fast_align && mkdir build && cd build && cmake .. && make && cp fast_align ../../concordia-server/fast-aligner
|
||||
|
||||
|
||||
CMD cd concordia-server/fast-aligner/ && make SRC_LANG=pl TRG_LANG=en CORPUS_NAME=opensubtitles_sample
|
46
Makefile
Normal file
46
Makefile
Normal file
@ -0,0 +1,46 @@
|
||||
SRC_LANG=pl
|
||||
TRG_LANG=en
|
||||
CORPUS_NAME=opensubtitles_sample
|
||||
SEPARATOR=@\#@
|
||||
|
||||
DICTIONARY_WEIGHT=3
|
||||
|
||||
all: corpora/$(CORPUS_NAME)/alignments.txt corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/src_clean.lem corpora/$(CORPUS_NAME)/trg_clean.txt
|
||||
|
||||
|
||||
clean:
|
||||
rm -f corpora/$(CORPUS_NAME)/*.norm
|
||||
rm -f corpora/$(CORPUS_NAME)/*.lem
|
||||
rm -f corpora/$(CORPUS_NAME)/*.dict
|
||||
rm -f corpora/$(CORPUS_NAME)/src_clean.txt
|
||||
rm -f corpora/$(CORPUS_NAME)/src_clean.lem
|
||||
rm -f corpora/$(CORPUS_NAME)/trg_clean.txt
|
||||
rm -f corpora/$(CORPUS_NAME)/ids_clean.txt
|
||||
rm -f corpora/$(CORPUS_NAME)/falign_corpus.txt
|
||||
rm -f corpora/$(CORPUS_NAME)/falign_result.txt
|
||||
rm -f corpora/$(CORPUS_NAME)/alignments.txt
|
||||
|
||||
|
||||
corpora/$(CORPUS_NAME)/alignments.txt: corpora/$(CORPUS_NAME)/falign_result.txt corpora/$(CORPUS_NAME)/src_clean.lem
|
||||
./get_alignments.py corpora/$(CORPUS_NAME)/falign_result.txt corpora/$(CORPUS_NAME)/src_clean.lem > $@
|
||||
|
||||
corpora/$(CORPUS_NAME)/src.dict:
|
||||
./collect_dict.py $(SRC_LANG) $(TRG_LANG) $(DICTIONARY_WEIGHT) > $@
|
||||
|
||||
corpora/$(CORPUS_NAME)/trg.dict:
|
||||
./collect_dict.py $(TRG_LANG) $(SRC_LANG) $(DICTIONARY_WEIGHT) > $@
|
||||
|
||||
|
||||
corpora/$(CORPUS_NAME)/src.norm corpora/$(CORPUS_NAME)/src.lem: corpora/$(CORPUS_NAME)/src.txt
|
||||
./sentence_lemmatizer.py $< $(SRC_LANG) corpora/$(CORPUS_NAME)/src.norm corpora/$(CORPUS_NAME)/src.lem
|
||||
|
||||
corpora/$(CORPUS_NAME)/trg.norm corpora/$(CORPUS_NAME)/trg.lem: corpora/$(CORPUS_NAME)/trg.txt
|
||||
./sentence_lemmatizer.py $< $(TRG_LANG) corpora/$(CORPUS_NAME)/trg.norm corpora/$(CORPUS_NAME)/trg.lem
|
||||
|
||||
|
||||
corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/src_clean.lem corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/ids_clean.txt corpora/$(CORPUS_NAME)/falign_corpus.txt: corpora/$(CORPUS_NAME)/src.txt corpora/$(CORPUS_NAME)/trg.txt corpora/$(CORPUS_NAME)/ids.txt corpora/$(CORPUS_NAME)/src.lem corpora/$(CORPUS_NAME)/trg.lem corpora/$(CORPUS_NAME)/src.dict corpora/$(CORPUS_NAME)/trg.dict
|
||||
./prepare_corpus.py corpora/$(CORPUS_NAME)/src.norm corpora/$(CORPUS_NAME)/trg.norm corpora/$(CORPUS_NAME)/ids.txt corpora/$(CORPUS_NAME)/src.lem corpora/$(CORPUS_NAME)/trg.lem corpora/$(CORPUS_NAME)/src.dict corpora/$(CORPUS_NAME)/trg.dict corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/src_clean.lem corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/ids_clean.txt corpora/$(CORPUS_NAME)/falign_corpus.txt $(SRC_LANG) $(TRG_LANG)
|
||||
|
||||
|
||||
corpora/$(CORPUS_NAME)/falign_result.txt: corpora/$(CORPUS_NAME)/falign_corpus.txt
|
||||
./fast_align -i $< -d -o -v > $@
|
@ -1,3 +0,0 @@
|
||||
#!/bin/sh
|
||||
|
||||
docker run -it --rm --mount src="$(pwd)"/corpora,target=/concordia-server/fast-aligner/corpora,type=bind concordia-aligner:Dockerfile
|
3
bad-words/parts.en
Normal file
3
bad-words/parts.en
Normal file
@ -0,0 +1,3 @@
|
||||
fuck
|
||||
shit
|
||||
nigga
|
4
bad-words/parts.pl
Normal file
4
bad-words/parts.pl
Normal file
@ -0,0 +1,4 @@
|
||||
pierdol
|
||||
pierdal
|
||||
kurw
|
||||
ścierw
|
70
bad-words/whole.en
Normal file
70
bad-words/whole.en
Normal file
@ -0,0 +1,70 @@
|
||||
arse
|
||||
ass
|
||||
asshole
|
||||
assholes
|
||||
ballsack
|
||||
bastard
|
||||
biatch
|
||||
bitch
|
||||
bitchcraft
|
||||
bitchen
|
||||
bitchy
|
||||
blowjob
|
||||
bollock
|
||||
bollok
|
||||
boner
|
||||
boob
|
||||
bugger
|
||||
buttplug
|
||||
cock
|
||||
coon
|
||||
crap
|
||||
cunt
|
||||
damn
|
||||
dicker
|
||||
dickerin
|
||||
dickhead
|
||||
dickheads
|
||||
dickweed
|
||||
dickweeds
|
||||
dildo
|
||||
dyke
|
||||
fag
|
||||
feck
|
||||
felch
|
||||
felching
|
||||
fellate
|
||||
fellatio
|
||||
flange
|
||||
fuck
|
||||
fudgepacker
|
||||
Goddamn
|
||||
Horsedick
|
||||
jizz
|
||||
knobend
|
||||
muff
|
||||
needledick
|
||||
nigga
|
||||
niggas
|
||||
nigger
|
||||
penis
|
||||
piss
|
||||
prick
|
||||
pussy
|
||||
queer
|
||||
scrotum
|
||||
sh1t
|
||||
shit
|
||||
slut
|
||||
sluttish
|
||||
slutty
|
||||
spunk
|
||||
tosser
|
||||
turd
|
||||
twat
|
||||
vagina
|
||||
wank
|
||||
wanker
|
||||
whore
|
||||
whorehouse
|
||||
whoremonger
|
747
bad-words/whole.pl
Normal file
747
bad-words/whole.pl
Normal file
@ -0,0 +1,747 @@
|
||||
chiwać
|
||||
chuj
|
||||
chuja
|
||||
chujek
|
||||
chujem
|
||||
chujnia
|
||||
chujowa
|
||||
chujowe
|
||||
chujowy
|
||||
chuju
|
||||
cip
|
||||
cipa
|
||||
cipą
|
||||
cipe
|
||||
cipę
|
||||
cipie
|
||||
cipy
|
||||
dojeba
|
||||
dojebac
|
||||
dojebać
|
||||
dojebaca
|
||||
dojebal
|
||||
dojebał
|
||||
dojebala
|
||||
dojebała
|
||||
dojebalać
|
||||
dojebalam
|
||||
dojebałam
|
||||
dojebalem
|
||||
dojebałem
|
||||
dojebić
|
||||
dojebie
|
||||
dojebię
|
||||
dopieprzac
|
||||
dopieprzać
|
||||
dopierdal
|
||||
dopierdala
|
||||
dopierdalac
|
||||
dopierdalać
|
||||
dopierdalajacy
|
||||
dopierdalający
|
||||
dopierdalajaki
|
||||
dopierdalal
|
||||
dopierdalał
|
||||
dopierdalala
|
||||
dopierdalała
|
||||
dopierdol
|
||||
dopierdola
|
||||
dopierdole
|
||||
dopierdolę
|
||||
dopierdoli
|
||||
dopierdolic
|
||||
dopierdolić
|
||||
dopierdolica
|
||||
dopierdolil
|
||||
dopierdolił
|
||||
dup
|
||||
dupa
|
||||
dupą
|
||||
dupcia
|
||||
dupe
|
||||
dupeć
|
||||
dupeczka
|
||||
dupie
|
||||
dupy
|
||||
eba
|
||||
ebać
|
||||
ebaca
|
||||
ebal
|
||||
ebiać
|
||||
ebić
|
||||
hiwać
|
||||
huj
|
||||
huja
|
||||
huje
|
||||
hujek
|
||||
hujem
|
||||
hujnia
|
||||
huju
|
||||
jeba
|
||||
jebac
|
||||
jebać
|
||||
jebaca
|
||||
jebak
|
||||
jebaka
|
||||
jebal
|
||||
jebał
|
||||
jebana
|
||||
jebaną
|
||||
jebane
|
||||
jebanej
|
||||
jebani
|
||||
jebank
|
||||
jebanka
|
||||
jebankiem
|
||||
jebanko
|
||||
jebany
|
||||
jebanych
|
||||
jebanym
|
||||
jebanymi
|
||||
jebcia
|
||||
jebcie
|
||||
jebia
|
||||
jebią
|
||||
jebiać
|
||||
jebiaca
|
||||
jebiąca
|
||||
jebiacać
|
||||
jebiacego
|
||||
jebiącego
|
||||
jebiacej
|
||||
jebiącej
|
||||
jebiacy
|
||||
jebiący
|
||||
jebiak
|
||||
jebić
|
||||
jebie
|
||||
jebię
|
||||
jebliwy
|
||||
jebna
|
||||
jebną
|
||||
jebnac
|
||||
jebnąc
|
||||
jebnać
|
||||
jebnąć
|
||||
jebnal
|
||||
jebnął
|
||||
jebnel
|
||||
jebnela
|
||||
jebnęła
|
||||
jebnie
|
||||
jebnij
|
||||
jebny
|
||||
jebut
|
||||
koorwa
|
||||
koorwać
|
||||
kórwa
|
||||
kórwać
|
||||
kurestwo
|
||||
kurew
|
||||
kurewska
|
||||
kurewską
|
||||
kurewski
|
||||
kurewskiej
|
||||
kurewsko
|
||||
kurewstwo
|
||||
kurwa
|
||||
kurwą
|
||||
kurwaa
|
||||
kurwać
|
||||
kurwach
|
||||
kurwae
|
||||
kurwami
|
||||
kurwe
|
||||
kurwę
|
||||
kurwiący
|
||||
kurwiarz
|
||||
kurwic
|
||||
kurwić
|
||||
kurwica
|
||||
kurwice
|
||||
kurwidołek
|
||||
kurwie
|
||||
kurwik
|
||||
kurwiki
|
||||
kurwisić
|
||||
kurwiska
|
||||
kurwisko
|
||||
kurwiszcz
|
||||
kurwiszcze
|
||||
kurwiszon
|
||||
kurwiszona
|
||||
kurwiszonem
|
||||
kurwiszony
|
||||
kurwo
|
||||
kurwy
|
||||
kutas
|
||||
kutasa
|
||||
kutasach
|
||||
kutasami
|
||||
kutasem
|
||||
kutasie
|
||||
kutasow
|
||||
kutasów
|
||||
kutasy
|
||||
matkojebca
|
||||
matkojebcą
|
||||
matkojebcach
|
||||
matkojebcami
|
||||
matkojebcy
|
||||
matkojebiec
|
||||
nabarłożyć
|
||||
najebac
|
||||
najebać
|
||||
najebal
|
||||
najebał
|
||||
najebala
|
||||
najebała
|
||||
najebana
|
||||
najebaną
|
||||
najebane
|
||||
najebany
|
||||
najebia
|
||||
najebią
|
||||
najebie
|
||||
naopierdalac
|
||||
naopierdalać
|
||||
naopierdalal
|
||||
naopierdalał
|
||||
naopierdalala
|
||||
naopierdalała
|
||||
napierdalac
|
||||
napierdalać
|
||||
napierdalajacy
|
||||
napierdalający
|
||||
napierdalajaki
|
||||
napierdolic
|
||||
napierdolić
|
||||
napierdolica
|
||||
nawpierdalac
|
||||
nawpierdalać
|
||||
nawpierdalal
|
||||
nawpierdalał
|
||||
nawpierdalala
|
||||
nawpierdalała
|
||||
obsrywac
|
||||
obsrywać
|
||||
obsrywajacy
|
||||
obsrywający
|
||||
obsrywajaki
|
||||
odpieprz
|
||||
odpieprzac
|
||||
odpieprzać
|
||||
odpieprzy
|
||||
odpieprzyć
|
||||
odpieprzyl
|
||||
odpieprzył
|
||||
odpieprzyla
|
||||
odpieprzyła
|
||||
odpierdalac
|
||||
odpierdalać
|
||||
odpierdalajaca
|
||||
odpierdalająca
|
||||
odpierdalajacać
|
||||
odpierdalajacy
|
||||
odpierdalający
|
||||
odpierdalajaki
|
||||
odpierdol
|
||||
odpierdoli
|
||||
odpierdolic
|
||||
odpierdolić
|
||||
odpierdolica
|
||||
odpierdolil
|
||||
odpierdolił
|
||||
odpierdolila
|
||||
odpierdoliła
|
||||
opieprzać
|
||||
opieprzający
|
||||
opierdal
|
||||
opierdala
|
||||
opierdalac
|
||||
opierdalać
|
||||
opierdalajacy
|
||||
opierdalający
|
||||
opierdalajaki
|
||||
opierdol
|
||||
opierdola
|
||||
opierdolą
|
||||
opierdoli
|
||||
opierdolic
|
||||
opierdolić
|
||||
opierdolica
|
||||
piczka
|
||||
pieprznąć
|
||||
pieprznieta
|
||||
pieprzniety
|
||||
pieprznięty
|
||||
pieprzony
|
||||
pieprzyć
|
||||
pierdel
|
||||
pierdlu
|
||||
pierdol
|
||||
pierdola
|
||||
pierdolą
|
||||
pierdolaca
|
||||
pierdoląca
|
||||
pierdolacać
|
||||
pierdolacy
|
||||
pierdolący
|
||||
pierdolak
|
||||
pierdole
|
||||
pierdolę
|
||||
pierdolec
|
||||
pierdołek
|
||||
pierdolenie
|
||||
pierdoleniem
|
||||
pierdoleniu
|
||||
pierdoli
|
||||
pierdolic
|
||||
pierdolić
|
||||
pierdolica
|
||||
pierdolicie
|
||||
pierdolil
|
||||
pierdolił
|
||||
pierdolila
|
||||
pierdoliła
|
||||
pierdolisz
|
||||
pierdołki
|
||||
pierdolnac
|
||||
pierdolnąć
|
||||
pierdolnal
|
||||
pierdolnął
|
||||
pierdolnel
|
||||
pierdolnela
|
||||
pierdolnęła
|
||||
pierdolnić
|
||||
pierdolnie
|
||||
pierdolnieta
|
||||
pierdolniety
|
||||
pierdolnięty
|
||||
pierdolnij
|
||||
pierdolnik
|
||||
pierdolona
|
||||
pierdolone
|
||||
pierdolony
|
||||
pierdzący
|
||||
pierdzić
|
||||
pierdziec
|
||||
pierdzieć
|
||||
pizd
|
||||
pizda
|
||||
pizdą
|
||||
pizde
|
||||
pizdę
|
||||
pizdnac
|
||||
pizdnąć
|
||||
pizdu
|
||||
pizdy
|
||||
pizdzie
|
||||
piździe
|
||||
podpierdal
|
||||
podpierdala
|
||||
podpierdalac
|
||||
podpierdalać
|
||||
podpierdalajacy
|
||||
podpierdalający
|
||||
podpierdalajaki
|
||||
podpierdol
|
||||
podpierdoli
|
||||
podpierdolic
|
||||
podpierdolić
|
||||
podpierdolica
|
||||
pojeb
|
||||
pojeba
|
||||
pojebac
|
||||
pojebać
|
||||
pojebaca
|
||||
pojebala
|
||||
pojebalo
|
||||
pojebami
|
||||
pojebanego
|
||||
pojebanemu
|
||||
pojebani
|
||||
pojebany
|
||||
pojebanych
|
||||
pojebanym
|
||||
pojebanymi
|
||||
pojebem
|
||||
popierdal
|
||||
popierdala
|
||||
popierdalac
|
||||
popierdalać
|
||||
popierdol
|
||||
popierdoleni
|
||||
popierdoli
|
||||
popierdolic
|
||||
popierdolić
|
||||
popierdolica
|
||||
popierdolone
|
||||
popierdolonego
|
||||
popierdolonemu
|
||||
popierdolony
|
||||
popierdolonym
|
||||
porozpierdal
|
||||
porozpierdala
|
||||
porozpierdalac
|
||||
porozpierdalać
|
||||
poruchac
|
||||
poruchać
|
||||
przejebac
|
||||
przejebać
|
||||
przejebaca
|
||||
przejebane
|
||||
przepierdal
|
||||
przepierdala
|
||||
przepierdalac
|
||||
przepierdalać
|
||||
przepierdalajaca
|
||||
przepierdalająca
|
||||
przepierdalajacać
|
||||
przepierdalajacy
|
||||
przepierdalający
|
||||
przepierdalajaki
|
||||
przepierdolic
|
||||
przepierdolić
|
||||
przepierdolica
|
||||
przyjeba
|
||||
przyjebac
|
||||
przyjebać
|
||||
przyjebaca
|
||||
przyjebal
|
||||
przyjebał
|
||||
przyjebala
|
||||
przyjebała
|
||||
przyjebali
|
||||
przyjebie
|
||||
przypieprzac
|
||||
przypieprzać
|
||||
przypieprzajaca
|
||||
przypieprzająca
|
||||
przypieprzajacać
|
||||
przypieprzajacy
|
||||
przypieprzający
|
||||
przypieprzajaki
|
||||
przypierdal
|
||||
przypierdala
|
||||
przypierdalac
|
||||
przypierdalać
|
||||
przypierdalajacy
|
||||
przypierdalający
|
||||
przypierdalajaki
|
||||
przypierdol
|
||||
przypierdoli
|
||||
przypierdolic
|
||||
przypierdolić
|
||||
przypierdolica
|
||||
qrwa
|
||||
qrwać
|
||||
rozjeba
|
||||
rozjebac
|
||||
rozjebać
|
||||
rozjebaca
|
||||
rozjebała
|
||||
rozjebią
|
||||
rozjebić
|
||||
rozjebie
|
||||
rozpierdal
|
||||
rozpierdala
|
||||
rozpierdalac
|
||||
rozpierdalać
|
||||
rozpierdol
|
||||
rozpierdole
|
||||
rozpierdoli
|
||||
rozpierdolic
|
||||
rozpierdolić
|
||||
rozpierdolica
|
||||
rozpierduch
|
||||
rozpierducha
|
||||
skurwić
|
||||
skurwiel
|
||||
skurwiela
|
||||
skurwielać
|
||||
skurwiele
|
||||
skurwielem
|
||||
skurwielu
|
||||
skurwysyn
|
||||
skurwysyna
|
||||
skurwysynem
|
||||
skurwysyno
|
||||
skurwysynow
|
||||
skurwysynów
|
||||
skurwysynski
|
||||
skurwysyński
|
||||
skurwysynstwo
|
||||
skurwysyństwo
|
||||
skurwysynu
|
||||
skurwysyny
|
||||
śmierdziel
|
||||
śmierdzielić
|
||||
spieprz
|
||||
spieprza
|
||||
spieprzac
|
||||
spieprzać
|
||||
spieprzaj
|
||||
spieprzaja
|
||||
spieprzają
|
||||
spieprzajaca
|
||||
spieprzająca
|
||||
spieprzajacać
|
||||
spieprzajacy
|
||||
spieprzający
|
||||
spieprzajaki
|
||||
spieprzajcie
|
||||
spierdal
|
||||
spierdala
|
||||
spierdalac
|
||||
spierdalać
|
||||
spierdalajacy
|
||||
spierdalający
|
||||
spierdalajaki
|
||||
spierdalal
|
||||
spierdalał
|
||||
spierdalala
|
||||
spierdalała
|
||||
spierdalalcie
|
||||
spierdalalić
|
||||
spierdol
|
||||
spierdola
|
||||
spierdolą
|
||||
spierdoli
|
||||
spierdolic
|
||||
spierdolić
|
||||
spierdolica
|
||||
spierdoliła
|
||||
spierdoliło
|
||||
srac
|
||||
srać
|
||||
sraca
|
||||
sraj
|
||||
srajac
|
||||
srając
|
||||
srajacy
|
||||
srający
|
||||
srajaki
|
||||
sukinsyn
|
||||
sukinsyno
|
||||
sukinsynom
|
||||
sukinsynow
|
||||
sukinsynów
|
||||
sukinsynowi
|
||||
sukinsyny
|
||||
udupić
|
||||
ujeba
|
||||
ujebac
|
||||
ujebać
|
||||
ujebaca
|
||||
ujebal
|
||||
ujebał
|
||||
ujebala
|
||||
ujebała
|
||||
ujebana
|
||||
ujebany
|
||||
ujebie
|
||||
upierdal
|
||||
upierdala
|
||||
upierdalac
|
||||
upierdalać
|
||||
upierdol
|
||||
upierdola
|
||||
upierdolą
|
||||
upierdoleni
|
||||
upierdoli
|
||||
upierdolic
|
||||
upierdolić
|
||||
upierdolica
|
||||
wjeba
|
||||
wjebac
|
||||
wjebać
|
||||
wjebąć
|
||||
wjebaca
|
||||
wjebia
|
||||
wjebią
|
||||
wjebiać
|
||||
wjebić
|
||||
wjebie
|
||||
wjebiecie
|
||||
wjebiemy
|
||||
wjebieta
|
||||
wkurew
|
||||
wkurwi
|
||||
wkurwia
|
||||
wkurwią
|
||||
wkurwiac
|
||||
wkurwiać
|
||||
wkurwiacie
|
||||
wkurwiają
|
||||
wkurwiajaca
|
||||
wkurwiająca
|
||||
wkurwiajacać
|
||||
wkurwiajacy
|
||||
wkurwiający
|
||||
wkurwiajaki
|
||||
wkurwial
|
||||
wkurwiał
|
||||
wkurwiali
|
||||
wkurwic
|
||||
wkurwić
|
||||
wkurwice
|
||||
wkurwicie
|
||||
wkurwimy
|
||||
wpierdalac
|
||||
wpierdalać
|
||||
wpierdalajacy
|
||||
wpierdalający
|
||||
wpierdalajaki
|
||||
wpierdol
|
||||
wpierdolic
|
||||
wpierdolić
|
||||
wpierdolica
|
||||
wpizd
|
||||
wpizdu
|
||||
wyjeba
|
||||
wyjebac
|
||||
wyjebać
|
||||
wyjebąć
|
||||
wyjebaca
|
||||
wyjebał
|
||||
wyjebała
|
||||
wyjebali
|
||||
wyjebały
|
||||
wyjebia
|
||||
wyjebią
|
||||
wyjebiać
|
||||
wyjebić
|
||||
wyjebie
|
||||
wyjebiecie
|
||||
wyjebiemy
|
||||
wyjebiesz
|
||||
wyjebieta
|
||||
wypieprz
|
||||
wypieprza
|
||||
wypieprzac
|
||||
wypieprzać
|
||||
wypieprzal
|
||||
wypieprzał
|
||||
wypieprzala
|
||||
wypieprzała
|
||||
wypieprzy
|
||||
wypieprzyć
|
||||
wypieprzyl
|
||||
wypieprzył
|
||||
wypieprzyla
|
||||
wypieprzyła
|
||||
wypierdal
|
||||
wypierdala
|
||||
wypierdalac
|
||||
wypierdalać
|
||||
wypierdalaj
|
||||
wypierdalal
|
||||
wypierdalał
|
||||
wypierdalala
|
||||
wypierdalała
|
||||
wypierdol
|
||||
wypierdola
|
||||
wypierdolą
|
||||
wypierdoli
|
||||
wypierdolic
|
||||
wypierdolić
|
||||
wypierdolica
|
||||
wypierdolicie
|
||||
wypierdolil
|
||||
wypierdolił
|
||||
wypierdolila
|
||||
wypierdoliła
|
||||
wypierdolili
|
||||
wypierdolimy
|
||||
zajeba
|
||||
zajebac
|
||||
zajebać
|
||||
zajebaca
|
||||
zajebała
|
||||
zajebali
|
||||
zajebana
|
||||
zajebane
|
||||
zajebani
|
||||
zajebany
|
||||
zajebanych
|
||||
zajebanym
|
||||
zajebanymi
|
||||
zajebia
|
||||
zajebią
|
||||
zajebiać
|
||||
zajebial
|
||||
zajebiał
|
||||
zajebiala
|
||||
zajebić
|
||||
zajebie
|
||||
zajebisć
|
||||
zajebiscie
|
||||
zajebiście
|
||||
zajebista
|
||||
zajebiste
|
||||
zajebisty
|
||||
zajebistych
|
||||
zajebistym
|
||||
zajebistymi
|
||||
zapieprz
|
||||
zapieprza
|
||||
zapieprzą
|
||||
zapieprzy
|
||||
zapieprzyc
|
||||
zapieprzyć
|
||||
zapieprzyce
|
||||
zapieprzycie
|
||||
zapieprzyl
|
||||
zapieprzył
|
||||
zapieprzyla
|
||||
zapieprzyła
|
||||
zapieprzymy
|
||||
zapieprzysz
|
||||
zapierdal
|
||||
zapierdala
|
||||
zapierdalac
|
||||
zapierdalać
|
||||
zapierdalaj
|
||||
zapierdalaja
|
||||
zapierdalajacy
|
||||
zapierdalający
|
||||
zapierdalajaki
|
||||
zapierdalajcie
|
||||
zapierdalal
|
||||
zapierdalał
|
||||
zapierdalala
|
||||
zapierdalała
|
||||
zapierdalali
|
||||
zapierdol
|
||||
zapierdola
|
||||
zapierdolą
|
||||
zapierdoli
|
||||
zapierdolic
|
||||
zapierdolić
|
||||
zapierdolica
|
||||
zapierdolil
|
||||
zapierdolił
|
||||
zapierdolila
|
||||
zapierdoliła
|
||||
zapierniczać
|
||||
zapierniczający
|
||||
zasrać
|
||||
zasranym
|
||||
zasrywać
|
||||
zasrywający
|
||||
zesrywać
|
||||
zesrywający
|
||||
zjeba
|
||||
zjebac
|
||||
zjebać
|
||||
zjebaca
|
||||
zjebal
|
||||
zjebał
|
||||
zjebala
|
||||
zjebała
|
||||
zjebali
|
||||
zjebana
|
||||
zjebią
|
||||
zjebić
|
||||
zjeby
|
38
censor_sources.py
Executable file
38
censor_sources.py
Executable file
@ -0,0 +1,38 @@
|
||||
#!/usr/bin/python3
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
import sys, re, os
|
||||
|
||||
|
||||
raw_profanity_whole_pattern = r'\b('
|
||||
raw_profanity_parts_pattern = '('
|
||||
|
||||
for profanity_file_path in os.listdir('bad-words'):
|
||||
with open('bad-words/'+profanity_file_path) as pf:
|
||||
if profanity_file_path.startswith('whole'):
|
||||
for word in pf:
|
||||
raw_profanity_whole_pattern += word.rstrip()+'|'
|
||||
else:
|
||||
for word in pf:
|
||||
raw_profanity_parts_pattern += word.rstrip()+'|'
|
||||
|
||||
|
||||
raw_profanity_whole_pattern = raw_profanity_whole_pattern[:-1]+r')\b'
|
||||
raw_profanity_parts_pattern = raw_profanity_parts_pattern[:-1]+')'
|
||||
|
||||
profanity_whole_pattern = re.compile(raw_profanity_whole_pattern, re.IGNORECASE)
|
||||
profanity_parts_pattern = re.compile(raw_profanity_parts_pattern, re.IGNORECASE)
|
||||
|
||||
with open(sys.argv[1]) as sources_file:
|
||||
for line in sources_file:
|
||||
line = line.rstrip()
|
||||
found_whole = re.search(profanity_whole_pattern, line)
|
||||
found_parts = re.search(profanity_parts_pattern, line)
|
||||
|
||||
if found_whole or found_parts:
|
||||
censored = re.sub(profanity_whole_pattern, '*'*5,line)
|
||||
censored = re.sub(profanity_parts_pattern, '*'*5,censored)
|
||||
print(censored)
|
||||
sys.stderr.write('Censored: %s to %s\n' % (line, censored))
|
||||
else:
|
||||
print(line)
|
19
collect_dict.py
Executable file
19
collect_dict.py
Executable file
@ -0,0 +1,19 @@
|
||||
#!/usr/bin/python3
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
import sys, os, bz2
|
||||
|
||||
src_lang = sys.argv[1]
|
||||
trg_lang = sys.argv[2]
|
||||
weight = int(sys.argv[3])
|
||||
|
||||
dictionaries_path = '../dictionaries'
|
||||
|
||||
for dname in os.listdir(dictionaries_path):
|
||||
src_path = '%s/%s/%s.bz2' % (dictionaries_path, dname, src_lang)
|
||||
trg_path = '%s/%s/%s.bz2' % (dictionaries_path, dname, trg_lang)
|
||||
if os.path.isfile(src_path) and os.path.isfile(trg_path):
|
||||
with bz2.open(src_path, 'rt') as src_dict_file:
|
||||
for line in src_dict_file:
|
||||
for i in range(weight):
|
||||
print(line.strip())
|
File diff suppressed because it is too large
Load Diff
File diff suppressed because it is too large
Load Diff
File diff suppressed because it is too large
Load Diff
File diff suppressed because it is too large
Load Diff
25
get_alignments.py
Executable file
25
get_alignments.py
Executable file
@ -0,0 +1,25 @@
|
||||
#!/usr/bin/python3
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
import sys
|
||||
|
||||
|
||||
with open(sys.argv[1]) as falign_result, open(sys.argv[2]) as src_clean_lem:
|
||||
for line in src_clean_lem:
|
||||
src_line_lem = line.strip()
|
||||
falign_alignment_pairs = falign_result.readline().rstrip().split()
|
||||
falign_map = {}
|
||||
for pair in falign_alignment_pairs:
|
||||
numbers = pair.split('-')
|
||||
s = int(numbers[0])
|
||||
t = int(numbers[1])
|
||||
if not s in falign_map:
|
||||
falign_map[s] = []
|
||||
falign_map[s].append(t)
|
||||
res = []
|
||||
for i in range(len(src_line_lem.split())):
|
||||
if i in falign_map:
|
||||
res.append(falign_map[i])
|
||||
else:
|
||||
res.append([])
|
||||
print(res)
|
80
prepare_corpus.py
Executable file
80
prepare_corpus.py
Executable file
@ -0,0 +1,80 @@
|
||||
#!/usr/bin/python3
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
import sys, re, os
|
||||
|
||||
|
||||
def readProfanityPattern(lang, whole):
|
||||
result = None
|
||||
if whole:
|
||||
file_path = 'bad-words/whole.'+ lang
|
||||
else:
|
||||
file_path = 'bad-words/parts.'+ lang
|
||||
if os.path.isfile(file_path):
|
||||
raw_pattern = ''
|
||||
if not whole:
|
||||
raw_pattern = r'\b'
|
||||
raw_pattern += '('
|
||||
with open(file_path) as profanity_file:
|
||||
for line in profanity_file:
|
||||
raw_pattern += line.rstrip() + "|"
|
||||
raw_pattern = raw_pattern[:-1] + ')'
|
||||
if not whole:
|
||||
raw_pattern += r'\b'
|
||||
|
||||
result = re.compile(raw_pattern)
|
||||
return result
|
||||
|
||||
def containsProfanity(pattern, sentence):
|
||||
if pattern is None:
|
||||
return False
|
||||
else:
|
||||
m = re.search(pattern, sentence)
|
||||
if m:
|
||||
#sys.stderr.write('Found profanity in sentence: %s\n' % sentence)
|
||||
return True
|
||||
else:
|
||||
return False
|
||||
|
||||
max_tokens = 100
|
||||
max_ratio = 4.0
|
||||
|
||||
#./prepare_corpus.py corpora/$(CORPUS_NAME)/src.txt corpora/$(CORPUS_NAME)/trg.txt corpora/$(CORPUS_NAME)/ids.txt corpora/$(CORPUS_NAME)/src.lem corpora/$(CORPUS_NAME)/trg.lem corpora/$(CORPUS_NAME)/src.dict corpora/$(CORPUS_NAME)/trg.dict corpora/$(CORPUS_NAME)/src_clean.txt corpora/$(CORPUS_NAME)/src_clean.lem corpora/$(CORPUS_NAME)/trg_clean.txt corpora/$(CORPUS_NAME)/ids_clean.txt corpora/$(CORPUS_NAME)/falign_corpus.txt $SRC_LANG $TRG_LANG
|
||||
|
||||
src_lang = sys.argv[13]
|
||||
trg_lang = sys.argv[14]
|
||||
|
||||
src_profanity_whole_pattern = readProfanityPattern(src_lang, True)
|
||||
src_profanity_parts_pattern = readProfanityPattern(src_lang, False)
|
||||
trg_profanity_whole_pattern = readProfanityPattern(trg_lang, True)
|
||||
trg_profanity_parts_pattern = readProfanityPattern(trg_lang, False)
|
||||
|
||||
|
||||
|
||||
|
||||
with open(sys.argv[1]) as src, open(sys.argv[2]) as trg, open(sys.argv[3]) as ids, open(sys.argv[4]) as src_lem, open(sys.argv[5]) as trg_lem, open(sys.argv[6]) as src_dict, open(sys.argv[7]) as trg_dict, open(sys.argv[8], 'w') as src_clean, open(sys.argv[9], 'w') as src_clean_lem, open(sys.argv[10], 'w') as trg_clean, open(sys.argv[11], 'w') as ids_clean, open(sys.argv[12], 'w') as falign_corpus:
|
||||
for line in src:
|
||||
src_line_orig = line.strip()
|
||||
trg_line_orig = trg.readline().strip()
|
||||
id_orig = ids.readline().strip()
|
||||
src_line_lem = src_lem.readline().strip()
|
||||
trg_line_lem = trg_lem.readline().strip()
|
||||
src_token_count = len(src_line_lem.split())
|
||||
trg_token_count = len(trg_line_lem.split())
|
||||
if (src_token_count > 0 and trg_token_count > 0 and src_token_count <= max_tokens and trg_token_count <= max_tokens):
|
||||
ratio = float(src_token_count/trg_token_count) if src_token_count > trg_token_count else float(trg_token_count/src_token_count)
|
||||
if (ratio <= max_ratio
|
||||
and (not containsProfanity(src_profanity_whole_pattern, src_line_lem))
|
||||
and (not containsProfanity(src_profanity_parts_pattern, src_line_lem))
|
||||
and (not containsProfanity(trg_profanity_whole_pattern, trg_line_lem))
|
||||
and (not containsProfanity(trg_profanity_parts_pattern, trg_line_lem))
|
||||
):
|
||||
src_clean.write(src_line_orig+"\n")
|
||||
src_clean_lem.write(src_line_lem+"\n")
|
||||
trg_clean.write(trg_line_orig+"\n")
|
||||
ids_clean.write(id_orig+"\n")
|
||||
falign_corpus.write("%s ||| %s\n" % (src_line_lem, trg_line_lem))
|
||||
for line in src_dict:
|
||||
src_word = line.rstrip()
|
||||
trg_word = trg_dict.readline().rstrip()
|
||||
falign_corpus.write("%s ||| %s\n" % (src_word, trg_word))
|
48
sentence_lemmatizer.py
Executable file
48
sentence_lemmatizer.py
Executable file
@ -0,0 +1,48 @@
|
||||
#!/usr/bin/python3
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
import json
|
||||
import requests
|
||||
import sys
|
||||
|
||||
BUFFER_SIZE = 500
|
||||
|
||||
def lemmatize_sentences(language_code, sentences):
|
||||
data = {
|
||||
'lemmatize': True,
|
||||
'language':language_code,
|
||||
'sentences':sentences
|
||||
}
|
||||
response = requests.post(url = 'http://127.0.0.1:10002/preprocess', json = data)
|
||||
response_json = json.loads(response.text)
|
||||
|
||||
result = {'normalized':[], 'lemmatized':[]}
|
||||
for processed_sentence in response_json['processed_sentences']:
|
||||
result['normalized'].append(processed_sentence['normalized'])
|
||||
result['lemmatized'].append(processed_sentence['tokens'])
|
||||
return result
|
||||
|
||||
def write_result(result, norm_file, lem_file):
|
||||
for s in result['normalized']:
|
||||
norm_file.write(s+'\n')
|
||||
for s in result['lemmatized']:
|
||||
lem_file.write(s+'\n')
|
||||
|
||||
|
||||
file_name = sys.argv[1]
|
||||
language_code = sys.argv[2]
|
||||
norm_output_name = sys.argv[3]
|
||||
lem_output_name = sys.argv[4]
|
||||
|
||||
sentences_buffer = []
|
||||
with open(file_name) as in_file, open(norm_output_name, 'w') as out_norm, open(lem_output_name, 'w') as out_lem:
|
||||
for line in in_file:
|
||||
sentences_buffer.append(line.rstrip())
|
||||
if len(sentences_buffer) == BUFFER_SIZE:
|
||||
write_result(lemmatize_sentences(language_code,sentences_buffer), out_norm, out_lem)
|
||||
sentences_buffer = []
|
||||
|
||||
if len(sentences_buffer) > 0:
|
||||
write_result(lemmatize_sentences(language_code,sentences_buffer), out_norm, out_lem)
|
||||
|
||||
|
Loading…
Reference in New Issue
Block a user