forked from kubapok/lalka-lm
program to check
This commit is contained in:
parent
fdf03fd960
commit
2339634912
471
dev-0/out.tsv
Normal file
471
dev-0/out.tsv
Normal file
@ -0,0 +1,471 @@
|
|||||||
|
pociągała
|
||||||
|
mimochodem
|
||||||
|
mikołaj
|
||||||
|
demokratyzacja
|
||||||
|
opowiadań
|
||||||
|
postanawiając
|
||||||
|
julianem
|
||||||
|
kundmani
|
||||||
|
ha
|
||||||
|
kobietka
|
||||||
|
gniewała
|
||||||
|
pokazali
|
||||||
|
grubo
|
||||||
|
oczekiwałem
|
||||||
|
chorobach
|
||||||
|
pokaszlując
|
||||||
|
lokajowi
|
||||||
|
powierzchowność
|
||||||
|
kiełbasę
|
||||||
|
cofnę
|
||||||
|
lasy
|
||||||
|
niezłe
|
||||||
|
pokarmów
|
||||||
|
kandydaci
|
||||||
|
ogromnie
|
||||||
|
karmić
|
||||||
|
namówiłem
|
||||||
|
odpisał
|
||||||
|
pocałujesz
|
||||||
|
chory
|
||||||
|
brzydko
|
||||||
|
mgnieniem
|
||||||
|
odzywa
|
||||||
|
czapki
|
||||||
|
kapitalistów
|
||||||
|
modne
|
||||||
|
melomanką
|
||||||
|
mścił
|
||||||
|
potulne
|
||||||
|
kątem
|
||||||
|
chciałem
|
||||||
|
ożywienie
|
||||||
|
ocalał
|
||||||
|
moim
|
||||||
|
fakt
|
||||||
|
nierówny
|
||||||
|
mówieniem
|
||||||
|
naszej
|
||||||
|
ceglasty
|
||||||
|
list
|
||||||
|
pokaszlując
|
||||||
|
pociągnął
|
||||||
|
dzieła
|
||||||
|
powlecze
|
||||||
|
kufelek
|
||||||
|
12
|
||||||
|
parzyste
|
||||||
|
dawna
|
||||||
|
niejednokrotnie
|
||||||
|
czekają
|
||||||
|
koncercie
|
||||||
|
bucika
|
||||||
|
bólów
|
||||||
|
odpoczywaliśmy
|
||||||
|
gardło
|
||||||
|
pokoleniom
|
||||||
|
porzucić
|
||||||
|
nieciekawe
|
||||||
|
patriotyzmu
|
||||||
|
polityka
|
||||||
|
dają
|
||||||
|
jedyny
|
||||||
|
lekceważeniem
|
||||||
|
drudzy
|
||||||
|
nielitościwy
|
||||||
|
nabiegać
|
||||||
|
porozumieją
|
||||||
|
ogródek
|
||||||
|
huczał
|
||||||
|
majestatyczny
|
||||||
|
papier
|
||||||
|
bruku
|
||||||
|
fryzjerczyk
|
||||||
|
pozasłaniane
|
||||||
|
pałac
|
||||||
|
nowej
|
||||||
|
cmentarze
|
||||||
|
piękna
|
||||||
|
katarynek
|
||||||
|
nalana
|
||||||
|
dziesięć
|
||||||
|
patrzaj
|
||||||
|
dostarczają
|
||||||
|
mgnieniem
|
||||||
|
obraziłby
|
||||||
|
górną
|
||||||
|
niecierpliwość
|
||||||
|
dopatrzeć
|
||||||
|
broszurek
|
||||||
|
nadto
|
||||||
|
asfaltów
|
||||||
|
pogróżek
|
||||||
|
anonim
|
||||||
|
należącym
|
||||||
|
nietuzinkowy
|
||||||
|
bom
|
||||||
|
linię
|
||||||
|
moralizującą
|
||||||
|
potrząsnęła
|
||||||
|
najznakomitszy
|
||||||
|
angielska
|
||||||
|
balkonie
|
||||||
|
kwiat
|
||||||
|
kołmirz
|
||||||
|
lękając
|
||||||
|
powróci
|
||||||
|
pomniki
|
||||||
|
podniosłem
|
||||||
|
karzesz
|
||||||
|
machalskim
|
||||||
|
dostrzegłszy
|
||||||
|
cechy
|
||||||
|
elegancka
|
||||||
|
idąc
|
||||||
|
otumanić
|
||||||
|
pozmywane
|
||||||
|
godziny
|
||||||
|
duszę
|
||||||
|
bywa
|
||||||
|
podparłszy
|
||||||
|
intrygantami
|
||||||
|
mikroskop
|
||||||
|
garbarzami
|
||||||
|
powypychał
|
||||||
|
legenda
|
||||||
|
lochu
|
||||||
|
oświetlił
|
||||||
|
decyzję
|
||||||
|
ostrzeż
|
||||||
|
pracować
|
||||||
|
górnik
|
||||||
|
porwała
|
||||||
|
chrześcijance
|
||||||
|
nabywca
|
||||||
|
edukacją
|
||||||
|
operetkę
|
||||||
|
część
|
||||||
|
bosego
|
||||||
|
feuille
|
||||||
|
posłuchaj
|
||||||
|
pięty
|
||||||
|
powitam
|
||||||
|
doktór
|
||||||
|
korzysta
|
||||||
|
narodzenie
|
||||||
|
krajał
|
||||||
|
ludzkimi
|
||||||
|
masy
|
||||||
|
janowi
|
||||||
|
osacza
|
||||||
|
osądzić
|
||||||
|
nieśmiała
|
||||||
|
dzikich
|
||||||
|
pieczeni
|
||||||
|
kwitnąć
|
||||||
|
najszlachetniejsze
|
||||||
|
mgnieniem
|
||||||
|
oczekujemy
|
||||||
|
produkta
|
||||||
|
córki
|
||||||
|
pragnienia
|
||||||
|
jakimiż
|
||||||
|
heca
|
||||||
|
1853
|
||||||
|
nieoddanie
|
||||||
|
namawia
|
||||||
|
pagórkiem
|
||||||
|
honorem
|
||||||
|
dyrektorze
|
||||||
|
mogłoby
|
||||||
|
ciężary
|
||||||
|
kochałem
|
||||||
|
odziany
|
||||||
|
banalne
|
||||||
|
.
|
||||||
|
pościsz
|
||||||
|
jamais
|
||||||
|
oświetlił
|
||||||
|
nobilingiem
|
||||||
|
kobietom
|
||||||
|
hultajom
|
||||||
|
pachą
|
||||||
|
powitaniu
|
||||||
|
młode
|
||||||
|
ku
|
||||||
|
ogarniając
|
||||||
|
bożym
|
||||||
|
min
|
||||||
|
polsku
|
||||||
|
dachu
|
||||||
|
pokazała
|
||||||
|
panienka
|
||||||
|
dzieła
|
||||||
|
klaczą
|
||||||
|
lizać
|
||||||
|
lochu
|
||||||
|
kępę
|
||||||
|
pakowania
|
||||||
|
janocką
|
||||||
|
odpuść
|
||||||
|
podłoga
|
||||||
|
piekło
|
||||||
|
okrążyli
|
||||||
|
odpowiada
|
||||||
|
najlepszego
|
||||||
|
mlaśnięcia
|
||||||
|
delikatne
|
||||||
|
naraża
|
||||||
|
nierozważne
|
||||||
|
cudze
|
||||||
|
górą
|
||||||
|
osiemdziesiąt
|
||||||
|
ołtarza
|
||||||
|
buciki
|
||||||
|
milczeniem
|
||||||
|
królewno
|
||||||
|
horyzontu
|
||||||
|
okazywać
|
||||||
|
odniosłem
|
||||||
|
oszukiwanego
|
||||||
|
odniosłem
|
||||||
|
klepki
|
||||||
|
jaśniejący
|
||||||
|
chirurgiem
|
||||||
|
aleś
|
||||||
|
pieszczot
|
||||||
|
literek
|
||||||
|
ej
|
||||||
|
lafayette
|
||||||
|
milerowa
|
||||||
|
nawarzyłem
|
||||||
|
popielatym
|
||||||
|
królewny
|
||||||
|
chorobliwe
|
||||||
|
daleka
|
||||||
|
nabiegać
|
||||||
|
daleka
|
||||||
|
elegancka
|
||||||
|
portretach
|
||||||
|
odbierzemy
|
||||||
|
amusant
|
||||||
|
lewej
|
||||||
|
ołtarza
|
||||||
|
meble
|
||||||
|
ostra
|
||||||
|
głupia
|
||||||
|
hozer
|
||||||
|
liczyłam
|
||||||
|
pakami
|
||||||
|
odstraszył
|
||||||
|
dobrał
|
||||||
|
bywałem
|
||||||
|
koneser
|
||||||
|
kryształy
|
||||||
|
nieoczekiwanie
|
||||||
|
mieszczaństwo
|
||||||
|
czuwał
|
||||||
|
czystszą
|
||||||
|
napisał
|
||||||
|
diablica
|
||||||
|
myślisz
|
||||||
|
grupą
|
||||||
|
prośbą
|
||||||
|
deptać
|
||||||
|
krzeszowskich
|
||||||
|
książkach
|
||||||
|
kopie
|
||||||
|
cyfrach
|
||||||
|
powłóczystymi
|
||||||
|
prośbę
|
||||||
|
męczy
|
||||||
|
najszlachetniejsze
|
||||||
|
korci
|
||||||
|
padła
|
||||||
|
porozumieją
|
||||||
|
doskonała
|
||||||
|
hultajom
|
||||||
|
cel
|
||||||
|
naturę
|
||||||
|
odcienia
|
||||||
|
czterdziestówki
|
||||||
|
aferzystą
|
||||||
|
1846
|
||||||
|
naśladować
|
||||||
|
gustem
|
||||||
|
lepsze
|
||||||
|
lepsze
|
||||||
|
jasną
|
||||||
|
1848
|
||||||
|
obraziłby
|
||||||
|
numerze
|
||||||
|
butelki
|
||||||
|
inszy
|
||||||
|
nakłonił
|
||||||
|
bladej
|
||||||
|
milczeniem
|
||||||
|
feuille
|
||||||
|
deszcz
|
||||||
|
polityką
|
||||||
|
można
|
||||||
|
czepeczek
|
||||||
|
niedomaga
|
||||||
|
pokażę
|
||||||
|
ogródek
|
||||||
|
cała
|
||||||
|
cała
|
||||||
|
pocałunku
|
||||||
|
80
|
||||||
|
przeciw
|
||||||
|
cel
|
||||||
|
byłbym
|
||||||
|
apoteozie
|
||||||
|
ordynarni
|
||||||
|
kamieniu
|
||||||
|
piękni
|
||||||
|
niespodziany
|
||||||
|
dobitkę
|
||||||
|
naśmieliśmy
|
||||||
|
chlubą
|
||||||
|
kropla
|
||||||
|
oznaki
|
||||||
|
przebrał
|
||||||
|
papierach
|
||||||
|
osłabł
|
||||||
|
niezwykłą
|
||||||
|
draśnięty
|
||||||
|
dziwniejszy
|
||||||
|
poszedłby
|
||||||
|
dar
|
||||||
|
ginąć
|
||||||
|
pokazali
|
||||||
|
kozak
|
||||||
|
marzyło
|
||||||
|
jęcząc
|
||||||
|
jaśniejący
|
||||||
|
cytryny
|
||||||
|
egzystencyj
|
||||||
|
czerwienieje
|
||||||
|
którym
|
||||||
|
perpetuum
|
||||||
|
karmić
|
||||||
|
oświetlił
|
||||||
|
należą
|
||||||
|
majętnych
|
||||||
|
pasieki
|
||||||
|
powiada
|
||||||
|
potwierdza
|
||||||
|
botaniczny
|
||||||
|
nikczemne
|
||||||
|
dając
|
||||||
|
oznaczenia
|
||||||
|
dziewięciu
|
||||||
|
miotle
|
||||||
|
dostrzegłszy
|
||||||
|
cierpieć
|
||||||
|
obnażoną
|
||||||
|
najświętszym
|
||||||
|
pobłażliwą
|
||||||
|
kwestii
|
||||||
|
odzyskawszy
|
||||||
|
arystokratą
|
||||||
|
przebrać
|
||||||
|
kandelabry
|
||||||
|
liczman
|
||||||
|
korzyła
|
||||||
|
moralizującą
|
||||||
|
fagasować
|
||||||
|
lotaryngii
|
||||||
|
pogrzeb
|
||||||
|
doby
|
||||||
|
najrezolutniejsza
|
||||||
|
proponować
|
||||||
|
brzmi
|
||||||
|
grupie
|
||||||
|
nabawić
|
||||||
|
masę
|
||||||
|
budowle
|
||||||
|
licha
|
||||||
|
logice
|
||||||
|
ciszej
|
||||||
|
mogliby
|
||||||
|
połowie
|
||||||
|
kanapie
|
||||||
|
jadał
|
||||||
|
porzucił
|
||||||
|
oziębiła
|
||||||
|
myślałżeś
|
||||||
|
powozi
|
||||||
|
dzwonek
|
||||||
|
gadu
|
||||||
|
poszukiwań
|
||||||
|
poszukiwań
|
||||||
|
bryndzę
|
||||||
|
bratem
|
||||||
|
jeść
|
||||||
|
kłopot
|
||||||
|
kłapiący
|
||||||
|
czemu
|
||||||
|
parchów
|
||||||
|
możliwy
|
||||||
|
grupy
|
||||||
|
bom
|
||||||
|
narzeczonego
|
||||||
|
maluczkich
|
||||||
|
dudnieniem
|
||||||
|
odbijania
|
||||||
|
handlarzu
|
||||||
|
generacji
|
||||||
|
istot
|
||||||
|
doux
|
||||||
|
francuzi
|
||||||
|
furgonistów
|
||||||
|
kazi
|
||||||
|
drwiąco
|
||||||
|
prostoty
|
||||||
|
idea
|
||||||
|
bednarskiej
|
||||||
|
gipsowy
|
||||||
|
falista
|
||||||
|
odwróciłem
|
||||||
|
nalegał
|
||||||
|
ogniu
|
||||||
|
kalkuluję
|
||||||
|
ot
|
||||||
|
niebezpieczeństwach
|
||||||
|
dobroczynne
|
||||||
|
poufnym
|
||||||
|
przebaczająca
|
||||||
|
cieszę
|
||||||
|
najczcigodniejsza
|
||||||
|
gruzach
|
||||||
|
mizerne
|
||||||
|
jakąkolwiek
|
||||||
|
fale
|
||||||
|
naiwnemu
|
||||||
|
mieliby
|
||||||
|
jako
|
||||||
|
potęguje
|
||||||
|
genialnych
|
||||||
|
handel
|
||||||
|
pogardy
|
||||||
|
podejrzanych
|
||||||
|
jana
|
||||||
|
miały
|
||||||
|
jechać
|
||||||
|
oszukujących
|
||||||
|
pożyczkę
|
||||||
|
pokaszlując
|
||||||
|
postanowić
|
||||||
|
mleka
|
||||||
|
oszukujących
|
||||||
|
doboru
|
||||||
|
drobną
|
||||||
|
prezentem
|
||||||
|
pietrek
|
||||||
|
materacem
|
||||||
|
kamieniarza
|
||||||
|
morderca
|
||||||
|
kupiłeś
|
||||||
|
czarne
|
||||||
|
palcem
|
|
225
guessword.py
Normal file
225
guessword.py
Normal file
@ -0,0 +1,225 @@
|
|||||||
|
|
||||||
|
import numpy as np
|
||||||
|
import torch
|
||||||
|
from tqdm.notebook import tqdm
|
||||||
|
from sklearn.model_selection import train_test_split
|
||||||
|
import nltk
|
||||||
|
from nltk.tokenize import word_tokenize
|
||||||
|
|
||||||
|
nltk.download('punkt')
|
||||||
|
|
||||||
|
NGRAMS = 5
|
||||||
|
BATCH_SIZE = 128
|
||||||
|
EPOCHS = 15
|
||||||
|
|
||||||
|
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
|
||||||
|
|
||||||
|
with open("train/train.tsv", "r", encoding="utf8") as lalka_path:
|
||||||
|
lines = lalka_path.readlines()
|
||||||
|
|
||||||
|
train, test = train_test_split(lines, test_size = 0.2)
|
||||||
|
|
||||||
|
with open("train/train_train.tsv", "w", encoding="utf8") as out_train_file:
|
||||||
|
for i in train:
|
||||||
|
out_train_file.write(i)
|
||||||
|
|
||||||
|
with open("train/train_test.tsv", "w", encoding="utf8") as out_test_file:
|
||||||
|
for i in test:
|
||||||
|
out_test_file.write(i)
|
||||||
|
|
||||||
|
lalka_path_train= 'train/train_train.tsv'
|
||||||
|
lalka_path_valid= 'train/train_test.tsv'
|
||||||
|
|
||||||
|
corpora_train = open(lalka_path_train, encoding="utf8").read()
|
||||||
|
corpora_train_tokenized = list(word_tokenize(corpora_train))
|
||||||
|
corpora_train_tokenized = [token.lower() for token in corpora_train_tokenized]
|
||||||
|
|
||||||
|
vocab_itos = sorted(set(corpora_train_tokenized))
|
||||||
|
vocab_itos = vocab_itos[:15005]
|
||||||
|
vocab_itos[15001] = "<UNK>"
|
||||||
|
vocab_itos[15002] = "<BOS>"
|
||||||
|
vocab_itos[15003] = "<EOS>"
|
||||||
|
vocab_itos[15004] = "<PAD>"
|
||||||
|
|
||||||
|
vocab_stoi = dict()
|
||||||
|
|
||||||
|
for i, token in enumerate(vocab_itos):
|
||||||
|
vocab_stoi[token] = i
|
||||||
|
|
||||||
|
def get_token_id(dataset):
|
||||||
|
token_ids = [vocab_stoi['<PAD>']] * (NGRAMS-1) + [vocab_stoi['<BOS>']]
|
||||||
|
for token in dataset:
|
||||||
|
try:
|
||||||
|
token_ids.append(vocab_stoi[token])
|
||||||
|
except KeyError:
|
||||||
|
token_ids.append(vocab_stoi['<UNK>'])
|
||||||
|
token_ids.append(vocab_stoi['<EOS>'])
|
||||||
|
return token_ids
|
||||||
|
|
||||||
|
def get_samples(dataset):
|
||||||
|
samples = []
|
||||||
|
for i in range(len(dataset)-NGRAMS):
|
||||||
|
samples.append(dataset[i:i+NGRAMS])
|
||||||
|
return samples
|
||||||
|
|
||||||
|
train_ids = get_token_id(corpora_train_tokenized)
|
||||||
|
|
||||||
|
train_ids = get_samples(train_ids)
|
||||||
|
|
||||||
|
train_ids = torch.tensor(train_ids, device = device)
|
||||||
|
|
||||||
|
corpora_valid = open(lalka_path_valid, encoding="utf8").read()
|
||||||
|
|
||||||
|
corpora_valid_tokenized = list(word_tokenize(corpora_valid))
|
||||||
|
corpora_valid_tokenized = [token.lower() for token in corpora_valid_tokenized]
|
||||||
|
|
||||||
|
valid_ids = get_token_id(corpora_valid_tokenized)
|
||||||
|
|
||||||
|
valid_ids = torch.tensor(get_samples(valid_ids), dtype = torch.long, device = device)
|
||||||
|
|
||||||
|
class GRU(torch.nn.Module):
|
||||||
|
|
||||||
|
def __init__(self):
|
||||||
|
super(GRU, self).__init__()
|
||||||
|
self.emb = torch.nn.Embedding(len(vocab_itos),100)
|
||||||
|
self.rec = torch.nn.GRU(100, 256, 1, batch_first = True)
|
||||||
|
self.fc1 = torch.nn.Linear( 256 ,len(vocab_itos))
|
||||||
|
|
||||||
|
def forward(self, x):
|
||||||
|
emb = self.emb(x)
|
||||||
|
output, h_n = self.rec(emb)
|
||||||
|
hidden = h_n.squeeze(0)
|
||||||
|
out = self.fc1(hidden)
|
||||||
|
return out
|
||||||
|
|
||||||
|
lm = GRU().to(device)
|
||||||
|
criterion = torch.nn.CrossEntropyLoss()
|
||||||
|
optimizer = torch.optim.Adam(lm.parameters(),lr=0.0001)
|
||||||
|
|
||||||
|
def get_ppl(dataset_ids):
|
||||||
|
lm.eval()
|
||||||
|
|
||||||
|
batches = 0
|
||||||
|
loss_sum =0
|
||||||
|
# acc_score = 0
|
||||||
|
|
||||||
|
for i in range(0, len(dataset_ids)-BATCH_SIZE+1, BATCH_SIZE):
|
||||||
|
X = dataset_ids[i:i+BATCH_SIZE,:NGRAMS-1]
|
||||||
|
Y = dataset_ids[i:i+BATCH_SIZE,NGRAMS-1]
|
||||||
|
|
||||||
|
predictions = lm(X)
|
||||||
|
loss = criterion(predictions,Y)
|
||||||
|
loss_sum += loss.item()
|
||||||
|
batches += 1
|
||||||
|
|
||||||
|
return np.exp(loss_sum / batches)
|
||||||
|
|
||||||
|
history_ppl_train = []
|
||||||
|
history_ppl_valid = []
|
||||||
|
|
||||||
|
for epoch in range(2):
|
||||||
|
batches = 0
|
||||||
|
loss_sum = 0
|
||||||
|
# acc_score = 0
|
||||||
|
lm.train()
|
||||||
|
total = 1000-BATCH_SIZE+1
|
||||||
|
# total = len(train_ids)-BATCH_SIZE+1
|
||||||
|
for i in range(0, total, BATCH_SIZE):
|
||||||
|
# for i in tqdm(range(0, len(train_ids)-BATCH_SIZE + 1, BATCH_SIZE)):
|
||||||
|
print('batches: ' + str(batches))
|
||||||
|
|
||||||
|
X = train_ids[i : i + BATCH_SIZE, :NGRAMS - 1]
|
||||||
|
Y = train_ids[i : i + BATCH_SIZE, NGRAMS - 1]
|
||||||
|
|
||||||
|
predictions = lm(X)
|
||||||
|
loss = criterion(predictions,Y)
|
||||||
|
|
||||||
|
optimizer.zero_grad()
|
||||||
|
loss.backward()
|
||||||
|
optimizer.step()
|
||||||
|
|
||||||
|
loss_sum += loss.item()
|
||||||
|
batches += 1
|
||||||
|
|
||||||
|
ppl_train = get_ppl(train_ids)
|
||||||
|
ppl_valid = get_ppl(valid_ids)
|
||||||
|
|
||||||
|
history_ppl_train.append(ppl_train)
|
||||||
|
history_ppl_valid.append(ppl_valid)
|
||||||
|
|
||||||
|
print('epoch: ', epoch)
|
||||||
|
print('train ppl: ', ppl_train)
|
||||||
|
print('valid ppl: ', ppl_valid)
|
||||||
|
print()
|
||||||
|
|
||||||
|
tokenized = list(word_tokenize('Gości innych nie widział oprócz spółleśników'))
|
||||||
|
tokenized = [token.lower() for token in tokenized]
|
||||||
|
|
||||||
|
ids = []
|
||||||
|
for word in tokenized:
|
||||||
|
if word in vocab_stoi:
|
||||||
|
ids.append(vocab_stoi[word])
|
||||||
|
else:
|
||||||
|
ids.append(vocab_stoi['<UNK>'])
|
||||||
|
|
||||||
|
lm.eval()
|
||||||
|
|
||||||
|
ids = torch.tensor(ids, dtype = torch.long, device = device)
|
||||||
|
preds= lm(ids.unsqueeze(0))
|
||||||
|
vocab_itos[torch.argmax(torch.softmax(preds,1),1).item()]
|
||||||
|
|
||||||
|
tokenized = list(word_tokenize('Lalka'))
|
||||||
|
tokenized = [token.lower() for token in tokenized]
|
||||||
|
|
||||||
|
ids = []
|
||||||
|
|
||||||
|
for word in tokenized:
|
||||||
|
if word in vocab_stoi:
|
||||||
|
ids.append(vocab_stoi[word])
|
||||||
|
else:
|
||||||
|
ids.append(vocab_stoi['<UNK>'])
|
||||||
|
|
||||||
|
ids = torch.tensor([ids], dtype = torch.long, device = device)
|
||||||
|
|
||||||
|
candidates_number = 10
|
||||||
|
|
||||||
|
for i in range(30):
|
||||||
|
preds= lm(ids)
|
||||||
|
candidates = torch.topk(torch.softmax(preds,1),candidates_number)[1][0].cpu().numpy()
|
||||||
|
candidate = 15001
|
||||||
|
|
||||||
|
while candidate > 15000:
|
||||||
|
candidate = candidates[np.random.randint(candidates_number)]
|
||||||
|
|
||||||
|
print(vocab_itos[candidate])
|
||||||
|
ids = torch.cat((ids, torch.tensor([[candidate]], device = device)), 1)
|
||||||
|
|
||||||
|
print('starting dev...')
|
||||||
|
|
||||||
|
with open("dev-0/in.tsv", "r", encoding="UTF-8") as dev_path:
|
||||||
|
nr_of_dev_lines = len(dev_path.readlines())
|
||||||
|
|
||||||
|
with open("test-A/in.tsv", "r", encoding="UTF-8") as test_a_path:
|
||||||
|
nr_of_test_a_lines = len(test_a_path.readlines())
|
||||||
|
|
||||||
|
with open("dev-0/out.tsv", "w", encoding="UTF-8") as out_dev_file:
|
||||||
|
for i in range(nr_of_dev_lines):
|
||||||
|
preds= lm(ids)
|
||||||
|
candidates = torch.topk(torch.softmax(preds,1),candidates_number)[1][0].cpu().numpy()
|
||||||
|
candidate = 15001
|
||||||
|
while candidate > 15000:
|
||||||
|
candidate = candidates[np.random.randint(candidates_number)]
|
||||||
|
print(vocab_itos[candidate])
|
||||||
|
ids = torch.cat((ids, torch.tensor([[candidate]], device = device)), 1)
|
||||||
|
out_dev_file.write(vocab_itos[candidate] + '\n')
|
||||||
|
|
||||||
|
with open("test-A/out.tsv", "w", encoding="UTF-8") as out_test_file:
|
||||||
|
for i in range(nr_of_dev_lines):
|
||||||
|
preds= lm(ids)
|
||||||
|
candidates = torch.topk(torch.softmax(preds,1),candidates_number)[1][0].cpu().numpy()
|
||||||
|
candidate = 15001
|
||||||
|
while candidate > 15000:
|
||||||
|
candidate = candidates[np.random.randint(candidates_number)]
|
||||||
|
print(vocab_itos[candidate])
|
||||||
|
ids = torch.cat((ids, torch.tensor([[candidate]], device = device)), 1)
|
||||||
|
out_test_file.write(vocab_itos[candidate] + '\n')
|
471
test-A/out.tsv
Normal file
471
test-A/out.tsv
Normal file
@ -0,0 +1,471 @@
|
|||||||
|
&
|
||||||
|
apoteozie
|
||||||
|
cicho
|
||||||
|
pokorę
|
||||||
|
gorczycą
|
||||||
|
konserwatorium
|
||||||
|
komorna
|
||||||
|
miseczkami
|
||||||
|
pokoje
|
||||||
|
garncami
|
||||||
|
pozna
|
||||||
|
obrazi
|
||||||
|
ostrogą
|
||||||
|
poprawi
|
||||||
|
masy
|
||||||
|
potrafią
|
||||||
|
mężczyzna
|
||||||
|
pełną
|
||||||
|
ciekawsza
|
||||||
|
odzywa
|
||||||
|
irkucka
|
||||||
|
kiedyście
|
||||||
|
kominów
|
||||||
|
herein
|
||||||
|
propozycję
|
||||||
|
opierając
|
||||||
|
polską
|
||||||
|
handlarzu
|
||||||
|
astronomów
|
||||||
|
placu
|
||||||
|
kończyła
|
||||||
|
poznajemy
|
||||||
|
niejakiej
|
||||||
|
niezłe
|
||||||
|
pozorem
|
||||||
|
ach
|
||||||
|
drzewami
|
||||||
|
postanowił
|
||||||
|
berlinka
|
||||||
|
bukietu
|
||||||
|
huknął
|
||||||
|
melancholii
|
||||||
|
odepchnąwszy
|
||||||
|
oddam
|
||||||
|
bucika
|
||||||
|
ciosowego
|
||||||
|
ośle
|
||||||
|
ciągnione
|
||||||
|
filozofii
|
||||||
|
ciszę
|
||||||
|
odważył
|
||||||
|
obedrzemy
|
||||||
|
angielskiej
|
||||||
|
kossuth
|
||||||
|
kupiłeś
|
||||||
|
nagniotków
|
||||||
|
emancypacji
|
||||||
|
najśpieszniej
|
||||||
|
godne
|
||||||
|
niczym
|
||||||
|
kłaniała
|
||||||
|
kucharka
|
||||||
|
konopiastą
|
||||||
|
kwitnącym
|
||||||
|
dalszą
|
||||||
|
brzęczały
|
||||||
|
gardzący
|
||||||
|
ocknąłem
|
||||||
|
biedaczki
|
||||||
|
16
|
||||||
|
prowincji
|
||||||
|
mógł
|
||||||
|
dziedziczności
|
||||||
|
korzystne
|
||||||
|
karabin
|
||||||
|
postanawiając
|
||||||
|
chin
|
||||||
|
przechodząc
|
||||||
|
nieoddanie
|
||||||
|
opiekę
|
||||||
|
orientowania
|
||||||
|
indagowała
|
||||||
|
demona
|
||||||
|
godzinę
|
||||||
|
powtórnie
|
||||||
|
pragnienia
|
||||||
|
pode
|
||||||
|
opowiadań
|
||||||
|
opowiadań
|
||||||
|
ogrodem
|
||||||
|
chmur
|
||||||
|
doch
|
||||||
|
jakimiż
|
||||||
|
ogrodem
|
||||||
|
kamieniarza
|
||||||
|
nabożnej
|
||||||
|
foczej
|
||||||
|
marylami
|
||||||
|
kariery
|
||||||
|
najuprzejmiej
|
||||||
|
kładę
|
||||||
|
przebić
|
||||||
|
okolicznościach
|
||||||
|
odszukał
|
||||||
|
kweście
|
||||||
|
pogrążony
|
||||||
|
ożywiała
|
||||||
|
kortowe
|
||||||
|
niezłe
|
||||||
|
egzaminów
|
||||||
|
fagasować
|
||||||
|
błagalne
|
||||||
|
latało
|
||||||
|
druk
|
||||||
|
budować
|
||||||
|
pakietami
|
||||||
|
plait
|
||||||
|
kochankami
|
||||||
|
najszlachetniejsze
|
||||||
|
dostrzegłszy
|
||||||
|
mi
|
||||||
|
brzegu
|
||||||
|
idźże
|
||||||
|
całuje
|
||||||
|
księżną
|
||||||
|
nocną
|
||||||
|
ogromnego
|
||||||
|
kobietach
|
||||||
|
lejcowe
|
||||||
|
dziewczynka
|
||||||
|
letkiewiczem
|
||||||
|
pilniki
|
||||||
|
piórem
|
||||||
|
istotny
|
||||||
|
otumanić
|
||||||
|
polegający
|
||||||
|
gdzie
|
||||||
|
1853
|
||||||
|
girlanda
|
||||||
|
cel
|
||||||
|
osacza
|
||||||
|
pożyczy
|
||||||
|
pognali
|
||||||
|
oględnego
|
||||||
|
profilu
|
||||||
|
furgonistów
|
||||||
|
mace
|
||||||
|
malborg
|
||||||
|
ich
|
||||||
|
miło
|
||||||
|
miło
|
||||||
|
bitwy
|
||||||
|
jeograficzną
|
||||||
|
numeru
|
||||||
|
egipcie
|
||||||
|
istotne
|
||||||
|
desperatem
|
||||||
|
krajem
|
||||||
|
brodata
|
||||||
|
broń
|
||||||
|
ogromnego
|
||||||
|
kobietach
|
||||||
|
jarmarcznej
|
||||||
|
komorna
|
||||||
|
fere
|
||||||
|
jeść
|
||||||
|
bałaganowym
|
||||||
|
dopadłszy
|
||||||
|
chłopów
|
||||||
|
nalewała
|
||||||
|
miastem
|
||||||
|
portmonetki
|
||||||
|
dziesięcioma
|
||||||
|
mniejszej
|
||||||
|
nowością
|
||||||
|
głupiś
|
||||||
|
krzyku
|
||||||
|
mienie
|
||||||
|
popielatym
|
||||||
|
jakiejże
|
||||||
|
kamienica
|
||||||
|
kapitalizować
|
||||||
|
laty
|
||||||
|
ledwie
|
||||||
|
dojrzeli
|
||||||
|
pogardą
|
||||||
|
gazetach
|
||||||
|
pokaszlując
|
||||||
|
gościnnych
|
||||||
|
pozasłaniane
|
||||||
|
ewelinę
|
||||||
|
komedię
|
||||||
|
małżonkami
|
||||||
|
prezentował
|
||||||
|
dwuznacznej
|
||||||
|
potarł
|
||||||
|
oburzona
|
||||||
|
obietnicy
|
||||||
|
ofiarowuje
|
||||||
|
anioł
|
||||||
|
posiedzimy
|
||||||
|
musiało
|
||||||
|
niespodzianek
|
||||||
|
popełnili
|
||||||
|
przecenia
|
||||||
|
ociężale
|
||||||
|
niepokojów
|
||||||
|
organizator
|
||||||
|
opłaconej
|
||||||
|
komorna
|
||||||
|
niemca
|
||||||
|
nazywam
|
||||||
|
oświadczają
|
||||||
|
przechodzień
|
||||||
|
odzianymi
|
||||||
|
anglicy
|
||||||
|
dobrodziejstwa
|
||||||
|
prostota
|
||||||
|
beni
|
||||||
|
pończosze
|
||||||
|
faworytami
|
||||||
|
powiernikiem
|
||||||
|
opatrywać
|
||||||
|
przebił
|
||||||
|
geist
|
||||||
|
kwartę
|
||||||
|
omnibus
|
||||||
|
kuzynkę
|
||||||
|
nieszczęśliwie
|
||||||
|
ignaz
|
||||||
|
pociągnął
|
||||||
|
modlącego
|
||||||
|
położonej
|
||||||
|
najpierwsze
|
||||||
|
matce
|
||||||
|
misiewiczowej
|
||||||
|
gałgany
|
||||||
|
niebieskiej
|
||||||
|
magla
|
||||||
|
nosek
|
||||||
|
nowością
|
||||||
|
grozi
|
||||||
|
dostali
|
||||||
|
podejrzywać
|
||||||
|
opuścił
|
||||||
|
odczytaniem
|
||||||
|
ojcowskich
|
||||||
|
pokrwawionej
|
||||||
|
73
|
||||||
|
fortuna
|
||||||
|
podawał
|
||||||
|
poważnego
|
||||||
|
jeść
|
||||||
|
doprowadziła
|
||||||
|
niewiniątkiem
|
||||||
|
omnibusów
|
||||||
|
belę
|
||||||
|
kamienicą
|
||||||
|
podejrzywać
|
||||||
|
odkocham
|
||||||
|
francusku
|
||||||
|
niedopyrze
|
||||||
|
oszustwie
|
||||||
|
idei
|
||||||
|
głupowato
|
||||||
|
ożywienie
|
||||||
|
kosztowne
|
||||||
|
nabiera
|
||||||
|
moralizującą
|
||||||
|
brzęczały
|
||||||
|
gardzący
|
||||||
|
jedną
|
||||||
|
która
|
||||||
|
jędrnością
|
||||||
|
gotówkę
|
||||||
|
despotyzmu
|
||||||
|
naśmiewać
|
||||||
|
besztyja
|
||||||
|
dopłacamy
|
||||||
|
prawidło
|
||||||
|
podejrzenie
|
||||||
|
dzieła
|
||||||
|
ogień
|
||||||
|
emancypacji
|
||||||
|
dobroć
|
||||||
|
anonim
|
||||||
|
bezksiężycowa
|
||||||
|
najwyższe
|
||||||
|
kleopatry
|
||||||
|
bezwzględniej
|
||||||
|
małżonków
|
||||||
|
domyślić
|
||||||
|
odważył
|
||||||
|
odpowiadał
|
||||||
|
jedną
|
||||||
|
polegający
|
||||||
|
fugit
|
||||||
|
nie-boskiej
|
||||||
|
alei
|
||||||
|
majestatyczny
|
||||||
|
nieszczęśliwie
|
||||||
|
higiena
|
||||||
|
piorunujące
|
||||||
|
osoba
|
||||||
|
ambicje
|
||||||
|
odgrywa
|
||||||
|
bogiem
|
||||||
|
butonierkach
|
||||||
|
ojca
|
||||||
|
pagórkiem
|
||||||
|
p.
|
||||||
|
biedaczki
|
||||||
|
mlaśnięcia
|
||||||
|
owinął
|
||||||
|
furmana
|
||||||
|
fałdu
|
||||||
|
oficerowie
|
||||||
|
otwarte
|
||||||
|
podejrzenie
|
||||||
|
biciu
|
||||||
|
galicję
|
||||||
|
lekarską
|
||||||
|
herbata
|
||||||
|
chustce
|
||||||
|
ograniczeni
|
||||||
|
porównaniu
|
||||||
|
lokatorom
|
||||||
|
kuzyni
|
||||||
|
oszukano
|
||||||
|
pigułki
|
||||||
|
kąta
|
||||||
|
nieobecnego
|
||||||
|
bratem
|
||||||
|
przeciw
|
||||||
|
nawinął
|
||||||
|
odgadywać
|
||||||
|
młodego
|
||||||
|
bluźnij
|
||||||
|
naginają
|
||||||
|
poderżnąć
|
||||||
|
odpowiadały
|
||||||
|
doby
|
||||||
|
karku
|
||||||
|
posiadłszy
|
||||||
|
musiałby
|
||||||
|
babę
|
||||||
|
niezadowolony
|
||||||
|
go
|
||||||
|
dole
|
||||||
|
lejcowe
|
||||||
|
innym
|
||||||
|
nadto
|
||||||
|
krótszy
|
||||||
|
oszalałem
|
||||||
|
martwego
|
||||||
|
obrzucając
|
||||||
|
odbitych
|
||||||
|
misiewiczowej
|
||||||
|
nadzwyczajną
|
||||||
|
ginsów
|
||||||
|
dokończyć
|
||||||
|
kotłów
|
||||||
|
pozawracasz
|
||||||
|
krępują
|
||||||
|
lasu
|
||||||
|
ponury
|
||||||
|
badaniem
|
||||||
|
fryga
|
||||||
|
czuba
|
||||||
|
fechtunku
|
||||||
|
nieobliczony
|
||||||
|
kieszenie
|
||||||
|
ogolić
|
||||||
|
kundmanów
|
||||||
|
ofiarowującego
|
||||||
|
opierać
|
||||||
|
najcięższe
|
||||||
|
namów
|
||||||
|
lukrecji
|
||||||
|
ciągłego
|
||||||
|
krajobrazów
|
||||||
|
najcierpliwszymi
|
||||||
|
powlecze
|
||||||
|
parisien
|
||||||
|
giełda
|
||||||
|
antyżydowskich
|
||||||
|
kufrze
|
||||||
|
olbrzymia
|
||||||
|
jegomości
|
||||||
|
ostateczności
|
||||||
|
jasności
|
||||||
|
nienawistny
|
||||||
|
marianny
|
||||||
|
nura
|
||||||
|
aniołem
|
||||||
|
młodego
|
||||||
|
poczerwieniał
|
||||||
|
pokorą
|
||||||
|
cieni
|
||||||
|
automat
|
||||||
|
odwieziesz
|
||||||
|
propozycją
|
||||||
|
osobliwie
|
||||||
|
gwałtowniej
|
||||||
|
ciężaru
|
||||||
|
nowe
|
||||||
|
gorączkowo
|
||||||
|
pałacowi
|
||||||
|
pieca
|
||||||
|
błota
|
||||||
|
miałam
|
||||||
|
kazał
|
||||||
|
nawiasowo
|
||||||
|
neustadzie
|
||||||
|
godność
|
||||||
|
jesienny
|
||||||
|
natchnie
|
||||||
|
powściągliwości
|
||||||
|
pokarmów
|
||||||
|
jakimiż
|
||||||
|
kundmani
|
||||||
|
ołtarzem
|
||||||
|
lutego
|
||||||
|
pocałowało
|
||||||
|
kopernika
|
||||||
|
nitkami
|
||||||
|
ogień
|
||||||
|
jakimiż
|
||||||
|
napomknąłem
|
||||||
|
kępy
|
||||||
|
pokorą
|
||||||
|
defektem
|
||||||
|
niebieskich
|
||||||
|
gotowiźnie
|
||||||
|
napomknąłem
|
||||||
|
poczęło
|
||||||
|
belą
|
||||||
|
burboni
|
||||||
|
kochanym
|
||||||
|
kawałka
|
||||||
|
gdzieżeś
|
||||||
|
doradca
|
||||||
|
jedynastą
|
||||||
|
moskiewski
|
||||||
|
janocką
|
||||||
|
niepokojów
|
||||||
|
mleka
|
||||||
|
jednakże
|
||||||
|
kiełbik
|
||||||
|
mniejszej
|
||||||
|
odlany
|
||||||
|
blade
|
||||||
|
dziewczynce
|
||||||
|
oglądali
|
||||||
|
ciągłego
|
||||||
|
gwałt
|
||||||
|
przechodzących
|
||||||
|
przechodzących
|
||||||
|
dymi
|
||||||
|
ostatecznie
|
||||||
|
pośrednictwem
|
||||||
|
nieznajomym
|
||||||
|
kutasik
|
||||||
|
czekają
|
||||||
|
maur
|
||||||
|
fakt
|
||||||
|
dorosłą
|
||||||
|
ozdobionym
|
||||||
|
cechy
|
||||||
|
elegancka
|
||||||
|
historie
|
|
1793
train/train_test.tsv
Normal file
1793
train/train_test.tsv
Normal file
File diff suppressed because it is too large
Load Diff
7168
train/train_train.tsv
Normal file
7168
train/train_train.tsv
Normal file
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue
Block a user