epochs: 3
embed_size: 100
device: cuda
vocab_size: 20000
batch_size: 3200
learning_rate: 0.0003
k: 20
wildcard_minweight: 0.001