challenging-america-word-gap-prediction/cw8zad1.ipynb at 464857d8ddcd6ccee712c85eed38ca28a6e225f8

160 KiB

Raw Blame History

Imports

import itertools
import lzma
import numpy as np
import regex as re
import torch
from torch import nn
from torch.utils.data import IterableDataset, DataLoader
from torchtext.vocab import build_vocab_from_iterator

from google.colab import drive

Definitions

Functions

def clean_line(line: str):
    # Preprocessing
    separated = line.split('\t')
    prefix = separated[6].replace(r'\n', ' ')
    suffix = separated[7].replace(r'\n', ' ')
    return prefix + ' ' + suffix

def get_words_from_line(line):
    line = clean_line(line)
    for word in line.split():
        yield word

def get_word_lines_from_file(file_name):
    with lzma.open(file_name, mode='rt', encoding='utf-8') as fid:
        for line in fid:
            yield get_words_from_line(line)

def double_look_ahead_iterator(gen):
    prev_prev = None
    prev = None
    for item in gen:
        if prev_prev is not None:
            yield np.asarray((prev_prev, prev, item))
        prev_prev = prev
        prev = item

def prediction(words, model, top) -> str:
    words_tensor = [train_dataset.vocab.forward([word]) for word in words]
    ixs = torch.tensor(words_tensor).view(-1).to(device)
    out = model(ixs)
    top = torch.topk(out[0], top)
    top_indices = top.indices.tolist()
    top_probs = top.values.tolist()
    top_words = vocab.lookup_tokens(top_indices)
    zipped = list(zip(top_words, top_probs))
    for index, element in enumerate(zipped):
        unk = None
        if '<unk>' in element:
            unk = zipped.pop(index)
            zipped.append(('', unk[1]))
            break
    if unk is None:
        zipped[-1] = ('', zipped[-1][1])
    return ' '.join([f'{x[0]}:{x[1]}' for x in zipped])

def create_outputs(folder_name, model, top):
    print(f'Creating outputs in {folder_name}')
    with lzma.open(f'{folder_name}/in.tsv.xz', mode='rt', encoding='utf-8') as fid:
        with open(f'{folder_name}/out-top={top}.tsv', 'w', encoding='utf-8', newline='\n') as f:
            for line in fid:
                separated = line.split('\t')
                prefix = separated[6].replace(r'\n', ' ').split()[-2:]
                output_line = prediction(prefix, model, top)
                f.write(output_line + '\n')

def train_model(lr):
    model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)
    data = DataLoader(train_dataset, batch_size=batch_size)
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)
    criterion = torch.nn.NLLLoss()

    model.train()
    step = 0
    for batch in data:
        x = batch[:, :2]
        y = batch[:, 2]
        x = x.to(device)
        y = y.to(device)
        optimizer.zero_grad()
        ypredicted = model(x)
        loss = criterion(torch.log(ypredicted), y)
        if step % 100 == 0:
            print(step, loss)
        step += 1
        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), 10)


        optimizer.step()

    torch.save(model.state_dict(), path_to_model)

def with_hyperparams():
      train_model(lr=0.0001)
      model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)
      model.load_state_dict(torch.load(path_to_model))
      model.eval()
      for top in [200, 400, 600]:
          create_outputs('dev-0', model, top)
          create_outputs('test-A', model, top)

Classes

class Trigrams(IterableDataset):
    def __init__(self, text_file, vocabulary_size):
        self.vocab = build_vocab_from_iterator(
            get_word_lines_from_file(text_file),
            max_tokens=vocabulary_size,
            specials=['<unk>'])
        self.vocab.set_default_index(self.vocab['<unk>'])
        self.vocabulary_size = vocabulary_size
        self.text_file = text_file

    def __iter__(self):
        return double_look_ahead_iterator(
            (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))

class SimpleTrigramNeuralLanguageModel(nn.Module):
    def __init__(self, vocabulary_size, embedding_size, hidden_size):
        super(SimpleTrigramNeuralLanguageModel, self).__init__()
        self.embedding_size = embedding_size
        self.embedding = nn.Embedding(vocabulary_size, embedding_size)
        self.lin1 = nn.Linear(2 * embedding_size, hidden_size)
        self.rel = nn.ReLU()
        self.lin2 = nn.Linear(hidden_size, vocabulary_size)
        self.sm = nn.Softmax()

    def forward(self, x):
        x = self.embedding(x).view((-1, 2 * self.embedding_size))
        x = self.lin1(x)
        x = self.rel(x)
        x = self.lin2(x)
        return self.sm(x)

Training

Params

vocab_size = 25000
embed_size = 300
hidden_size = 150
batch_size = 2000
device = 'cuda'
path_to_train = 'train/in.tsv.xz'
path_to_model = 'model1.bin'

Colab

drive.mount('/content/drive')
%cd /content/drive/MyDrive/

Mounted at /content/drive
/content/drive/MyDrive

Run

vocab = build_vocab_from_iterator(
    get_word_lines_from_file(path_to_train),
    max_tokens=vocab_size,
    specials=['<unk>']
)

vocab.set_default_index(vocab['<unk>'])

train_dataset = Trigrams(path_to_train, vocab_size)

with_hyperparams()

<ipython-input-12-cce599098537>:16: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.
  return self.sm(x)

0 tensor(10.2816, device='cuda:0', grad_fn=<NllLossBackward0>)
100 tensor(8.0874, device='cuda:0', grad_fn=<NllLossBackward0>)
200 tensor(7.3011, device='cuda:0', grad_fn=<NllLossBackward0>)
300 tensor(6.8605, device='cuda:0', grad_fn=<NllLossBackward0>)
400 tensor(6.6410, device='cuda:0', grad_fn=<NllLossBackward0>)
500 tensor(6.6596, device='cuda:0', grad_fn=<NllLossBackward0>)
600 tensor(6.7300, device='cuda:0', grad_fn=<NllLossBackward0>)
700 tensor(6.4137, device='cuda:0', grad_fn=<NllLossBackward0>)
800 tensor(6.2311, device='cuda:0', grad_fn=<NllLossBackward0>)
900 tensor(6.4220, device='cuda:0', grad_fn=<NllLossBackward0>)
1000 tensor(6.3330, device='cuda:0', grad_fn=<NllLossBackward0>)
1100 tensor(5.8911, device='cuda:0', grad_fn=<NllLossBackward0>)
1200 tensor(6.4313, device='cuda:0', grad_fn=<NllLossBackward0>)
1300 tensor(6.4927, device='cuda:0', grad_fn=<NllLossBackward0>)
1400 tensor(6.2074, device='cuda:0', grad_fn=<NllLossBackward0>)
1500 tensor(6.0134, device='cuda:0', grad_fn=<NllLossBackward0>)
1600 tensor(6.0459, device='cuda:0', grad_fn=<NllLossBackward0>)
1700 tensor(6.3502, device='cuda:0', grad_fn=<NllLossBackward0>)
1800 tensor(6.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
1900 tensor(6.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
2000 tensor(6.2718, device='cuda:0', grad_fn=<NllLossBackward0>)
2100 tensor(6.0547, device='cuda:0', grad_fn=<NllLossBackward0>)
2200 tensor(6.2779, device='cuda:0', grad_fn=<NllLossBackward0>)
2300 tensor(6.2553, device='cuda:0', grad_fn=<NllLossBackward0>)
2400 tensor(6.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
2500 tensor(6.2407, device='cuda:0', grad_fn=<NllLossBackward0>)
2600 tensor(6.1578, device='cuda:0', grad_fn=<NllLossBackward0>)
2700 tensor(6.2600, device='cuda:0', grad_fn=<NllLossBackward0>)
2800 tensor(6.1772, device='cuda:0', grad_fn=<NllLossBackward0>)
2900 tensor(6.1334, device='cuda:0', grad_fn=<NllLossBackward0>)
3000 tensor(6.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
3100 tensor(5.8966, device='cuda:0', grad_fn=<NllLossBackward0>)
3200 tensor(6.4685, device='cuda:0', grad_fn=<NllLossBackward0>)
3300 tensor(6.1750, device='cuda:0', grad_fn=<NllLossBackward0>)
3400 tensor(6.0377, device='cuda:0', grad_fn=<NllLossBackward0>)
3500 tensor(5.9993, device='cuda:0', grad_fn=<NllLossBackward0>)
3600 tensor(6.2814, device='cuda:0', grad_fn=<NllLossBackward0>)
3700 tensor(6.0636, device='cuda:0', grad_fn=<NllLossBackward0>)
3800 tensor(6.1692, device='cuda:0', grad_fn=<NllLossBackward0>)
3900 tensor(6.0696, device='cuda:0', grad_fn=<NllLossBackward0>)
4000 tensor(5.9469, device='cuda:0', grad_fn=<NllLossBackward0>)
4100 tensor(6.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
4200 tensor(6.0045, device='cuda:0', grad_fn=<NllLossBackward0>)
4300 tensor(5.9191, device='cuda:0', grad_fn=<NllLossBackward0>)
4400 tensor(5.6558, device='cuda:0', grad_fn=<NllLossBackward0>)
4500 tensor(6.0260, device='cuda:0', grad_fn=<NllLossBackward0>)
4600 tensor(5.9318, device='cuda:0', grad_fn=<NllLossBackward0>)
4700 tensor(5.7548, device='cuda:0', grad_fn=<NllLossBackward0>)
4800 tensor(5.9082, device='cuda:0', grad_fn=<NllLossBackward0>)
4900 tensor(5.9874, device='cuda:0', grad_fn=<NllLossBackward0>)
5000 tensor(6.1293, device='cuda:0', grad_fn=<NllLossBackward0>)
5100 tensor(5.9621, device='cuda:0', grad_fn=<NllLossBackward0>)
5200 tensor(6.1658, device='cuda:0', grad_fn=<NllLossBackward0>)
5300 tensor(6.1172, device='cuda:0', grad_fn=<NllLossBackward0>)
5400 tensor(5.9979, device='cuda:0', grad_fn=<NllLossBackward0>)
5500 tensor(5.9875, device='cuda:0', grad_fn=<NllLossBackward0>)
5600 tensor(5.9671, device='cuda:0', grad_fn=<NllLossBackward0>)
5700 tensor(6.0500, device='cuda:0', grad_fn=<NllLossBackward0>)
5800 tensor(6.0068, device='cuda:0', grad_fn=<NllLossBackward0>)
5900 tensor(5.9626, device='cuda:0', grad_fn=<NllLossBackward0>)
6000 tensor(5.8784, device='cuda:0', grad_fn=<NllLossBackward0>)
6100 tensor(5.8995, device='cuda:0', grad_fn=<NllLossBackward0>)
6200 tensor(6.0585, device='cuda:0', grad_fn=<NllLossBackward0>)
6300 tensor(5.8529, device='cuda:0', grad_fn=<NllLossBackward0>)
6400 tensor(6.2183, device='cuda:0', grad_fn=<NllLossBackward0>)
6500 tensor(5.7956, device='cuda:0', grad_fn=<NllLossBackward0>)
6600 tensor(6.1202, device='cuda:0', grad_fn=<NllLossBackward0>)
6700 tensor(5.9845, device='cuda:0', grad_fn=<NllLossBackward0>)
6800 tensor(5.8483, device='cuda:0', grad_fn=<NllLossBackward0>)
6900 tensor(5.7904, device='cuda:0', grad_fn=<NllLossBackward0>)
7000 tensor(5.9802, device='cuda:0', grad_fn=<NllLossBackward0>)
7100 tensor(5.8162, device='cuda:0', grad_fn=<NllLossBackward0>)
7200 tensor(5.9335, device='cuda:0', grad_fn=<NllLossBackward0>)
7300 tensor(6.0946, device='cuda:0', grad_fn=<NllLossBackward0>)
7400 tensor(5.7713, device='cuda:0', grad_fn=<NllLossBackward0>)
7500 tensor(5.9371, device='cuda:0', grad_fn=<NllLossBackward0>)
7600 tensor(5.9764, device='cuda:0', grad_fn=<NllLossBackward0>)
7700 tensor(5.8244, device='cuda:0', grad_fn=<NllLossBackward0>)
7800 tensor(5.8648, device='cuda:0', grad_fn=<NllLossBackward0>)
7900 tensor(5.9836, device='cuda:0', grad_fn=<NllLossBackward0>)
8000 tensor(5.7520, device='cuda:0', grad_fn=<NllLossBackward0>)
8100 tensor(6.0581, device='cuda:0', grad_fn=<NllLossBackward0>)
8200 tensor(5.9861, device='cuda:0', grad_fn=<NllLossBackward0>)
8300 tensor(5.8679, device='cuda:0', grad_fn=<NllLossBackward0>)
8400 tensor(6.0469, device='cuda:0', grad_fn=<NllLossBackward0>)
8500 tensor(5.2911, device='cuda:0', grad_fn=<NllLossBackward0>)
8600 tensor(5.8262, device='cuda:0', grad_fn=<NllLossBackward0>)
8700 tensor(5.4335, device='cuda:0', grad_fn=<NllLossBackward0>)
8800 tensor(5.9286, device='cuda:0', grad_fn=<NllLossBackward0>)
8900 tensor(5.8460, device='cuda:0', grad_fn=<NllLossBackward0>)
9000 tensor(5.7882, device='cuda:0', grad_fn=<NllLossBackward0>)
9100 tensor(5.8364, device='cuda:0', grad_fn=<NllLossBackward0>)
9200 tensor(5.8717, device='cuda:0', grad_fn=<NllLossBackward0>)
9300 tensor(5.7924, device='cuda:0', grad_fn=<NllLossBackward0>)
9400 tensor(6.0214, device='cuda:0', grad_fn=<NllLossBackward0>)
9500 tensor(5.6685, device='cuda:0', grad_fn=<NllLossBackward0>)
9600 tensor(5.9195, device='cuda:0', grad_fn=<NllLossBackward0>)
9700 tensor(5.8427, device='cuda:0', grad_fn=<NllLossBackward0>)
9800 tensor(5.9811, device='cuda:0', grad_fn=<NllLossBackward0>)
9900 tensor(5.8592, device='cuda:0', grad_fn=<NllLossBackward0>)
10000 tensor(5.9564, device='cuda:0', grad_fn=<NllLossBackward0>)
10100 tensor(5.8729, device='cuda:0', grad_fn=<NllLossBackward0>)
10200 tensor(5.6916, device='cuda:0', grad_fn=<NllLossBackward0>)
10300 tensor(5.9128, device='cuda:0', grad_fn=<NllLossBackward0>)
10400 tensor(5.9079, device='cuda:0', grad_fn=<NllLossBackward0>)
10500 tensor(5.8597, device='cuda:0', grad_fn=<NllLossBackward0>)
10600 tensor(5.6586, device='cuda:0', grad_fn=<NllLossBackward0>)
10700 tensor(5.7103, device='cuda:0', grad_fn=<NllLossBackward0>)
10800 tensor(5.8059, device='cuda:0', grad_fn=<NllLossBackward0>)
10900 tensor(5.7661, device='cuda:0', grad_fn=<NllLossBackward0>)
11000 tensor(5.8309, device='cuda:0', grad_fn=<NllLossBackward0>)
11100 tensor(5.8962, device='cuda:0', grad_fn=<NllLossBackward0>)
11200 tensor(5.7293, device='cuda:0', grad_fn=<NllLossBackward0>)
11300 tensor(5.9601, device='cuda:0', grad_fn=<NllLossBackward0>)
11400 tensor(5.8209, device='cuda:0', grad_fn=<NllLossBackward0>)
11500 tensor(5.9181, device='cuda:0', grad_fn=<NllLossBackward0>)
11600 tensor(5.9877, device='cuda:0', grad_fn=<NllLossBackward0>)
11700 tensor(5.8637, device='cuda:0', grad_fn=<NllLossBackward0>)
11800 tensor(5.5323, device='cuda:0', grad_fn=<NllLossBackward0>)
11900 tensor(6.0545, device='cuda:0', grad_fn=<NllLossBackward0>)
12000 tensor(5.8079, device='cuda:0', grad_fn=<NllLossBackward0>)
12100 tensor(5.7666, device='cuda:0', grad_fn=<NllLossBackward0>)
12200 tensor(5.7676, device='cuda:0', grad_fn=<NllLossBackward0>)
12300 tensor(5.6971, device='cuda:0', grad_fn=<NllLossBackward0>)
12400 tensor(5.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
12500 tensor(5.9413, device='cuda:0', grad_fn=<NllLossBackward0>)
12600 tensor(5.6855, device='cuda:0', grad_fn=<NllLossBackward0>)
12700 tensor(5.8376, device='cuda:0', grad_fn=<NllLossBackward0>)
12800 tensor(5.8903, device='cuda:0', grad_fn=<NllLossBackward0>)
12900 tensor(5.6451, device='cuda:0', grad_fn=<NllLossBackward0>)
13000 tensor(5.8009, device='cuda:0', grad_fn=<NllLossBackward0>)
13100 tensor(5.6576, device='cuda:0', grad_fn=<NllLossBackward0>)
13200 tensor(5.6972, device='cuda:0', grad_fn=<NllLossBackward0>)
13300 tensor(5.9513, device='cuda:0', grad_fn=<NllLossBackward0>)
13400 tensor(5.6553, device='cuda:0', grad_fn=<NllLossBackward0>)
13500 tensor(5.6932, device='cuda:0', grad_fn=<NllLossBackward0>)
13600 tensor(5.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
13700 tensor(5.6179, device='cuda:0', grad_fn=<NllLossBackward0>)
13800 tensor(5.7176, device='cuda:0', grad_fn=<NllLossBackward0>)
13900 tensor(5.5691, device='cuda:0', grad_fn=<NllLossBackward0>)
14000 tensor(5.6540, device='cuda:0', grad_fn=<NllLossBackward0>)
14100 tensor(5.7564, device='cuda:0', grad_fn=<NllLossBackward0>)
14200 tensor(5.7043, device='cuda:0', grad_fn=<NllLossBackward0>)
14300 tensor(5.7265, device='cuda:0', grad_fn=<NllLossBackward0>)
14400 tensor(5.8703, device='cuda:0', grad_fn=<NllLossBackward0>)
14500 tensor(5.8482, device='cuda:0', grad_fn=<NllLossBackward0>)
14600 tensor(5.6982, device='cuda:0', grad_fn=<NllLossBackward0>)
14700 tensor(5.6555, device='cuda:0', grad_fn=<NllLossBackward0>)
14800 tensor(5.5586, device='cuda:0', grad_fn=<NllLossBackward0>)
14900 tensor(5.9024, device='cuda:0', grad_fn=<NllLossBackward0>)
15000 tensor(5.7387, device='cuda:0', grad_fn=<NllLossBackward0>)
15100 tensor(5.4609, device='cuda:0', grad_fn=<NllLossBackward0>)
15200 tensor(5.4687, device='cuda:0', grad_fn=<NllLossBackward0>)
15300 tensor(5.7589, device='cuda:0', grad_fn=<NllLossBackward0>)
15400 tensor(5.6847, device='cuda:0', grad_fn=<NllLossBackward0>)
15500 tensor(5.8356, device='cuda:0', grad_fn=<NllLossBackward0>)
15600 tensor(5.4633, device='cuda:0', grad_fn=<NllLossBackward0>)
15700 tensor(5.5392, device='cuda:0', grad_fn=<NllLossBackward0>)
15800 tensor(5.7983, device='cuda:0', grad_fn=<NllLossBackward0>)
15900 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)
16000 tensor(5.7285, device='cuda:0', grad_fn=<NllLossBackward0>)
16100 tensor(5.6307, device='cuda:0', grad_fn=<NllLossBackward0>)
16200 tensor(5.5589, device='cuda:0', grad_fn=<NllLossBackward0>)
16300 tensor(5.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
16400 tensor(5.7657, device='cuda:0', grad_fn=<NllLossBackward0>)
16500 tensor(5.8467, device='cuda:0', grad_fn=<NllLossBackward0>)
16600 tensor(5.6294, device='cuda:0', grad_fn=<NllLossBackward0>)
16700 tensor(5.5932, device='cuda:0', grad_fn=<NllLossBackward0>)
16800 tensor(5.7750, device='cuda:0', grad_fn=<NllLossBackward0>)
16900 tensor(5.4914, device='cuda:0', grad_fn=<NllLossBackward0>)
17000 tensor(5.4533, device='cuda:0', grad_fn=<NllLossBackward0>)
17100 tensor(5.6537, device='cuda:0', grad_fn=<NllLossBackward0>)
17200 tensor(5.4227, device='cuda:0', grad_fn=<NllLossBackward0>)
17300 tensor(5.7858, device='cuda:0', grad_fn=<NllLossBackward0>)
17400 tensor(5.6572, device='cuda:0', grad_fn=<NllLossBackward0>)
17500 tensor(5.6952, device='cuda:0', grad_fn=<NllLossBackward0>)
17600 tensor(5.3829, device='cuda:0', grad_fn=<NllLossBackward0>)
17700 tensor(5.6248, device='cuda:0', grad_fn=<NllLossBackward0>)
17800 tensor(5.6418, device='cuda:0', grad_fn=<NllLossBackward0>)
17900 tensor(5.6353, device='cuda:0', grad_fn=<NllLossBackward0>)
18000 tensor(5.6660, device='cuda:0', grad_fn=<NllLossBackward0>)
18100 tensor(5.7060, device='cuda:0', grad_fn=<NllLossBackward0>)
18200 tensor(5.5214, device='cuda:0', grad_fn=<NllLossBackward0>)
18300 tensor(5.2950, device='cuda:0', grad_fn=<NllLossBackward0>)
18400 tensor(5.4082, device='cuda:0', grad_fn=<NllLossBackward0>)
18500 tensor(5.6406, device='cuda:0', grad_fn=<NllLossBackward0>)
18600 tensor(5.7120, device='cuda:0', grad_fn=<NllLossBackward0>)
18700 tensor(5.4196, device='cuda:0', grad_fn=<NllLossBackward0>)
18800 tensor(5.6700, device='cuda:0', grad_fn=<NllLossBackward0>)
18900 tensor(5.5718, device='cuda:0', grad_fn=<NllLossBackward0>)
19000 tensor(5.7505, device='cuda:0', grad_fn=<NllLossBackward0>)
19100 tensor(5.6901, device='cuda:0', grad_fn=<NllLossBackward0>)
19200 tensor(5.6878, device='cuda:0', grad_fn=<NllLossBackward0>)
19300 tensor(5.5269, device='cuda:0', grad_fn=<NllLossBackward0>)
19400 tensor(5.8424, device='cuda:0', grad_fn=<NllLossBackward0>)
19500 tensor(5.4928, device='cuda:0', grad_fn=<NllLossBackward0>)
19600 tensor(5.6325, device='cuda:0', grad_fn=<NllLossBackward0>)
19700 tensor(5.7592, device='cuda:0', grad_fn=<NllLossBackward0>)
19800 tensor(5.5518, device='cuda:0', grad_fn=<NllLossBackward0>)
19900 tensor(5.7117, device='cuda:0', grad_fn=<NllLossBackward0>)
20000 tensor(5.5813, device='cuda:0', grad_fn=<NllLossBackward0>)
20100 tensor(5.6454, device='cuda:0', grad_fn=<NllLossBackward0>)
20200 tensor(5.7510, device='cuda:0', grad_fn=<NllLossBackward0>)
20300 tensor(5.8181, device='cuda:0', grad_fn=<NllLossBackward0>)
20400 tensor(5.8155, device='cuda:0', grad_fn=<NllLossBackward0>)
20500 tensor(5.3773, device='cuda:0', grad_fn=<NllLossBackward0>)
20600 tensor(5.5521, device='cuda:0', grad_fn=<NllLossBackward0>)
20700 tensor(5.6134, device='cuda:0', grad_fn=<NllLossBackward0>)
20800 tensor(5.6929, device='cuda:0', grad_fn=<NllLossBackward0>)
20900 tensor(5.3798, device='cuda:0', grad_fn=<NllLossBackward0>)
21000 tensor(5.8039, device='cuda:0', grad_fn=<NllLossBackward0>)
21100 tensor(5.7957, device='cuda:0', grad_fn=<NllLossBackward0>)
21200 tensor(5.4851, device='cuda:0', grad_fn=<NllLossBackward0>)
21300 tensor(5.5127, device='cuda:0', grad_fn=<NllLossBackward0>)
21400 tensor(5.5509, device='cuda:0', grad_fn=<NllLossBackward0>)
21500 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)
21600 tensor(5.3355, device='cuda:0', grad_fn=<NllLossBackward0>)
21700 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)
21800 tensor(5.3432, device='cuda:0', grad_fn=<NllLossBackward0>)
21900 tensor(5.3518, device='cuda:0', grad_fn=<NllLossBackward0>)
22000 tensor(5.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
22100 tensor(5.7094, device='cuda:0', grad_fn=<NllLossBackward0>)
22200 tensor(5.5811, device='cuda:0', grad_fn=<NllLossBackward0>)
22300 tensor(5.7435, device='cuda:0', grad_fn=<NllLossBackward0>)
22400 tensor(5.5894, device='cuda:0', grad_fn=<NllLossBackward0>)
22500 tensor(5.5091, device='cuda:0', grad_fn=<NllLossBackward0>)
22600 tensor(5.5073, device='cuda:0', grad_fn=<NllLossBackward0>)
22700 tensor(5.4779, device='cuda:0', grad_fn=<NllLossBackward0>)
22800 tensor(5.8792, device='cuda:0', grad_fn=<NllLossBackward0>)
22900 tensor(5.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
23000 tensor(5.4073, device='cuda:0', grad_fn=<NllLossBackward0>)
23100 tensor(5.6821, device='cuda:0', grad_fn=<NllLossBackward0>)
23200 tensor(5.4730, device='cuda:0', grad_fn=<NllLossBackward0>)
23300 tensor(5.6713, device='cuda:0', grad_fn=<NllLossBackward0>)
23400 tensor(5.7847, device='cuda:0', grad_fn=<NllLossBackward0>)
23500 tensor(5.5772, device='cuda:0', grad_fn=<NllLossBackward0>)
23600 tensor(5.6140, device='cuda:0', grad_fn=<NllLossBackward0>)
23700 tensor(5.6205, device='cuda:0', grad_fn=<NllLossBackward0>)
23800 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)
23900 tensor(5.3856, device='cuda:0', grad_fn=<NllLossBackward0>)
24000 tensor(5.5695, device='cuda:0', grad_fn=<NllLossBackward0>)
24100 tensor(5.5177, device='cuda:0', grad_fn=<NllLossBackward0>)
24200 tensor(5.7037, device='cuda:0', grad_fn=<NllLossBackward0>)
24300 tensor(5.5850, device='cuda:0', grad_fn=<NllLossBackward0>)
24400 tensor(5.6850, device='cuda:0', grad_fn=<NllLossBackward0>)
24500 tensor(5.5087, device='cuda:0', grad_fn=<NllLossBackward0>)
24600 tensor(5.4836, device='cuda:0', grad_fn=<NllLossBackward0>)
24700 tensor(5.2676, device='cuda:0', grad_fn=<NllLossBackward0>)
24800 tensor(5.7581, device='cuda:0', grad_fn=<NllLossBackward0>)
24900 tensor(5.6625, device='cuda:0', grad_fn=<NllLossBackward0>)
25000 tensor(5.1838, device='cuda:0', grad_fn=<NllLossBackward0>)
25100 tensor(5.4444, device='cuda:0', grad_fn=<NllLossBackward0>)
25200 tensor(5.5937, device='cuda:0', grad_fn=<NllLossBackward0>)
25300 tensor(5.4304, device='cuda:0', grad_fn=<NllLossBackward0>)
25400 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
25500 tensor(5.4616, device='cuda:0', grad_fn=<NllLossBackward0>)
25600 tensor(5.5548, device='cuda:0', grad_fn=<NllLossBackward0>)
25700 tensor(5.3802, device='cuda:0', grad_fn=<NllLossBackward0>)
25800 tensor(5.5419, device='cuda:0', grad_fn=<NllLossBackward0>)
25900 tensor(5.2775, device='cuda:0', grad_fn=<NllLossBackward0>)
26000 tensor(5.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
26100 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)
26200 tensor(5.5123, device='cuda:0', grad_fn=<NllLossBackward0>)
26300 tensor(5.3549, device='cuda:0', grad_fn=<NllLossBackward0>)
26400 tensor(5.5192, device='cuda:0', grad_fn=<NllLossBackward0>)
26500 tensor(5.6712, device='cuda:0', grad_fn=<NllLossBackward0>)
26600 tensor(5.5907, device='cuda:0', grad_fn=<NllLossBackward0>)
26700 tensor(5.3220, device='cuda:0', grad_fn=<NllLossBackward0>)
26800 tensor(5.4965, device='cuda:0', grad_fn=<NllLossBackward0>)
26900 tensor(5.6626, device='cuda:0', grad_fn=<NllLossBackward0>)
27000 tensor(5.7166, device='cuda:0', grad_fn=<NllLossBackward0>)
27100 tensor(5.6291, device='cuda:0', grad_fn=<NllLossBackward0>)
27200 tensor(5.3511, device='cuda:0', grad_fn=<NllLossBackward0>)
27300 tensor(5.2532, device='cuda:0', grad_fn=<NllLossBackward0>)
27400 tensor(5.3654, device='cuda:0', grad_fn=<NllLossBackward0>)
27500 tensor(5.7026, device='cuda:0', grad_fn=<NllLossBackward0>)
27600 tensor(5.5182, device='cuda:0', grad_fn=<NllLossBackward0>)
27700 tensor(5.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
27800 tensor(5.6677, device='cuda:0', grad_fn=<NllLossBackward0>)
27900 tensor(5.7273, device='cuda:0', grad_fn=<NllLossBackward0>)
28000 tensor(5.2384, device='cuda:0', grad_fn=<NllLossBackward0>)
28100 tensor(5.5435, device='cuda:0', grad_fn=<NllLossBackward0>)
28200 tensor(5.5728, device='cuda:0', grad_fn=<NllLossBackward0>)
28300 tensor(5.7800, device='cuda:0', grad_fn=<NllLossBackward0>)
28400 tensor(5.6147, device='cuda:0', grad_fn=<NllLossBackward0>)
28500 tensor(5.7116, device='cuda:0', grad_fn=<NllLossBackward0>)
28600 tensor(5.4540, device='cuda:0', grad_fn=<NllLossBackward0>)
28700 tensor(5.8077, device='cuda:0', grad_fn=<NllLossBackward0>)
28800 tensor(5.4414, device='cuda:0', grad_fn=<NllLossBackward0>)
28900 tensor(5.5426, device='cuda:0', grad_fn=<NllLossBackward0>)
29000 tensor(5.4439, device='cuda:0', grad_fn=<NllLossBackward0>)
29100 tensor(5.7868, device='cuda:0', grad_fn=<NllLossBackward0>)
29200 tensor(5.4390, device='cuda:0', grad_fn=<NllLossBackward0>)
29300 tensor(5.4765, device='cuda:0', grad_fn=<NllLossBackward0>)
29400 tensor(5.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
29500 tensor(5.5970, device='cuda:0', grad_fn=<NllLossBackward0>)
29600 tensor(5.3440, device='cuda:0', grad_fn=<NllLossBackward0>)
29700 tensor(5.6037, device='cuda:0', grad_fn=<NllLossBackward0>)
29800 tensor(5.4296, device='cuda:0', grad_fn=<NllLossBackward0>)
29900 tensor(5.2684, device='cuda:0', grad_fn=<NllLossBackward0>)
30000 tensor(5.6849, device='cuda:0', grad_fn=<NllLossBackward0>)
30100 tensor(5.5705, device='cuda:0', grad_fn=<NllLossBackward0>)
30200 tensor(5.5869, device='cuda:0', grad_fn=<NllLossBackward0>)
30300 tensor(5.3990, device='cuda:0', grad_fn=<NllLossBackward0>)
30400 tensor(5.3963, device='cuda:0', grad_fn=<NllLossBackward0>)
30500 tensor(5.4373, device='cuda:0', grad_fn=<NllLossBackward0>)
30600 tensor(5.7698, device='cuda:0', grad_fn=<NllLossBackward0>)
30700 tensor(5.4194, device='cuda:0', grad_fn=<NllLossBackward0>)
30800 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)
30900 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)
31000 tensor(5.5052, device='cuda:0', grad_fn=<NllLossBackward0>)
31100 tensor(5.3274, device='cuda:0', grad_fn=<NllLossBackward0>)
31200 tensor(5.5236, device='cuda:0', grad_fn=<NllLossBackward0>)
31300 tensor(5.5516, device='cuda:0', grad_fn=<NllLossBackward0>)
31400 tensor(5.5021, device='cuda:0', grad_fn=<NllLossBackward0>)
31500 tensor(5.3688, device='cuda:0', grad_fn=<NllLossBackward0>)
31600 tensor(5.3571, device='cuda:0', grad_fn=<NllLossBackward0>)
31700 tensor(5.3006, device='cuda:0', grad_fn=<NllLossBackward0>)
31800 tensor(5.4497, device='cuda:0', grad_fn=<NllLossBackward0>)
31900 tensor(5.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
32000 tensor(5.5294, device='cuda:0', grad_fn=<NllLossBackward0>)
32100 tensor(5.4676, device='cuda:0', grad_fn=<NllLossBackward0>)
32200 tensor(5.6160, device='cuda:0', grad_fn=<NllLossBackward0>)
32300 tensor(5.5899, device='cuda:0', grad_fn=<NllLossBackward0>)
32400 tensor(5.4413, device='cuda:0', grad_fn=<NllLossBackward0>)
32500 tensor(5.6116, device='cuda:0', grad_fn=<NllLossBackward0>)
32600 tensor(5.4764, device='cuda:0', grad_fn=<NllLossBackward0>)
32700 tensor(5.6284, device='cuda:0', grad_fn=<NllLossBackward0>)
32800 tensor(5.3815, device='cuda:0', grad_fn=<NllLossBackward0>)
32900 tensor(5.4740, device='cuda:0', grad_fn=<NllLossBackward0>)
33000 tensor(5.3463, device='cuda:0', grad_fn=<NllLossBackward0>)
33100 tensor(5.5368, device='cuda:0', grad_fn=<NllLossBackward0>)
33200 tensor(5.5316, device='cuda:0', grad_fn=<NllLossBackward0>)
33300 tensor(5.6062, device='cuda:0', grad_fn=<NllLossBackward0>)
33400 tensor(5.5938, device='cuda:0', grad_fn=<NllLossBackward0>)
33500 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)
33600 tensor(5.4363, device='cuda:0', grad_fn=<NllLossBackward0>)
33700 tensor(5.5973, device='cuda:0', grad_fn=<NllLossBackward0>)
33800 tensor(5.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
33900 tensor(5.6379, device='cuda:0', grad_fn=<NllLossBackward0>)
34000 tensor(5.4375, device='cuda:0', grad_fn=<NllLossBackward0>)
34100 tensor(5.5284, device='cuda:0', grad_fn=<NllLossBackward0>)
34200 tensor(5.5917, device='cuda:0', grad_fn=<NllLossBackward0>)
34300 tensor(5.6839, device='cuda:0', grad_fn=<NllLossBackward0>)
34400 tensor(5.6017, device='cuda:0', grad_fn=<NllLossBackward0>)
34500 tensor(5.6045, device='cuda:0', grad_fn=<NllLossBackward0>)
34600 tensor(5.3812, device='cuda:0', grad_fn=<NllLossBackward0>)
34700 tensor(5.5830, device='cuda:0', grad_fn=<NllLossBackward0>)
34800 tensor(5.7016, device='cuda:0', grad_fn=<NllLossBackward0>)
34900 tensor(5.5168, device='cuda:0', grad_fn=<NllLossBackward0>)
35000 tensor(5.4510, device='cuda:0', grad_fn=<NllLossBackward0>)
35100 tensor(5.7052, device='cuda:0', grad_fn=<NllLossBackward0>)
35200 tensor(5.2325, device='cuda:0', grad_fn=<NllLossBackward0>)
35300 tensor(5.6793, device='cuda:0', grad_fn=<NllLossBackward0>)
35400 tensor(5.5783, device='cuda:0', grad_fn=<NllLossBackward0>)
35500 tensor(5.5625, device='cuda:0', grad_fn=<NllLossBackward0>)
35600 tensor(5.3234, device='cuda:0', grad_fn=<NllLossBackward0>)
35700 tensor(5.2441, device='cuda:0', grad_fn=<NllLossBackward0>)
35800 tensor(5.5403, device='cuda:0', grad_fn=<NllLossBackward0>)
35900 tensor(5.6724, device='cuda:0', grad_fn=<NllLossBackward0>)
36000 tensor(5.5632, device='cuda:0', grad_fn=<NllLossBackward0>)
36100 tensor(5.3487, device='cuda:0', grad_fn=<NllLossBackward0>)
36200 tensor(5.4890, device='cuda:0', grad_fn=<NllLossBackward0>)
36300 tensor(5.6083, device='cuda:0', grad_fn=<NllLossBackward0>)
36400 tensor(5.3093, device='cuda:0', grad_fn=<NllLossBackward0>)
36500 tensor(5.3934, device='cuda:0', grad_fn=<NllLossBackward0>)
36600 tensor(5.5469, device='cuda:0', grad_fn=<NllLossBackward0>)
36700 tensor(5.4224, device='cuda:0', grad_fn=<NllLossBackward0>)
36800 tensor(5.4415, device='cuda:0', grad_fn=<NllLossBackward0>)
36900 tensor(5.1900, device='cuda:0', grad_fn=<NllLossBackward0>)
37000 tensor(5.4810, device='cuda:0', grad_fn=<NllLossBackward0>)
37100 tensor(5.6640, device='cuda:0', grad_fn=<NllLossBackward0>)
37200 tensor(5.6979, device='cuda:0', grad_fn=<NllLossBackward0>)
37300 tensor(5.3256, device='cuda:0', grad_fn=<NllLossBackward0>)
37400 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)
37500 tensor(5.4256, device='cuda:0', grad_fn=<NllLossBackward0>)
37600 tensor(5.3775, device='cuda:0', grad_fn=<NllLossBackward0>)
37700 tensor(5.4280, device='cuda:0', grad_fn=<NllLossBackward0>)
37800 tensor(5.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
37900 tensor(5.5285, device='cuda:0', grad_fn=<NllLossBackward0>)
38000 tensor(5.3540, device='cuda:0', grad_fn=<NllLossBackward0>)
38100 tensor(5.5975, device='cuda:0', grad_fn=<NllLossBackward0>)
38200 tensor(5.5394, device='cuda:0', grad_fn=<NllLossBackward0>)
38300 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
38400 tensor(5.4205, device='cuda:0', grad_fn=<NllLossBackward0>)
38500 tensor(5.4753, device='cuda:0', grad_fn=<NllLossBackward0>)
38600 tensor(5.7140, device='cuda:0', grad_fn=<NllLossBackward0>)
38700 tensor(5.1620, device='cuda:0', grad_fn=<NllLossBackward0>)
38800 tensor(5.7779, device='cuda:0', grad_fn=<NllLossBackward0>)
38900 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)
39000 tensor(5.2911, device='cuda:0', grad_fn=<NllLossBackward0>)
39100 tensor(5.5352, device='cuda:0', grad_fn=<NllLossBackward0>)
39200 tensor(5.4496, device='cuda:0', grad_fn=<NllLossBackward0>)
39300 tensor(5.6162, device='cuda:0', grad_fn=<NllLossBackward0>)
39400 tensor(5.3706, device='cuda:0', grad_fn=<NllLossBackward0>)
39500 tensor(5.4793, device='cuda:0', grad_fn=<NllLossBackward0>)
39600 tensor(5.6467, device='cuda:0', grad_fn=<NllLossBackward0>)
39700 tensor(5.5026, device='cuda:0', grad_fn=<NllLossBackward0>)
39800 tensor(5.5383, device='cuda:0', grad_fn=<NllLossBackward0>)
39900 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)
40000 tensor(5.6711, device='cuda:0', grad_fn=<NllLossBackward0>)
40100 tensor(5.2390, device='cuda:0', grad_fn=<NllLossBackward0>)
40200 tensor(5.8806, device='cuda:0', grad_fn=<NllLossBackward0>)
40300 tensor(5.5156, device='cuda:0', grad_fn=<NllLossBackward0>)
40400 tensor(5.4422, device='cuda:0', grad_fn=<NllLossBackward0>)
40500 tensor(5.0654, device='cuda:0', grad_fn=<NllLossBackward0>)
40600 tensor(5.1406, device='cuda:0', grad_fn=<NllLossBackward0>)
40700 tensor(5.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
40800 tensor(5.4224, device='cuda:0', grad_fn=<NllLossBackward0>)
40900 tensor(5.7263, device='cuda:0', grad_fn=<NllLossBackward0>)
41000 tensor(5.3028, device='cuda:0', grad_fn=<NllLossBackward0>)
41100 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)
41200 tensor(5.5235, device='cuda:0', grad_fn=<NllLossBackward0>)
41300 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)
41400 tensor(5.2931, device='cuda:0', grad_fn=<NllLossBackward0>)
41500 tensor(5.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
41600 tensor(5.6798, device='cuda:0', grad_fn=<NllLossBackward0>)
41700 tensor(5.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
41800 tensor(5.4050, device='cuda:0', grad_fn=<NllLossBackward0>)
41900 tensor(5.3941, device='cuda:0', grad_fn=<NllLossBackward0>)
42000 tensor(5.4517, device='cuda:0', grad_fn=<NllLossBackward0>)
42100 tensor(5.7511, device='cuda:0', grad_fn=<NllLossBackward0>)
42200 tensor(5.3883, device='cuda:0', grad_fn=<NllLossBackward0>)
42300 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)
42400 tensor(5.4339, device='cuda:0', grad_fn=<NllLossBackward0>)
42500 tensor(5.2217, device='cuda:0', grad_fn=<NllLossBackward0>)
42600 tensor(5.5284, device='cuda:0', grad_fn=<NllLossBackward0>)
42700 tensor(5.6355, device='cuda:0', grad_fn=<NllLossBackward0>)
42800 tensor(5.3591, device='cuda:0', grad_fn=<NllLossBackward0>)
42900 tensor(5.6862, device='cuda:0', grad_fn=<NllLossBackward0>)
43000 tensor(5.5197, device='cuda:0', grad_fn=<NllLossBackward0>)
43100 tensor(5.5059, device='cuda:0', grad_fn=<NllLossBackward0>)
43200 tensor(5.4304, device='cuda:0', grad_fn=<NllLossBackward0>)
43300 tensor(5.5360, device='cuda:0', grad_fn=<NllLossBackward0>)
43400 tensor(5.5912, device='cuda:0', grad_fn=<NllLossBackward0>)
43500 tensor(5.0673, device='cuda:0', grad_fn=<NllLossBackward0>)
43600 tensor(5.2675, device='cuda:0', grad_fn=<NllLossBackward0>)
43700 tensor(5.6098, device='cuda:0', grad_fn=<NllLossBackward0>)
43800 tensor(5.6455, device='cuda:0', grad_fn=<NllLossBackward0>)
43900 tensor(5.1850, device='cuda:0', grad_fn=<NllLossBackward0>)
44000 tensor(5.4424, device='cuda:0', grad_fn=<NllLossBackward0>)
44100 tensor(5.3879, device='cuda:0', grad_fn=<NllLossBackward0>)
44200 tensor(5.6207, device='cuda:0', grad_fn=<NllLossBackward0>)
44300 tensor(5.5708, device='cuda:0', grad_fn=<NllLossBackward0>)
44400 tensor(5.4816, device='cuda:0', grad_fn=<NllLossBackward0>)
44500 tensor(5.4233, device='cuda:0', grad_fn=<NllLossBackward0>)
44600 tensor(5.4220, device='cuda:0', grad_fn=<NllLossBackward0>)
44700 tensor(5.3554, device='cuda:0', grad_fn=<NllLossBackward0>)
44800 tensor(5.6895, device='cuda:0', grad_fn=<NllLossBackward0>)
44900 tensor(5.5479, device='cuda:0', grad_fn=<NllLossBackward0>)
45000 tensor(5.7825, device='cuda:0', grad_fn=<NllLossBackward0>)
45100 tensor(6.0535, device='cuda:0', grad_fn=<NllLossBackward0>)
45200 tensor(5.6742, device='cuda:0', grad_fn=<NllLossBackward0>)
45300 tensor(5.5086, device='cuda:0', grad_fn=<NllLossBackward0>)
45400 tensor(5.2236, device='cuda:0', grad_fn=<NllLossBackward0>)
45500 tensor(5.5635, device='cuda:0', grad_fn=<NllLossBackward0>)
45600 tensor(5.3598, device='cuda:0', grad_fn=<NllLossBackward0>)
45700 tensor(5.5559, device='cuda:0', grad_fn=<NllLossBackward0>)
45800 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
45900 tensor(5.6889, device='cuda:0', grad_fn=<NllLossBackward0>)
46000 tensor(5.5789, device='cuda:0', grad_fn=<NllLossBackward0>)
46100 tensor(5.5884, device='cuda:0', grad_fn=<NllLossBackward0>)
46200 tensor(5.4840, device='cuda:0', grad_fn=<NllLossBackward0>)
46300 tensor(5.4857, device='cuda:0', grad_fn=<NllLossBackward0>)
46400 tensor(5.4710, device='cuda:0', grad_fn=<NllLossBackward0>)
46500 tensor(5.5077, device='cuda:0', grad_fn=<NllLossBackward0>)
46600 tensor(5.3485, device='cuda:0', grad_fn=<NllLossBackward0>)
46700 tensor(5.6360, device='cuda:0', grad_fn=<NllLossBackward0>)
46800 tensor(5.5857, device='cuda:0', grad_fn=<NllLossBackward0>)
46900 tensor(5.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
47000 tensor(5.2005, device='cuda:0', grad_fn=<NllLossBackward0>)
47100 tensor(5.4915, device='cuda:0', grad_fn=<NllLossBackward0>)
47200 tensor(5.5273, device='cuda:0', grad_fn=<NllLossBackward0>)
47300 tensor(5.2416, device='cuda:0', grad_fn=<NllLossBackward0>)
47400 tensor(5.0383, device='cuda:0', grad_fn=<NllLossBackward0>)
47500 tensor(5.4398, device='cuda:0', grad_fn=<NllLossBackward0>)
47600 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)
47700 tensor(5.1199, device='cuda:0', grad_fn=<NllLossBackward0>)
47800 tensor(5.2883, device='cuda:0', grad_fn=<NllLossBackward0>)
47900 tensor(5.6183, device='cuda:0', grad_fn=<NllLossBackward0>)
48000 tensor(5.4894, device='cuda:0', grad_fn=<NllLossBackward0>)
48100 tensor(5.5641, device='cuda:0', grad_fn=<NllLossBackward0>)
48200 tensor(5.5838, device='cuda:0', grad_fn=<NllLossBackward0>)
48300 tensor(5.3944, device='cuda:0', grad_fn=<NllLossBackward0>)
48400 tensor(5.5825, device='cuda:0', grad_fn=<NllLossBackward0>)
48500 tensor(5.2525, device='cuda:0', grad_fn=<NllLossBackward0>)
48600 tensor(5.5420, device='cuda:0', grad_fn=<NllLossBackward0>)
48700 tensor(5.4007, device='cuda:0', grad_fn=<NllLossBackward0>)
48800 tensor(5.5499, device='cuda:0', grad_fn=<NllLossBackward0>)
48900 tensor(5.3335, device='cuda:0', grad_fn=<NllLossBackward0>)
49000 tensor(5.3047, device='cuda:0', grad_fn=<NllLossBackward0>)
49100 tensor(5.3311, device='cuda:0', grad_fn=<NllLossBackward0>)
49200 tensor(5.4564, device='cuda:0', grad_fn=<NllLossBackward0>)
49300 tensor(5.4846, device='cuda:0', grad_fn=<NllLossBackward0>)
49400 tensor(5.7114, device='cuda:0', grad_fn=<NllLossBackward0>)
49500 tensor(5.8193, device='cuda:0', grad_fn=<NllLossBackward0>)
49600 tensor(5.4885, device='cuda:0', grad_fn=<NllLossBackward0>)
49700 tensor(5.5634, device='cuda:0', grad_fn=<NllLossBackward0>)
49800 tensor(5.3464, device='cuda:0', grad_fn=<NllLossBackward0>)
49900 tensor(5.1725, device='cuda:0', grad_fn=<NllLossBackward0>)
50000 tensor(5.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
50100 tensor(5.2345, device='cuda:0', grad_fn=<NllLossBackward0>)
50200 tensor(5.3813, device='cuda:0', grad_fn=<NllLossBackward0>)
50300 tensor(5.0840, device='cuda:0', grad_fn=<NllLossBackward0>)
50400 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)
50500 tensor(5.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
50600 tensor(5.5570, device='cuda:0', grad_fn=<NllLossBackward0>)
50700 tensor(5.6957, device='cuda:0', grad_fn=<NllLossBackward0>)
50800 tensor(5.4284, device='cuda:0', grad_fn=<NllLossBackward0>)
50900 tensor(5.4656, device='cuda:0', grad_fn=<NllLossBackward0>)
51000 tensor(5.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
51100 tensor(5.5059, device='cuda:0', grad_fn=<NllLossBackward0>)
51200 tensor(5.6127, device='cuda:0', grad_fn=<NllLossBackward0>)
51300 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)
51400 tensor(5.1373, device='cuda:0', grad_fn=<NllLossBackward0>)
51500 tensor(5.3643, device='cuda:0', grad_fn=<NllLossBackward0>)
51600 tensor(5.2310, device='cuda:0', grad_fn=<NllLossBackward0>)
51700 tensor(5.4668, device='cuda:0', grad_fn=<NllLossBackward0>)
51800 tensor(5.2777, device='cuda:0', grad_fn=<NllLossBackward0>)
51900 tensor(5.7900, device='cuda:0', grad_fn=<NllLossBackward0>)
52000 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)
52100 tensor(5.4024, device='cuda:0', grad_fn=<NllLossBackward0>)
52200 tensor(5.3733, device='cuda:0', grad_fn=<NllLossBackward0>)
52300 tensor(4.8890, device='cuda:0', grad_fn=<NllLossBackward0>)
52400 tensor(5.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
52500 tensor(5.3708, device='cuda:0', grad_fn=<NllLossBackward0>)
52600 tensor(5.1343, device='cuda:0', grad_fn=<NllLossBackward0>)
52700 tensor(5.4964, device='cuda:0', grad_fn=<NllLossBackward0>)
52800 tensor(5.4933, device='cuda:0', grad_fn=<NllLossBackward0>)
52900 tensor(5.1695, device='cuda:0', grad_fn=<NllLossBackward0>)
53000 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)
53100 tensor(5.6919, device='cuda:0', grad_fn=<NllLossBackward0>)
53200 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)
53300 tensor(5.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
53400 tensor(5.4038, device='cuda:0', grad_fn=<NllLossBackward0>)
53500 tensor(5.2995, device='cuda:0', grad_fn=<NllLossBackward0>)
53600 tensor(5.4649, device='cuda:0', grad_fn=<NllLossBackward0>)
53700 tensor(5.2961, device='cuda:0', grad_fn=<NllLossBackward0>)
53800 tensor(5.3088, device='cuda:0', grad_fn=<NllLossBackward0>)
53900 tensor(5.4162, device='cuda:0', grad_fn=<NllLossBackward0>)
54000 tensor(5.9259, device='cuda:0', grad_fn=<NllLossBackward0>)
54100 tensor(5.2742, device='cuda:0', grad_fn=<NllLossBackward0>)
54200 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
54300 tensor(5.0661, device='cuda:0', grad_fn=<NllLossBackward0>)
54400 tensor(5.1934, device='cuda:0', grad_fn=<NllLossBackward0>)
54500 tensor(5.2265, device='cuda:0', grad_fn=<NllLossBackward0>)
54600 tensor(5.5509, device='cuda:0', grad_fn=<NllLossBackward0>)
54700 tensor(5.5712, device='cuda:0', grad_fn=<NllLossBackward0>)
54800 tensor(5.3762, device='cuda:0', grad_fn=<NllLossBackward0>)
54900 tensor(5.2392, device='cuda:0', grad_fn=<NllLossBackward0>)
55000 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)
55100 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)
55200 tensor(5.5735, device='cuda:0', grad_fn=<NllLossBackward0>)
55300 tensor(5.4363, device='cuda:0', grad_fn=<NllLossBackward0>)
55400 tensor(5.1247, device='cuda:0', grad_fn=<NllLossBackward0>)
55500 tensor(5.2063, device='cuda:0', grad_fn=<NllLossBackward0>)
55600 tensor(5.4948, device='cuda:0', grad_fn=<NllLossBackward0>)
55700 tensor(5.5324, device='cuda:0', grad_fn=<NllLossBackward0>)
55800 tensor(5.0667, device='cuda:0', grad_fn=<NllLossBackward0>)
55900 tensor(5.3209, device='cuda:0', grad_fn=<NllLossBackward0>)
56000 tensor(5.3632, device='cuda:0', grad_fn=<NllLossBackward0>)
56100 tensor(5.4861, device='cuda:0', grad_fn=<NllLossBackward0>)
56200 tensor(5.3914, device='cuda:0', grad_fn=<NllLossBackward0>)
56300 tensor(4.9190, device='cuda:0', grad_fn=<NllLossBackward0>)
56400 tensor(5.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
56500 tensor(5.1961, device='cuda:0', grad_fn=<NllLossBackward0>)
56600 tensor(5.2067, device='cuda:0', grad_fn=<NllLossBackward0>)
56700 tensor(5.7416, device='cuda:0', grad_fn=<NllLossBackward0>)
56800 tensor(5.4107, device='cuda:0', grad_fn=<NllLossBackward0>)
56900 tensor(5.4789, device='cuda:0', grad_fn=<NllLossBackward0>)
57000 tensor(5.5753, device='cuda:0', grad_fn=<NllLossBackward0>)
57100 tensor(5.3689, device='cuda:0', grad_fn=<NllLossBackward0>)
57200 tensor(5.6297, device='cuda:0', grad_fn=<NllLossBackward0>)
57300 tensor(5.6960, device='cuda:0', grad_fn=<NllLossBackward0>)
57400 tensor(5.3610, device='cuda:0', grad_fn=<NllLossBackward0>)
57500 tensor(5.4340, device='cuda:0', grad_fn=<NllLossBackward0>)
57600 tensor(5.8130, device='cuda:0', grad_fn=<NllLossBackward0>)
57700 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)
57800 tensor(5.4003, device='cuda:0', grad_fn=<NllLossBackward0>)
57900 tensor(5.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
58000 tensor(5.3039, device='cuda:0', grad_fn=<NllLossBackward0>)
58100 tensor(5.5298, device='cuda:0', grad_fn=<NllLossBackward0>)
58200 tensor(5.4036, device='cuda:0', grad_fn=<NllLossBackward0>)
58300 tensor(5.5035, device='cuda:0', grad_fn=<NllLossBackward0>)
58400 tensor(5.4694, device='cuda:0', grad_fn=<NllLossBackward0>)
58500 tensor(5.4644, device='cuda:0', grad_fn=<NllLossBackward0>)
58600 tensor(5.3628, device='cuda:0', grad_fn=<NllLossBackward0>)
58700 tensor(5.5305, device='cuda:0', grad_fn=<NllLossBackward0>)
58800 tensor(5.5496, device='cuda:0', grad_fn=<NllLossBackward0>)
58900 tensor(5.1605, device='cuda:0', grad_fn=<NllLossBackward0>)
59000 tensor(5.4481, device='cuda:0', grad_fn=<NllLossBackward0>)
59100 tensor(5.5008, device='cuda:0', grad_fn=<NllLossBackward0>)
59200 tensor(5.5580, device='cuda:0', grad_fn=<NllLossBackward0>)
59300 tensor(5.4181, device='cuda:0', grad_fn=<NllLossBackward0>)
59400 tensor(5.1767, device='cuda:0', grad_fn=<NllLossBackward0>)
59500 tensor(5.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
59600 tensor(5.1543, device='cuda:0', grad_fn=<NllLossBackward0>)
59700 tensor(5.4442, device='cuda:0', grad_fn=<NllLossBackward0>)
59800 tensor(5.2701, device='cuda:0', grad_fn=<NllLossBackward0>)
59900 tensor(5.4101, device='cuda:0', grad_fn=<NllLossBackward0>)
60000 tensor(5.3686, device='cuda:0', grad_fn=<NllLossBackward0>)
60100 tensor(5.2843, device='cuda:0', grad_fn=<NllLossBackward0>)
60200 tensor(5.5036, device='cuda:0', grad_fn=<NllLossBackward0>)
60300 tensor(5.3552, device='cuda:0', grad_fn=<NllLossBackward0>)
60400 tensor(5.5374, device='cuda:0', grad_fn=<NllLossBackward0>)
60500 tensor(5.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
60600 tensor(5.4950, device='cuda:0', grad_fn=<NllLossBackward0>)
60700 tensor(5.2628, device='cuda:0', grad_fn=<NllLossBackward0>)
60800 tensor(5.5945, device='cuda:0', grad_fn=<NllLossBackward0>)
60900 tensor(5.5902, device='cuda:0', grad_fn=<NllLossBackward0>)
61000 tensor(5.4887, device='cuda:0', grad_fn=<NllLossBackward0>)
61100 tensor(5.2792, device='cuda:0', grad_fn=<NllLossBackward0>)
61200 tensor(5.5803, device='cuda:0', grad_fn=<NllLossBackward0>)
61300 tensor(5.4461, device='cuda:0', grad_fn=<NllLossBackward0>)
61400 tensor(5.0183, device='cuda:0', grad_fn=<NllLossBackward0>)
61500 tensor(5.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
61600 tensor(5.4643, device='cuda:0', grad_fn=<NllLossBackward0>)
61700 tensor(5.3920, device='cuda:0', grad_fn=<NllLossBackward0>)
61800 tensor(5.5427, device='cuda:0', grad_fn=<NllLossBackward0>)
61900 tensor(5.8412, device='cuda:0', grad_fn=<NllLossBackward0>)
62000 tensor(5.4249, device='cuda:0', grad_fn=<NllLossBackward0>)
62100 tensor(5.5865, device='cuda:0', grad_fn=<NllLossBackward0>)
62200 tensor(5.3857, device='cuda:0', grad_fn=<NllLossBackward0>)
62300 tensor(5.0211, device='cuda:0', grad_fn=<NllLossBackward0>)
62400 tensor(5.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
62500 tensor(5.2083, device='cuda:0', grad_fn=<NllLossBackward0>)
62600 tensor(5.2642, device='cuda:0', grad_fn=<NllLossBackward0>)
62700 tensor(4.9303, device='cuda:0', grad_fn=<NllLossBackward0>)
62800 tensor(5.1333, device='cuda:0', grad_fn=<NllLossBackward0>)
62900 tensor(5.5126, device='cuda:0', grad_fn=<NllLossBackward0>)
63000 tensor(4.8968, device='cuda:0', grad_fn=<NllLossBackward0>)
63100 tensor(5.3211, device='cuda:0', grad_fn=<NllLossBackward0>)
63200 tensor(5.4832, device='cuda:0', grad_fn=<NllLossBackward0>)
63300 tensor(5.4616, device='cuda:0', grad_fn=<NllLossBackward0>)
63400 tensor(5.3212, device='cuda:0', grad_fn=<NllLossBackward0>)
63500 tensor(5.2929, device='cuda:0', grad_fn=<NllLossBackward0>)
63600 tensor(5.4305, device='cuda:0', grad_fn=<NllLossBackward0>)
63700 tensor(5.2080, device='cuda:0', grad_fn=<NllLossBackward0>)
63800 tensor(5.4208, device='cuda:0', grad_fn=<NllLossBackward0>)
63900 tensor(5.4145, device='cuda:0', grad_fn=<NllLossBackward0>)
64000 tensor(5.3525, device='cuda:0', grad_fn=<NllLossBackward0>)
64100 tensor(5.5111, device='cuda:0', grad_fn=<NllLossBackward0>)
64200 tensor(5.1437, device='cuda:0', grad_fn=<NllLossBackward0>)
64300 tensor(5.4269, device='cuda:0', grad_fn=<NllLossBackward0>)
64400 tensor(5.5086, device='cuda:0', grad_fn=<NllLossBackward0>)
64500 tensor(5.3559, device='cuda:0', grad_fn=<NllLossBackward0>)
64600 tensor(5.3799, device='cuda:0', grad_fn=<NllLossBackward0>)
64700 tensor(5.5940, device='cuda:0', grad_fn=<NllLossBackward0>)
64800 tensor(5.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
64900 tensor(5.3498, device='cuda:0', grad_fn=<NllLossBackward0>)
65000 tensor(5.3998, device='cuda:0', grad_fn=<NllLossBackward0>)
65100 tensor(5.2237, device='cuda:0', grad_fn=<NllLossBackward0>)
65200 tensor(5.0362, device='cuda:0', grad_fn=<NllLossBackward0>)
65300 tensor(5.5109, device='cuda:0', grad_fn=<NllLossBackward0>)
65400 tensor(5.2673, device='cuda:0', grad_fn=<NllLossBackward0>)
65500 tensor(5.0693, device='cuda:0', grad_fn=<NllLossBackward0>)
65600 tensor(5.4907, device='cuda:0', grad_fn=<NllLossBackward0>)
65700 tensor(5.5288, device='cuda:0', grad_fn=<NllLossBackward0>)
65800 tensor(5.3971, device='cuda:0', grad_fn=<NllLossBackward0>)
65900 tensor(5.3500, device='cuda:0', grad_fn=<NllLossBackward0>)
66000 tensor(5.7787, device='cuda:0', grad_fn=<NllLossBackward0>)
66100 tensor(5.1555, device='cuda:0', grad_fn=<NllLossBackward0>)
66200 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)
66300 tensor(5.1499, device='cuda:0', grad_fn=<NllLossBackward0>)
66400 tensor(5.5168, device='cuda:0', grad_fn=<NllLossBackward0>)
66500 tensor(5.6282, device='cuda:0', grad_fn=<NllLossBackward0>)
66600 tensor(5.3283, device='cuda:0', grad_fn=<NllLossBackward0>)
66700 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
66800 tensor(5.3382, device='cuda:0', grad_fn=<NllLossBackward0>)
66900 tensor(5.2665, device='cuda:0', grad_fn=<NllLossBackward0>)
67000 tensor(5.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
67100 tensor(5.2455, device='cuda:0', grad_fn=<NllLossBackward0>)
67200 tensor(5.7224, device='cuda:0', grad_fn=<NllLossBackward0>)
67300 tensor(5.5869, device='cuda:0', grad_fn=<NllLossBackward0>)
67400 tensor(5.4242, device='cuda:0', grad_fn=<NllLossBackward0>)
67500 tensor(5.4228, device='cuda:0', grad_fn=<NllLossBackward0>)
67600 tensor(5.3538, device='cuda:0', grad_fn=<NllLossBackward0>)
67700 tensor(5.1782, device='cuda:0', grad_fn=<NllLossBackward0>)
67800 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
67900 tensor(5.2828, device='cuda:0', grad_fn=<NllLossBackward0>)
68000 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
68100 tensor(5.3605, device='cuda:0', grad_fn=<NllLossBackward0>)
68200 tensor(5.1993, device='cuda:0', grad_fn=<NllLossBackward0>)
68300 tensor(5.3261, device='cuda:0', grad_fn=<NllLossBackward0>)
68400 tensor(5.8642, device='cuda:0', grad_fn=<NllLossBackward0>)
68500 tensor(5.1566, device='cuda:0', grad_fn=<NllLossBackward0>)
68600 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
68700 tensor(5.3318, device='cuda:0', grad_fn=<NllLossBackward0>)
68800 tensor(5.5199, device='cuda:0', grad_fn=<NllLossBackward0>)
68900 tensor(5.3169, device='cuda:0', grad_fn=<NllLossBackward0>)
69000 tensor(5.2783, device='cuda:0', grad_fn=<NllLossBackward0>)
69100 tensor(5.4604, device='cuda:0', grad_fn=<NllLossBackward0>)
69200 tensor(5.3401, device='cuda:0', grad_fn=<NllLossBackward0>)
69300 tensor(5.0342, device='cuda:0', grad_fn=<NllLossBackward0>)
69400 tensor(5.3514, device='cuda:0', grad_fn=<NllLossBackward0>)
69500 tensor(5.1504, device='cuda:0', grad_fn=<NllLossBackward0>)
Creating outputs in dev-0
Creating outputs in test-A
0 tensor(10.3829, device='cuda:0', grad_fn=<NllLossBackward0>)
100 tensor(8.0792, device='cuda:0', grad_fn=<NllLossBackward0>)
200 tensor(7.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
300 tensor(6.8478, device='cuda:0', grad_fn=<NllLossBackward0>)
400 tensor(6.6292, device='cuda:0', grad_fn=<NllLossBackward0>)
500 tensor(6.6597, device='cuda:0', grad_fn=<NllLossBackward0>)
600 tensor(6.7076, device='cuda:0', grad_fn=<NllLossBackward0>)
700 tensor(6.4022, device='cuda:0', grad_fn=<NllLossBackward0>)
800 tensor(6.1865, device='cuda:0', grad_fn=<NllLossBackward0>)
900 tensor(6.3715, device='cuda:0', grad_fn=<NllLossBackward0>)
1000 tensor(6.2953, device='cuda:0', grad_fn=<NllLossBackward0>)
1100 tensor(5.8570, device='cuda:0', grad_fn=<NllLossBackward0>)
1200 tensor(6.3739, device='cuda:0', grad_fn=<NllLossBackward0>)
1300 tensor(6.4504, device='cuda:0', grad_fn=<NllLossBackward0>)
1400 tensor(6.1518, device='cuda:0', grad_fn=<NllLossBackward0>)
1500 tensor(5.9614, device='cuda:0', grad_fn=<NllLossBackward0>)
1600 tensor(6.0159, device='cuda:0', grad_fn=<NllLossBackward0>)
1700 tensor(6.3196, device='cuda:0', grad_fn=<NllLossBackward0>)
1800 tensor(6.3034, device='cuda:0', grad_fn=<NllLossBackward0>)
1900 tensor(6.1724, device='cuda:0', grad_fn=<NllLossBackward0>)
2000 tensor(6.1985, device='cuda:0', grad_fn=<NllLossBackward0>)
2100 tensor(6.0150, device='cuda:0', grad_fn=<NllLossBackward0>)
2200 tensor(6.2215, device='cuda:0', grad_fn=<NllLossBackward0>)
2300 tensor(6.1963, device='cuda:0', grad_fn=<NllLossBackward0>)
2400 tensor(6.1551, device='cuda:0', grad_fn=<NllLossBackward0>)
2500 tensor(6.1821, device='cuda:0', grad_fn=<NllLossBackward0>)
2600 tensor(6.1207, device='cuda:0', grad_fn=<NllLossBackward0>)
2700 tensor(6.2244, device='cuda:0', grad_fn=<NllLossBackward0>)
2800 tensor(6.1407, device='cuda:0', grad_fn=<NllLossBackward0>)
2900 tensor(6.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
3000 tensor(6.0838, device='cuda:0', grad_fn=<NllLossBackward0>)
3100 tensor(5.8551, device='cuda:0', grad_fn=<NllLossBackward0>)
3200 tensor(6.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
3300 tensor(6.1330, device='cuda:0', grad_fn=<NllLossBackward0>)
3400 tensor(5.9802, device='cuda:0', grad_fn=<NllLossBackward0>)
3500 tensor(5.9609, device='cuda:0', grad_fn=<NllLossBackward0>)
3600 tensor(6.2390, device='cuda:0', grad_fn=<NllLossBackward0>)
3700 tensor(6.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
3800 tensor(6.1221, device='cuda:0', grad_fn=<NllLossBackward0>)
3900 tensor(6.0129, device='cuda:0', grad_fn=<NllLossBackward0>)
4000 tensor(5.9146, device='cuda:0', grad_fn=<NllLossBackward0>)
4100 tensor(6.0411, device='cuda:0', grad_fn=<NllLossBackward0>)
4200 tensor(5.9824, device='cuda:0', grad_fn=<NllLossBackward0>)
4300 tensor(5.8674, device='cuda:0', grad_fn=<NllLossBackward0>)
4400 tensor(5.6331, device='cuda:0', grad_fn=<NllLossBackward0>)
4500 tensor(5.9987, device='cuda:0', grad_fn=<NllLossBackward0>)
4600 tensor(5.8823, device='cuda:0', grad_fn=<NllLossBackward0>)
4700 tensor(5.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
4800 tensor(5.8505, device='cuda:0', grad_fn=<NllLossBackward0>)
4900 tensor(5.9353, device='cuda:0', grad_fn=<NllLossBackward0>)
5000 tensor(6.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
5100 tensor(5.9119, device='cuda:0', grad_fn=<NllLossBackward0>)
5200 tensor(6.1238, device='cuda:0', grad_fn=<NllLossBackward0>)
5300 tensor(6.0750, device='cuda:0', grad_fn=<NllLossBackward0>)
5400 tensor(5.9476, device='cuda:0', grad_fn=<NllLossBackward0>)
5500 tensor(5.9410, device='cuda:0', grad_fn=<NllLossBackward0>)
5600 tensor(5.9437, device='cuda:0', grad_fn=<NllLossBackward0>)
5700 tensor(6.0198, device='cuda:0', grad_fn=<NllLossBackward0>)
5800 tensor(5.9568, device='cuda:0', grad_fn=<NllLossBackward0>)
5900 tensor(5.9119, device='cuda:0', grad_fn=<NllLossBackward0>)
6000 tensor(5.8231, device='cuda:0', grad_fn=<NllLossBackward0>)
6100 tensor(5.8608, device='cuda:0', grad_fn=<NllLossBackward0>)
6200 tensor(5.9699, device='cuda:0', grad_fn=<NllLossBackward0>)
6300 tensor(5.8318, device='cuda:0', grad_fn=<NllLossBackward0>)
6400 tensor(6.1696, device='cuda:0', grad_fn=<NllLossBackward0>)
6500 tensor(5.7545, device='cuda:0', grad_fn=<NllLossBackward0>)
6600 tensor(6.0710, device='cuda:0', grad_fn=<NllLossBackward0>)
6700 tensor(5.9385, device='cuda:0', grad_fn=<NllLossBackward0>)
6800 tensor(5.8292, device='cuda:0', grad_fn=<NllLossBackward0>)
6900 tensor(5.7408, device='cuda:0', grad_fn=<NllLossBackward0>)
7000 tensor(5.9290, device='cuda:0', grad_fn=<NllLossBackward0>)
7100 tensor(5.7789, device='cuda:0', grad_fn=<NllLossBackward0>)
7200 tensor(5.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
7300 tensor(6.0428, device='cuda:0', grad_fn=<NllLossBackward0>)
7400 tensor(5.7333, device='cuda:0', grad_fn=<NllLossBackward0>)
7500 tensor(5.9126, device='cuda:0', grad_fn=<NllLossBackward0>)
7600 tensor(5.9192, device='cuda:0', grad_fn=<NllLossBackward0>)
7700 tensor(5.7885, device='cuda:0', grad_fn=<NllLossBackward0>)
7800 tensor(5.8290, device='cuda:0', grad_fn=<NllLossBackward0>)
7900 tensor(5.9408, device='cuda:0', grad_fn=<NllLossBackward0>)
8000 tensor(5.6841, device='cuda:0', grad_fn=<NllLossBackward0>)
8100 tensor(6.0080, device='cuda:0', grad_fn=<NllLossBackward0>)
8200 tensor(5.9377, device='cuda:0', grad_fn=<NllLossBackward0>)
8300 tensor(5.8161, device='cuda:0', grad_fn=<NllLossBackward0>)
8400 tensor(5.9945, device='cuda:0', grad_fn=<NllLossBackward0>)
8500 tensor(5.2545, device='cuda:0', grad_fn=<NllLossBackward0>)
8600 tensor(5.7752, device='cuda:0', grad_fn=<NllLossBackward0>)
8700 tensor(5.4092, device='cuda:0', grad_fn=<NllLossBackward0>)
8800 tensor(5.8751, device='cuda:0', grad_fn=<NllLossBackward0>)
8900 tensor(5.8199, device='cuda:0', grad_fn=<NllLossBackward0>)
9000 tensor(5.7431, device='cuda:0', grad_fn=<NllLossBackward0>)
9100 tensor(5.7856, device='cuda:0', grad_fn=<NllLossBackward0>)
9200 tensor(5.8164, device='cuda:0', grad_fn=<NllLossBackward0>)
9300 tensor(5.7747, device='cuda:0', grad_fn=<NllLossBackward0>)
9400 tensor(5.9959, device='cuda:0', grad_fn=<NllLossBackward0>)
9500 tensor(5.6087, device='cuda:0', grad_fn=<NllLossBackward0>)
9600 tensor(5.8762, device='cuda:0', grad_fn=<NllLossBackward0>)
9700 tensor(5.7811, device='cuda:0', grad_fn=<NllLossBackward0>)
9800 tensor(5.9176, device='cuda:0', grad_fn=<NllLossBackward0>)
9900 tensor(5.8278, device='cuda:0', grad_fn=<NllLossBackward0>)
10000 tensor(5.8787, device='cuda:0', grad_fn=<NllLossBackward0>)
10100 tensor(5.8182, device='cuda:0', grad_fn=<NllLossBackward0>)
10200 tensor(5.6389, device='cuda:0', grad_fn=<NllLossBackward0>)
10300 tensor(5.8735, device='cuda:0', grad_fn=<NllLossBackward0>)
10400 tensor(5.8801, device='cuda:0', grad_fn=<NllLossBackward0>)
10500 tensor(5.8172, device='cuda:0', grad_fn=<NllLossBackward0>)
10600 tensor(5.6188, device='cuda:0', grad_fn=<NllLossBackward0>)
10700 tensor(5.6682, device='cuda:0', grad_fn=<NllLossBackward0>)
10800 tensor(5.7455, device='cuda:0', grad_fn=<NllLossBackward0>)
10900 tensor(5.7177, device='cuda:0', grad_fn=<NllLossBackward0>)
11000 tensor(5.7832, device='cuda:0', grad_fn=<NllLossBackward0>)
11100 tensor(5.8595, device='cuda:0', grad_fn=<NllLossBackward0>)
11200 tensor(5.6267, device='cuda:0', grad_fn=<NllLossBackward0>)
11300 tensor(5.9351, device='cuda:0', grad_fn=<NllLossBackward0>)
11400 tensor(5.7933, device='cuda:0', grad_fn=<NllLossBackward0>)
11500 tensor(5.8586, device='cuda:0', grad_fn=<NllLossBackward0>)
11600 tensor(5.9392, device='cuda:0', grad_fn=<NllLossBackward0>)
11700 tensor(5.8080, device='cuda:0', grad_fn=<NllLossBackward0>)
11800 tensor(5.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
11900 tensor(6.0141, device='cuda:0', grad_fn=<NllLossBackward0>)
12000 tensor(5.7712, device='cuda:0', grad_fn=<NllLossBackward0>)
12100 tensor(5.7103, device='cuda:0', grad_fn=<NllLossBackward0>)
12200 tensor(5.7200, device='cuda:0', grad_fn=<NllLossBackward0>)
12300 tensor(5.6589, device='cuda:0', grad_fn=<NllLossBackward0>)
12400 tensor(5.6963, device='cuda:0', grad_fn=<NllLossBackward0>)
12500 tensor(5.8758, device='cuda:0', grad_fn=<NllLossBackward0>)
12600 tensor(5.6796, device='cuda:0', grad_fn=<NllLossBackward0>)
12700 tensor(5.7220, device='cuda:0', grad_fn=<NllLossBackward0>)
12800 tensor(5.8520, device='cuda:0', grad_fn=<NllLossBackward0>)
12900 tensor(5.6026, device='cuda:0', grad_fn=<NllLossBackward0>)
13000 tensor(5.7685, device='cuda:0', grad_fn=<NllLossBackward0>)
13100 tensor(5.5894, device='cuda:0', grad_fn=<NllLossBackward0>)
13200 tensor(5.6674, device='cuda:0', grad_fn=<NllLossBackward0>)
13300 tensor(5.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
13400 tensor(5.6133, device='cuda:0', grad_fn=<NllLossBackward0>)
13500 tensor(5.6554, device='cuda:0', grad_fn=<NllLossBackward0>)
13600 tensor(5.6719, device='cuda:0', grad_fn=<NllLossBackward0>)
13700 tensor(5.5565, device='cuda:0', grad_fn=<NllLossBackward0>)
13800 tensor(5.6679, device='cuda:0', grad_fn=<NllLossBackward0>)
13900 tensor(5.4953, device='cuda:0', grad_fn=<NllLossBackward0>)
14000 tensor(5.6158, device='cuda:0', grad_fn=<NllLossBackward0>)
14100 tensor(5.6865, device='cuda:0', grad_fn=<NllLossBackward0>)
14200 tensor(5.6652, device='cuda:0', grad_fn=<NllLossBackward0>)
14300 tensor(5.6700, device='cuda:0', grad_fn=<NllLossBackward0>)
14400 tensor(5.8490, device='cuda:0', grad_fn=<NllLossBackward0>)
14500 tensor(5.8098, device='cuda:0', grad_fn=<NllLossBackward0>)
14600 tensor(5.6539, device='cuda:0', grad_fn=<NllLossBackward0>)
14700 tensor(5.6120, device='cuda:0', grad_fn=<NllLossBackward0>)
14800 tensor(5.5180, device='cuda:0', grad_fn=<NllLossBackward0>)
14900 tensor(5.8630, device='cuda:0', grad_fn=<NllLossBackward0>)
15000 tensor(5.7055, device='cuda:0', grad_fn=<NllLossBackward0>)
15100 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)
15200 tensor(5.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
15300 tensor(5.7123, device='cuda:0', grad_fn=<NllLossBackward0>)
15400 tensor(5.6401, device='cuda:0', grad_fn=<NllLossBackward0>)
15500 tensor(5.8005, device='cuda:0', grad_fn=<NllLossBackward0>)
15600 tensor(5.4436, device='cuda:0', grad_fn=<NllLossBackward0>)
15700 tensor(5.4929, device='cuda:0', grad_fn=<NllLossBackward0>)
15800 tensor(5.7467, device='cuda:0', grad_fn=<NllLossBackward0>)
15900 tensor(5.3763, device='cuda:0', grad_fn=<NllLossBackward0>)
16000 tensor(5.6765, device='cuda:0', grad_fn=<NllLossBackward0>)
16100 tensor(5.5776, device='cuda:0', grad_fn=<NllLossBackward0>)
16200 tensor(5.4676, device='cuda:0', grad_fn=<NllLossBackward0>)
16300 tensor(5.5619, device='cuda:0', grad_fn=<NllLossBackward0>)
16400 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)
16500 tensor(5.7781, device='cuda:0', grad_fn=<NllLossBackward0>)
16600 tensor(5.5893, device='cuda:0', grad_fn=<NllLossBackward0>)
16700 tensor(5.5361, device='cuda:0', grad_fn=<NllLossBackward0>)
16800 tensor(5.7160, device='cuda:0', grad_fn=<NllLossBackward0>)
16900 tensor(5.3933, device='cuda:0', grad_fn=<NllLossBackward0>)
17000 tensor(5.4054, device='cuda:0', grad_fn=<NllLossBackward0>)
17100 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)
17200 tensor(5.3656, device='cuda:0', grad_fn=<NllLossBackward0>)
17300 tensor(5.7566, device='cuda:0', grad_fn=<NllLossBackward0>)
17400 tensor(5.6035, device='cuda:0', grad_fn=<NllLossBackward0>)
17500 tensor(5.6668, device='cuda:0', grad_fn=<NllLossBackward0>)
17600 tensor(5.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
17700 tensor(5.5672, device='cuda:0', grad_fn=<NllLossBackward0>)
17800 tensor(5.5827, device='cuda:0', grad_fn=<NllLossBackward0>)
17900 tensor(5.5903, device='cuda:0', grad_fn=<NllLossBackward0>)
18000 tensor(5.6060, device='cuda:0', grad_fn=<NllLossBackward0>)
18100 tensor(5.6405, device='cuda:0', grad_fn=<NllLossBackward0>)
18200 tensor(5.4958, device='cuda:0', grad_fn=<NllLossBackward0>)
18300 tensor(5.2324, device='cuda:0', grad_fn=<NllLossBackward0>)
18400 tensor(5.3555, device='cuda:0', grad_fn=<NllLossBackward0>)
18500 tensor(5.5815, device='cuda:0', grad_fn=<NllLossBackward0>)
18600 tensor(5.6378, device='cuda:0', grad_fn=<NllLossBackward0>)
18700 tensor(5.3458, device='cuda:0', grad_fn=<NllLossBackward0>)
18800 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)
18900 tensor(5.5306, device='cuda:0', grad_fn=<NllLossBackward0>)
19000 tensor(5.6871, device='cuda:0', grad_fn=<NllLossBackward0>)
19100 tensor(5.6413, device='cuda:0', grad_fn=<NllLossBackward0>)
19200 tensor(5.6387, device='cuda:0', grad_fn=<NllLossBackward0>)
19300 tensor(5.4920, device='cuda:0', grad_fn=<NllLossBackward0>)
19400 tensor(5.7697, device='cuda:0', grad_fn=<NllLossBackward0>)
19500 tensor(5.4714, device='cuda:0', grad_fn=<NllLossBackward0>)
19600 tensor(5.5866, device='cuda:0', grad_fn=<NllLossBackward0>)
19700 tensor(5.7188, device='cuda:0', grad_fn=<NllLossBackward0>)
19800 tensor(5.4867, device='cuda:0', grad_fn=<NllLossBackward0>)
19900 tensor(5.6336, device='cuda:0', grad_fn=<NllLossBackward0>)
20000 tensor(5.5252, device='cuda:0', grad_fn=<NllLossBackward0>)
20100 tensor(5.6138, device='cuda:0', grad_fn=<NllLossBackward0>)
20200 tensor(5.7048, device='cuda:0', grad_fn=<NllLossBackward0>)
20300 tensor(5.7691, device='cuda:0', grad_fn=<NllLossBackward0>)
20400 tensor(5.7719, device='cuda:0', grad_fn=<NllLossBackward0>)
20500 tensor(5.3333, device='cuda:0', grad_fn=<NllLossBackward0>)
20600 tensor(5.5016, device='cuda:0', grad_fn=<NllLossBackward0>)
20700 tensor(5.5524, device='cuda:0', grad_fn=<NllLossBackward0>)
20800 tensor(5.6603, device='cuda:0', grad_fn=<NllLossBackward0>)
20900 tensor(5.3222, device='cuda:0', grad_fn=<NllLossBackward0>)
21000 tensor(5.7462, device='cuda:0', grad_fn=<NllLossBackward0>)
21100 tensor(5.7560, device='cuda:0', grad_fn=<NllLossBackward0>)
21200 tensor(5.4045, device='cuda:0', grad_fn=<NllLossBackward0>)
21300 tensor(5.4788, device='cuda:0', grad_fn=<NllLossBackward0>)
21400 tensor(5.4997, device='cuda:0', grad_fn=<NllLossBackward0>)
21500 tensor(5.6626, device='cuda:0', grad_fn=<NllLossBackward0>)
21600 tensor(5.2733, device='cuda:0', grad_fn=<NllLossBackward0>)
21700 tensor(5.6584, device='cuda:0', grad_fn=<NllLossBackward0>)
21800 tensor(5.3026, device='cuda:0', grad_fn=<NllLossBackward0>)
21900 tensor(5.3130, device='cuda:0', grad_fn=<NllLossBackward0>)
22000 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)
22100 tensor(5.6646, device='cuda:0', grad_fn=<NllLossBackward0>)
22200 tensor(5.5399, device='cuda:0', grad_fn=<NllLossBackward0>)
22300 tensor(5.6702, device='cuda:0', grad_fn=<NllLossBackward0>)
22400 tensor(5.5326, device='cuda:0', grad_fn=<NllLossBackward0>)
22500 tensor(5.4171, device='cuda:0', grad_fn=<NllLossBackward0>)
22600 tensor(5.4595, device='cuda:0', grad_fn=<NllLossBackward0>)
22700 tensor(5.4478, device='cuda:0', grad_fn=<NllLossBackward0>)
22800 tensor(5.8301, device='cuda:0', grad_fn=<NllLossBackward0>)
22900 tensor(5.2727, device='cuda:0', grad_fn=<NllLossBackward0>)
23000 tensor(5.3594, device='cuda:0', grad_fn=<NllLossBackward0>)
23100 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)
23200 tensor(5.4501, device='cuda:0', grad_fn=<NllLossBackward0>)
23300 tensor(5.6312, device='cuda:0', grad_fn=<NllLossBackward0>)
23400 tensor(5.7245, device='cuda:0', grad_fn=<NllLossBackward0>)
23500 tensor(5.5550, device='cuda:0', grad_fn=<NllLossBackward0>)
23600 tensor(5.5470, device='cuda:0', grad_fn=<NllLossBackward0>)
23700 tensor(5.5733, device='cuda:0', grad_fn=<NllLossBackward0>)
23800 tensor(5.5759, device='cuda:0', grad_fn=<NllLossBackward0>)
23900 tensor(5.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
24000 tensor(5.5402, device='cuda:0', grad_fn=<NllLossBackward0>)
24100 tensor(5.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
24200 tensor(5.6618, device='cuda:0', grad_fn=<NllLossBackward0>)
24300 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
24400 tensor(5.6479, device='cuda:0', grad_fn=<NllLossBackward0>)
24500 tensor(5.4648, device='cuda:0', grad_fn=<NllLossBackward0>)
24600 tensor(5.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
24700 tensor(5.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
24800 tensor(5.7271, device='cuda:0', grad_fn=<NllLossBackward0>)
24900 tensor(5.5942, device='cuda:0', grad_fn=<NllLossBackward0>)
25000 tensor(5.1371, device='cuda:0', grad_fn=<NllLossBackward0>)
25100 tensor(5.4313, device='cuda:0', grad_fn=<NllLossBackward0>)
25200 tensor(5.5351, device='cuda:0', grad_fn=<NllLossBackward0>)
25300 tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
25400 tensor(5.5145, device='cuda:0', grad_fn=<NllLossBackward0>)
25500 tensor(5.3892, device='cuda:0', grad_fn=<NllLossBackward0>)
25600 tensor(5.5116, device='cuda:0', grad_fn=<NllLossBackward0>)
25700 tensor(5.3212, device='cuda:0', grad_fn=<NllLossBackward0>)
25800 tensor(5.5078, device='cuda:0', grad_fn=<NllLossBackward0>)
25900 tensor(5.2154, device='cuda:0', grad_fn=<NllLossBackward0>)
26000 tensor(5.2552, device='cuda:0', grad_fn=<NllLossBackward0>)
26100 tensor(5.5090, device='cuda:0', grad_fn=<NllLossBackward0>)
26200 tensor(5.4643, device='cuda:0', grad_fn=<NllLossBackward0>)
26300 tensor(5.3142, device='cuda:0', grad_fn=<NllLossBackward0>)
26400 tensor(5.4627, device='cuda:0', grad_fn=<NllLossBackward0>)
26500 tensor(5.6144, device='cuda:0', grad_fn=<NllLossBackward0>)
26600 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)
26700 tensor(5.2616, device='cuda:0', grad_fn=<NllLossBackward0>)
26800 tensor(5.4525, device='cuda:0', grad_fn=<NllLossBackward0>)
26900 tensor(5.6226, device='cuda:0', grad_fn=<NllLossBackward0>)
27000 tensor(5.6647, device='cuda:0', grad_fn=<NllLossBackward0>)
27100 tensor(5.5854, device='cuda:0', grad_fn=<NllLossBackward0>)
27200 tensor(5.3022, device='cuda:0', grad_fn=<NllLossBackward0>)
27300 tensor(5.2084, device='cuda:0', grad_fn=<NllLossBackward0>)
27400 tensor(5.3328, device='cuda:0', grad_fn=<NllLossBackward0>)
27500 tensor(5.6698, device='cuda:0', grad_fn=<NllLossBackward0>)
27600 tensor(5.4509, device='cuda:0', grad_fn=<NllLossBackward0>)
27700 tensor(5.5263, device='cuda:0', grad_fn=<NllLossBackward0>)
27800 tensor(5.6357, device='cuda:0', grad_fn=<NllLossBackward0>)
27900 tensor(5.6767, device='cuda:0', grad_fn=<NllLossBackward0>)
28000 tensor(5.1947, device='cuda:0', grad_fn=<NllLossBackward0>)
28100 tensor(5.4909, device='cuda:0', grad_fn=<NllLossBackward0>)
28200 tensor(5.5209, device='cuda:0', grad_fn=<NllLossBackward0>)
28300 tensor(5.7142, device='cuda:0', grad_fn=<NllLossBackward0>)
28400 tensor(5.5413, device='cuda:0', grad_fn=<NllLossBackward0>)
28500 tensor(5.7023, device='cuda:0', grad_fn=<NllLossBackward0>)
28600 tensor(5.4238, device='cuda:0', grad_fn=<NllLossBackward0>)
28700 tensor(5.7370, device='cuda:0', grad_fn=<NllLossBackward0>)
28800 tensor(5.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
28900 tensor(5.4996, device='cuda:0', grad_fn=<NllLossBackward0>)
29000 tensor(5.3866, device='cuda:0', grad_fn=<NllLossBackward0>)
29100 tensor(5.7307, device='cuda:0', grad_fn=<NllLossBackward0>)
29200 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)
29300 tensor(5.4146, device='cuda:0', grad_fn=<NllLossBackward0>)
29400 tensor(5.3214, device='cuda:0', grad_fn=<NllLossBackward0>)
29500 tensor(5.5662, device='cuda:0', grad_fn=<NllLossBackward0>)
29600 tensor(5.3077, device='cuda:0', grad_fn=<NllLossBackward0>)
29700 tensor(5.5429, device='cuda:0', grad_fn=<NllLossBackward0>)
29800 tensor(5.3651, device='cuda:0', grad_fn=<NllLossBackward0>)
29900 tensor(5.2223, device='cuda:0', grad_fn=<NllLossBackward0>)
30000 tensor(5.6396, device='cuda:0', grad_fn=<NllLossBackward0>)
30100 tensor(5.5396, device='cuda:0', grad_fn=<NllLossBackward0>)
30200 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)
30300 tensor(5.3376, device='cuda:0', grad_fn=<NllLossBackward0>)
30400 tensor(5.3402, device='cuda:0', grad_fn=<NllLossBackward0>)
30500 tensor(5.3920, device='cuda:0', grad_fn=<NllLossBackward0>)
30600 tensor(5.7303, device='cuda:0', grad_fn=<NllLossBackward0>)
30700 tensor(5.3695, device='cuda:0', grad_fn=<NllLossBackward0>)
30800 tensor(5.5152, device='cuda:0', grad_fn=<NllLossBackward0>)
30900 tensor(5.6292, device='cuda:0', grad_fn=<NllLossBackward0>)
31000 tensor(5.4888, device='cuda:0', grad_fn=<NllLossBackward0>)
31100 tensor(5.3020, device='cuda:0', grad_fn=<NllLossBackward0>)
31200 tensor(5.5003, device='cuda:0', grad_fn=<NllLossBackward0>)
31300 tensor(5.4990, device='cuda:0', grad_fn=<NllLossBackward0>)
31400 tensor(5.4505, device='cuda:0', grad_fn=<NllLossBackward0>)
31500 tensor(5.3103, device='cuda:0', grad_fn=<NllLossBackward0>)
31600 tensor(5.3098, device='cuda:0', grad_fn=<NllLossBackward0>)
31700 tensor(5.2497, device='cuda:0', grad_fn=<NllLossBackward0>)
31800 tensor(5.3974, device='cuda:0', grad_fn=<NllLossBackward0>)
31900 tensor(5.4272, device='cuda:0', grad_fn=<NllLossBackward0>)
32000 tensor(5.4688, device='cuda:0', grad_fn=<NllLossBackward0>)
32100 tensor(5.4062, device='cuda:0', grad_fn=<NllLossBackward0>)
32200 tensor(5.5946, device='cuda:0', grad_fn=<NllLossBackward0>)
32300 tensor(5.5689, device='cuda:0', grad_fn=<NllLossBackward0>)
32400 tensor(5.4197, device='cuda:0', grad_fn=<NllLossBackward0>)
32500 tensor(5.5644, device='cuda:0', grad_fn=<NllLossBackward0>)
32600 tensor(5.4227, device='cuda:0', grad_fn=<NllLossBackward0>)
32700 tensor(5.6018, device='cuda:0', grad_fn=<NllLossBackward0>)
32800 tensor(5.3377, device='cuda:0', grad_fn=<NllLossBackward0>)
32900 tensor(5.4129, device='cuda:0', grad_fn=<NllLossBackward0>)
33000 tensor(5.2989, device='cuda:0', grad_fn=<NllLossBackward0>)
33100 tensor(5.5125, device='cuda:0', grad_fn=<NllLossBackward0>)
33200 tensor(5.4998, device='cuda:0', grad_fn=<NllLossBackward0>)
33300 tensor(5.5507, device='cuda:0', grad_fn=<NllLossBackward0>)
33400 tensor(5.5466, device='cuda:0', grad_fn=<NllLossBackward0>)
33500 tensor(5.5674, device='cuda:0', grad_fn=<NllLossBackward0>)
33600 tensor(5.4285, device='cuda:0', grad_fn=<NllLossBackward0>)
33700 tensor(5.5488, device='cuda:0', grad_fn=<NllLossBackward0>)
33800 tensor(5.4235, device='cuda:0', grad_fn=<NllLossBackward0>)
33900 tensor(5.5880, device='cuda:0', grad_fn=<NllLossBackward0>)
34000 tensor(5.3808, device='cuda:0', grad_fn=<NllLossBackward0>)
34100 tensor(5.4820, device='cuda:0', grad_fn=<NllLossBackward0>)
34200 tensor(5.5643, device='cuda:0', grad_fn=<NllLossBackward0>)
34300 tensor(5.6326, device='cuda:0', grad_fn=<NllLossBackward0>)
34400 tensor(5.5655, device='cuda:0', grad_fn=<NllLossBackward0>)
34500 tensor(5.5510, device='cuda:0', grad_fn=<NllLossBackward0>)
34600 tensor(5.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
34700 tensor(5.5549, device='cuda:0', grad_fn=<NllLossBackward0>)
34800 tensor(5.6462, device='cuda:0', grad_fn=<NllLossBackward0>)
34900 tensor(5.4557, device='cuda:0', grad_fn=<NllLossBackward0>)
35000 tensor(5.3862, device='cuda:0', grad_fn=<NllLossBackward0>)
35100 tensor(5.6366, device='cuda:0', grad_fn=<NllLossBackward0>)
35200 tensor(5.1840, device='cuda:0', grad_fn=<NllLossBackward0>)
35300 tensor(5.6500, device='cuda:0', grad_fn=<NllLossBackward0>)
35400 tensor(5.5314, device='cuda:0', grad_fn=<NllLossBackward0>)
35500 tensor(5.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
35600 tensor(5.2896, device='cuda:0', grad_fn=<NllLossBackward0>)
35700 tensor(5.2241, device='cuda:0', grad_fn=<NllLossBackward0>)
35800 tensor(5.4910, device='cuda:0', grad_fn=<NllLossBackward0>)
35900 tensor(5.6407, device='cuda:0', grad_fn=<NllLossBackward0>)
36000 tensor(5.5259, device='cuda:0', grad_fn=<NllLossBackward0>)
36100 tensor(5.3138, device='cuda:0', grad_fn=<NllLossBackward0>)
36200 tensor(5.4283, device='cuda:0', grad_fn=<NllLossBackward0>)
36300 tensor(5.5557, device='cuda:0', grad_fn=<NllLossBackward0>)
36400 tensor(5.2560, device='cuda:0', grad_fn=<NllLossBackward0>)
36500 tensor(5.3602, device='cuda:0', grad_fn=<NllLossBackward0>)
36600 tensor(5.5200, device='cuda:0', grad_fn=<NllLossBackward0>)
36700 tensor(5.3699, device='cuda:0', grad_fn=<NllLossBackward0>)
36800 tensor(5.4089, device='cuda:0', grad_fn=<NllLossBackward0>)
36900 tensor(5.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
37000 tensor(5.3995, device='cuda:0', grad_fn=<NllLossBackward0>)
37100 tensor(5.6096, device='cuda:0', grad_fn=<NllLossBackward0>)
37200 tensor(5.6665, device='cuda:0', grad_fn=<NllLossBackward0>)
37300 tensor(5.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
37400 tensor(5.4732, device='cuda:0', grad_fn=<NllLossBackward0>)
37500 tensor(5.4002, device='cuda:0', grad_fn=<NllLossBackward0>)
37600 tensor(5.3519, device='cuda:0', grad_fn=<NllLossBackward0>)
37700 tensor(5.3819, device='cuda:0', grad_fn=<NllLossBackward0>)
37800 tensor(4.9806, device='cuda:0', grad_fn=<NllLossBackward0>)
37900 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)
38000 tensor(5.3507, device='cuda:0', grad_fn=<NllLossBackward0>)
38100 tensor(5.5620, device='cuda:0', grad_fn=<NllLossBackward0>)
38200 tensor(5.4836, device='cuda:0', grad_fn=<NllLossBackward0>)
38300 tensor(5.5453, device='cuda:0', grad_fn=<NllLossBackward0>)
38400 tensor(5.3681, device='cuda:0', grad_fn=<NllLossBackward0>)
38500 tensor(5.3924, device='cuda:0', grad_fn=<NllLossBackward0>)
38600 tensor(5.6353, device='cuda:0', grad_fn=<NllLossBackward0>)
38700 tensor(5.1102, device='cuda:0', grad_fn=<NllLossBackward0>)
38800 tensor(5.7265, device='cuda:0', grad_fn=<NllLossBackward0>)
38900 tensor(5.6808, device='cuda:0', grad_fn=<NllLossBackward0>)
39000 tensor(5.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
39100 tensor(5.5242, device='cuda:0', grad_fn=<NllLossBackward0>)
39200 tensor(5.3986, device='cuda:0', grad_fn=<NllLossBackward0>)
39300 tensor(5.6094, device='cuda:0', grad_fn=<NllLossBackward0>)
39400 tensor(5.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
39500 tensor(5.4291, device='cuda:0', grad_fn=<NllLossBackward0>)
39600 tensor(5.6096, device='cuda:0', grad_fn=<NllLossBackward0>)
39700 tensor(5.4467, device='cuda:0', grad_fn=<NllLossBackward0>)
39800 tensor(5.4881, device='cuda:0', grad_fn=<NllLossBackward0>)
39900 tensor(5.6645, device='cuda:0', grad_fn=<NllLossBackward0>)
40000 tensor(5.6015, device='cuda:0', grad_fn=<NllLossBackward0>)
40100 tensor(5.1822, device='cuda:0', grad_fn=<NllLossBackward0>)
40200 tensor(5.8679, device='cuda:0', grad_fn=<NllLossBackward0>)
40300 tensor(5.4774, device='cuda:0', grad_fn=<NllLossBackward0>)
40400 tensor(5.3750, device='cuda:0', grad_fn=<NllLossBackward0>)
40500 tensor(4.9790, device='cuda:0', grad_fn=<NllLossBackward0>)
40600 tensor(5.0726, device='cuda:0', grad_fn=<NllLossBackward0>)
40700 tensor(5.1360, device='cuda:0', grad_fn=<NllLossBackward0>)
40800 tensor(5.3735, device='cuda:0', grad_fn=<NllLossBackward0>)
40900 tensor(5.6424, device='cuda:0', grad_fn=<NllLossBackward0>)
41000 tensor(5.2857, device='cuda:0', grad_fn=<NllLossBackward0>)
41100 tensor(5.4865, device='cuda:0', grad_fn=<NllLossBackward0>)
41200 tensor(5.4941, device='cuda:0', grad_fn=<NllLossBackward0>)
41300 tensor(5.6159, device='cuda:0', grad_fn=<NllLossBackward0>)
41400 tensor(5.2841, device='cuda:0', grad_fn=<NllLossBackward0>)
41500 tensor(5.4356, device='cuda:0', grad_fn=<NllLossBackward0>)
41600 tensor(5.6352, device='cuda:0', grad_fn=<NllLossBackward0>)
41700 tensor(5.6359, device='cuda:0', grad_fn=<NllLossBackward0>)
41800 tensor(5.3582, device='cuda:0', grad_fn=<NllLossBackward0>)
41900 tensor(5.3467, device='cuda:0', grad_fn=<NllLossBackward0>)
42000 tensor(5.4138, device='cuda:0', grad_fn=<NllLossBackward0>)
42100 tensor(5.6829, device='cuda:0', grad_fn=<NllLossBackward0>)
42200 tensor(5.3340, device='cuda:0', grad_fn=<NllLossBackward0>)
42300 tensor(5.4833, device='cuda:0', grad_fn=<NllLossBackward0>)
42400 tensor(5.3624, device='cuda:0', grad_fn=<NllLossBackward0>)
42500 tensor(5.1591, device='cuda:0', grad_fn=<NllLossBackward0>)
42600 tensor(5.4823, device='cuda:0', grad_fn=<NllLossBackward0>)
42700 tensor(5.5607, device='cuda:0', grad_fn=<NllLossBackward0>)
42800 tensor(5.3179, device='cuda:0', grad_fn=<NllLossBackward0>)
42900 tensor(5.6652, device='cuda:0', grad_fn=<NllLossBackward0>)
43000 tensor(5.4773, device='cuda:0', grad_fn=<NllLossBackward0>)
43100 tensor(5.4712, device='cuda:0', grad_fn=<NllLossBackward0>)
43200 tensor(5.3888, device='cuda:0', grad_fn=<NllLossBackward0>)
43300 tensor(5.4873, device='cuda:0', grad_fn=<NllLossBackward0>)
43400 tensor(5.5605, device='cuda:0', grad_fn=<NllLossBackward0>)
43500 tensor(5.0506, device='cuda:0', grad_fn=<NllLossBackward0>)
43600 tensor(5.2291, device='cuda:0', grad_fn=<NllLossBackward0>)
43700 tensor(5.5935, device='cuda:0', grad_fn=<NllLossBackward0>)
43800 tensor(5.6132, device='cuda:0', grad_fn=<NllLossBackward0>)
43900 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
44000 tensor(5.4096, device='cuda:0', grad_fn=<NllLossBackward0>)
44100 tensor(5.3552, device='cuda:0', grad_fn=<NllLossBackward0>)
44200 tensor(5.6069, device='cuda:0', grad_fn=<NllLossBackward0>)
44300 tensor(5.5439, device='cuda:0', grad_fn=<NllLossBackward0>)
44400 tensor(5.4566, device='cuda:0', grad_fn=<NllLossBackward0>)
44500 tensor(5.3627, device='cuda:0', grad_fn=<NllLossBackward0>)
44600 tensor(5.4104, device='cuda:0', grad_fn=<NllLossBackward0>)
44700 tensor(5.3048, device='cuda:0', grad_fn=<NllLossBackward0>)
44800 tensor(5.6430, device='cuda:0', grad_fn=<NllLossBackward0>)
44900 tensor(5.5011, device='cuda:0', grad_fn=<NllLossBackward0>)
45000 tensor(5.7368, device='cuda:0', grad_fn=<NllLossBackward0>)
45100 tensor(5.9795, device='cuda:0', grad_fn=<NllLossBackward0>)
45200 tensor(5.6402, device='cuda:0', grad_fn=<NllLossBackward0>)
45300 tensor(5.4850, device='cuda:0', grad_fn=<NllLossBackward0>)
45400 tensor(5.1489, device='cuda:0', grad_fn=<NllLossBackward0>)
45500 tensor(5.4990, device='cuda:0', grad_fn=<NllLossBackward0>)
45600 tensor(5.3364, device='cuda:0', grad_fn=<NllLossBackward0>)
45700 tensor(5.5120, device='cuda:0', grad_fn=<NllLossBackward0>)
45800 tensor(5.1639, device='cuda:0', grad_fn=<NllLossBackward0>)
45900 tensor(5.6573, device='cuda:0', grad_fn=<NllLossBackward0>)
46000 tensor(5.5571, device='cuda:0', grad_fn=<NllLossBackward0>)
46100 tensor(5.5569, device='cuda:0', grad_fn=<NllLossBackward0>)
46200 tensor(5.4238, device='cuda:0', grad_fn=<NllLossBackward0>)
46300 tensor(5.4504, device='cuda:0', grad_fn=<NllLossBackward0>)
46400 tensor(5.4324, device='cuda:0', grad_fn=<NllLossBackward0>)
46500 tensor(5.4736, device='cuda:0', grad_fn=<NllLossBackward0>)
46600 tensor(5.3256, device='cuda:0', grad_fn=<NllLossBackward0>)
46700 tensor(5.6117, device='cuda:0', grad_fn=<NllLossBackward0>)
46800 tensor(5.5294, device='cuda:0', grad_fn=<NllLossBackward0>)
46900 tensor(5.5854, device='cuda:0', grad_fn=<NllLossBackward0>)
47000 tensor(5.1722, device='cuda:0', grad_fn=<NllLossBackward0>)
47100 tensor(5.4549, device='cuda:0', grad_fn=<NllLossBackward0>)
47200 tensor(5.4592, device='cuda:0', grad_fn=<NllLossBackward0>)
47300 tensor(5.1804, device='cuda:0', grad_fn=<NllLossBackward0>)
47400 tensor(5.0046, device='cuda:0', grad_fn=<NllLossBackward0>)
47500 tensor(5.3751, device='cuda:0', grad_fn=<NllLossBackward0>)
47600 tensor(5.4936, device='cuda:0', grad_fn=<NllLossBackward0>)
47700 tensor(5.0625, device='cuda:0', grad_fn=<NllLossBackward0>)
47800 tensor(5.2671, device='cuda:0', grad_fn=<NllLossBackward0>)
47900 tensor(5.5870, device='cuda:0', grad_fn=<NllLossBackward0>)
48000 tensor(5.4502, device='cuda:0', grad_fn=<NllLossBackward0>)
48100 tensor(5.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
48200 tensor(5.5443, device='cuda:0', grad_fn=<NllLossBackward0>)
48300 tensor(5.3492, device='cuda:0', grad_fn=<NllLossBackward0>)
48400 tensor(5.5446, device='cuda:0', grad_fn=<NllLossBackward0>)
48500 tensor(5.2361, device='cuda:0', grad_fn=<NllLossBackward0>)
48600 tensor(5.4970, device='cuda:0', grad_fn=<NllLossBackward0>)
48700 tensor(5.3725, device='cuda:0', grad_fn=<NllLossBackward0>)
48800 tensor(5.5009, device='cuda:0', grad_fn=<NllLossBackward0>)
48900 tensor(5.2975, device='cuda:0', grad_fn=<NllLossBackward0>)
49000 tensor(5.2698, device='cuda:0', grad_fn=<NllLossBackward0>)
49100 tensor(5.2921, device='cuda:0', grad_fn=<NllLossBackward0>)
49200 tensor(5.4100, device='cuda:0', grad_fn=<NllLossBackward0>)
49300 tensor(5.4580, device='cuda:0', grad_fn=<NllLossBackward0>)
49400 tensor(5.6814, device='cuda:0', grad_fn=<NllLossBackward0>)
49500 tensor(5.7361, device='cuda:0', grad_fn=<NllLossBackward0>)
49600 tensor(5.4763, device='cuda:0', grad_fn=<NllLossBackward0>)
49700 tensor(5.5044, device='cuda:0', grad_fn=<NllLossBackward0>)
49800 tensor(5.3052, device='cuda:0', grad_fn=<NllLossBackward0>)
49900 tensor(5.1156, device='cuda:0', grad_fn=<NllLossBackward0>)
50000 tensor(5.2878, device='cuda:0', grad_fn=<NllLossBackward0>)
50100 tensor(5.1773, device='cuda:0', grad_fn=<NllLossBackward0>)
50200 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
50300 tensor(5.0576, device='cuda:0', grad_fn=<NllLossBackward0>)
50400 tensor(5.4642, device='cuda:0', grad_fn=<NllLossBackward0>)
50500 tensor(5.3201, device='cuda:0', grad_fn=<NllLossBackward0>)
50600 tensor(5.5055, device='cuda:0', grad_fn=<NllLossBackward0>)
50700 tensor(5.6773, device='cuda:0', grad_fn=<NllLossBackward0>)
50800 tensor(5.4019, device='cuda:0', grad_fn=<NllLossBackward0>)
50900 tensor(5.4287, device='cuda:0', grad_fn=<NllLossBackward0>)
51000 tensor(5.1547, device='cuda:0', grad_fn=<NllLossBackward0>)
51100 tensor(5.4438, device='cuda:0', grad_fn=<NllLossBackward0>)
51200 tensor(5.5913, device='cuda:0', grad_fn=<NllLossBackward0>)
51300 tensor(5.3043, device='cuda:0', grad_fn=<NllLossBackward0>)
51400 tensor(5.0821, device='cuda:0', grad_fn=<NllLossBackward0>)
51500 tensor(5.3216, device='cuda:0', grad_fn=<NllLossBackward0>)
51600 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)
51700 tensor(5.4302, device='cuda:0', grad_fn=<NllLossBackward0>)
51800 tensor(5.2330, device='cuda:0', grad_fn=<NllLossBackward0>)
51900 tensor(5.7322, device='cuda:0', grad_fn=<NllLossBackward0>)
52000 tensor(5.4942, device='cuda:0', grad_fn=<NllLossBackward0>)
52100 tensor(5.3446, device='cuda:0', grad_fn=<NllLossBackward0>)
52200 tensor(5.3254, device='cuda:0', grad_fn=<NllLossBackward0>)
52300 tensor(4.8182, device='cuda:0', grad_fn=<NllLossBackward0>)
52400 tensor(5.1112, device='cuda:0', grad_fn=<NllLossBackward0>)
52500 tensor(5.3418, device='cuda:0', grad_fn=<NllLossBackward0>)
52600 tensor(5.0819, device='cuda:0', grad_fn=<NllLossBackward0>)
52700 tensor(5.4554, device='cuda:0', grad_fn=<NllLossBackward0>)
52800 tensor(5.4346, device='cuda:0', grad_fn=<NllLossBackward0>)
52900 tensor(5.1054, device='cuda:0', grad_fn=<NllLossBackward0>)
53000 tensor(5.4626, device='cuda:0', grad_fn=<NllLossBackward0>)
53100 tensor(5.6832, device='cuda:0', grad_fn=<NllLossBackward0>)
53200 tensor(5.6572, device='cuda:0', grad_fn=<NllLossBackward0>)
53300 tensor(5.3073, device='cuda:0', grad_fn=<NllLossBackward0>)
53400 tensor(5.3687, device='cuda:0', grad_fn=<NllLossBackward0>)
53500 tensor(5.2752, device='cuda:0', grad_fn=<NllLossBackward0>)
53600 tensor(5.4406, device='cuda:0', grad_fn=<NllLossBackward0>)
53700 tensor(5.2555, device='cuda:0', grad_fn=<NllLossBackward0>)
53800 tensor(5.2572, device='cuda:0', grad_fn=<NllLossBackward0>)
53900 tensor(5.4017, device='cuda:0', grad_fn=<NllLossBackward0>)
54000 tensor(5.8149, device='cuda:0', grad_fn=<NllLossBackward0>)
54100 tensor(5.2257, device='cuda:0', grad_fn=<NllLossBackward0>)
54200 tensor(5.5447, device='cuda:0', grad_fn=<NllLossBackward0>)
54300 tensor(5.0417, device='cuda:0', grad_fn=<NllLossBackward0>)
54400 tensor(5.1764, device='cuda:0', grad_fn=<NllLossBackward0>)
54500 tensor(5.1911, device='cuda:0', grad_fn=<NllLossBackward0>)
54600 tensor(5.5048, device='cuda:0', grad_fn=<NllLossBackward0>)
54700 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)
54800 tensor(5.3411, device='cuda:0', grad_fn=<NllLossBackward0>)
54900 tensor(5.1817, device='cuda:0', grad_fn=<NllLossBackward0>)
55000 tensor(5.3889, device='cuda:0', grad_fn=<NllLossBackward0>)
55100 tensor(5.4876, device='cuda:0', grad_fn=<NllLossBackward0>)
55200 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)
55300 tensor(5.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
55400 tensor(5.0857, device='cuda:0', grad_fn=<NllLossBackward0>)
55500 tensor(5.1714, device='cuda:0', grad_fn=<NllLossBackward0>)
55600 tensor(5.4615, device='cuda:0', grad_fn=<NllLossBackward0>)
55700 tensor(5.4912, device='cuda:0', grad_fn=<NllLossBackward0>)
55800 tensor(5.0137, device='cuda:0', grad_fn=<NllLossBackward0>)
55900 tensor(5.2807, device='cuda:0', grad_fn=<NllLossBackward0>)
56000 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
56100 tensor(5.4461, device='cuda:0', grad_fn=<NllLossBackward0>)
56200 tensor(5.3564, device='cuda:0', grad_fn=<NllLossBackward0>)
56300 tensor(4.8913, device='cuda:0', grad_fn=<NllLossBackward0>)
56400 tensor(5.4289, device='cuda:0', grad_fn=<NllLossBackward0>)
56500 tensor(5.1546, device='cuda:0', grad_fn=<NllLossBackward0>)
56600 tensor(5.1825, device='cuda:0', grad_fn=<NllLossBackward0>)
56700 tensor(5.7089, device='cuda:0', grad_fn=<NllLossBackward0>)
56800 tensor(5.3728, device='cuda:0', grad_fn=<NllLossBackward0>)
56900 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)
57000 tensor(5.5370, device='cuda:0', grad_fn=<NllLossBackward0>)
57100 tensor(5.2860, device='cuda:0', grad_fn=<NllLossBackward0>)
57200 tensor(5.5949, device='cuda:0', grad_fn=<NllLossBackward0>)
57300 tensor(5.6466, device='cuda:0', grad_fn=<NllLossBackward0>)
57400 tensor(5.3175, device='cuda:0', grad_fn=<NllLossBackward0>)
57500 tensor(5.4093, device='cuda:0', grad_fn=<NllLossBackward0>)
57600 tensor(5.7817, device='cuda:0', grad_fn=<NllLossBackward0>)
57700 tensor(5.5003, device='cuda:0', grad_fn=<NllLossBackward0>)
57800 tensor(5.3439, device='cuda:0', grad_fn=<NllLossBackward0>)
57900 tensor(5.4006, device='cuda:0', grad_fn=<NllLossBackward0>)
58000 tensor(5.2684, device='cuda:0', grad_fn=<NllLossBackward0>)
58100 tensor(5.4849, device='cuda:0', grad_fn=<NllLossBackward0>)
58200 tensor(5.3593, device='cuda:0', grad_fn=<NllLossBackward0>)
58300 tensor(5.4589, device='cuda:0', grad_fn=<NllLossBackward0>)
58400 tensor(5.4310, device='cuda:0', grad_fn=<NllLossBackward0>)
58500 tensor(5.4389, device='cuda:0', grad_fn=<NllLossBackward0>)
58600 tensor(5.3162, device='cuda:0', grad_fn=<NllLossBackward0>)
58700 tensor(5.4941, device='cuda:0', grad_fn=<NllLossBackward0>)
58800 tensor(5.5161, device='cuda:0', grad_fn=<NllLossBackward0>)
58900 tensor(5.1200, device='cuda:0', grad_fn=<NllLossBackward0>)
59000 tensor(5.4373, device='cuda:0', grad_fn=<NllLossBackward0>)
59100 tensor(5.4599, device='cuda:0', grad_fn=<NllLossBackward0>)
59200 tensor(5.4921, device='cuda:0', grad_fn=<NllLossBackward0>)
59300 tensor(5.3883, device='cuda:0', grad_fn=<NllLossBackward0>)
59400 tensor(5.1357, device='cuda:0', grad_fn=<NllLossBackward0>)
59500 tensor(5.5514, device='cuda:0', grad_fn=<NllLossBackward0>)
59600 tensor(5.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
59700 tensor(5.4095, device='cuda:0', grad_fn=<NllLossBackward0>)
59800 tensor(5.2168, device='cuda:0', grad_fn=<NllLossBackward0>)
59900 tensor(5.3622, device='cuda:0', grad_fn=<NllLossBackward0>)
60000 tensor(5.3232, device='cuda:0', grad_fn=<NllLossBackward0>)
60100 tensor(5.2477, device='cuda:0', grad_fn=<NllLossBackward0>)
60200 tensor(5.4876, device='cuda:0', grad_fn=<NllLossBackward0>)
60300 tensor(5.3204, device='cuda:0', grad_fn=<NllLossBackward0>)
60400 tensor(5.5030, device='cuda:0', grad_fn=<NllLossBackward0>)
60500 tensor(5.1152, device='cuda:0', grad_fn=<NllLossBackward0>)
60600 tensor(5.4408, device='cuda:0', grad_fn=<NllLossBackward0>)
60700 tensor(5.2033, device='cuda:0', grad_fn=<NllLossBackward0>)
60800 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)
60900 tensor(5.5461, device='cuda:0', grad_fn=<NllLossBackward0>)
61000 tensor(5.4563, device='cuda:0', grad_fn=<NllLossBackward0>)
61100 tensor(5.2254, device='cuda:0', grad_fn=<NllLossBackward0>)
61200 tensor(5.5692, device='cuda:0', grad_fn=<NllLossBackward0>)
61300 tensor(5.4247, device='cuda:0', grad_fn=<NllLossBackward0>)
61400 tensor(4.9635, device='cuda:0', grad_fn=<NllLossBackward0>)
61500 tensor(5.2972, device='cuda:0', grad_fn=<NllLossBackward0>)
61600 tensor(5.4258, device='cuda:0', grad_fn=<NllLossBackward0>)
61700 tensor(5.3653, device='cuda:0', grad_fn=<NllLossBackward0>)
61800 tensor(5.5186, device='cuda:0', grad_fn=<NllLossBackward0>)
61900 tensor(5.8254, device='cuda:0', grad_fn=<NllLossBackward0>)
62000 tensor(5.3711, device='cuda:0', grad_fn=<NllLossBackward0>)
62100 tensor(5.5506, device='cuda:0', grad_fn=<NllLossBackward0>)
62200 tensor(5.3525, device='cuda:0', grad_fn=<NllLossBackward0>)
62300 tensor(4.9781, device='cuda:0', grad_fn=<NllLossBackward0>)
62400 tensor(5.2654, device='cuda:0', grad_fn=<NllLossBackward0>)
62500 tensor(5.1860, device='cuda:0', grad_fn=<NllLossBackward0>)
62600 tensor(5.2197, device='cuda:0', grad_fn=<NllLossBackward0>)
62700 tensor(4.8901, device='cuda:0', grad_fn=<NllLossBackward0>)
62800 tensor(5.0782, device='cuda:0', grad_fn=<NllLossBackward0>)
62900 tensor(5.4533, device='cuda:0', grad_fn=<NllLossBackward0>)
63000 tensor(4.8650, device='cuda:0', grad_fn=<NllLossBackward0>)
63100 tensor(5.2813, device='cuda:0', grad_fn=<NllLossBackward0>)
63200 tensor(5.4397, device='cuda:0', grad_fn=<NllLossBackward0>)
63300 tensor(5.4245, device='cuda:0', grad_fn=<NllLossBackward0>)
63400 tensor(5.2748, device='cuda:0', grad_fn=<NllLossBackward0>)
63500 tensor(5.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
63600 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
63700 tensor(5.1610, device='cuda:0', grad_fn=<NllLossBackward0>)
63800 tensor(5.3532, device='cuda:0', grad_fn=<NllLossBackward0>)
63900 tensor(5.3806, device='cuda:0', grad_fn=<NllLossBackward0>)
64000 tensor(5.3295, device='cuda:0', grad_fn=<NllLossBackward0>)
64100 tensor(5.4567, device='cuda:0', grad_fn=<NllLossBackward0>)
64200 tensor(5.1251, device='cuda:0', grad_fn=<NllLossBackward0>)
64300 tensor(5.3982, device='cuda:0', grad_fn=<NllLossBackward0>)
64400 tensor(5.4605, device='cuda:0', grad_fn=<NllLossBackward0>)
64500 tensor(5.3091, device='cuda:0', grad_fn=<NllLossBackward0>)
64600 tensor(5.3547, device='cuda:0', grad_fn=<NllLossBackward0>)
64700 tensor(5.5553, device='cuda:0', grad_fn=<NllLossBackward0>)
64800 tensor(5.1512, device='cuda:0', grad_fn=<NllLossBackward0>)
64900 tensor(5.3059, device='cuda:0', grad_fn=<NllLossBackward0>)
65000 tensor(5.3715, device='cuda:0', grad_fn=<NllLossBackward0>)
65100 tensor(5.1765, device='cuda:0', grad_fn=<NllLossBackward0>)
65200 tensor(4.9975, device='cuda:0', grad_fn=<NllLossBackward0>)
65300 tensor(5.4619, device='cuda:0', grad_fn=<NllLossBackward0>)
65400 tensor(5.2211, device='cuda:0', grad_fn=<NllLossBackward0>)
65500 tensor(5.0544, device='cuda:0', grad_fn=<NllLossBackward0>)
65600 tensor(5.4778, device='cuda:0', grad_fn=<NllLossBackward0>)
65700 tensor(5.4886, device='cuda:0', grad_fn=<NllLossBackward0>)
65800 tensor(5.3707, device='cuda:0', grad_fn=<NllLossBackward0>)
65900 tensor(5.3304, device='cuda:0', grad_fn=<NllLossBackward0>)
66000 tensor(5.7419, device='cuda:0', grad_fn=<NllLossBackward0>)
66100 tensor(5.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
66200 tensor(5.3704, device='cuda:0', grad_fn=<NllLossBackward0>)
66300 tensor(5.1073, device='cuda:0', grad_fn=<NllLossBackward0>)
66400 tensor(5.4869, device='cuda:0', grad_fn=<NllLossBackward0>)
66500 tensor(5.6025, device='cuda:0', grad_fn=<NllLossBackward0>)
66600 tensor(5.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
66700 tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)
66800 tensor(5.3238, device='cuda:0', grad_fn=<NllLossBackward0>)
66900 tensor(5.2442, device='cuda:0', grad_fn=<NllLossBackward0>)
67000 tensor(5.3488, device='cuda:0', grad_fn=<NllLossBackward0>)
67100 tensor(5.2200, device='cuda:0', grad_fn=<NllLossBackward0>)
67200 tensor(5.6754, device='cuda:0', grad_fn=<NllLossBackward0>)
67300 tensor(5.5589, device='cuda:0', grad_fn=<NllLossBackward0>)
67400 tensor(5.3765, device='cuda:0', grad_fn=<NllLossBackward0>)
67500 tensor(5.3911, device='cuda:0', grad_fn=<NllLossBackward0>)
67600 tensor(5.3410, device='cuda:0', grad_fn=<NllLossBackward0>)
67700 tensor(5.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
67800 tensor(5.2726, device='cuda:0', grad_fn=<NllLossBackward0>)
67900 tensor(5.2314, device='cuda:0', grad_fn=<NllLossBackward0>)
68000 tensor(5.3615, device='cuda:0', grad_fn=<NllLossBackward0>)
68100 tensor(5.3275, device='cuda:0', grad_fn=<NllLossBackward0>)
68200 tensor(5.1481, device='cuda:0', grad_fn=<NllLossBackward0>)
68300 tensor(5.2834, device='cuda:0', grad_fn=<NllLossBackward0>)
68400 tensor(5.8378, device='cuda:0', grad_fn=<NllLossBackward0>)
68500 tensor(5.0982, device='cuda:0', grad_fn=<NllLossBackward0>)
68600 tensor(5.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
68700 tensor(5.2916, device='cuda:0', grad_fn=<NllLossBackward0>)
68800 tensor(5.4921, device='cuda:0', grad_fn=<NllLossBackward0>)
68900 tensor(5.2871, device='cuda:0', grad_fn=<NllLossBackward0>)
69000 tensor(5.2191, device='cuda:0', grad_fn=<NllLossBackward0>)
69100 tensor(5.4146, device='cuda:0', grad_fn=<NllLossBackward0>)
69200 tensor(5.3098, device='cuda:0', grad_fn=<NllLossBackward0>)
69300 tensor(4.9947, device='cuda:0', grad_fn=<NllLossBackward0>)
69400 tensor(5.3038, device='cuda:0', grad_fn=<NllLossBackward0>)
69500 tensor(5.1063, device='cuda:0', grad_fn=<NllLossBackward0>)
Creating outputs in dev-0
Creating outputs in test-A
0 tensor(10.3276, device='cuda:0', grad_fn=<NllLossBackward0>)
100 tensor(7.9401, device='cuda:0', grad_fn=<NllLossBackward0>)
200 tensor(7.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
300 tensor(6.8126, device='cuda:0', grad_fn=<NllLossBackward0>)
400 tensor(6.6045, device='cuda:0', grad_fn=<NllLossBackward0>)
500 tensor(6.6184, device='cuda:0', grad_fn=<NllLossBackward0>)
600 tensor(6.6869, device='cuda:0', grad_fn=<NllLossBackward0>)
700 tensor(6.3630, device='cuda:0', grad_fn=<NllLossBackward0>)
800 tensor(6.1966, device='cuda:0', grad_fn=<NllLossBackward0>)
900 tensor(6.3506, device='cuda:0', grad_fn=<NllLossBackward0>)
1000 tensor(6.2652, device='cuda:0', grad_fn=<NllLossBackward0>)
1100 tensor(5.8459, device='cuda:0', grad_fn=<NllLossBackward0>)
1200 tensor(6.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
1300 tensor(6.4105, device='cuda:0', grad_fn=<NllLossBackward0>)
1400 tensor(6.1318, device='cuda:0', grad_fn=<NllLossBackward0>)
1500 tensor(5.9373, device='cuda:0', grad_fn=<NllLossBackward0>)
1600 tensor(5.9996, device='cuda:0', grad_fn=<NllLossBackward0>)
1700 tensor(6.2852, device='cuda:0', grad_fn=<NllLossBackward0>)
1800 tensor(6.2778, device='cuda:0', grad_fn=<NllLossBackward0>)
1900 tensor(6.1339, device='cuda:0', grad_fn=<NllLossBackward0>)
2000 tensor(6.1958, device='cuda:0', grad_fn=<NllLossBackward0>)
2100 tensor(5.9972, device='cuda:0', grad_fn=<NllLossBackward0>)
2200 tensor(6.2078, device='cuda:0', grad_fn=<NllLossBackward0>)
2300 tensor(6.1827, device='cuda:0', grad_fn=<NllLossBackward0>)
2400 tensor(6.1275, device='cuda:0', grad_fn=<NllLossBackward0>)
2500 tensor(6.1562, device='cuda:0', grad_fn=<NllLossBackward0>)
2600 tensor(6.0775, device='cuda:0', grad_fn=<NllLossBackward0>)
2700 tensor(6.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
2800 tensor(6.1155, device='cuda:0', grad_fn=<NllLossBackward0>)
2900 tensor(6.0537, device='cuda:0', grad_fn=<NllLossBackward0>)
3000 tensor(6.0540, device='cuda:0', grad_fn=<NllLossBackward0>)
3100 tensor(5.8310, device='cuda:0', grad_fn=<NllLossBackward0>)
3200 tensor(6.3952, device='cuda:0', grad_fn=<NllLossBackward0>)
3300 tensor(6.1059, device='cuda:0', grad_fn=<NllLossBackward0>)
3400 tensor(5.9665, device='cuda:0', grad_fn=<NllLossBackward0>)
3500 tensor(5.9202, device='cuda:0', grad_fn=<NllLossBackward0>)
3600 tensor(6.2096, device='cuda:0', grad_fn=<NllLossBackward0>)
3700 tensor(5.9983, device='cuda:0', grad_fn=<NllLossBackward0>)
3800 tensor(6.0919, device='cuda:0', grad_fn=<NllLossBackward0>)
3900 tensor(6.0015, device='cuda:0', grad_fn=<NllLossBackward0>)
4000 tensor(5.8796, device='cuda:0', grad_fn=<NllLossBackward0>)
4100 tensor(6.0101, device='cuda:0', grad_fn=<NllLossBackward0>)
4200 tensor(5.9665, device='cuda:0', grad_fn=<NllLossBackward0>)
4300 tensor(5.8365, device='cuda:0', grad_fn=<NllLossBackward0>)
4400 tensor(5.6078, device='cuda:0', grad_fn=<NllLossBackward0>)
4500 tensor(5.9602, device='cuda:0', grad_fn=<NllLossBackward0>)
4600 tensor(5.8495, device='cuda:0', grad_fn=<NllLossBackward0>)
4700 tensor(5.6834, device='cuda:0', grad_fn=<NllLossBackward0>)
4800 tensor(5.8261, device='cuda:0', grad_fn=<NllLossBackward0>)
4900 tensor(5.9137, device='cuda:0', grad_fn=<NllLossBackward0>)
5000 tensor(6.0360, device='cuda:0', grad_fn=<NllLossBackward0>)
5100 tensor(5.8791, device='cuda:0', grad_fn=<NllLossBackward0>)
5200 tensor(6.1084, device='cuda:0', grad_fn=<NllLossBackward0>)
5300 tensor(6.0378, device='cuda:0', grad_fn=<NllLossBackward0>)
5400 tensor(5.9057, device='cuda:0', grad_fn=<NllLossBackward0>)
5500 tensor(5.9146, device='cuda:0', grad_fn=<NllLossBackward0>)
5600 tensor(5.9022, device='cuda:0', grad_fn=<NllLossBackward0>)
5700 tensor(5.9767, device='cuda:0', grad_fn=<NllLossBackward0>)
5800 tensor(5.9410, device='cuda:0', grad_fn=<NllLossBackward0>)
5900 tensor(5.8609, device='cuda:0', grad_fn=<NllLossBackward0>)
6000 tensor(5.8036, device='cuda:0', grad_fn=<NllLossBackward0>)
6100 tensor(5.8270, device='cuda:0', grad_fn=<NllLossBackward0>)
6200 tensor(5.9282, device='cuda:0', grad_fn=<NllLossBackward0>)
6300 tensor(5.7968, device='cuda:0', grad_fn=<NllLossBackward0>)
6400 tensor(6.1270, device='cuda:0', grad_fn=<NllLossBackward0>)
6500 tensor(5.7318, device='cuda:0', grad_fn=<NllLossBackward0>)
6600 tensor(6.0448, device='cuda:0', grad_fn=<NllLossBackward0>)
6700 tensor(5.9031, device='cuda:0', grad_fn=<NllLossBackward0>)
6800 tensor(5.7908, device='cuda:0', grad_fn=<NllLossBackward0>)
6900 tensor(5.7183, device='cuda:0', grad_fn=<NllLossBackward0>)
7000 tensor(5.8839, device='cuda:0', grad_fn=<NllLossBackward0>)
7100 tensor(5.7365, device='cuda:0', grad_fn=<NllLossBackward0>)
7200 tensor(5.8651, device='cuda:0', grad_fn=<NllLossBackward0>)
7300 tensor(6.0091, device='cuda:0', grad_fn=<NllLossBackward0>)
7400 tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)
7500 tensor(5.8671, device='cuda:0', grad_fn=<NllLossBackward0>)
7600 tensor(5.8997, device='cuda:0', grad_fn=<NllLossBackward0>)
7700 tensor(5.7679, device='cuda:0', grad_fn=<NllLossBackward0>)
7800 tensor(5.7867, device='cuda:0', grad_fn=<NllLossBackward0>)
7900 tensor(5.9113, device='cuda:0', grad_fn=<NllLossBackward0>)
8000 tensor(5.6723, device='cuda:0', grad_fn=<NllLossBackward0>)
8100 tensor(5.9791, device='cuda:0', grad_fn=<NllLossBackward0>)
8200 tensor(5.8998, device='cuda:0', grad_fn=<NllLossBackward0>)
8300 tensor(5.8103, device='cuda:0', grad_fn=<NllLossBackward0>)
8400 tensor(5.9573, device='cuda:0', grad_fn=<NllLossBackward0>)
8500 tensor(5.2251, device='cuda:0', grad_fn=<NllLossBackward0>)
8600 tensor(5.7472, device='cuda:0', grad_fn=<NllLossBackward0>)
8700 tensor(5.3789, device='cuda:0', grad_fn=<NllLossBackward0>)
8800 tensor(5.8526, device='cuda:0', grad_fn=<NllLossBackward0>)
8900 tensor(5.7923, device='cuda:0', grad_fn=<NllLossBackward0>)
9000 tensor(5.7036, device='cuda:0', grad_fn=<NllLossBackward0>)
9100 tensor(5.7377, device='cuda:0', grad_fn=<NllLossBackward0>)
9200 tensor(5.7688, device='cuda:0', grad_fn=<NllLossBackward0>)
9300 tensor(5.7391, device='cuda:0', grad_fn=<NllLossBackward0>)
9400 tensor(5.9497, device='cuda:0', grad_fn=<NllLossBackward0>)
9500 tensor(5.5777, device='cuda:0', grad_fn=<NllLossBackward0>)
9600 tensor(5.8298, device='cuda:0', grad_fn=<NllLossBackward0>)
9700 tensor(5.7534, device='cuda:0', grad_fn=<NllLossBackward0>)
9800 tensor(5.9139, device='cuda:0', grad_fn=<NllLossBackward0>)
9900 tensor(5.7988, device='cuda:0', grad_fn=<NllLossBackward0>)
10000 tensor(5.8364, device='cuda:0', grad_fn=<NllLossBackward0>)
10100 tensor(5.7934, device='cuda:0', grad_fn=<NllLossBackward0>)
10200 tensor(5.5965, device='cuda:0', grad_fn=<NllLossBackward0>)
10300 tensor(5.8358, device='cuda:0', grad_fn=<NllLossBackward0>)
10400 tensor(5.8457, device='cuda:0', grad_fn=<NllLossBackward0>)
10500 tensor(5.7757, device='cuda:0', grad_fn=<NllLossBackward0>)
10600 tensor(5.5855, device='cuda:0', grad_fn=<NllLossBackward0>)
10700 tensor(5.6421, device='cuda:0', grad_fn=<NllLossBackward0>)
10800 tensor(5.7135, device='cuda:0', grad_fn=<NllLossBackward0>)
10900 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)
11000 tensor(5.7571, device='cuda:0', grad_fn=<NllLossBackward0>)
11100 tensor(5.8093, device='cuda:0', grad_fn=<NllLossBackward0>)
11200 tensor(5.5920, device='cuda:0', grad_fn=<NllLossBackward0>)
11300 tensor(5.8946, device='cuda:0', grad_fn=<NllLossBackward0>)
11400 tensor(5.7888, device='cuda:0', grad_fn=<NllLossBackward0>)
11500 tensor(5.8484, device='cuda:0', grad_fn=<NllLossBackward0>)
11600 tensor(5.9122, device='cuda:0', grad_fn=<NllLossBackward0>)
11700 tensor(5.7712, device='cuda:0', grad_fn=<NllLossBackward0>)
11800 tensor(5.4625, device='cuda:0', grad_fn=<NllLossBackward0>)
11900 tensor(5.9522, device='cuda:0', grad_fn=<NllLossBackward0>)
12000 tensor(5.7293, device='cuda:0', grad_fn=<NllLossBackward0>)
12100 tensor(5.6809, device='cuda:0', grad_fn=<NllLossBackward0>)
12200 tensor(5.6963, device='cuda:0', grad_fn=<NllLossBackward0>)
12300 tensor(5.5903, device='cuda:0', grad_fn=<NllLossBackward0>)
12400 tensor(5.6758, device='cuda:0', grad_fn=<NllLossBackward0>)
12500 tensor(5.8388, device='cuda:0', grad_fn=<NllLossBackward0>)
12600 tensor(5.6493, device='cuda:0', grad_fn=<NllLossBackward0>)
12700 tensor(5.7067, device='cuda:0', grad_fn=<NllLossBackward0>)
12800 tensor(5.8122, device='cuda:0', grad_fn=<NllLossBackward0>)
12900 tensor(5.5808, device='cuda:0', grad_fn=<NllLossBackward0>)
13000 tensor(5.7339, device='cuda:0', grad_fn=<NllLossBackward0>)
13100 tensor(5.5628, device='cuda:0', grad_fn=<NllLossBackward0>)
13200 tensor(5.6367, device='cuda:0', grad_fn=<NllLossBackward0>)
13300 tensor(5.8845, device='cuda:0', grad_fn=<NllLossBackward0>)
13400 tensor(5.5808, device='cuda:0', grad_fn=<NllLossBackward0>)
13500 tensor(5.6065, device='cuda:0', grad_fn=<NllLossBackward0>)
13600 tensor(5.6312, device='cuda:0', grad_fn=<NllLossBackward0>)
13700 tensor(5.5297, device='cuda:0', grad_fn=<NllLossBackward0>)
13800 tensor(5.6371, device='cuda:0', grad_fn=<NllLossBackward0>)
13900 tensor(5.4678, device='cuda:0', grad_fn=<NllLossBackward0>)
14000 tensor(5.5841, device='cuda:0', grad_fn=<NllLossBackward0>)
14100 tensor(5.6667, device='cuda:0', grad_fn=<NllLossBackward0>)
14200 tensor(5.6490, device='cuda:0', grad_fn=<NllLossBackward0>)
14300 tensor(5.6490, device='cuda:0', grad_fn=<NllLossBackward0>)
14400 tensor(5.8014, device='cuda:0', grad_fn=<NllLossBackward0>)
14500 tensor(5.7761, device='cuda:0', grad_fn=<NllLossBackward0>)
14600 tensor(5.6229, device='cuda:0', grad_fn=<NllLossBackward0>)
14700 tensor(5.5781, device='cuda:0', grad_fn=<NllLossBackward0>)
14800 tensor(5.5083, device='cuda:0', grad_fn=<NllLossBackward0>)
14900 tensor(5.8224, device='cuda:0', grad_fn=<NllLossBackward0>)
15000 tensor(5.6680, device='cuda:0', grad_fn=<NllLossBackward0>)
15100 tensor(5.3498, device='cuda:0', grad_fn=<NllLossBackward0>)
15200 tensor(5.3971, device='cuda:0', grad_fn=<NllLossBackward0>)
15300 tensor(5.6708, device='cuda:0', grad_fn=<NllLossBackward0>)
15400 tensor(5.6057, device='cuda:0', grad_fn=<NllLossBackward0>)
15500 tensor(5.7612, device='cuda:0', grad_fn=<NllLossBackward0>)
15600 tensor(5.3966, device='cuda:0', grad_fn=<NllLossBackward0>)
15700 tensor(5.4845, device='cuda:0', grad_fn=<NllLossBackward0>)
15800 tensor(5.6853, device='cuda:0', grad_fn=<NllLossBackward0>)
15900 tensor(5.3362, device='cuda:0', grad_fn=<NllLossBackward0>)
16000 tensor(5.6539, device='cuda:0', grad_fn=<NllLossBackward0>)
16100 tensor(5.5410, device='cuda:0', grad_fn=<NllLossBackward0>)
16200 tensor(5.4011, device='cuda:0', grad_fn=<NllLossBackward0>)
16300 tensor(5.5504, device='cuda:0', grad_fn=<NllLossBackward0>)
16400 tensor(5.6887, device='cuda:0', grad_fn=<NllLossBackward0>)
16500 tensor(5.7357, device='cuda:0', grad_fn=<NllLossBackward0>)
16600 tensor(5.5474, device='cuda:0', grad_fn=<NllLossBackward0>)
16700 tensor(5.4877, device='cuda:0', grad_fn=<NllLossBackward0>)
16800 tensor(5.6792, device='cuda:0', grad_fn=<NllLossBackward0>)
16900 tensor(5.3604, device='cuda:0', grad_fn=<NllLossBackward0>)
17000 tensor(5.3803, device='cuda:0', grad_fn=<NllLossBackward0>)
17100 tensor(5.5635, device='cuda:0', grad_fn=<NllLossBackward0>)
17200 tensor(5.3282, device='cuda:0', grad_fn=<NllLossBackward0>)
17300 tensor(5.7271, device='cuda:0', grad_fn=<NllLossBackward0>)
17400 tensor(5.5405, device='cuda:0', grad_fn=<NllLossBackward0>)
17500 tensor(5.6601, device='cuda:0', grad_fn=<NllLossBackward0>)
17600 tensor(5.3243, device='cuda:0', grad_fn=<NllLossBackward0>)
17700 tensor(5.5445, device='cuda:0', grad_fn=<NllLossBackward0>)
17800 tensor(5.5560, device='cuda:0', grad_fn=<NllLossBackward0>)
17900 tensor(5.5542, device='cuda:0', grad_fn=<NllLossBackward0>)
18000 tensor(5.5684, device='cuda:0', grad_fn=<NllLossBackward0>)
18100 tensor(5.6245, device='cuda:0', grad_fn=<NllLossBackward0>)
18200 tensor(5.4738, device='cuda:0', grad_fn=<NllLossBackward0>)
18300 tensor(5.2101, device='cuda:0', grad_fn=<NllLossBackward0>)
18400 tensor(5.3317, device='cuda:0', grad_fn=<NllLossBackward0>)
18500 tensor(5.5373, device='cuda:0', grad_fn=<NllLossBackward0>)
18600 tensor(5.5806, device='cuda:0', grad_fn=<NllLossBackward0>)
18700 tensor(5.3268, device='cuda:0', grad_fn=<NllLossBackward0>)
18800 tensor(5.5929, device='cuda:0', grad_fn=<NllLossBackward0>)
18900 tensor(5.4883, device='cuda:0', grad_fn=<NllLossBackward0>)
19000 tensor(5.6732, device='cuda:0', grad_fn=<NllLossBackward0>)
19100 tensor(5.6076, device='cuda:0', grad_fn=<NllLossBackward0>)
19200 tensor(5.6036, device='cuda:0', grad_fn=<NllLossBackward0>)
19300 tensor(5.4558, device='cuda:0', grad_fn=<NllLossBackward0>)
19400 tensor(5.7300, device='cuda:0', grad_fn=<NllLossBackward0>)
19500 tensor(5.4478, device='cuda:0', grad_fn=<NllLossBackward0>)
19600 tensor(5.5504, device='cuda:0', grad_fn=<NllLossBackward0>)
19700 tensor(5.6629, device='cuda:0', grad_fn=<NllLossBackward0>)
19800 tensor(5.4606, device='cuda:0', grad_fn=<NllLossBackward0>)
19900 tensor(5.5990, device='cuda:0', grad_fn=<NllLossBackward0>)
20000 tensor(5.4913, device='cuda:0', grad_fn=<NllLossBackward0>)
20100 tensor(5.5838, device='cuda:0', grad_fn=<NllLossBackward0>)
20200 tensor(5.6306, device='cuda:0', grad_fn=<NllLossBackward0>)
20300 tensor(5.7517, device='cuda:0', grad_fn=<NllLossBackward0>)
20400 tensor(5.7437, device='cuda:0', grad_fn=<NllLossBackward0>)
20500 tensor(5.2876, device='cuda:0', grad_fn=<NllLossBackward0>)
20600 tensor(5.4658, device='cuda:0', grad_fn=<NllLossBackward0>)
20700 tensor(5.5432, device='cuda:0', grad_fn=<NllLossBackward0>)
20800 tensor(5.6153, device='cuda:0', grad_fn=<NllLossBackward0>)
20900 tensor(5.3012, device='cuda:0', grad_fn=<NllLossBackward0>)
21000 tensor(5.7174, device='cuda:0', grad_fn=<NllLossBackward0>)
21100 tensor(5.7087, device='cuda:0', grad_fn=<NllLossBackward0>)
21200 tensor(5.4054, device='cuda:0', grad_fn=<NllLossBackward0>)
21300 tensor(5.4343, device='cuda:0', grad_fn=<NllLossBackward0>)
21400 tensor(5.4821, device='cuda:0', grad_fn=<NllLossBackward0>)
21500 tensor(5.6225, device='cuda:0', grad_fn=<NllLossBackward0>)
21600 tensor(5.2409, device='cuda:0', grad_fn=<NllLossBackward0>)
21700 tensor(5.6401, device='cuda:0', grad_fn=<NllLossBackward0>)
21800 tensor(5.2731, device='cuda:0', grad_fn=<NllLossBackward0>)
21900 tensor(5.2805, device='cuda:0', grad_fn=<NllLossBackward0>)
22000 tensor(5.2720, device='cuda:0', grad_fn=<NllLossBackward0>)
22100 tensor(5.6463, device='cuda:0', grad_fn=<NllLossBackward0>)
22200 tensor(5.4828, device='cuda:0', grad_fn=<NllLossBackward0>)
22300 tensor(5.6261, device='cuda:0', grad_fn=<NllLossBackward0>)
22400 tensor(5.5138, device='cuda:0', grad_fn=<NllLossBackward0>)
22500 tensor(5.3706, device='cuda:0', grad_fn=<NllLossBackward0>)
22600 tensor(5.4354, device='cuda:0', grad_fn=<NllLossBackward0>)
22700 tensor(5.4202, device='cuda:0', grad_fn=<NllLossBackward0>)
22800 tensor(5.7905, device='cuda:0', grad_fn=<NllLossBackward0>)
22900 tensor(5.2294, device='cuda:0', grad_fn=<NllLossBackward0>)
23000 tensor(5.3182, device='cuda:0', grad_fn=<NllLossBackward0>)
23100 tensor(5.5862, device='cuda:0', grad_fn=<NllLossBackward0>)
23200 tensor(5.3990, device='cuda:0', grad_fn=<NllLossBackward0>)
23300 tensor(5.6126, device='cuda:0', grad_fn=<NllLossBackward0>)
23400 tensor(5.7029, device='cuda:0', grad_fn=<NllLossBackward0>)
23500 tensor(5.4930, device='cuda:0', grad_fn=<NllLossBackward0>)
23600 tensor(5.5215, device='cuda:0', grad_fn=<NllLossBackward0>)
23700 tensor(5.5489, device='cuda:0', grad_fn=<NllLossBackward0>)
23800 tensor(5.5511, device='cuda:0', grad_fn=<NllLossBackward0>)
23900 tensor(5.3016, device='cuda:0', grad_fn=<NllLossBackward0>)
24000 tensor(5.4924, device='cuda:0', grad_fn=<NllLossBackward0>)
24100 tensor(5.4329, device='cuda:0', grad_fn=<NllLossBackward0>)
24200 tensor(5.6289, device='cuda:0', grad_fn=<NllLossBackward0>)
24300 tensor(5.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
24400 tensor(5.6027, device='cuda:0', grad_fn=<NllLossBackward0>)
24500 tensor(5.4396, device='cuda:0', grad_fn=<NllLossBackward0>)
24600 tensor(5.4280, device='cuda:0', grad_fn=<NllLossBackward0>)
24700 tensor(5.1445, device='cuda:0', grad_fn=<NllLossBackward0>)
24800 tensor(5.6998, device='cuda:0', grad_fn=<NllLossBackward0>)
24900 tensor(5.5898, device='cuda:0', grad_fn=<NllLossBackward0>)
25000 tensor(5.0798, device='cuda:0', grad_fn=<NllLossBackward0>)
25100 tensor(5.4058, device='cuda:0', grad_fn=<NllLossBackward0>)
25200 tensor(5.5027, device='cuda:0', grad_fn=<NllLossBackward0>)
25300 tensor(5.3597, device='cuda:0', grad_fn=<NllLossBackward0>)
25400 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)
25500 tensor(5.3743, device='cuda:0', grad_fn=<NllLossBackward0>)
25600 tensor(5.4663, device='cuda:0', grad_fn=<NllLossBackward0>)
25700 tensor(5.3030, device='cuda:0', grad_fn=<NllLossBackward0>)
25800 tensor(5.4715, device='cuda:0', grad_fn=<NllLossBackward0>)
25900 tensor(5.2035, device='cuda:0', grad_fn=<NllLossBackward0>)
26000 tensor(5.2225, device='cuda:0', grad_fn=<NllLossBackward0>)
26100 tensor(5.4799, device='cuda:0', grad_fn=<NllLossBackward0>)
26200 tensor(5.4450, device='cuda:0', grad_fn=<NllLossBackward0>)
26300 tensor(5.2706, device='cuda:0', grad_fn=<NllLossBackward0>)
26400 tensor(5.4454, device='cuda:0', grad_fn=<NllLossBackward0>)
26500 tensor(5.5807, device='cuda:0', grad_fn=<NllLossBackward0>)
26600 tensor(5.5342, device='cuda:0', grad_fn=<NllLossBackward0>)
26700 tensor(5.2518, device='cuda:0', grad_fn=<NllLossBackward0>)
26800 tensor(5.4177, device='cuda:0', grad_fn=<NllLossBackward0>)
26900 tensor(5.5794, device='cuda:0', grad_fn=<NllLossBackward0>)
27000 tensor(5.6461, device='cuda:0', grad_fn=<NllLossBackward0>)
27100 tensor(5.5408, device='cuda:0', grad_fn=<NllLossBackward0>)
27200 tensor(5.2936, device='cuda:0', grad_fn=<NllLossBackward0>)
27300 tensor(5.2004, device='cuda:0', grad_fn=<NllLossBackward0>)
27400 tensor(5.3138, device='cuda:0', grad_fn=<NllLossBackward0>)
27500 tensor(5.6336, device='cuda:0', grad_fn=<NllLossBackward0>)
27600 tensor(5.4203, device='cuda:0', grad_fn=<NllLossBackward0>)
27700 tensor(5.4721, device='cuda:0', grad_fn=<NllLossBackward0>)
27800 tensor(5.5921, device='cuda:0', grad_fn=<NllLossBackward0>)
27900 tensor(5.6373, device='cuda:0', grad_fn=<NllLossBackward0>)
28000 tensor(5.1662, device='cuda:0', grad_fn=<NllLossBackward0>)
28100 tensor(5.4787, device='cuda:0', grad_fn=<NllLossBackward0>)
28200 tensor(5.4856, device='cuda:0', grad_fn=<NllLossBackward0>)
28300 tensor(5.6498, device='cuda:0', grad_fn=<NllLossBackward0>)
28400 tensor(5.5388, device='cuda:0', grad_fn=<NllLossBackward0>)
28500 tensor(5.6319, device='cuda:0', grad_fn=<NllLossBackward0>)
28600 tensor(5.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
28700 tensor(5.6825, device='cuda:0', grad_fn=<NllLossBackward0>)
28800 tensor(5.3621, device='cuda:0', grad_fn=<NllLossBackward0>)
28900 tensor(5.4746, device='cuda:0', grad_fn=<NllLossBackward0>)
29000 tensor(5.3626, device='cuda:0', grad_fn=<NllLossBackward0>)
29100 tensor(5.7126, device='cuda:0', grad_fn=<NllLossBackward0>)
29200 tensor(5.4012, device='cuda:0', grad_fn=<NllLossBackward0>)
29300 tensor(5.4157, device='cuda:0', grad_fn=<NllLossBackward0>)
29400 tensor(5.2930, device='cuda:0', grad_fn=<NllLossBackward0>)
29500 tensor(5.5337, device='cuda:0', grad_fn=<NllLossBackward0>)
29600 tensor(5.2934, device='cuda:0', grad_fn=<NllLossBackward0>)
29700 tensor(5.5155, device='cuda:0', grad_fn=<NllLossBackward0>)
29800 tensor(5.3146, device='cuda:0', grad_fn=<NllLossBackward0>)
29900 tensor(5.1791, device='cuda:0', grad_fn=<NllLossBackward0>)
30000 tensor(5.6208, device='cuda:0', grad_fn=<NllLossBackward0>)
30100 tensor(5.5001, device='cuda:0', grad_fn=<NllLossBackward0>)
30200 tensor(5.5309, device='cuda:0', grad_fn=<NllLossBackward0>)
30300 tensor(5.3248, device='cuda:0', grad_fn=<NllLossBackward0>)
30400 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)
30500 tensor(5.3548, device='cuda:0', grad_fn=<NllLossBackward0>)
30600 tensor(5.6949, device='cuda:0', grad_fn=<NllLossBackward0>)
30700 tensor(5.3516, device='cuda:0', grad_fn=<NllLossBackward0>)
30800 tensor(5.4787, device='cuda:0', grad_fn=<NllLossBackward0>)
30900 tensor(5.6210, device='cuda:0', grad_fn=<NllLossBackward0>)
31000 tensor(5.4579, device='cuda:0', grad_fn=<NllLossBackward0>)
31100 tensor(5.2580, device='cuda:0', grad_fn=<NllLossBackward0>)
31200 tensor(5.4551, device='cuda:0', grad_fn=<NllLossBackward0>)
31300 tensor(5.4752, device='cuda:0', grad_fn=<NllLossBackward0>)
31400 tensor(5.4314, device='cuda:0', grad_fn=<NllLossBackward0>)
31500 tensor(5.3100, device='cuda:0', grad_fn=<NllLossBackward0>)
31600 tensor(5.2698, device='cuda:0', grad_fn=<NllLossBackward0>)
31700 tensor(5.2381, device='cuda:0', grad_fn=<NllLossBackward0>)
31800 tensor(5.3748, device='cuda:0', grad_fn=<NllLossBackward0>)
31900 tensor(5.3878, device='cuda:0', grad_fn=<NllLossBackward0>)
32000 tensor(5.4416, device='cuda:0', grad_fn=<NllLossBackward0>)
32100 tensor(5.3698, device='cuda:0', grad_fn=<NllLossBackward0>)
32200 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)
32300 tensor(5.5495, device='cuda:0', grad_fn=<NllLossBackward0>)
32400 tensor(5.3757, device='cuda:0', grad_fn=<NllLossBackward0>)
32500 tensor(5.5115, device='cuda:0', grad_fn=<NllLossBackward0>)
32600 tensor(5.3601, device='cuda:0', grad_fn=<NllLossBackward0>)
32700 tensor(5.5613, device='cuda:0', grad_fn=<NllLossBackward0>)
32800 tensor(5.2945, device='cuda:0', grad_fn=<NllLossBackward0>)
32900 tensor(5.3886, device='cuda:0', grad_fn=<NllLossBackward0>)
33000 tensor(5.2523, device='cuda:0', grad_fn=<NllLossBackward0>)
33100 tensor(5.4927, device='cuda:0', grad_fn=<NllLossBackward0>)
33200 tensor(5.4861, device='cuda:0', grad_fn=<NllLossBackward0>)
33300 tensor(5.5200, device='cuda:0', grad_fn=<NllLossBackward0>)
33400 tensor(5.5081, device='cuda:0', grad_fn=<NllLossBackward0>)
33500 tensor(5.5283, device='cuda:0', grad_fn=<NllLossBackward0>)
33600 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)
33700 tensor(5.5134, device='cuda:0', grad_fn=<NllLossBackward0>)
33800 tensor(5.3997, device='cuda:0', grad_fn=<NllLossBackward0>)
33900 tensor(5.5564, device='cuda:0', grad_fn=<NllLossBackward0>)
34000 tensor(5.3547, device='cuda:0', grad_fn=<NllLossBackward0>)
34100 tensor(5.4632, device='cuda:0', grad_fn=<NllLossBackward0>)
34200 tensor(5.5208, device='cuda:0', grad_fn=<NllLossBackward0>)
34300 tensor(5.6178, device='cuda:0', grad_fn=<NllLossBackward0>)
34400 tensor(5.5390, device='cuda:0', grad_fn=<NllLossBackward0>)
34500 tensor(5.5230, device='cuda:0', grad_fn=<NllLossBackward0>)
34600 tensor(5.2856, device='cuda:0', grad_fn=<NllLossBackward0>)
34700 tensor(5.5216, device='cuda:0', grad_fn=<NllLossBackward0>)
34800 tensor(5.6223, device='cuda:0', grad_fn=<NllLossBackward0>)
34900 tensor(5.4347, device='cuda:0', grad_fn=<NllLossBackward0>)
35000 tensor(5.3685, device='cuda:0', grad_fn=<NllLossBackward0>)
35100 tensor(5.6175, device='cuda:0', grad_fn=<NllLossBackward0>)
35200 tensor(5.1688, device='cuda:0', grad_fn=<NllLossBackward0>)
35300 tensor(5.6261, device='cuda:0', grad_fn=<NllLossBackward0>)
35400 tensor(5.4833, device='cuda:0', grad_fn=<NllLossBackward0>)
35500 tensor(5.4700, device='cuda:0', grad_fn=<NllLossBackward0>)
35600 tensor(5.2563, device='cuda:0', grad_fn=<NllLossBackward0>)
35700 tensor(5.2064, device='cuda:0', grad_fn=<NllLossBackward0>)
35800 tensor(5.4680, device='cuda:0', grad_fn=<NllLossBackward0>)
35900 tensor(5.6014, device='cuda:0', grad_fn=<NllLossBackward0>)
36000 tensor(5.4883, device='cuda:0', grad_fn=<NllLossBackward0>)
36100 tensor(5.2570, device='cuda:0', grad_fn=<NllLossBackward0>)
36200 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
36300 tensor(5.5247, device='cuda:0', grad_fn=<NllLossBackward0>)
36400 tensor(5.2112, device='cuda:0', grad_fn=<NllLossBackward0>)
36500 tensor(5.3234, device='cuda:0', grad_fn=<NllLossBackward0>)
36600 tensor(5.5071, device='cuda:0', grad_fn=<NllLossBackward0>)
36700 tensor(5.3253, device='cuda:0', grad_fn=<NllLossBackward0>)
36800 tensor(5.3684, device='cuda:0', grad_fn=<NllLossBackward0>)
36900 tensor(5.0774, device='cuda:0', grad_fn=<NllLossBackward0>)
37000 tensor(5.3978, device='cuda:0', grad_fn=<NllLossBackward0>)
37100 tensor(5.6002, device='cuda:0', grad_fn=<NllLossBackward0>)
37200 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)
37300 tensor(5.2599, device='cuda:0', grad_fn=<NllLossBackward0>)
37400 tensor(5.4391, device='cuda:0', grad_fn=<NllLossBackward0>)
37500 tensor(5.3502, device='cuda:0', grad_fn=<NllLossBackward0>)
37600 tensor(5.3132, device='cuda:0', grad_fn=<NllLossBackward0>)
37700 tensor(5.3429, device='cuda:0', grad_fn=<NllLossBackward0>)
37800 tensor(4.9427, device='cuda:0', grad_fn=<NllLossBackward0>)
37900 tensor(5.4605, device='cuda:0', grad_fn=<NllLossBackward0>)
38000 tensor(5.3125, device='cuda:0', grad_fn=<NllLossBackward0>)
38100 tensor(5.5187, device='cuda:0', grad_fn=<NllLossBackward0>)
38200 tensor(5.4637, device='cuda:0', grad_fn=<NllLossBackward0>)
38300 tensor(5.5189, device='cuda:0', grad_fn=<NllLossBackward0>)
38400 tensor(5.3396, device='cuda:0', grad_fn=<NllLossBackward0>)
38500 tensor(5.3783, device='cuda:0', grad_fn=<NllLossBackward0>)
38600 tensor(5.6370, device='cuda:0', grad_fn=<NllLossBackward0>)
38700 tensor(5.0776, device='cuda:0', grad_fn=<NllLossBackward0>)
38800 tensor(5.7006, device='cuda:0', grad_fn=<NllLossBackward0>)
38900 tensor(5.6551, device='cuda:0', grad_fn=<NllLossBackward0>)
39000 tensor(5.2109, device='cuda:0', grad_fn=<NllLossBackward0>)
39100 tensor(5.4889, device='cuda:0', grad_fn=<NllLossBackward0>)
39200 tensor(5.3823, device='cuda:0', grad_fn=<NllLossBackward0>)
39300 tensor(5.5725, device='cuda:0', grad_fn=<NllLossBackward0>)
39400 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)
39500 tensor(5.4112, device='cuda:0', grad_fn=<NllLossBackward0>)
39600 tensor(5.5873, device='cuda:0', grad_fn=<NllLossBackward0>)
39700 tensor(5.4387, device='cuda:0', grad_fn=<NllLossBackward0>)
39800 tensor(5.4497, device='cuda:0', grad_fn=<NllLossBackward0>)
39900 tensor(5.6464, device='cuda:0', grad_fn=<NllLossBackward0>)
40000 tensor(5.5926, device='cuda:0', grad_fn=<NllLossBackward0>)
40100 tensor(5.1534, device='cuda:0', grad_fn=<NllLossBackward0>)
40200 tensor(5.8767, device='cuda:0', grad_fn=<NllLossBackward0>)
40300 tensor(5.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
40400 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)
40500 tensor(4.9197, device='cuda:0', grad_fn=<NllLossBackward0>)
40600 tensor(5.0485, device='cuda:0', grad_fn=<NllLossBackward0>)
40700 tensor(5.1019, device='cuda:0', grad_fn=<NllLossBackward0>)
40800 tensor(5.3692, device='cuda:0', grad_fn=<NllLossBackward0>)
40900 tensor(5.6301, device='cuda:0', grad_fn=<NllLossBackward0>)
41000 tensor(5.2511, device='cuda:0', grad_fn=<NllLossBackward0>)
41100 tensor(5.4671, device='cuda:0', grad_fn=<NllLossBackward0>)
41200 tensor(5.4743, device='cuda:0', grad_fn=<NllLossBackward0>)
41300 tensor(5.6129, device='cuda:0', grad_fn=<NllLossBackward0>)
41400 tensor(5.2319, device='cuda:0', grad_fn=<NllLossBackward0>)
41500 tensor(5.3899, device='cuda:0', grad_fn=<NllLossBackward0>)
41600 tensor(5.6341, device='cuda:0', grad_fn=<NllLossBackward0>)
41700 tensor(5.5941, device='cuda:0', grad_fn=<NllLossBackward0>)
41800 tensor(5.3167, device='cuda:0', grad_fn=<NllLossBackward0>)
41900 tensor(5.3089, device='cuda:0', grad_fn=<NllLossBackward0>)
42000 tensor(5.3910, device='cuda:0', grad_fn=<NllLossBackward0>)
42100 tensor(5.6637, device='cuda:0', grad_fn=<NllLossBackward0>)
42200 tensor(5.2946, device='cuda:0', grad_fn=<NllLossBackward0>)
42300 tensor(5.4249, device='cuda:0', grad_fn=<NllLossBackward0>)
42400 tensor(5.3262, device='cuda:0', grad_fn=<NllLossBackward0>)
42500 tensor(5.1252, device='cuda:0', grad_fn=<NllLossBackward0>)
42600 tensor(5.4621, device='cuda:0', grad_fn=<NllLossBackward0>)
42700 tensor(5.5288, device='cuda:0', grad_fn=<NllLossBackward0>)
42800 tensor(5.2758, device='cuda:0', grad_fn=<NllLossBackward0>)
42900 tensor(5.6473, device='cuda:0', grad_fn=<NllLossBackward0>)
43000 tensor(5.4428, device='cuda:0', grad_fn=<NllLossBackward0>)
43100 tensor(5.4562, device='cuda:0', grad_fn=<NllLossBackward0>)
43200 tensor(5.3921, device='cuda:0', grad_fn=<NllLossBackward0>)
43300 tensor(5.4735, device='cuda:0', grad_fn=<NllLossBackward0>)
43400 tensor(5.5331, device='cuda:0', grad_fn=<NllLossBackward0>)
43500 tensor(4.9956, device='cuda:0', grad_fn=<NllLossBackward0>)
43600 tensor(5.2006, device='cuda:0', grad_fn=<NllLossBackward0>)
43700 tensor(5.5567, device='cuda:0', grad_fn=<NllLossBackward0>)
43800 tensor(5.5986, device='cuda:0', grad_fn=<NllLossBackward0>)
43900 tensor(5.1323, device='cuda:0', grad_fn=<NllLossBackward0>)
44000 tensor(5.3828, device='cuda:0', grad_fn=<NllLossBackward0>)
44100 tensor(5.3313, device='cuda:0', grad_fn=<NllLossBackward0>)
44200 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)
44300 tensor(5.5079, device='cuda:0', grad_fn=<NllLossBackward0>)
44400 tensor(5.4263, device='cuda:0', grad_fn=<NllLossBackward0>)
44500 tensor(5.3386, device='cuda:0', grad_fn=<NllLossBackward0>)
44600 tensor(5.3766, device='cuda:0', grad_fn=<NllLossBackward0>)
44700 tensor(5.2765, device='cuda:0', grad_fn=<NllLossBackward0>)
44800 tensor(5.6416, device='cuda:0', grad_fn=<NllLossBackward0>)
44900 tensor(5.4684, device='cuda:0', grad_fn=<NllLossBackward0>)
45000 tensor(5.7105, device='cuda:0', grad_fn=<NllLossBackward0>)
45100 tensor(5.9781, device='cuda:0', grad_fn=<NllLossBackward0>)
45200 tensor(5.6102, device='cuda:0', grad_fn=<NllLossBackward0>)
45300 tensor(5.4588, device='cuda:0', grad_fn=<NllLossBackward0>)
45400 tensor(5.1382, device='cuda:0', grad_fn=<NllLossBackward0>)
45500 tensor(5.4659, device='cuda:0', grad_fn=<NllLossBackward0>)
45600 tensor(5.3157, device='cuda:0', grad_fn=<NllLossBackward0>)
45700 tensor(5.5013, device='cuda:0', grad_fn=<NllLossBackward0>)
45800 tensor(5.1393, device='cuda:0', grad_fn=<NllLossBackward0>)
45900 tensor(5.6307, device='cuda:0', grad_fn=<NllLossBackward0>)
46000 tensor(5.4809, device='cuda:0', grad_fn=<NllLossBackward0>)
46100 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)
46200 tensor(5.3966, device='cuda:0', grad_fn=<NllLossBackward0>)
46300 tensor(5.4425, device='cuda:0', grad_fn=<NllLossBackward0>)
46400 tensor(5.3952, device='cuda:0', grad_fn=<NllLossBackward0>)
46500 tensor(5.4507, device='cuda:0', grad_fn=<NllLossBackward0>)
46600 tensor(5.3220, device='cuda:0', grad_fn=<NllLossBackward0>)
46700 tensor(5.5834, device='cuda:0', grad_fn=<NllLossBackward0>)
46800 tensor(5.5264, device='cuda:0', grad_fn=<NllLossBackward0>)
46900 tensor(5.5439, device='cuda:0', grad_fn=<NllLossBackward0>)
47000 tensor(5.1701, device='cuda:0', grad_fn=<NllLossBackward0>)
47100 tensor(5.4302, device='cuda:0', grad_fn=<NllLossBackward0>)
47200 tensor(5.4573, device='cuda:0', grad_fn=<NllLossBackward0>)
47300 tensor(5.1537, device='cuda:0', grad_fn=<NllLossBackward0>)
47400 tensor(4.9836, device='cuda:0', grad_fn=<NllLossBackward0>)
47500 tensor(5.3374, device='cuda:0', grad_fn=<NllLossBackward0>)
47600 tensor(5.4498, device='cuda:0', grad_fn=<NllLossBackward0>)
47700 tensor(5.0327, device='cuda:0', grad_fn=<NllLossBackward0>)
47800 tensor(5.2124, device='cuda:0', grad_fn=<NllLossBackward0>)
47900 tensor(5.5325, device='cuda:0', grad_fn=<NllLossBackward0>)
48000 tensor(5.4256, device='cuda:0', grad_fn=<NllLossBackward0>)
48100 tensor(5.5188, device='cuda:0', grad_fn=<NllLossBackward0>)
48200 tensor(5.5047, device='cuda:0', grad_fn=<NllLossBackward0>)
48300 tensor(5.3391, device='cuda:0', grad_fn=<NllLossBackward0>)
48400 tensor(5.5253, device='cuda:0', grad_fn=<NllLossBackward0>)
48500 tensor(5.2091, device='cuda:0', grad_fn=<NllLossBackward0>)
48600 tensor(5.4978, device='cuda:0', grad_fn=<NllLossBackward0>)
48700 tensor(5.3515, device='cuda:0', grad_fn=<NllLossBackward0>)
48800 tensor(5.4734, device='cuda:0', grad_fn=<NllLossBackward0>)
48900 tensor(5.2812, device='cuda:0', grad_fn=<NllLossBackward0>)
49000 tensor(5.2445, device='cuda:0', grad_fn=<NllLossBackward0>)
49100 tensor(5.2629, device='cuda:0', grad_fn=<NllLossBackward0>)
49200 tensor(5.3669, device='cuda:0', grad_fn=<NllLossBackward0>)
49300 tensor(5.4387, device='cuda:0', grad_fn=<NllLossBackward0>)
49400 tensor(5.6468, device='cuda:0', grad_fn=<NllLossBackward0>)
49500 tensor(5.7605, device='cuda:0', grad_fn=<NllLossBackward0>)
49600 tensor(5.4225, device='cuda:0', grad_fn=<NllLossBackward0>)
49700 tensor(5.4494, device='cuda:0', grad_fn=<NllLossBackward0>)
49800 tensor(5.2603, device='cuda:0', grad_fn=<NllLossBackward0>)
49900 tensor(5.1167, device='cuda:0', grad_fn=<NllLossBackward0>)
50000 tensor(5.2515, device='cuda:0', grad_fn=<NllLossBackward0>)
50100 tensor(5.1459, device='cuda:0', grad_fn=<NllLossBackward0>)
50200 tensor(5.2789, device='cuda:0', grad_fn=<NllLossBackward0>)
50300 tensor(5.0216, device='cuda:0', grad_fn=<NllLossBackward0>)
50400 tensor(5.4154, device='cuda:0', grad_fn=<NllLossBackward0>)
50500 tensor(5.2915, device='cuda:0', grad_fn=<NllLossBackward0>)
50600 tensor(5.4725, device='cuda:0', grad_fn=<NllLossBackward0>)
50700 tensor(5.6681, device='cuda:0', grad_fn=<NllLossBackward0>)
50800 tensor(5.3461, device='cuda:0', grad_fn=<NllLossBackward0>)
50900 tensor(5.3979, device='cuda:0', grad_fn=<NllLossBackward0>)
51000 tensor(5.1288, device='cuda:0', grad_fn=<NllLossBackward0>)
51100 tensor(5.4455, device='cuda:0', grad_fn=<NllLossBackward0>)
51200 tensor(5.5755, device='cuda:0', grad_fn=<NllLossBackward0>)
51300 tensor(5.2842, device='cuda:0', grad_fn=<NllLossBackward0>)
51400 tensor(5.0205, device='cuda:0', grad_fn=<NllLossBackward0>)
51500 tensor(5.2638, device='cuda:0', grad_fn=<NllLossBackward0>)
51600 tensor(5.1125, device='cuda:0', grad_fn=<NllLossBackward0>)
51700 tensor(5.3903, device='cuda:0', grad_fn=<NllLossBackward0>)
51800 tensor(5.2160, device='cuda:0', grad_fn=<NllLossBackward0>)
51900 tensor(5.7133, device='cuda:0', grad_fn=<NllLossBackward0>)
52000 tensor(5.4849, device='cuda:0', grad_fn=<NllLossBackward0>)
52100 tensor(5.3322, device='cuda:0', grad_fn=<NllLossBackward0>)
52200 tensor(5.3071, device='cuda:0', grad_fn=<NllLossBackward0>)
52300 tensor(4.7687, device='cuda:0', grad_fn=<NllLossBackward0>)
52400 tensor(5.0729, device='cuda:0', grad_fn=<NllLossBackward0>)
52500 tensor(5.3039, device='cuda:0', grad_fn=<NllLossBackward0>)
52600 tensor(5.0601, device='cuda:0', grad_fn=<NllLossBackward0>)
52700 tensor(5.4496, device='cuda:0', grad_fn=<NllLossBackward0>)
52800 tensor(5.4187, device='cuda:0', grad_fn=<NllLossBackward0>)
52900 tensor(5.0658, device='cuda:0', grad_fn=<NllLossBackward0>)
53000 tensor(5.4404, device='cuda:0', grad_fn=<NllLossBackward0>)
53100 tensor(5.6516, device='cuda:0', grad_fn=<NllLossBackward0>)
53200 tensor(5.6010, device='cuda:0', grad_fn=<NllLossBackward0>)
53300 tensor(5.2748, device='cuda:0', grad_fn=<NllLossBackward0>)
53400 tensor(5.3141, device='cuda:0', grad_fn=<NllLossBackward0>)
53500 tensor(5.2417, device='cuda:0', grad_fn=<NllLossBackward0>)
53600 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)
53700 tensor(5.2321, device='cuda:0', grad_fn=<NllLossBackward0>)
53800 tensor(5.2500, device='cuda:0', grad_fn=<NllLossBackward0>)
53900 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)
54000 tensor(5.7953, device='cuda:0', grad_fn=<NllLossBackward0>)
54100 tensor(5.1936, device='cuda:0', grad_fn=<NllLossBackward0>)
54200 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)
54300 tensor(4.9996, device='cuda:0', grad_fn=<NllLossBackward0>)
54400 tensor(5.1299, device='cuda:0', grad_fn=<NllLossBackward0>)
54500 tensor(5.1535, device='cuda:0', grad_fn=<NllLossBackward0>)
54600 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)
54700 tensor(5.5341, device='cuda:0', grad_fn=<NllLossBackward0>)
54800 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)
54900 tensor(5.1655, device='cuda:0', grad_fn=<NllLossBackward0>)
55000 tensor(5.3738, device='cuda:0', grad_fn=<NllLossBackward0>)
55100 tensor(5.4636, device='cuda:0', grad_fn=<NllLossBackward0>)
55200 tensor(5.5103, device='cuda:0', grad_fn=<NllLossBackward0>)
55300 tensor(5.4209, device='cuda:0', grad_fn=<NllLossBackward0>)
55400 tensor(5.0698, device='cuda:0', grad_fn=<NllLossBackward0>)
55500 tensor(5.1336, device='cuda:0', grad_fn=<NllLossBackward0>)
55600 tensor(5.4264, device='cuda:0', grad_fn=<NllLossBackward0>)
55700 tensor(5.4730, device='cuda:0', grad_fn=<NllLossBackward0>)
55800 tensor(4.9611, device='cuda:0', grad_fn=<NllLossBackward0>)
55900 tensor(5.2723, device='cuda:0', grad_fn=<NllLossBackward0>)
56000 tensor(5.3002, device='cuda:0', grad_fn=<NllLossBackward0>)
56100 tensor(5.4212, device='cuda:0', grad_fn=<NllLossBackward0>)
56200 tensor(5.3240, device='cuda:0', grad_fn=<NllLossBackward0>)
56300 tensor(4.8831, device='cuda:0', grad_fn=<NllLossBackward0>)
56400 tensor(5.3978, device='cuda:0', grad_fn=<NllLossBackward0>)
56500 tensor(5.1121, device='cuda:0', grad_fn=<NllLossBackward0>)
56600 tensor(5.1803, device='cuda:0', grad_fn=<NllLossBackward0>)
56700 tensor(5.6812, device='cuda:0', grad_fn=<NllLossBackward0>)
56800 tensor(5.3351, device='cuda:0', grad_fn=<NllLossBackward0>)
56900 tensor(5.3909, device='cuda:0', grad_fn=<NllLossBackward0>)
57000 tensor(5.5231, device='cuda:0', grad_fn=<NllLossBackward0>)
57100 tensor(5.2635, device='cuda:0', grad_fn=<NllLossBackward0>)
57200 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)
57300 tensor(5.6190, device='cuda:0', grad_fn=<NllLossBackward0>)
57400 tensor(5.3154, device='cuda:0', grad_fn=<NllLossBackward0>)
57500 tensor(5.3776, device='cuda:0', grad_fn=<NllLossBackward0>)
57600 tensor(5.7486, device='cuda:0', grad_fn=<NllLossBackward0>)
57700 tensor(5.4974, device='cuda:0', grad_fn=<NllLossBackward0>)
57800 tensor(5.3434, device='cuda:0', grad_fn=<NllLossBackward0>)
57900 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)
58000 tensor(5.2429, device='cuda:0', grad_fn=<NllLossBackward0>)
58100 tensor(5.4746, device='cuda:0', grad_fn=<NllLossBackward0>)
58200 tensor(5.3179, device='cuda:0', grad_fn=<NllLossBackward0>)
58300 tensor(5.4343, device='cuda:0', grad_fn=<NllLossBackward0>)
58400 tensor(5.4178, device='cuda:0', grad_fn=<NllLossBackward0>)
58500 tensor(5.4002, device='cuda:0', grad_fn=<NllLossBackward0>)
58600 tensor(5.2959, device='cuda:0', grad_fn=<NllLossBackward0>)

160 KiB Raw Blame History

Imports

Definitions

Functions

Classes

Training

Params

Colab

Run

160 KiB

Raw Blame History