challenging-america-word-ga.../cw8zad1.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "source": [
    "## Imports"
   ],
   "metadata": {
    "collapsed": false,
    "id": "dKHaG5NrdzWS"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": true,
    "pycharm": {
     "is_executing": true
    },
    "id": "bAOmtZk6dzWU"
   },
   "outputs": [],
   "source": [
    "import itertools\n",
    "import lzma\n",
    "import numpy as np\n",
    "import regex as re\n",
    "import torch\n",
    "from torch import nn\n",
    "from torch.utils.data import IterableDataset, DataLoader\n",
    "from torchtext.vocab import build_vocab_from_iterator"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "outputs": [],
   "source": [
    "from google.colab import drive"
   ],
   "metadata": {
    "id": "vBeRolsudzWV"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## Definitions"
   ],
   "metadata": {
    "collapsed": false,
    "id": "BvKqUYBidzWV"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Functions"
   ],
   "metadata": {
    "collapsed": false,
    "id": "0e53LE2DdzWV"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "outputs": [],
   "source": [
    "def clean_line(line: str):\n",
    "    # Preprocessing\n",
    "    separated = line.split('\\t')\n",
    "    prefix = separated[6].replace(r'\\n', ' ')\n",
    "    suffix = separated[7].replace(r'\\n', ' ')\n",
    "    return prefix + ' ' + suffix"
   ],
   "metadata": {
    "id": "N35v7jfAdzWV"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "outputs": [],
   "source": [
    "def get_words_from_line(line):\n",
    "    line = clean_line(line)\n",
    "    for word in line.split():\n",
    "        yield word"
   ],
   "metadata": {
    "id": "wtSA8gBQdzWW"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "outputs": [],
   "source": [
    "def get_word_lines_from_file(file_name):\n",
    "    with lzma.open(file_name, mode='rt', encoding='utf-8') as fid:\n",
    "        for line in fid:\n",
    "            yield get_words_from_line(line)"
   ],
   "metadata": {
    "id": "XHpb8LeVdzWW"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "outputs": [],
   "source": [
    "def double_look_ahead_iterator(gen):\n",
    "    prev_prev = None\n",
    "    prev = None\n",
    "    for item in gen:\n",
    "        if prev_prev is not None:\n",
    "            yield np.asarray((prev_prev, prev, item))\n",
    "        prev_prev = prev\n",
    "        prev = item"
   ],
   "metadata": {
    "id": "PXvqM1eXdzWW"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "outputs": [],
   "source": [
    "def prediction(words, model) -> str:\n",
    "    words_tensor = [train_dataset.vocab.forward([word]) for word in words]\n",
    "    ixs = torch.tensor(words_tensor).view(-1).to(device)\n",
    "    out = model(ixs)\n",
    "    top = torch.topk(out[0], 5)\n",
    "    top_indices = top.indices.tolist()\n",
    "    top_probs = top.values.tolist()\n",
    "    top_words = vocab.lookup_tokens(top_indices)\n",
    "    zipped = list(zip(top_words, top_probs))\n",
    "    for index, element in enumerate(zipped):\n",
    "        unk = None\n",
    "        if '<unk>' in element:\n",
    "            unk = zipped.pop(index)\n",
    "            zipped.append(('', unk[1]))\n",
    "            break\n",
    "    if unk is None:\n",
    "        zipped[-1] = ('', zipped[-1][1])\n",
    "    return ' '.join([f'{x[0]}:{x[1]}' for x in zipped])"
   ],
   "metadata": {
    "id": "BfjgLTuIdzWW"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "outputs": [],
   "source": [
    "def create_outputs(folder_name, model):\n",
    "    print(f'Creating outputs in {folder_name}')\n",
    "    with lzma.open(f'{folder_name}/in.tsv.xz', mode='rt', encoding='utf-8') as fid:\n",
    "        with open(f'{folder_name}/out-EMBED_SIZE={embed_size}.tsv', 'w', encoding='utf-8', newline='\\n') as f:\n",
    "            for line in fid:\n",
    "                separated = line.split('\\t')\n",
    "                prefix = separated[6].replace(r'\\n', ' ').split()[-2:]\n",
    "                output_line = prediction(prefix, model)\n",
    "                f.write(output_line + '\\n')"
   ],
   "metadata": {
    "id": "olhkh30mdzWX"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "outputs": [],
   "source": [
    "def train_model():\n",
    "    model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)\n",
    "    data = DataLoader(train_dataset, batch_size=batch_size)\n",
    "    optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)\n",
    "    criterion = torch.nn.NLLLoss()\n",
    "\n",
    "    model.train()\n",
    "    step = 0\n",
    "    for batch in data:\n",
    "        x = batch[:, :2]\n",
    "        y = batch[:, 2]\n",
    "        x = x.to(device)\n",
    "        y = y.to(device)\n",
    "        optimizer.zero_grad()\n",
    "        ypredicted = model(x)\n",
    "        loss = criterion(torch.log(ypredicted), y)\n",
    "        if step % 100 == 0:\n",
    "            print(step, loss)\n",
    "        step += 1\n",
    "        loss.backward()\n",
    "\n",
    "        torch.nn.utils.clip_grad_norm_(model.parameters(), 10)\n",
    "\n",
    "\n",
    "        optimizer.step()\n",
    "\n",
    "    torch.save(model.state_dict(), path_to_model)"
   ],
   "metadata": {
    "id": "C_l59tEudzWX"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "outputs": [],
   "source": [
    "def with_hyperparams():\n",
    "    for e_size in [200, 300]:\n",
    "        global embed_size\n",
    "        embed_size = e_size\n",
    "        train_model()\n",
    "        model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)\n",
    "        model.load_state_dict(torch.load(path_to_model))\n",
    "        model.eval()\n",
    "\n",
    "        create_outputs('dev-0', model)\n",
    "        create_outputs('test-A', model)"
   ],
   "metadata": {
    "id": "kdjy-pX9dzWX"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Classes"
   ],
   "metadata": {
    "collapsed": false,
    "id": "j-cvkMIPdzWY"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "outputs": [],
   "source": [
    "class Trigrams(IterableDataset):\n",
    "    def __init__(self, text_file, vocabulary_size):\n",
    "        self.vocab = build_vocab_from_iterator(\n",
    "            get_word_lines_from_file(text_file),\n",
    "            max_tokens=vocabulary_size,\n",
    "            specials=['<unk>'])\n",
    "        self.vocab.set_default_index(self.vocab['<unk>'])\n",
    "        self.vocabulary_size = vocabulary_size\n",
    "        self.text_file = text_file\n",
    "\n",
    "    def __iter__(self):\n",
    "        return double_look_ahead_iterator(\n",
    "            (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))"
   ],
   "metadata": {
    "id": "UoMnDsvAdzWY"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "outputs": [],
   "source": [
    "class SimpleTrigramNeuralLanguageModel(nn.Module):\n",
    "    def __init__(self, vocabulary_size, embedding_size, hidden_size):\n",
    "        super(SimpleTrigramNeuralLanguageModel, self).__init__()\n",
    "        self.embedding_size = embedding_size\n",
    "        self.embedding = nn.Embedding(vocabulary_size, embedding_size)\n",
    "        self.lin1 = nn.Linear(2 * embedding_size, hidden_size)\n",
    "        self.rel = nn.ReLU()\n",
    "        self.lin2 = nn.Linear(hidden_size, vocabulary_size)\n",
    "        self.sm = nn.Softmax()\n",
    "\n",
    "    def forward(self, x):\n",
    "        x = self.embedding(x).view((-1, 2 * self.embedding_size))\n",
    "        x = self.lin1(x)\n",
    "        x = self.rel(x)\n",
    "        x = self.lin2(x)\n",
    "        return self.sm(x)"
   ],
   "metadata": {
    "id": "FmTh8LyOdzWY"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "## Training"
   ],
   "metadata": {
    "collapsed": false,
    "id": "wO2ySrT9dzWY"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Params"
   ],
   "metadata": {
    "collapsed": false,
    "id": "8FPFxG4_dzWY"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "outputs": [],
   "source": [
    "vocab_size = 30000\n",
    "embed_size = 200\n",
    "hidden_size = 500\n",
    "batch_size = 2000\n",
    "device = 'cuda'\n",
    "path_to_train = 'train/in.tsv.xz'\n",
    "path_to_model = 'model1.bin'"
   ],
   "metadata": {
    "id": "cPlf7WOldzWY"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Colab"
   ],
   "metadata": {
    "collapsed": false,
    "id": "PcgQND_LdzWZ"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "Mounted at /content/drive\n",
      "/content/drive/MyDrive\n"
     ]
    }
   ],
   "source": [
    "drive.mount('/content/drive')\n",
    "%cd /content/drive/MyDrive/"
   ],
   "metadata": {
    "colab": {
     "base_uri": "https://localhost:8080/"
    },
    "id": "NkOOve5pdzWZ",
    "outputId": "5ceef3ef-9c38-47de-adf3-ced102d7a059"
   }
  },
  {
   "cell_type": "markdown",
   "source": [
    "### Run"
   ],
   "metadata": {
    "collapsed": false,
    "id": "K4lTNNQRdzWZ"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "outputs": [],
   "source": [
    "vocab = build_vocab_from_iterator(\n",
    "    get_word_lines_from_file(path_to_train),\n",
    "    max_tokens=vocab_size,\n",
    "    specials=['<unk>']\n",
    ")\n",
    "\n",
    "vocab.set_default_index(vocab['<unk>'])"
   ],
   "metadata": {
    "id": "4RYvjsWvdzWZ"
   }
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "outputs": [],
   "source": [
    "train_dataset = Trigrams(path_to_train, vocab_size)"
   ],
   "metadata": {
    "id": "U-JdyELWdzWZ"
   }
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "outputs": [
    {
     "output_type": "stream",
     "name": "stderr",
     "text": [
      "<ipython-input-12-cce599098537>:16: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.\n",
      "  return self.sm(x)\n"
     ]
    },
    {
     "output_type": "stream",
     "name": "stdout",
     "text": [
      "0 tensor(10.2816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100 tensor(8.0874, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200 tensor(7.3011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "300 tensor(6.8605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "400 tensor(6.6410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "500 tensor(6.6596, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "600 tensor(6.7300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "700 tensor(6.4137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "800 tensor(6.2311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "900 tensor(6.4220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1000 tensor(6.3330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1100 tensor(5.8911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1200 tensor(6.4313, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1300 tensor(6.4927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1400 tensor(6.2074, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1500 tensor(6.0134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1600 tensor(6.0459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1700 tensor(6.3502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1800 tensor(6.3604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1900 tensor(6.2063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2000 tensor(6.2718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2100 tensor(6.0547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2200 tensor(6.2779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2300 tensor(6.2553, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2400 tensor(6.2078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2500 tensor(6.2407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2600 tensor(6.1578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2700 tensor(6.2600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2800 tensor(6.1772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2900 tensor(6.1334, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3000 tensor(6.1251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3100 tensor(5.8966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3200 tensor(6.4685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3300 tensor(6.1750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3400 tensor(6.0377, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3500 tensor(5.9993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3600 tensor(6.2814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3700 tensor(6.0636, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3800 tensor(6.1692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3900 tensor(6.0696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4000 tensor(5.9469, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4100 tensor(6.0946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4200 tensor(6.0045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4300 tensor(5.9191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4400 tensor(5.6558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4500 tensor(6.0260, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4600 tensor(5.9318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4700 tensor(5.7548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4800 tensor(5.9082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4900 tensor(5.9874, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5000 tensor(6.1293, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5100 tensor(5.9621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5200 tensor(6.1658, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5300 tensor(6.1172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5400 tensor(5.9979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5500 tensor(5.9875, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5600 tensor(5.9671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5700 tensor(6.0500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5800 tensor(6.0068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5900 tensor(5.9626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6000 tensor(5.8784, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6100 tensor(5.8995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6200 tensor(6.0585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6300 tensor(5.8529, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6400 tensor(6.2183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6500 tensor(5.7956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6600 tensor(6.1202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6700 tensor(5.9845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6800 tensor(5.8483, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6900 tensor(5.7904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7000 tensor(5.9802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7100 tensor(5.8162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7200 tensor(5.9335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7300 tensor(6.0946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7400 tensor(5.7713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7500 tensor(5.9371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7600 tensor(5.9764, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7700 tensor(5.8244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7800 tensor(5.8648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7900 tensor(5.9836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8000 tensor(5.7520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8100 tensor(6.0581, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8200 tensor(5.9861, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8300 tensor(5.8679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8400 tensor(6.0469, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8500 tensor(5.2911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8600 tensor(5.8262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8700 tensor(5.4335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8800 tensor(5.9286, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8900 tensor(5.8460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9000 tensor(5.7882, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9100 tensor(5.8364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9200 tensor(5.8717, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9300 tensor(5.7924, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9400 tensor(6.0214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9500 tensor(5.6685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9600 tensor(5.9195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9700 tensor(5.8427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9800 tensor(5.9811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9900 tensor(5.8592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10000 tensor(5.9564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10100 tensor(5.8729, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10200 tensor(5.6916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10300 tensor(5.9128, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10400 tensor(5.9079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10500 tensor(5.8597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10600 tensor(5.6586, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10700 tensor(5.7103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10800 tensor(5.8059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10900 tensor(5.7661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11000 tensor(5.8309, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11100 tensor(5.8962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11200 tensor(5.7293, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11300 tensor(5.9601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11400 tensor(5.8209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11500 tensor(5.9181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11600 tensor(5.9877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11700 tensor(5.8637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11800 tensor(5.5323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11900 tensor(6.0545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12000 tensor(5.8079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12100 tensor(5.7666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12200 tensor(5.7676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12300 tensor(5.6971, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12400 tensor(5.7318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12500 tensor(5.9413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12600 tensor(5.6855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12700 tensor(5.8376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12800 tensor(5.8903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12900 tensor(5.6451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13000 tensor(5.8009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13100 tensor(5.6576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13200 tensor(5.6972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13300 tensor(5.9513, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13400 tensor(5.6553, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13500 tensor(5.6932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13600 tensor(5.7467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13700 tensor(5.6179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13800 tensor(5.7176, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13900 tensor(5.5691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14000 tensor(5.6540, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14100 tensor(5.7564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14200 tensor(5.7043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14300 tensor(5.7265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14400 tensor(5.8703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14500 tensor(5.8482, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14600 tensor(5.6982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14700 tensor(5.6555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14800 tensor(5.5586, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14900 tensor(5.9024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15000 tensor(5.7387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15100 tensor(5.4609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15200 tensor(5.4687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15300 tensor(5.7589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15400 tensor(5.6847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15500 tensor(5.8356, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15600 tensor(5.4633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15700 tensor(5.5392, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15800 tensor(5.7983, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15900 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16000 tensor(5.7285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16100 tensor(5.6307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16200 tensor(5.5589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16300 tensor(5.5975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16400 tensor(5.7657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16500 tensor(5.8467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16600 tensor(5.6294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16700 tensor(5.5932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16800 tensor(5.7750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16900 tensor(5.4914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17000 tensor(5.4533, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17100 tensor(5.6537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17200 tensor(5.4227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17300 tensor(5.7858, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17400 tensor(5.6572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17500 tensor(5.6952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17600 tensor(5.3829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17700 tensor(5.6248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17800 tensor(5.6418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17900 tensor(5.6353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18000 tensor(5.6660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18100 tensor(5.7060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18200 tensor(5.5214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18300 tensor(5.2950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18400 tensor(5.4082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18500 tensor(5.6406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18600 tensor(5.7120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18700 tensor(5.4196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18800 tensor(5.6700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18900 tensor(5.5718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19000 tensor(5.7505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19100 tensor(5.6901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19200 tensor(5.6878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19300 tensor(5.5269, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19400 tensor(5.8424, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19500 tensor(5.4928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19600 tensor(5.6325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19700 tensor(5.7592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19800 tensor(5.5518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19900 tensor(5.7117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20000 tensor(5.5813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20100 tensor(5.6454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20200 tensor(5.7510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20300 tensor(5.8181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20400 tensor(5.8155, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20500 tensor(5.3773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20600 tensor(5.5521, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20700 tensor(5.6134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20800 tensor(5.6929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20900 tensor(5.3798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21000 tensor(5.8039, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21100 tensor(5.7957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21200 tensor(5.4851, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21300 tensor(5.5127, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21400 tensor(5.5509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21500 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21600 tensor(5.3355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21700 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21800 tensor(5.3432, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21900 tensor(5.3518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22000 tensor(5.3695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22100 tensor(5.7094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22200 tensor(5.5811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22300 tensor(5.7435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22400 tensor(5.5894, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22500 tensor(5.5091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22600 tensor(5.5073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22700 tensor(5.4779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22800 tensor(5.8792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22900 tensor(5.2936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23000 tensor(5.4073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23100 tensor(5.6821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23200 tensor(5.4730, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23300 tensor(5.6713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23400 tensor(5.7847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23500 tensor(5.5772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23600 tensor(5.6140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23700 tensor(5.6205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23800 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23900 tensor(5.3856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24000 tensor(5.5695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24100 tensor(5.5177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24200 tensor(5.7037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24300 tensor(5.5850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24400 tensor(5.6850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24500 tensor(5.5087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24600 tensor(5.4836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24700 tensor(5.2676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24800 tensor(5.7581, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24900 tensor(5.6625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25000 tensor(5.1838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25100 tensor(5.4444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25200 tensor(5.5937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25300 tensor(5.4304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25400 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25500 tensor(5.4616, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25600 tensor(5.5548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25700 tensor(5.3802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25800 tensor(5.5419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25900 tensor(5.2775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26000 tensor(5.3253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26100 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26200 tensor(5.5123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26300 tensor(5.3549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26400 tensor(5.5192, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26500 tensor(5.6712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26600 tensor(5.5907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26700 tensor(5.3220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26800 tensor(5.4965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26900 tensor(5.6626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27000 tensor(5.7166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27100 tensor(5.6291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27200 tensor(5.3511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27300 tensor(5.2532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27400 tensor(5.3654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27500 tensor(5.7026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27600 tensor(5.5182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27700 tensor(5.5755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27800 tensor(5.6677, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27900 tensor(5.7273, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28000 tensor(5.2384, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28100 tensor(5.5435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28200 tensor(5.5728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28300 tensor(5.7800, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28400 tensor(5.6147, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28500 tensor(5.7116, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28600 tensor(5.4540, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28700 tensor(5.8077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28800 tensor(5.4414, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28900 tensor(5.5426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29000 tensor(5.4439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29100 tensor(5.7868, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29200 tensor(5.4390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29300 tensor(5.4765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29400 tensor(5.3687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29500 tensor(5.5970, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29600 tensor(5.3440, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29700 tensor(5.6037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29800 tensor(5.4296, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29900 tensor(5.2684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30000 tensor(5.6849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30100 tensor(5.5705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30200 tensor(5.5869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30300 tensor(5.3990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30400 tensor(5.3963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30500 tensor(5.4373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30600 tensor(5.7698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30700 tensor(5.4194, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30800 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30900 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31000 tensor(5.5052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31100 tensor(5.3274, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31200 tensor(5.5236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31300 tensor(5.5516, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31400 tensor(5.5021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31500 tensor(5.3688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31600 tensor(5.3571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31700 tensor(5.3006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31800 tensor(5.4497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31900 tensor(5.4856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32000 tensor(5.5294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32100 tensor(5.4676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32200 tensor(5.6160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32300 tensor(5.5899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32400 tensor(5.4413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32500 tensor(5.6116, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32600 tensor(5.4764, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32700 tensor(5.6284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32800 tensor(5.3815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32900 tensor(5.4740, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33000 tensor(5.3463, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33100 tensor(5.5368, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33200 tensor(5.5316, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33300 tensor(5.6062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33400 tensor(5.5938, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33500 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33600 tensor(5.4363, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33700 tensor(5.5973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33800 tensor(5.4566, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33900 tensor(5.6379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34000 tensor(5.4375, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34100 tensor(5.5284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34200 tensor(5.5917, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34300 tensor(5.6839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34400 tensor(5.6017, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34500 tensor(5.6045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34600 tensor(5.3812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34700 tensor(5.5830, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34800 tensor(5.7016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34900 tensor(5.5168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35000 tensor(5.4510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35100 tensor(5.7052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35200 tensor(5.2325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35300 tensor(5.6793, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35400 tensor(5.5783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35500 tensor(5.5625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35600 tensor(5.3234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35700 tensor(5.2441, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35800 tensor(5.5403, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35900 tensor(5.6724, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36000 tensor(5.5632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36100 tensor(5.3487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36200 tensor(5.4890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36300 tensor(5.6083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36400 tensor(5.3093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36500 tensor(5.3934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36600 tensor(5.5469, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36700 tensor(5.4224, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36800 tensor(5.4415, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36900 tensor(5.1900, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37000 tensor(5.4810, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37100 tensor(5.6640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37200 tensor(5.6979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37300 tensor(5.3256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37400 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37500 tensor(5.4256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37600 tensor(5.3775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37700 tensor(5.4280, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37800 tensor(5.1156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37900 tensor(5.5285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38000 tensor(5.3540, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38100 tensor(5.5975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38200 tensor(5.5394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38300 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38400 tensor(5.4205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38500 tensor(5.4753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38600 tensor(5.7140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38700 tensor(5.1620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38800 tensor(5.7779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38900 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39000 tensor(5.2911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39100 tensor(5.5352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39200 tensor(5.4496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39300 tensor(5.6162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39400 tensor(5.3706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39500 tensor(5.4793, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39600 tensor(5.6467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39700 tensor(5.5026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39800 tensor(5.5383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39900 tensor(5.7251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40000 tensor(5.6711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40100 tensor(5.2390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40200 tensor(5.8806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40300 tensor(5.5156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40400 tensor(5.4422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40500 tensor(5.0654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40600 tensor(5.1406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40700 tensor(5.1605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40800 tensor(5.4224, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40900 tensor(5.7263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41000 tensor(5.3028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41100 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41200 tensor(5.5235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41300 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41400 tensor(5.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41500 tensor(5.4840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41600 tensor(5.6798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41700 tensor(5.6758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41800 tensor(5.4050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41900 tensor(5.3941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42000 tensor(5.4517, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42100 tensor(5.7511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42200 tensor(5.3883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42300 tensor(5.5133, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42400 tensor(5.4339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42500 tensor(5.2217, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42600 tensor(5.5284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42700 tensor(5.6355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42800 tensor(5.3591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42900 tensor(5.6862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43000 tensor(5.5197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43100 tensor(5.5059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43200 tensor(5.4304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43300 tensor(5.5360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43400 tensor(5.5912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43500 tensor(5.0673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43600 tensor(5.2675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43700 tensor(5.6098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43800 tensor(5.6455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43900 tensor(5.1850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44000 tensor(5.4424, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44100 tensor(5.3879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44200 tensor(5.6207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44300 tensor(5.5708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44400 tensor(5.4816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44500 tensor(5.4233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44600 tensor(5.4220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44700 tensor(5.3554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44800 tensor(5.6895, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44900 tensor(5.5479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45000 tensor(5.7825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45100 tensor(6.0535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45200 tensor(5.6742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45300 tensor(5.5086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45400 tensor(5.2236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45500 tensor(5.5635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45600 tensor(5.3598, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45700 tensor(5.5559, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45800 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45900 tensor(5.6889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46000 tensor(5.5789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46100 tensor(5.5884, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46200 tensor(5.4840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46300 tensor(5.4857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46400 tensor(5.4710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46500 tensor(5.5077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46600 tensor(5.3485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46700 tensor(5.6360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46800 tensor(5.5857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46900 tensor(5.6094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47000 tensor(5.2005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47100 tensor(5.4915, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47200 tensor(5.5273, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47300 tensor(5.2416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47400 tensor(5.0383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47500 tensor(5.4398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47600 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47700 tensor(5.1199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47800 tensor(5.2883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47900 tensor(5.6183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48000 tensor(5.4894, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48100 tensor(5.5641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48200 tensor(5.5838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48300 tensor(5.3944, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48400 tensor(5.5825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48500 tensor(5.2525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48600 tensor(5.5420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48700 tensor(5.4007, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48800 tensor(5.5499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48900 tensor(5.3335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49000 tensor(5.3047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49100 tensor(5.3311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49200 tensor(5.4564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49300 tensor(5.4846, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49400 tensor(5.7114, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49500 tensor(5.8193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49600 tensor(5.4885, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49700 tensor(5.5634, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49800 tensor(5.3464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49900 tensor(5.1725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50000 tensor(5.3154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50100 tensor(5.2345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50200 tensor(5.3813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50300 tensor(5.0840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50400 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50500 tensor(5.3601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50600 tensor(5.5570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50700 tensor(5.6957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50800 tensor(5.4284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50900 tensor(5.4656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51000 tensor(5.1827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51100 tensor(5.5059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51200 tensor(5.6127, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51300 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51400 tensor(5.1373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51500 tensor(5.3643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51600 tensor(5.2310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51700 tensor(5.4668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51800 tensor(5.2777, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51900 tensor(5.7900, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52000 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52100 tensor(5.4024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52200 tensor(5.3733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52300 tensor(4.8890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52400 tensor(5.1543, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52500 tensor(5.3708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52600 tensor(5.1343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52700 tensor(5.4964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52800 tensor(5.4933, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52900 tensor(5.1695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53000 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53100 tensor(5.6919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53200 tensor(5.6779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53300 tensor(5.3429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53400 tensor(5.4038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53500 tensor(5.2995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53600 tensor(5.4649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53700 tensor(5.2961, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53800 tensor(5.3088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53900 tensor(5.4162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54000 tensor(5.9259, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54100 tensor(5.2742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54200 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54300 tensor(5.0661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54400 tensor(5.1934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54500 tensor(5.2265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54600 tensor(5.5509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54700 tensor(5.5712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54800 tensor(5.3762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54900 tensor(5.2392, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55000 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55100 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55200 tensor(5.5735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55300 tensor(5.4363, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55400 tensor(5.1247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55500 tensor(5.2063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55600 tensor(5.4948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55700 tensor(5.5324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55800 tensor(5.0667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55900 tensor(5.3209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56000 tensor(5.3632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56100 tensor(5.4861, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56200 tensor(5.3914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56300 tensor(4.9190, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56400 tensor(5.4619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56500 tensor(5.1961, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56600 tensor(5.2067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56700 tensor(5.7416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56800 tensor(5.4107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56900 tensor(5.4789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57000 tensor(5.5753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57100 tensor(5.3689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57200 tensor(5.6297, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57300 tensor(5.6960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57400 tensor(5.3610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57500 tensor(5.4340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57600 tensor(5.8130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57700 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57800 tensor(5.4003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57900 tensor(5.4354, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58000 tensor(5.3039, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58100 tensor(5.5298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58200 tensor(5.4036, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58300 tensor(5.5035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58400 tensor(5.4694, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58500 tensor(5.4644, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58600 tensor(5.3628, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58700 tensor(5.5305, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58800 tensor(5.5496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58900 tensor(5.1605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59000 tensor(5.4481, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59100 tensor(5.5008, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59200 tensor(5.5580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59300 tensor(5.4181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59400 tensor(5.1767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59500 tensor(5.5949, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59600 tensor(5.1543, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59700 tensor(5.4442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59800 tensor(5.2701, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59900 tensor(5.4101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60000 tensor(5.3686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60100 tensor(5.2843, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60200 tensor(5.5036, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60300 tensor(5.3552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60400 tensor(5.5374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60500 tensor(5.1537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60600 tensor(5.4950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60700 tensor(5.2628, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60800 tensor(5.5945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60900 tensor(5.5902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61000 tensor(5.4887, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61100 tensor(5.2792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61200 tensor(5.5803, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61300 tensor(5.4461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61400 tensor(5.0183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61500 tensor(5.3240, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61600 tensor(5.4643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61700 tensor(5.3920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61800 tensor(5.5427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61900 tensor(5.8412, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62000 tensor(5.4249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62100 tensor(5.5865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62200 tensor(5.3857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62300 tensor(5.0211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62400 tensor(5.2934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62500 tensor(5.2083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62600 tensor(5.2642, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62700 tensor(4.9303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62800 tensor(5.1333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62900 tensor(5.5126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63000 tensor(4.8968, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63100 tensor(5.3211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63200 tensor(5.4832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63300 tensor(5.4616, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63400 tensor(5.3212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63500 tensor(5.2929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63600 tensor(5.4305, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63700 tensor(5.2080, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63800 tensor(5.4208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63900 tensor(5.4145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64000 tensor(5.3525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64100 tensor(5.5111, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64200 tensor(5.1437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64300 tensor(5.4269, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64400 tensor(5.5086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64500 tensor(5.3559, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64600 tensor(5.3799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64700 tensor(5.5940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64800 tensor(5.1958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64900 tensor(5.3498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65000 tensor(5.3998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65100 tensor(5.2237, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65200 tensor(5.0362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65300 tensor(5.5109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65400 tensor(5.2673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65500 tensor(5.0693, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65600 tensor(5.4907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65700 tensor(5.5288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65800 tensor(5.3971, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65900 tensor(5.3500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66000 tensor(5.7787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66100 tensor(5.1555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66200 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66300 tensor(5.1499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66400 tensor(5.5168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66500 tensor(5.6282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66600 tensor(5.3283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66700 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66800 tensor(5.3382, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66900 tensor(5.2665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67000 tensor(5.3828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67100 tensor(5.2455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67200 tensor(5.7224, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67300 tensor(5.5869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67400 tensor(5.4242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67500 tensor(5.4228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67600 tensor(5.3538, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67700 tensor(5.1782, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67800 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67900 tensor(5.2828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68000 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68100 tensor(5.3605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68200 tensor(5.1993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68300 tensor(5.3261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68400 tensor(5.8642, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68500 tensor(5.1566, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68600 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68700 tensor(5.3318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68800 tensor(5.5199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68900 tensor(5.3169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69000 tensor(5.2783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69100 tensor(5.4604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69200 tensor(5.3401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69300 tensor(5.0342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69400 tensor(5.3514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69500 tensor(5.1504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "Creating outputs in dev-0\n",
      "Creating outputs in test-A\n",
      "0 tensor(10.3829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100 tensor(8.0792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200 tensor(7.3059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "300 tensor(6.8478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "400 tensor(6.6292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "500 tensor(6.6597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "600 tensor(6.7076, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "700 tensor(6.4022, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "800 tensor(6.1865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "900 tensor(6.3715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1000 tensor(6.2953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1100 tensor(5.8570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1200 tensor(6.3739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1300 tensor(6.4504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1400 tensor(6.1518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1500 tensor(5.9614, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1600 tensor(6.0159, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1700 tensor(6.3196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1800 tensor(6.3034, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1900 tensor(6.1724, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2000 tensor(6.1985, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2100 tensor(6.0150, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2200 tensor(6.2215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2300 tensor(6.1963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2400 tensor(6.1551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2500 tensor(6.1821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2600 tensor(6.1207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2700 tensor(6.2244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2800 tensor(6.1407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2900 tensor(6.0838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3000 tensor(6.0838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3100 tensor(5.8551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3200 tensor(6.4406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3300 tensor(6.1330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3400 tensor(5.9802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3500 tensor(5.9609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3600 tensor(6.2390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3700 tensor(6.0141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3800 tensor(6.1221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3900 tensor(6.0129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4000 tensor(5.9146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4100 tensor(6.0411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4200 tensor(5.9824, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4300 tensor(5.8674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4400 tensor(5.6331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4500 tensor(5.9987, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4600 tensor(5.8823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4700 tensor(5.7188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4800 tensor(5.8505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4900 tensor(5.9353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5000 tensor(6.0726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5100 tensor(5.9119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5200 tensor(6.1238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5300 tensor(6.0750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5400 tensor(5.9476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5500 tensor(5.9410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5600 tensor(5.9437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5700 tensor(6.0198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5800 tensor(5.9568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5900 tensor(5.9119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6000 tensor(5.8231, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6100 tensor(5.8608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6200 tensor(5.9699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6300 tensor(5.8318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6400 tensor(6.1696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6500 tensor(5.7545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6600 tensor(6.0710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6700 tensor(5.9385, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6800 tensor(5.8292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6900 tensor(5.7408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7000 tensor(5.9290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7100 tensor(5.7789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7200 tensor(5.8751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7300 tensor(6.0428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7400 tensor(5.7333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7500 tensor(5.9126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7600 tensor(5.9192, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7700 tensor(5.7885, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7800 tensor(5.8290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7900 tensor(5.9408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8000 tensor(5.6841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8100 tensor(6.0080, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8200 tensor(5.9377, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8300 tensor(5.8161, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8400 tensor(5.9945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8500 tensor(5.2545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8600 tensor(5.7752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8700 tensor(5.4092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8800 tensor(5.8751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8900 tensor(5.8199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9000 tensor(5.7431, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9100 tensor(5.7856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9200 tensor(5.8164, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9300 tensor(5.7747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9400 tensor(5.9959, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9500 tensor(5.6087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9600 tensor(5.8762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9700 tensor(5.7811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9800 tensor(5.9176, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9900 tensor(5.8278, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10000 tensor(5.8787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10100 tensor(5.8182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10200 tensor(5.6389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10300 tensor(5.8735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10400 tensor(5.8801, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10500 tensor(5.8172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10600 tensor(5.6188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10700 tensor(5.6682, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10800 tensor(5.7455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10900 tensor(5.7177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11000 tensor(5.7832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11100 tensor(5.8595, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11200 tensor(5.6267, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11300 tensor(5.9351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11400 tensor(5.7933, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11500 tensor(5.8586, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11600 tensor(5.9392, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11700 tensor(5.8080, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11800 tensor(5.4909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11900 tensor(6.0141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12000 tensor(5.7712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12100 tensor(5.7103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12200 tensor(5.7200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12300 tensor(5.6589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12400 tensor(5.6963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12500 tensor(5.8758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12600 tensor(5.6796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12700 tensor(5.7220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12800 tensor(5.8520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12900 tensor(5.6026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13000 tensor(5.7685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13100 tensor(5.5894, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13200 tensor(5.6674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13300 tensor(5.9202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13400 tensor(5.6133, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13500 tensor(5.6554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13600 tensor(5.6719, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13700 tensor(5.5565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13800 tensor(5.6679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13900 tensor(5.4953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14000 tensor(5.6158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14100 tensor(5.6865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14200 tensor(5.6652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14300 tensor(5.6700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14400 tensor(5.8490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14500 tensor(5.8098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14600 tensor(5.6539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14700 tensor(5.6120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14800 tensor(5.5180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14900 tensor(5.8630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15000 tensor(5.7055, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15100 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15200 tensor(5.4209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15300 tensor(5.7123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15400 tensor(5.6401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15500 tensor(5.8005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15600 tensor(5.4436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15700 tensor(5.4929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15800 tensor(5.7467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15900 tensor(5.3763, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16000 tensor(5.6765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16100 tensor(5.5776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16200 tensor(5.4676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16300 tensor(5.5619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16400 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16500 tensor(5.7781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16600 tensor(5.5893, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16700 tensor(5.5361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16800 tensor(5.7160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16900 tensor(5.3933, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17000 tensor(5.4054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17100 tensor(5.5994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17200 tensor(5.3656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17300 tensor(5.7566, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17400 tensor(5.6035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17500 tensor(5.6668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17600 tensor(5.3555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17700 tensor(5.5672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17800 tensor(5.5827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17900 tensor(5.5903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18000 tensor(5.6060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18100 tensor(5.6405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18200 tensor(5.4958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18300 tensor(5.2324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18400 tensor(5.3555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18500 tensor(5.5815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18600 tensor(5.6378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18700 tensor(5.3458, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18800 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18900 tensor(5.5306, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19000 tensor(5.6871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19100 tensor(5.6413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19200 tensor(5.6387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19300 tensor(5.4920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19400 tensor(5.7697, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19500 tensor(5.4714, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19600 tensor(5.5866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19700 tensor(5.7188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19800 tensor(5.4867, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19900 tensor(5.6336, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20000 tensor(5.5252, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20100 tensor(5.6138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20200 tensor(5.7048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20300 tensor(5.7691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20400 tensor(5.7719, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20500 tensor(5.3333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20600 tensor(5.5016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20700 tensor(5.5524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20800 tensor(5.6603, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20900 tensor(5.3222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21000 tensor(5.7462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21100 tensor(5.7560, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21200 tensor(5.4045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21300 tensor(5.4788, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21400 tensor(5.4997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21500 tensor(5.6626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21600 tensor(5.2733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21700 tensor(5.6584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21800 tensor(5.3026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21900 tensor(5.3130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22000 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22100 tensor(5.6646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22200 tensor(5.5399, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22300 tensor(5.6702, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22400 tensor(5.5326, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22500 tensor(5.4171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22600 tensor(5.4595, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22700 tensor(5.4478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22800 tensor(5.8301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22900 tensor(5.2727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23000 tensor(5.3594, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23100 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23200 tensor(5.4501, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23300 tensor(5.6312, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23400 tensor(5.7245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23500 tensor(5.5550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23600 tensor(5.5470, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23700 tensor(5.5733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23800 tensor(5.5759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23900 tensor(5.3364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24000 tensor(5.5402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24100 tensor(5.4736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24200 tensor(5.6618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24300 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24400 tensor(5.6479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24500 tensor(5.4648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24600 tensor(5.4389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24700 tensor(5.1825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24800 tensor(5.7271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24900 tensor(5.5942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25000 tensor(5.1371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25100 tensor(5.4313, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25200 tensor(5.5351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25300 tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25400 tensor(5.5145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25500 tensor(5.3892, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25600 tensor(5.5116, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25700 tensor(5.3212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25800 tensor(5.5078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25900 tensor(5.2154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26000 tensor(5.2552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26100 tensor(5.5090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26200 tensor(5.4643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26300 tensor(5.3142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26400 tensor(5.4627, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26500 tensor(5.6144, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26600 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26700 tensor(5.2616, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26800 tensor(5.4525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26900 tensor(5.6226, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27000 tensor(5.6647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27100 tensor(5.5854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27200 tensor(5.3022, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27300 tensor(5.2084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27400 tensor(5.3328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27500 tensor(5.6698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27600 tensor(5.4509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27700 tensor(5.5263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27800 tensor(5.6357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27900 tensor(5.6767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28000 tensor(5.1947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28100 tensor(5.4909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28200 tensor(5.5209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28300 tensor(5.7142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28400 tensor(5.5413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28500 tensor(5.7023, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28600 tensor(5.4238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28700 tensor(5.7370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28800 tensor(5.3878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28900 tensor(5.4996, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29000 tensor(5.3866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29100 tensor(5.7307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29200 tensor(5.4229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29300 tensor(5.4146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29400 tensor(5.3214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29500 tensor(5.5662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29600 tensor(5.3077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29700 tensor(5.5429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29800 tensor(5.3651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29900 tensor(5.2223, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30000 tensor(5.6396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30100 tensor(5.5396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30200 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30300 tensor(5.3376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30400 tensor(5.3402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30500 tensor(5.3920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30600 tensor(5.7303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30700 tensor(5.3695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30800 tensor(5.5152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30900 tensor(5.6292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31000 tensor(5.4888, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31100 tensor(5.3020, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31200 tensor(5.5003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31300 tensor(5.4990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31400 tensor(5.4505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31500 tensor(5.3103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31600 tensor(5.3098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31700 tensor(5.2497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31800 tensor(5.3974, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31900 tensor(5.4272, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32000 tensor(5.4688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32100 tensor(5.4062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32200 tensor(5.5946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32300 tensor(5.5689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32400 tensor(5.4197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32500 tensor(5.5644, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32600 tensor(5.4227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32700 tensor(5.6018, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32800 tensor(5.3377, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32900 tensor(5.4129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33000 tensor(5.2989, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33100 tensor(5.5125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33200 tensor(5.4998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33300 tensor(5.5507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33400 tensor(5.5466, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33500 tensor(5.5674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33600 tensor(5.4285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33700 tensor(5.5488, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33800 tensor(5.4235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33900 tensor(5.5880, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34000 tensor(5.3808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34100 tensor(5.4820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34200 tensor(5.5643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34300 tensor(5.6326, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34400 tensor(5.5655, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34500 tensor(5.5510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34600 tensor(5.3132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34700 tensor(5.5549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34800 tensor(5.6462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34900 tensor(5.4557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35000 tensor(5.3862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35100 tensor(5.6366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35200 tensor(5.1840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35300 tensor(5.6500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35400 tensor(5.5314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35500 tensor(5.5081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35600 tensor(5.2896, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35700 tensor(5.2241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35800 tensor(5.4910, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35900 tensor(5.6407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36000 tensor(5.5259, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36100 tensor(5.3138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36200 tensor(5.4283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36300 tensor(5.5557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36400 tensor(5.2560, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36500 tensor(5.3602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36600 tensor(5.5200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36700 tensor(5.3699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36800 tensor(5.4089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36900 tensor(5.1299, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37000 tensor(5.3995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37100 tensor(5.6096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37200 tensor(5.6665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37300 tensor(5.2652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37400 tensor(5.4732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37500 tensor(5.4002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37600 tensor(5.3519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37700 tensor(5.3819, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37800 tensor(4.9806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37900 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38000 tensor(5.3507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38100 tensor(5.5620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38200 tensor(5.4836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38300 tensor(5.5453, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38400 tensor(5.3681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38500 tensor(5.3924, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38600 tensor(5.6353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38700 tensor(5.1102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38800 tensor(5.7265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38900 tensor(5.6808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39000 tensor(5.2638, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39100 tensor(5.5242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39200 tensor(5.3986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39300 tensor(5.6094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39400 tensor(5.3515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39500 tensor(5.4291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39600 tensor(5.6096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39700 tensor(5.4467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39800 tensor(5.4881, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39900 tensor(5.6645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40000 tensor(5.6015, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40100 tensor(5.1822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40200 tensor(5.8679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40300 tensor(5.4774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40400 tensor(5.3750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40500 tensor(4.9790, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40600 tensor(5.0726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40700 tensor(5.1360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40800 tensor(5.3735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40900 tensor(5.6424, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41000 tensor(5.2857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41100 tensor(5.4865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41200 tensor(5.4941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41300 tensor(5.6159, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41400 tensor(5.2841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41500 tensor(5.4356, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41600 tensor(5.6352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41700 tensor(5.6359, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41800 tensor(5.3582, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41900 tensor(5.3467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42000 tensor(5.4138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42100 tensor(5.6829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42200 tensor(5.3340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42300 tensor(5.4833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42400 tensor(5.3624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42500 tensor(5.1591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42600 tensor(5.4823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42700 tensor(5.5607, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42800 tensor(5.3179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42900 tensor(5.6652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43000 tensor(5.4773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43100 tensor(5.4712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43200 tensor(5.3888, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43300 tensor(5.4873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43400 tensor(5.5605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43500 tensor(5.0506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43600 tensor(5.2291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43700 tensor(5.5935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43800 tensor(5.6132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43900 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44000 tensor(5.4096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44100 tensor(5.3552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44200 tensor(5.6069, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44300 tensor(5.5439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44400 tensor(5.4566, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44500 tensor(5.3627, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44600 tensor(5.4104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44700 tensor(5.3048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44800 tensor(5.6430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44900 tensor(5.5011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45000 tensor(5.7368, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45100 tensor(5.9795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45200 tensor(5.6402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45300 tensor(5.4850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45400 tensor(5.1489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45500 tensor(5.4990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45600 tensor(5.3364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45700 tensor(5.5120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45800 tensor(5.1639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45900 tensor(5.6573, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46000 tensor(5.5571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46100 tensor(5.5569, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46200 tensor(5.4238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46300 tensor(5.4504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46400 tensor(5.4324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46500 tensor(5.4736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46600 tensor(5.3256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46700 tensor(5.6117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46800 tensor(5.5294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46900 tensor(5.5854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47000 tensor(5.1722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47100 tensor(5.4549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47200 tensor(5.4592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47300 tensor(5.1804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47400 tensor(5.0046, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47500 tensor(5.3751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47600 tensor(5.4936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47700 tensor(5.0625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47800 tensor(5.2671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47900 tensor(5.5870, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48000 tensor(5.4502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48100 tensor(5.5542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48200 tensor(5.5443, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48300 tensor(5.3492, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48400 tensor(5.5446, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48500 tensor(5.2361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48600 tensor(5.4970, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48700 tensor(5.3725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48800 tensor(5.5009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48900 tensor(5.2975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49000 tensor(5.2698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49100 tensor(5.2921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49200 tensor(5.4100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49300 tensor(5.4580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49400 tensor(5.6814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49500 tensor(5.7361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49600 tensor(5.4763, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49700 tensor(5.5044, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49800 tensor(5.3052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49900 tensor(5.1156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50000 tensor(5.2878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50100 tensor(5.1773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50200 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50300 tensor(5.0576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50400 tensor(5.4642, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50500 tensor(5.3201, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50600 tensor(5.5055, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50700 tensor(5.6773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50800 tensor(5.4019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50900 tensor(5.4287, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51000 tensor(5.1547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51100 tensor(5.4438, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51200 tensor(5.5913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51300 tensor(5.3043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51400 tensor(5.0821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51500 tensor(5.3216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51600 tensor(5.1779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51700 tensor(5.4302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51800 tensor(5.2330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51900 tensor(5.7322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52000 tensor(5.4942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52100 tensor(5.3446, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52200 tensor(5.3254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52300 tensor(4.8182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52400 tensor(5.1112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52500 tensor(5.3418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52600 tensor(5.0819, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52700 tensor(5.4554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52800 tensor(5.4346, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52900 tensor(5.1054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53000 tensor(5.4626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53100 tensor(5.6832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53200 tensor(5.6572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53300 tensor(5.3073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53400 tensor(5.3687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53500 tensor(5.2752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53600 tensor(5.4406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53700 tensor(5.2555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53800 tensor(5.2572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53900 tensor(5.4017, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54000 tensor(5.8149, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54100 tensor(5.2257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54200 tensor(5.5447, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54300 tensor(5.0417, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54400 tensor(5.1764, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54500 tensor(5.1911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54600 tensor(5.5048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54700 tensor(5.5409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54800 tensor(5.3411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54900 tensor(5.1817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55000 tensor(5.3889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55100 tensor(5.4876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55200 tensor(5.5456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55300 tensor(5.4154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55400 tensor(5.0857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55500 tensor(5.1714, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55600 tensor(5.4615, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55700 tensor(5.4912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55800 tensor(5.0137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55900 tensor(5.2807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56000 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56100 tensor(5.4461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56200 tensor(5.3564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56300 tensor(4.8913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56400 tensor(5.4289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56500 tensor(5.1546, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56600 tensor(5.1825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56700 tensor(5.7089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56800 tensor(5.3728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56900 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57000 tensor(5.5370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57100 tensor(5.2860, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57200 tensor(5.5949, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57300 tensor(5.6466, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57400 tensor(5.3175, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57500 tensor(5.4093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57600 tensor(5.7817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57700 tensor(5.5003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57800 tensor(5.3439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57900 tensor(5.4006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58000 tensor(5.2684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58100 tensor(5.4849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58200 tensor(5.3593, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58300 tensor(5.4589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58400 tensor(5.4310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58500 tensor(5.4389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58600 tensor(5.3162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58700 tensor(5.4941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58800 tensor(5.5161, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58900 tensor(5.1200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59000 tensor(5.4373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59100 tensor(5.4599, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59200 tensor(5.4921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59300 tensor(5.3883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59400 tensor(5.1357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59500 tensor(5.5514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59600 tensor(5.1275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59700 tensor(5.4095, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59800 tensor(5.2168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59900 tensor(5.3622, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60000 tensor(5.3232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60100 tensor(5.2477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60200 tensor(5.4876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60300 tensor(5.3204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60400 tensor(5.5030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60500 tensor(5.1152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60600 tensor(5.4408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60700 tensor(5.2033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60800 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60900 tensor(5.5461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61000 tensor(5.4563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61100 tensor(5.2254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61200 tensor(5.5692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61300 tensor(5.4247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61400 tensor(4.9635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61500 tensor(5.2972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61600 tensor(5.4258, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61700 tensor(5.3653, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61800 tensor(5.5186, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61900 tensor(5.8254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62000 tensor(5.3711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62100 tensor(5.5506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62200 tensor(5.3525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62300 tensor(4.9781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62400 tensor(5.2654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62500 tensor(5.1860, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62600 tensor(5.2197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62700 tensor(4.8901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62800 tensor(5.0782, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62900 tensor(5.4533, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63000 tensor(4.8650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63100 tensor(5.2813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63200 tensor(5.4397, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63300 tensor(5.4245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63400 tensor(5.2748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63500 tensor(5.2523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63600 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63700 tensor(5.1610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63800 tensor(5.3532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63900 tensor(5.3806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64000 tensor(5.3295, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64100 tensor(5.4567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64200 tensor(5.1251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64300 tensor(5.3982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64400 tensor(5.4605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64500 tensor(5.3091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64600 tensor(5.3547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64700 tensor(5.5553, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64800 tensor(5.1512, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64900 tensor(5.3059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65000 tensor(5.3715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65100 tensor(5.1765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65200 tensor(4.9975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65300 tensor(5.4619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65400 tensor(5.2211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65500 tensor(5.0544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65600 tensor(5.4778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65700 tensor(5.4886, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65800 tensor(5.3707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65900 tensor(5.3304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66000 tensor(5.7419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66100 tensor(5.1063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66200 tensor(5.3704, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66300 tensor(5.1073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66400 tensor(5.4869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66500 tensor(5.6025, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66600 tensor(5.3030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66700 tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66800 tensor(5.3238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66900 tensor(5.2442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67000 tensor(5.3488, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67100 tensor(5.2200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67200 tensor(5.6754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67300 tensor(5.5589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67400 tensor(5.3765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67500 tensor(5.3911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67600 tensor(5.3410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67700 tensor(5.1323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67800 tensor(5.2726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67900 tensor(5.2314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68000 tensor(5.3615, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68100 tensor(5.3275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68200 tensor(5.1481, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68300 tensor(5.2834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68400 tensor(5.8378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68500 tensor(5.0982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68600 tensor(5.2805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68700 tensor(5.2916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68800 tensor(5.4921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68900 tensor(5.2871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69000 tensor(5.2191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69100 tensor(5.4146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69200 tensor(5.3098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69300 tensor(4.9947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69400 tensor(5.3038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69500 tensor(5.1063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "Creating outputs in dev-0\n",
      "Creating outputs in test-A\n",
      "0 tensor(10.3276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100 tensor(7.9401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200 tensor(7.2381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "300 tensor(6.8126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "400 tensor(6.6045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "500 tensor(6.6184, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "600 tensor(6.6869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "700 tensor(6.3630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "800 tensor(6.1966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "900 tensor(6.3506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1000 tensor(6.2652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1100 tensor(5.8459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1200 tensor(6.3685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1300 tensor(6.4105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1400 tensor(6.1318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1500 tensor(5.9373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1600 tensor(5.9996, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1700 tensor(6.2852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1800 tensor(6.2778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1900 tensor(6.1339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2000 tensor(6.1958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2100 tensor(5.9972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2200 tensor(6.2078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2300 tensor(6.1827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2400 tensor(6.1275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2500 tensor(6.1562, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2600 tensor(6.0775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2700 tensor(6.2004, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2800 tensor(6.1155, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2900 tensor(6.0537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3000 tensor(6.0540, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3100 tensor(5.8310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3200 tensor(6.3952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3300 tensor(6.1059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3400 tensor(5.9665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3500 tensor(5.9202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3600 tensor(6.2096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3700 tensor(5.9983, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3800 tensor(6.0919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3900 tensor(6.0015, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4000 tensor(5.8796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4100 tensor(6.0101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4200 tensor(5.9665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4300 tensor(5.8365, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4400 tensor(5.6078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4500 tensor(5.9602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4600 tensor(5.8495, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4700 tensor(5.6834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4800 tensor(5.8261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4900 tensor(5.9137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5000 tensor(6.0360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5100 tensor(5.8791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5200 tensor(6.1084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5300 tensor(6.0378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5400 tensor(5.9057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5500 tensor(5.9146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5600 tensor(5.9022, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5700 tensor(5.9767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5800 tensor(5.9410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5900 tensor(5.8609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6000 tensor(5.8036, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6100 tensor(5.8270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6200 tensor(5.9282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6300 tensor(5.7968, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6400 tensor(6.1270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6500 tensor(5.7318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6600 tensor(6.0448, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6700 tensor(5.9031, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6800 tensor(5.7908, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6900 tensor(5.7183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7000 tensor(5.8839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7100 tensor(5.7365, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7200 tensor(5.8651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7300 tensor(6.0091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7400 tensor(5.7031, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7500 tensor(5.8671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7600 tensor(5.8997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7700 tensor(5.7679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7800 tensor(5.7867, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7900 tensor(5.9113, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8000 tensor(5.6723, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8100 tensor(5.9791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8200 tensor(5.8998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8300 tensor(5.8103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8400 tensor(5.9573, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8500 tensor(5.2251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8600 tensor(5.7472, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8700 tensor(5.3789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8800 tensor(5.8526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8900 tensor(5.7923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9000 tensor(5.7036, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9100 tensor(5.7377, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9200 tensor(5.7688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9300 tensor(5.7391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9400 tensor(5.9497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9500 tensor(5.5777, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9600 tensor(5.8298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9700 tensor(5.7534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9800 tensor(5.9139, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9900 tensor(5.7988, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10000 tensor(5.8364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10100 tensor(5.7934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10200 tensor(5.5965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10300 tensor(5.8358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10400 tensor(5.8457, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10500 tensor(5.7757, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10600 tensor(5.5855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10700 tensor(5.6421, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10800 tensor(5.7135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10900 tensor(5.6907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11000 tensor(5.7571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11100 tensor(5.8093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11200 tensor(5.5920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11300 tensor(5.8946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11400 tensor(5.7888, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11500 tensor(5.8484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11600 tensor(5.9122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11700 tensor(5.7712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11800 tensor(5.4625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11900 tensor(5.9522, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12000 tensor(5.7293, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12100 tensor(5.6809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12200 tensor(5.6963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12300 tensor(5.5903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12400 tensor(5.6758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12500 tensor(5.8388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12600 tensor(5.6493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12700 tensor(5.7067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12800 tensor(5.8122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12900 tensor(5.5808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13000 tensor(5.7339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13100 tensor(5.5628, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13200 tensor(5.6367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13300 tensor(5.8845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13400 tensor(5.5808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13500 tensor(5.6065, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13600 tensor(5.6312, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13700 tensor(5.5297, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13800 tensor(5.6371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13900 tensor(5.4678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14000 tensor(5.5841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14100 tensor(5.6667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14200 tensor(5.6490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14300 tensor(5.6490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14400 tensor(5.8014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14500 tensor(5.7761, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14600 tensor(5.6229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14700 tensor(5.5781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14800 tensor(5.5083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14900 tensor(5.8224, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15000 tensor(5.6680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15100 tensor(5.3498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15200 tensor(5.3971, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15300 tensor(5.6708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15400 tensor(5.6057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15500 tensor(5.7612, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15600 tensor(5.3966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15700 tensor(5.4845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15800 tensor(5.6853, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15900 tensor(5.3362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16000 tensor(5.6539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16100 tensor(5.5410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16200 tensor(5.4011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16300 tensor(5.5504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16400 tensor(5.6887, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16500 tensor(5.7357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16600 tensor(5.5474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16700 tensor(5.4877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16800 tensor(5.6792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16900 tensor(5.3604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17000 tensor(5.3803, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17100 tensor(5.5635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17200 tensor(5.3282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17300 tensor(5.7271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17400 tensor(5.5405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17500 tensor(5.6601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17600 tensor(5.3243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17700 tensor(5.5445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17800 tensor(5.5560, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17900 tensor(5.5542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18000 tensor(5.5684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18100 tensor(5.6245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18200 tensor(5.4738, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18300 tensor(5.2101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18400 tensor(5.3317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18500 tensor(5.5373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18600 tensor(5.5806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18700 tensor(5.3268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18800 tensor(5.5929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18900 tensor(5.4883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19000 tensor(5.6732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19100 tensor(5.6076, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19200 tensor(5.6036, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19300 tensor(5.4558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19400 tensor(5.7300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19500 tensor(5.4478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19600 tensor(5.5504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19700 tensor(5.6629, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19800 tensor(5.4606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19900 tensor(5.5990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20000 tensor(5.4913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20100 tensor(5.5838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20200 tensor(5.6306, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20300 tensor(5.7517, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20400 tensor(5.7437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20500 tensor(5.2876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20600 tensor(5.4658, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20700 tensor(5.5432, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20800 tensor(5.6153, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20900 tensor(5.3012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21000 tensor(5.7174, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21100 tensor(5.7087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21200 tensor(5.4054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21300 tensor(5.4343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21400 tensor(5.4821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21500 tensor(5.6225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21600 tensor(5.2409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21700 tensor(5.6401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21800 tensor(5.2731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21900 tensor(5.2805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22000 tensor(5.2720, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22100 tensor(5.6463, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22200 tensor(5.4828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22300 tensor(5.6261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22400 tensor(5.5138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22500 tensor(5.3706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22600 tensor(5.4354, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22700 tensor(5.4202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22800 tensor(5.7905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22900 tensor(5.2294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23000 tensor(5.3182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23100 tensor(5.5862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23200 tensor(5.3990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23300 tensor(5.6126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23400 tensor(5.7029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23500 tensor(5.4930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23600 tensor(5.5215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23700 tensor(5.5489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23800 tensor(5.5511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23900 tensor(5.3016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24000 tensor(5.4924, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24100 tensor(5.4329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24200 tensor(5.6289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24300 tensor(5.5047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24400 tensor(5.6027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24500 tensor(5.4396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24600 tensor(5.4280, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24700 tensor(5.1445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24800 tensor(5.6998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24900 tensor(5.5898, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25000 tensor(5.0798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25100 tensor(5.4058, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25200 tensor(5.5027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25300 tensor(5.3597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25400 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25500 tensor(5.3743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25600 tensor(5.4663, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25700 tensor(5.3030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25800 tensor(5.4715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25900 tensor(5.2035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26000 tensor(5.2225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26100 tensor(5.4799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26200 tensor(5.4450, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26300 tensor(5.2706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26400 tensor(5.4454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26500 tensor(5.5807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26600 tensor(5.5342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26700 tensor(5.2518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26800 tensor(5.4177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26900 tensor(5.5794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27000 tensor(5.6461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27100 tensor(5.5408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27200 tensor(5.2936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27300 tensor(5.2004, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27400 tensor(5.3138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27500 tensor(5.6336, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27600 tensor(5.4203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27700 tensor(5.4721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27800 tensor(5.5921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27900 tensor(5.6373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28000 tensor(5.1662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28100 tensor(5.4787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28200 tensor(5.4856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28300 tensor(5.6498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28400 tensor(5.5388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28500 tensor(5.6319, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28600 tensor(5.3903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28700 tensor(5.6825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28800 tensor(5.3621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28900 tensor(5.4746, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29000 tensor(5.3626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29100 tensor(5.7126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29200 tensor(5.4012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29300 tensor(5.4157, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29400 tensor(5.2930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29500 tensor(5.5337, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29600 tensor(5.2934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29700 tensor(5.5155, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29800 tensor(5.3146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29900 tensor(5.1791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30000 tensor(5.6208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30100 tensor(5.5001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30200 tensor(5.5309, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30300 tensor(5.3248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30400 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30500 tensor(5.3548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30600 tensor(5.6949, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30700 tensor(5.3516, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30800 tensor(5.4787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30900 tensor(5.6210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31000 tensor(5.4579, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31100 tensor(5.2580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31200 tensor(5.4551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31300 tensor(5.4752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31400 tensor(5.4314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31500 tensor(5.3100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31600 tensor(5.2698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31700 tensor(5.2381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31800 tensor(5.3748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31900 tensor(5.3878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32000 tensor(5.4416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32100 tensor(5.3698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32200 tensor(5.5601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32300 tensor(5.5495, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32400 tensor(5.3757, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32500 tensor(5.5115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32600 tensor(5.3601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32700 tensor(5.5613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32800 tensor(5.2945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32900 tensor(5.3886, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33000 tensor(5.2523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33100 tensor(5.4927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33200 tensor(5.4861, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33300 tensor(5.5200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33400 tensor(5.5081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33500 tensor(5.5283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33600 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33700 tensor(5.5134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33800 tensor(5.3997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33900 tensor(5.5564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34000 tensor(5.3547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34100 tensor(5.4632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34200 tensor(5.5208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34300 tensor(5.6178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34400 tensor(5.5390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34500 tensor(5.5230, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34600 tensor(5.2856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34700 tensor(5.5216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34800 tensor(5.6223, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34900 tensor(5.4347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35000 tensor(5.3685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35100 tensor(5.6175, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35200 tensor(5.1688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35300 tensor(5.6261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35400 tensor(5.4833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35500 tensor(5.4700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35600 tensor(5.2563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35700 tensor(5.2064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35800 tensor(5.4680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35900 tensor(5.6014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36000 tensor(5.4883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36100 tensor(5.2570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36200 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36300 tensor(5.5247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36400 tensor(5.2112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36500 tensor(5.3234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36600 tensor(5.5071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36700 tensor(5.3253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36800 tensor(5.3684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36900 tensor(5.0774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37000 tensor(5.3978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37100 tensor(5.6002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37200 tensor(5.6449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37300 tensor(5.2599, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37400 tensor(5.4391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37500 tensor(5.3502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37600 tensor(5.3132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37700 tensor(5.3429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37800 tensor(4.9427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37900 tensor(5.4605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38000 tensor(5.3125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38100 tensor(5.5187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38200 tensor(5.4637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38300 tensor(5.5189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38400 tensor(5.3396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38500 tensor(5.3783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38600 tensor(5.6370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38700 tensor(5.0776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38800 tensor(5.7006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38900 tensor(5.6551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39000 tensor(5.2109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39100 tensor(5.4889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39200 tensor(5.3823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39300 tensor(5.5725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39400 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39500 tensor(5.4112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39600 tensor(5.5873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39700 tensor(5.4387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39800 tensor(5.4497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39900 tensor(5.6464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40000 tensor(5.5926, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40100 tensor(5.1534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40200 tensor(5.8767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40300 tensor(5.4455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40400 tensor(5.3962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40500 tensor(4.9197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40600 tensor(5.0485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40700 tensor(5.1019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40800 tensor(5.3692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40900 tensor(5.6301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41000 tensor(5.2511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41100 tensor(5.4671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41200 tensor(5.4743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41300 tensor(5.6129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41400 tensor(5.2319, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41500 tensor(5.3899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41600 tensor(5.6341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41700 tensor(5.5941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41800 tensor(5.3167, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41900 tensor(5.3089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42000 tensor(5.3910, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42100 tensor(5.6637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42200 tensor(5.2946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42300 tensor(5.4249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42400 tensor(5.3262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42500 tensor(5.1252, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42600 tensor(5.4621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42700 tensor(5.5288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42800 tensor(5.2758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42900 tensor(5.6473, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43000 tensor(5.4428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43100 tensor(5.4562, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43200 tensor(5.3921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43300 tensor(5.4735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43400 tensor(5.5331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43500 tensor(4.9956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43600 tensor(5.2006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43700 tensor(5.5567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43800 tensor(5.5986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43900 tensor(5.1323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44000 tensor(5.3828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44100 tensor(5.3313, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44200 tensor(5.5437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44300 tensor(5.5079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44400 tensor(5.4263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44500 tensor(5.3386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44600 tensor(5.3766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44700 tensor(5.2765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44800 tensor(5.6416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44900 tensor(5.4684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45000 tensor(5.7105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45100 tensor(5.9781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45200 tensor(5.6102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45300 tensor(5.4588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45400 tensor(5.1382, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45500 tensor(5.4659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45600 tensor(5.3157, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45700 tensor(5.5013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45800 tensor(5.1393, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45900 tensor(5.6307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46000 tensor(5.4809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46100 tensor(5.5311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46200 tensor(5.3966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46300 tensor(5.4425, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46400 tensor(5.3952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46500 tensor(5.4507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46600 tensor(5.3220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46700 tensor(5.5834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46800 tensor(5.5264, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46900 tensor(5.5439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47000 tensor(5.1701, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47100 tensor(5.4302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47200 tensor(5.4573, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47300 tensor(5.1537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47400 tensor(4.9836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47500 tensor(5.3374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47600 tensor(5.4498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47700 tensor(5.0327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47800 tensor(5.2124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47900 tensor(5.5325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48000 tensor(5.4256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48100 tensor(5.5188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48200 tensor(5.5047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48300 tensor(5.3391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48400 tensor(5.5253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48500 tensor(5.2091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48600 tensor(5.4978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48700 tensor(5.3515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48800 tensor(5.4734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48900 tensor(5.2812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49000 tensor(5.2445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49100 tensor(5.2629, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49200 tensor(5.3669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49300 tensor(5.4387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49400 tensor(5.6468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49500 tensor(5.7605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49600 tensor(5.4225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49700 tensor(5.4494, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49800 tensor(5.2603, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49900 tensor(5.1167, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50000 tensor(5.2515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50100 tensor(5.1459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50200 tensor(5.2789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50300 tensor(5.0216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50400 tensor(5.4154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50500 tensor(5.2915, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50600 tensor(5.4725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50700 tensor(5.6681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50800 tensor(5.3461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50900 tensor(5.3979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51000 tensor(5.1288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51100 tensor(5.4455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51200 tensor(5.5755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51300 tensor(5.2842, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51400 tensor(5.0205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51500 tensor(5.2638, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51600 tensor(5.1125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51700 tensor(5.3903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51800 tensor(5.2160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51900 tensor(5.7133, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52000 tensor(5.4849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52100 tensor(5.3322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52200 tensor(5.3071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52300 tensor(4.7687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52400 tensor(5.0729, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52500 tensor(5.3039, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52600 tensor(5.0601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52700 tensor(5.4496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52800 tensor(5.4187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52900 tensor(5.0658, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53000 tensor(5.4404, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53100 tensor(5.6516, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53200 tensor(5.6010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53300 tensor(5.2748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53400 tensor(5.3141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53500 tensor(5.2417, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53600 tensor(5.4364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53700 tensor(5.2321, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53800 tensor(5.2500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53900 tensor(5.3960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54000 tensor(5.7953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54100 tensor(5.1936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54200 tensor(5.5038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54300 tensor(4.9996, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54400 tensor(5.1299, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54500 tensor(5.1535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54600 tensor(5.4767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54700 tensor(5.5341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54800 tensor(5.3310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54900 tensor(5.1655, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55000 tensor(5.3738, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55100 tensor(5.4636, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55200 tensor(5.5103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55300 tensor(5.4209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55400 tensor(5.0698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55500 tensor(5.1336, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55600 tensor(5.4264, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55700 tensor(5.4730, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55800 tensor(4.9611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55900 tensor(5.2723, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56000 tensor(5.3002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56100 tensor(5.4212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56200 tensor(5.3240, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56300 tensor(4.8831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56400 tensor(5.3978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56500 tensor(5.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56600 tensor(5.1803, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56700 tensor(5.6812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56800 tensor(5.3351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56900 tensor(5.3909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57000 tensor(5.5231, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57100 tensor(5.2635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57200 tensor(5.5820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57300 tensor(5.6190, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57400 tensor(5.3154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57500 tensor(5.3776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57600 tensor(5.7486, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57700 tensor(5.4974, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57800 tensor(5.3434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57900 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58000 tensor(5.2429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58100 tensor(5.4746, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58200 tensor(5.3179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58300 tensor(5.4343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58400 tensor(5.4178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58500 tensor(5.4002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58600 tensor(5.2959, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    }
   ],
   "source": [
    "with_hyperparams()"
   ],
   "metadata": {
    "colab": {
     "base_uri": "https://localhost:8080/"
    },
    "id": "9gg3bNu5dzWZ",
    "outputId": "b6b6e6dd-d764-411a-c781-dd1442bd6dbd"
   }
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  },
  "colab": {
   "provenance": [],
   "gpuType": "T4"
  },
  "accelerator": "GPU",
  "gpuClass": "standard"
 },
 "nbformat": 4,
 "nbformat_minor": 0
}