{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "d42ddd87",
   "metadata": {},
   "outputs": [],
   "source": [
    "import torch\n",
    "from torch import nn\n",
    "\n",
    "torch.cuda.empty_cache()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "37fa7d97",
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import regex as re\n",
    "import csv\n",
    "\n",
    "def clean_text(text):\n",
    "    text = text.lower().replace('-\\\\\\\\n', '').replace('\\\\\\\\n', ' ')\n",
    "    text = re.sub(r'\\p{P}', '', text)\n",
    "    text = text.replace(\"'t\", \" not\").replace(\"'s\", \" is\").replace(\"'ll\", \" will\").replace(\"'m\", \" am\").replace(\"'ve\", \" have\")\n",
    "\n",
    "    return text"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "41e2f529",
   "metadata": {},
   "outputs": [],
   "source": [
    "train_data = pd.read_csv('train/in.tsv.xz', sep='\\t', error_bad_lines=False, warn_bad_lines=False, header=None, quoting=csv.QUOTE_NONE)\n",
    "train_labels = pd.read_csv('train/expected.tsv', sep='\\t', error_bad_lines=False, warn_bad_lines=False, header=None, quoting=csv.QUOTE_NONE)\n",
    "\n",
    "train_data = train_data[[6, 7]]\n",
    "train_data = pd.concat([train_data, train_labels], axis=1)\n",
    "\n",
    "train_data['text'] = train_data[6] + train_data[0] + train_data[7]\n",
    "train_data = train_data[['text']]\n",
    "\n",
    "with open('processed_train.txt', 'w', encoding='utf-8') as file:\n",
    "    for _, row in train_data.iterrows():\n",
    "        text = clean_text(str(row['text']))\n",
    "        file.write(text + '\\n')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "dc73124c",
   "metadata": {},
   "outputs": [],
   "source": [
    "vocab_size = 40000\n",
    "embed_size = 300\n",
    "hidden_size = 128\n",
    "\n",
    "class SimpleTrigramNeuralLanguageModel(nn.Module):\n",
    "    def __init__(self, vocabulary_size, embedding_size, hidden_size):\n",
    "        super(SimpleTrigramNeuralLanguageModel, self).__init__()\n",
    "        self.embedding = nn.Embedding(vocabulary_size * 2, embedding_size)\n",
    "        self.linear1 = nn.Linear(embedding_size, hidden_size)\n",
    "        self.linear2 = nn.Linear(hidden_size, vocabulary_size * 2)\n",
    "\n",
    "    def forward(self, x):\n",
    "        x = self.embedding(x)\n",
    "        x = self.linear1(x)\n",
    "        x = self.linear2(x)\n",
    "        x = torch.softmax(x, dim=1)\n",
    "        return x"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "569b4c88",
   "metadata": {},
   "outputs": [],
   "source": [
    "import regex as re\n",
    "from itertools import islice, chain\n",
    "from torchtext.vocab import build_vocab_from_iterator\n",
    "from torch.utils.data import IterableDataset\n",
    "\n",
    "def get_words_from_line(line):\n",
    "    line = line.rstrip()\n",
    "    yield '<s>'\n",
    "    for m in re.finditer(r'[\\p{L}0-9\\*]+|\\p{P}+', line):\n",
    "        yield m.group(0).lower()\n",
    "    yield '</s>'\n",
    "\n",
    "def get_word_lines_from_file(file_name):\n",
    "    with open(file_name, 'r', encoding='utf-8') as fh:\n",
    "        for line in fh:\n",
    "            yield get_words_from_line(line)\n",
    "            \n",
    "def look_ahead_iterator(gen):\n",
    "    prev_1 = None\n",
    "    prev_2 = None\n",
    "    for item in gen:\n",
    "        if prev_1 and prev_2:\n",
    "            yield (prev_2 + prev_1, item)\n",
    "        prev_2 = prev_1\n",
    "        prev_1 = item"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "f95cb913",
   "metadata": {},
   "outputs": [],
   "source": [
    "class Trigrams(IterableDataset):\n",
    "    def __init__(self, text_file, vocabulary_size):\n",
    "        self.vocab = build_vocab_from_iterator(\n",
    "            get_word_lines_from_file(text_file),\n",
    "            max_tokens = vocabulary_size,\n",
    "            specials = ['<unk>']\n",
    "        )\n",
    "        self.vocab.set_default_index(self.vocab['<unk>'])\n",
    "        self.vocabulary_size = vocabulary_size\n",
    "        self.text_file = text_file\n",
    "\n",
    "    def __iter__(self):\n",
    "        return look_ahead_iterator((self.vocab[t] for t in chain.from_iterable(get_word_lines_from_file(self.text_file))))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "7a51f2b1",
   "metadata": {},
   "outputs": [],
   "source": [
    "from torch.utils.data import DataLoader\n",
    "\n",
    "device = 'cuda' if torch.cuda.is_available() else 'cpu'\n",
    "train_dataset = Trigrams('processed_train.txt', vocab_size)\n",
    "model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)\n",
    "data = DataLoader(train_dataset, batch_size=800)\n",
    "optimizer = torch.optim.Adam(model.parameters())\n",
    "criterion = torch.nn.NLLLoss()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "474194ae",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0 tensor(11.3293, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100 tensor(8.9417, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200 tensor(7.0454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "300 tensor(6.8511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "400 tensor(6.8680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "500 tensor(6.8153, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "600 tensor(6.5640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "700 tensor(6.8175, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "800 tensor(6.6864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "900 tensor(6.7530, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1000 tensor(6.5542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1100 tensor(6.5068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1200 tensor(6.7081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1300 tensor(6.2363, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1400 tensor(6.5277, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1500 tensor(6.5607, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1600 tensor(6.5931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1700 tensor(6.5355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1800 tensor(6.7281, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "1900 tensor(6.4659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2000 tensor(6.2887, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2100 tensor(6.2616, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2200 tensor(6.3290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2300 tensor(6.6389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2400 tensor(6.6202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2500 tensor(6.3433, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2600 tensor(6.2726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2700 tensor(6.5647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2800 tensor(6.7472, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "2900 tensor(6.5692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3000 tensor(6.0704, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3100 tensor(6.3795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3200 tensor(6.3263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3300 tensor(6.5520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3400 tensor(6.3271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3500 tensor(6.2009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3600 tensor(6.5486, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3700 tensor(6.2033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3800 tensor(6.3768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "3900 tensor(6.7510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4000 tensor(6.3879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4100 tensor(6.3350, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4200 tensor(6.8703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4300 tensor(6.3114, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4400 tensor(6.3841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4500 tensor(6.2134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4600 tensor(6.2360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4700 tensor(6.4428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4800 tensor(6.2655, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "4900 tensor(6.5545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5000 tensor(6.7002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5100 tensor(6.2191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5200 tensor(6.3981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5300 tensor(6.5035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5400 tensor(6.2316, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5500 tensor(6.4646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5600 tensor(6.3733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5700 tensor(6.4972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5800 tensor(6.1650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "5900 tensor(6.2509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6000 tensor(6.4030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6100 tensor(6.8080, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6200 tensor(6.5556, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6300 tensor(6.5532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6400 tensor(6.2327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6500 tensor(6.4358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6600 tensor(6.3786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6700 tensor(6.6644, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6800 tensor(6.0746, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "6900 tensor(6.4358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7000 tensor(6.9150, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7100 tensor(6.6115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7200 tensor(6.3954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7300 tensor(6.4474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7400 tensor(6.6758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7500 tensor(6.3773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7600 tensor(6.0583, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7700 tensor(6.3850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7800 tensor(6.4212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "7900 tensor(6.4790, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8000 tensor(6.1858, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8100 tensor(6.1886, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8200 tensor(6.5135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8300 tensor(6.3304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8400 tensor(6.5295, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8500 tensor(6.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8600 tensor(6.2511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8700 tensor(6.2957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8800 tensor(6.3172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "8900 tensor(6.2837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9000 tensor(6.3057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9100 tensor(6.5710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9200 tensor(6.6593, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9300 tensor(6.2960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9400 tensor(6.6207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9500 tensor(6.4218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9600 tensor(6.2484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9700 tensor(6.1428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9800 tensor(6.4388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "9900 tensor(6.2794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10000 tensor(6.1755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10100 tensor(6.5736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10200 tensor(6.4235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10300 tensor(6.4275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10400 tensor(6.5050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10500 tensor(6.4074, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10600 tensor(6.0418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10700 tensor(6.3675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10800 tensor(6.4171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "10900 tensor(6.5078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11000 tensor(6.2692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11100 tensor(6.3667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11200 tensor(6.3770, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11300 tensor(6.4283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11400 tensor(6.4568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11500 tensor(6.3557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11600 tensor(6.4649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11700 tensor(6.5798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11800 tensor(6.4245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "11900 tensor(6.4913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12000 tensor(6.3519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12100 tensor(6.4345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12200 tensor(6.5832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12300 tensor(6.4204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12400 tensor(6.2925, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12500 tensor(6.4187, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "12600 tensor(6.5779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12700 tensor(6.1300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12800 tensor(6.3179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "12900 tensor(6.5471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13000 tensor(6.2621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13100 tensor(6.4863, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13200 tensor(6.4671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13300 tensor(6.5966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13400 tensor(6.3855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13500 tensor(6.4136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13600 tensor(6.4274, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13700 tensor(6.3050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13800 tensor(6.4028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "13900 tensor(6.1994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14000 tensor(6.2238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14100 tensor(6.2973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14200 tensor(6.3696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14300 tensor(6.4446, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14400 tensor(6.6806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14500 tensor(6.5539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14600 tensor(6.4135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14700 tensor(6.4098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14800 tensor(6.2572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "14900 tensor(6.2828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15000 tensor(6.6121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15100 tensor(6.4960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15200 tensor(6.2099, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15300 tensor(6.4276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15400 tensor(5.9707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15500 tensor(6.2765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15600 tensor(6.3095, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15700 tensor(6.3933, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15800 tensor(6.2718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "15900 tensor(6.5708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16000 tensor(6.1227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16100 tensor(6.4434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16200 tensor(6.6841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16300 tensor(6.0971, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16400 tensor(6.4550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16500 tensor(6.2755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16600 tensor(6.4492, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16700 tensor(6.4977, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16800 tensor(6.3766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "16900 tensor(6.1726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17000 tensor(6.4672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17100 tensor(6.1932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17200 tensor(6.3820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17300 tensor(6.3394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17400 tensor(6.5227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17500 tensor(6.6092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17600 tensor(6.1775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17700 tensor(6.4336, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17800 tensor(6.2012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "17900 tensor(6.5930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18000 tensor(6.5210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18100 tensor(6.3719, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18200 tensor(6.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18300 tensor(6.3552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18400 tensor(6.4725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18500 tensor(6.3435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18600 tensor(6.3549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18700 tensor(6.4716, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18800 tensor(6.3291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "18900 tensor(6.3823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19000 tensor(6.2017, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19100 tensor(6.2470, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19200 tensor(6.3263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19300 tensor(6.5956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19400 tensor(6.3802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19500 tensor(6.3646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19600 tensor(6.1903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19700 tensor(6.7986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19800 tensor(6.4438, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "19900 tensor(6.4476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20000 tensor(6.2691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20100 tensor(6.6191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20200 tensor(6.5294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20300 tensor(6.2749, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20400 tensor(6.5561, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20500 tensor(6.3675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20600 tensor(6.2805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20700 tensor(6.4063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20800 tensor(6.2243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "20900 tensor(6.0176, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21000 tensor(6.1914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21100 tensor(6.4219, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21200 tensor(6.6379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21300 tensor(6.4248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21400 tensor(6.5332, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21500 tensor(6.5993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21600 tensor(6.5038, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21700 tensor(6.5882, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21800 tensor(6.4390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "21900 tensor(6.3383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22000 tensor(6.3932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22100 tensor(6.3587, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22200 tensor(6.4001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22300 tensor(6.1865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22400 tensor(6.2366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22500 tensor(7.0326, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22600 tensor(6.3798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22700 tensor(6.5353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22800 tensor(6.7912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "22900 tensor(6.3939, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23000 tensor(6.2855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23100 tensor(6.0151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23200 tensor(6.2457, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23300 tensor(6.3422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23400 tensor(6.3322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23500 tensor(6.0716, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23600 tensor(6.5486, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23700 tensor(6.5902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23800 tensor(6.4079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "23900 tensor(6.5497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24000 tensor(6.4957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24100 tensor(6.3668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24200 tensor(6.7314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24300 tensor(6.5585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24400 tensor(6.4228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24500 tensor(6.2029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24600 tensor(6.2034, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24700 tensor(6.6652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24800 tensor(6.2777, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "24900 tensor(6.2962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25000 tensor(6.3366, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "25100 tensor(6.5767, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25200 tensor(6.4680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25300 tensor(6.4083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25400 tensor(6.2756, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25500 tensor(6.0596, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25600 tensor(6.5235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25700 tensor(6.3478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25800 tensor(6.3905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "25900 tensor(6.7624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26000 tensor(6.4832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26100 tensor(6.4504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26200 tensor(6.1166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26300 tensor(6.2660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26400 tensor(6.2220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26500 tensor(6.3001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26600 tensor(6.3434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26700 tensor(6.4789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26800 tensor(6.5584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "26900 tensor(6.1488, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27000 tensor(6.4153, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27100 tensor(6.4203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27200 tensor(6.1097, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27300 tensor(6.1024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27400 tensor(6.3847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27500 tensor(6.2524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27600 tensor(6.3121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27700 tensor(6.2512, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27800 tensor(6.1721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "27900 tensor(6.3086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28000 tensor(6.6178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28100 tensor(6.3931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28200 tensor(6.3948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28300 tensor(6.4775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28400 tensor(6.5172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28500 tensor(5.9825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28600 tensor(6.5070, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28700 tensor(6.2011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28800 tensor(6.3345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "28900 tensor(6.5266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29000 tensor(6.1076, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29100 tensor(6.3081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29200 tensor(6.4084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29300 tensor(6.5367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29400 tensor(6.1060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29500 tensor(6.3648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29600 tensor(6.1868, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29700 tensor(6.1539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29800 tensor(6.4329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "29900 tensor(6.5766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30000 tensor(6.1796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30100 tensor(6.4821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30200 tensor(6.3678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30300 tensor(6.5826, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30400 tensor(6.5100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30500 tensor(6.5873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30600 tensor(6.3068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30700 tensor(6.5301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30800 tensor(6.3335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "30900 tensor(6.2285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31000 tensor(6.0348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31100 tensor(6.3090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31200 tensor(6.2868, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31300 tensor(6.7283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31400 tensor(6.3156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31500 tensor(6.3021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31600 tensor(6.6177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31700 tensor(6.0708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31800 tensor(6.5130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "31900 tensor(6.4661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32000 tensor(6.1303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32100 tensor(6.4257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32200 tensor(6.3380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32300 tensor(6.5120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32400 tensor(6.3645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32500 tensor(6.3266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32600 tensor(6.4762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32700 tensor(6.0715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32800 tensor(6.3775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "32900 tensor(6.2755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33000 tensor(6.1814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33100 tensor(6.2340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33200 tensor(6.1081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33300 tensor(6.2013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33400 tensor(6.2780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33500 tensor(6.2611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33600 tensor(6.4351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33700 tensor(6.1578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33800 tensor(6.4136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "33900 tensor(6.2569, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34000 tensor(6.2507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34100 tensor(6.3207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34200 tensor(6.5411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34300 tensor(6.3435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34400 tensor(6.0071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34500 tensor(6.1494, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34600 tensor(6.1661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34700 tensor(6.4876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34800 tensor(6.2610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "34900 tensor(6.2763, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35000 tensor(6.4429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35100 tensor(6.3415, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35200 tensor(5.9865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35300 tensor(5.9136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35400 tensor(6.3204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35500 tensor(6.2335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35600 tensor(6.6775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35700 tensor(6.3606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35800 tensor(6.5718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "35900 tensor(6.0167, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36000 tensor(6.4057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36100 tensor(6.0678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36200 tensor(6.2450, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36300 tensor(6.2597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36400 tensor(6.2467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36500 tensor(6.3870, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36600 tensor(6.3872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36700 tensor(5.9818, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36800 tensor(6.1454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "36900 tensor(6.2447, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37000 tensor(6.6994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37100 tensor(6.4743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37200 tensor(6.4369, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37300 tensor(6.3624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37400 tensor(6.0169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37500 tensor(6.2365, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "37600 tensor(6.3473, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37700 tensor(6.3019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37800 tensor(6.3526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "37900 tensor(6.3167, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38000 tensor(6.5604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38100 tensor(6.2682, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38200 tensor(6.3246, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38300 tensor(6.4815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38400 tensor(6.3199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38500 tensor(6.3742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38600 tensor(6.3012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38700 tensor(6.2586, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38800 tensor(6.3830, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "38900 tensor(6.4648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39000 tensor(6.2475, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39100 tensor(6.1407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39200 tensor(6.4526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39300 tensor(5.8003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39400 tensor(6.2180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39500 tensor(6.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39600 tensor(6.1179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39700 tensor(6.3390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39800 tensor(6.4597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "39900 tensor(6.1864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40000 tensor(6.3894, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40100 tensor(6.4088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40200 tensor(6.4454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40300 tensor(6.2579, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40400 tensor(6.2532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40500 tensor(6.3062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40600 tensor(6.4760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40700 tensor(6.3759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40800 tensor(6.3412, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "40900 tensor(5.9304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41000 tensor(6.2053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41100 tensor(6.0821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41200 tensor(6.3905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41300 tensor(6.0630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41400 tensor(6.3565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41500 tensor(6.4567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41600 tensor(6.1792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41700 tensor(6.5197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41800 tensor(6.3544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "41900 tensor(6.3854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42000 tensor(6.1018, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42100 tensor(6.1942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42200 tensor(6.0480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42300 tensor(6.4165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42400 tensor(6.1408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42500 tensor(6.3573, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42600 tensor(6.6647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42700 tensor(6.5715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42800 tensor(6.0857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "42900 tensor(6.3859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43000 tensor(6.3434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43100 tensor(6.3578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43200 tensor(6.3932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43300 tensor(6.2904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43400 tensor(6.3923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43500 tensor(6.1518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43600 tensor(6.1363, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43700 tensor(5.8027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43800 tensor(6.3350, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "43900 tensor(6.1715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44000 tensor(6.6020, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44100 tensor(6.3648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44200 tensor(6.1981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44300 tensor(6.4979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44400 tensor(6.1428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44500 tensor(5.9317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44600 tensor(6.2294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44700 tensor(6.0719, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44800 tensor(6.4034, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "44900 tensor(6.0008, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45000 tensor(6.3843, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45100 tensor(6.0572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45200 tensor(5.9966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45300 tensor(6.4421, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45400 tensor(6.3205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45500 tensor(6.7303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45600 tensor(6.0074, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45700 tensor(6.3245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45800 tensor(6.3762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "45900 tensor(6.4113, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46000 tensor(6.1731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46100 tensor(6.3452, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46200 tensor(5.9445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46300 tensor(6.7010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46400 tensor(6.4071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46500 tensor(6.0883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46600 tensor(6.7043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46700 tensor(6.0010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46800 tensor(6.2456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "46900 tensor(6.3347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47000 tensor(6.4850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47100 tensor(6.1010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47200 tensor(6.5156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47300 tensor(6.4426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47400 tensor(6.2211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47500 tensor(6.2846, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47600 tensor(5.7995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47700 tensor(6.1479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47800 tensor(6.3269, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "47900 tensor(6.4091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48000 tensor(6.3623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48100 tensor(6.0355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48200 tensor(6.1229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48300 tensor(6.2844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48400 tensor(6.2528, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48500 tensor(6.4158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48600 tensor(6.2300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48700 tensor(6.4752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48800 tensor(6.4891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "48900 tensor(6.4281, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49000 tensor(6.3973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49100 tensor(6.4717, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49200 tensor(5.9476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49300 tensor(6.5171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49400 tensor(6.5927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49500 tensor(6.2390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49600 tensor(6.5121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49700 tensor(6.1705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49800 tensor(6.0865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "49900 tensor(6.2667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50000 tensor(6.3606, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "50100 tensor(6.3152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50200 tensor(5.8161, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50300 tensor(6.1519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50400 tensor(6.2640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50500 tensor(6.6373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50600 tensor(6.0610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50700 tensor(6.1604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50800 tensor(6.0850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "50900 tensor(6.5230, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51000 tensor(6.3261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51100 tensor(6.1690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51200 tensor(6.3807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51300 tensor(6.1361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51400 tensor(6.4120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51500 tensor(6.1421, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51600 tensor(6.1768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51700 tensor(6.2460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51800 tensor(6.6122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "51900 tensor(6.2225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52000 tensor(6.2278, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52100 tensor(5.8084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52200 tensor(6.3265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52300 tensor(6.4041, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52400 tensor(6.3222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52500 tensor(6.5347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52600 tensor(6.4195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52700 tensor(6.4554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52800 tensor(6.3795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "52900 tensor(6.5054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53000 tensor(6.2929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53100 tensor(6.2268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53200 tensor(5.8108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53300 tensor(6.3269, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53400 tensor(6.1972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53500 tensor(6.3634, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53600 tensor(6.1485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53700 tensor(6.4451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53800 tensor(6.5400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "53900 tensor(6.2664, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54000 tensor(6.1465, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54100 tensor(6.3781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54200 tensor(6.1090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54300 tensor(6.3002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54400 tensor(6.2471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54500 tensor(6.2598, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54600 tensor(6.4406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54700 tensor(6.5178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54800 tensor(6.2821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "54900 tensor(6.3921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55000 tensor(6.2698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55100 tensor(6.5370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55200 tensor(5.9185, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55300 tensor(6.1682, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55400 tensor(6.2748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55500 tensor(6.5686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55600 tensor(6.0899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55700 tensor(6.0237, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55800 tensor(6.4549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "55900 tensor(6.5521, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56000 tensor(6.3795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56100 tensor(6.4078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56200 tensor(6.3665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56300 tensor(6.5905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56400 tensor(6.3808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56500 tensor(6.6025, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56600 tensor(6.0324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56700 tensor(6.0904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56800 tensor(6.6277, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "56900 tensor(6.2551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57000 tensor(6.4010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57100 tensor(6.4718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57200 tensor(6.3447, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57300 tensor(6.1772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57400 tensor(6.4045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57500 tensor(6.4967, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57600 tensor(6.3195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57700 tensor(6.2796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57800 tensor(6.4044, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "57900 tensor(6.2077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58000 tensor(6.4426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58100 tensor(6.1111, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58200 tensor(6.1013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58300 tensor(6.3500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58400 tensor(6.1895, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58500 tensor(6.2096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58600 tensor(5.9523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58700 tensor(6.0928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58800 tensor(6.3189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "58900 tensor(6.4289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59000 tensor(6.5484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59100 tensor(6.2206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59200 tensor(6.2317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59300 tensor(6.2665, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59400 tensor(6.5255, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59500 tensor(6.3835, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59600 tensor(6.2740, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59700 tensor(6.4163, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59800 tensor(6.1203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "59900 tensor(6.4851, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60000 tensor(6.2429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60100 tensor(6.4390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60200 tensor(6.5062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60300 tensor(6.4201, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60400 tensor(6.3536, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60500 tensor(6.5765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60600 tensor(6.4468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60700 tensor(6.2424, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60800 tensor(6.1283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "60900 tensor(6.3686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61000 tensor(6.2331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61100 tensor(6.2908, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61200 tensor(6.2249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61300 tensor(6.2362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61400 tensor(6.5212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61500 tensor(6.3530, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61600 tensor(6.4934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61700 tensor(6.3528, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61800 tensor(6.2487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "61900 tensor(6.4684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62000 tensor(5.8920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62100 tensor(6.3591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62200 tensor(6.4338, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62300 tensor(6.3332, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62400 tensor(6.3722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62500 tensor(6.3657, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "62600 tensor(6.3776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62700 tensor(6.2917, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62800 tensor(6.0079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "62900 tensor(6.4841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63000 tensor(6.4510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63100 tensor(6.3967, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63200 tensor(6.3568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63300 tensor(6.1641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63400 tensor(6.2656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63500 tensor(6.2119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63600 tensor(6.3500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63700 tensor(6.5353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63800 tensor(6.3988, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "63900 tensor(6.4113, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64000 tensor(5.9131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64100 tensor(6.5083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64200 tensor(6.5877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64300 tensor(6.4674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64400 tensor(6.4227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64500 tensor(6.6071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64600 tensor(6.5204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64700 tensor(6.0671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64800 tensor(6.4817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "64900 tensor(6.4154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65000 tensor(6.7705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65100 tensor(6.4592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65200 tensor(6.0984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65300 tensor(6.1788, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65400 tensor(6.7052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65500 tensor(6.2620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65600 tensor(6.4919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65700 tensor(6.1335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65800 tensor(6.0923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "65900 tensor(6.2857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66000 tensor(6.0469, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66100 tensor(6.4061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66200 tensor(6.3681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66300 tensor(6.4045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66400 tensor(6.0928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66500 tensor(6.2067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66600 tensor(6.4102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66700 tensor(6.3612, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66800 tensor(6.1014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "66900 tensor(6.1177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67000 tensor(6.5394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67100 tensor(6.3808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67200 tensor(6.1781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67300 tensor(6.2086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67400 tensor(6.1859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67500 tensor(6.2802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67600 tensor(6.3905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67700 tensor(6.1838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67800 tensor(6.2068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "67900 tensor(6.4851, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68000 tensor(6.1140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68100 tensor(6.3085, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68200 tensor(6.5012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68300 tensor(6.0205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68400 tensor(6.2401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68500 tensor(6.1879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68600 tensor(6.0468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68700 tensor(6.1933, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68800 tensor(6.3936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "68900 tensor(6.4493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69000 tensor(5.9027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69100 tensor(5.9140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69200 tensor(6.4018, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69300 tensor(6.2920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69400 tensor(6.2037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69500 tensor(6.4508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69600 tensor(5.9891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69700 tensor(6.3821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69800 tensor(6.2670, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "69900 tensor(6.3683, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70000 tensor(6.3056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70100 tensor(6.1356, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70200 tensor(6.5552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70300 tensor(6.1109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70400 tensor(6.1278, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70500 tensor(6.2252, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70600 tensor(6.2734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70700 tensor(6.4401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70800 tensor(6.0667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "70900 tensor(6.0439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71000 tensor(6.3268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71100 tensor(6.4534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71200 tensor(6.4841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71300 tensor(6.2640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71400 tensor(6.5524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71500 tensor(6.2592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71600 tensor(6.0218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71700 tensor(6.3117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71800 tensor(6.3120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "71900 tensor(6.3684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72000 tensor(6.3427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72100 tensor(6.5886, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72200 tensor(6.6645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72300 tensor(6.1565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72400 tensor(6.2742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72500 tensor(5.9837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72600 tensor(6.4811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72700 tensor(6.0423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72800 tensor(5.9903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "72900 tensor(6.5061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73000 tensor(6.3733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73100 tensor(6.0097, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73200 tensor(6.1584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73300 tensor(6.2543, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73400 tensor(6.0422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73500 tensor(6.3545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73600 tensor(6.0901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73700 tensor(6.4071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73800 tensor(6.2462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "73900 tensor(6.5449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74000 tensor(5.9826, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74100 tensor(6.3984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74200 tensor(6.3418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74300 tensor(6.2575, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74400 tensor(6.5407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74500 tensor(6.5039, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74600 tensor(6.2091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74700 tensor(5.9413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74800 tensor(6.0640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "74900 tensor(6.1720, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75000 tensor(6.4568, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "75100 tensor(6.4348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75200 tensor(6.2299, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75300 tensor(6.3492, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75400 tensor(6.5882, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75500 tensor(6.2069, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75600 tensor(6.5318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75700 tensor(6.1249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75800 tensor(6.3609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "75900 tensor(6.4399, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76000 tensor(6.4117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76100 tensor(6.3236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76200 tensor(6.1960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76300 tensor(6.3030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76400 tensor(6.7321, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76500 tensor(6.4889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76600 tensor(5.9697, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76700 tensor(6.3563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76800 tensor(6.3120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "76900 tensor(6.1115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77000 tensor(6.1655, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77100 tensor(6.2190, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77200 tensor(5.9075, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77300 tensor(6.2589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77400 tensor(6.4822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77500 tensor(6.1670, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77600 tensor(6.2366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77700 tensor(6.1208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77800 tensor(6.2048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "77900 tensor(6.5873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78000 tensor(6.3001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78100 tensor(6.0956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78200 tensor(6.3912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78300 tensor(6.3932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78400 tensor(6.2624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78500 tensor(6.4183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78600 tensor(6.5979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78700 tensor(6.0650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78800 tensor(6.4788, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "78900 tensor(6.1620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79000 tensor(6.2129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79100 tensor(6.5827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79200 tensor(6.3684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79300 tensor(6.1218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79400 tensor(6.4870, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79500 tensor(6.1165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79600 tensor(6.2743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79700 tensor(6.1804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79800 tensor(6.2650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "79900 tensor(6.6032, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80000 tensor(6.1554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80100 tensor(6.4829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80200 tensor(6.6202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80300 tensor(6.2486, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80400 tensor(6.2386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80500 tensor(6.2430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80600 tensor(6.1786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80700 tensor(6.2403, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80800 tensor(6.5552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "80900 tensor(6.0028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81000 tensor(6.1497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81100 tensor(6.3919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81200 tensor(6.4792, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81300 tensor(6.3493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81400 tensor(6.3267, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81500 tensor(6.4843, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81600 tensor(6.2413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81700 tensor(6.1440, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81800 tensor(6.1865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "81900 tensor(6.5425, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82000 tensor(6.5142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82100 tensor(6.4314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82200 tensor(6.4731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82300 tensor(6.1144, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82400 tensor(6.1439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82500 tensor(6.1353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82600 tensor(6.2906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82700 tensor(6.3935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82800 tensor(6.2333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "82900 tensor(6.4772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83000 tensor(6.2591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83100 tensor(6.0807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83200 tensor(6.1020, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83300 tensor(6.4487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83400 tensor(6.4647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83500 tensor(6.4171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83600 tensor(6.3508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83700 tensor(6.3349, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83800 tensor(6.3060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "83900 tensor(6.6704, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84000 tensor(6.2786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84100 tensor(6.3576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84200 tensor(6.2772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84300 tensor(6.2928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84400 tensor(6.2065, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84500 tensor(6.3060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84600 tensor(6.1944, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84700 tensor(6.4458, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84800 tensor(6.2021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "84900 tensor(6.2218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85000 tensor(6.0778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85100 tensor(5.9160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85200 tensor(6.6298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85300 tensor(6.3109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85400 tensor(6.4572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85500 tensor(6.2398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85600 tensor(6.4278, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85700 tensor(6.2815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85800 tensor(5.9198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "85900 tensor(6.2091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86000 tensor(6.0829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86100 tensor(5.9222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86200 tensor(6.4064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86300 tensor(6.2538, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86400 tensor(6.1917, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86500 tensor(6.3451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86600 tensor(6.2725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86700 tensor(6.7789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86800 tensor(6.4530, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "86900 tensor(6.3281, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87000 tensor(6.6420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87100 tensor(6.6434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87200 tensor(6.3316, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87300 tensor(6.1775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87400 tensor(6.1047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87500 tensor(6.2498, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "87600 tensor(6.1922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87700 tensor(6.3410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87800 tensor(6.5634, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "87900 tensor(6.3292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88000 tensor(6.4881, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88100 tensor(6.1968, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88200 tensor(6.0463, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88300 tensor(6.0094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88400 tensor(6.2273, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88500 tensor(6.2220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88600 tensor(6.4040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88700 tensor(6.5188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88800 tensor(6.2047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "88900 tensor(6.3574, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89000 tensor(6.2601, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89100 tensor(6.2338, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89200 tensor(6.0606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89300 tensor(6.1340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89400 tensor(6.3049, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89500 tensor(6.0202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89600 tensor(6.3858, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89700 tensor(6.5207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89800 tensor(6.2921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "89900 tensor(6.2893, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90000 tensor(6.0482, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90100 tensor(6.6570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90200 tensor(6.2352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90300 tensor(6.6246, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90400 tensor(6.4519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90500 tensor(6.4890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90600 tensor(6.1659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90700 tensor(6.3641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90800 tensor(6.3633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "90900 tensor(6.4887, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91000 tensor(6.3379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91100 tensor(6.4600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91200 tensor(6.2279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91300 tensor(6.4025, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91400 tensor(6.3846, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91500 tensor(5.8431, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91600 tensor(6.1391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91700 tensor(6.5965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91800 tensor(6.3722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "91900 tensor(6.4802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92000 tensor(6.3661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92100 tensor(6.0241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92200 tensor(6.4211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92300 tensor(6.6367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92400 tensor(6.2989, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92500 tensor(6.4400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92600 tensor(6.1229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92700 tensor(6.5757, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92800 tensor(6.6244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "92900 tensor(6.1478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93000 tensor(6.2885, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93100 tensor(6.2493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93200 tensor(6.3378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93300 tensor(6.2815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93400 tensor(6.2519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93500 tensor(6.3206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93600 tensor(6.3790, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93700 tensor(6.3403, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93800 tensor(6.7019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "93900 tensor(6.2779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94000 tensor(6.4639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94100 tensor(6.2556, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94200 tensor(6.1462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94300 tensor(6.1673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94400 tensor(6.1963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94500 tensor(6.5253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94600 tensor(6.4279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94700 tensor(6.1554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94800 tensor(6.3120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "94900 tensor(6.1735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95000 tensor(6.4334, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95100 tensor(6.3014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95200 tensor(6.4626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95300 tensor(6.1670, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95400 tensor(6.4289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95500 tensor(6.1375, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95600 tensor(6.1024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95700 tensor(6.0904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95800 tensor(6.1063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "95900 tensor(6.3877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96000 tensor(6.5011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96100 tensor(5.9292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96200 tensor(6.4288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96300 tensor(6.4619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96400 tensor(6.2854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96500 tensor(6.5720, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96600 tensor(6.4247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96700 tensor(6.3941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96800 tensor(6.6175, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "96900 tensor(6.1711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97000 tensor(6.2119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97100 tensor(6.3068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97200 tensor(6.4070, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97300 tensor(6.1123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97400 tensor(6.4048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97500 tensor(5.8084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97600 tensor(6.1547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97700 tensor(6.3061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97800 tensor(6.4506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "97900 tensor(6.1280, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98000 tensor(6.2044, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98100 tensor(6.3517, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98200 tensor(6.5213, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98300 tensor(6.1502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98400 tensor(6.3807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98500 tensor(6.1871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98600 tensor(6.4436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98700 tensor(5.7568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98800 tensor(6.3736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "98900 tensor(6.0804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99000 tensor(6.4053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99100 tensor(6.2847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99200 tensor(6.1534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99300 tensor(6.2265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99400 tensor(5.9003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99500 tensor(6.5008, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99600 tensor(6.4964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99700 tensor(6.2125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99800 tensor(6.4576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "99900 tensor(6.1078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100000 tensor(6.3079, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "100100 tensor(6.6032, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100200 tensor(6.3257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100300 tensor(6.3809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100400 tensor(6.1088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100500 tensor(6.3217, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100600 tensor(6.2402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100700 tensor(6.5221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100800 tensor(6.3372, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "100900 tensor(6.3466, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101000 tensor(6.2795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101100 tensor(6.3551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101200 tensor(6.1093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101300 tensor(6.0571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101400 tensor(6.2678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101500 tensor(6.3374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101600 tensor(6.1349, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101700 tensor(6.3383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101800 tensor(6.0542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "101900 tensor(6.3631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102000 tensor(6.4056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102100 tensor(6.0323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102200 tensor(6.1920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102300 tensor(6.2809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102400 tensor(6.2103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102500 tensor(6.2844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102600 tensor(6.4072, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102700 tensor(6.2417, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102800 tensor(6.2413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "102900 tensor(5.8962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103000 tensor(6.4079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103100 tensor(6.4507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103200 tensor(6.2121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103300 tensor(6.3879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103400 tensor(6.4504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103500 tensor(5.9250, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103600 tensor(6.4508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103700 tensor(6.5200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103800 tensor(6.1902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "103900 tensor(6.2659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104000 tensor(6.1630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104100 tensor(6.3432, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104200 tensor(6.2699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104300 tensor(6.0151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104400 tensor(6.3739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104500 tensor(6.2319, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104600 tensor(6.0136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104700 tensor(6.6060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104800 tensor(6.5162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "104900 tensor(6.2925, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105000 tensor(6.2759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105100 tensor(6.2752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105200 tensor(6.3281, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105300 tensor(6.4301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105400 tensor(6.2131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105500 tensor(6.3753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105600 tensor(6.5721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105700 tensor(6.3558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105800 tensor(6.3484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "105900 tensor(5.8717, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106000 tensor(6.0120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106100 tensor(6.4196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106200 tensor(6.1480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106300 tensor(6.4239, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106400 tensor(6.1658, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106500 tensor(6.1241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106600 tensor(6.2713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106700 tensor(6.3822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106800 tensor(6.2181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "106900 tensor(6.1809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107000 tensor(6.1930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107100 tensor(6.2128, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107200 tensor(6.4420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107300 tensor(6.4619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107400 tensor(6.2572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107500 tensor(6.1778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107600 tensor(6.0383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107700 tensor(6.1277, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107800 tensor(6.2798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "107900 tensor(6.5493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108000 tensor(6.6027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108100 tensor(6.2878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108200 tensor(6.2362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108300 tensor(6.2999, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108400 tensor(6.5764, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108500 tensor(5.9545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108600 tensor(5.9828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108700 tensor(6.2618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108800 tensor(6.4134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "108900 tensor(6.4710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109000 tensor(6.3222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109100 tensor(6.3493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109200 tensor(6.1739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109300 tensor(6.5064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109400 tensor(6.2468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109500 tensor(6.3527, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109600 tensor(6.1936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109700 tensor(6.2649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109800 tensor(6.2405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "109900 tensor(6.5195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110000 tensor(5.9707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110100 tensor(6.4468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110200 tensor(6.0934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110300 tensor(6.4796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110400 tensor(6.4688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110500 tensor(6.6558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110600 tensor(6.0664, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110700 tensor(6.2873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110800 tensor(6.4791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "110900 tensor(6.5834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111000 tensor(6.2946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111100 tensor(6.3054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111200 tensor(6.4884, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111300 tensor(6.5362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111400 tensor(6.3900, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111500 tensor(6.0921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111600 tensor(6.1069, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111700 tensor(6.4237, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111800 tensor(6.4083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "111900 tensor(6.5856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112000 tensor(6.1460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112100 tensor(6.2023, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112200 tensor(6.5187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112300 tensor(6.1117, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "112400 tensor(6.2920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112500 tensor(6.0232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112600 tensor(6.1691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112700 tensor(6.2214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112800 tensor(6.4647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "112900 tensor(6.4600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113000 tensor(6.1718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113100 tensor(6.2358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113200 tensor(6.3690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113300 tensor(6.3420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113400 tensor(5.6514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113500 tensor(6.3852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113600 tensor(6.4675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113700 tensor(6.1993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113800 tensor(6.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "113900 tensor(6.2591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114000 tensor(6.2511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114100 tensor(6.2813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114200 tensor(6.0367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114300 tensor(6.2922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114400 tensor(6.4380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114500 tensor(6.5895, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114600 tensor(6.0620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114700 tensor(6.0737, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114800 tensor(6.4191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "114900 tensor(6.0638, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115000 tensor(6.1435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115100 tensor(6.5107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115200 tensor(6.1568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115300 tensor(6.2809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115400 tensor(6.2907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115500 tensor(6.3092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115600 tensor(6.2557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115700 tensor(6.4236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115800 tensor(6.3814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "115900 tensor(6.2482, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116000 tensor(6.2822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116100 tensor(6.3134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116200 tensor(6.0833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116300 tensor(6.1447, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116400 tensor(5.9141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116500 tensor(6.1907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116600 tensor(6.1275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116700 tensor(6.4742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116800 tensor(6.5987, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "116900 tensor(6.5797, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117000 tensor(6.3137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117100 tensor(6.5282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117200 tensor(6.2944, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117300 tensor(6.5489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117400 tensor(6.2789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117500 tensor(6.1986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117600 tensor(6.1317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117700 tensor(6.4567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117800 tensor(6.2468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "117900 tensor(6.0563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118000 tensor(6.3089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118100 tensor(6.5072, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118200 tensor(5.8906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118300 tensor(5.9780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118400 tensor(6.0672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118500 tensor(5.8194, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118600 tensor(6.4188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118700 tensor(6.1522, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118800 tensor(6.3534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "118900 tensor(6.6100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119000 tensor(6.3688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119100 tensor(6.3079, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119200 tensor(6.1166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119300 tensor(5.9033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119400 tensor(5.7077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119500 tensor(5.9234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119600 tensor(5.9405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119700 tensor(6.1317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119800 tensor(6.3881, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "119900 tensor(6.3602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120000 tensor(6.6963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120100 tensor(5.9027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120200 tensor(5.8137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120300 tensor(6.4202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120400 tensor(6.1713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120500 tensor(6.3347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120600 tensor(6.3360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120700 tensor(6.1734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120800 tensor(6.3263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "120900 tensor(6.3070, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121000 tensor(6.0916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121100 tensor(6.4165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121200 tensor(6.1917, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121300 tensor(6.8823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121400 tensor(6.2456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121500 tensor(6.3349, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121600 tensor(6.4541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121700 tensor(6.2024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121800 tensor(6.3995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "121900 tensor(6.1770, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122000 tensor(5.7298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122100 tensor(6.4234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122200 tensor(5.9819, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122300 tensor(6.1125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122400 tensor(6.4182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122500 tensor(6.2552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122600 tensor(6.0557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122700 tensor(6.3895, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122800 tensor(6.4442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "122900 tensor(6.4827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123000 tensor(6.3162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123100 tensor(6.2861, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123200 tensor(6.5891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123300 tensor(6.2678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123400 tensor(6.1510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123500 tensor(6.2398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123600 tensor(6.4137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123700 tensor(6.2727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123800 tensor(6.1561, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "123900 tensor(6.3180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124000 tensor(5.9054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124100 tensor(6.3252, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124200 tensor(6.1692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124300 tensor(6.2695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124400 tensor(6.6039, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124500 tensor(6.2994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124600 tensor(6.3008, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "124700 tensor(6.2165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124800 tensor(6.0142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "124900 tensor(6.3649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125000 tensor(6.1046, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125100 tensor(6.6507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125200 tensor(6.3295, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125300 tensor(6.4071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125400 tensor(6.4771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125500 tensor(6.5995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125600 tensor(5.8743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125700 tensor(6.2433, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125800 tensor(6.1171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "125900 tensor(5.7314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126000 tensor(6.5950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126100 tensor(6.4330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126200 tensor(5.9956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126300 tensor(6.3108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126400 tensor(6.1695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126500 tensor(6.0692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126600 tensor(6.3374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126700 tensor(6.3198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126800 tensor(6.4852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "126900 tensor(6.3110, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127000 tensor(5.9327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127100 tensor(6.3685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127200 tensor(6.1442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127300 tensor(6.2974, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127400 tensor(6.4856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127500 tensor(6.1154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127600 tensor(6.2748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127700 tensor(6.2262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127800 tensor(5.9388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "127900 tensor(6.4502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128000 tensor(6.4114, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128100 tensor(6.5352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128200 tensor(6.3055, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128300 tensor(6.1022, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128400 tensor(6.4652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128500 tensor(6.2607, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128600 tensor(6.0425, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128700 tensor(6.1932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128800 tensor(6.4198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "128900 tensor(6.3137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129000 tensor(6.2530, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129100 tensor(6.6651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129200 tensor(6.5426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129300 tensor(6.5657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129400 tensor(6.0702, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129500 tensor(5.9085, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129600 tensor(6.2202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129700 tensor(6.3451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129800 tensor(6.5328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "129900 tensor(6.1787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130000 tensor(5.9643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130100 tensor(6.3140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130200 tensor(6.3183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130300 tensor(5.9985, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130400 tensor(6.1872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130500 tensor(5.9259, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130600 tensor(6.4158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130700 tensor(6.1004, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130800 tensor(5.8912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "130900 tensor(6.1743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131000 tensor(6.2475, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131100 tensor(6.1900, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131200 tensor(6.3660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131300 tensor(5.9471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131400 tensor(6.0217, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131500 tensor(5.9780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131600 tensor(6.6103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131700 tensor(6.2624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131800 tensor(6.4032, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "131900 tensor(6.2060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132000 tensor(6.4117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132100 tensor(6.2864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132200 tensor(6.0786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132300 tensor(5.7464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132400 tensor(6.4749, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132500 tensor(6.3903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132600 tensor(6.1613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132700 tensor(6.2008, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132800 tensor(6.2473, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "132900 tensor(5.7576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133000 tensor(6.1683, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133100 tensor(6.2785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133200 tensor(6.1199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133300 tensor(6.1644, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133400 tensor(6.1343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133500 tensor(6.2662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133600 tensor(6.2516, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133700 tensor(5.8703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133800 tensor(6.5054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "133900 tensor(6.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134000 tensor(6.4387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134100 tensor(6.4125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134200 tensor(6.3783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134300 tensor(6.1837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134400 tensor(6.2728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134500 tensor(6.3357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134600 tensor(6.3623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134700 tensor(6.0129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134800 tensor(6.3331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "134900 tensor(6.2158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135000 tensor(6.1900, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135100 tensor(6.2759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135200 tensor(6.2110, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135300 tensor(6.4219, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135400 tensor(6.3683, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135500 tensor(6.2284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135600 tensor(6.4426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135700 tensor(6.2796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135800 tensor(6.1368, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "135900 tensor(6.2683, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136000 tensor(5.9119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136100 tensor(5.9712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136200 tensor(5.9279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136300 tensor(6.2208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136400 tensor(6.4681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136500 tensor(5.9815, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136600 tensor(6.6105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136700 tensor(6.1662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136800 tensor(6.1600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "136900 tensor(6.3108, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "137000 tensor(6.1552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137100 tensor(6.3681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137200 tensor(6.2283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137300 tensor(6.5981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137400 tensor(6.3275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137500 tensor(6.3605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137600 tensor(6.1404, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137700 tensor(5.9959, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137800 tensor(5.8553, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "137900 tensor(6.1422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138000 tensor(6.3613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138100 tensor(6.4806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138200 tensor(6.3342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138300 tensor(6.1325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138400 tensor(6.3189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138500 tensor(6.3711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138600 tensor(6.1350, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138700 tensor(6.5373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138800 tensor(6.2643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "138900 tensor(6.2238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139000 tensor(6.1531, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139100 tensor(5.8624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139200 tensor(6.3390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139300 tensor(5.9934, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139400 tensor(6.2662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139500 tensor(6.3088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139600 tensor(6.3548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139700 tensor(6.4481, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139800 tensor(6.0940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "139900 tensor(6.4823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140000 tensor(6.3196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140100 tensor(6.3228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140200 tensor(6.4847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140300 tensor(6.1166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140400 tensor(6.4165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140500 tensor(6.3006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140600 tensor(6.0585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140700 tensor(6.0129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140800 tensor(6.1655, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "140900 tensor(6.2987, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141000 tensor(6.2844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141100 tensor(6.1542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141200 tensor(6.4464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141300 tensor(6.0371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141400 tensor(6.2520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141500 tensor(6.1398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141600 tensor(5.9624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141700 tensor(6.1021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141800 tensor(6.3320, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "141900 tensor(6.5791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142000 tensor(6.2956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142100 tensor(6.3468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142200 tensor(6.4019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142300 tensor(6.0909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142400 tensor(6.5179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142500 tensor(6.3096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142600 tensor(6.2148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142700 tensor(5.7930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142800 tensor(6.1237, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "142900 tensor(6.2847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143000 tensor(6.0118, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143100 tensor(5.8537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143200 tensor(6.1325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143300 tensor(5.9965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143400 tensor(6.4171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143500 tensor(6.0270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143600 tensor(6.3697, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143700 tensor(6.3579, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143800 tensor(6.0419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "143900 tensor(6.1671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144000 tensor(6.0602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144100 tensor(5.9366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144200 tensor(6.3236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144300 tensor(5.7747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144400 tensor(6.2295, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144500 tensor(6.2476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144600 tensor(6.3279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144700 tensor(6.1804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144800 tensor(6.3430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "144900 tensor(5.8324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145000 tensor(6.2395, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145100 tensor(6.3726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145200 tensor(6.5558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145300 tensor(6.3189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145400 tensor(6.2365, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145500 tensor(6.0822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145600 tensor(6.4082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145700 tensor(6.3889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145800 tensor(6.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "145900 tensor(6.6593, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146000 tensor(6.3067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146100 tensor(6.2483, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146200 tensor(6.1977, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146300 tensor(6.2613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146400 tensor(6.3093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146500 tensor(6.0139, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146600 tensor(6.5075, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146700 tensor(6.1987, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146800 tensor(5.9678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "146900 tensor(6.1165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147000 tensor(6.1157, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147100 tensor(6.3348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147200 tensor(6.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147300 tensor(6.2147, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147400 tensor(6.0782, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147500 tensor(6.3935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147600 tensor(5.9474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147700 tensor(6.4092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147800 tensor(6.5854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "147900 tensor(6.2040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148000 tensor(6.0787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148100 tensor(6.5305, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148200 tensor(6.2837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148300 tensor(6.4643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148400 tensor(6.4499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148500 tensor(6.2040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148600 tensor(6.6462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148700 tensor(6.1341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148800 tensor(6.3276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "148900 tensor(6.1052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149000 tensor(6.3580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149100 tensor(6.3698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149200 tensor(6.1016, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "149300 tensor(6.0544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149400 tensor(6.3166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149500 tensor(6.1771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149600 tensor(6.5291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149700 tensor(6.3477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149800 tensor(6.5005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "149900 tensor(6.0765, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150000 tensor(6.2168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150100 tensor(5.9786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150200 tensor(6.3884, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150300 tensor(6.3308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150400 tensor(6.2943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150500 tensor(5.9515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150600 tensor(6.1360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150700 tensor(6.1946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150800 tensor(6.4013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "150900 tensor(6.1937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151000 tensor(6.3947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151100 tensor(6.0677, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151200 tensor(6.3810, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151300 tensor(6.2166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151400 tensor(6.2941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151500 tensor(6.2158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151600 tensor(6.0884, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151700 tensor(5.8242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151800 tensor(6.3229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "151900 tensor(6.4922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152000 tensor(6.2299, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152100 tensor(6.3210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152200 tensor(6.2101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152300 tensor(6.5731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152400 tensor(6.1393, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152500 tensor(6.3420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152600 tensor(6.4430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152700 tensor(6.1244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152800 tensor(6.0513, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "152900 tensor(6.1978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153000 tensor(6.3222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153100 tensor(6.1840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153200 tensor(6.3602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153300 tensor(6.2300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153400 tensor(6.3290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153500 tensor(6.3608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153600 tensor(6.4952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153700 tensor(6.4863, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153800 tensor(6.3200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "153900 tensor(6.4197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154000 tensor(6.4178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154100 tensor(6.4104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154200 tensor(6.0654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154300 tensor(6.2941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154400 tensor(6.0739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154500 tensor(6.0853, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154600 tensor(6.1207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154700 tensor(6.4565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154800 tensor(5.8549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "154900 tensor(6.3690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155000 tensor(6.3657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155100 tensor(6.1386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155200 tensor(6.1699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155300 tensor(6.2059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155400 tensor(6.0205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155500 tensor(6.2078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155600 tensor(6.1485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155700 tensor(6.3909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155800 tensor(6.4983, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "155900 tensor(6.4183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156000 tensor(6.4630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156100 tensor(6.1588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156200 tensor(6.1631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156300 tensor(6.2380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156400 tensor(6.4068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156500 tensor(6.4438, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156600 tensor(6.2552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156700 tensor(6.3000, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156800 tensor(6.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "156900 tensor(6.2559, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157000 tensor(6.1986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157100 tensor(6.0540, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157200 tensor(5.7841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157300 tensor(6.4095, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157400 tensor(6.4669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157500 tensor(6.6584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157600 tensor(6.3545, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157700 tensor(6.1619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157800 tensor(6.4151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "157900 tensor(5.9585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158000 tensor(5.9963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158100 tensor(6.3798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158200 tensor(6.1761, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158300 tensor(6.4879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158400 tensor(5.9107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158500 tensor(6.3819, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158600 tensor(6.2901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158700 tensor(5.8215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158800 tensor(6.6451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "158900 tensor(6.0805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159000 tensor(6.4267, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159100 tensor(6.3088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159200 tensor(6.1191, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159300 tensor(6.0345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159400 tensor(6.4513, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159500 tensor(6.2886, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159600 tensor(6.3715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159700 tensor(6.4539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159800 tensor(6.1981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "159900 tensor(6.0975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160000 tensor(6.3995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160100 tensor(6.1775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160200 tensor(5.9064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160300 tensor(6.2468, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160400 tensor(6.0242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160500 tensor(6.1718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160600 tensor(5.8328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160700 tensor(5.9871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160800 tensor(5.9541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "160900 tensor(6.3061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161000 tensor(6.3106, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161100 tensor(6.0869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161200 tensor(6.3021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161300 tensor(6.2301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161400 tensor(6.3845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161500 tensor(6.0799, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "161600 tensor(6.4305, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161700 tensor(6.1910, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161800 tensor(6.0620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "161900 tensor(6.3450, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162000 tensor(6.0384, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162100 tensor(6.2913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162200 tensor(6.4014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162300 tensor(6.1961, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162400 tensor(6.3429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162500 tensor(6.1807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162600 tensor(6.1816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162700 tensor(6.5639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162800 tensor(6.1019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "162900 tensor(6.1725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163000 tensor(6.5369, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163100 tensor(6.1478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163200 tensor(5.9903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163300 tensor(6.2009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163400 tensor(6.1010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163500 tensor(6.2687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163600 tensor(5.7423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163700 tensor(6.1073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163800 tensor(6.1876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "163900 tensor(6.3467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164000 tensor(5.9750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164100 tensor(6.4862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164200 tensor(6.1318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164300 tensor(6.0491, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164400 tensor(6.7221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164500 tensor(6.4134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164600 tensor(6.4384, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164700 tensor(6.3388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164800 tensor(5.9619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "164900 tensor(6.4964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165000 tensor(6.1977, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165100 tensor(6.4965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165200 tensor(6.0177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165300 tensor(6.0462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165400 tensor(6.1656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165500 tensor(6.1752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165600 tensor(6.1867, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165700 tensor(5.9474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165800 tensor(6.1113, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "165900 tensor(6.1312, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166000 tensor(6.1677, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166100 tensor(6.3332, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166200 tensor(6.2398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166300 tensor(6.3003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166400 tensor(6.2681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166500 tensor(6.5110, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166600 tensor(6.5139, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166700 tensor(6.0835, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166800 tensor(6.3301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "166900 tensor(6.2202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167000 tensor(6.1877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167100 tensor(6.3808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167200 tensor(6.0461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167300 tensor(6.0996, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167400 tensor(6.0172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167500 tensor(5.9242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167600 tensor(6.3358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167700 tensor(6.6203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167800 tensor(6.4899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "167900 tensor(6.1002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168000 tensor(5.8021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168100 tensor(6.5633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168200 tensor(5.8216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168300 tensor(6.4166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168400 tensor(6.0699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168500 tensor(6.5422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168600 tensor(5.5640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168700 tensor(6.6692, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168800 tensor(6.3791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "168900 tensor(6.3305, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169000 tensor(6.3109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169100 tensor(6.5290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169200 tensor(6.0883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169300 tensor(6.4287, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169400 tensor(6.0824, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169500 tensor(6.3393, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169600 tensor(6.0992, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169700 tensor(6.3366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169800 tensor(6.2730, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "169900 tensor(6.5019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170000 tensor(6.1588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170100 tensor(6.3741, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170200 tensor(6.2153, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170300 tensor(5.9796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170400 tensor(6.1339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170500 tensor(6.4418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170600 tensor(6.5266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170700 tensor(5.8471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170800 tensor(6.0267, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "170900 tensor(6.2479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171000 tensor(6.3327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171100 tensor(6.3248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171200 tensor(6.3591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171300 tensor(6.1168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171400 tensor(6.1411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171500 tensor(5.9911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171600 tensor(6.2783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171700 tensor(6.3100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171800 tensor(6.2485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "171900 tensor(6.3401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172000 tensor(6.0973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172100 tensor(6.1805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172200 tensor(6.1519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172300 tensor(6.3641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172400 tensor(6.1750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172500 tensor(6.2256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172600 tensor(6.1918, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172700 tensor(5.9774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172800 tensor(6.3429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "172900 tensor(5.9668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173000 tensor(6.3609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173100 tensor(6.3739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173200 tensor(6.1925, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173300 tensor(6.4231, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173400 tensor(6.4215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173500 tensor(6.2406, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173600 tensor(5.8131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173700 tensor(6.3746, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "173800 tensor(6.3425, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "173900 tensor(6.1105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174000 tensor(6.5883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174100 tensor(6.2517, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174200 tensor(6.3595, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174300 tensor(6.0311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174400 tensor(5.8500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174500 tensor(6.0308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174600 tensor(6.4416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174700 tensor(6.3174, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174800 tensor(6.0302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "174900 tensor(5.8741, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175000 tensor(6.1169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175100 tensor(6.5659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175200 tensor(6.2329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175300 tensor(6.2470, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175400 tensor(6.6242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175500 tensor(6.4455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175600 tensor(6.1208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175700 tensor(5.9471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175800 tensor(5.6871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "175900 tensor(6.5204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176000 tensor(6.2691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176100 tensor(6.4535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176200 tensor(6.4478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176300 tensor(6.1812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176400 tensor(5.8151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176500 tensor(6.1960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176600 tensor(6.3566, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176700 tensor(5.8258, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176800 tensor(6.4467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "176900 tensor(6.2132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177000 tensor(5.9857, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177100 tensor(5.9481, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177200 tensor(6.3317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177300 tensor(6.4705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177400 tensor(6.1834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177500 tensor(6.2040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177600 tensor(6.3166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177700 tensor(6.3577, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177800 tensor(6.1231, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "177900 tensor(6.3524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178000 tensor(5.8326, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178100 tensor(6.2617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178200 tensor(5.6685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178300 tensor(6.2107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178400 tensor(6.2759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178500 tensor(5.9619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178600 tensor(6.3981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178700 tensor(6.2657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178800 tensor(6.3783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "178900 tensor(6.3081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179000 tensor(6.1873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179100 tensor(6.8088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179200 tensor(6.4660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179300 tensor(6.3149, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179400 tensor(6.0836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179500 tensor(6.2814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179600 tensor(6.0564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179700 tensor(6.4916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179800 tensor(6.1543, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "179900 tensor(6.1732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180000 tensor(5.9723, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180100 tensor(6.2523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180200 tensor(6.1320, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180300 tensor(6.4689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180400 tensor(5.8227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180500 tensor(6.2630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180600 tensor(6.0246, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180700 tensor(6.0478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180800 tensor(6.3897, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "180900 tensor(6.2761, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181000 tensor(6.2804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181100 tensor(6.5442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181200 tensor(6.2874, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181300 tensor(6.2928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181400 tensor(6.2970, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181500 tensor(6.1680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181600 tensor(6.2759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181700 tensor(6.2224, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181800 tensor(6.3895, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "181900 tensor(6.0230, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182000 tensor(6.1122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182100 tensor(6.1180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182200 tensor(6.2263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182300 tensor(6.2583, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182400 tensor(6.3621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182500 tensor(5.9619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182600 tensor(6.4951, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182700 tensor(6.2821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182800 tensor(6.1103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "182900 tensor(6.2940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183000 tensor(6.6210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183100 tensor(6.0699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183200 tensor(6.3973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183300 tensor(5.7555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183400 tensor(5.9225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183500 tensor(6.4047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183600 tensor(6.3157, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183700 tensor(6.2964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183800 tensor(5.8814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "183900 tensor(6.3226, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184000 tensor(5.4679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184100 tensor(6.1248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184200 tensor(6.4795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184300 tensor(6.3587, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184400 tensor(6.2817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184500 tensor(6.1476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184600 tensor(6.7228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184700 tensor(6.1588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184800 tensor(6.2997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "184900 tensor(6.1479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185000 tensor(6.1675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185100 tensor(6.3594, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185200 tensor(6.3258, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185300 tensor(6.0511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185400 tensor(6.4825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185500 tensor(6.3925, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185600 tensor(5.9195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185700 tensor(6.3380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185800 tensor(6.2750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "185900 tensor(6.7359, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186000 tensor(6.3046, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186100 tensor(6.1159, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "186200 tensor(6.3534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186300 tensor(6.0138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186400 tensor(6.0890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186500 tensor(6.2881, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186600 tensor(6.0929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186700 tensor(6.0125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186800 tensor(5.6474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "186900 tensor(6.4010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187000 tensor(6.3343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187100 tensor(5.7301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187200 tensor(6.2032, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187300 tensor(6.2289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187400 tensor(6.4082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187500 tensor(6.2096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187600 tensor(6.4854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187700 tensor(6.2997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187800 tensor(6.1159, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "187900 tensor(6.4156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188000 tensor(6.2297, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188100 tensor(6.3707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188200 tensor(5.9686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188300 tensor(6.0648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188400 tensor(6.2548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188500 tensor(6.1654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188600 tensor(6.2289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188700 tensor(6.2574, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188800 tensor(6.3172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "188900 tensor(6.2184, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189000 tensor(6.5165, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189100 tensor(6.3212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189200 tensor(5.9087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189300 tensor(5.8633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189400 tensor(6.2775, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189500 tensor(6.3227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189600 tensor(6.3837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189700 tensor(6.0408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189800 tensor(6.2282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "189900 tensor(6.2927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190000 tensor(6.3005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190100 tensor(6.5155, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190200 tensor(6.1748, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190300 tensor(5.7915, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190400 tensor(6.3353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190500 tensor(6.2413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190600 tensor(6.4090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190700 tensor(6.1685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190800 tensor(6.1681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "190900 tensor(6.2715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191000 tensor(6.4209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191100 tensor(6.4411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191200 tensor(6.2862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191300 tensor(5.9690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191400 tensor(6.0611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191500 tensor(5.7930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191600 tensor(5.8002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191700 tensor(6.3753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191800 tensor(6.2785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "191900 tensor(6.2626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192000 tensor(6.4948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192100 tensor(6.2075, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192200 tensor(6.2429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192300 tensor(6.1674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192400 tensor(6.2806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192500 tensor(6.5380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192600 tensor(6.0803, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192700 tensor(6.3427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192800 tensor(6.0347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "192900 tensor(6.1390, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193000 tensor(6.4840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193100 tensor(6.3633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193200 tensor(6.2253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193300 tensor(6.3549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193400 tensor(6.3460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193500 tensor(5.9630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193600 tensor(6.2499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193700 tensor(6.3009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193800 tensor(5.8676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "193900 tensor(6.2497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194000 tensor(6.0685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194100 tensor(6.1115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194200 tensor(6.1660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194300 tensor(5.6651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194400 tensor(5.9498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194500 tensor(6.3639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194600 tensor(5.8731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194700 tensor(6.0937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194800 tensor(6.4185, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "194900 tensor(6.2391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195000 tensor(6.1977, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195100 tensor(6.2072, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195200 tensor(6.0505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195300 tensor(6.0666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195400 tensor(5.7225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195500 tensor(6.3669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195600 tensor(6.3398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195700 tensor(6.1645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195800 tensor(6.0589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "195900 tensor(6.2687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196000 tensor(6.1922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196100 tensor(6.2057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196200 tensor(6.1419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196300 tensor(6.3729, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196400 tensor(6.2812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196500 tensor(6.0024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196600 tensor(6.3870, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196700 tensor(6.2508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196800 tensor(6.3350, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "196900 tensor(5.9962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197000 tensor(6.4047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197100 tensor(6.4053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197200 tensor(5.9932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197300 tensor(6.4462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197400 tensor(6.4537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197500 tensor(6.1985, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197600 tensor(6.2285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197700 tensor(5.9746, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197800 tensor(6.3627, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "197900 tensor(5.9905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198000 tensor(5.9444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198100 tensor(6.3409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198200 tensor(6.1446, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198300 tensor(6.3286, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198400 tensor(6.4398, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "198500 tensor(6.5452, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198600 tensor(6.1089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198700 tensor(6.4479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198800 tensor(6.3462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "198900 tensor(5.9453, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199000 tensor(6.3335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199100 tensor(6.4890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199200 tensor(6.1730, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199300 tensor(6.2879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199400 tensor(6.0476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199500 tensor(6.1549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199600 tensor(6.4688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199700 tensor(6.2297, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199800 tensor(6.4936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "199900 tensor(6.4739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200000 tensor(6.2457, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200100 tensor(6.0154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200200 tensor(6.0962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200300 tensor(6.4429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200400 tensor(6.3050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200500 tensor(6.3471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200600 tensor(6.4422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200700 tensor(6.0893, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200800 tensor(6.4691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "200900 tensor(6.5127, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201000 tensor(6.0498, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201100 tensor(6.4343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201200 tensor(6.7520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201300 tensor(6.3752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201400 tensor(6.2391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201500 tensor(6.3647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201600 tensor(5.6603, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201700 tensor(6.1209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201800 tensor(6.3297, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "201900 tensor(6.3605, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202000 tensor(6.1686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202100 tensor(6.3533, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202200 tensor(6.2875, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202300 tensor(6.6533, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202400 tensor(6.2482, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202500 tensor(6.4789, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202600 tensor(6.2016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202700 tensor(6.2338, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202800 tensor(6.2872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "202900 tensor(6.1065, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203000 tensor(6.4077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203100 tensor(5.9212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203200 tensor(5.9851, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203300 tensor(6.3276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203400 tensor(6.2920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203500 tensor(6.1845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203600 tensor(6.1408, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203700 tensor(6.0589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203800 tensor(6.4621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "203900 tensor(6.0378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204000 tensor(5.6533, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204100 tensor(5.9323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204200 tensor(6.3041, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204300 tensor(6.3849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204400 tensor(6.1515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204500 tensor(6.7930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204600 tensor(5.9025, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204700 tensor(6.0259, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204800 tensor(6.3013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "204900 tensor(6.4514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205000 tensor(6.3252, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205100 tensor(6.2335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205200 tensor(6.1989, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205300 tensor(6.4334, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205400 tensor(6.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205500 tensor(5.9396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205600 tensor(6.2119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205700 tensor(6.2683, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205800 tensor(6.3810, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "205900 tensor(6.4856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206000 tensor(5.9640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206100 tensor(6.2160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206200 tensor(6.3981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206300 tensor(6.1862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206400 tensor(6.2911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206500 tensor(5.9082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206600 tensor(5.7706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206700 tensor(6.1248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206800 tensor(6.1461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "206900 tensor(6.1206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207000 tensor(6.3212, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207100 tensor(6.2621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207200 tensor(5.8658, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207300 tensor(6.2654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207400 tensor(6.2732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207500 tensor(6.0688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207600 tensor(6.2450, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207700 tensor(5.9379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207800 tensor(6.0713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "207900 tensor(6.5266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208000 tensor(6.4104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208100 tensor(6.1244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208200 tensor(6.3007, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208300 tensor(6.3414, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208400 tensor(6.6361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208500 tensor(6.3633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208600 tensor(6.3104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208700 tensor(6.3589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208800 tensor(6.3015, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "208900 tensor(6.4318, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209000 tensor(6.2347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209100 tensor(6.2905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209200 tensor(6.2379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209300 tensor(6.4833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209400 tensor(6.1210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209500 tensor(6.3428, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209600 tensor(6.5130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209700 tensor(6.3444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209800 tensor(6.2653, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "209900 tensor(6.2726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210000 tensor(6.2480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210100 tensor(5.8864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210200 tensor(6.4154, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210300 tensor(6.3754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210400 tensor(6.3736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210500 tensor(6.0709, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210600 tensor(6.4558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210700 tensor(6.2008, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "210800 tensor(6.4275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "210900 tensor(6.1214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211000 tensor(6.0207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211100 tensor(6.1209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211200 tensor(6.2109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211300 tensor(6.0009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211400 tensor(6.2715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211500 tensor(6.4340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211600 tensor(6.4781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211700 tensor(6.2207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211800 tensor(6.2370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "211900 tensor(5.9837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "212000 tensor(6.2359, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
      "212100 tensor(6.4122, device='cuda:0', grad_fn=<NllLossBackward0>)\n"
     ]
    }
   ],
   "source": [
    "step = 0\n",
    "\n",
    "for epoch in range(2):\n",
    "    model.train()\n",
    "    for x, y in data:\n",
    "        x = x.to(device)\n",
    "        y = y.to(device)\n",
    "        optimizer.zero_grad()\n",
    "        outputs = model(x)\n",
    "        loss = criterion(torch.log(outputs), y)\n",
    "        if step % 100 == 0:\n",
    "            print(step, loss)\n",
    "        step += 1\n",
    "        loss.backward()\n",
    "        optimizer.step()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "ec906796",
   "metadata": {},
   "outputs": [],
   "source": [
    "torch.save(model.state_dict(), 'model/model1.bin')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "id": "alpha-leonard",
   "metadata": {},
   "outputs": [],
   "source": [
    "device = 'cuda'\n",
    "model = SimpleTrigramNeuralLanguageModel(vocab_size, embed_size, hidden_size).to(device)\n",
    "model.load_state_dict(torch.load('model/model1.bin'))\n",
    "model.eval()\n",
    "\n",
    "def predict(words):\n",
    "    ixs = torch.tensor(train_dataset.vocab.forward(['with'])).to(device)\n",
    "    predictions = model(ixs)\n",
    "    top = torch.topk(out[0], 30)\n",
    "    top_indices = top.indices.tolist()\n",
    "    top_probs = top.values.tolist()\n",
    "    top_words = train_dataset.vocab.lookup_tokens(top_indices)\n",
    "    top_preds = list(zip(top_words, top_indices, top_probs))\n",
    "    \n",
    "    total_prob = 0.0\n",
    "    pred_str = ''\n",
    "    for word, _, prob in top_preds:\n",
    "        if word != '<unk>':\n",
    "            pred_str += f'{word}:{prob} '\n",
    "            total_prob += prob\n",
    "    pred_str += f':{1 - total_prob}'\n",
    "    \n",
    "    return pred_str"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "id": "43ba8f83",
   "metadata": {},
   "outputs": [],
   "source": [
    "dev_data = pd.read_csv('dev-0/in.tsv.xz', sep='\\t', error_bad_lines=False, warn_bad_lines=False, header=None, quoting=csv.QUOTE_NONE)\n",
    "test_data = pd.read_csv('test-A/in.tsv.xz', sep='\\t', error_bad_lines=False, warn_bad_lines=False, header=None, quoting=csv.QUOTE_NONE)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "id": "358a3d52",
   "metadata": {},
   "outputs": [],
   "source": [
    "from nltk import word_tokenize\n",
    "\n",
    "with open('dev-0/out.tsv', 'w') as file:\n",
    "    for index, row in dev_data.iterrows():\n",
    "        left_text = clean_text(str(row[6]))\n",
    "        left_words = word_tokenize(left_text)\n",
    "        if len(left_words) < 3:\n",
    "            prediction = ':1.0'\n",
    "        else:\n",
    "            prediction = predict(left_words[-2:])\n",
    "        file.write(prediction + '\\n')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "id": "abc35d78",
   "metadata": {},
   "outputs": [],
   "source": [
    "with open('test-A/out.tsv', 'w') as file:\n",
    "    for index, row in test_data.iterrows():\n",
    "        left_text = clean_text(str(row[6]))\n",
    "        left_words = word_tokenize(left_text)\n",
    "        if len(left_words) < 3:\n",
    "            prediction = ':1.0'\n",
    "        else:\n",
    "            prediction = predict(left_words[-2:])\n",
    "        file.write(prediction + '\\n')"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}