diff --git a/Zad_7.ipynb b/Zad_7.ipynb
new file mode 100644
index 0000000..04dcc57
--- /dev/null
+++ b/Zad_7.ipynb
@@ -0,0 +1,4995 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": [],
+      "toc_visible": true
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "accelerator": "GPU",
+    "gpuClass": "standard"
+  },
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## connect to google drive (working on colab)"
+      ],
+      "metadata": {
+        "id": "G0ujnpy2tuBE"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from google.colab import drive\n",
+        "drive.mount('/content/drive')"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "Lwuh_S5pWY1j",
+        "outputId": "27838dab-7be0-4447-883a-95559887c7c8"
+      },
+      "execution_count": 1,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "Mounted at /content/drive\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "QNiUKMiqWLd0"
+      },
+      "outputs": [],
+      "source": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!mkdir moj7\n"
+      ],
+      "metadata": {
+        "id": "vlnrhRaEWNJF"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "%cd drive"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "539oWG3pXOAX",
+        "outputId": "a9ae634d-d4a2-47dd-97d2-10c245c7c5d2"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "/content/drive\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "%cd MyDrive"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "wgmiKs4BiAiT",
+        "outputId": "fbbd0bc7-76bd-47bf-e38b-e051239e5ba7"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "/content/drive/MyDrive\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "%cd moj7"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "jNdkji_hiAlt",
+        "outputId": "962b875a-8d3f-433d-8d7b-dcd664ee1674"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "/content/drive/MyDrive/moj7\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "P249ENeSiAqn"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!pwd"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "IOHV3Iz4WNLc",
+        "outputId": "f56a6ab7-73e6-4b03-824b-b5e749c8a82e"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "/content/drive/MyDrive/moj7\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "2pLkeHY5Z9oT"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## Preprocess"
+      ],
+      "metadata": {
+        "id": "D7jhQfbttn9D"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "import re"
+      ],
+      "metadata": {
+        "id": "_IPWOt2BZ_-q"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "train_file ='train/in.tsv.xz'\n",
+        "test_file = 'test-A/in.tsv.xz'\n",
+        "out_file = 'test-A/out.tsv'\n",
+        "\n",
+        "def preprocess(line):\n",
+        "    line = replace_endline(line)\n",
+        "    line = get_rid_of_header(line)\n",
+        "    return line\n",
+        "\n",
+        "def get_rid_of_header(line):\n",
+        "    line = line.split('\\t')[6:]\n",
+        "    return \"\".join(line)\n",
+        "    \n",
+        "def replace_endline(line):\n",
+        "    line = re.sub(\"\\\\n|\\\\+\", \" \", line)\n",
+        "    return line"
+      ],
+      "metadata": {
+        "id": "qDnZdPblWNNr"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from itertools import islice\n",
+        "import regex as re\n",
+        "import sys\n",
+        "from torchtext.vocab import build_vocab_from_iterator\n",
+        "import lzma\n",
+        "import pickle\n",
+        "\n",
+        "\n",
+        "\n",
+        "def get_words_from_line(line):\n",
+        "    line = line.rstrip()\n",
+        "    yield '<s>'\n",
+        "    line = preprocess(line)\n",
+        "    for t in line.split(' '):\n",
+        "        yield t\n",
+        "    yield '</s>'\n",
+        "\n",
+        "\n",
+        "def get_word_lines_from_file(file_name):\n",
+        "    n = 0\n",
+        "    with lzma.open(file_name, 'r') as fh:\n",
+        "        for line in fh:\n",
+        "            n+=1\n",
+        "            if n%1000==0:\n",
+        "                print(n)\n",
+        "            yield get_words_from_line(line.decode('utf-8'))\n",
+        "#vocab_size = 20000\n",
+        "vocab_size = 20000\n",
+        "\n",
+        "vocab = build_vocab_from_iterator(\n",
+        "    get_word_lines_from_file(train_file),\n",
+        "    max_tokens = vocab_size,\n",
+        "    specials = ['<unk>'])\n",
+        "\n"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "RVN0lKVZfwMe",
+        "outputId": "305b03e4-f626-4560-a371-41bc5a0ea9c7"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "1000\n",
+            "2000\n",
+            "3000\n",
+            "4000\n",
+            "5000\n",
+            "6000\n",
+            "7000\n",
+            "8000\n",
+            "9000\n",
+            "10000\n",
+            "11000\n",
+            "12000\n",
+            "13000\n",
+            "14000\n",
+            "15000\n",
+            "16000\n",
+            "17000\n",
+            "18000\n",
+            "19000\n",
+            "20000\n",
+            "21000\n",
+            "22000\n",
+            "23000\n",
+            "24000\n",
+            "25000\n",
+            "26000\n",
+            "27000\n",
+            "28000\n",
+            "29000\n",
+            "30000\n",
+            "31000\n",
+            "32000\n",
+            "33000\n",
+            "34000\n",
+            "35000\n",
+            "36000\n",
+            "37000\n",
+            "38000\n",
+            "39000\n",
+            "40000\n",
+            "41000\n",
+            "42000\n",
+            "43000\n",
+            "44000\n",
+            "45000\n",
+            "46000\n",
+            "47000\n",
+            "48000\n",
+            "49000\n",
+            "50000\n",
+            "51000\n",
+            "52000\n",
+            "53000\n",
+            "54000\n",
+            "55000\n",
+            "56000\n",
+            "57000\n",
+            "58000\n",
+            "59000\n",
+            "60000\n",
+            "61000\n",
+            "62000\n",
+            "63000\n",
+            "64000\n",
+            "65000\n",
+            "66000\n",
+            "67000\n",
+            "68000\n",
+            "69000\n",
+            "70000\n",
+            "71000\n",
+            "72000\n",
+            "73000\n",
+            "74000\n",
+            "75000\n",
+            "76000\n",
+            "77000\n",
+            "78000\n",
+            "79000\n",
+            "80000\n",
+            "81000\n",
+            "82000\n",
+            "83000\n",
+            "84000\n",
+            "85000\n",
+            "86000\n",
+            "87000\n",
+            "88000\n",
+            "89000\n",
+            "90000\n",
+            "91000\n",
+            "92000\n",
+            "93000\n",
+            "94000\n",
+            "95000\n",
+            "96000\n",
+            "97000\n",
+            "98000\n",
+            "99000\n",
+            "100000\n",
+            "101000\n",
+            "102000\n",
+            "103000\n",
+            "104000\n",
+            "105000\n",
+            "106000\n",
+            "107000\n",
+            "108000\n",
+            "109000\n",
+            "110000\n",
+            "111000\n",
+            "112000\n",
+            "113000\n",
+            "114000\n",
+            "115000\n",
+            "116000\n",
+            "117000\n",
+            "118000\n",
+            "119000\n",
+            "120000\n",
+            "121000\n",
+            "122000\n",
+            "123000\n",
+            "124000\n",
+            "125000\n",
+            "126000\n",
+            "127000\n",
+            "128000\n",
+            "129000\n",
+            "130000\n",
+            "131000\n",
+            "132000\n",
+            "133000\n",
+            "134000\n",
+            "135000\n",
+            "136000\n",
+            "137000\n",
+            "138000\n",
+            "139000\n",
+            "140000\n",
+            "141000\n",
+            "142000\n",
+            "143000\n",
+            "144000\n",
+            "145000\n",
+            "146000\n",
+            "147000\n",
+            "148000\n",
+            "149000\n",
+            "150000\n",
+            "151000\n",
+            "152000\n",
+            "153000\n",
+            "154000\n",
+            "155000\n",
+            "156000\n",
+            "157000\n",
+            "158000\n",
+            "159000\n",
+            "160000\n",
+            "161000\n",
+            "162000\n",
+            "163000\n",
+            "164000\n",
+            "165000\n",
+            "166000\n",
+            "167000\n",
+            "168000\n",
+            "169000\n",
+            "170000\n",
+            "171000\n",
+            "172000\n",
+            "173000\n",
+            "174000\n",
+            "175000\n",
+            "176000\n",
+            "177000\n",
+            "178000\n",
+            "179000\n",
+            "180000\n",
+            "181000\n",
+            "182000\n",
+            "183000\n",
+            "184000\n",
+            "185000\n",
+            "186000\n",
+            "187000\n",
+            "188000\n",
+            "189000\n",
+            "190000\n",
+            "191000\n",
+            "192000\n",
+            "193000\n",
+            "194000\n",
+            "195000\n",
+            "196000\n",
+            "197000\n",
+            "198000\n",
+            "199000\n",
+            "200000\n",
+            "201000\n",
+            "202000\n",
+            "203000\n",
+            "204000\n",
+            "205000\n",
+            "206000\n",
+            "207000\n",
+            "208000\n",
+            "209000\n",
+            "210000\n",
+            "211000\n",
+            "212000\n",
+            "213000\n",
+            "214000\n",
+            "215000\n",
+            "216000\n",
+            "217000\n",
+            "218000\n",
+            "219000\n",
+            "220000\n",
+            "221000\n",
+            "222000\n",
+            "223000\n",
+            "224000\n",
+            "225000\n",
+            "226000\n",
+            "227000\n",
+            "228000\n",
+            "229000\n",
+            "230000\n",
+            "231000\n",
+            "232000\n",
+            "233000\n",
+            "234000\n",
+            "235000\n",
+            "236000\n",
+            "237000\n",
+            "238000\n",
+            "239000\n",
+            "240000\n",
+            "241000\n",
+            "242000\n",
+            "243000\n",
+            "244000\n",
+            "245000\n",
+            "246000\n",
+            "247000\n",
+            "248000\n",
+            "249000\n",
+            "250000\n",
+            "251000\n",
+            "252000\n",
+            "253000\n",
+            "254000\n",
+            "255000\n",
+            "256000\n",
+            "257000\n",
+            "258000\n",
+            "259000\n",
+            "260000\n",
+            "261000\n",
+            "262000\n",
+            "263000\n",
+            "264000\n",
+            "265000\n",
+            "266000\n",
+            "267000\n",
+            "268000\n",
+            "269000\n",
+            "270000\n",
+            "271000\n",
+            "272000\n",
+            "273000\n",
+            "274000\n",
+            "275000\n",
+            "276000\n",
+            "277000\n",
+            "278000\n",
+            "279000\n",
+            "280000\n",
+            "281000\n",
+            "282000\n",
+            "283000\n",
+            "284000\n",
+            "285000\n",
+            "286000\n",
+            "287000\n",
+            "288000\n",
+            "289000\n",
+            "290000\n",
+            "291000\n",
+            "292000\n",
+            "293000\n",
+            "294000\n",
+            "295000\n",
+            "296000\n",
+            "297000\n",
+            "298000\n",
+            "299000\n",
+            "300000\n",
+            "301000\n",
+            "302000\n",
+            "303000\n",
+            "304000\n",
+            "305000\n",
+            "306000\n",
+            "307000\n",
+            "308000\n",
+            "309000\n",
+            "310000\n",
+            "311000\n",
+            "312000\n",
+            "313000\n",
+            "314000\n",
+            "315000\n",
+            "316000\n",
+            "317000\n",
+            "318000\n",
+            "319000\n",
+            "320000\n",
+            "321000\n",
+            "322000\n",
+            "323000\n",
+            "324000\n",
+            "325000\n",
+            "326000\n",
+            "327000\n",
+            "328000\n",
+            "329000\n",
+            "330000\n",
+            "331000\n",
+            "332000\n",
+            "333000\n",
+            "334000\n",
+            "335000\n",
+            "336000\n",
+            "337000\n",
+            "338000\n",
+            "339000\n",
+            "340000\n",
+            "341000\n",
+            "342000\n",
+            "343000\n",
+            "344000\n",
+            "345000\n",
+            "346000\n",
+            "347000\n",
+            "348000\n",
+            "349000\n",
+            "350000\n",
+            "351000\n",
+            "352000\n",
+            "353000\n",
+            "354000\n",
+            "355000\n",
+            "356000\n",
+            "357000\n",
+            "358000\n",
+            "359000\n",
+            "360000\n",
+            "361000\n",
+            "362000\n",
+            "363000\n",
+            "364000\n",
+            "365000\n",
+            "366000\n",
+            "367000\n",
+            "368000\n",
+            "369000\n",
+            "370000\n",
+            "371000\n",
+            "372000\n",
+            "373000\n",
+            "374000\n",
+            "375000\n",
+            "376000\n",
+            "377000\n",
+            "378000\n",
+            "379000\n",
+            "380000\n",
+            "381000\n",
+            "382000\n",
+            "383000\n",
+            "384000\n",
+            "385000\n",
+            "386000\n",
+            "387000\n",
+            "388000\n",
+            "389000\n",
+            "390000\n",
+            "391000\n",
+            "392000\n",
+            "393000\n",
+            "394000\n",
+            "395000\n",
+            "396000\n",
+            "397000\n",
+            "398000\n",
+            "399000\n",
+            "400000\n",
+            "401000\n",
+            "402000\n",
+            "403000\n",
+            "404000\n",
+            "405000\n",
+            "406000\n",
+            "407000\n",
+            "408000\n",
+            "409000\n",
+            "410000\n",
+            "411000\n",
+            "412000\n",
+            "413000\n",
+            "414000\n",
+            "415000\n",
+            "416000\n",
+            "417000\n",
+            "418000\n",
+            "419000\n",
+            "420000\n",
+            "421000\n",
+            "422000\n",
+            "423000\n",
+            "424000\n",
+            "425000\n",
+            "426000\n",
+            "427000\n",
+            "428000\n",
+            "429000\n",
+            "430000\n",
+            "431000\n",
+            "432000\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "vocab['no']"
+      ],
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "b9vMOTlZxISl",
+        "outputId": "a3a71b17-3fb2-4794-ae5d-a43d9af49b69"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "50"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 19
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "with open('filename.pickle', 'wb') as handle:\n",
+        "    pickle.dump(vocab, handle, protocol=pickle.HIGHEST_PROTOCOL)"
+      ],
+      "metadata": {
+        "id": "6R9l6tuPxB_B"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## Create NN"
+      ],
+      "metadata": {
+        "id": "Be25rS6Uvl4V"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from torch import nn\n",
+        "import torch\n",
+        "import pickle\n",
+        "# embed_size = 150\n",
+        "embed_size = 150\n",
+        "\n",
+        "class Bigram(nn.Module):\n",
+        "  def __init__(self, vocabulary_size, embedding_size):\n",
+        "      super(Bigram, self).__init__()\n",
+        "      self.model = nn.Sequential(\n",
+        "          nn.Embedding(vocabulary_size, embedding_size),\n",
+        "          nn.Linear(embedding_size, vocabulary_size),\n",
+        "          nn.Softmax()\n",
+        "      )\n",
+        "  def forward(self, x):\n",
+        "      return self.model(x)\n",
+        "\n",
+        "model = Bigram(vocab_size, embed_size)\n",
+        "\n",
+        "vocab.set_default_index(vocab['<unk>'])\n",
+        "res = torch.tensor(vocab.forward(['order']))\n",
+        "print(res)\n"
+      ],
+      "metadata": {
+        "id": "dGTOmcHwWNSi",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "88c30492-7a9a-4b96-9119-ecdf5865bb51"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "tensor([215])\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [],
+      "metadata": {
+        "id": "mWZ_jw-hxNXk"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from torch.utils.data import IterableDataset\n",
+        "import itertools\n",
+        "\n",
+        "def look_ahead_iterator(gen):\n",
+        "    prev = None\n",
+        "    for item in gen:\n",
+        "        if prev is not None:\n",
+        "            yield (prev, item)\n",
+        "        prev = item\n",
+        "\n",
+        "class Bigrams(IterableDataset):\n",
+        "  def __init__(self, text_file, vocabulary_size):\n",
+        "      self.vocab = build_vocab_from_iterator(\n",
+        "         get_word_lines_from_file(text_file),\n",
+        "         max_tokens = vocabulary_size,\n",
+        "         specials = ['<unk>'])\n",
+        "      self.vocab.set_default_index(self.vocab['<unk>'])\n",
+        "      self.vocabulary_size = vocabulary_size\n",
+        "      self.text_file = text_file\n",
+        "\n",
+        "  def __iter__(self):\n",
+        "     return look_ahead_iterator(\n",
+        "         (self.vocab[t] for t in itertools.chain.from_iterable(get_word_lines_from_file(self.text_file))))\n",
+        "\n",
+        "\n",
+        "train_dataset = Bigrams(train_file, vocab_size)"
+      ],
+      "metadata": {
+        "id": "5CSigeomWNVT",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "4fb3b1ff-f91b-4799-fc5f-17bae10b94ec"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "1000\n",
+            "2000\n",
+            "3000\n",
+            "4000\n",
+            "5000\n",
+            "6000\n",
+            "7000\n",
+            "8000\n",
+            "9000\n",
+            "10000\n",
+            "11000\n",
+            "12000\n",
+            "13000\n",
+            "14000\n",
+            "15000\n",
+            "16000\n",
+            "17000\n",
+            "18000\n",
+            "19000\n",
+            "20000\n",
+            "21000\n",
+            "22000\n",
+            "23000\n",
+            "24000\n",
+            "25000\n",
+            "26000\n",
+            "27000\n",
+            "28000\n",
+            "29000\n",
+            "30000\n",
+            "31000\n",
+            "32000\n",
+            "33000\n",
+            "34000\n",
+            "35000\n",
+            "36000\n",
+            "37000\n",
+            "38000\n",
+            "39000\n",
+            "40000\n",
+            "41000\n",
+            "42000\n",
+            "43000\n",
+            "44000\n",
+            "45000\n",
+            "46000\n",
+            "47000\n",
+            "48000\n",
+            "49000\n",
+            "50000\n",
+            "51000\n",
+            "52000\n",
+            "53000\n",
+            "54000\n",
+            "55000\n",
+            "56000\n",
+            "57000\n",
+            "58000\n",
+            "59000\n",
+            "60000\n",
+            "61000\n",
+            "62000\n",
+            "63000\n",
+            "64000\n",
+            "65000\n",
+            "66000\n",
+            "67000\n",
+            "68000\n",
+            "69000\n",
+            "70000\n",
+            "71000\n",
+            "72000\n",
+            "73000\n",
+            "74000\n",
+            "75000\n",
+            "76000\n",
+            "77000\n",
+            "78000\n",
+            "79000\n",
+            "80000\n",
+            "81000\n",
+            "82000\n",
+            "83000\n",
+            "84000\n",
+            "85000\n",
+            "86000\n",
+            "87000\n",
+            "88000\n",
+            "89000\n",
+            "90000\n",
+            "91000\n",
+            "92000\n",
+            "93000\n",
+            "94000\n",
+            "95000\n",
+            "96000\n",
+            "97000\n",
+            "98000\n",
+            "99000\n",
+            "100000\n",
+            "101000\n",
+            "102000\n",
+            "103000\n",
+            "104000\n",
+            "105000\n",
+            "106000\n",
+            "107000\n",
+            "108000\n",
+            "109000\n",
+            "110000\n",
+            "111000\n",
+            "112000\n",
+            "113000\n",
+            "114000\n",
+            "115000\n",
+            "116000\n",
+            "117000\n",
+            "118000\n",
+            "119000\n",
+            "120000\n",
+            "121000\n",
+            "122000\n",
+            "123000\n",
+            "124000\n",
+            "125000\n",
+            "126000\n",
+            "127000\n",
+            "128000\n",
+            "129000\n",
+            "130000\n",
+            "131000\n",
+            "132000\n",
+            "133000\n",
+            "134000\n",
+            "135000\n",
+            "136000\n",
+            "137000\n",
+            "138000\n",
+            "139000\n",
+            "140000\n",
+            "141000\n",
+            "142000\n",
+            "143000\n",
+            "144000\n",
+            "145000\n",
+            "146000\n",
+            "147000\n",
+            "148000\n",
+            "149000\n",
+            "150000\n",
+            "151000\n",
+            "152000\n",
+            "153000\n",
+            "154000\n",
+            "155000\n",
+            "156000\n",
+            "157000\n",
+            "158000\n",
+            "159000\n",
+            "160000\n",
+            "161000\n",
+            "162000\n",
+            "163000\n",
+            "164000\n",
+            "165000\n",
+            "166000\n",
+            "167000\n",
+            "168000\n",
+            "169000\n",
+            "170000\n",
+            "171000\n",
+            "172000\n",
+            "173000\n",
+            "174000\n",
+            "175000\n",
+            "176000\n",
+            "177000\n",
+            "178000\n",
+            "179000\n",
+            "180000\n",
+            "181000\n",
+            "182000\n",
+            "183000\n",
+            "184000\n",
+            "185000\n",
+            "186000\n",
+            "187000\n",
+            "188000\n",
+            "189000\n",
+            "190000\n",
+            "191000\n",
+            "192000\n",
+            "193000\n",
+            "194000\n",
+            "195000\n",
+            "196000\n",
+            "197000\n",
+            "198000\n",
+            "199000\n",
+            "200000\n",
+            "201000\n",
+            "202000\n",
+            "203000\n",
+            "204000\n",
+            "205000\n",
+            "206000\n",
+            "207000\n",
+            "208000\n",
+            "209000\n",
+            "210000\n",
+            "211000\n",
+            "212000\n",
+            "213000\n",
+            "214000\n",
+            "215000\n",
+            "216000\n",
+            "217000\n",
+            "218000\n",
+            "219000\n",
+            "220000\n",
+            "221000\n",
+            "222000\n",
+            "223000\n",
+            "224000\n",
+            "225000\n",
+            "226000\n",
+            "227000\n",
+            "228000\n",
+            "229000\n",
+            "230000\n",
+            "231000\n",
+            "232000\n",
+            "233000\n",
+            "234000\n",
+            "235000\n",
+            "236000\n",
+            "237000\n",
+            "238000\n",
+            "239000\n",
+            "240000\n",
+            "241000\n",
+            "242000\n",
+            "243000\n",
+            "244000\n",
+            "245000\n",
+            "246000\n",
+            "247000\n",
+            "248000\n",
+            "249000\n",
+            "250000\n",
+            "251000\n",
+            "252000\n",
+            "253000\n",
+            "254000\n",
+            "255000\n",
+            "256000\n",
+            "257000\n",
+            "258000\n",
+            "259000\n",
+            "260000\n",
+            "261000\n",
+            "262000\n",
+            "263000\n",
+            "264000\n",
+            "265000\n",
+            "266000\n",
+            "267000\n",
+            "268000\n",
+            "269000\n",
+            "270000\n",
+            "271000\n",
+            "272000\n",
+            "273000\n",
+            "274000\n",
+            "275000\n",
+            "276000\n",
+            "277000\n",
+            "278000\n",
+            "279000\n",
+            "280000\n",
+            "281000\n",
+            "282000\n",
+            "283000\n",
+            "284000\n",
+            "285000\n",
+            "286000\n",
+            "287000\n",
+            "288000\n",
+            "289000\n",
+            "290000\n",
+            "291000\n",
+            "292000\n",
+            "293000\n",
+            "294000\n",
+            "295000\n",
+            "296000\n",
+            "297000\n",
+            "298000\n",
+            "299000\n",
+            "300000\n",
+            "301000\n",
+            "302000\n",
+            "303000\n",
+            "304000\n",
+            "305000\n",
+            "306000\n",
+            "307000\n",
+            "308000\n",
+            "309000\n",
+            "310000\n",
+            "311000\n",
+            "312000\n",
+            "313000\n",
+            "314000\n",
+            "315000\n",
+            "316000\n",
+            "317000\n",
+            "318000\n",
+            "319000\n",
+            "320000\n",
+            "321000\n",
+            "322000\n",
+            "323000\n",
+            "324000\n",
+            "325000\n",
+            "326000\n",
+            "327000\n",
+            "328000\n",
+            "329000\n",
+            "330000\n",
+            "331000\n",
+            "332000\n",
+            "333000\n",
+            "334000\n",
+            "335000\n",
+            "336000\n",
+            "337000\n",
+            "338000\n",
+            "339000\n",
+            "340000\n",
+            "341000\n",
+            "342000\n",
+            "343000\n",
+            "344000\n",
+            "345000\n",
+            "346000\n",
+            "347000\n",
+            "348000\n",
+            "349000\n",
+            "350000\n",
+            "351000\n",
+            "352000\n",
+            "353000\n",
+            "354000\n",
+            "355000\n",
+            "356000\n",
+            "357000\n",
+            "358000\n",
+            "359000\n",
+            "360000\n",
+            "361000\n",
+            "362000\n",
+            "363000\n",
+            "364000\n",
+            "365000\n",
+            "366000\n",
+            "367000\n",
+            "368000\n",
+            "369000\n",
+            "370000\n",
+            "371000\n",
+            "372000\n",
+            "373000\n",
+            "374000\n",
+            "375000\n",
+            "376000\n",
+            "377000\n",
+            "378000\n",
+            "379000\n",
+            "380000\n",
+            "381000\n",
+            "382000\n",
+            "383000\n",
+            "384000\n",
+            "385000\n",
+            "386000\n",
+            "387000\n",
+            "388000\n",
+            "389000\n",
+            "390000\n",
+            "391000\n",
+            "392000\n",
+            "393000\n",
+            "394000\n",
+            "395000\n",
+            "396000\n",
+            "397000\n",
+            "398000\n",
+            "399000\n",
+            "400000\n",
+            "401000\n",
+            "402000\n",
+            "403000\n",
+            "404000\n",
+            "405000\n",
+            "406000\n",
+            "407000\n",
+            "408000\n",
+            "409000\n",
+            "410000\n",
+            "411000\n",
+            "412000\n",
+            "413000\n",
+            "414000\n",
+            "415000\n",
+            "416000\n",
+            "417000\n",
+            "418000\n",
+            "419000\n",
+            "420000\n",
+            "421000\n",
+            "422000\n",
+            "423000\n",
+            "424000\n",
+            "425000\n",
+            "426000\n",
+            "427000\n",
+            "428000\n",
+            "429000\n",
+            "430000\n",
+            "431000\n",
+            "432000\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "from torch.utils.data import DataLoader\n",
+        "\n",
+        "next(iter(DataLoader(train_dataset, batch_size=5)))"
+      ],
+      "metadata": {
+        "id": "oYAZ772rWNX7",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "da3a811a-36cf-4d34-82d8-b1ce2447c232"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[tensor([  23,  191, 5791,    1,  112]),\n",
+              " tensor([ 191, 5791,    1,  112,  159])]"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 23
+        }
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## Train"
+      ],
+      "metadata": {
+        "id": "1H_dI372vrNh"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')"
+      ],
+      "metadata": {
+        "id": "N2u4Qmadgtdn"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "\n",
+        "model = Bigram(vocab_size, embed_size).to(device)\n",
+        "data = DataLoader(train_dataset, batch_size=1000)\n",
+        "optimizer = torch.optim.Adam(model.parameters())\n",
+        "criterion = torch.nn.NLLLoss()\n",
+        "## epochs=2\n",
+        "for i in range(2):\n",
+        "    print('epoch: =', i)\n",
+        "    model.train()\n",
+        "    step = 0\n",
+        "    for x, y in data:\n",
+        "       x = x.to(device)\n",
+        "       y = y.to(device)\n",
+        "       optimizer.zero_grad()\n",
+        "       ypredicted = model(x)\n",
+        "       loss = criterion(torch.log(ypredicted), y)\n",
+        "       if step % 100 == 0:\n",
+        "          print(step, loss)\n",
+        "       step += 1\n",
+        "       loss.backward()\n",
+        "       optimizer.step()\n",
+        "    torch.save(model.state_dict(), 'model.bin')    \n"
+      ],
+      "metadata": {
+        "id": "OGk2tjbvWNag",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "868503a1-2849-40ff-e703-886fba094927"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "metadata": {
+            "tags": null
+          },
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "epoch: = 0\n"
+          ]
+        },
+        {
+          "metadata": {
+            "tags": null
+          },
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/container.py:217: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.\n",
+            "  input = module(input)\n"
+          ]
+        },
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "0 tensor(10.3037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100 tensor(8.7506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "200 tensor(7.8141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1000\n",
+            "300 tensor(7.4218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "400 tensor(7.1627, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "500 tensor(6.7964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2000\n",
+            "600 tensor(6.4704, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "700 tensor(6.3798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "800 tensor(6.2849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3000\n",
+            "900 tensor(6.3975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1000 tensor(6.0096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1100 tensor(5.7434, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4000\n",
+            "1200 tensor(5.9602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1300 tensor(6.1623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1400 tensor(6.1647, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5000\n",
+            "1500 tensor(6.1010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1600 tensor(6.0634, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6000\n",
+            "1700 tensor(5.9149, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1800 tensor(5.7918, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1900 tensor(5.6739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7000\n",
+            "2000 tensor(5.5298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2100 tensor(5.8011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2200 tensor(5.4338, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8000\n",
+            "2300 tensor(5.7522, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2400 tensor(5.0313, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2500 tensor(5.7116, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9000\n",
+            "2600 tensor(5.2706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2700 tensor(5.6324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2800 tensor(5.0710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10000\n",
+            "2900 tensor(5.5921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3000 tensor(5.4808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11000\n",
+            "3100 tensor(5.3611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3200 tensor(5.6228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3300 tensor(5.4286, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12000\n",
+            "3400 tensor(5.3550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3500 tensor(5.4032, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3600 tensor(5.1070, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13000\n",
+            "3700 tensor(5.4506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3800 tensor(5.4622, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3900 tensor(5.4984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14000\n",
+            "4000 tensor(5.1740, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4100 tensor(5.6064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4200 tensor(5.0705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15000\n",
+            "4300 tensor(5.5181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4400 tensor(5.2919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16000\n",
+            "4500 tensor(5.5021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4600 tensor(5.5308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4700 tensor(5.4699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17000\n",
+            "4800 tensor(5.2686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4900 tensor(5.4776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5000 tensor(5.5061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18000\n",
+            "5100 tensor(5.3180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5200 tensor(5.5524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5300 tensor(5.3481, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19000\n",
+            "5400 tensor(5.2153, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5500 tensor(5.4478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20000\n",
+            "5600 tensor(5.3441, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5700 tensor(5.3958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5800 tensor(5.8945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21000\n",
+            "5900 tensor(5.5684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6000 tensor(5.5715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6100 tensor(5.2367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22000\n",
+            "6200 tensor(5.6976, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6300 tensor(5.5367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6400 tensor(5.3024, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23000\n",
+            "6500 tensor(5.3010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6600 tensor(6.0962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6700 tensor(5.0961, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24000\n",
+            "6800 tensor(5.1091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6900 tensor(5.4123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25000\n",
+            "7000 tensor(5.3128, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7100 tensor(5.3416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7200 tensor(5.4973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26000\n",
+            "7300 tensor(5.4418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7400 tensor(5.2171, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7500 tensor(5.6509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27000\n",
+            "7600 tensor(5.0550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7700 tensor(5.4937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7800 tensor(5.9218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28000\n",
+            "7900 tensor(5.2853, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8000 tensor(5.3146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8100 tensor(4.8552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29000\n",
+            "8200 tensor(5.3389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8300 tensor(5.2421, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30000\n",
+            "8400 tensor(5.2460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8500 tensor(5.0331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8600 tensor(5.0050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31000\n",
+            "8700 tensor(5.3844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8800 tensor(5.4491, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8900 tensor(5.6790, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32000\n",
+            "9000 tensor(5.1118, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9100 tensor(5.3567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9200 tensor(5.4141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33000\n",
+            "9300 tensor(5.3085, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9400 tensor(5.2808, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34000\n",
+            "9500 tensor(5.0931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9600 tensor(5.1090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9700 tensor(5.2519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35000\n",
+            "9800 tensor(5.3852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9900 tensor(5.0943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10000 tensor(5.4690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36000\n",
+            "10100 tensor(5.4348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10200 tensor(5.3262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10300 tensor(5.4878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37000\n",
+            "10400 tensor(5.2384, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10500 tensor(5.2151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10600 tensor(4.8722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38000\n",
+            "10700 tensor(5.4325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10800 tensor(4.8699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39000\n",
+            "10900 tensor(5.3448, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11000 tensor(5.1358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11100 tensor(5.0432, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40000\n",
+            "11200 tensor(5.4062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11300 tensor(5.4040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11400 tensor(5.5312, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41000\n",
+            "11500 tensor(5.4374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11600 tensor(5.0998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11700 tensor(5.4217, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42000\n",
+            "11800 tensor(5.5747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11900 tensor(5.0467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12000 tensor(5.4270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43000\n",
+            "12100 tensor(5.2043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12200 tensor(5.2369, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44000\n",
+            "12300 tensor(5.4465, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12400 tensor(4.9839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12500 tensor(5.3214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45000\n",
+            "12600 tensor(5.1928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12700 tensor(4.9646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12800 tensor(5.3325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46000\n",
+            "12900 tensor(5.4429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13000 tensor(5.0652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13100 tensor(5.3126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47000\n",
+            "13200 tensor(5.4124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13300 tensor(5.5385, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13400 tensor(5.0986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48000\n",
+            "13500 tensor(5.2693, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13600 tensor(5.2136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49000\n",
+            "13700 tensor(5.5169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13800 tensor(5.1840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13900 tensor(5.2700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50000\n",
+            "14000 tensor(5.2077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14100 tensor(5.3791, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14200 tensor(5.4008, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51000\n",
+            "14300 tensor(5.3506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14400 tensor(4.7662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14500 tensor(4.9474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52000\n",
+            "14600 tensor(5.0245, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14700 tensor(5.3977, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14800 tensor(4.9653, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53000\n",
+            "14900 tensor(4.8947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15000 tensor(5.3548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54000\n",
+            "15100 tensor(4.7244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15200 tensor(4.9752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15300 tensor(5.3929, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55000\n",
+            "15400 tensor(5.3096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15500 tensor(5.1247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15600 tensor(5.2753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56000\n",
+            "15700 tensor(5.2373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15800 tensor(4.9997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15900 tensor(5.1718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57000\n",
+            "16000 tensor(5.5952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16100 tensor(5.3699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16200 tensor(5.0923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58000\n",
+            "16300 tensor(4.9985, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16400 tensor(5.3076, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59000\n",
+            "16500 tensor(5.1994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16600 tensor(5.3672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16700 tensor(5.2054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60000\n",
+            "16800 tensor(5.3379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16900 tensor(5.2785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17000 tensor(5.2590, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61000\n",
+            "17100 tensor(5.3564, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17200 tensor(5.3598, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17300 tensor(4.7786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62000\n",
+            "17400 tensor(5.2639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17500 tensor(5.2037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17600 tensor(5.1158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63000\n",
+            "17700 tensor(4.9831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17800 tensor(4.8950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64000\n",
+            "17900 tensor(5.0928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18000 tensor(5.3423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18100 tensor(5.1760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65000\n",
+            "18200 tensor(5.2021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18300 tensor(5.1306, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18400 tensor(5.1199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66000\n",
+            "18500 tensor(5.2082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18600 tensor(5.3290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18700 tensor(5.2257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67000\n",
+            "18800 tensor(4.9107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18900 tensor(5.3400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68000\n",
+            "19000 tensor(5.1366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19100 tensor(5.1199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19200 tensor(5.2202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69000\n",
+            "19300 tensor(5.2236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19400 tensor(5.2953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19500 tensor(5.1308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70000\n",
+            "19600 tensor(5.3578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19700 tensor(5.1600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19800 tensor(4.6220, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71000\n",
+            "19900 tensor(5.3731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20000 tensor(4.9936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20100 tensor(5.0817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72000\n",
+            "20200 tensor(5.1613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20300 tensor(5.3877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73000\n",
+            "20400 tensor(5.4114, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20500 tensor(5.2609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20600 tensor(5.1378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74000\n",
+            "20700 tensor(5.0799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20800 tensor(5.3615, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20900 tensor(5.3365, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75000\n",
+            "21000 tensor(4.9244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21100 tensor(5.5084, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21200 tensor(4.8769, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76000\n",
+            "21300 tensor(5.3414, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21400 tensor(5.0648, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21500 tensor(5.0594, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77000\n",
+            "21600 tensor(5.2537, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21700 tensor(5.1834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21800 tensor(4.8151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78000\n",
+            "21900 tensor(5.3335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22000 tensor(4.9580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79000\n",
+            "22100 tensor(5.2262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22200 tensor(5.1946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22300 tensor(5.2404, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80000\n",
+            "22400 tensor(4.9491, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22500 tensor(4.6901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22600 tensor(5.1937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81000\n",
+            "22700 tensor(4.9937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22800 tensor(5.1401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22900 tensor(5.0599, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82000\n",
+            "23000 tensor(5.4315, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23100 tensor(5.1854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83000\n",
+            "23200 tensor(5.1033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23300 tensor(5.2352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23400 tensor(5.2004, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84000\n",
+            "23500 tensor(5.0866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23600 tensor(5.2372, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23700 tensor(5.4711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85000\n",
+            "23800 tensor(5.4030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23900 tensor(5.3589, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24000 tensor(5.1646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86000\n",
+            "24100 tensor(5.4865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24200 tensor(5.3663, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24300 tensor(5.1760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87000\n",
+            "24400 tensor(5.2950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24500 tensor(5.0376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88000\n",
+            "24600 tensor(5.1229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24700 tensor(5.3261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24800 tensor(5.3953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89000\n",
+            "24900 tensor(5.2734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25000 tensor(5.5544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25100 tensor(5.1847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90000\n",
+            "25200 tensor(5.2963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25300 tensor(5.2350, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25400 tensor(5.1483, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91000\n",
+            "25500 tensor(5.0571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25600 tensor(4.8022, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25700 tensor(5.2115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92000\n",
+            "25800 tensor(5.1675, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25900 tensor(5.2786, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93000\n",
+            "26000 tensor(4.8893, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26100 tensor(5.3295, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26200 tensor(4.9849, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94000\n",
+            "26300 tensor(5.2289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26400 tensor(5.1430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26500 tensor(5.1389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95000\n",
+            "26600 tensor(5.3339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26700 tensor(5.1904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26800 tensor(5.0073, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96000\n",
+            "26900 tensor(5.1798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27000 tensor(4.9300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27100 tensor(5.1331, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97000\n",
+            "27200 tensor(5.1750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27300 tensor(5.1801, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98000\n",
+            "27400 tensor(5.0430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27500 tensor(5.3107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27600 tensor(5.2876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99000\n",
+            "27700 tensor(5.2763, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27800 tensor(5.0737, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27900 tensor(5.0593, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100000\n",
+            "28000 tensor(5.4758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28100 tensor(5.4440, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28200 tensor(5.0862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101000\n",
+            "28300 tensor(5.2405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28400 tensor(4.8600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28500 tensor(5.2056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102000\n",
+            "28600 tensor(5.6196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28700 tensor(5.2235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103000\n",
+            "28800 tensor(5.2124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28900 tensor(4.8836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29000 tensor(4.9913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104000\n",
+            "29100 tensor(5.2689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29200 tensor(4.9352, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29300 tensor(5.3143, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105000\n",
+            "29400 tensor(5.2134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29500 tensor(5.0963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29600 tensor(5.4291, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106000\n",
+            "29700 tensor(4.8093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29800 tensor(4.9271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29900 tensor(5.0479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107000\n",
+            "30000 tensor(5.2494, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30100 tensor(5.2027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108000\n",
+            "30200 tensor(5.2714, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30300 tensor(4.9223, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30400 tensor(4.8816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109000\n",
+            "30500 tensor(4.9169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30600 tensor(5.1237, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30700 tensor(5.1190, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110000\n",
+            "30800 tensor(5.2271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30900 tensor(5.0194, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31000 tensor(5.2287, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111000\n",
+            "31100 tensor(5.3456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31200 tensor(5.0911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31300 tensor(5.3793, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112000\n",
+            "31400 tensor(5.0410, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31500 tensor(5.0014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113000\n",
+            "31600 tensor(4.9323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31700 tensor(5.3869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31800 tensor(4.8621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114000\n",
+            "31900 tensor(5.1184, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32000 tensor(5.2873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32100 tensor(4.8723, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115000\n",
+            "32200 tensor(5.4421, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32300 tensor(5.0732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32400 tensor(5.0461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116000\n",
+            "32500 tensor(5.3476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32600 tensor(5.1149, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117000\n",
+            "32700 tensor(5.2261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32800 tensor(5.1622, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32900 tensor(5.0429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118000\n",
+            "33000 tensor(5.1329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33100 tensor(5.2284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33200 tensor(5.1794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119000\n",
+            "33300 tensor(4.8535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33400 tensor(4.7420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33500 tensor(5.4625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120000\n",
+            "33600 tensor(4.9975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33700 tensor(5.2172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33800 tensor(5.1135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "121000\n",
+            "33900 tensor(5.1974, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34000 tensor(5.0866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "122000\n",
+            "34100 tensor(5.1738, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34200 tensor(5.2338, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34300 tensor(5.3866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "123000\n",
+            "34400 tensor(5.2937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34500 tensor(5.4265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34600 tensor(5.0077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "124000\n",
+            "34700 tensor(5.3335, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34800 tensor(4.9879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34900 tensor(5.3270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "125000\n",
+            "35000 tensor(5.2056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35100 tensor(5.1341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35200 tensor(5.2629, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "126000\n",
+            "35300 tensor(5.0193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35400 tensor(5.2414, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "127000\n",
+            "35500 tensor(5.3116, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35600 tensor(5.3802, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35700 tensor(5.5126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "128000\n",
+            "35800 tensor(5.2014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35900 tensor(5.2182, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36000 tensor(5.2556, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "129000\n",
+            "36100 tensor(5.2955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36200 tensor(5.2068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36300 tensor(5.4835, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "130000\n",
+            "36400 tensor(5.2844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36500 tensor(5.4568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "131000\n",
+            "36600 tensor(4.9546, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36700 tensor(5.5436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36800 tensor(5.4078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "132000\n",
+            "36900 tensor(4.9905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37000 tensor(5.2532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37100 tensor(4.9246, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "133000\n",
+            "37200 tensor(4.8595, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37300 tensor(4.9436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37400 tensor(4.9957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "134000\n",
+            "37500 tensor(4.8686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37600 tensor(4.8965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37700 tensor(5.1955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "135000\n",
+            "37800 tensor(5.2660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37900 tensor(5.3396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "136000\n",
+            "38000 tensor(5.0582, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38100 tensor(5.2351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38200 tensor(4.9177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "137000\n",
+            "38300 tensor(5.3007, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38400 tensor(4.9814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38500 tensor(5.2672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "138000\n",
+            "38600 tensor(4.8161, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38700 tensor(5.1975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38800 tensor(4.9423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "139000\n",
+            "38900 tensor(5.0342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39000 tensor(5.2703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39100 tensor(4.9539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "140000\n",
+            "39200 tensor(5.4193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39300 tensor(5.1109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "141000\n",
+            "39400 tensor(5.0914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39500 tensor(5.3126, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39600 tensor(4.9927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "142000\n",
+            "39700 tensor(5.3725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39800 tensor(5.2926, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39900 tensor(4.8999, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "143000\n",
+            "40000 tensor(5.0333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40100 tensor(5.1059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40200 tensor(5.1685, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "144000\n",
+            "40300 tensor(5.1375, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40400 tensor(5.3952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40500 tensor(4.8467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "145000\n",
+            "40600 tensor(5.4346, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40700 tensor(5.2852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "146000\n",
+            "40800 tensor(5.0129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40900 tensor(5.0657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41000 tensor(5.1874, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "147000\n",
+            "41100 tensor(5.0094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41200 tensor(5.2361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41300 tensor(4.8607, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "148000\n",
+            "41400 tensor(4.9584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41500 tensor(5.3754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41600 tensor(4.9372, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "149000\n",
+            "41700 tensor(5.2398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41800 tensor(5.1772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41900 tensor(5.1525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "150000\n",
+            "42000 tensor(5.2827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42100 tensor(4.6855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "151000\n",
+            "42200 tensor(5.0215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42300 tensor(5.1695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42400 tensor(5.0091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "152000\n",
+            "42500 tensor(5.1274, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42600 tensor(4.6771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42700 tensor(5.3160, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "153000\n",
+            "42800 tensor(5.2484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42900 tensor(5.0599, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43000 tensor(5.2023, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "154000\n",
+            "43100 tensor(4.9059, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43200 tensor(5.0727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43300 tensor(5.1986, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "155000\n",
+            "43400 tensor(5.1041, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43500 tensor(5.4856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "156000\n",
+            "43600 tensor(5.3947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43700 tensor(5.0493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43800 tensor(5.1703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "157000\n",
+            "43900 tensor(4.9899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44000 tensor(4.8695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44100 tensor(5.3520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "158000\n",
+            "44200 tensor(4.9379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44300 tensor(5.4677, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44400 tensor(5.0739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "159000\n",
+            "44500 tensor(4.9127, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44600 tensor(5.0247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "160000\n",
+            "44700 tensor(4.9641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44800 tensor(5.2538, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44900 tensor(5.0657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "161000\n",
+            "45000 tensor(4.9174, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45100 tensor(5.2311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45200 tensor(5.0617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "162000\n",
+            "45300 tensor(5.2111, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45400 tensor(4.6137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45500 tensor(4.9275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "163000\n",
+            "45600 tensor(5.2501, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45700 tensor(5.2526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45800 tensor(5.1342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "164000\n",
+            "45900 tensor(4.9400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46000 tensor(5.1521, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "165000\n",
+            "46100 tensor(5.0033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46200 tensor(4.9825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46300 tensor(5.3210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "166000\n",
+            "46400 tensor(5.3635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46500 tensor(4.9169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46600 tensor(4.9497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "167000\n",
+            "46700 tensor(5.2150, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46800 tensor(4.8570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46900 tensor(4.9026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "168000\n",
+            "47000 tensor(5.1486, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47100 tensor(5.4026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47200 tensor(5.1028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "169000\n",
+            "47300 tensor(5.2411, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47400 tensor(4.9942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "170000\n",
+            "47500 tensor(5.1984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47600 tensor(5.1100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47700 tensor(5.1202, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "171000\n",
+            "47800 tensor(5.2505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47900 tensor(5.2392, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48000 tensor(4.9209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "172000\n",
+            "48100 tensor(5.3051, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48200 tensor(5.1233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48300 tensor(5.2021, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "173000\n",
+            "48400 tensor(4.8006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48500 tensor(5.0496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48600 tensor(5.1875, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "174000\n",
+            "48700 tensor(5.1499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48800 tensor(4.9676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "175000\n",
+            "48900 tensor(5.2299, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49000 tensor(5.0078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49100 tensor(5.1948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "176000\n",
+            "49200 tensor(5.2544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49300 tensor(5.0308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49400 tensor(5.2188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "177000\n",
+            "49500 tensor(5.3279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49600 tensor(4.9758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49700 tensor(5.0799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "178000\n",
+            "49800 tensor(5.0324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49900 tensor(5.2124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50000 tensor(5.1213, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "179000\n",
+            "50100 tensor(5.2672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50200 tensor(4.9766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "180000\n",
+            "50300 tensor(5.2499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50400 tensor(4.9455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50500 tensor(5.2477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "181000\n",
+            "50600 tensor(5.0518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50700 tensor(4.9514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50800 tensor(4.8579, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "182000\n",
+            "50900 tensor(5.1602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51000 tensor(5.2193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51100 tensor(5.0982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "183000\n",
+            "51200 tensor(5.2880, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51300 tensor(4.8375, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51400 tensor(5.1995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "184000\n",
+            "51500 tensor(5.1672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51600 tensor(5.2276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "185000\n",
+            "51700 tensor(5.0882, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51800 tensor(5.2304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51900 tensor(5.0226, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "186000\n",
+            "52000 tensor(5.1911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52100 tensor(5.3534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52200 tensor(5.1108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "187000\n",
+            "52300 tensor(5.0774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52400 tensor(5.1188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52500 tensor(5.1506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "188000\n",
+            "52600 tensor(5.0832, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52700 tensor(5.2014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "189000\n",
+            "52800 tensor(5.2696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52900 tensor(5.0779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53000 tensor(5.0554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "190000\n",
+            "53100 tensor(5.0068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53200 tensor(4.7833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53300 tensor(5.2709, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "191000\n",
+            "53400 tensor(5.1926, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53500 tensor(5.0873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53600 tensor(5.1936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "192000\n",
+            "53700 tensor(5.1878, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53800 tensor(4.8307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53900 tensor(4.8449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "193000\n",
+            "54000 tensor(5.3690, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54100 tensor(4.4637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "194000\n",
+            "54200 tensor(5.2497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54300 tensor(5.0490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54400 tensor(4.7058, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "195000\n",
+            "54500 tensor(5.2924, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54600 tensor(5.3235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54700 tensor(5.0440, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "196000\n",
+            "54800 tensor(5.2241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54900 tensor(4.9492, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55000 tensor(5.0754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "197000\n",
+            "55100 tensor(5.1074, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55200 tensor(5.2155, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55300 tensor(5.1454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "198000\n",
+            "55400 tensor(5.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55500 tensor(5.3043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "199000\n",
+            "55600 tensor(4.8684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55700 tensor(5.0869, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55800 tensor(4.6445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "200000\n",
+            "55900 tensor(5.1047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56000 tensor(4.9902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56100 tensor(5.2816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "201000\n",
+            "56200 tensor(5.3301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56300 tensor(5.1437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56400 tensor(5.2254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "202000\n",
+            "56500 tensor(5.2339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56600 tensor(4.9340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56700 tensor(5.0758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "203000\n",
+            "56800 tensor(5.5707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56900 tensor(4.9705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "204000\n",
+            "57000 tensor(5.3555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57100 tensor(5.1206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57200 tensor(4.9509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "205000\n",
+            "57300 tensor(5.0644, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57400 tensor(5.2678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57500 tensor(4.9110, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "206000\n",
+            "57600 tensor(4.7788, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57700 tensor(4.9975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57800 tensor(5.3311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "207000\n",
+            "57900 tensor(5.2600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58000 tensor(5.0070, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "208000\n",
+            "58100 tensor(5.3885, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58200 tensor(5.4209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58300 tensor(4.9688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "209000\n",
+            "58400 tensor(4.8874, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58500 tensor(4.9976, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58600 tensor(5.4753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "210000\n",
+            "58700 tensor(4.9572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58800 tensor(5.1014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58900 tensor(5.2920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "211000\n",
+            "59000 tensor(5.2007, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59100 tensor(5.0399, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59200 tensor(5.1078, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "212000\n",
+            "59300 tensor(4.9478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59400 tensor(5.1439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "213000\n",
+            "59500 tensor(5.0825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59600 tensor(5.0066, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59700 tensor(4.8766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "214000\n",
+            "59800 tensor(5.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59900 tensor(5.1101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60000 tensor(5.1072, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "215000\n",
+            "60100 tensor(5.1821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60200 tensor(5.2384, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60300 tensor(5.0115, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "216000\n",
+            "60400 tensor(5.1308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60500 tensor(5.1859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60600 tensor(5.0918, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "217000\n",
+            "60700 tensor(5.0108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60800 tensor(5.1547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "218000\n",
+            "60900 tensor(5.2653, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61000 tensor(5.2235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61100 tensor(5.1075, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "219000\n",
+            "61200 tensor(4.8467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61300 tensor(5.0838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61400 tensor(5.2590, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "220000\n",
+            "61500 tensor(5.1743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61600 tensor(4.9954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61700 tensor(4.9919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "221000\n",
+            "61800 tensor(5.0254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61900 tensor(5.0908, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62000 tensor(5.2753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "222000\n",
+            "62100 tensor(4.8669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62200 tensor(4.9641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "223000\n",
+            "62300 tensor(5.0582, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62400 tensor(4.9853, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62500 tensor(5.0922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "224000\n",
+            "62600 tensor(4.9824, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62700 tensor(5.1782, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62800 tensor(4.8954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "225000\n",
+            "62900 tensor(5.3762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63000 tensor(5.2436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63100 tensor(5.3535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "226000\n",
+            "63200 tensor(5.1772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63300 tensor(4.9112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63400 tensor(5.0962, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "227000\n",
+            "63500 tensor(4.9657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63600 tensor(5.0014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "228000\n",
+            "63700 tensor(5.0686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63800 tensor(5.3235, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63900 tensor(5.3906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "229000\n",
+            "64000 tensor(4.9716, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64100 tensor(5.2290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64200 tensor(5.1423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "230000\n",
+            "64300 tensor(5.1310, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64400 tensor(4.9695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64500 tensor(4.9604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "231000\n",
+            "64600 tensor(4.9843, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64700 tensor(5.4459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64800 tensor(5.1474, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "232000\n",
+            "64900 tensor(5.2715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65000 tensor(5.2314, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "233000\n",
+            "65100 tensor(4.7774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65200 tensor(5.3146, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65300 tensor(5.1604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "234000\n",
+            "65400 tensor(5.0736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65500 tensor(5.1152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65600 tensor(5.1409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "235000\n",
+            "65700 tensor(4.9068, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65800 tensor(4.9353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65900 tensor(5.1612, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "236000\n",
+            "66000 tensor(5.1866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66100 tensor(4.8965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "237000\n",
+            "66200 tensor(4.9215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66300 tensor(4.8641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66400 tensor(5.1550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "238000\n",
+            "66500 tensor(4.8722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66600 tensor(5.0268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66700 tensor(4.9948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "239000\n",
+            "66800 tensor(5.0565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66900 tensor(5.2030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67000 tensor(5.2199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "240000\n",
+            "67100 tensor(5.0560, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67200 tensor(5.4027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67300 tensor(5.0631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "241000\n",
+            "67400 tensor(5.2687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67500 tensor(5.0728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "242000\n",
+            "67600 tensor(5.1050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67700 tensor(5.0495, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67800 tensor(5.2014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "243000\n",
+            "67900 tensor(4.9060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68000 tensor(4.9703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68100 tensor(4.8457, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "244000\n",
+            "68200 tensor(5.1298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68300 tensor(5.0272, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68400 tensor(5.1238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "245000\n",
+            "68500 tensor(5.1778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68600 tensor(5.0997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68700 tensor(4.7577, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "246000\n",
+            "68800 tensor(5.1663, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68900 tensor(4.8385, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "247000\n",
+            "69000 tensor(5.0810, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69100 tensor(4.8565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69200 tensor(4.8088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "248000\n",
+            "69300 tensor(5.2732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69400 tensor(5.1549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69500 tensor(5.1323, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "249000\n",
+            "69600 tensor(5.0379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69700 tensor(5.3768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69800 tensor(4.9056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "250000\n",
+            "69900 tensor(5.4631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70000 tensor(5.1071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70100 tensor(5.0137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "251000\n",
+            "70200 tensor(5.1769, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70300 tensor(4.8435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "252000\n",
+            "70400 tensor(5.2020, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70500 tensor(5.1395, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70600 tensor(5.3541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "253000\n",
+            "70700 tensor(5.3092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70800 tensor(5.4793, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70900 tensor(5.2799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "254000\n",
+            "71000 tensor(5.0872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71100 tensor(5.1728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71200 tensor(5.2739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "255000\n",
+            "71300 tensor(4.8960, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71400 tensor(5.0185, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71500 tensor(5.0367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "256000\n",
+            "71600 tensor(5.1992, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71700 tensor(5.2508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "257000\n",
+            "71800 tensor(5.3864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71900 tensor(5.0381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72000 tensor(5.4758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "258000\n",
+            "72100 tensor(5.1863, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72200 tensor(5.0258, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72300 tensor(5.1253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "259000\n",
+            "72400 tensor(5.0412, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72500 tensor(5.1304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72600 tensor(5.1833, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "260000\n",
+            "72700 tensor(4.8666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72800 tensor(5.3088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72900 tensor(5.0482, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "261000\n",
+            "73000 tensor(5.2591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73100 tensor(4.9459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "262000\n",
+            "73200 tensor(5.0086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73300 tensor(4.9859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73400 tensor(5.2442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "263000\n",
+            "73500 tensor(5.0674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73600 tensor(5.0003, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73700 tensor(5.1476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "264000\n",
+            "73800 tensor(5.1845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73900 tensor(5.1606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74000 tensor(5.3307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "265000\n",
+            "74100 tensor(5.0139, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74200 tensor(5.0479, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74300 tensor(5.0041, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "266000\n",
+            "74400 tensor(5.1568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74500 tensor(4.7452, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "267000\n",
+            "74600 tensor(5.2662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74700 tensor(5.3145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74800 tensor(5.0200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "268000\n",
+            "74900 tensor(4.8437, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75000 tensor(5.1458, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75100 tensor(5.3639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "269000\n",
+            "75200 tensor(5.0922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75300 tensor(5.3002, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75400 tensor(5.0810, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "270000\n",
+            "75500 tensor(5.3591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75600 tensor(5.0206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "271000\n",
+            "75700 tensor(5.0759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75800 tensor(5.0702, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75900 tensor(5.1349, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "272000\n",
+            "76000 tensor(4.8964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76100 tensor(4.8618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76200 tensor(4.9370, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "273000\n",
+            "76300 tensor(5.0666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76400 tensor(4.9261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76500 tensor(5.0910, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "274000\n",
+            "76600 tensor(5.1985, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76700 tensor(4.8590, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76800 tensor(4.7918, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "275000\n",
+            "76900 tensor(5.1386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77000 tensor(5.0233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "276000\n",
+            "77100 tensor(5.3827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77200 tensor(5.0204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77300 tensor(4.9805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "277000\n",
+            "77400 tensor(5.0943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77500 tensor(4.7828, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77600 tensor(5.1103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "278000\n",
+            "77700 tensor(5.2850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77800 tensor(4.8699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77900 tensor(4.7829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "279000\n",
+            "78000 tensor(5.2236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78100 tensor(4.8891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78200 tensor(5.1773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "280000\n",
+            "78300 tensor(5.0470, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78400 tensor(5.0570, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "281000\n",
+            "78500 tensor(5.4172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78600 tensor(4.8807, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78700 tensor(5.3329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "282000\n",
+            "78800 tensor(5.2173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78900 tensor(5.4813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79000 tensor(4.9973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "283000\n",
+            "79100 tensor(4.7734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79200 tensor(4.8357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79300 tensor(5.3520, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "284000\n",
+            "79400 tensor(5.1467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79500 tensor(5.0294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79600 tensor(5.6394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "285000\n",
+            "79700 tensor(4.7860, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79800 tensor(5.0916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "286000\n",
+            "79900 tensor(5.0640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80000 tensor(5.2131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80100 tensor(5.2826, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "287000\n",
+            "80200 tensor(5.3061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80300 tensor(5.2656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80400 tensor(5.3741, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "288000\n",
+            "80500 tensor(5.0930, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80600 tensor(5.2616, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80700 tensor(5.3157, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "289000\n",
+            "80800 tensor(4.8360, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80900 tensor(5.2270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "290000\n",
+            "81000 tensor(5.1687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81100 tensor(5.1558, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81200 tensor(4.9090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "291000\n",
+            "81300 tensor(4.9953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81400 tensor(5.1353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81500 tensor(5.1045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "292000\n",
+            "81600 tensor(5.1020, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81700 tensor(5.2123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81800 tensor(5.0393, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "293000\n",
+            "81900 tensor(5.2712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82000 tensor(5.0969, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82100 tensor(5.1216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "294000\n",
+            "82200 tensor(5.0557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82300 tensor(4.9278, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "295000\n",
+            "82400 tensor(5.1703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82500 tensor(4.8852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82600 tensor(5.0861, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "296000\n",
+            "82700 tensor(5.1290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82800 tensor(5.1089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82900 tensor(4.7936, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "297000\n",
+            "83000 tensor(5.1975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83100 tensor(5.0460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83200 tensor(5.2952, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "298000\n",
+            "83300 tensor(4.9863, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83400 tensor(5.0724, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83500 tensor(5.0200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "299000\n",
+            "83600 tensor(4.9496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83700 tensor(5.1706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "300000\n",
+            "83800 tensor(4.8822, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83900 tensor(4.9673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84000 tensor(5.1188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "301000\n",
+            "84100 tensor(5.4809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84200 tensor(4.6303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84300 tensor(5.0608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "302000\n",
+            "84400 tensor(4.8835, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84500 tensor(5.0710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84600 tensor(5.2347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "303000\n",
+            "84700 tensor(4.9578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84800 tensor(4.9840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84900 tensor(5.2946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "304000\n",
+            "85000 tensor(5.1757, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85100 tensor(5.0449, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "305000\n",
+            "85200 tensor(5.0524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85300 tensor(5.3156, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85400 tensor(5.2982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "306000\n",
+            "85500 tensor(4.9904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85600 tensor(5.1111, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85700 tensor(5.1132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "307000\n",
+            "85800 tensor(5.1134, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85900 tensor(5.3567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86000 tensor(5.1374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "308000\n",
+            "86100 tensor(4.8926, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86200 tensor(5.0359, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86300 tensor(5.0061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "309000\n",
+            "86400 tensor(5.0968, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86500 tensor(5.1935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "310000\n",
+            "86600 tensor(5.0132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86700 tensor(4.9140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86800 tensor(4.9166, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "311000\n",
+            "86900 tensor(4.8179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87000 tensor(5.3136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87100 tensor(5.1485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "312000\n",
+            "87200 tensor(5.1635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87300 tensor(5.0104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87400 tensor(5.0568, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "313000\n",
+            "87500 tensor(5.1699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87600 tensor(5.2978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87700 tensor(4.9475, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "314000\n",
+            "87800 tensor(4.8997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87900 tensor(5.1651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "315000\n",
+            "88000 tensor(4.6506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88100 tensor(5.0203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88200 tensor(5.2400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "316000\n",
+            "88300 tensor(5.1478, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88400 tensor(5.2234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88500 tensor(4.8418, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "317000\n",
+            "88600 tensor(4.8617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88700 tensor(4.8720, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88800 tensor(4.8572, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "318000\n",
+            "88900 tensor(4.7781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89000 tensor(4.5953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89100 tensor(5.1780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "319000\n",
+            "89200 tensor(4.9773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89300 tensor(5.3703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "320000\n",
+            "89400 tensor(4.7298, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89500 tensor(5.0713, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89600 tensor(5.3035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "321000\n",
+            "89700 tensor(4.8603, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89800 tensor(5.0780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89900 tensor(5.0922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "322000\n",
+            "90000 tensor(5.0946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90100 tensor(4.9839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90200 tensor(5.0898, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "323000\n",
+            "90300 tensor(5.0876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90400 tensor(4.7618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90500 tensor(4.9550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "324000\n",
+            "90600 tensor(5.2409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90700 tensor(4.8453, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "325000\n",
+            "90800 tensor(5.0906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90900 tensor(5.1866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91000 tensor(5.1850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "326000\n",
+            "91100 tensor(4.7448, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91200 tensor(5.2125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91300 tensor(5.3846, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "327000\n",
+            "91400 tensor(4.7534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91500 tensor(4.9951, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91600 tensor(5.2443, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "328000\n",
+            "91700 tensor(5.0912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91800 tensor(5.2768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "329000\n",
+            "91900 tensor(5.0739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92000 tensor(5.1095, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92100 tensor(4.9860, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "330000\n",
+            "92200 tensor(4.6185, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92300 tensor(5.1181, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92400 tensor(5.1625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "331000\n",
+            "92500 tensor(5.2200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92600 tensor(5.0955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92700 tensor(4.8214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "332000\n",
+            "92800 tensor(4.8953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92900 tensor(5.4247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93000 tensor(5.1056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "333000\n",
+            "93100 tensor(5.0311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93200 tensor(5.2195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "334000\n",
+            "93300 tensor(5.1673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93400 tensor(5.2275, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93500 tensor(4.9526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "335000\n",
+            "93600 tensor(5.0896, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93700 tensor(5.1565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93800 tensor(4.9091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "336000\n",
+            "93900 tensor(5.1251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94000 tensor(5.0433, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94100 tensor(4.9108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "337000\n",
+            "94200 tensor(5.1725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94300 tensor(5.0600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94400 tensor(5.0994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "338000\n",
+            "94500 tensor(4.9514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94600 tensor(5.2426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "339000\n",
+            "94700 tensor(4.7794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94800 tensor(5.2669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94900 tensor(5.2703, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "340000\n",
+            "95000 tensor(5.3905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95100 tensor(5.0774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95200 tensor(4.9328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "341000\n",
+            "95300 tensor(5.2937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95400 tensor(4.7542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95500 tensor(4.9919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "342000\n",
+            "95600 tensor(4.9873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95700 tensor(5.1582, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95800 tensor(5.0927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "343000\n",
+            "95900 tensor(4.8471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96000 tensor(5.1951, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "344000\n",
+            "96100 tensor(4.9727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96200 tensor(4.9915, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96300 tensor(5.0515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "345000\n",
+            "96400 tensor(5.1081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96500 tensor(5.3060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96600 tensor(5.0907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "346000\n",
+            "96700 tensor(5.2215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96800 tensor(5.1097, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96900 tensor(5.2757, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "347000\n",
+            "97000 tensor(4.9539, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97100 tensor(5.0553, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97200 tensor(5.1827, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "348000\n",
+            "97300 tensor(5.0123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97400 tensor(5.0624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "349000\n",
+            "97500 tensor(5.2006, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97600 tensor(4.9950, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97700 tensor(5.0549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "350000\n",
+            "97800 tensor(5.0475, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97900 tensor(4.8108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98000 tensor(4.9221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "351000\n",
+            "98100 tensor(5.2524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98200 tensor(4.9745, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98300 tensor(5.1369, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "352000\n",
+            "98400 tensor(5.2040, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98500 tensor(5.2696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "353000\n",
+            "98600 tensor(5.3089, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98700 tensor(5.0973, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98800 tensor(5.0995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "354000\n",
+            "98900 tensor(5.1192, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99000 tensor(5.2984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99100 tensor(5.1856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "355000\n",
+            "99200 tensor(5.1883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99300 tensor(4.9773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99400 tensor(5.2897, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "356000\n",
+            "99500 tensor(5.3124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99600 tensor(5.0386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99700 tensor(4.8906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "357000\n",
+            "99800 tensor(5.1151, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99900 tensor(5.0333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100000 tensor(4.9526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "358000\n",
+            "100100 tensor(5.4919, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100200 tensor(4.7812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "359000\n",
+            "100300 tensor(5.0547, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100400 tensor(5.0233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100500 tensor(4.8942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "360000\n",
+            "100600 tensor(4.9477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100700 tensor(4.9277, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100800 tensor(5.2499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "361000\n",
+            "100900 tensor(5.2162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101000 tensor(5.0550, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101100 tensor(5.0957, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "362000\n",
+            "101200 tensor(5.0617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101300 tensor(5.3101, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "363000\n",
+            "101400 tensor(4.8387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101500 tensor(5.0914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101600 tensor(5.3198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "364000\n",
+            "101700 tensor(4.9333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101800 tensor(4.7367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101900 tensor(4.9608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "365000\n",
+            "102000 tensor(5.2333, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102100 tensor(5.1444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102200 tensor(5.4328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "366000\n",
+            "102300 tensor(5.2760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102400 tensor(5.2229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102500 tensor(5.2043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "367000\n",
+            "102600 tensor(5.1444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102700 tensor(5.2240, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "368000\n",
+            "102800 tensor(5.1234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102900 tensor(4.8963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103000 tensor(5.0684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "369000\n",
+            "103100 tensor(5.3707, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103200 tensor(4.9859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103300 tensor(5.0649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "370000\n",
+            "103400 tensor(5.0871, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103500 tensor(4.9837, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103600 tensor(5.1120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "371000\n",
+            "103700 tensor(5.2086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103800 tensor(5.0741, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103900 tensor(4.9891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "372000\n",
+            "104000 tensor(4.9637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104100 tensor(5.0033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "373000\n",
+            "104200 tensor(5.1105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104300 tensor(4.9057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104400 tensor(5.2394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "374000\n",
+            "104500 tensor(5.1488, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104600 tensor(5.0034, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104700 tensor(5.0169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "375000\n",
+            "104800 tensor(5.5932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104900 tensor(5.0594, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105000 tensor(5.1818, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "376000\n",
+            "105100 tensor(5.1265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105200 tensor(5.2194, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105300 tensor(5.1688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "377000\n",
+            "105400 tensor(5.3924, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105500 tensor(5.2369, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "378000\n",
+            "105600 tensor(5.0005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105700 tensor(4.9490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105800 tensor(4.9947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "379000\n",
+            "105900 tensor(5.1400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106000 tensor(5.1712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106100 tensor(5.3889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "380000\n",
+            "106200 tensor(5.0640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106300 tensor(5.1624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106400 tensor(4.9938, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "381000\n",
+            "106500 tensor(5.2659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106600 tensor(4.9500, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106700 tensor(5.2001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "382000\n",
+            "106800 tensor(4.9776, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106900 tensor(5.2684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "383000\n",
+            "107000 tensor(4.9327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107100 tensor(5.1739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107200 tensor(5.1641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "384000\n",
+            "107300 tensor(4.9207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107400 tensor(5.1112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107500 tensor(4.8839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "385000\n",
+            "107600 tensor(4.9063, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107700 tensor(5.1218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107800 tensor(5.1329, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "386000\n",
+            "107900 tensor(5.3598, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108000 tensor(5.1047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108100 tensor(5.0709, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "387000\n",
+            "108200 tensor(5.0716, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108300 tensor(5.0979, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "388000\n",
+            "108400 tensor(5.2054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108500 tensor(4.8856, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108600 tensor(5.0763, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "389000\n",
+            "108700 tensor(4.6029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108800 tensor(4.9980, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108900 tensor(4.7433, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "390000\n",
+            "109000 tensor(5.1747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109100 tensor(4.7590, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109200 tensor(4.9555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "391000\n",
+            "109300 tensor(4.6271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109400 tensor(4.9270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109500 tensor(4.8670, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "392000\n",
+            "109600 tensor(5.0673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109700 tensor(5.4325, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "393000\n",
+            "109800 tensor(4.7563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109900 tensor(4.9688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110000 tensor(5.0599, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "394000\n",
+            "110100 tensor(4.9771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110200 tensor(5.3440, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110300 tensor(5.2067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "395000\n",
+            "110400 tensor(4.6912, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110500 tensor(5.1135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110600 tensor(4.9512, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "396000\n",
+            "110700 tensor(4.9049, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110800 tensor(5.3380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110900 tensor(4.9982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "397000\n",
+            "111000 tensor(5.1906, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111100 tensor(4.9450, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "398000\n",
+            "111200 tensor(4.9843, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111300 tensor(5.0615, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111400 tensor(5.1630, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "399000\n",
+            "111500 tensor(5.2631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111600 tensor(5.2726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111700 tensor(4.8465, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "400000\n",
+            "111800 tensor(5.0638, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111900 tensor(5.1322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112000 tensor(5.0956, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "401000\n",
+            "112100 tensor(4.6850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112200 tensor(5.0941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "402000\n",
+            "112300 tensor(5.2451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112400 tensor(5.2617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112500 tensor(4.8904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "403000\n",
+            "112600 tensor(4.9779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112700 tensor(4.9773, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112800 tensor(4.6058, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "404000\n",
+            "112900 tensor(4.8841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113000 tensor(5.1203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113100 tensor(5.0650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "405000\n",
+            "113200 tensor(4.6302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113300 tensor(4.9626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113400 tensor(5.0637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "406000\n",
+            "113500 tensor(5.3193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113600 tensor(5.2732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "407000\n",
+            "113700 tensor(4.8750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113800 tensor(5.2875, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113900 tensor(5.0677, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "408000\n",
+            "114000 tensor(4.7401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114100 tensor(4.8493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114200 tensor(4.8203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "409000\n",
+            "114300 tensor(4.6964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114400 tensor(4.9045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114500 tensor(4.9766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "410000\n",
+            "114600 tensor(5.2010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114700 tensor(5.1521, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114800 tensor(5.0945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "411000\n",
+            "114900 tensor(5.0311, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115000 tensor(5.0057, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "412000\n",
+            "115100 tensor(5.1129, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115200 tensor(5.0684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115300 tensor(5.1183, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "413000\n",
+            "115400 tensor(5.3141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115500 tensor(5.3232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115600 tensor(5.1170, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "414000\n",
+            "115700 tensor(5.0023, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115800 tensor(5.1229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115900 tensor(5.1923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "415000\n",
+            "116000 tensor(5.1286, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116100 tensor(4.8629, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116200 tensor(5.2643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "416000\n",
+            "116300 tensor(4.4037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116400 tensor(5.1548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "417000\n",
+            "116500 tensor(5.0993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116600 tensor(5.1907, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116700 tensor(5.0096, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "418000\n",
+            "116800 tensor(4.8711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116900 tensor(5.1060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117000 tensor(5.0866, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "419000\n",
+            "117100 tensor(5.1294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117200 tensor(4.9697, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117300 tensor(5.3102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "420000\n",
+            "117400 tensor(5.3132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117500 tensor(4.8965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "421000\n",
+            "117600 tensor(5.2093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117700 tensor(5.1284, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117800 tensor(4.9976, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "422000\n",
+            "117900 tensor(5.1066, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118000 tensor(5.1549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118100 tensor(4.9796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "423000\n",
+            "118200 tensor(5.0112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118300 tensor(5.0054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118400 tensor(5.1148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "424000\n",
+            "118500 tensor(5.0216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118600 tensor(5.1426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118700 tensor(5.1632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "425000\n",
+            "118800 tensor(5.1688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118900 tensor(5.2083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "426000\n",
+            "119000 tensor(4.7053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119100 tensor(4.9990, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119200 tensor(5.3487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "427000\n",
+            "119300 tensor(4.9779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119400 tensor(5.0351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119500 tensor(5.0373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "428000\n",
+            "119600 tensor(5.3674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119700 tensor(4.9741, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119800 tensor(5.0577, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "429000\n",
+            "119900 tensor(4.8425, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120000 tensor(4.9597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120100 tensor(4.9721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "430000\n",
+            "120200 tensor(5.1214, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120300 tensor(5.0225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "431000\n",
+            "120400 tensor(5.3908, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120500 tensor(4.9955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120600 tensor(5.2588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "432000\n",
+            "epoch: = 1\n",
+            "0 tensor(5.2093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100 tensor(5.3814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "200 tensor(5.1460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1000\n",
+            "300 tensor(5.3199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "400 tensor(5.1499, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "500 tensor(5.0303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2000\n",
+            "600 tensor(5.0671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "700 tensor(5.0000, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "800 tensor(4.9863, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3000\n",
+            "900 tensor(5.0532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1000 tensor(5.0634, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1100 tensor(4.8666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4000\n",
+            "1200 tensor(4.8362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1300 tensor(5.1104, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1400 tensor(5.2784, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5000\n",
+            "1500 tensor(5.3135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1600 tensor(5.1400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6000\n",
+            "1700 tensor(5.2427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1800 tensor(5.2361, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "1900 tensor(5.0860, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7000\n",
+            "2000 tensor(4.7754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2100 tensor(5.2257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2200 tensor(4.9228, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8000\n",
+            "2300 tensor(5.2087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2400 tensor(4.6009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2500 tensor(5.0485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9000\n",
+            "2600 tensor(4.8077, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2700 tensor(5.1105, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "2800 tensor(4.6892, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10000\n",
+            "2900 tensor(4.9577, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3000 tensor(5.0162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11000\n",
+            "3100 tensor(4.9243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3200 tensor(5.0965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3300 tensor(4.8072, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12000\n",
+            "3400 tensor(5.0026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3500 tensor(4.8778, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3600 tensor(4.7804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13000\n",
+            "3700 tensor(5.0536, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3800 tensor(5.0348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "3900 tensor(5.0932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14000\n",
+            "4000 tensor(4.8247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4100 tensor(5.2288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4200 tensor(4.7091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15000\n",
+            "4300 tensor(5.1466, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4400 tensor(4.8608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16000\n",
+            "4500 tensor(5.0831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4600 tensor(5.1534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4700 tensor(5.1433, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17000\n",
+            "4800 tensor(5.0023, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "4900 tensor(5.1541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5000 tensor(5.2215, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18000\n",
+            "5100 tensor(5.0103, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5200 tensor(5.2232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5300 tensor(5.0542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19000\n",
+            "5400 tensor(4.9754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5500 tensor(5.1588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20000\n",
+            "5600 tensor(4.9750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5700 tensor(5.0814, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "5800 tensor(5.4650, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21000\n",
+            "5900 tensor(5.2366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6000 tensor(5.2223, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6100 tensor(4.9001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22000\n",
+            "6200 tensor(5.3510, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6300 tensor(5.2366, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6400 tensor(5.0379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23000\n",
+            "6500 tensor(5.0265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6600 tensor(5.5000, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6700 tensor(4.8587, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24000\n",
+            "6800 tensor(4.8712, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "6900 tensor(5.1405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25000\n",
+            "7000 tensor(5.0429, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7100 tensor(5.1420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7200 tensor(5.2794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26000\n",
+            "7300 tensor(5.2271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7400 tensor(4.9754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7500 tensor(5.3659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27000\n",
+            "7600 tensor(4.7902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7700 tensor(5.2327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "7800 tensor(5.5528, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28000\n",
+            "7900 tensor(5.0152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8000 tensor(5.1026, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8100 tensor(4.6152, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29000\n",
+            "8200 tensor(5.0953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8300 tensor(5.0372, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30000\n",
+            "8400 tensor(5.0211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8500 tensor(4.7475, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8600 tensor(4.8443, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31000\n",
+            "8700 tensor(5.1471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8800 tensor(5.1762, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "8900 tensor(5.4800, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32000\n",
+            "9000 tensor(4.9010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9100 tensor(5.1490, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9200 tensor(5.2119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33000\n",
+            "9300 tensor(5.0652, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9400 tensor(5.0831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34000\n",
+            "9500 tensor(4.9114, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9600 tensor(4.9139, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9700 tensor(5.0307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35000\n",
+            "9800 tensor(5.1592, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "9900 tensor(4.9091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10000 tensor(5.2556, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36000\n",
+            "10100 tensor(5.2265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10200 tensor(5.0764, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10300 tensor(5.2197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37000\n",
+            "10400 tensor(4.9872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10500 tensor(5.0030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10600 tensor(4.7093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38000\n",
+            "10700 tensor(5.1943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "10800 tensor(4.6028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39000\n",
+            "10900 tensor(5.1688, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11000 tensor(4.9071, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11100 tensor(4.7852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40000\n",
+            "11200 tensor(5.1724, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11300 tensor(5.1048, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11400 tensor(5.3444, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41000\n",
+            "11500 tensor(5.2196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11600 tensor(4.8939, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11700 tensor(5.2069, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42000\n",
+            "11800 tensor(5.3687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "11900 tensor(4.9033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12000 tensor(5.1747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43000\n",
+            "12100 tensor(5.0138, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12200 tensor(5.0538, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44000\n",
+            "12300 tensor(5.2248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12400 tensor(4.8343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12500 tensor(5.0820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45000\n",
+            "12600 tensor(5.0378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12700 tensor(4.7855, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "12800 tensor(5.1147, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46000\n",
+            "12900 tensor(5.2598, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13000 tensor(4.8743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13100 tensor(5.1137, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47000\n",
+            "13200 tensor(5.2270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13300 tensor(5.3398, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13400 tensor(4.7988, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48000\n",
+            "13500 tensor(5.1067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13600 tensor(5.0730, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49000\n",
+            "13700 tensor(5.1172, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13800 tensor(4.9974, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "13900 tensor(5.0809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50000\n",
+            "14000 tensor(5.0515, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14100 tensor(5.2082, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14200 tensor(5.2196, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51000\n",
+            "14300 tensor(5.1963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14400 tensor(4.6420, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14500 tensor(4.7768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52000\n",
+            "14600 tensor(4.8853, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14700 tensor(5.2161, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "14800 tensor(4.8348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53000\n",
+            "14900 tensor(4.7723, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15000 tensor(5.1951, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54000\n",
+            "15100 tensor(4.5943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15200 tensor(4.8785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15300 tensor(5.2401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55000\n",
+            "15400 tensor(5.1345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15500 tensor(4.9845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15600 tensor(5.0955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56000\n",
+            "15700 tensor(5.0750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15800 tensor(4.8953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "15900 tensor(5.0173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57000\n",
+            "16000 tensor(5.3809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16100 tensor(5.2108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16200 tensor(4.9123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58000\n",
+            "16300 tensor(4.8491, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16400 tensor(5.1661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59000\n",
+            "16500 tensor(5.0995, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16600 tensor(5.1714, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16700 tensor(5.0571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60000\n",
+            "16800 tensor(5.1657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "16900 tensor(5.1391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17000 tensor(5.1067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61000\n",
+            "17100 tensor(5.1680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17200 tensor(5.2227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17300 tensor(4.6891, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62000\n",
+            "17400 tensor(5.0639, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17500 tensor(5.0507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17600 tensor(4.9053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63000\n",
+            "17700 tensor(4.8750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "17800 tensor(4.7771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64000\n",
+            "17900 tensor(4.9931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18000 tensor(5.1721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18100 tensor(5.0419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65000\n",
+            "18200 tensor(5.0401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18300 tensor(4.9477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18400 tensor(4.9341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66000\n",
+            "18500 tensor(5.0645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18600 tensor(5.1702, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18700 tensor(5.0680, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67000\n",
+            "18800 tensor(4.7324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "18900 tensor(5.1745, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68000\n",
+            "19000 tensor(5.0148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19100 tensor(4.9552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19200 tensor(5.0249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69000\n",
+            "19300 tensor(5.0709, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19400 tensor(5.1439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19500 tensor(4.9734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70000\n",
+            "19600 tensor(5.2309, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19700 tensor(5.0292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "19800 tensor(4.4443, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71000\n",
+            "19900 tensor(5.2148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20000 tensor(4.8955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20100 tensor(4.9404, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72000\n",
+            "20200 tensor(5.0525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20300 tensor(5.2610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73000\n",
+            "20400 tensor(5.2233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20500 tensor(5.1364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20600 tensor(4.9917, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74000\n",
+            "20700 tensor(4.9608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20800 tensor(5.1992, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "20900 tensor(5.1686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75000\n",
+            "21000 tensor(4.8483, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21100 tensor(5.4130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21200 tensor(4.7093, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76000\n",
+            "21300 tensor(5.2148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21400 tensor(4.9624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21500 tensor(4.9292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77000\n",
+            "21600 tensor(5.1661, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21700 tensor(5.0725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "21800 tensor(4.7123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78000\n",
+            "21900 tensor(5.2135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22000 tensor(4.8017, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79000\n",
+            "22100 tensor(5.1210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22200 tensor(5.0554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22300 tensor(5.0997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80000\n",
+            "22400 tensor(4.8383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22500 tensor(4.5534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22600 tensor(5.1061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81000\n",
+            "22700 tensor(4.9188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22800 tensor(5.0239, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "22900 tensor(4.9186, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82000\n",
+            "23000 tensor(5.3097, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23100 tensor(5.0750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83000\n",
+            "23200 tensor(4.9890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23300 tensor(5.1193, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23400 tensor(5.0708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84000\n",
+            "23500 tensor(4.9966, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23600 tensor(5.1132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23700 tensor(5.3187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85000\n",
+            "23800 tensor(5.2937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "23900 tensor(5.2049, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24000 tensor(5.0551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86000\n",
+            "24100 tensor(5.3820, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24200 tensor(5.2243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24300 tensor(5.0407, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87000\n",
+            "24400 tensor(5.1378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24500 tensor(4.8982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88000\n",
+            "24600 tensor(5.0213, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24700 tensor(5.1981, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "24800 tensor(5.2277, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89000\n",
+            "24900 tensor(5.1798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25000 tensor(5.4307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25100 tensor(5.0697, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90000\n",
+            "25200 tensor(5.1689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25300 tensor(5.1092, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25400 tensor(5.0354, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91000\n",
+            "25500 tensor(4.9247, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25600 tensor(4.6927, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25700 tensor(5.0795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92000\n",
+            "25800 tensor(5.0327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "25900 tensor(5.1922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93000\n",
+            "26000 tensor(4.7922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26100 tensor(5.2135, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26200 tensor(4.8716, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94000\n",
+            "26300 tensor(5.1197, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26400 tensor(5.0293, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26500 tensor(5.0354, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95000\n",
+            "26600 tensor(5.2529, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26700 tensor(5.0883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "26800 tensor(4.8198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96000\n",
+            "26900 tensor(5.0282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27000 tensor(4.7931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27100 tensor(5.0120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97000\n",
+            "27200 tensor(5.0787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27300 tensor(5.0908, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98000\n",
+            "27400 tensor(4.9436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27500 tensor(5.1993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27600 tensor(5.1542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99000\n",
+            "27700 tensor(5.1619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27800 tensor(4.9495, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "27900 tensor(4.9496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100000\n",
+            "28000 tensor(5.3698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28100 tensor(5.3364, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28200 tensor(4.9353, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101000\n",
+            "28300 tensor(5.1149, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28400 tensor(4.7524, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28500 tensor(5.0890, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102000\n",
+            "28600 tensor(5.5074, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28700 tensor(5.1043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103000\n",
+            "28800 tensor(5.0942, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "28900 tensor(4.7643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29000 tensor(4.9018, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104000\n",
+            "29100 tensor(5.1374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29200 tensor(4.8248, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29300 tensor(5.1806, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105000\n",
+            "29400 tensor(5.1401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29500 tensor(4.9909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29600 tensor(5.3300, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106000\n",
+            "29700 tensor(4.7358, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29800 tensor(4.8462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "29900 tensor(4.9805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107000\n",
+            "30000 tensor(5.1522, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30100 tensor(5.0940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108000\n",
+            "30200 tensor(5.1651, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30300 tensor(4.8124, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30400 tensor(4.7609, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109000\n",
+            "30500 tensor(4.8187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30600 tensor(4.9865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30700 tensor(5.0208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110000\n",
+            "30800 tensor(5.0904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "30900 tensor(4.9448, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31000 tensor(5.1119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111000\n",
+            "31100 tensor(5.1994, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31200 tensor(5.0280, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31300 tensor(5.2946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112000\n",
+            "31400 tensor(4.9557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31500 tensor(4.9296, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113000\n",
+            "31600 tensor(4.8751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31700 tensor(5.3086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "31800 tensor(4.7567, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114000\n",
+            "31900 tensor(4.9941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32000 tensor(5.2035, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32100 tensor(4.8145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115000\n",
+            "32200 tensor(5.3565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32300 tensor(4.9674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32400 tensor(4.9422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116000\n",
+            "32500 tensor(5.2489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32600 tensor(5.0207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117000\n",
+            "32700 tensor(5.1569, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32800 tensor(5.0727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "32900 tensor(4.9706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118000\n",
+            "33000 tensor(5.0288, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33100 tensor(5.1344, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33200 tensor(5.0739, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119000\n",
+            "33300 tensor(4.7502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33400 tensor(4.6710, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33500 tensor(5.3873, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120000\n",
+            "33600 tensor(4.9222, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33700 tensor(5.1264, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "33800 tensor(4.9766, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "121000\n",
+            "33900 tensor(5.0954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34000 tensor(5.0210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "122000\n",
+            "34100 tensor(5.0876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34200 tensor(5.1302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34300 tensor(5.2983, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "123000\n",
+            "34400 tensor(5.2121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34500 tensor(5.3244, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34600 tensor(4.9485, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "124000\n",
+            "34700 tensor(5.2090, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34800 tensor(4.9158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "34900 tensor(5.2443, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "125000\n",
+            "35000 tensor(5.1179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35100 tensor(5.0717, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35200 tensor(5.1812, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "126000\n",
+            "35300 tensor(4.9081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35400 tensor(5.1653, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "127000\n",
+            "35500 tensor(5.1505, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35600 tensor(5.2750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35700 tensor(5.4164, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "128000\n",
+            "35800 tensor(5.1043, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "35900 tensor(5.1016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36000 tensor(5.1461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "129000\n",
+            "36100 tensor(5.2056, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36200 tensor(5.1355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36300 tensor(5.3760, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "130000\n",
+            "36400 tensor(5.2054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36500 tensor(5.3691, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "131000\n",
+            "36600 tensor(4.8645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36700 tensor(5.4200, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "36800 tensor(5.2951, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "132000\n",
+            "36900 tensor(4.9001, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37000 tensor(5.1626, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37100 tensor(4.8412, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "133000\n",
+            "37200 tensor(4.7379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37300 tensor(4.8720, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37400 tensor(4.8967, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "134000\n",
+            "37500 tensor(4.7772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37600 tensor(4.8302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37700 tensor(5.1201, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "135000\n",
+            "37800 tensor(5.1669, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "37900 tensor(5.2367, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "136000\n",
+            "38000 tensor(4.9588, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38100 tensor(5.1460, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38200 tensor(4.8495, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "137000\n",
+            "38300 tensor(5.2402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38400 tensor(4.9173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38500 tensor(5.1901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "138000\n",
+            "38600 tensor(4.7848, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38700 tensor(5.0920, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "38800 tensor(4.8625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "139000\n",
+            "38900 tensor(4.9405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39000 tensor(5.1992, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39100 tensor(4.8887, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "140000\n",
+            "39200 tensor(5.3122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39300 tensor(5.0380, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "141000\n",
+            "39400 tensor(4.9989, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39500 tensor(5.1872, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39600 tensor(4.9061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "142000\n",
+            "39700 tensor(5.2725, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39800 tensor(5.1865, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "39900 tensor(4.8060, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "143000\n",
+            "40000 tensor(4.9448, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40100 tensor(5.0130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40200 tensor(5.0753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "144000\n",
+            "40300 tensor(5.0743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40400 tensor(5.3216, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40500 tensor(4.7829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "145000\n",
+            "40600 tensor(5.3467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40700 tensor(5.2229, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "146000\n",
+            "40800 tensor(4.9148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "40900 tensor(4.9961, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41000 tensor(5.1233, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "147000\n",
+            "41100 tensor(4.9480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41200 tensor(5.1455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41300 tensor(4.7624, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "148000\n",
+            "41400 tensor(4.8317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41500 tensor(5.3050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41600 tensor(4.8164, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "149000\n",
+            "41700 tensor(5.1542, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41800 tensor(5.0889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "41900 tensor(5.0844, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "150000\n",
+            "42000 tensor(5.2015, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42100 tensor(4.6232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "151000\n",
+            "42200 tensor(4.9591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42300 tensor(5.0888, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42400 tensor(4.9506, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "152000\n",
+            "42500 tensor(5.0405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42600 tensor(4.5948, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42700 tensor(5.2494, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "153000\n",
+            "42800 tensor(5.1611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "42900 tensor(4.9517, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43000 tensor(5.1292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "154000\n",
+            "43100 tensor(4.8461, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43200 tensor(5.0209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43300 tensor(5.1240, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "155000\n",
+            "43400 tensor(5.0400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43500 tensor(5.3999, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "156000\n",
+            "43600 tensor(5.3041, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43700 tensor(4.9734, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "43800 tensor(5.1028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "157000\n",
+            "43900 tensor(4.9373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44000 tensor(4.7666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44100 tensor(5.2840, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "158000\n",
+            "44200 tensor(4.8623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44300 tensor(5.3904, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44400 tensor(4.9841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "159000\n",
+            "44500 tensor(4.8345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44600 tensor(4.9179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "160000\n",
+            "44700 tensor(4.8921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44800 tensor(5.1909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "44900 tensor(5.0083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "161000\n",
+            "45000 tensor(4.8715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45100 tensor(5.1750, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45200 tensor(4.9847, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "162000\n",
+            "45300 tensor(5.1416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45400 tensor(4.5706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45500 tensor(4.8476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "163000\n",
+            "45600 tensor(5.1753, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45700 tensor(5.1638, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "45800 tensor(5.0620, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "164000\n",
+            "45900 tensor(4.8623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46000 tensor(5.0958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "165000\n",
+            "46100 tensor(4.9271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46200 tensor(4.8955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46300 tensor(5.2268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "166000\n",
+            "46400 tensor(5.2585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46500 tensor(4.8509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46600 tensor(4.8656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "167000\n",
+            "46700 tensor(5.1203, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46800 tensor(4.7754, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "46900 tensor(4.8504, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "168000\n",
+            "47000 tensor(5.1042, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47100 tensor(5.3206, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47200 tensor(5.0201, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "169000\n",
+            "47300 tensor(5.1387, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47400 tensor(4.9378, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "170000\n",
+            "47500 tensor(5.1120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47600 tensor(5.0451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47700 tensor(5.0578, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "171000\n",
+            "47800 tensor(5.1534, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "47900 tensor(5.1646, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48000 tensor(4.8708, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "172000\n",
+            "48100 tensor(5.2243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48200 tensor(5.0376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48300 tensor(5.1148, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "173000\n",
+            "48400 tensor(4.7304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48500 tensor(4.9864, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48600 tensor(5.1053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "174000\n",
+            "48700 tensor(5.0854, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "48800 tensor(4.8705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "175000\n",
+            "48900 tensor(5.1415, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49000 tensor(4.9185, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49100 tensor(5.1249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "176000\n",
+            "49200 tensor(5.1852, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49300 tensor(4.9728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49400 tensor(5.1541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "177000\n",
+            "49500 tensor(5.2388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49600 tensor(4.8876, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49700 tensor(5.0066, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "178000\n",
+            "49800 tensor(4.9596, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "49900 tensor(5.1618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50000 tensor(5.0436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "179000\n",
+            "50100 tensor(5.1911, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50200 tensor(4.9044, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "180000\n",
+            "50300 tensor(5.1698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50400 tensor(4.8785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50500 tensor(5.1889, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "181000\n",
+            "50600 tensor(4.9799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50700 tensor(4.8507, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "50800 tensor(4.7525, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "182000\n",
+            "50900 tensor(5.0997, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51000 tensor(5.1681, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51100 tensor(5.0502, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "183000\n",
+            "51200 tensor(5.2121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51300 tensor(4.7797, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51400 tensor(5.1379, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "184000\n",
+            "51500 tensor(5.0826, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51600 tensor(5.1736, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "185000\n",
+            "51700 tensor(5.0336, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51800 tensor(5.1728, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "51900 tensor(4.9617, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "186000\n",
+            "52000 tensor(5.1423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52100 tensor(5.2641, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52200 tensor(5.0587, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "187000\n",
+            "52300 tensor(4.9935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52400 tensor(5.0743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52500 tensor(5.0771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "188000\n",
+            "52600 tensor(5.0109, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52700 tensor(5.1416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "189000\n",
+            "52800 tensor(5.1943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "52900 tensor(5.0125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53000 tensor(4.9937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "190000\n",
+            "53100 tensor(4.9477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53200 tensor(4.7327, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53300 tensor(5.2251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "191000\n",
+            "53400 tensor(5.1211, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53500 tensor(5.0256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53600 tensor(5.1351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "192000\n",
+            "53700 tensor(5.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53800 tensor(4.7721, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "53900 tensor(4.7813, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "193000\n",
+            "54000 tensor(5.2923, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54100 tensor(4.4067, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "194000\n",
+            "54200 tensor(5.1834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54300 tensor(4.9698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54400 tensor(4.6432, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "195000\n",
+            "54500 tensor(5.2431, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54600 tensor(5.2523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54700 tensor(4.9880, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "196000\n",
+            "54800 tensor(5.1705, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "54900 tensor(4.8544, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55000 tensor(5.0054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "197000\n",
+            "55100 tensor(5.0684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55200 tensor(5.1112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55300 tensor(5.0787, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "198000\n",
+            "55400 tensor(5.2173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55500 tensor(5.2430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "199000\n",
+            "55600 tensor(4.8266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55700 tensor(5.0219, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "55800 tensor(4.5834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "200000\n",
+            "55900 tensor(5.0455, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56000 tensor(4.9394, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56100 tensor(5.2400, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "201000\n",
+            "56200 tensor(5.2727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56300 tensor(5.0803, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56400 tensor(5.1270, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "202000\n",
+            "56500 tensor(5.1758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56600 tensor(4.8928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56700 tensor(5.0119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "203000\n",
+            "56800 tensor(5.5221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "56900 tensor(4.8963, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "204000\n",
+            "57000 tensor(5.2899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57100 tensor(5.0742, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57200 tensor(4.8940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "205000\n",
+            "57300 tensor(5.0177, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57400 tensor(5.2162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57500 tensor(4.8549, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "206000\n",
+            "57600 tensor(4.7256, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57700 tensor(4.9188, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "57800 tensor(5.2799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "207000\n",
+            "57900 tensor(5.2005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58000 tensor(4.9628, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "208000\n",
+            "58100 tensor(5.3107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58200 tensor(5.3371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58300 tensor(4.9034, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "209000\n",
+            "58400 tensor(4.8145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58500 tensor(4.9395, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58600 tensor(5.3965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "210000\n",
+            "58700 tensor(4.9055, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58800 tensor(5.0192, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "58900 tensor(5.2319, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "211000\n",
+            "59000 tensor(5.1120, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59100 tensor(4.9841, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59200 tensor(5.0341, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "212000\n",
+            "59300 tensor(4.8836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59400 tensor(5.0700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "213000\n",
+            "59500 tensor(5.0094, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59600 tensor(4.9719, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59700 tensor(4.8263, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "214000\n",
+            "59800 tensor(5.0422, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "59900 tensor(5.0391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60000 tensor(5.0464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "215000\n",
+            "60100 tensor(5.1302, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60200 tensor(5.1667, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60300 tensor(4.9755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "216000\n",
+            "60400 tensor(5.0662, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60500 tensor(5.1330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60600 tensor(5.0362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "217000\n",
+            "60700 tensor(4.9462, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "60800 tensor(5.1028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "218000\n",
+            "60900 tensor(5.1816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61000 tensor(5.1451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61100 tensor(5.0389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "219000\n",
+            "61200 tensor(4.7783, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61300 tensor(5.0208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61400 tensor(5.2014, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "220000\n",
+            "61500 tensor(5.0953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61600 tensor(4.9255, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61700 tensor(4.9145, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "221000\n",
+            "61800 tensor(4.9751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "61900 tensor(5.0497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62000 tensor(5.2065, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "222000\n",
+            "62100 tensor(4.8016, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62200 tensor(4.9131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "223000\n",
+            "62300 tensor(4.9816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62400 tensor(4.9049, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62500 tensor(5.0251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "224000\n",
+            "62600 tensor(4.9373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62700 tensor(5.0984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "62800 tensor(4.8395, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "225000\n",
+            "62900 tensor(5.3108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63000 tensor(5.1682, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63100 tensor(5.2454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "226000\n",
+            "63200 tensor(5.1091, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63300 tensor(4.8577, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63400 tensor(5.0426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "227000\n",
+            "63500 tensor(4.9117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63600 tensor(4.9555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "228000\n",
+            "63700 tensor(4.9914, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63800 tensor(5.2633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "63900 tensor(5.3451, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "229000\n",
+            "64000 tensor(4.9019, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64100 tensor(5.1581, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64200 tensor(5.0796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "230000\n",
+            "64300 tensor(5.0816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64400 tensor(4.9050, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64500 tensor(4.9127, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "231000\n",
+            "64600 tensor(4.9467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64700 tensor(5.3998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "64800 tensor(5.0784, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "232000\n",
+            "64900 tensor(5.2337, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65000 tensor(5.1862, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "233000\n",
+            "65100 tensor(4.7268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65200 tensor(5.2401, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65300 tensor(5.0779, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "234000\n",
+            "65400 tensor(5.0225, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65500 tensor(5.0218, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65600 tensor(5.1051, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "235000\n",
+            "65700 tensor(4.8759, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65800 tensor(4.9007, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "65900 tensor(5.1119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "236000\n",
+            "66000 tensor(5.1512, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66100 tensor(4.8563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "237000\n",
+            "66200 tensor(4.8676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66300 tensor(4.8076, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66400 tensor(5.0870, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "238000\n",
+            "66500 tensor(4.8053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66600 tensor(4.9573, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66700 tensor(4.9532, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "239000\n",
+            "66800 tensor(5.0142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "66900 tensor(5.1463, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67000 tensor(5.1613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "240000\n",
+            "67100 tensor(5.0125, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67200 tensor(5.3587, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67300 tensor(4.9968, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "241000\n",
+            "67400 tensor(5.1922, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67500 tensor(5.0287, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "242000\n",
+            "67600 tensor(5.0606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67700 tensor(5.0029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "67800 tensor(5.1391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "243000\n",
+            "67900 tensor(4.8602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68000 tensor(4.9282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68100 tensor(4.7940, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "244000\n",
+            "68200 tensor(5.0718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68300 tensor(4.9727, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68400 tensor(5.0790, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "245000\n",
+            "68500 tensor(5.0921, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68600 tensor(5.0522, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68700 tensor(4.7111, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "246000\n",
+            "68800 tensor(5.1136, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "68900 tensor(4.7838, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "247000\n",
+            "69000 tensor(5.0396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69100 tensor(4.8118, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69200 tensor(4.7698, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "248000\n",
+            "69300 tensor(5.2231, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69400 tensor(5.1113, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69500 tensor(5.0799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "249000\n",
+            "69600 tensor(5.0015, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69700 tensor(5.3189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "69800 tensor(4.8597, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "250000\n",
+            "69900 tensor(5.4064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70000 tensor(5.0562, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70100 tensor(4.9788, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "251000\n",
+            "70200 tensor(5.1238, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70300 tensor(4.7954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "252000\n",
+            "70400 tensor(5.1417, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70500 tensor(5.0851, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70600 tensor(5.3102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "253000\n",
+            "70700 tensor(5.2187, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70800 tensor(5.4180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "70900 tensor(5.2464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "254000\n",
+            "71000 tensor(5.0232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71100 tensor(5.0971, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71200 tensor(5.2289, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "255000\n",
+            "71300 tensor(4.8301, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71400 tensor(4.9594, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71500 tensor(4.9527, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "256000\n",
+            "71600 tensor(5.1395, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71700 tensor(5.2029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "257000\n",
+            "71800 tensor(5.2958, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "71900 tensor(4.9839, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72000 tensor(5.4251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "258000\n",
+            "72100 tensor(5.1480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72200 tensor(4.9666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72300 tensor(5.0831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "259000\n",
+            "72400 tensor(4.9905, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72500 tensor(5.0817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72600 tensor(5.1276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "260000\n",
+            "72700 tensor(4.8184, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72800 tensor(5.2583, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "72900 tensor(4.9964, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "261000\n",
+            "73000 tensor(5.1877, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73100 tensor(4.8954, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "262000\n",
+            "73200 tensor(4.9722, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73300 tensor(4.9351, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73400 tensor(5.2009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "263000\n",
+            "73500 tensor(5.0204, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73600 tensor(4.9348, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73700 tensor(5.0774, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "264000\n",
+            "73800 tensor(5.1100, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "73900 tensor(5.1179, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74000 tensor(5.2795, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "265000\n",
+            "74100 tensor(4.9642, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74200 tensor(4.9902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74300 tensor(4.9494, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "266000\n",
+            "74400 tensor(5.0772, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74500 tensor(4.6984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "267000\n",
+            "74600 tensor(5.2123, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74700 tensor(5.2695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "74800 tensor(4.9678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "268000\n",
+            "74900 tensor(4.7941, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75000 tensor(5.0980, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75100 tensor(5.2916, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "269000\n",
+            "75200 tensor(5.0355, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75300 tensor(5.2583, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75400 tensor(5.0347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "270000\n",
+            "75500 tensor(5.3012, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75600 tensor(4.9714, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "271000\n",
+            "75700 tensor(5.0178, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75800 tensor(4.9899, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "75900 tensor(5.0695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "272000\n",
+            "76000 tensor(4.8497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76100 tensor(4.8143, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76200 tensor(4.8724, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "273000\n",
+            "76300 tensor(5.0268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76400 tensor(4.8836, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76500 tensor(5.0496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "274000\n",
+            "76600 tensor(5.1337, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76700 tensor(4.8128, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "76800 tensor(4.7389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "275000\n",
+            "76900 tensor(5.0926, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77000 tensor(4.9780, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "276000\n",
+            "77100 tensor(5.3241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77200 tensor(4.9880, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77300 tensor(4.9250, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "277000\n",
+            "77400 tensor(5.0480, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77500 tensor(4.7045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77600 tensor(5.0635, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "278000\n",
+            "77700 tensor(5.2122, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77800 tensor(4.8158, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "77900 tensor(4.7201, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "279000\n",
+            "78000 tensor(5.1809, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78100 tensor(4.8416, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78200 tensor(5.1227, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "280000\n",
+            "78300 tensor(5.0000, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78400 tensor(5.0232, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "281000\n",
+            "78500 tensor(5.3672, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78600 tensor(4.8266, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78700 tensor(5.2883, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "282000\n",
+            "78800 tensor(5.1556, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "78900 tensor(5.3901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79000 tensor(4.9368, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "283000\n",
+            "79100 tensor(4.7262, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79200 tensor(4.8004, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79300 tensor(5.2785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "284000\n",
+            "79400 tensor(5.0932, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79500 tensor(4.9747, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79600 tensor(5.5676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "285000\n",
+            "79700 tensor(4.7581, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "79800 tensor(5.0427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "286000\n",
+            "79900 tensor(5.0180, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80000 tensor(5.1512, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80100 tensor(5.2409, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "287000\n",
+            "80200 tensor(5.2435, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80300 tensor(5.2283, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80400 tensor(5.3199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "288000\n",
+            "80500 tensor(5.0696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80600 tensor(5.2085, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80700 tensor(5.2603, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "289000\n",
+            "80800 tensor(4.7770, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "80900 tensor(5.1645, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "290000\n",
+            "81000 tensor(5.1184, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81100 tensor(5.1388, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81200 tensor(4.8794, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "291000\n",
+            "81300 tensor(4.9514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81400 tensor(5.0975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81500 tensor(5.0673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "292000\n",
+            "81600 tensor(5.0619, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81700 tensor(5.1551, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "81800 tensor(5.0009, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "293000\n",
+            "81900 tensor(5.2308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82000 tensor(5.0541, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82100 tensor(5.0817, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "294000\n",
+            "82200 tensor(5.0208, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82300 tensor(4.8939, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "295000\n",
+            "82400 tensor(5.1285, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82500 tensor(4.8489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82600 tensor(5.0365, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "296000\n",
+            "82700 tensor(5.0726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82800 tensor(5.0563, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "82900 tensor(4.7439, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "297000\n",
+            "83000 tensor(5.1423, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83100 tensor(5.0052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83200 tensor(5.2631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "298000\n",
+            "83300 tensor(4.9471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83400 tensor(5.0234, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83500 tensor(4.9797, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "299000\n",
+            "83600 tensor(4.9047, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83700 tensor(5.1383, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "300000\n",
+            "83800 tensor(4.8484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "83900 tensor(4.9279, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84000 tensor(5.0825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "301000\n",
+            "84100 tensor(5.4376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84200 tensor(4.5984, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84300 tensor(5.0169, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "302000\n",
+            "84400 tensor(4.8503, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84500 tensor(5.0322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84600 tensor(5.2033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "303000\n",
+            "84700 tensor(4.9052, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84800 tensor(4.9265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "84900 tensor(5.2419, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "304000\n",
+            "85000 tensor(5.1251, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85100 tensor(5.0005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "305000\n",
+            "85200 tensor(5.0029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85300 tensor(5.2717, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85400 tensor(5.2511, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "306000\n",
+            "85500 tensor(4.9489, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85600 tensor(5.0751, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85700 tensor(5.0649, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "307000\n",
+            "85800 tensor(5.0660, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "85900 tensor(5.3243, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86000 tensor(5.0756, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "308000\n",
+            "86100 tensor(4.8535, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86200 tensor(4.9982, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86300 tensor(4.9693, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "309000\n",
+            "86400 tensor(5.0700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86500 tensor(5.1470, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "310000\n",
+            "86600 tensor(4.9735, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86700 tensor(4.8743, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "86800 tensor(4.8816, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "311000\n",
+            "86900 tensor(4.7666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87000 tensor(5.2600, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87100 tensor(5.0591, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "312000\n",
+            "87200 tensor(5.1044, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87300 tensor(4.9555, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87400 tensor(5.0028, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "313000\n",
+            "87500 tensor(5.1317, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87600 tensor(5.2621, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87700 tensor(4.8937, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "314000\n",
+            "87800 tensor(4.8559, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "87900 tensor(5.1339, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "315000\n",
+            "88000 tensor(4.6132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88100 tensor(4.9682, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88200 tensor(5.1715, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "316000\n",
+            "88300 tensor(5.1112, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88400 tensor(5.1811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88500 tensor(4.8046, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "317000\n",
+            "88600 tensor(4.8210, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88700 tensor(4.8294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "88800 tensor(4.8198, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "318000\n",
+            "88900 tensor(4.7496, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89000 tensor(4.5654, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89100 tensor(5.1261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "319000\n",
+            "89200 tensor(4.9374, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89300 tensor(5.3199, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "320000\n",
+            "89400 tensor(4.6848, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89500 tensor(5.0381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89600 tensor(5.2632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "321000\n",
+            "89700 tensor(4.8221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89800 tensor(5.0413, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "89900 tensor(5.0402, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "322000\n",
+            "90000 tensor(5.0519, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90100 tensor(4.9362, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90200 tensor(5.0257, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "323000\n",
+            "90300 tensor(5.0438, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90400 tensor(4.7173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90500 tensor(4.9121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "324000\n",
+            "90600 tensor(5.1965, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90700 tensor(4.8207, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "325000\n",
+            "90800 tensor(5.0536, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "90900 tensor(5.1080, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91000 tensor(5.1328, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "326000\n",
+            "91100 tensor(4.7033, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91200 tensor(5.1643, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91300 tensor(5.3472, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "327000\n",
+            "91400 tensor(4.7267, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91500 tensor(4.9552, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91600 tensor(5.2054, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "328000\n",
+            "91700 tensor(5.0471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "91800 tensor(5.2265, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "329000\n",
+            "91900 tensor(5.0523, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92000 tensor(5.0726, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92100 tensor(4.9322, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "330000\n",
+            "92200 tensor(4.5777, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92300 tensor(5.0606, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92400 tensor(5.1319, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "331000\n",
+            "92500 tensor(5.1785, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92600 tensor(5.0610, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92700 tensor(4.7718, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "332000\n",
+            "92800 tensor(4.8492, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "92900 tensor(5.3673, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93000 tensor(5.0656, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "333000\n",
+            "93100 tensor(4.9975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93200 tensor(5.1829, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "334000\n",
+            "93300 tensor(5.1131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93400 tensor(5.1585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93500 tensor(4.9141, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "335000\n",
+            "93600 tensor(5.0526, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93700 tensor(5.1195, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "93800 tensor(4.8696, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "336000\n",
+            "93900 tensor(5.0752, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94000 tensor(4.9943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94100 tensor(4.8657, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "337000\n",
+            "94200 tensor(5.1230, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94300 tensor(5.0292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94400 tensor(5.0633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "338000\n",
+            "94500 tensor(4.9025, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94600 tensor(5.1955, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "339000\n",
+            "94700 tensor(4.7546, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94800 tensor(5.2260, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "94900 tensor(5.2268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "340000\n",
+            "95000 tensor(5.3426, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95100 tensor(5.0509, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95200 tensor(4.8831, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "341000\n",
+            "95300 tensor(5.2464, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95400 tensor(4.7030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95500 tensor(4.9484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "342000\n",
+            "95600 tensor(4.9381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95700 tensor(5.1246, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "95800 tensor(5.0476, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "343000\n",
+            "95900 tensor(4.8117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96000 tensor(5.1602, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "344000\n",
+            "96100 tensor(4.9363, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96200 tensor(4.9611, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96300 tensor(5.0053, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "345000\n",
+            "96400 tensor(5.0561, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96500 tensor(5.2501, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96600 tensor(5.0376, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "346000\n",
+            "96700 tensor(5.1798, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96800 tensor(5.0684, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "96900 tensor(5.2261, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "347000\n",
+            "97000 tensor(4.9142, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97100 tensor(5.0132, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97200 tensor(5.1487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "348000\n",
+            "97300 tensor(4.9732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97400 tensor(5.0108, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "349000\n",
+            "97500 tensor(5.1571, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97600 tensor(4.9469, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97700 tensor(5.0162, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "350000\n",
+            "97800 tensor(4.9770, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "97900 tensor(4.7823, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98000 tensor(4.8846, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "351000\n",
+            "98100 tensor(5.2296, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98200 tensor(4.9268, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98300 tensor(5.0850, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "352000\n",
+            "98400 tensor(5.1678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98500 tensor(5.2236, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "353000\n",
+            "98600 tensor(5.2631, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98700 tensor(5.0668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "98800 tensor(5.0674, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "354000\n",
+            "98900 tensor(5.0695, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99000 tensor(5.2623, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99100 tensor(5.1354, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "355000\n",
+            "99200 tensor(5.1557, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99300 tensor(4.9458, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99400 tensor(5.2565, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "356000\n",
+            "99500 tensor(5.2732, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99600 tensor(5.0011, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99700 tensor(4.8497, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "357000\n",
+            "99800 tensor(5.0679, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "99900 tensor(5.0005, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100000 tensor(4.9254, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "358000\n",
+            "100100 tensor(5.4405, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100200 tensor(4.7585, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "359000\n",
+            "100300 tensor(5.0083, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100400 tensor(4.9893, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100500 tensor(4.8576, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "360000\n",
+            "100600 tensor(4.8928, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100700 tensor(4.8947, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "100800 tensor(5.2061, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "361000\n",
+            "100900 tensor(5.1799, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101000 tensor(5.0292, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101100 tensor(5.0604, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "362000\n",
+            "101200 tensor(5.0287, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101300 tensor(5.2627, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "363000\n",
+            "101400 tensor(4.8027, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101500 tensor(5.0308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101600 tensor(5.2625, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "364000\n",
+            "101700 tensor(4.9086, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101800 tensor(4.7064, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "101900 tensor(4.9304, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "365000\n",
+            "102000 tensor(5.1991, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102100 tensor(5.1194, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102200 tensor(5.3738, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "366000\n",
+            "102300 tensor(5.2404, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102400 tensor(5.1821, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102500 tensor(5.1676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "367000\n",
+            "102600 tensor(5.1029, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102700 tensor(5.1796, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "368000\n",
+            "102800 tensor(5.0834, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "102900 tensor(4.8583, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103000 tensor(5.0342, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "369000\n",
+            "103100 tensor(5.3343, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103200 tensor(4.9536, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103300 tensor(5.0340, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "370000\n",
+            "103400 tensor(5.0580, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103500 tensor(4.9467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103600 tensor(5.0845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "371000\n",
+            "103700 tensor(5.1711, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103800 tensor(5.0389, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "103900 tensor(4.9456, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "372000\n",
+            "104000 tensor(4.9239, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104100 tensor(4.9678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "373000\n",
+            "104200 tensor(5.0781, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104300 tensor(4.8800, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104400 tensor(5.2081, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "374000\n",
+            "104500 tensor(5.1255, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104600 tensor(4.9805, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104700 tensor(4.9825, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "375000\n",
+            "104800 tensor(5.5062, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "104900 tensor(5.0209, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105000 tensor(5.1373, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "376000\n",
+            "105100 tensor(5.0935, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105200 tensor(5.1819, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105300 tensor(5.1386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "377000\n",
+            "105400 tensor(5.3493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105500 tensor(5.2102, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "378000\n",
+            "105600 tensor(4.9484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105700 tensor(4.9119, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "105800 tensor(4.9584, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "379000\n",
+            "105900 tensor(5.1010, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106000 tensor(5.1442, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106100 tensor(5.3454, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "380000\n",
+            "106200 tensor(5.0330, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106300 tensor(5.1396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106400 tensor(4.9693, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "381000\n",
+            "106500 tensor(5.2242, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106600 tensor(4.9223, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106700 tensor(5.1467, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "382000\n",
+            "106800 tensor(4.9459, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "106900 tensor(5.2412, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "383000\n",
+            "107000 tensor(4.9030, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107100 tensor(5.1487, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107200 tensor(5.1303, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "384000\n",
+            "107300 tensor(4.8918, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107400 tensor(5.0686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107500 tensor(4.8140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "385000\n",
+            "107600 tensor(4.8693, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107700 tensor(5.0879, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "107800 tensor(5.0939, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "386000\n",
+            "107900 tensor(5.3087, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108000 tensor(5.0659, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108100 tensor(5.0273, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "387000\n",
+            "108200 tensor(5.0357, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108300 tensor(5.0666, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "388000\n",
+            "108400 tensor(5.1699, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108500 tensor(4.8493, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108600 tensor(5.0399, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "389000\n",
+            "108700 tensor(4.5729, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108800 tensor(4.9686, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "108900 tensor(4.7163, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "390000\n",
+            "109000 tensor(5.1307, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109100 tensor(4.7140, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109200 tensor(4.9282, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "391000\n",
+            "109300 tensor(4.5945, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109400 tensor(4.9045, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109500 tensor(4.8345, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "392000\n",
+            "109600 tensor(5.0347, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109700 tensor(5.3972, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "393000\n",
+            "109800 tensor(4.7386, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "109900 tensor(4.9312, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110000 tensor(5.0107, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "394000\n",
+            "110100 tensor(4.9484, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110200 tensor(5.3088, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110300 tensor(5.1758, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "395000\n",
+            "110400 tensor(4.6608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110500 tensor(5.0811, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110600 tensor(4.9037, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "396000\n",
+            "110700 tensor(4.8701, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110800 tensor(5.3046, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "110900 tensor(4.9689, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "397000\n",
+            "111000 tensor(5.1637, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111100 tensor(4.9131, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "398000\n",
+            "111200 tensor(4.9308, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111300 tensor(5.0290, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111400 tensor(5.1249, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "399000\n",
+            "111500 tensor(5.2130, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111600 tensor(5.2382, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111700 tensor(4.8168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "400000\n",
+            "111800 tensor(5.0276, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "111900 tensor(5.1121, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112000 tensor(5.0463, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "401000\n",
+            "112100 tensor(4.6612, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112200 tensor(5.0632, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "402000\n",
+            "112300 tensor(5.2173, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112400 tensor(5.2271, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112500 tensor(4.8618, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "403000\n",
+            "112600 tensor(4.9399, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112700 tensor(4.9514, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "112800 tensor(4.5700, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "404000\n",
+            "112900 tensor(4.8508, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113000 tensor(5.0784, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113100 tensor(5.0205, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "405000\n",
+            "113200 tensor(4.5998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113300 tensor(4.9371, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113400 tensor(5.0241, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "406000\n",
+            "113500 tensor(5.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113600 tensor(5.2488, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "407000\n",
+            "113700 tensor(4.8483, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113800 tensor(5.2471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "113900 tensor(5.0391, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "408000\n",
+            "114000 tensor(4.6978, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114100 tensor(4.8170, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114200 tensor(4.7943, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "409000\n",
+            "114300 tensor(4.6678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114400 tensor(4.8687, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114500 tensor(4.9471, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "410000\n",
+            "114600 tensor(5.1608, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114700 tensor(5.1240, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "114800 tensor(5.0586, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "411000\n",
+            "114900 tensor(5.0095, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115000 tensor(4.9676, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "412000\n",
+            "115100 tensor(5.0771, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115200 tensor(5.0396, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115300 tensor(5.0663, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "413000\n",
+            "115400 tensor(5.2931, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115500 tensor(5.2901, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115600 tensor(5.0953, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "414000\n",
+            "115700 tensor(4.9706, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115800 tensor(5.0768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "115900 tensor(5.1668, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "415000\n",
+            "116000 tensor(5.0913, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116100 tensor(4.8294, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116200 tensor(5.2189, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "416000\n",
+            "116300 tensor(4.3633, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116400 tensor(5.1168, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "417000\n",
+            "116500 tensor(5.0554, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116600 tensor(5.1477, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116700 tensor(4.9884, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "418000\n",
+            "116800 tensor(4.8381, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "116900 tensor(5.0709, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117000 tensor(5.0518, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "419000\n",
+            "117100 tensor(5.0967, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117200 tensor(4.9430, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117300 tensor(5.2903, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "420000\n",
+            "117400 tensor(5.2733, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117500 tensor(4.8548, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "421000\n",
+            "117600 tensor(5.1768, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117700 tensor(5.1013, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "117800 tensor(4.9804, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "422000\n",
+            "117900 tensor(5.0671, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118000 tensor(5.1332, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118100 tensor(4.9436, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "423000\n",
+            "118200 tensor(4.9859, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118300 tensor(4.9755, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118400 tensor(5.0902, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "424000\n",
+            "118500 tensor(4.9845, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118600 tensor(5.1098, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118700 tensor(5.1192, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "425000\n",
+            "118800 tensor(5.1445, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "118900 tensor(5.1731, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "426000\n",
+            "119000 tensor(4.6613, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119100 tensor(4.9640, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119200 tensor(5.2998, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "427000\n",
+            "119300 tensor(4.9427, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119400 tensor(4.9993, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119500 tensor(5.0117, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "428000\n",
+            "119600 tensor(5.3324, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119700 tensor(4.9375, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "119800 tensor(5.0221, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "429000\n",
+            "119900 tensor(4.7975, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120000 tensor(4.9253, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120100 tensor(4.9377, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "430000\n",
+            "120200 tensor(5.0909, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120300 tensor(4.9946, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "431000\n",
+            "120400 tensor(5.3612, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120500 tensor(4.9678, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "120600 tensor(5.2217, device='cuda:0', grad_fn=<NllLossBackward0>)\n",
+            "432000\n"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "## Eval"
+      ],
+      "metadata": {
+        "id": "fnL8e_NkvwtY"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "\n",
+        "model = Bigram(vocab_size, embed_size).to(device)\n",
+        "model.load_state_dict(torch.load('model.bin'))\n",
+        "model.eval()\n",
+        "\n",
+        "res = torch.tensor(vocab.forward(['for'])).to(device)\n",
+        "\n",
+        "out = model(res)\n",
+        "top = torch.topk(out[0], 10)\n",
+        "top_indices = top.indices.tolist()\n",
+        "top_probs = top.values.tolist()\n",
+        "top_words = vocab.lookup_tokens(top_indices)\n",
+        "list(zip(top_words, top_indices, top_probs))"
+      ],
+      "metadata": {
+        "id": "7LykJxNEWNdJ",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "6b8f9a38-dbcd-4285-ff30-a45d0ee760bf"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stderr",
+          "text": [
+            "/usr/local/lib/python3.10/dist-packages/torch/nn/modules/container.py:217: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.\n",
+            "  input = module(input)\n"
+          ]
+        },
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[('<unk>', 0, 0.23156249523162842),\n",
+              " ('the', 1, 0.2045561522245407),\n",
+              " ('a', 5, 0.0636623203754425),\n",
+              " ('his', 20, 0.012841351330280304),\n",
+              " ('their', 40, 0.012044394388794899),\n",
+              " ('this', 28, 0.011758995242416859),\n",
+              " ('tho', 33, 0.010536346584558487),\n",
+              " ('some', 77, 0.008259670808911324),\n",
+              " ('any', 49, 0.007337945979088545),\n",
+              " ('an', 38, 0.007214350625872612)]"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 26
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "vocab = train_dataset.vocab\n",
+        "res = torch.tensor(vocab.forward(['wait'])).to(device)\n",
+        "\n",
+        "out = model(res)\n",
+        "top = torch.topk(out[0], 20)\n",
+        "top_indices = top.indices.tolist()\n",
+        "top_probs = top.values.tolist()\n",
+        "top_words = vocab.lookup_tokens(top_indices)\n",
+        "list(zip(top_words, top_indices, top_probs))"
+      ],
+      "metadata": {
+        "id": "wep6U9NYWNfx",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "a089a1e6-a4d3-49cb-d860-2c48a4d8f83b"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[('until', 145, 0.17603398859500885),\n",
+              " ('for', 9, 0.16400693356990814),\n",
+              " ('<unk>', 0, 0.15191353857517242),\n",
+              " ('on', 15, 0.04624223709106445),\n",
+              " ('till', 677, 0.035729214549064636),\n",
+              " ('a', 5, 0.03367603197693825),\n",
+              " ('to', 4, 0.029361305758357048),\n",
+              " ('upon', 59, 0.01995147578418255),\n",
+              " ('and', 3, 0.01906605064868927),\n",
+              " ('in', 6, 0.013167516328394413),\n",
+              " ('at', 14, 0.011669990606606007),\n",
+              " ('the', 1, 0.010971800424158573),\n",
+              " ('of', 2, 0.005925077944993973),\n",
+              " ('with', 16, 0.0055325529538095),\n",
+              " ('In', 32, 0.004919056314975023),\n",
+              " ('until\\\\nthe', 5509, 0.004719363059848547),\n",
+              " ('tor', 532, 0.004647853318601847),\n",
+              " ('for\\\\nthe', 389, 0.004400868900120258),\n",
+              " ('two', 74, 0.0043497709557414055),\n",
+              " ('patiently', 14401, 0.004239553119987249)]"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 28
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "cos = nn.CosineSimilarity(dim=1, eps=1e-6)\n",
+        "\n",
+        "embeddings = model.model[0].weight\n",
+        "\n",
+        "vec = embeddings[vocab['take']]\n",
+        "\n",
+        "similarities = cos(vec, embeddings)\n",
+        "\n",
+        "top = torch.topk(similarities, 10)\n",
+        "\n",
+        "top_indices = top.indices.tolist()\n",
+        "top_probs = top.values.tolist()\n",
+        "top_words = vocab.lookup_tokens(top_indices)\n",
+        "list(zip(top_words, top_indices, top_probs))"
+      ],
+      "metadata": {
+        "id": "VCkcPiNCWNiZ",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "afcac703-ef72-45d3-b6af-cce72c8d9483"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[('take', 152, 1.0000001192092896),\n",
+              " ('took', 248, 0.8024641275405884),\n",
+              " ('taking', 538, 0.775847852230072),\n",
+              " ('takes', 1108, 0.7307196855545044),\n",
+              " ('to\\\\ntake', 3165, 0.7301462888717651),\n",
+              " ('taken', 180, 0.6280043125152588),\n",
+              " ('will\\\\ntake', 11101, 0.6152595281600952),\n",
+              " ('tako', 6281, 0.5979241132736206),\n",
+              " ('have\\\\ntaken', 15483, 0.5244049429893494),\n",
+              " ('Take', 5203, 0.5183135867118835)]"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 30
+        }
+      ]
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "vocab = train_dataset.vocab\n",
+        "res = torch.tensor(vocab.forward(['take'])).to(device)\n",
+        "\n",
+        "out = model(res)\n",
+        "top = torch.topk(out[0], 20)\n",
+        "top_indices = top.indices.tolist()\n",
+        "top_probs = top.values.tolist()\n",
+        "top_words = vocab.lookup_tokens(top_indices)\n",
+        "list(zip(top_words, top_indices, top_probs))"
+      ],
+      "metadata": {
+        "id": "km2U9fR4WNlI",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "ae1fd560-ac8f-480a-a961-f8eb0f265fac"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "execute_result",
+          "data": {
+            "text/plain": [
+              "[('<unk>', 0, 0.18006379902362823),\n",
+              " ('the', 1, 0.11970410495996475),\n",
+              " ('a', 5, 0.07213426381349564),\n",
+              " ('care', 611, 0.027887443080544472),\n",
+              " ('up', 69, 0.027840441092848778),\n",
+              " ('it', 17, 0.023985734209418297),\n",
+              " ('place', 159, 0.020694952458143234),\n",
+              " ('advantage', 1458, 0.015635941177606583),\n",
+              " ('his', 20, 0.014868981204926968),\n",
+              " ('part', 131, 0.013506578281521797),\n",
+              " ('an', 38, 0.013118326663970947),\n",
+              " ('their', 40, 0.010849231854081154),\n",
+              " ('hold', 478, 0.010717789642512798),\n",
+              " ('them', 72, 0.010186631232500076),\n",
+              " ('to', 4, 0.009746687486767769),\n",
+              " ('this', 28, 0.009519988670945168),\n",
+              " ('any', 49, 0.009436620399355888),\n",
+              " ('her', 53, 0.008774512447416782),\n",
+              " ('him', 70, 0.008407332003116608),\n",
+              " ('all', 34, 0.007673078216612339)]"
+            ]
+          },
+          "metadata": {},
+          "execution_count": 33
+        }
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### Create files for geval"
+      ],
+      "metadata": {
+        "id": "GVDTtvY6v2pt"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "def get_values(presc_word, model, vocab):\n",
+        "    ixs =  torch.tensor(vocab.forward([presc_word])).to(device)\n",
+        "    out = model(ixs)\n",
+        "    top = torch.topk(out[0], 20)\n",
+        "    top_indices = top.indices.tolist()\n",
+        "    top_probs = top.values.tolist()\n",
+        "    top_words = vocab.lookup_tokens(top_indices)\n",
+        "    return list(zip(top_words, top_probs))\n",
+        "\n",
+        "def last_word(text):\n",
+        "    \"\"\"Return the last word of a string.\"\"\"\n",
+        "    last_word = \"\"\n",
+        "    for i in range(len(text)-1, -1, -1):\n",
+        "        if text[i] == ' ':\n",
+        "            return last_word[::-1]\n",
+        "        else:\n",
+        "            last_word += text[i]\n",
+        "    return last_word[::-1]\n",
+        "\n",
+        "def first_word(text):\n",
+        "    \"\"\"Return the first word of a string.\"\"\"\n",
+        "    word = \"\"\n",
+        "    for i in range(len(text)-1):\n",
+        "        if text[i] == ' ':\n",
+        "            return word\n",
+        "        else:\n",
+        "            word += text[i]\n",
+        "    return word\n",
+        "\n",
+        "def sum_prob(dic):\n",
+        "    probsum = sum(float(val) for key, val in dic.items())\n",
+        "    probsum = probsum - float(dic.get('<unk>', 0))\n",
+        "    if \"<unk>\" in dic.keys():\n",
+        "        del dic['<unk>']\n",
+        "    tab = [(key, val) for key, val in dic.items()]\n",
+        "    tab.append(('<unk>', 1-probsum))\n",
+        "    return tab\n",
+        "\n",
+        "def format_to(dic):\n",
+        "    tab = sum_prob(dic)\n",
+        "    result = ''\n",
+        "    for element in tab[:-1]:\n",
+        "        result+=str(element[0])+':'+str(element[1])+'\\t'\n",
+        "    result+=':'+ str(tab[-1][1])+'\\n'\n",
+        "    return result"
+      ],
+      "metadata": {
+        "id": "rUqKisSfWNnp"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "with lzma.open(test_file, 'rt') as file:\n",
+        "    predict_words = []\n",
+        "    results = []\n",
+        "    for line in file:\n",
+        "        split = line.split('\\t')[6:] \n",
+        "        predict_words.append(last_word(split[0]))\n",
+        "    \n",
+        "    vocab = train_dataset.vocab\n",
+        "    for presc_word in predict_words:\n",
+        "        results.append(dict(get_values(presc_word, model ,vocab)))\n",
+        "    \n",
+        "    with open(out_file, 'w') as outfile:\n",
+        "        for elem in results:\n",
+        "            outfile.write(format_to(elem))\n",
+        "\n"
+      ],
+      "metadata": {
+        "id": "cVpm-tRzWNqR"
+      },
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}
\ No newline at end of file
diff --git a/geval b/geval
deleted file mode 100755
index a24aaff..0000000
Binary files a/geval and /dev/null differ
diff --git a/gonito.yaml b/gonito.yaml
new file mode 100644
index 0000000..d10755a
--- /dev/null
+++ b/gonito.yaml
@@ -0,0 +1,3 @@
+description: My solution
+tags:
+  - trigram