moj-2024-ns-cw/05_zadania.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",
    "Zadania (jeżeli wymagają napisania programu) piszemy w języku Python"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 1 (30 punktów)\n",
    "\n",
    "Przepuść przez model GPT2 tekst \"I live in New\". \n",
    "\n",
    "Wypisz 5 najbardziej prawdopodobnych tokenów, dla każdego tokenu w tekście wraz z wartościami prawdopodobieństwa. Proszę nie korzystać z funkcji generate z biblioteki transformers."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 2 (50 punktów)\n",
    "\n",
    "Wygeneruj 100 kolejnych tokenów po słowach \"Today I was\" w trzech różnych wariantach parametru temperatury (bez korzystania z funkcji generate z biblioteki transformers - proszę samemu napisać softmaxa z temperaturą):\n",
    "\n",
    "* Temperatura = 0.01\n",
    "* Temperatura = 1.0\n",
    "* Temperatura = 5.0\n",
    "\n",
    "Napisz czym różnią się powstałe teksty"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Zadanie 3 (100 punktów)\n",
    "\n",
    "Wykonaj trening modelu GPT2 na dowolnym korpusie składającym się z minimum 50000 słów bez użycia gotowych bibliotek do trenowania. Po wytrenowaniu modelu wygeneruj po 30 tokenów dla 3 różniących się przykładowych zdań."
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}