moj-2024/lab/04_statystyczny_model_językowy.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<h1> Modelowanie języka </h1>\n",
    "<h2> 4. <i>Statystyczny model językowy</i>  [ćwiczenia]</h2> "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 278,
   "metadata": {},
   "outputs": [],
   "source": [
    "NR_INDEKSU = 375985"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "https://web.stanford.edu/~jurafsky/slp3/3.pdf"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {},
   "outputs": [],
   "source": [
    "class Model():\n",
    "    \n",
    "    def __init__(self, vocab_size=30_000, UNK_token= '<UNK>'):\n",
    "        pass\n",
    "    \n",
    "    def train(corpus:list) -> None:\n",
    "        pass\n",
    "    \n",
    "    def get_conditional_prob_for_word(text: list, word: str) -> float:\n",
    "        pass\n",
    "    \n",
    "    def get_prob_for_text(text: list) -> float:\n",
    "        pass\n",
    "    \n",
    "    def most_probable_next_word(text:list) -> str:\n",
    "        'nie powinien zwracań nigdy <UNK>'\n",
    "        pass\n",
    "    \n",
    "    def high_probable_next_word(text:list) -> str:\n",
    "        'nie powinien zwracań nigdy <UNK>'\n",
    "        pass\n",
    "    \n",
    "    def generate_text(text_beggining:list, length: int, greedy: bool) -> list:\n",
    "        'nie powinien zwracań nigdy <UNK>'\n",
    "        pass"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_perplexity(text: list) -> float:\n",
    "    pass"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {},
   "outputs": [],
   "source": [
    "def get_entropy(text: list) -> float:\n",
    "    pass"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Zadanie (60 punktów)\n",
    "\n",
    "- Wybierz tekst w dowolnym języku (10 000 000 słów).\n",
    "- Podziel zbiór na train/test w proporcji 90/100.\n",
    "- Stwórz unigramowy model językowy.\n",
    "- Stwórz bigramowy model językowy.\n",
    "- Stwórz trigramowy model językowy.\n",
    "- Wymyśl 5 krótkich zdań. Dla każdego oblicz jego prawdopodobieństwo.\n",
    "- Napisz włąsnoręcznie funkcję, która liczy perplexity na korpusie i policz perplexity na każdym z modeli dla podzbiorów train i test.\n",
    "- Wygeneruj tekst, zaczynając od wymyślonych 5 początków. Postaraj się, żeby dla obu funkcji, a przynajmniej dla `high_probable_next_word`, teksty były orginalne.\n",
    "- Stwórz model dla korpusu z ZADANIE 1 i policz perplexity dla każdego z tekstów (zrób split 90/10) dla train i test.\n",
    "- Dokonaj klasyfikacji za pomocą modelu językowego.\n",
    "- Zastosuj wygładzanie metodą Laplace'a.\n",
    "- Znajdź duży zbiór danych dla klasyfikacji binarnej, wytrenuj osobne modele dla każdej z klas i użyj dla klasyfikacji."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### START ZADANIA"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### KONIEC ZADANIA"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## WYKONANIE ZADAŃ\n",
    "Zgodnie z instrukcją 01_Kodowanie_tekstu.ipynb"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Teoria informacji"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Wygładzanie modeli językowych"
   ]
  }
 ],
 "metadata": {
  "author": "Jakub Pokrywka",
  "email": "kubapok@wmi.amu.edu.pl",
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "lang": "pl",
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.12"
  },
  "subtitle": "0.Informacje na temat przedmiotu[ćwiczenia]",
  "title": "Ekstrakcja informacji",
  "year": "2021"
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
Lab 4 2024-03-26 14:24:52 +01:00			`{`
			`"cells": [`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"<h1> Modelowanie języka </h1>\n",`
			`"<h2> 4. <i>Statystyczny model językowy</i> [ćwiczenia]</h2> "`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": 278,`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"NR_INDEKSU = 375985"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"https://web.stanford.edu/~jurafsky/slp3/3.pdf"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": 36,`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"class Model():\n",`
			`" \n",`
			`" def __init__(self, vocab_size=30_000, UNK_token= '<UNK>'):\n",`
			`" pass\n",`
			`" \n",`
			`" def train(corpus:list) -> None:\n",`
			`" pass\n",`
			`" \n",`
			`" def get_conditional_prob_for_word(text: list, word: str) -> float:\n",`
			`" pass\n",`
			`" \n",`
			`" def get_prob_for_text(text: list) -> float:\n",`
			`" pass\n",`
			`" \n",`
			`" def most_probable_next_word(text:list) -> str:\n",`
			`" 'nie powinien zwracań nigdy <UNK>'\n",`
			`" pass\n",`
			`" \n",`
			`" def high_probable_next_word(text:list) -> str:\n",`
			`" 'nie powinien zwracań nigdy <UNK>'\n",`
			`" pass\n",`
			`" \n",`
			`" def generate_text(text_beggining:list, length: int, greedy: bool) -> list:\n",`
			`" 'nie powinien zwracań nigdy <UNK>'\n",`
			`" pass"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
Lab 4 2024-03-27 11:25:15 +01:00			`"execution_count": 1,`
Lab 4 2024-03-26 14:24:52 +01:00			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
Lab 4 2024-03-27 11:25:15 +01:00			`"def get_perplexity(text: list) -> float:\n",`
Lab 4 2024-03-26 14:24:52 +01:00			`" pass"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": 37,`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"def get_entropy(text: list) -> float:\n",`
			`" pass"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
Lab 4 2024-03-27 11:25:15 +01:00			`"## Zadanie (60 punktów)\n",`
Lab 4 2024-03-26 14:24:52 +01:00			`"\n",`
Lab 4 2024-03-27 11:25:15 +01:00			`"- Wybierz tekst w dowolnym języku (10 000 000 słów).\n",`
			`"- Podziel zbiór na train/test w proporcji 90/100.\n",`
			`"- Stwórz unigramowy model językowy.\n",`
			`"- Stwórz bigramowy model językowy.\n",`
			`"- Stwórz trigramowy model językowy.\n",`
			`"- Wymyśl 5 krótkich zdań. Dla każdego oblicz jego prawdopodobieństwo.\n",`
			`"- Napisz włąsnoręcznie funkcję, która liczy perplexity na korpusie i policz perplexity na każdym z modeli dla podzbiorów train i test.\n",`
			"- Wygeneruj tekst, zaczynając od wymyślonych 5 początków. Postaraj się, żeby dla obu funkcji, a przynajmniej dla `high_probable_next_word`, teksty były orginalne.\n",
			`"- Stwórz model dla korpusu z ZADANIE 1 i policz perplexity dla każdego z tekstów (zrób split 90/10) dla train i test.\n",`
			`"- Dokonaj klasyfikacji za pomocą modelu językowego.\n",`
			`"- Zastosuj wygładzanie metodą Laplace'a.\n",`
			`"- Znajdź duży zbiór danych dla klasyfikacji binarnej, wytrenuj osobne modele dla każdej z klas i użyj dla klasyfikacji."`
Lab 4 2024-03-26 14:24:52 +01:00			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### START ZADANIA"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"#### KONIEC ZADANIA"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"## WYKONANIE ZADAŃ\n",`
			`"Zgodnie z instrukcją 01_Kodowanie_tekstu.ipynb"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"## Teoria informacji"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"metadata": {},`
			`"source": [`
			`"## Wygładzanie modeli językowych"`
			`]`
			`}`
			`],`
			`"metadata": {`
			`"author": "Jakub Pokrywka",`
			`"email": "kubapok@wmi.amu.edu.pl",`
			`"kernelspec": {`
			`"display_name": "Python 3",`
			`"language": "python",`
			`"name": "python3"`
			`},`
			`"lang": "pl",`
			`"language_info": {`
			`"codemirror_mode": {`
			`"name": "ipython",`
			`"version": 3`
			`},`
			`"file_extension": ".py",`
			`"mimetype": "text/x-python",`
			`"name": "python",`
			`"nbconvert_exporter": "python",`
			`"pygments_lexer": "ipython3",`
Lab 4 2024-03-27 11:25:15 +01:00			`"version": "3.10.12"`
Lab 4 2024-03-26 14:24:52 +01:00			`},`
			`"subtitle": "0.Informacje na temat przedmiotu[ćwiczenia]",`
			`"title": "Ekstrakcja informacji",`
			`"year": "2021"`
			`},`
			`"nbformat": 4,`
			`"nbformat_minor": 4`
			`}`