lab3 v2

2023-03-29 04:16:25 +02:00 · 2023-03-29 04:16:25 +02:00 · 582e470488
commit 582e470488
parent c9d19f350c
1 changed files with 101 additions and 0 deletions
--- a/Lab3/lab3_solution.ipynb
+++ b/Lab3/lab3_solution.ipynb
@ -313,6 +313,57 @@
    "# Nie do końca rozumiem jak mam zapisać ten codec."
   ]
  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Entropia\n",
+    "    \n",
+    "|                            | Entropia  |\n",
+    "| -----------                | ----------- |\n",
+    "| tekst  w jęz. naturalnym   | 1.8044238296689334|\n",
+    "| losowy tekst (jednostajny)   |  6.016344    |\n",
+    "| losowy tekst (geometryczny)|  3.5592  |\n",
+    "| losowy tekst (dwupunktowy 0.5) |    1.27216    |\n",
+    "| losowy tekst (dwupunktowy 0.9) |    0.760824     |\n"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Wielkości w bitach:\n",
+    "    \n",
+    "|                        | Plik nieskompresowany  | Plik skompresowany (zip, tar,.. ) |  Plik skompresowany + tablica kodowa) |\n",
+    "| -----------                | ----------- |-----------|----------- |\n",
+    "| tekst  w jęz. naturalnym   |54358422*8|12130821*8|29452163*8|\n",
+    "| losowy tekst (jednostajny)   |1000000*8|752307*8|748756*8|\n",
+    "| losowy tekst (geometryczny)|1000000*8|44629*8|37535*8|\n",
+    "| losowy tekst (dwupunktowy 0.5)|1000000*8|150394*8|187520*8|\n",
+    "| losowy tekst (dwupunktowy 0.9)|1000000*8|82011*8|137559*8|"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Wnioski:"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "- Najmniej optymalnie koduje się tekst naturalny.\n",
+    "- Kodowanie Huffmana jest najbardziej optymalne dla rozkładu dwupunktowego 0.9, poniewaz mała grupa znaków ma bardzo duze prawdopowobienstwo wystąpienia i na odwrot.\n",
+    "- Kompresja .tar bardziej opłacalna dla języka naturalnego\n",
+    "- Dla losowych tekstów im mniejsza entropia tym bardziej wydajna kompresja\n",
+    "- Losowy tekst (rozkład jednostajny) ma większą entropię niż tekst w języku naturalnym"
+   ]
+  },
  {
   "attachments": {},
   "cell_type": "markdown",
@ -363,6 +414,56 @@
    "print(unigram_entropy(words))"
   ]
  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Entropia\n",
+    "    \n",
+    "|                            | Entropia    |\n",
+    "| -----------                | ----------- |\n",
+    "| tekst  w jęz. naturalnym   |9.27320212652544|\n",
+    "| losowy tekst (jednostajny)   |  6.016344    |\n",
+    "| losowy tekst (geometryczny)|  3.5592  |\n"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Wielkości w bitach:\n",
+    "    \n",
+    "|                        | Plik nieskompresowany  | Plik skompresowany (zip, tar,.. ) |  Plik skompresowany + tablica kodowa) |\n",
+    "| -----------                | ----------- |-----------|----------- |\n",
+    "| tekst  w jęz. naturalnym   |54358422*8|12130821*8|29452163*8|\n",
+    "| losowy tekst (jednostajny)   |1000000*8|752307*8|748756*8|\n",
+    "| losowy tekst (geometryczny)|1000000*8|44629*8|37535*8|\n",
+    "| losowy tekst (dwupunktowy 0.5)|1000000*8|150394*8|187520*8|\n",
+    "| losowy tekst (dwupunktowy 0.9)|1000000*8|82011*8|137559*8|"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Wnioski:\n"
+   ]
+  },
+  {
+   "attachments": {},
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "- korpusy bez spacji (które mają tylko 1 wyraz) mają tylko jeden bajt\n",
+    "- Korpusy bez spacji mają większą tablice kodową niż nieskompresowany plik\n",
+    "- Kompresowanie na wyrazach wydaję się być gorsze niż na znakach z powodu ogromnej tablicy kodowej\n",
+    "- W jęzuku naturalbym częściej występują te same wyrazy niż w losowym tekście (jednostajnym)\n",
+    "- Kompresowanie huffmanem na słowach dla plików z jednym wyrazem nie ma sesnu"
+   ]
+  },
  {
   "cell_type": "markdown",
   "metadata": {},