diff --git a/wyk/06_Podobienstwo_slow.ipynb b/wyk/08_Podobienstwo_slow.ipynb similarity index 92% rename from wyk/06_Podobienstwo_slow.ipynb rename to wyk/08_Podobienstwo_slow.ipynb index b923f2a..cff326e 100644 --- a/wyk/06_Podobienstwo_slow.ipynb +++ b/wyk/08_Podobienstwo_slow.ipynb @@ -1,5 +1,20 @@ { "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Modelowanie języka

\n", + "

08. Podobieństwo słów [wykład]

\n", + "

Filip Graliński (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n", + "\n" + ] + }, { "cell_type": "markdown", "metadata": {}, @@ -56,7 +71,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Odległość Lewensztajna\n", + "#### Odległość Lewensztejna\n", "\n" ] }, @@ -69,7 +84,7 @@ " wątpliwości). Więc może oprzeć podobieństwa na powierzchownym\n", " podobieństwie?\n", "\n", - "Możemy zastosować tutaj **odległość Lewensztajna**, czyli minimalną liczbę operacji edycyjnych, które\n", + "Możemy zastosować tutaj **odległość Lewensztejna**, czyli minimalną liczbę operacji edycyjnych, które\n", "są potrzebne, aby przekształcić jedno słowo w drugie. Zazwyczaj jako elementarne operacje edycyjne\n", "definiuje się:\n", "\n", @@ -116,7 +131,7 @@ "raczej bytów przez nie denotowanych (słowa oznaczające zwierzęta\n", "należące do gromady ptaków chcemy traktować jako, w jakiejś mierze przynajmnie, podobne)?\n", "\n", - "Dodajmy jeszcze, że w miejsce odległości Lewensztajna warto czasami\n", + "Dodajmy jeszcze, że w miejsce odległości Lewensztejna warto czasami\n", "używać podobieństwa Jaro-Winklera, które mniejszą wagę przywiązuje do zmian w końcówkach wyrazów:\n", "\n" ] @@ -276,7 +291,7 @@ "*An Essay towards a Real Character and a Philosophical Language*\n", "zaproponował on rozbudowaną hierarchię bytów.\n", "\n", - "![img](./06_Podobienstwo_slow/wilkins.png \"Fragment dzieła Johna Wilkinsa\")\n", + "![img](./08_Podobienstwo_slow/wilkins.png \"Fragment dzieła Johna Wilkinsa\")\n", "\n" ] }, @@ -298,7 +313,7 @@ "- dla języka polskiego: [Słowosieć](http://plwordnet.pwr.wroc.pl),\n", "- dla języka angielskiego: [Princeton Wordnet](https://wordnet.princeton.edu/) (i Słowosieć!)\n", "\n", - "![img](./06_Podobienstwo_slow/slowosiec.png \"Fragment Słowosieci\")\n", + "![img](./08_Podobienstwo_slow/slowosiec.png \"Fragment Słowosieci\")\n", "\n" ] } @@ -319,7 +334,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.10.2" + "version": "3.10.5" }, "org": null }, diff --git a/wyk/06_Podobienstwo_slow.org b/wyk/08_Podobienstwo_slow.org similarity index 94% rename from wyk/06_Podobienstwo_slow.org rename to wyk/08_Podobienstwo_slow.org index daac12f..0c78c8e 100644 --- a/wyk/06_Podobienstwo_slow.org +++ b/wyk/08_Podobienstwo_slow.org @@ -20,14 +20,14 @@ $P(u|v) \approx P(u'|v')$. Można wskazać trzy sposoby określania podobieństwa słów: odległość edycyjna Lewensztajna, hierarchie słów i odległość w przestrzeni wielowymiarowej. -*** Odległość Lewensztajna +*** Odległość Lewensztejna Słowo /dom/ ma coś wspólnego z /domem/, /domkiem/, /domostwem/, /domownikami/, /domowym/ i /udomowieniem/ (?? — tu już można mieć wątpliwości). Więc może oprzeć podobieństwa na powierzchownym podobieństwie? -Możemy zastosować tutaj *odległość Lewensztajna*, czyli minimalną liczbę operacji edycyjnych, które +Możemy zastosować tutaj *odległość Lewensztejna*, czyli minimalną liczbę operacji edycyjnych, które są potrzebne, aby przekształcić jedno słowo w drugie. Zazwyczaj jako elementarne operacje edycyjne definiuje się: @@ -38,7 +38,7 @@ definiuje się: Na przykład odległość edycyjna między słowami /domkiem/ i /domostwem/ wynosi 4: zamiana /k/ na /o/, /i/ na /s/, dodanie /t/, dodanie /w/. -#+BEGIN_SRC python :session mysession :exports both :results raw drawer +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer import Levenshtein Levenshtein.distance('domkiem', 'domostwem') #+END_SRC @@ -60,10 +60,10 @@ słów będące przykładem *supletywizmu*: /człowiek/-/ludzie/, raczej bytów przez nie denotowanych (słowa oznaczające zwierzęta należące do gromady ptaków chcemy traktować jako, w jakiejś mierze przynajmnie, podobne)? -Dodajmy jeszcze, że w miejsce odległości Lewensztajna warto czasami +Dodajmy jeszcze, że w miejsce odległości Lewensztejna warto czasami używać podobieństwa Jaro-Winklera, które mniejszą wagę przywiązuje do zmian w końcówkach wyrazów: -#+BEGIN_SRC python :session mysession :exports both :results raw drawer +#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer import Levenshtein Levenshtein.jaro_winkler('domu', 'domowy') Levenshtein.jaro_winkler('domowy', 'maskowy') @@ -141,7 +141,7 @@ Przykładem jest angielski uczony John Wilkins (1614-1672). W dziele zaproponował on rozbudowaną hierarchię bytów. #+CAPTION: Fragment dzieła Johna Wilkinsa -[[./06_Podobienstwo_slow/wilkins.png]] +[[./08_Podobienstwo_slow/wilkins.png]] ***** Słowosieci @@ -152,4 +152,4 @@ Przykłady: - dla języka angielskiego: [[https://wordnet.princeton.edu/][Princeton Wordnet]] (i Słowosieć!) #+CAPTION: Fragment Słowosieci -[[./06_Podobienstwo_slow/slowosiec.png]] +[[./08_Podobienstwo_slow/slowosiec.png]] diff --git a/wyk/08_Podobienstwo_slow/slowosiec.png b/wyk/08_Podobienstwo_slow/slowosiec.png new file mode 100644 index 0000000..a0d44cc Binary files /dev/null and b/wyk/08_Podobienstwo_slow/slowosiec.png differ diff --git a/wyk/08_Podobienstwo_slow/wilkins.png b/wyk/08_Podobienstwo_slow/wilkins.png new file mode 100644 index 0000000..2ddc63e Binary files /dev/null and b/wyk/08_Podobienstwo_slow/wilkins.png differ