Fix 08
This commit is contained in:
parent
1e50331206
commit
1340767be9
@ -1,5 +1,20 @@
|
||||
{
|
||||
"cells": [
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n",
|
||||
"<div class=\"alert alert-block alert-info\">\n",
|
||||
"<h1> Modelowanie języka</h1>\n",
|
||||
"<h2> 08. <i>Podobieństwo słów</i> [wykład]</h2> \n",
|
||||
"<h3> Filip Graliński (2022)</h3>\n",
|
||||
"</div>\n",
|
||||
"\n",
|
||||
"![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)\n",
|
||||
"\n"
|
||||
]
|
||||
},
|
||||
{
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
@ -56,7 +71,7 @@
|
||||
"cell_type": "markdown",
|
||||
"metadata": {},
|
||||
"source": [
|
||||
"#### Odległość Lewensztajna\n",
|
||||
"#### Odległość Lewensztejna\n",
|
||||
"\n"
|
||||
]
|
||||
},
|
||||
@ -69,7 +84,7 @@
|
||||
" wątpliwości). Więc może oprzeć podobieństwa na powierzchownym\n",
|
||||
" podobieństwie?\n",
|
||||
"\n",
|
||||
"Możemy zastosować tutaj **odległość Lewensztajna**, czyli minimalną liczbę operacji edycyjnych, które\n",
|
||||
"Możemy zastosować tutaj **odległość Lewensztejna**, czyli minimalną liczbę operacji edycyjnych, które\n",
|
||||
"są potrzebne, aby przekształcić jedno słowo w drugie. Zazwyczaj jako elementarne operacje edycyjne\n",
|
||||
"definiuje się:\n",
|
||||
"\n",
|
||||
@ -116,7 +131,7 @@
|
||||
"raczej bytów przez nie denotowanych (słowa oznaczające zwierzęta\n",
|
||||
"należące do gromady ptaków chcemy traktować jako, w jakiejś mierze przynajmnie, podobne)?\n",
|
||||
"\n",
|
||||
"Dodajmy jeszcze, że w miejsce odległości Lewensztajna warto czasami\n",
|
||||
"Dodajmy jeszcze, że w miejsce odległości Lewensztejna warto czasami\n",
|
||||
"używać podobieństwa Jaro-Winklera, które mniejszą wagę przywiązuje do zmian w końcówkach wyrazów:\n",
|
||||
"\n"
|
||||
]
|
||||
@ -276,7 +291,7 @@
|
||||
"*An Essay towards a Real Character and a Philosophical Language*\n",
|
||||
"zaproponował on rozbudowaną hierarchię bytów.\n",
|
||||
"\n",
|
||||
"![img](./06_Podobienstwo_slow/wilkins.png \"Fragment dzieła Johna Wilkinsa\")\n",
|
||||
"![img](./08_Podobienstwo_slow/wilkins.png \"Fragment dzieła Johna Wilkinsa\")\n",
|
||||
"\n"
|
||||
]
|
||||
},
|
||||
@ -298,7 +313,7 @@
|
||||
"- dla języka polskiego: [Słowosieć](http://plwordnet.pwr.wroc.pl),\n",
|
||||
"- dla języka angielskiego: [Princeton Wordnet](https://wordnet.princeton.edu/) (i Słowosieć!)\n",
|
||||
"\n",
|
||||
"![img](./06_Podobienstwo_slow/slowosiec.png \"Fragment Słowosieci\")\n",
|
||||
"![img](./08_Podobienstwo_slow/slowosiec.png \"Fragment Słowosieci\")\n",
|
||||
"\n"
|
||||
]
|
||||
}
|
||||
@ -319,7 +334,7 @@
|
||||
"name": "python",
|
||||
"nbconvert_exporter": "python",
|
||||
"pygments_lexer": "ipython3",
|
||||
"version": "3.10.2"
|
||||
"version": "3.10.5"
|
||||
},
|
||||
"org": null
|
||||
},
|
@ -20,14 +20,14 @@ $P(u|v) \approx P(u'|v')$.
|
||||
Można wskazać trzy sposoby określania podobieństwa słów: odległość
|
||||
edycyjna Lewensztajna, hierarchie słów i odległość w przestrzeni wielowymiarowej.
|
||||
|
||||
*** Odległość Lewensztajna
|
||||
*** Odległość Lewensztejna
|
||||
|
||||
Słowo /dom/ ma coś wspólnego z /domem/, /domkiem/, /domostwem/,
|
||||
/domownikami/, /domowym/ i /udomowieniem/ (?? — tu już można mieć
|
||||
wątpliwości). Więc może oprzeć podobieństwa na powierzchownym
|
||||
podobieństwie?
|
||||
|
||||
Możemy zastosować tutaj *odległość Lewensztajna*, czyli minimalną liczbę operacji edycyjnych, które
|
||||
Możemy zastosować tutaj *odległość Lewensztejna*, czyli minimalną liczbę operacji edycyjnych, które
|
||||
są potrzebne, aby przekształcić jedno słowo w drugie. Zazwyczaj jako elementarne operacje edycyjne
|
||||
definiuje się:
|
||||
|
||||
@ -38,7 +38,7 @@ definiuje się:
|
||||
Na przykład odległość edycyjna między słowami /domkiem/ i /domostwem/
|
||||
wynosi 4: zamiana /k/ na /o/, /i/ na /s/, dodanie /t/, dodanie /w/.
|
||||
|
||||
#+BEGIN_SRC python :session mysession :exports both :results raw drawer
|
||||
#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
|
||||
import Levenshtein
|
||||
Levenshtein.distance('domkiem', 'domostwem')
|
||||
#+END_SRC
|
||||
@ -60,10 +60,10 @@ słów będące przykładem *supletywizmu*: /człowiek/-/ludzie/,
|
||||
raczej bytów przez nie denotowanych (słowa oznaczające zwierzęta
|
||||
należące do gromady ptaków chcemy traktować jako, w jakiejś mierze przynajmnie, podobne)?
|
||||
|
||||
Dodajmy jeszcze, że w miejsce odległości Lewensztajna warto czasami
|
||||
Dodajmy jeszcze, że w miejsce odległości Lewensztejna warto czasami
|
||||
używać podobieństwa Jaro-Winklera, które mniejszą wagę przywiązuje do zmian w końcówkach wyrazów:
|
||||
|
||||
#+BEGIN_SRC python :session mysession :exports both :results raw drawer
|
||||
#+BEGIN_SRC ipython :session mysession :exports both :results raw drawer
|
||||
import Levenshtein
|
||||
Levenshtein.jaro_winkler('domu', 'domowy')
|
||||
Levenshtein.jaro_winkler('domowy', 'maskowy')
|
||||
@ -141,7 +141,7 @@ Przykładem jest angielski uczony John Wilkins (1614-1672). W dziele
|
||||
zaproponował on rozbudowaną hierarchię bytów.
|
||||
|
||||
#+CAPTION: Fragment dzieła Johna Wilkinsa
|
||||
[[./06_Podobienstwo_slow/wilkins.png]]
|
||||
[[./08_Podobienstwo_slow/wilkins.png]]
|
||||
|
||||
***** Słowosieci
|
||||
|
||||
@ -152,4 +152,4 @@ Przykłady:
|
||||
- dla języka angielskiego: [[https://wordnet.princeton.edu/][Princeton Wordnet]] (i Słowosieć!)
|
||||
|
||||
#+CAPTION: Fragment Słowosieci
|
||||
[[./06_Podobienstwo_slow/slowosiec.png]]
|
||||
[[./08_Podobienstwo_slow/slowosiec.png]]
|
BIN
wyk/08_Podobienstwo_slow/slowosiec.png
Normal file
BIN
wyk/08_Podobienstwo_slow/slowosiec.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 77 KiB |
BIN
wyk/08_Podobienstwo_slow/wilkins.png
Normal file
BIN
wyk/08_Podobienstwo_slow/wilkins.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 20 KiB |
Loading…
Reference in New Issue
Block a user