{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Wyszukiwarka - szybka i sensowna" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Roboczy przykład\n", "\n", "Zakładamy, że mamy pewną kolekcję dokumentów $D = {d_1, \\ldots, d_N}$. ($N$ - liczba dokumentów w kolekcji)." ] }, { "cell_type": "code", "execution_count": 90, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Podobno jest kot w butach." ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "{-# LANGUAGE OverloadedStrings #-}\n", "\n", "import Data.Text hiding(map, filter, zip)\n", "import Prelude hiding(words, take)\n", "\n", "collectionD :: [Text]\n", "collectionD = [\"Ala ma kota.\", \"Podobno jest kot w butach.\", \"Ty chyba masz kota!\", \"But chyba zgubiłem.\"]\n", "\n", "-- Operator (!!) zwraca element listy o podanym indeksie\n", "-- (Przy większych listach będzie nieefektywne, ale nie będziemy komplikować)\n", "collectionD !! 1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Wydobycie tekstu\n", "\n", "Przykładowe narzędzia:\n", "\n", "* pdftotext\n", "* antiword\n", "* Tesseract OCR\n", "* Apache Tika - uniwersalne narzędzie do wydobywania tekstu z różnych formatów\n", "\n", "## Normalizacja tekstu\n", "\n", "Cokolwiek robimy z tekstem, najpierw musimy go _znormalizować_." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Tokenizacja\n", "\n", "Po pierwsze musimy podzielić tekst na _tokeny_, czyli wyrazapodobne jednostki.\n", "Może po prostu podzielić po spacjach?" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Ala" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "ma" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "kota." ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "tokenizeStupidly :: Text -> [Text]\n", "-- words to funkcja z Data.Text, która dzieli po spacjach\n", "tokenizeStupidly = words\n", "\n", "tokenizeStupidly $ Prelude.head collectionD" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A, trzeba _chociaż_ odsunąć znaki interpunkcyjne. Najprościej użyć wyrażenia regularnego. Warto użyć [unikodowych własności](https://en.wikipedia.org/wiki/Unicode_character_property) znaków i konstrukcji `\\p{...}`. "output_type": "display_data" } ], "source": [ "tokenize \"l'ordinateur\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Lematyzacja" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "_Lematyzacja_ to sprowadzenie do formy podstawowej (_lematu_), np. \"krześle\" do \"krzesło\", \"zrobimy\" do \"zrobić\" dla języka polskiego, \"chairs\" do \"chair\", \"made\" do \"make\" dla języka angielskiego." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lematyzacja dla języka polskiego jest bardzo trudna, praktycznie nie sposób wykonać ją regułowo, po prostu musimy się postarać o bardzo obszerny _słownik form fleksyjnych_.\n", "\n", "Na potrzeby tego wykładu stwórzmy sobie mały słownik form fleksyjnych w postaci tablicy asocjacyjnej (haszującej)." ] }, { "cell_type": "code", "execution_count": 80, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
Jakie?\n", "\n", "Obszerny słownik form fleksyjnych dla języka polskiego: http://zil.ipipan.waw.pl/PoliMorf?action=AttachFile&do=view&target=PoliMorf-0.6.7.tab.gz" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Stemowanie\n", "\n", "Stemowanie (rdzeniowanie) obcina wyraz do _rdzenia_ niekoniecznie będącego sensownym wyrazem, np. \"krześle\" może być rdzeniowane do \"krześl\", \"krześ\" albo \"krzes\", \"zrobimy\" do \"zrobi\".\n", "\n", "* stemowanie nie jest tak dobrze określone jak lematyzacja (można robić na wiele sposobów)\n", "* bardziej podatne na metody regułowe (choć dla polskiego i tak trudno)\n", "* dla angielskiego istnieją znane algorytmy stemowania, np. [algorytm Portera](https://tartarus.org/martin/PorterStemmer/def.txt)\n", "* zob. też [program Snowball](https://snowballstem.org/) z regułami dla wielu języków\n", "\n", "Prosty stemmer \"dla ubogich\" dla języka polskiego to obcinanie do sześciu znaków." ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "zrobim" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "komput" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "butach" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "poorMansStemming :: Text -> Text\n", "poorMansStemming = take 6\n", "\n", "poorMansStemming \"zrobimy\"\n", "poorMansStemming \"komputerami\"\n", "poorMansStemming \"butach\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### _Stop words_\n", "\n", "Często wyszukiwarki pomijają krótkie, częste i nieniosące znaczenia słowa - _stop words_ (_słowa przestankowe_)." ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "False" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "True" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "isStopWord :: Text -> Bool\n", "isStopWord \"w\" = True\n", "isStopWord \"jest\" = True\n", "isStopWord \"że\" = True\n", "-- przy okazji możemy pozbyć się znaków interpunkcyjnych\n", "isStopWord w = w ≈ [re|^\\p{P}+$|]\n", "\n", "isStopWord \"kot\"\n", "isStopWord \"!\"\n" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Ala" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "ma" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "kota" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "removeStopWords :: [Text] -> [Text]\n", "removeStopWords = filter (not . isStopWord)\n", "\n", "removeStopWords $ tokenize $ Prelude.head collectionD " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Pytanie**: Jakim zapytaniom usuwanie _stop words_ może szkodzić? Podać przykłady dla języka polskiego i angielskiego. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Normalizacja - różności\n", "\n", "W skład normalizacji może też wchodzić:\n", "\n", "* poprawianie błędów literowych\n", "* sprowadzanie do małych liter (lower-casing czy raczej case-folding)\n", "* usuwanie znaków diakrytycznych\n", "\n" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "żdźbło" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "toLower \"ŻDŹBŁO\"" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "źdźbło" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "toCaseFold \"ŹDŹBŁO\"" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**Pytanie:** Kiedy _case-folding_ da inny wynik niż _lower-casing_? Jakie to ma praktyczne znaczenie?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Normalizacja jako całościowy proces\n", "\n", "Najważniejsza zasada: dokumenty w naszej kolekcji powinny być normalizowane w dokładnie taki sposób, jak zapytania.\n", "\n", "Efektem normalizacji jest zamiana dokumentu na ciąg _termów_ (ang. _terms_), czyli znormalizowanych wyrazów.\n", "\n", "Innymi słowy po normalizacji dokument $d_i$ traktujemy jako ciąg termów $t_i^1,\\dots,t_i^{|d_i|}$." ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "but" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "chyba" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/plain": [ "zgubić" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "normalize :: Text -> [Text]\n", "normalize = removeStopWords . map toLower . lemmatize mockInflectionDictionary . tokenize\n", "\n", "normalize $ collectionD !! 3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zbiór wszystkich termów w kolekcji dokumentów nazywamy słownikiem (ang. _vocabulary_), nie mylić ze słownikiem jako strukturą danych w Pythonie (_dictionary_).\n", "\n", "$$V = \\bigcup_{i=1}^N \\{t_i^1,\\dots,t_i^{|d_i|}\\}$$\n", "\n", "(To zbiór, więc liczymy bez powtórzeń!)" ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "fromList [\"ala\",\"but\",\"chyba\",\"kot\",\"mie\\263\",\"podobno\",\"ty\",\"zgubi\\263\"]" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import Data.Set as Set hiding(map)\n", "\n", "getVocabulary :: [Text] -> Set Text \n", "getVocabulary = Set.unions . map (Set.fromList . normalize) \n", "\n", "getVocabulary collectionD" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Jak wyszukiwarka może być szybka?\n", "\n", "_Odwrócony indeks_ (ang. _inverted index_) pozwala wyszukiwarce szybko szukać w milionach dokumentów. Odwrócoy indeks to prostu... indeks, jaki znamy z książek (mapowanie słów na numery stron/dokumentów).\n", "\n", "\n", "\n" ] }, { "cell_type": "code", "execution_count": 88, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " $\n", " \\newcommand{\\idf}{\\mathop{\\rm idf}\\nolimits}\n", " \\newcommand{\\tf}{\\mathop{\\rm tf}\\nolimits}\n", " \\newcommand{\\df}{\\mathop{\\rm df}\\nolimits}\n", " \\newcommand{\\tfidf}{\\mathop{\\rm tfidf}\\nolimits}\n", " $\n", "
\n", "\n", "* $\\tf_{t,d}$\n", "\n", "* $1+\\log(\\tf_{t,d})$\n", "\n", "* $0.5 + \\frac{0.5 \\times \\tf_{t,d}}{max_t(\\tf_{t,d})}$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", " $\n", " \\newcommand{\\idf}{\\mathop{\\rm idf}\\nolimits}\n", " \\newcommand{\\tf}{\\mathop{\\rm tf}\\nolimits}\n", " \\newcommand{\\df}{\\mathop{\\rm df}\\nolimits}\n", " \\newcommand{\\tfidf}{\\mathop{\\rm tfidf}\\nolimits}\n", " $\n", "
\n", "\n", "### Odwrotna częstość dokumentowa\n", "\n", "Czy wszystkie wyrazy są tak samo ważne?\n", "\n", "**NIE.** Wyrazy pojawiające się w wielu dokumentach są mniej ważne.\n", "\n", "Aby to uwzględnić, przemnażamy frekwencję wyrazu przez _odwrotną\n", " częstość w dokumentach_ (_inverse document frequency_):\n", "\n", "$$\\idf_t = \\log \\frac{N}{\\df_t},$$\n", "\n", "gdzie:\n", "\n", "* $\\idf_t$ - odwrotna częstość wyrazu $t$ w dokumentach\n", "\n", "* $N$ - liczba dokumentów w kolekcji\n", "\n", "* $\\df_f$ - w ilu dokumentach wystąpił wyraz $t$?\n", "\n", "#### Dlaczego idf?\n", "\n", "term $t$ wystąpił...\n", "\n", "* w 1 dokumencie, $\\idf_t = \\log N/1 = \\log N$\n", "* 2 razy w kolekcji, $\\idf_t = \\log N/2$ lub $\\log N$\n", "* 3 razy w kolekcji, $\\idf_t = \\log N/(N/2) = \\log 2$\n", "* we wszystkich dokumentach, $\\idf_t = \\log N/N = \\log 1 = 0$\n", "\n", "#### Co z tego wynika?\n", "\n", "Zamiast $\\tf_{t,d}$ będziemy w wektorach rozpatrywać wartości:\n", "\n", "$$\\tfidf_{t,d} = \\tf_{t,d} \\times \\idf_{t}$$\n", "\n", "Teraz zdefiniujemy _overlap score measure_:\n", "\n", "$$\\sigma(q,d) = \\sum_{t \\in q} \\tfidf_{t,d}$$\n", "\n", "\n", "\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Haskell", "language": "haskell", "name": "haskell" }, "language_info": { "codemirror_mode": "ihaskell", "file_extension": ".hs", "mimetype": "text/x-haskell", "name": "haskell", "pygments_lexer": "Haskell", "version": "8.10.4" } }, "nbformat": 4, "nbformat_minor": 4 }