{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", "
\n", "

Ekstrakcja informacji

\n", "

1. Wyszukiwarki — wprowadzenie [wykład]

\n", "

Filip Graliński (2021)

\n", "
\n", "\n", "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Wyszukiwarki - wprowadzenie\n", "\n", "## Systemy wyszukiwania informacji (information retrieval systems)\n", "\n", "![Schemat systemu wyszukiwania informacji](system-wyszukiwania-informacji.png)" ] }, { "cell_type": "markdown", "metadata": { "jp-MarkdownHeadingCollapsed": true, "tags": [] }, "source": [ "## Wyszukiwarki\n", "\n", "![Schemat wyszukiwarki internetowej](wyszukiwarka-internetowa.png)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Chcę stworzyć swoją własną wyszukiwarkę internetową...\n", "\n", "1. Skąd brać adresy URL?\n", "2. Jak pobrać pliki z tych adresów?\n", "3. Jak wydobyć z nich tekst?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ... a może w ogóle nie pobierać?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Korpus CommonCrawl\n", "\n", "https://commoncrawl.org/the-data/" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "