{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Wyszukiwarki - wprowadzenie\n", "\n", "## Systemy wyszukiwania informacji\n", "\n", "![System wyszukiwania informacji](system-wyszukiwania-informacji.png)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Wyszukiwarki\n", "\n", "![Wyszukiwarki](wyszukiwarka-internetowa.png)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Chcę stworzyć swoją własną wyszukiwarkę internetową...\n", "\n", "1. Skąd brać adresy URL?\n", "2. Jak pobrać pliki z tych adresów?\n", "3. Jak wydobyć z nich tekst?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ... a może w ogóle nie pobierać?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Korpus CommonCrawl\n", "\n", "https://commoncrawl.org/the-data/" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "