diff --git a/wyk/01_Wyszukiwarki-wprowadzenie.ipynb b/wyk/01_Wyszukiwarki-wprowadzenie.ipynb index 753d30b..70b97ce 100644 --- a/wyk/01_Wyszukiwarki-wprowadzenie.ipynb +++ b/wyk/01_Wyszukiwarki-wprowadzenie.ipynb @@ -20,6 +20,337 @@ "![Wyszukiwarki](wyszukiwarka-internetowa.png)" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Chcę stworzyć swoją własną wyszukiwarkę internetową...\n", + "\n", + "1. Skąd brać adresy URL?\n", + "2. Jak pobrać pliki z tych adresów?\n", + "3. Jak wydobyć z nich tekst?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## ... a może w ogóle nie pobierać?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Korpus CommonCrawl\n", + "\n", + "https://commoncrawl.org/the-data/" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "