From 6deecf43dde715475d3298c7510d9901484597d7 Mon Sep 17 00:00:00 2001 From: Filip Gralinski Date: Tue, 9 Mar 2021 22:24:20 +0100 Subject: [PATCH 1/2] More on Lecture 1 --- wyk/01_Wyszukiwarki-wprowadzenie.ipynb | 331 +++++++++++++++++++++++++ 1 file changed, 331 insertions(+) diff --git a/wyk/01_Wyszukiwarki-wprowadzenie.ipynb b/wyk/01_Wyszukiwarki-wprowadzenie.ipynb index 753d30b..70b97ce 100644 --- a/wyk/01_Wyszukiwarki-wprowadzenie.ipynb +++ b/wyk/01_Wyszukiwarki-wprowadzenie.ipynb @@ -20,6 +20,337 @@ "![Wyszukiwarki](wyszukiwarka-internetowa.png)" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Chcę stworzyć swoją własną wyszukiwarkę internetową...\n", + "\n", + "1. Skąd brać adresy URL?\n", + "2. Jak pobrać pliki z tych adresów?\n", + "3. Jak wydobyć z nich tekst?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## ... a może w ogóle nie pobierać?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Korpus CommonCrawl\n", + "\n", + "https://commoncrawl.org/the-data/" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "