From 8c34124a9b88210c10c974f45de88279c9c87086 Mon Sep 17 00:00:00 2001 From: Jakub Pokrywka Date: Tue, 22 Mar 2022 12:58:16 +0100 Subject: [PATCH] 3 --- cw/03a_tfidf.ipynb | 33 +++++++++++++++++++-------------- 1 file changed, 19 insertions(+), 14 deletions(-) diff --git a/cw/03a_tfidf.ipynb b/cw/03a_tfidf.ipynb index 5c40820..292afe7 100644 --- a/cw/03a_tfidf.ipynb +++ b/cw/03a_tfidf.ipynb @@ -437,6 +437,20 @@ "### IDF" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Wersja bez żadnej normalizacji\n", + "\n", + "\n", + "$idf_i = \\Large\\frac{|D|}{|\\{d : t_i \\in d \\}|}$\n", + "\n", + "\n", + "$|D|$ - ilość dokumentów w korpusie\n", + "$|\\{d : t_i \\in d \\}|$ - ilość dokumentów w korpusie, gdzie dany term występuje chociaż jeden raz" + ] + }, { "cell_type": "code", "execution_count": 22, @@ -470,7 +484,7 @@ "outputs": [], "source": [ "for i in range(len(documents_vectorized)):\n", - " documents_vectorized[i] = documents_vectorized[i]# * idf" + " documents_vectorized[i] = documents_vectorized[i] * idf" ] }, { @@ -961,7 +975,9 @@ { "cell_type": "code", "execution_count": 36, - "metadata": {}, + "metadata": { + "scrolled": true + }, "outputs": [ { "data": { @@ -1065,18 +1081,7 @@ { "cell_type": "markdown", "metadata": {}, - "source": [ - "### ZADANIE 4 NAPISAĆ IDF w celu zmiany wag z TF na TF- IDF \n", - "\n", - "Proszę użyć wersję bez żadnej normalizacji\n", - "\n", - "\n", - "$idf_i = \\Large\\frac{|D|}{|\\{d : t_i \\in d \\}|}$\n", - "\n", - "\n", - "$|D|$ - ilość dokumentów w korpusie\n", - "$|\\{d : t_i \\in d \\}|$ - ilość dokumentów w korpusie, gdzie dany term występuje chociaż jeden raz" - ] + "source": [] } ], "metadata": {