This commit is contained in:
Jakub Pokrywka 2022-03-22 12:58:16 +01:00
parent 58d54c38ca
commit 8c34124a9b

View File

@ -437,6 +437,20 @@
"### IDF"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Wersja bez żadnej normalizacji\n",
"\n",
"\n",
"$idf_i = \\Large\\frac{|D|}{|\\{d : t_i \\in d \\}|}$\n",
"\n",
"\n",
"$|D|$ - ilość dokumentów w korpusie\n",
"$|\\{d : t_i \\in d \\}|$ - ilość dokumentów w korpusie, gdzie dany term występuje chociaż jeden raz"
]
},
{
"cell_type": "code",
"execution_count": 22,
@ -470,7 +484,7 @@
"outputs": [],
"source": [
"for i in range(len(documents_vectorized)):\n",
" documents_vectorized[i] = documents_vectorized[i]# * idf"
" documents_vectorized[i] = documents_vectorized[i] * idf"
]
},
{
@ -961,7 +975,9 @@
{
"cell_type": "code",
"execution_count": 36,
"metadata": {},
"metadata": {
"scrolled": true
},
"outputs": [
{
"data": {
@ -1065,18 +1081,7 @@
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### ZADANIE 4 NAPISAĆ IDF w celu zmiany wag z TF na TF- IDF \n",
"\n",
"Proszę użyć wersję bez żadnej normalizacji\n",
"\n",
"\n",
"$idf_i = \\Large\\frac{|D|}{|\\{d : t_i \\in d \\}|}$\n",
"\n",
"\n",
"$|D|$ - ilość dokumentów w korpusie\n",
"$|\\{d : t_i \\in d \\}|$ - ilość dokumentów w korpusie, gdzie dany term występuje chociaż jeden raz"
]
"source": []
}
],
"metadata": {