From bcb44a730c0b0fe6f1dd010b9b126b7b39525552 Mon Sep 17 00:00:00 2001 From: Jakub Pokrywka Date: Wed, 24 Mar 2021 12:55:37 +0100 Subject: [PATCH] add 3 homework --- cw/03b_tfidf_newsgroup.ipynb | 12 ++++++------ 1 file changed, 6 insertions(+), 6 deletions(-) diff --git a/cw/03b_tfidf_newsgroup.ipynb b/cw/03b_tfidf_newsgroup.ipynb index 3961462..73579f6 100644 --- a/cw/03b_tfidf_newsgroup.ipynb +++ b/cw/03b_tfidf_newsgroup.ipynb @@ -661,11 +661,11 @@ "## Zadanie domowe\n", "\n", "\n", - "- Wybrać zbiór tekstowy, który ma conajmniej 5000 dokumentów.\n", - "- Na jego podstawie stworzyć wyszukiwarkę bazującą na OKAPI BM25, tzn. system który dla podanej frazy podaje kilka (5-10) posortowanych najbardziej pasujących dokumentów. Można korzystać z gotowych bibliotek do wektoryzacji dokumentów, należy jednak samemu zaimplementować OKAPI BM25.\n", + "- Wybrać zbiór tekstowy, który ma conajmniej 10000 dokumentów (inny niż w tym przykładzie).\n", + "- Na jego podstawie stworzyć wyszukiwarkę bazującą na OKAPI BM25, tzn. system który dla podanej frazy podaje kilka (5-10) posortowanych najbardziej pasujących dokumentów razem ze scorami. Należy wypisywać też ilość zwracanych dokumentów, czyli takich z niezerowym scorem. Można korzystać z gotowych bibliotek do wektoryzacji dokumentów, należy jednak samemu zaimplementować OKAPI BM25. \n", "- Znaleźć frazę (query), dla której wynik nie jest satysfakcjonujący.\n", - "- Poprawić wyszukiwarkę (np. poprzez zmianę preprocessingu tekstu, wektoryzer, zmianę parametrów algotytmu rankującego lub sam algorytm) tak, żeby zwracała satysfakcjonujące wyniki dla poprzedniej frazy\n", - "- prezentować pracę na następnych zajęciach (15.03) odpowiadając na pytania:\n", + "- Poprawić wyszukiwarkę (np. poprzez zmianę preprocessingu tekstu, wektoryzer, zmianę parametrów algorytmu rankującego lub sam algorytm) tak, żeby zwracała satysfakcjonujące wyniki dla poprzedniej frazy. Należy zrobić inną zmianę niż w tym przykładzie, tylko wymyślić coś własnego.\n", + "- prezentować pracę na następnych zajęciach (07.04) odpowiadając na pytania:\n", " - jak wygląda zbiór i system wyszukiwania przed zmianami\n", " - dla jakiej frazy wyniki są niesatysfakcjonujące (pokazać wyniki)\n", " - jakie zmiany zostały naniesione\n", @@ -673,7 +673,7 @@ " - jak zmiany wpłynęły na wyniki (1-2 zdania)\n", " \n", "Prezentacja powinna być maksymalnie prosta i trwać maksymalnie 2-3 minuty.\n", - "punktów do zdobycia: 40\n" + "punktów do zdobycia: 60\n" ] }, { @@ -700,7 +700,7 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.8.5" + "version": "3.8.3" } }, "nbformat": 4,