From d0c8533ad4f7f6fc5ed287eea713123d244cac16 Mon Sep 17 00:00:00 2001 From: Ryszard Staruch Date: Wed, 30 Oct 2024 16:50:02 +0100 Subject: [PATCH] Update zad 2 --- 04_tokenizacja.ipynb | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/04_tokenizacja.ipynb b/04_tokenizacja.ipynb index 96ced02..7e3452f 100644 --- a/04_tokenizacja.ipynb +++ b/04_tokenizacja.ipynb @@ -17,7 +17,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Dla chętnych - super materiał!\n", + "### Dla chętnych - superaśny materiał!\n", "\n", "tutorial utworzenia tokenizatora wykorzystanego w modelu GPT-2 przez byłego pracownika OpenAI: https://www.youtube.com/watch?v=zduSFxRajkE\n", "\n", @@ -47,7 +47,7 @@ "source": [ "### Zadanie 2\n", "Zaimplementuj algorytm MaxMatch na podstawie listy słów z https://www.kaggle.com/datasets/rtatman/english-word-frequency .\n", - "Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (spacje z tego tekstu można usunąć automatycznie).\n", + "Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i znakami interpunkcyjnymi (jedynie litery) i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (znaki inne niż litery z tego tekstu można usunąć automatycznie). Proszę uwzględnić, czy w liście słów znajdują się wielkie litery.\n", "\n" ] },