diff --git a/04_tokenizacja.ipynb b/04_tokenizacja.ipynb index 96ced02..7e3452f 100644 --- a/04_tokenizacja.ipynb +++ b/04_tokenizacja.ipynb @@ -17,7 +17,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Dla chętnych - super materiał!\n", + "### Dla chętnych - superaśny materiał!\n", "\n", "tutorial utworzenia tokenizatora wykorzystanego w modelu GPT-2 przez byłego pracownika OpenAI: https://www.youtube.com/watch?v=zduSFxRajkE\n", "\n", @@ -47,7 +47,7 @@ "source": [ "### Zadanie 2\n", "Zaimplementuj algorytm MaxMatch na podstawie listy słów z https://www.kaggle.com/datasets/rtatman/english-word-frequency .\n", - "Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (spacje z tego tekstu można usunąć automatycznie).\n", + "Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i znakami interpunkcyjnymi (jedynie litery) i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (znaki inne niż litery z tego tekstu można usunąć automatycznie). Proszę uwzględnić, czy w liście słów znajdują się wielkie litery.\n", "\n" ] },