Update zad 2

This commit is contained in:
Ryszard Staruch 2024-10-30 16:50:02 +01:00
parent 63ad6452bb
commit d0c8533ad4

View File

@ -17,7 +17,7 @@
"cell_type": "markdown", "cell_type": "markdown",
"metadata": {}, "metadata": {},
"source": [ "source": [
"### Dla chętnych - super materiał!\n", "### Dla chętnych - superaśny materiał!\n",
"\n", "\n",
"tutorial utworzenia tokenizatora wykorzystanego w modelu GPT-2 przez byłego pracownika OpenAI: https://www.youtube.com/watch?v=zduSFxRajkE\n", "tutorial utworzenia tokenizatora wykorzystanego w modelu GPT-2 przez byłego pracownika OpenAI: https://www.youtube.com/watch?v=zduSFxRajkE\n",
"\n", "\n",
@ -47,7 +47,7 @@
"source": [ "source": [
"### Zadanie 2\n", "### Zadanie 2\n",
"Zaimplementuj algorytm MaxMatch na podstawie listy słów z https://www.kaggle.com/datasets/rtatman/english-word-frequency .\n", "Zaimplementuj algorytm MaxMatch na podstawie listy słów z https://www.kaggle.com/datasets/rtatman/english-word-frequency .\n",
"Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (spacje z tego tekstu można usunąć automatycznie).\n", "Funkcja musi przyjmować słownik oraz tekst z usuniętymi spacjami i znakami interpunkcyjnymi (jedynie litery) i zwracać listę słów. Przetestuj program na wybranych 2 tekstach w języku angielskim, które zawierają minimum 100 znaków (znaki inne niż litery z tego tekstu można usunąć automatycznie). Proszę uwzględnić, czy w liście słów znajdują się wielkie litery.\n",
"\n" "\n"
] ]
}, },