"Napisz w 3-5 zdaniach czym różni się system kodowania ASCII od systemu UTF-8"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Zadanie 2 (40 punktów)\n",
"\n",
"Znajdź i wczytaj tekst (lub połączony zbiór tekstów) w języku polskim zawierający ponad 50 000 słów (np. książka z wolnelektury.pl lub zbiór danych z HuggingFace - najlepiej coś ciekawego/nietypowego), a następnie:\n",
"1. usuń z tekstu wszystkie symbole, które nie są spacją lub literami polskiego alfabetu (czyli tekst powinien składać się jedynie ze spacji oraz polskich liter)\n",
"2. zamień wszystkie wielkie litery na małe\n",
"3. wypisz 10 słów, które według Ciebie powinny znajdować się wśród 10 najczęściej występujących słów\n",
"4. wypisz 10 najczęściej występujących słów (wraz z ich liczbą wystąpień oraz proporcją względem liczby wszystkich słów w tekście)\n",
"5. napisz jak dużo słów udało Ci się poprawnie przewidzieć\n",
"6. jeśli 10 najczęściej występujących słów ma jakieś cechy wspólne, to je wypisz\n",
"7. wypisz 10 najrzadziej występujących słów\n",
"8. jeśli 10 najrzadziej występujących słów ma jakieś cechy wspólne, to je wypisz\n",
"9. napisz czym różni się zbiór 10 najczęściej występujących słów od 10 najrzadziej występujących słów\n",
"10. stwórz wykres przedstawiający na osi X długość słowa (czyli liczbę liter w słowie), a na osi Y liczbę słów w tekście o tej długości"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"#### Zadanie 3 (25 punktów)\n",
"\n",
"Wykonaj poniższe zadania na podstawie tekstu z zadania 2:\n",