86 lines
3.2 KiB
Plaintext
86 lines
3.2 KiB
Plaintext
{
|
|
"cells": [
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"#### Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami\n",
|
|
"Zadania (jeżeli wymagają napisania programu) piszemy w języku Python\n",
|
|
"\n",
|
|
"\n",
|
|
"Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:\n",
|
|
"\n",
|
|
"https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"#### Zadanie 1 (10 punktów)\n",
|
|
"Napisz w 3-5 zdaniach czym różni się system kodowania ASCII od systemu UTF-8"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"#### Zadanie 2 (40 punktów)\n",
|
|
"\n",
|
|
"Znajdź i wczytaj tekst (lub połączony zbiór tekstów) w języku polskim zawierający ponad 50 000 słów (np. książka z wolnelektury.pl lub zbiór danych z HuggingFace - najlepiej coś ciekawego/nietypowego), a następnie:\n",
|
|
"1. usuń z tekstu wszystkie symbole, które nie są spacją lub literami polskiego alfabetu (czyli tekst powinien składać się jedynie ze spacji oraz polskich liter)\n",
|
|
"2. zamień wszystkie wielkie litery na małe\n",
|
|
"3. wypisz 10 słów, które według Ciebie powinny znajdować się wśród 10 najczęściej występujących słów\n",
|
|
"4. wypisz 10 najczęściej występujących słów (wraz z ich liczbą wystąpień oraz proporcją względem liczby wszystkich słów w tekście)\n",
|
|
"5. napisz jak dużo słów udało Ci się poprawnie przewidzieć\n",
|
|
"6. jeśli 10 najczęściej występujących słów ma jakieś cechy wspólne, to je wypisz\n",
|
|
"7. wypisz 10 najrzadziej występujących słów\n",
|
|
"8. jeśli 10 najrzadziej występujących słów ma jakieś cechy wspólne, to je wypisz\n",
|
|
"9. napisz czym różni się zbiór 10 najczęściej występujących słów od 10 najrzadziej występujących słów\n",
|
|
"10. stwórz wykres przedstawiający na osi X długość słowa (czyli liczbę liter w słowie), a na osi Y liczbę słów w tekście o tej długości"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"#### Zadanie 3 (25 punktów)\n",
|
|
"\n",
|
|
"Wykonaj poniższe zadania na podstawie tekstu z zadania 2:\n",
|
|
"1. wypisz ile jest różnych unigramów/bigramów/trigramów (dla słów)\n",
|
|
"2. wypisz 10 najczęściej występujących bigramów/trigramów (dla słów)\n",
|
|
"3. ile różnych słów spośród 10 najczęściej występujących słow znajduje się wśród 10 najczęściej występujących bigramach/trigramach?"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {},
|
|
"source": [
|
|
"#### Zadanie 4 (5 punktów)\n",
|
|
"Napisz poprawne gramatycznie zdanie, które najprawdopodobniej nigdy nie zostało wypowiedziane lub zapisane."
|
|
]
|
|
}
|
|
],
|
|
"metadata": {
|
|
"kernelspec": {
|
|
"display_name": "python39",
|
|
"language": "python",
|
|
"name": "python3"
|
|
},
|
|
"language_info": {
|
|
"codemirror_mode": {
|
|
"name": "ipython",
|
|
"version": 3
|
|
},
|
|
"file_extension": ".py",
|
|
"mimetype": "text/x-python",
|
|
"name": "python",
|
|
"nbconvert_exporter": "python",
|
|
"pygments_lexer": "ipython3",
|
|
"version": "3.9.18"
|
|
}
|
|
},
|
|
"nbformat": 4,
|
|
"nbformat_minor": 2
|
|
}
|