3.2 KiB
3.2 KiB
Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami
Zadania (jeżeli wymagają napisania programu) piszemy w języku Python
Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:
Zadanie 1 (10 punktów)
Napisz w 3-5 zdaniach czym różni się system kodowania ASCII od systemu UTF-8
Zadanie 2 (40 punktów)
Znajdź i wczytaj tekst (lub połączony zbiór tekstów) w języku polskim zawierający ponad 50 000 słów (np. książka z wolnelektury.pl lub zbiór danych z HuggingFace - najlepiej coś ciekawego/nietypowego), a następnie:
- usuń z tekstu wszystkie symbole, które nie są spacją lub literami polskiego alfabetu (czyli tekst powinien składać się jedynie ze spacji oraz polskich liter)
- zamień wszystkie wielkie litery na małe
- wypisz 10 słów, które według Ciebie powinny znajdować się wśród 10 najczęściej występujących słów
- wypisz 10 najczęściej występujących słów (wraz z ich liczbą wystąpień oraz proporcją względem liczby wszystkich słów w tekście)
- napisz jak dużo słów udało Ci się poprawnie przewidzieć
- jeśli 10 najczęściej występujących słów ma jakieś cechy wspólne, to je wypisz
- wypisz 10 najrzadziej występujących słów
- jeśli 10 najrzadziej występujących słów ma jakieś cechy wspólne, to je wypisz
- napisz czym różni się zbiór 10 najczęściej występujących słów od 10 najrzadziej występujących słów
- stwórz wykres przedstawiający na osi X długość słowa (czyli liczbę liter w słowie), a na osi Y liczbę słów w tekście o tej długości
Zadanie 3 (25 punktów)
Wykonaj poniższe zadania na podstawie tekstu z zadania 2:
- wypisz ile jest różnych unigramów/bigramów/trigramów (dla słów)
- wypisz 10 najczęściej występujących bigramów/trigramów (dla słów)
- ile różnych słów spośród 10 najczęściej występujących słow znajduje się wśród 10 najczęściej występujących bigramach/trigramach?
Zadanie 4 (5 punktów)
Napisz poprawne gramatycznie zdanie, które najprawdopodobniej nigdy nie zostało wypowiedziane lub zapisane.