moj-2024-ns-cw/01_zadania.ipynb

3.2 KiB

Rozwiązania do zadań proszę umieszczać w nowych komórkach pomiędzy zadaniami

Zadania (jeżeli wymagają napisania programu) piszemy w języku Python

Funkcje wspomagające wykonanie zadań znajdują się w materiałach wykładowych:

https://git.wmi.amu.edu.pl/pms/moj-2024/src/branch/main/wyk

Zadanie 1 (10 punktów)

Napisz w 3-5 zdaniach czym różni się system kodowania ASCII od systemu UTF-8

Zadanie 2 (40 punktów)

Znajdź i wczytaj tekst (lub połączony zbiór tekstów) w języku polskim zawierający ponad 50 000 słów (np. książka z wolnelektury.pl lub zbiór danych z HuggingFace - najlepiej coś ciekawego/nietypowego), a następnie:

  1. usuń z tekstu wszystkie symbole, które nie są spacją lub literami polskiego alfabetu (czyli tekst powinien składać się jedynie ze spacji oraz polskich liter)
  2. zamień wszystkie wielkie litery na małe
  3. wypisz 10 słów, które według Ciebie powinny znajdować się wśród 10 najczęściej występujących słów
  4. wypisz 10 najczęściej występujących słów (wraz z ich liczbą wystąpień oraz proporcją względem liczby wszystkich słów w tekście)
  5. napisz jak dużo słów udało Ci się poprawnie przewidzieć
  6. jeśli 10 najczęściej występujących słów ma jakieś cechy wspólne, to je wypisz
  7. wypisz 10 najrzadziej występujących słów
  8. jeśli 10 najrzadziej występujących słów ma jakieś cechy wspólne, to je wypisz
  9. napisz czym różni się zbiór 10 najczęściej występujących słów od 10 najrzadziej występujących słów
  10. stwórz wykres przedstawiający na osi X długość słowa (czyli liczbę liter w słowie), a na osi Y liczbę słów w tekście o tej długości

Zadanie 3 (25 punktów)

Wykonaj poniższe zadania na podstawie tekstu z zadania 2:

  1. wypisz ile jest różnych unigramów/bigramów/trigramów (dla słów)
  2. wypisz 10 najczęściej występujących bigramów/trigramów (dla słów)
  3. ile różnych słów spośród 10 najczęściej występujących słow znajduje się wśród 10 najczęściej występujących bigramach/trigramach?

Zadanie 4 (5 punktów)

Napisz poprawne gramatycznie zdanie, które najprawdopodobniej nigdy nie zostało wypowiedziane lub zapisane.