# Zadanie 2 ## Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.) Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach: `pt-3_n-gram_words-log-log.png` `pt-3_n-gram_chars-log-log.png` ścieżka do skyptu: `zipf.py` ## Podać słowa, które najbardziej łamią prawo wiążące długość z częstością ``` Israeli-Palestinian disproportionately inflation-adjusted industrialization Secretary-General ``` ścieżka do skryptu: `long_freq_words.py` ## Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście. ### Piewsza wymyślona zależność Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach. Wnioski: 1. Średnia długośc wyrazu **nie jest większa** przy dłuższych zdaniach wynika to z wykresu: `long_word_in_long_sent.png` (uwaga kolory są wybierane naiwnie losowo) 2. Krótkie zdania mają większą średnią długość wyrazu Ścieżka do skryptu: `long_word_in_long_sent.py` ### Druga wymyślona zależność Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach Wnioski: 1. Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu: `uppercases_are_in_short_sents.png` (uwaga kolory są wybierane naiwnie losowo) Ścieżka do skryptu: `uppercases_are_in_short_sents.py`