1.4 KiB
1.4 KiB
Zadanie 2
Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.)
Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach:
pt-3_n-gram_words-log-log.png
pt-3_n-gram_chars-log-log.png
ścieżka do skyptu: zipf.py
Podać słowa, które najbardziej łamią prawo wiążące długość z częstością
Israeli-Palestinian
disproportionately
inflation-adjusted
industrialization
Secretary-General
ścieżka do skryptu: long_freq_words.py
Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście.
Piewsza wymyślona zależność
Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach.
Wnioski:
- Średnia długośc wyrazu nie jest większa przy dłuższych zdaniach wynika to z wykresu:
long_word_in_long_sent.png
(uwaga kolory są wybierane naiwnie losowo) - Krótkie zdania mają większą średnią długość wyrazu
Ścieżka do skryptu: long_word_in_long_sent.py
Druga wymyślona zależność
Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach
Wnioski:
- Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu:
uppercases_are_in_short_sents.png
(uwaga kolory są wybierane naiwnie losowo)
Ścieżka do skryptu: uppercases_are_in_short_sents.py