10_long_frq_words | ||
10_long_words.py | ||
filter_config.yaml | ||
filter.py | ||
long_freq_words.py | ||
long_word_in_long_sent.png | ||
long_word_in_long_sent.py | ||
News-Commentary-v16.xz | ||
pt-3_n-gram_chars-log-log.png | ||
pt-3_n-gram_words-log-log.png | ||
pt-3_unigram_chars-log-log.png | ||
pt-3_unigram_words-log-log.png | ||
pt-chars-log-log.png | ||
pt-words-log-log.png | ||
README.md | ||
top_10_words | ||
uppercases_are_in_short_sents.png | ||
uppercases_are_in_short_sents.py | ||
zipf.py |
Zadanie 2
Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.)
Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach:
pt-3_n-gram_words-log-log.png
pt-3_n-gram_chars-log-log.png
ścieżka do skyptu: zipf.py
Podać słowa, które najbardziej łamią prawo wiążące długość z częstością
Israeli-Palestinian
disproportionately
inflation-adjusted
industrialization
Secretary-General
ścieżka do skryptu: long_freq_words.py
Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście.
Piewsza wymyślona zależność
Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach.
Wnioski:
- Średnia długośc wyrazu nie jest większa przy dłuższych zdaniach wynika to z wykresu:
long_word_in_long_sent.png
(uwaga kolory są wybierane naiwnie losowo) - Krótkie zdania mają większą średnią długość wyrazu
Ścieżka do skryptu: long_word_in_long_sent.py
Druga wymyślona zależność
Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach
Wnioski:
- Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu:
uppercases_are_in_short_sents.png
(uwaga kolory są wybierane naiwnie losowo)
Ścieżka do skryptu: uppercases_are_in_short_sents.py