Go to file
Mikołaj Pokrywka 9804f8b3dc all done zad 2
2023-03-21 23:51:37 +01:00
10_long_frq_words all done zad 2 2023-03-21 23:51:37 +01:00
10_long_words.py all done zad 2 2023-03-21 23:51:37 +01:00
filter_config.yaml all done 2023-03-14 18:27:43 +01:00
filter.py all done 2023-03-14 18:27:43 +01:00
long_freq_words.py all done zad 2 2023-03-21 23:51:37 +01:00
long_word_in_long_sent.png all done zad 2 2023-03-21 23:51:37 +01:00
long_word_in_long_sent.py all done zad 2 2023-03-21 23:51:37 +01:00
News-Commentary-v16.xz all done 2023-03-14 18:27:43 +01:00
pt-3_n-gram_chars-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
pt-3_n-gram_words-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
pt-3_unigram_chars-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
pt-3_unigram_words-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
pt-chars-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
pt-words-log-log.png all done zad 2 2023-03-21 23:51:37 +01:00
README.md all done zad 2 2023-03-21 23:51:37 +01:00
top_10_words all done zad 2 2023-03-21 23:51:37 +01:00
uppercases_are_in_short_sents.png all done zad 2 2023-03-21 23:51:37 +01:00
uppercases_are_in_short_sents.py all done zad 2 2023-03-21 23:51:37 +01:00
zipf.py all done zad 2 2023-03-21 23:51:37 +01:00

Zadanie 2

Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.)

Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach:

pt-3_n-gram_words-log-log.png

pt-3_n-gram_chars-log-log.png

ścieżka do skyptu: zipf.py

Podać słowa, które najbardziej łamią prawo wiążące długość z częstością

Israeli-Palestinian
disproportionately
inflation-adjusted
industrialization
Secretary-General

ścieżka do skryptu: long_freq_words.py

Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście.

Piewsza wymyślona zależność

Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach.

Wnioski:

  1. Średnia długośc wyrazu nie jest większa przy dłuższych zdaniach wynika to z wykresu: long_word_in_long_sent.png (uwaga kolory są wybierane naiwnie losowo)
  2. Krótkie zdania mają większą średnią długość wyrazu

Ścieżka do skryptu: long_word_in_long_sent.py

Druga wymyślona zależność

Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach

Wnioski:

  1. Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu: uppercases_are_in_short_sents.png (uwaga kolory są wybierane naiwnie losowo)

Ścieżka do skryptu: uppercases_are_in_short_sents.py