Zad_1_lang_corpus_ML/README.md
Mikołaj Pokrywka 9804f8b3dc all done zad 2
2023-03-21 23:51:37 +01:00

1.4 KiB

Zadanie 2

Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.)

Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach:

pt-3_n-gram_words-log-log.png

pt-3_n-gram_chars-log-log.png

ścieżka do skyptu: zipf.py

Podać słowa, które najbardziej łamią prawo wiążące długość z częstością

Israeli-Palestinian
disproportionately
inflation-adjusted
industrialization
Secretary-General

ścieżka do skryptu: long_freq_words.py

Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście.

Piewsza wymyślona zależność

Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach.

Wnioski:

  1. Średnia długośc wyrazu nie jest większa przy dłuższych zdaniach wynika to z wykresu: long_word_in_long_sent.png (uwaga kolory są wybierane naiwnie losowo)
  2. Krótkie zdania mają większą średnią długość wyrazu

Ścieżka do skryptu: long_word_in_long_sent.py

Druga wymyślona zależność

Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach

Wnioski:

  1. Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu: uppercases_are_in_short_sents.png (uwaga kolory są wybierane naiwnie losowo)

Ścieżka do skryptu: uppercases_are_in_short_sents.py