Zad_1_lang_corpus_ML/README.md

44 lines
1.4 KiB
Markdown
Raw Normal View History

2023-03-21 23:51:37 +01:00
# Zadanie 2
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
## Zbadać prawo Zipfa dla innych jednostek niż wyrazy (n-gramy, rdzenie, lematy, itp.)
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Zbadano dla trigramów na wyrazach i znakach, wyniki znajdują się w plikach:
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
`pt-3_n-gram_words-log-log.png`
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
`pt-3_n-gram_chars-log-log.png`
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
ścieżka do skyptu: `zipf.py`
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
## Podać słowa, które najbardziej łamią prawo wiążące długość z częstością
2023-03-14 18:27:43 +01:00
```
2023-03-21 23:51:37 +01:00
Israeli-Palestinian
disproportionately
inflation-adjusted
industrialization
Secretary-General
2023-03-14 18:27:43 +01:00
```
2023-03-21 23:51:37 +01:00
ścieżka do skryptu: `long_freq_words.py`
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
## Wymyślić i zbadać 2 zależności dotyczące wyrazów bądź innych jednostek w tekście.
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
### Piewsza wymyślona zależność
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Hipoteza -- Średnia długość wyrazów będzie większa w dłuższych zdaniach.
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Wnioski:
1. Średnia długośc wyrazu **nie jest większa** przy dłuższych zdaniach wynika to z wykresu: `long_word_in_long_sent.png` (uwaga kolory są wybierane naiwnie losowo)
2. Krótkie zdania mają większą średnią długość wyrazu
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Ścieżka do skryptu: `long_word_in_long_sent.py`
### Druga wymyślona zależność
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Hipoteza -- Ilość wyrazów pisanych w całości z wielkich liter będzie większa w krótkich zdaniach
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Wnioski:
1. Ilość wyrazów pisanych w całości z wielkich liter nie jest bardzo zauważalnie większa w krótkich zdaniach wynika to z wykresu: `uppercases_are_in_short_sents.png` (uwaga kolory są wybierane naiwnie losowo)
2023-03-14 18:27:43 +01:00
2023-03-21 23:51:37 +01:00
Ścieżka do skryptu: `uppercases_are_in_short_sents.py`