3.2 KiB
3.2 KiB
Ekstrakcja informacji
0. Język [ćwiczenia]
Jakub Pokrywka (2022)
NR_INDEKSU = 375985
ZNAJDŹ PRZYKŁAD TEKSTÓW Z TEJ SAMEJ DOMENY 1_000_000 słów:
- język angielski
- język polski
- język z rodziny romańskich
Narzędzia:
- spacy
- nltk
Dla każdego z języków:
- policz ilosć unikalnych słów (ze stemmingiem i bez)
- policz ilosć unikalnych znaków
- policz ilosć unikalnych zdań
- podaj ilość unikalnych
- podaj min, max, średnią oraz medianę ilości znaków w słowie
- podaj min, max, średnią oraz medianę ilości słów w zdaniu
- wygeneruj word cloud (normalnie i po usunięciu stopwordów)
- wypisz 20 najbardziej popularnych słów (normalnie i po usunięciu stopwordów)
- wypisz 20 najbardziej popularnych bigramów (normalnie i po usunięciu stopwordów)
- narysuj wykres częstotliwości słów w taki sposób żeby był maksymalnie czytelny, wypróbuj skali logarytmicznej x, y, usuwanie słów poniżej limitu wystąpień itp.
- dla próbki 10000 zdań sprawdź jak często langdetect https://pypi.org/project/langdetect/ się myli i jakie języki odgaduje
NAPISZ WNIOSKI
ZADANIE
Weź teksty w języku polskim:
- tekst prawny
- tekst z polskiego naukowy
- tekst z polskiego z powieści (wolne lektury)
- tekst z polskiego gg
- transkrypcja tekstu mówionego
- gunning_fog INDEX ( https://pypi.org/project/textstat/ )
- średnia długość zdania
- narysuj na jednym wykresie te wartości
NAPISZ WNIOSKI