aitech-moj/cw/02_Język.ipynb
Jakub Pokrywka f50f638e65 roboczo 02
2022-02-19 16:46:54 +01:00

3.2 KiB

Logo 1

Ekstrakcja informacji

0. Język [ćwiczenia]

Jakub Pokrywka (2022)

Logo 2

NR_INDEKSU = 375985

ZNAJDŹ PRZYKŁAD TEKSTÓW Z TEJ SAMEJ DOMENY 1_000_000 słów:

  • język angielski
  • język polski
  • język z rodziny romańskich

Narzędzia:

  • spacy
  • nltk

Dla każdego z języków:

  • policz ilosć unikalnych słów (ze stemmingiem i bez)
  • policz ilosć unikalnych znaków
  • policz ilosć unikalnych zdań
  • podaj ilość unikalnych
  • podaj min, max, średnią oraz medianę ilości znaków w słowie
  • podaj min, max, średnią oraz medianę ilości słów w zdaniu
  • wygeneruj word cloud (normalnie i po usunięciu stopwordów)
  • wypisz 20 najbardziej popularnych słów (normalnie i po usunięciu stopwordów)
  • wypisz 20 najbardziej popularnych bigramów (normalnie i po usunięciu stopwordów)
  • narysuj wykres częstotliwości słów w taki sposób żeby był maksymalnie czytelny, wypróbuj skali logarytmicznej x, y, usuwanie słów poniżej limitu wystąpień itp.
  • dla próbki 10000 zdań sprawdź jak często langdetect https://pypi.org/project/langdetect/ się myli i jakie języki odgaduje

NAPISZ WNIOSKI

ZADANIE

Weź teksty w języku polskim:

  • tekst prawny
  • tekst z polskiego naukowy
  • tekst z polskiego z powieści (wolne lektury)
  • tekst z polskiego gg
  • transkrypcja tekstu mówionego

NAPISZ WNIOSKI