{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", "
\n", "

Ekstrakcja informacji

\n", "

0. Język [ćwiczenia]

\n", "

Jakub Pokrywka (2022)

\n", "
\n", "\n", "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)" ] }, { "cell_type": "code", "execution_count": 278, "metadata": {}, "outputs": [], "source": [ "NR_INDEKSU = 375985" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ZNAJDŹ PRZYKŁAD TEKSTÓW Z TEJ SAMEJ DOMENY 1_000_000 słów:\n", "- język angielski \n", "- język polski\n", "- język z rodziny romańskich\n", "\n", "Narzędzia:\n", "- spacy\n", "- nltk\n", "\n", "\n", "\n", "Dla każdego z języków:\n", "- policz ilosć unikalnych słów (ze stemmingiem i bez)\n", "- policz ilosć unikalnych znaków\n", "- policz ilosć unikalnych zdań\n", "- podaj ilość unikalnych \n", "- podaj min, max, średnią oraz medianę ilości znaków w słowie\n", "- podaj min, max, średnią oraz medianę ilości słów w zdaniu\n", "- wygeneruj word cloud (normalnie i po usunięciu stopwordów)\n", "- wypisz 20 najbardziej popularnych słów (normalnie i po usunięciu stopwordów)\n", "- wypisz 20 najbardziej popularnych bigramów (normalnie i po usunięciu stopwordów)\n", "- narysuj wykres częstotliwości słów w taki sposób żeby był maksymalnie czytelny, wypróbuj skali logarytmicznej x, y, usuwanie słów poniżej limitu wystąpień itp. \n", "- dla próbki 10000 zdań sprawdź jak często langdetect https://pypi.org/project/langdetect/ się myli i jakie języki odgaduje \n", "\n", "\n", "NAPISZ WNIOSKI" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## ZADANIE\n", "\n", "Weź teksty w języku polskim:\n", "- tekst prawny\n", "- tekst z polskiego naukowy\n", "- tekst z polskiego z powieści (wolne lektury)\n", "- tekst z polskiego gg\n", "- transkrypcja tekstu mówionego\n", "\n", "\n", "- gunning_fog INDEX ( https://pypi.org/project/textstat/ ) \n", "- średnia długość zdania\n", "- narysuj na jednym wykresie te wartości\n", "\n", "\n", "\n", "\n", "NAPISZ WNIOSKI\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "author": "Jakub Pokrywka", "email": "kubapok@wmi.amu.edu.pl", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "lang": "pl", "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.3" }, "subtitle": "0.Informacje na temat przedmiotu[ćwiczenia]", "title": "Ekstrakcja informacji", "year": "2021" }, "nbformat": 4, "nbformat_minor": 4 }