diff --git a/cw/02_Język.ipynb b/cw/02_Język.ipynb new file mode 100644 index 0000000..f5cd2e4 --- /dev/null +++ b/cw/02_Język.ipynb @@ -0,0 +1,117 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "![Logo 1](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech1.jpg)\n", + "
\n", + "

Ekstrakcja informacji

\n", + "

0. Język [ćwiczenia]

\n", + "

Jakub Pokrywka (2022)

\n", + "
\n", + "\n", + "![Logo 2](https://git.wmi.amu.edu.pl/AITech/Szablon/raw/branch/master/Logotyp_AITech2.jpg)" + ] + }, + { + "cell_type": "code", + "execution_count": 278, + "metadata": {}, + "outputs": [], + "source": [ + "NR_INDEKSU = 375985" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## ZNAJDŹ PRZYKŁAD TEKSTÓW Z TEJ SAMEJ DOMENY 1_000_000 słów:\n", + "- język angielski \n", + "- język polski\n", + "- język z rodziny romańskich\n", + "\n", + "Narzędzia:\n", + "- spacy\n", + "- nltk\n", + "\n", + "\n", + "\n", + "Dla każdego z języków:\n", + "- policz ilosć unikalnych słów (ze stemmingiem i bez)\n", + "- policz ilosć unikalnych znaków\n", + "- policz ilosć unikalnych zdań\n", + "- podaj ilość unikalnych \n", + "- podaj min, max, średnią oraz medianę ilości znaków w słowie\n", + "- podaj min, max, średnią oraz medianę ilości słów w zdaniu\n", + "- wygeneruj word cloud (normalnie i po usunięciu stopwordów)\n", + "- wypisz 20 najbardziej popularnych słów (normalnie i po usunięciu stopwordów)\n", + "- wypisz 20 najbardziej popularnych bigramów (normalnie i po usunięciu stopwordów)\n", + "- narysuj wykres częstotliwości słów w taki sposób żeby był maksymalnie czytelny, wypróbuj skali logarytmicznej x, y, usuwanie słów poniżej limitu wystąpień itp. \n", + "- dla próbki 10000 zdań sprawdź jak często langdetect https://pypi.org/project/langdetect/ się myli i jakie języki odgaduje \n", + "\n", + "\n", + "NAPISZ WNIOSKI" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## ZADANIE\n", + "\n", + "Weź teksty w języku polskim:\n", + "- tekst prawny\n", + "- tekst z polskiego naukowy\n", + "- tekst z polskiego z powieści (wolne lektury)\n", + "- tekst z polskiego gg\n", + "- transkrypcja tekstu mówionego\n", + "\n", + "\n", + "- gunning_fog INDEX ( https://pypi.org/project/textstat/ ) \n", + "- średnia długość zdania\n", + "- narysuj na jednym wykresie te wartości\n", + "\n", + "\n", + "\n", + "\n", + "NAPISZ WNIOSKI\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "author": "Jakub Pokrywka", + "email": "kubapok@wmi.amu.edu.pl", + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "lang": "pl", + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.8.3" + }, + "subtitle": "0.Informacje na temat przedmiotu[ćwiczenia]", + "title": "Ekstrakcja informacji", + "year": "2021" + }, + "nbformat": 4, + "nbformat_minor": 4 +}