diff --git a/lab/04_Reprezentacja_danych.ipynb b/lab/04_Reprezentacja_danych.ipynb index 9eef67d..0491bea 100644 --- a/lab/04_Reprezentacja_danych.ipynb +++ b/lab/04_Reprezentacja_danych.ipynb @@ -28,7 +28,7 @@ }, { "cell_type": "code", - "execution_count": 15, + "execution_count": 2, "metadata": {}, "outputs": [ { @@ -129,7 +129,7 @@ }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 3, "metadata": {}, "outputs": [ { @@ -176,7 +176,7 @@ }, { "cell_type": "code", - "execution_count": 17, + "execution_count": 4, "metadata": {}, "outputs": [ { @@ -207,7 +207,48 @@ "* Wydaje się, że `parter` czy `niski parter` można z powodzeniem potraktować jako piętro „zerowe” i zamienić na `0`.\n", "* Z poddaszem sytuacja nie jest już tak oczywista. Czy mają Państwo jakieś propozycje?\n", " * Może zamienić `poddasze` na wartość NaN (zobacz poniżej)?\n", - " * Może wykorzystać w tym celu wartość z sąsiedniej kolumny *Liczba pięter w budynku*?" + " * Może wykorzystać w tym celu wartość z sąsiedniej kolumny *Liczba pięter w budynku*?\n", + " * Może w ogóle odrzucić przykłady, w których występuje ta wartość? (jeżeli tych przykładów jest bardzo mało)" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "1 897\n", + "parter 833\n", + "2 719\n", + "3 669\n", + "4 549\n", + "5 260\n", + "7 78\n", + "8 63\n", + "9 59\n", + "6 55\n", + "11 39\n", + "12 35\n", + "10 32\n", + "13 25\n", + "14 25\n", + "16 11\n", + "poddasze 5\n", + "15 4\n", + "niski parter 1\n", + "Name: Piętro, dtype: int64" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# Sprawdźmy, jak często pojawiają się poszczególne wartości.\n", + "alldata[\"Piętro\"].value_counts()\n" ] }, { @@ -796,23 +837,12 @@ "source": [ "Ciekawy artykuł na temat przygotowywania danych tekstowych do uczenia maszynowego można znaleźć na przykład tutaj: https://machinelearningmastery.com/prepare-text-data-machine-learning-scikit-learn/" ] - }, - { - "cell_type": "markdown", - "metadata": {}, - "source": [ - "## Zadanie 7\n", - "\n", - "Na podstawie danych z pliku *flats.tsv* wytrenuj model, który przewidzi cenę mieszkania na podstawie różnych jego cech. Wykorzystaj cechy różnych typów (numeryczne, boole'owskie, kategoryczne, tekstowe). Dokonaj odpowiedniego preprocessingu danych.\n", - "\n", - "Zastanów się, jak poprawić wyniki uzyskane przez klasyfikator. Może przez stworzenie nowych cech pochodnych? Może przez odrzucenie mało wiarygodnych danych (obserwacji odstających)? Porównaj uzyskane wyniki z wynikami uzyskanymi w pierwszej części zadania." - ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { - "display_name": "Python 3.10.6 64-bit", + "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" },