937 lines
96 KiB
Plaintext
937 lines
96 KiB
Plaintext
{
|
||
"cells": [
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Uczenie maszynowe\n",
|
||
"# 9. Przegląd metod uczenia nadzorowanego – część 2"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 8,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Przydatne importy\n",
|
||
"\n",
|
||
"import ipywidgets as widgets\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"import numpy as np\n",
|
||
"import pandas\n",
|
||
"\n",
|
||
"%matplotlib inline"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"## 9.1. Maszyny wektorów nośnych"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 9,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Wczytanie danych (gatunki kosaćców)\n",
|
||
"\n",
|
||
"data_iris = pandas.read_csv('iris.csv')\n",
|
||
"data_iris_setosa = pandas.DataFrame()\n",
|
||
"data_iris_setosa['dł. płatka'] = data_iris['pl'] # \"pl\" oznacza \"petal length\"\n",
|
||
"data_iris_setosa['szer. płatka'] = data_iris['pw'] # \"pw\" oznacza \"petal width\"\n",
|
||
"\n",
|
||
"# SVM to metoda klasyfikacji dwuklasowej.\n",
|
||
"# Poszczególne klasy będziemy oznaczać jako \"1\" i \"-1\":\n",
|
||
"data_iris_setosa['Iris setosa?'] = data_iris['Gatunek'].apply(lambda x: 1 if x=='Iris-setosa' else -1)\n",
|
||
"\n",
|
||
"m, n_plus_1 = data_iris_setosa.values.shape\n",
|
||
"n = n_plus_1 - 1\n",
|
||
"X = data_iris_setosa.values[:, 0:n].reshape(m, n)\n",
|
||
"Y = np.array(data_iris_setosa.values[:, 2])"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 10,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"ax = plt.gca()\n",
|
||
"ax.scatter(X[:, 0], X[:, 1], c=Y, cmap='coolwarm')\n",
|
||
"ax.set_aspect('equal')"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 11,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/html": [
|
||
"<style>#sk-container-id-2 {color: black;background-color: white;}#sk-container-id-2 pre{padding: 0;}#sk-container-id-2 div.sk-toggleable {background-color: white;}#sk-container-id-2 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-container-id-2 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-container-id-2 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-container-id-2 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-container-id-2 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-container-id-2 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-container-id-2 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-container-id-2 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-container-id-2 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-container-id-2 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-container-id-2 div.sk-estimator:hover {background-color: #d4ebff;}#sk-container-id-2 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-container-id-2 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-container-id-2 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: 0;}#sk-container-id-2 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;position: relative;}#sk-container-id-2 div.sk-item {position: relative;z-index: 1;}#sk-container-id-2 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;position: relative;}#sk-container-id-2 div.sk-item::before, #sk-container-id-2 div.sk-parallel-item::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 0;bottom: 0;left: 50%;z-index: -1;}#sk-container-id-2 div.sk-parallel-item {display: flex;flex-direction: column;z-index: 1;position: relative;background-color: white;}#sk-container-id-2 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-container-id-2 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-container-id-2 div.sk-parallel-item:only-child::after {width: 0;}#sk-container-id-2 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;}#sk-container-id-2 div.sk-label label {font-family: monospace;font-weight: bold;display: inline-block;line-height: 1.2em;}#sk-container-id-2 div.sk-label-container {text-align: center;}#sk-container-id-2 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-container-id-2 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-container-id-2\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>SVC(C=10000000000.0, kernel='linear')</pre><b>In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook. <br />On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"sk-estimator-id-2\" type=\"checkbox\" checked><label for=\"sk-estimator-id-2\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">SVC</label><div class=\"sk-toggleable__content\"><pre>SVC(C=10000000000.0, kernel='linear')</pre></div></div></div></div></div>"
|
||
],
|
||
"text/plain": [
|
||
"SVC(C=10000000000.0, kernel='linear')"
|
||
]
|
||
},
|
||
"execution_count": 11,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"from sklearn.svm import SVC # \"Support vector classifier\"\n",
|
||
"model = SVC(kernel='linear', C=1E10)\n",
|
||
"model.fit(X, Y)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 12,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "notes"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"def plot_svc_decision_function(model, plot_support=True):\n",
|
||
" \"\"\"Plot the decision function for a 2D SVC\"\"\"\n",
|
||
" ax = plt.gca()\n",
|
||
" xlim = ax.get_xlim()\n",
|
||
" ylim = ax.get_ylim()\n",
|
||
" \n",
|
||
" # create grid to evaluate model\n",
|
||
" x = np.linspace(xlim[0], xlim[1], 30)\n",
|
||
" y = np.linspace(ylim[0], ylim[1], 30)\n",
|
||
" Y, X = np.meshgrid(y, x)\n",
|
||
" xy = np.vstack([X.ravel(), Y.ravel()]).T\n",
|
||
" P = model.decision_function(xy).reshape(X.shape)\n",
|
||
" \n",
|
||
" # plot decision boundary and margins\n",
|
||
" ax.contour(X, Y, P, colors=['orange', 'green', 'orange'],\n",
|
||
" levels=[-1, 0, 1], alpha=0.5,\n",
|
||
" linestyles=['--', '-', '--'])\n",
|
||
" \n",
|
||
" # plot support vectors\n",
|
||
" if plot_support:\n",
|
||
" ax.scatter(model.support_vectors_[:, 0],\n",
|
||
" model.support_vectors_[:, 1],\n",
|
||
" s=300, linewidth=1, edgecolors='purple', facecolors='none')\n",
|
||
" ax.set_aspect('equal')"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 13,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"image/png": "\n",
|
||
"text/plain": [
|
||
"<Figure size 640x480 with 1 Axes>"
|
||
]
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"plt.scatter(X[:, 0], X[:, 1], c=Y, cmap='coolwarm')\n",
|
||
"plot_svc_decision_function(model)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"**Maszyna wektorów nośnych** (*support vector machine*) próbuje oddzielić punkty należące do różnych klas <small>(<span style=\"color:red\">czerwone</span> i <span style=\"color:blue\">niebieskie</span> kropki)</small> za pomocą <span style=\"color:green\">**hiperpłaszczyzny** <small>(zielona ciągła linia)</small></span> w taki sposób, żeby <span style=\"color:orange\">**margines** <small>(obszar między pomarańczowymi przerywanymi liniami)</small></span> był jak największy."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"Punkty, które stykają się z marginesem, nazywamy <span style=\"color:purple\">**wektorami nośnymi** <small>(fioletowe kółka)</small></span> – stąd nazwa metody."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"W celu znalezienia hiperpłaszczyzny wykorzystywana jest funkcja kosztu *hinge loss*:\n",
|
||
"$$ J(y) = \\max(0, 1 - t \\cdot y) , $$\n",
|
||
"gdzie $t$ to oczekiwana wartość klasyfikacji ($1$ lub $-1$), a $y$ to wyjście klasyfikatora."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
" W przypadku *liniowej* maszyny wektorów nośnych:\n",
|
||
" $$ y = w \\cdot x + b , $$\n",
|
||
" gdzie $w$ i $b$ to parametry hiperpłaszczyzny, a $x$ to wejście klasyfikatora (wektor cech)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Nauczenie klasyfikatora SVM sprowadza się do znalezienia parametrów hiperpłaszczyzny, która minimalizuje funkcję kosztu. Można to zrobić np. za pomocą metody spadku gradientu."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Jeżeli klas nie da się oddzielić za pomocą hiperpłaszczyzny, można przekształcić dane wejściowe za pomocą odpowiedniej funkcji (tzw. *kernel trick*) tak, aby przekształcone dane były oddzielalne."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"## 9.2. Drzewa decyzyjne"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Drzewa decyzyjne – przykład"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 14,
|
||
"metadata": {
|
||
"scrolled": true,
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
" Day Outlook Humidity Wind Play\n",
|
||
"0 1 Sunny High Weak No\n",
|
||
"1 2 Sunny High Strong No\n",
|
||
"2 3 Overcast High Weak Yes\n",
|
||
"3 4 Rain High Weak Yes\n",
|
||
"4 5 Rain Normal Weak Yes\n",
|
||
"5 6 Rain Normal Strong No\n",
|
||
"6 7 Overcast Normal Strong Yes\n",
|
||
"7 8 Sunny High Weak No\n",
|
||
"8 9 Sunny Normal Weak Yes\n",
|
||
"9 10 Rain Normal Weak Yes\n",
|
||
"10 11 Sunny Normal Strong Yes\n",
|
||
"11 12 Overcast High Strong Yes\n",
|
||
"12 13 Overcast Normal Weak Yes\n",
|
||
"13 14 Rain High Strong No\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"alldata = pandas.read_csv('tennis.tsv', sep='\\t')\n",
|
||
"print(alldata)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 15,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'Outlook': {'Overcast', 'Rain', 'Sunny'},\n",
|
||
" 'Humidity': {'High', 'Normal'},\n",
|
||
" 'Wind': {'Strong', 'Weak'}}"
|
||
]
|
||
},
|
||
"execution_count": 15,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Dane jako lista słowników\n",
|
||
"data = alldata.T.to_dict().values()\n",
|
||
"features = ['Outlook', 'Humidity', 'Wind']\n",
|
||
"\n",
|
||
"# Możliwe wartości w poszczególnych kolumnach\n",
|
||
"values = {feature: set(row[feature] for row in data)\n",
|
||
" for feature in features}\n",
|
||
"values"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Czy John zagra w tenisa, jeżeli będzie padać, przy wysokiej wilgotności i silnym wietrze?\n",
|
||
"* Algorytm drzew decyzyjnych spróbuje _zrozumieć_ „taktykę” Johna.\n",
|
||
"* Wykorzystamy metodę „dziel i zwyciężaj”."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 16,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [],
|
||
"source": [
|
||
"# Podziel dane\n",
|
||
"def split(features, data):\n",
|
||
" values = {feature: list(set(row[feature]\n",
|
||
" for row in data))\n",
|
||
" for feature in features}\n",
|
||
" if not features:\n",
|
||
" return data\n",
|
||
" return {val: split(features[1:],\n",
|
||
" [row for row in data\n",
|
||
" if row[features[0]] == val])\n",
|
||
" for val in values[features[0]]}"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 17,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 1:\tSunny\tHigh\tWeak\tNo\n",
|
||
"Day 2:\tSunny\tHigh\tStrong\tNo\n",
|
||
"Day 8:\tSunny\tHigh\tWeak\tNo\n",
|
||
"Day 9:\tSunny\tNormal\tWeak\tYes\n",
|
||
"Day 11:\tSunny\tNormal\tStrong\tYes\n",
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 3:\tOvercast\tHigh\tWeak\tYes\n",
|
||
"Day 7:\tOvercast\tNormal\tStrong\tYes\n",
|
||
"Day 12:\tOvercast\tHigh\tStrong\tYes\n",
|
||
"Day 13:\tOvercast\tNormal\tWeak\tYes\n",
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 4:\tRain\tHigh\tWeak\tYes\n",
|
||
"Day 5:\tRain\tNormal\tWeak\tYes\n",
|
||
"Day 6:\tRain\tNormal\tStrong\tNo\n",
|
||
"Day 10:\tRain\tNormal\tWeak\tYes\n",
|
||
"Day 14:\tRain\tHigh\tStrong\tNo\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"split_data = split(['Outlook'], data)\n",
|
||
"\n",
|
||
"for outlook in values['Outlook']:\n",
|
||
" print('\\n\\tOutlook\\tHumid\\tWind\\tPlay')\n",
|
||
" for row in split_data[outlook]:\n",
|
||
" print('Day {Day}:\\t{Outlook}\\t{Humidity}\\t{Wind}\\t{Play}'\n",
|
||
" .format(**row))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Obserwacja: John lubi grać, gdy jest pochmurnie.\n",
|
||
"\n",
|
||
"W pozostałych przypadkach podzielmy dane ponownie:"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 18,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 1:\tSunny\tHigh\tWeak\tNo\n",
|
||
"Day 2:\tSunny\tHigh\tStrong\tNo\n",
|
||
"Day 8:\tSunny\tHigh\tWeak\tNo\n",
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 9:\tSunny\tNormal\tWeak\tYes\n",
|
||
"Day 11:\tSunny\tNormal\tStrong\tYes\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"split_data_sunny = split(['Outlook', 'Humidity'], data)\n",
|
||
"\n",
|
||
"for humidity in values['Humidity']:\n",
|
||
" print('\\n\\tOutlook\\tHumid\\tWind\\tPlay')\n",
|
||
" for row in split_data_sunny['Sunny'][humidity]:\n",
|
||
" print('Day {Day}:\\t{Outlook}\\t{Humidity}\\t{Wind}\\t{Play}'\n",
|
||
" .format(**row))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 19,
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 4:\tRain\tHigh\tWeak\tYes\n",
|
||
"Day 5:\tRain\tNormal\tWeak\tYes\n",
|
||
"Day 10:\tRain\tNormal\tWeak\tYes\n",
|
||
"\n",
|
||
"\tOutlook\tHumid\tWind\tPlay\n",
|
||
"Day 6:\tRain\tNormal\tStrong\tNo\n",
|
||
"Day 14:\tRain\tHigh\tStrong\tNo\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"split_data_rain = split(['Outlook', 'Wind'], data)\n",
|
||
"\n",
|
||
"for wind in values['Wind']:\n",
|
||
" print('\\n\\tOutlook\\tHumid\\tWind\\tPlay')\n",
|
||
" for row in split_data_rain['Rain'][wind]:\n",
|
||
" print('Day {Day}:\\t{Outlook}\\t{Humidity}\\t{Wind}\\t{Play}'\n",
|
||
" .format(**row))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* Outlook=\n",
|
||
" * Overcast\n",
|
||
" * → Playing\n",
|
||
" * Sunny\n",
|
||
" * Humidity=\n",
|
||
" * High\n",
|
||
" * → Not playing\n",
|
||
" * Normal\n",
|
||
" * → Playing\n",
|
||
" * Rain\n",
|
||
" * Wind=\n",
|
||
" * Weak\n",
|
||
" * → Playing\n",
|
||
" * Strong\n",
|
||
" * → Not playing"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* (9/5)\n",
|
||
" * Outlook=Overcast (4/0)\n",
|
||
" * YES\n",
|
||
" * Outlook=Sunny (2/3)\n",
|
||
" * Humidity=High (0/3)\n",
|
||
" * NO\n",
|
||
" * Humidity=Normal (2/0)\n",
|
||
" * YES\n",
|
||
" * Outlook=Rain (3/2)\n",
|
||
" * Wind=Weak (3/0)\n",
|
||
" * YES\n",
|
||
" * Wind=Strong (0/2)\n",
|
||
" * NO"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Algorytm ID3"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Pseudokod algorytmu:\n",
|
||
"\n",
|
||
"* podziel(węzeł, zbiór przykładów):\n",
|
||
" 1. A ← najlepszy atrybut do podziału zbioru przykładów\n",
|
||
" 1. Dla każdej wartości atrybutu A, utwórz nowy węzeł potomny\n",
|
||
" 1. Podziel zbiór przykładów na podzbiory według węzłów potomnych\n",
|
||
" 1. Dla każdego węzła potomnego i podzbioru:\n",
|
||
" * jeżeli podzbiór jest jednolity: zakończ\n",
|
||
" * w przeciwnym przypadku: podziel(węzeł potomny, podzbiór)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Jak wybrać „najlepszy atrybut”?\n",
|
||
"* powinien zawierać jednolity podzbiór\n",
|
||
"* albo przynajmniej „w miarę jednolity”\n",
|
||
"\n",
|
||
"Skąd wziąć miarę „jednolitości” podzbioru?\n",
|
||
"* miara powinna być symetryczna (4/0 vs. 0/4)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Entropia\n",
|
||
"\n",
|
||
"$$ H(S) = - p_{(+)} \\log p_{(+)} - p_{(-)} \\log p_{(-)} $$\n",
|
||
"\n",
|
||
"* $S$ – podzbiór przykładów\n",
|
||
"* $p_{(+)}$, $p_{(-)}$ – procent pozytywnych/negatywnych przykładów w $S$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"Entropię można traktować jako „liczbę bitów” potrzebną do sprawdzenia, czy losowo wybrany $x \\in S$ jest pozytywnym, czy negatywnym przykładem."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Przykład:\n",
|
||
"\n",
|
||
"* (3 TAK / 3 NIE):\n",
|
||
"$$ H(S) = -\\frac{3}{6} \\log\\frac{3}{6} - \\frac{3}{6} \\log\\frac{3}{6} = 1 \\mbox{ bit} $$\n",
|
||
"* (4 TAK / 0 NIE):\n",
|
||
"$$ H(S) = -\\frac{4}{4} \\log\\frac{4}{4} - \\frac{0}{4} \\log\\frac{0}{4} = 0 \\mbox{ bitów} $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### *Information gain*\n",
|
||
"\n",
|
||
"*Information gain* – różnica między entropią przed podziałem a entropią po podziale (podczas podziału entropia zmienia się):\n",
|
||
"\n",
|
||
"$$ \\mathop{\\rm Gain}(S,A) = H(S) - \\sum_{V \\in \\mathop{\\rm Values(A)}} \\frac{|S_V|}{|S|} H(S_V) $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Przykład:\n",
|
||
"\n",
|
||
"$$ \\mathop{\\rm Gain}(S, Wind) = H(S) - \\frac{8}{14} H(S_{Wind={\\rm Weak}}) - \\frac{6}{14} H(S_{Wind={\\rm Strong}}) = \\\\\n",
|
||
"= 0.94 - \\frac{8}{14} \\cdot 0.81 - \\frac{6}{14} \\cdot 1.0 = 0.049 $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"* _Information gain_ jest całkiem sensowną heurystyką wskazującą, który atrybut jest najlepszy do dokonania podziału.\n",
|
||
"* **Ale**: _information gain_ przeszacowuje użyteczność atrybutów, które mają dużo różnych wartości.\n",
|
||
"* **Przykład**: gdybyśmy wybrali jako atrybut *datę*, otrzymalibyśmy bardzo duży *information gain*, ponieważ każdy podzbiór byłby jednolity, a nie byłoby to ani trochę użyteczne!"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### _Information gain ratio_\n",
|
||
"\n",
|
||
"$$ \\mathop{\\rm GainRatio}(S, A) = \\frac{ \\mathop{\\rm Gain}(S, A) }{ -\\sum_{V \\in \\mathop{\\rm Values}(A)} \\frac{|S_V|}{|S|} \\log\\frac{|S_V|}{|S|} } $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "fragment"
|
||
}
|
||
},
|
||
"source": [
|
||
"* _Information gain ratio_ może być lepszym wyborem heurystyki wskazującej najużyteczniejszy atrybut, jeżeli atrybuty mają wiele różnych wartości."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Drzewa decyzyjne a formuły logiczne\n",
|
||
"\n",
|
||
"Drzewo decyzyjne można pzekształcić na formułę logiczną w postaci normalnej (DNF):\n",
|
||
"\n",
|
||
"$$ Play={\\rm True} \\Leftrightarrow \\left( Outlook={\\rm Overcast} \\vee \\\\\n",
|
||
"( Outlook={\\rm Rain} \\wedge Wind={\\rm Weak} ) \\vee \\\\\n",
|
||
"( Outlook={\\rm Sunny} \\wedge Humidity={\\rm Normal} ) \\right) $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Klasyfikacja wieloklasowa przy użyciu drzew decyzyjnych\n",
|
||
"\n",
|
||
"Algorytm przebiega analogicznie, zmienia się jedynie wzór na entropię:\n",
|
||
"\n",
|
||
"$$ H(S) = -\\sum_{y \\in Y} p_{(y)} \\log p_{(y)} $$"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Skuteczność algorytmu ID3\n",
|
||
"\n",
|
||
"* Przyjmujemy, że wśród danych uczących nie ma duplikatów (tj. przykładów, które mają jednakowe cechy $x$, a mimo to należą do różnych klas $y$).\n",
|
||
"* Wówczas algorytm drzew decyzyjnych zawsze znajdzie rozwiązanie, ponieważ w ostateczności będziemy mieli węzły 1-elementowe na liściach drzewa."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Nadmierne dopasowanie drzew decyzyjnych\n",
|
||
"\n",
|
||
"* Zauważmy, że w miarę postępowania algorytmu dokładność przewidywań drzewa (*accuracy*) liczona na zbiorze uczącym dąży do 100% (i w ostateczności osiąga 100%, nawet kosztem jednoelementowych liści).\n",
|
||
"* Takie rozwiązanie niekoniecznie jest optymalne. Dokładność na zbiorze testowym może być dużo niższa, a to oznacza nadmierne dopasowanie."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"#### Jak zapobiec nadmiernemu dopasowaniu?\n",
|
||
"\n",
|
||
"Aby zapobiegać nadmiernemu dopasowaniu drzew decyzyjnych, należy je przycinać (*pruning*)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"Można tego dokonywać na kilka sposobów:\n",
|
||
"* Można zatrzymywać procedurę podziału w pewnym momencie (np. kiedy podzbiory staja się zbyt małe).\n",
|
||
"* Można najpierw wykonać algorytm ID3 w całości, a następnie przyciąć drzewo, np. kierując się wynikami uzyskanymi na zbiorze walidacyjnym.\n",
|
||
"* Algorytm _sub-tree replacement pruning_ (algorytm zachłanny)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"#### Algorytm _Sub-tree replacement pruning_\n",
|
||
"\n",
|
||
"1. Dla każdego węzła:\n",
|
||
" 1. Udaj, że usuwasz węzeł wraz z całym zaczepionym w nim poddrzewem.\n",
|
||
" 1. Dokonaj ewaluacji na zbiorze walidacyjnym.\n",
|
||
"1. Usuń węzeł, którego usunięcie daje największą poprawę wyniku.\n",
|
||
"1. Powtarzaj, dopóki usuwanie węzłów poprawia wynik."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Zalety drzew decyzyjnych\n",
|
||
"\n",
|
||
"* Zasadę działania drzew decyzyjnych łatwo zrozumieć człowiekowi.\n",
|
||
"* Atrybuty, które nie wpływają na wynik, mają _gain_ równy 0, zatem są od razu pomijane przez algorytm.\n",
|
||
"* Po zbudowaniu, drzewo decyzyjne jest bardzo szybkim klasyfikatorem (złożoność $O(d)$, gdzie $d$ jest głębokościa drzewa)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Wady drzew decyzyjnych\n",
|
||
"\n",
|
||
"* ID3 jest algorytmem zachłannym – może nie wskazać najlepszego drzewa.\n",
|
||
"* Nie da się otrzymać granic klas (*decision boundaries*), które nie są równoległe do osi wykresu."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "slide"
|
||
}
|
||
},
|
||
"source": [
|
||
"### Lasy losowe"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"#### Algorytm lasów losowych – idea\n",
|
||
"\n",
|
||
"* Algorytm lasów losowych jest rozwinięciem algorytmu ID3.\n",
|
||
"* Jest to bardzo wydajny algorytm klasyfikacji.\n",
|
||
"* Zamiast jednego, będziemy budować $k$ drzew."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"#### Algorytm lasów losowych – budowa lasu\n",
|
||
"\n",
|
||
"1. Weź losowy podzbiór $S_r$ zbioru uczącego.\n",
|
||
"1. Zbuduj pełne (tj. bez przycinania) drzewo decyzyjne dla $S_r$, używając algorytmu ID3 z następującymi modyfikacjami:\n",
|
||
" * podczas podziału używaj losowego $d$-elementowego podzbioru atrybutów,\n",
|
||
" * obliczaj _gain_ względem $S_r$.\n",
|
||
"1. Powyższą procedurę powtórz $k$-krotnie, otrzymując $k$ drzew ($T_1, T_2, \\ldots, T_k$)."
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"metadata": {
|
||
"slideshow": {
|
||
"slide_type": "subslide"
|
||
}
|
||
},
|
||
"source": [
|
||
"#### Algorytm lasów losowych – predykcja\n",
|
||
"\n",
|
||
"1. Sklasyfikuj $x$ według każdego z drzew $T_1, T_2, \\ldots, T_k$ z osobna.\n",
|
||
"1. Użyj głosowania większościowego: przypisz klasę przewidzianą przez najwięcej drzew."
|
||
]
|
||
}
|
||
],
|
||
"metadata": {
|
||
"celltoolbar": "Slideshow",
|
||
"kernelspec": {
|
||
"display_name": "Python 3 (ipykernel)",
|
||
"language": "python",
|
||
"name": "python3"
|
||
},
|
||
"language_info": {
|
||
"codemirror_mode": {
|
||
"name": "ipython",
|
||
"version": 3
|
||
},
|
||
"file_extension": ".py",
|
||
"mimetype": "text/x-python",
|
||
"name": "python",
|
||
"nbconvert_exporter": "python",
|
||
"pygments_lexer": "ipython3",
|
||
"version": "3.10.12"
|
||
},
|
||
"livereveal": {
|
||
"start_slideshow_at": "selected",
|
||
"theme": "white"
|
||
}
|
||
},
|
||
"nbformat": 4,
|
||
"nbformat_minor": 4
|
||
}
|