From 2fdca0e3c0ffdeb9736c83afe107fab37f5c9bf4 Mon Sep 17 00:00:00 2001 From: andrzej Date: Mon, 11 May 2020 14:56:44 +0200 Subject: [PATCH] Poprawka --- Andrzej_Preibisz.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/Andrzej_Preibisz.md b/Andrzej_Preibisz.md index 453998a..d0e070e 100644 --- a/Andrzej_Preibisz.md +++ b/Andrzej_Preibisz.md @@ -51,7 +51,8 @@ ilości rekordów w liściu. Drzewo wraz z odpowiednimi ograniczeniami zdefiniow clf = DecisionTreeRegressor(ccp_alpha=0.02, min_samples_leaf=5, max_depth=5) ``` gdzie argumenty min_samples_leaf, oraz max_depth oznaczają odpowiednio minimalną ilość rekordów(przykładów ze zbioru uczącego) w liściu, oraz maksymalną głębokość drzewa. -Kryterium według którego mierzona jest "jakość" rozgałęzienia jest tzw. MSE(Mean Squared Error), czyli kwadrat odchylenia standardowego wartości przewidywanej wobec faktycznej. +Argument ccp_alpha oznacza parametr \alpha stosowany przy complexity-cost pruning. Pruning oznacza dalsze przycięcie drzewa, aby uniknąć overfittingu +Kryterium według którego mierzona jest "jakość" rozgałęzienia jest tzw. MSE(Mean Squared Error), czyli błąd średniokwadratowy(średnia kwadratów odchylenia wielkości oczekiwanej od rzeczywistej). Dobierając te parametry wyszedłem z założenia że jeżeli 5 rekordów będzie w jednym liściu, to znaczy że najprawdopodbniej zachodzi już w ich przypadku pewna prawidłowość, i mają one jakieś wspólne cechy, które determinują taką, a nie inną wartość przewidywaną, w odróżnieniu od sytuacji gdy liść zawierałby tylko 1-2 rekordy, co wskazywałoby na bardzo specyficzne parametry takiego/ich rekordu/ów,