SI_2020/Andrzej_Preibisz.md

## Podprojekt: drzewa decyzyjne
### Andrzej Preibisz

#### Opis problemu
Metodą uczenia, którą postanowiłem zaimplementować w projekcie były
drzewa decyzyjne. Pola reprezentujące regały, lub chłodziarki
różnią się między sobą temperaturą, oraz wilgotnością powietrza w danym miejscu.
Paczki z kolei mogą zawierać towary następujących rodzajów:
 - towar zwykły(normal)
 - mrożony(freezed)
 - kruchy(fragile)
 - łatwo niszczejący pod wpływem wilgoci (keep_dry)
 - łatwopalne(flammable)

Paczki zawierające określony rodzaj towarów mają pewne parametry
środowiskowe, w których zdecydowanie nie powinno się danego typu towaru
przechowywać. Jako przykład może posłużyć mrożone jedzenie, którego stan
stosunkowo szybko ulegnie pogorszeniu w temperaturze dodatniej, lub lakier,
który zdecydowanie nie powinien znaleźć się w części magazynu, gdzie panuje temperatura 30 stopni.

Celem drzewa decyzyjnego jest w tym wypadku przewidzenie prawdopodobnej szansy na to, że towar po przechowywaniu
na danym regale przez dłuższy czas będzie w dobrym stanie.

##### Zastosowane drzewo
Drzewa decyzyjne dzielą się ogólnie na dwa rodzaje -  drzew klasyfikujących, lub drzew regresyjnych.
Drzewo klasyfikujące pozwala podzielić zmienna przewidywaną na kategorie, na przykład Tak i Nie.

Drzewo regresyjne z kolei dostarczy nam informacji o oczekiwanej wartości zmiennej estymowanej przy
danej wartości atrybutów.

W świecie projektu różny rodzaj towarów ma różne "progi", od których można go kłaść na regale X,
na przykład kładąc paczkę z lakierem/benzyną na regale lepiej mieć trochę większą pewność, że towar nie nagrzeje się nadmiernie, aniżeli
kładąc książkę - że nie zniszczeje od wilgoci. W związku z tym zamiast prostej odpowiedzi Tak/Nie na pytanie
czy dany obiekt można położyć na danym regale potrzebna była przewidywana wartość prawdopodobieństwa że w danym miejscu
zachowa się on w dobrym stanie. Wszystkie te progi wynoszą odpowiednio: 
   ``` python
    PACKAGE_PLACE_TRESHOLD = {
	    "normal": 0.8,
	    "freezed": 0.85,
	    "fragile": 0.85,
	    "flammable": 0.9,
	    "keep_dry": 0.8
    }
   ```
Zdecydowałem się więc na wybór drzewa regresyjnego.
Biblioteką której użyłem w celu implementacji drzewa jest scikit-learn.
Najważniejszym problemem oprócz dokładności oszacowań dokonanych przy pomocy drzewa było uniknięcie overfittingu(przepasowania),
czyli sytuacji, w której drzewo perfekcyjnie dopasuje się do danych ze zbioru uczącego, jednak
z danymi spoza tego zbioru poradzi sobie już dużo gorzej. Oprócz błędnej oceny danych innych niż ze zbioru uczącego sygnałem wskazującym na overfitting drzewa
jest zbyt duża jego głębokość drzewa (odległość od korzenia do najdalszego liścia), oraz liście zawierające tylko 1 rekord.
W celu uniknięcia overfittingu zdecydowałem się na ograniczenie maksymalnej głębokości drzewa, oraz na ustawienie minimalnej
ilości rekordów w liściu. Drzewo wraz z odpowiednimi ograniczeniami zdefiniowane jest w następujący sposób
```python 
clf = DecisionTreeRegressor(ccp_alpha=0.02, min_samples_leaf=5, max_depth=5)
```
gdzie argumenty min_samples_leaf, oraz max_depth oznaczają odpowiednio minimalną ilość rekordów(przykładów ze zbioru uczącego) w liściu, oraz maksymalną głębokość drzewa.
Argument ccp_alpha oznacza parametr \alpha stosowany przy complexity-cost pruning. Pruning oznacza dalsze przycięcie drzewa, aby uniknąć overfittingu
Kryterium według którego mierzona jest "jakość" rozgałęzienia jest tzw. MSE(Mean Squared Error), czyli błąd średniokwadratowy(średnia kwadratów odchylenia wielkości oczekiwanej od rzeczywistej).
Dobierając te parametry wyszedłem z założenia że jeżeli 5 rekordów będzie w jednym liściu, to znaczy że najprawdopodbniej zachodzi
już w ich przypadku pewna prawidłowość, i mają one jakieś wspólne cechy, które determinują taką, a nie inną wartość przewidywaną,
w odróżnieniu od sytuacji gdy liść zawierałby tylko 1-2 rekordy, co wskazywałoby na bardzo specyficzne parametry takiego/ich rekordu/ów,
i prawdopodobnie oznaczało overfitting drzewa. W przypadku głębokości chodziło o uniknięcie nadmiernego rozrostu drzewa.
Zastosowany zbiór uczący obejmuje 373 rekordy zapisane w formacie .csv, w którym poszczególne kolumny oznaczają odpowiednio:
produkt, kategorię produktu, temperature na regale, wilgotność powietrza na danym regale, szansę że przedmiot po dłuższym czasie przechowywania będzie w dobrym stanie, oraz informację czy można bezpiecznie go tu położyć.
Przykładowy rekord: ``frozen food,freezed,21, 0.5, 0.01, 0 `` . Zbiór testowy z kolei zawiera 26 rekordów w tym samym formacie.
Zbiór uczący znajduje się w pliku package_location_classifier/trainset/trainset.csv, a testowy package_location/testset/testset.csv.
Przygotowanie zbioru uczącego i testowego dla drzewa: 
   ``` python
    products = pd.read_csv("package_location_classifier/trainset/trainset.csv", header=0, sep=",", names=cols_names)
		testset = pd.read_csv("package_location_classifier/testset/testset.csv", header=None, sep=",", names=cols_names)
		products = products.round({"chance_of_survive": 1})
		testset = testset.round({"chance_of_survive": 1})
		products.chance_of_survive *= 10
		testset.chance_of_survive *= 10
		test_X = pd.get_dummies(testset[feature_cols])
		test_y = testset.chance_of_survive
		products = products.sample(frac=1)
		X_train = pd.get_dummies(products[feature_cols])
		y_train = products.chance_of_survive
   ```
Uczenie drzewa i ewaluacja przy pomocy zbioru testowego:
``` python
    self.predictor = clf.fit(X_train, y_train)

	y_pred = self.predictor.predict(test_X)

```


Graficzna reprezentacja drzewa wygenerowanego dla tego zbioru uczącego:
![Przykładowe drzewo](Drzewo.png)

Wyniki ewaluacji zestawu testowego, znajdujące się w pliku Test_results.xlsx:
![Wyniki testu](Test_Results.png)

Przewidywana wartość w zestawie testowym różni się od wartości faktycznej średnio o 0.87, jako że w raporcie wartości są pomnożone przez 10, daje to średnio
0.087 wartości różnicy w czasie działania drzewa.


##### Zastosowanie drzewa w części wspólnej projektu

Po podniesieniu paczki przez agenta odpalana jest funkcja szukająca najbliższego pasującego regału.
Przy poszukiwaniu takiego regału stosowana jest funkcja heurystyczna o następującym kodzie:
```python
    def rack_heuristics(self, start, goal, can_place):
		heur_can_place = not can_place
		diff_x = pow(goal.x - start.x, 2)
		diff_y = pow(goal.y - start.y, 2)
		place_cost = 100 * float(heur_can_place)
		return round(sqrt(diff_x + diff_y), 3) + float(place_cost)
```
Parametr can_place to wynik ewaluacji pola goal, przy pomocy drzewa:
```python
    		for rack in quarter_racks:
			new_node = Node(rack.x_position, rack.y_position)
			can_place = self.location_classifier.check_if_can_place(package, rack)
			cost = self.rack_heuristics(start_node, new_node, can_place)
```
self.location_classifier, to obiekt klasy PackageLocationClassifier.
Klasa ta zawiera metodę check_if_can_place() :
```python
    	def check_if_can_place(self, package, tile):
		category = package.category
		cat_treshold = PACKAGE_PLACE_TRESHOLD[category]
		fields = [[
				  tile.air_temperature,
				  tile.humidity,
				  category == "flammable",
				  category == "fragile",
				  category=="freezed" ,
				  category == "keep_dry",
				  category == "normal"
				  ]]

		quality_of_place = round(self.predictor.predict(fields)[0]/10, 2)
		if quality_of_place > cat_treshold:
			return True
		return False
```

Self.predictor to nauczone drzewo.
Poprawka 2020-05-11 15:05:32 +02:00			`## Podprojekt: drzewa decyzyjne`
			`### Andrzej Preibisz`

Początek raportu 2020-05-11 12:18:40 +02:00			`#### Opis problemu`
			`Metodą uczenia, którą postanowiłem zaimplementować w projekcie były`
			`drzewa decyzyjne. Pola reprezentujące regały, lub chłodziarki`
			`różnią się między sobą temperaturą, oraz wilgotnością powietrza w danym miejscu.`
			`Paczki z kolei mogą zawierać towary następujących rodzajów:`
			`- towar zwykły(normal)`
			`- mrożony(freezed)`
			`- kruchy(fragile)`
			`- łatwo niszczejący pod wpływem wilgoci (keep_dry)`
			`- łatwopalne(flammable)`

			`Paczki zawierające określony rodzaj towarów mają pewne parametry`
			`środowiskowe, w których zdecydowanie nie powinno się danego typu towaru`
Usunięcie literówki 2020-05-11 15:17:47 +02:00			`przechowywać. Jako przykład może posłużyć mrożone jedzenie, którego stan`
Początek raportu 2020-05-11 12:18:40 +02:00			`stosunkowo szybko ulegnie pogorszeniu w temperaturze dodatniej, lub lakier,`
			`który zdecydowanie nie powinien znaleźć się w części magazynu, gdzie panuje temperatura 30 stopni.`

			`Celem drzewa decyzyjnego jest w tym wypadku przewidzenie prawdopodobnej szansy na to, że towar po przechowywaniu`
			`na danym regale przez dłuższy czas będzie w dobrym stanie.`

			`##### Zastosowane drzewo`
			`Drzewa decyzyjne dzielą się ogólnie na dwa rodzaje - drzew klasyfikujących, lub drzew regresyjnych.`
			`Drzewo klasyfikujące pozwala podzielić zmienna przewidywaną na kategorie, na przykład Tak i Nie.`

Uściślenie 2020-05-11 15:22:14 +02:00			`Drzewo regresyjne z kolei dostarczy nam informacji o oczekiwanej wartości zmiennej estymowanej przy`
Początek raportu 2020-05-11 12:18:40 +02:00			`danej wartości atrybutów.`

			`W świecie projektu różny rodzaj towarów ma różne "progi", od których można go kłaść na regale X,`
			`na przykład kładąc paczkę z lakierem/benzyną na regale lepiej mieć trochę większą pewność, że towar nie nagrzeje się nadmiernie, aniżeli`
			`kładąc książkę - że nie zniszczeje od wilgoci. W związku z tym zamiast prostej odpowiedzi Tak/Nie na pytanie`
			`czy dany obiekt można położyć na danym regale potrzebna była przewidywana wartość prawdopodobieństwa że w danym miejscu`
Poprawka 2020-05-11 13:28:06 +02:00			`zachowa się on w dobrym stanie. Wszystkie te progi wynoszą odpowiednio:`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			``` python
Praca nad raportem 2020-05-11 13:09:57 +02:00			`PACKAGE_PLACE_TRESHOLD = {`
			`"normal": 0.8,`
			`"freezed": 0.85,`
			`"fragile": 0.85,`
			`"flammable": 0.9,`
			`"keep_dry": 0.8`
			`}`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			```
Początek raportu 2020-05-11 12:18:40 +02:00			`Zdecydowałem się więc na wybór drzewa regresyjnego.`
			`Biblioteką której użyłem w celu implementacji drzewa jest scikit-learn.`
			`Najważniejszym problemem oprócz dokładności oszacowań dokonanych przy pomocy drzewa było uniknięcie overfittingu(przepasowania),`
			`czyli sytuacji, w której drzewo perfekcyjnie dopasuje się do danych ze zbioru uczącego, jednak`
			`z danymi spoza tego zbioru poradzi sobie już dużo gorzej. Oprócz błędnej oceny danych innych niż ze zbioru uczącego sygnałem wskazującym na overfitting drzewa`
Praca nad raportem 2020-05-11 13:09:57 +02:00			`jest zbyt duża jego głębokość drzewa (odległość od korzenia do najdalszego liścia), oraz liście zawierające tylko 1 rekord.`
			`W celu uniknięcia overfittingu zdecydowałem się na ograniczenie maksymalnej głębokości drzewa, oraz na ustawienie minimalnej`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			`ilości rekordów w liściu. Drzewo wraz z odpowiednimi ograniczeniami zdefiniowane jest w następujący sposób`
			```python
			`clf = DecisionTreeRegressor(ccp_alpha=0.02, min_samples_leaf=5, max_depth=5)`
			```
Praca nad raportem 2020-05-11 13:09:57 +02:00			`gdzie argumenty min_samples_leaf, oraz max_depth oznaczają odpowiednio minimalną ilość rekordów(przykładów ze zbioru uczącego) w liściu, oraz maksymalną głębokość drzewa.`
Poprawka 2020-05-11 14:56:44 +02:00			`Argument ccp_alpha oznacza parametr \alpha stosowany przy complexity-cost pruning. Pruning oznacza dalsze przycięcie drzewa, aby uniknąć overfittingu`
			`Kryterium według którego mierzona jest "jakość" rozgałęzienia jest tzw. MSE(Mean Squared Error), czyli błąd średniokwadratowy(średnia kwadratów odchylenia wielkości oczekiwanej od rzeczywistej).`
Praca nad raportem 2020-05-11 13:09:57 +02:00			`Dobierając te parametry wyszedłem z założenia że jeżeli 5 rekordów będzie w jednym liściu, to znaczy że najprawdopodbniej zachodzi`
			`już w ich przypadku pewna prawidłowość, i mają one jakieś wspólne cechy, które determinują taką, a nie inną wartość przewidywaną,`
			`w odróżnieniu od sytuacji gdy liść zawierałby tylko 1-2 rekordy, co wskazywałoby na bardzo specyficzne parametry takiego/ich rekordu/ów,`
			`i prawdopodobnie oznaczało overfitting drzewa. W przypadku głębokości chodziło o uniknięcie nadmiernego rozrostu drzewa.`
			`Zastosowany zbiór uczący obejmuje 373 rekordy zapisane w formacie .csv, w którym poszczególne kolumny oznaczają odpowiednio:`
			`produkt, kategorię produktu, temperature na regale, wilgotność powietrza na danym regale, szansę że przedmiot po dłuższym czasie przechowywania będzie w dobrym stanie, oraz informację czy można bezpiecznie go tu położyć.`
			Przykładowy rekord: ``frozen food,freezed,21, 0.5, 0.01, 0 `` . Zbiór testowy z kolei zawiera 26 rekordów w tym samym formacie.
Poprawka, dodanie wyników testowania 2020-05-11 13:44:58 +02:00			`Zbiór uczący znajduje się w pliku package_location_classifier/trainset/trainset.csv, a testowy package_location/testset/testset.csv.`
			`Przygotowanie zbioru uczącego i testowego dla drzewa:`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			``` python
Praca nad raportem 2020-05-11 13:09:57 +02:00			`products = pd.read_csv("package_location_classifier/trainset/trainset.csv", header=0, sep=",", names=cols_names)`
			`testset = pd.read_csv("package_location_classifier/testset/testset.csv", header=None, sep=",", names=cols_names)`
			`products = products.round({"chance_of_survive": 1})`
			`testset = testset.round({"chance_of_survive": 1})`
			`products.chance_of_survive *= 10`
			`testset.chance_of_survive *= 10`
			`test_X = pd.get_dummies(testset[feature_cols])`
			`test_y = testset.chance_of_survive`
			`products = products.sample(frac=1)`
			`X_train = pd.get_dummies(products[feature_cols])`
			`y_train = products.chance_of_survive`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			```
Poprawka 2020-05-11 14:15:54 +02:00			`Uczenie drzewa i ewaluacja przy pomocy zbioru testowego:`
			``` python
			`self.predictor = clf.fit(X_train, y_train)`

			`y_pred = self.predictor.predict(test_X)`

			```


Poprawka, dodanie wyników testowania 2020-05-11 13:44:58 +02:00			`Graficzna reprezentacja drzewa wygenerowanego dla tego zbioru uczącego:`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			`![Przykładowe drzewo](Drzewo.png)`
Praca nad raportem 2020-05-11 13:09:57 +02:00
Poprawka, dodanie wyników testowania 2020-05-11 13:44:58 +02:00			`Wyniki ewaluacji zestawu testowego, znajdujące się w pliku Test_results.xlsx:`
Poprawka, dodanie bloków kodu i screenów 2020-05-11 14:01:16 +02:00			`![Wyniki testu](Test_Results.png)`
Poprawka, dodanie wyników testowania 2020-05-11 13:44:58 +02:00
Poprawka 2020-05-11 14:05:54 +02:00			`Przewidywana wartość w zestawie testowym różni się od wartości faktycznej średnio o 0.87, jako że w raporcie wartości są pomnożone przez 10, daje to średnio`
			`0.087 wartości różnicy w czasie działania drzewa.`
Poprawka 2020-05-11 14:15:54 +02:00

			`##### Zastosowanie drzewa w części wspólnej projektu`

			`Po podniesieniu paczki przez agenta odpalana jest funkcja szukająca najbliższego pasującego regału.`
			`Przy poszukiwaniu takiego regału stosowana jest funkcja heurystyczna o następującym kodzie:`
			```python
			`def rack_heuristics(self, start, goal, can_place):`
			`heur_can_place = not can_place`
			`diff_x = pow(goal.x - start.x, 2)`
			`diff_y = pow(goal.y - start.y, 2)`
			`place_cost = 100 * float(heur_can_place)`
			`return round(sqrt(diff_x + diff_y), 3) + float(place_cost)`
			```
			`Parametr can_place to wynik ewaluacji pola goal, przy pomocy drzewa:`
			```python
			`for rack in quarter_racks:`
			`new_node = Node(rack.x_position, rack.y_position)`
			`can_place = self.location_classifier.check_if_can_place(package, rack)`
			`cost = self.rack_heuristics(start_node, new_node, can_place)`
			```
			`self.location_classifier, to obiekt klasy PackageLocationClassifier.`
			`Klasa ta zawiera metodę check_if_can_place() :`
			```python
			`def check_if_can_place(self, package, tile):`
			`category = package.category`
			`cat_treshold = PACKAGE_PLACE_TRESHOLD[category]`
			`fields = [[`
			`tile.air_temperature,`
			`tile.humidity,`
			`category == "flammable",`
			`category == "fragile",`
			`category=="freezed" ,`
			`category == "keep_dry",`
			`category == "normal"`
			`]]`

			`quality_of_place = round(self.predictor.predict(fields)[0]/10, 2)`
			`if quality_of_place > cat_treshold:`
			`return True`
			`return False`
Dodanie info o predictorze. 2020-05-11 15:29:46 +02:00			```

			`Self.predictor to nauczone drzewo.`