algorytm id3

2023-05-25 11:09:16 +02:00 · 2023-05-25 11:09:16 +02:00 · 8bcb2066e1
commit 8bcb2066e1
parent 1c26165161
1 changed files with 148 additions and 0 deletions
--- a/drzewo_decyzyjne/drzewo_decyzyjne.py
+++ b/drzewo_decyzyjne/drzewo_decyzyjne.py
@ -0,0 +1,148 @@
 import pandas as pd
 import numpy as np
 # Wczytywanie danych
 nasze_dane = pd.read_csv("data")
 # Obliczanie entropii dla całego zbioru danych
 def oblicz_calkowita_entropie(dane_treningowe, etykieta, lista_klas):
    liczba_wierszy = dane_treningowe.shape[0]
    calkowita_entropia = 0
    for klasa in lista_klas:
        liczba_wystapien_klasy = dane_treningowe[dane_treningowe[etykieta] == klasa].shape[0]
        entropia_klasy = - (liczba_wystapien_klasy / liczba_wierszy) * np.log2(liczba_wystapien_klasy / liczba_wierszy)
        calkowita_entropia += entropia_klasy
    return calkowita_entropia
 # Obliczanie entropii dla przefiltrowanego zbioru danych
 def oblicz_entropie(dane_wartosci_cechy, etykieta, lista_klas):
    liczba_wystapien_cechy = dane_wartosci_cechy.shape[0]
    entropia = 0
    for klasa in lista_klas:
        liczba_wystapien_klasy = dane_wartosci_cechy[dane_wartosci_cechy[etykieta] == klasa].shape[0]
        entropia_klasy = 0
        if liczba_wystapien_klasy != 0:
            prawdopodobienstwo_klasy = liczba_wystapien_klasy / liczba_wystapien_cechy
            entropia_klasy = - prawdopodobienstwo_klasy * np.log2(prawdopodobienstwo_klasy)
        entropia += entropia_klasy
    return entropia
 # Obliczanie przyrostu informacji dla danej cechy
 def oblicz_przyrost_informacji(nazwa_cechy, dane_treningowe, etykieta, lista_klas):
    unikalne_wartosci_cechy = dane_treningowe[nazwa_cechy].unique()
    liczba_wierszy = dane_treningowe.shape[0]
    informacja_cechy = 0.0
    for wartosc_cechy in unikalne_wartosci_cechy:
        dane_wartosci_cechy = dane_treningowe[dane_treningowe[nazwa_cechy] == wartosc_cechy]
        liczba_wystapien_wartosci_cechy = dane_wartosci_cechy.shape[0]
        entropia_wartosci_cechy = oblicz_entropie(dane_wartosci_cechy, etykieta, lista_klas)
        prawdopodobienstwo_wartosci_cechy = liczba_wystapien_wartosci_cechy / liczba_wierszy
        informacja_cechy += prawdopodobienstwo_wartosci_cechy * entropia_wartosci_cechy
    return oblicz_calkowita_entropie(dane_treningowe, etykieta, lista_klas) - informacja_cechy
 # Znajdowanie najbardziej informatywnej cechy (cechy o najwyższym przyroście informacji)
 def znajdz_najbardziej_informatywna_ceche(dane_treningowe, etykieta, lista_klas):
    lista_cech = dane_treningowe.columns.drop(etykieta)
    # Etykieta nie jest cechą, więc ją usuwamy
    max_przyrost_informacji = -1
    najbardziej_informatywna_cecha = None
    for cecha in lista_cech:
        przyrost_informacji_cechy = oblicz_przyrost_informacji(cecha, dane_treningowe, etykieta, lista_klas)
        if max_przyrost_informacji < przyrost_informacji_cechy:
            max_przyrost_informacji = przyrost_informacji_cechy
            najbardziej_informatywna_cecha = cecha
    return najbardziej_informatywna_cecha
 # Dodawanie węzła do drzewa
 def generuj_poddrzewo(nazwa_cechy, dane_treningowe, etykieta, lista_klas):
    slownik_licznosci_wartosci_cechy = dane_treningowe[nazwa_cechy].value_counts(sort=False)
    drzewo = {}
    for wartosc_cechy, liczba in slownik_licznosci_wartosci_cechy.items():
        dane_wartosci_cechy = dane_treningowe[dane_treningowe[nazwa_cechy] == wartosc_cechy]
        przypisany_do_wezla = False
        for klasa in lista_klas:
            liczba_klasy = dane_wartosci_cechy[dane_wartosci_cechy[etykieta] == klasa].shape[0]
            if liczba_klasy == liczba:
                drzewo[wartosc_cechy] = klasa
                dane_treningowe = dane_treningowe[dane_treningowe[nazwa_cechy] != wartosc_cechy]
                przypisany_do_wezla = True
        if not przypisany_do_wezla:
            drzewo[wartosc_cechy] = "?"
    return drzewo, dane_treningowe
 # Wykonywanie algorytmu ID3 i generowanie drzewa
 def generuj_drzewo(korzen, poprzednia_wartosc_cechy, dane_treningowe, etykieta, lista_klas):
    if dane_treningowe.shape[0] != 0:
        najbardziej_informatywna_cecha = znajdz_najbardziej_informatywna_ceche(dane_treningowe, etykieta, lista_klas)
        drzewo, dane_treningowe = generuj_poddrzewo(najbardziej_informatywna_cecha, dane_treningowe, etykieta, lista_klas)
        nastepny_korzen = None
        if poprzednia_wartosc_cechy is not None:
            korzen[poprzednia_wartosc_cechy] = dict()
            korzen[poprzednia_wartosc_cechy][najbardziej_informatywna_cecha] = drzewo
            nastepny_korzen = korzen[poprzednia_wartosc_cechy][najbardziej_informatywna_cecha]
        else:
            korzen[najbardziej_informatywna_cecha] = drzewo
            nastepny_korzen = korzen[najbardziej_informatywna_cecha]
        for wezel, galezie in list(nastepny_korzen.items()):
            if galezie == "?":
                dane_wartosci_cechy = dane_treningowe[dane_treningowe[najbardziej_informatywna_cecha] == wezel]
                generuj_drzewo(nastepny_korzen, wezel, dane_wartosci_cechy, etykieta, lista_klas)
 # Znajdowanie unikalnych klas etykiety i rozpoczęcie algorytmu
 def id3(nasze_dane, etykieta):
    dane_treningowe = nasze_dane.copy()
    drzewo = {}
    lista_klas = dane_treningowe[etykieta].unique()
    generuj_drzewo(drzewo, None, dane_treningowe, etykieta, lista_klas)
    return drzewo
 # Przewidywanie na podstawie drzewa
 def przewiduj(drzewo, instancja):
    if not isinstance(drzewo, dict):
        return drzewo
    else:
        korzen = next(iter(drzewo))
        wartosc_cechy = instancja[korzen]
        if wartosc_cechy in drzewo[korzen]:
            return przewiduj(drzewo[korzen][wartosc_cechy], instancja)
        else:
            return 'walcz'
 drzewo = id3(nasze_dane, 'akcja')
 przyklad = {'zdrowie_bohatera': '100',
            'moc_bohatera': 'nie',
            'moc_moba': 'nie',
            'lvl_wiekszy_bohater': 'tak',
            'mob_jest_strzelcem': 'nie',
            'zdrowie_moba': '1',
            'artefakt': 'tak'}
 print(przewiduj(drzewo, przyklad))
 print(drzewo)