still fixes

2022-05-12 23:46:03 +02:00 · 2022-05-12 23:46:03 +02:00 · 9dd020985e
commit 9dd020985e
parent 066d25cdd2
6 changed files with 130536 additions and 0 deletions
--- a/evaluate.py
+++ b/evaluate.py
@ -0,0 +1,37 @@
 import tensorflow as tf
 from tensorflow import keras
 from matplotlib import pyplot as plt
 from matplotlib.ticker import MaxNLocator
 import numpy as np
 import pandas as pd
 # Załadowanie modelu z pliku
 model = keras.models.load_model('lego_reg_model')
 # Załadowanie zbioru testowego
 data_test = pd.read_csv('lego_sets_clean_test.csv')
 test_piece_counts = np.array(data_test['piece_count'])
 test_prices = np.array(data_test['list_price'])
 # Prosta ewaluacja (mean absolute error)
 test_results = model.evaluate(
    test_piece_counts,
    test_prices, verbose=0)
 # Zapis wartości liczbowej metryki do pliku
 with open('eval_results.txt', 'a+') as f:
    f.write(str(test_results) + '\n')
 # Wygenerowanie i zapisanie do pliku wykresu
 with open('eval_results.txt') as f:
    scores = [float(line) for line in f if line]
    builds = list(range(1, len(scores) + 1))
    plot = plt.plot(builds, scores)
    plt.xlabel('Build number')
    plt.xticks(range(1, len(scores) + 1))
    plt.ylabel('Mean absolute error')
    plt.title('Model error by build')
    plt.savefig('error_plot.jpg')
    plt.show()
--- a/lego_sets.csv
+++ b/lego_sets.csv
--- a/process_dataset.py
+++ b/process_dataset.py
@ -0,0 +1,30 @@
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 # usuwamy przy okazji puste pola
 lego = pd.read_csv('lego_sets.csv', encoding='utf-8').dropna()
 # list_price moze byc do dwoch miejsc po przecinku
 lego['list_price'] = lego['list_price'].round(2)
 # num_reviews, piece_count i prod_id moga byc wartosciami calkowitymi
 lego['num_reviews'] = lego['num_reviews'].apply(np.int64)
 lego['piece_count'] = lego['piece_count'].apply(np.int64)
 lego['prod_id'] = lego['prod_id'].apply(np.int64)
 # wglad, statystyki
 print(lego)
 print(lego.describe(include='all'))
 # pierwszy podzial, wydzielamy zbior treningowy
 lego_train, lego_rem = train_test_split(lego, train_size=0.8)
 # drugi podział, wydzielamy walidacyjny i testowy
 lego_valid, lego_test = train_test_split(lego_rem, test_size=0.5)
 # zapis
 lego.to_csv('lego_sets_clean.csv', index=None, header=True)
 lego_train.to_csv('lego_sets_clean_train.csv', index=None, header=True)
 lego_valid.to_csv('lego_sets_clean_valid.csv', index=None, header=True)
 lego_test.to_csv('lego_sets_clean_test.csv', index=None, header=True)
--- a/simple_regression.py
+++ b/simple_regression.py
@ -0,0 +1,69 @@
 import tensorflow as tf
 from keras import layers
 from keras.models import save_model
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import sys
 # Pobranie przykładowego argumentu trenowania
 EPOCHS_NUM = int(sys.argv[1])
 # Wczytanie danych
 data_train = pd.read_csv('lego_sets_clean_train.csv')
 data_test = pd.read_csv('lego_sets_clean_test.csv')
 # Wydzielenie zbiorów dla predykcji ceny zestawu na podstawie liczby klocków, którą zawiera
 train_piece_counts = np.array(data_train['piece_count'])
 train_prices = np.array(data_train['list_price'])
 test_piece_counts = np.array(data_test['piece_count'])
 test_prices = np.array(data_test['list_price'])
 # Normalizacja
 normalizer = layers.Normalization(input_shape=[1, ], axis=None)
 normalizer.adapt(train_piece_counts)
 # Inicjalizacja
 model = tf.keras.Sequential([
    normalizer,
    layers.Dense(units=1)
 ])
 # Kompilacja
 model.compile(
    optimizer=tf.optimizers.Adam(learning_rate=0.1),
    loss='mean_absolute_error'
 )
 # Trening
 history = model.fit(
    train_piece_counts,
    train_prices,
    epochs=EPOCHS_NUM,
    verbose=0,
    validation_split=0.2
 )
 # Wykonanie predykcji na danych ze zbioru testującego
 y_pred = model.predict(test_piece_counts)
 # Zapis predykcji do pliku
 results = pd.DataFrame({'test_set_piece_count': test_piece_counts.tolist(), 'predicted_price': [round(a[0], 2) for a in y_pred.tolist()]})
 results.to_csv('lego_reg_results.csv', index=False, header=True)
 # Zapis modelu do pliku
 model.save('lego_reg_model')
 # Opcjonalne statystyki, wykresy
 '''
 hist = pd.DataFrame(history.history)
 hist['epoch'] = history.epoch
 print(hist.tail())
 plt.scatter(train_piece_counts, train_prices, label='Data')
 plt.plot(x, y_pred, color='k', label='Predictions')
 plt.xlabel('pieces')
 plt.ylabel('price')
 plt.legend()
 plt.show()
 '''
--- a/simple_regression_lab7.py
+++ b/simple_regression_lab7.py
@ -0,0 +1,86 @@
 import tensorflow as tf
 from keras import layers
 from keras.models import save_model
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 from sacred import Experiment
 from sacred.observers import FileStorageObserver
 from sacred.observers import MongoObserver
 # Stworzenie obiektu klasy Experiment do śledzenia przebiegu regresji narzędziem Sacred
 ex = Experiment(save_git_info=False)
 # Dodanie obserwatora FileObserver
 ex.observers.append(FileStorageObserver('runs'))
 #Dodanie obserwatora Mongo
 ex.observers.append(MongoObserver(url='mongodb://admin:IUM_2021@172.17.0.1:27017', db_name='sacred'))
 # Przykładowa modyfikowalna z Sacred konfiguracja wybranych parametrów treningu
@ex.config
 def config():
    epochs = 100
    units = 1
    learning_rate = 0.1
 # Reszta kodu wrzucona do udekorowanej funkcji train do wywołania przez Sacred, żeby coś było capture'owane
@ex.capture
 def train(epochs, units, learning_rate, _run):
    # Wczytanie danych
    data_train = pd.read_csv('lego_sets_clean_train.csv')
    data_test = pd.read_csv('lego_sets_clean_test.csv')
    # Wydzielenie zbiorów dla predykcji ceny zestawu na podstawie liczby klocków, którą zawiera
    train_piece_counts = np.array(data_train['piece_count'])
    train_prices = np.array(data_train['list_price'])
    test_piece_counts = np.array(data_test['piece_count'])
    test_prices = np.array(data_test['list_price'])
    # Normalizacja
    normalizer = layers.Normalization(input_shape=[1, ], axis=None)
    normalizer.adapt(train_piece_counts)
    # Inicjalizacja
    model = tf.keras.Sequential([
        normalizer,
        layers.Dense(units=units)
    ])
    # Kompilacja
    model.compile(
        optimizer=tf.optimizers.Adam(learning_rate=learning_rate),
        loss='mean_absolute_error'
    )
    # Trening
    history = model.fit(
        train_piece_counts,
        train_prices,
        epochs=epochs,
        verbose=0,
        validation_split=0.2
    )
    # Wykonanie predykcji na danych ze zbioru testującego
    y_pred = model.predict(test_piece_counts)
    # Zapis predykcji do pliku
    results = pd.DataFrame(
        {'test_set_piece_count': test_piece_counts.tolist(), 'predicted_price': [round(a[0], 2) for a in y_pred.tolist()]})
    results.to_csv('lego_reg_results.csv', index=False, header=True)
    # Zapis modelu do pliku standardowo poprzez metodę kerasa i poprzez metodę obiektu Experiment z Sacred
    model.save('lego_reg_model')
    ex.add_artifact('lego_reg_model/saved_model.pb')
    # Przykładowo zwracamy loss ostatniej epoki w charakterze wyników, żeby było widoczne w plikach zapisanych przez obserwator
    hist = pd.DataFrame(history.history)
    hist['epoch'] = history.epoch
    _run.log_scalar('final.training.loss', hist['loss'].iloc[-1])
@ex.automain
 def main(units, learning_rate):
    train()
--- a/simple_regression_lab8.py
+++ b/simple_regression_lab8.py
@ -0,0 +1,118 @@
 import tensorflow as tf
 from keras import layers
 from keras.models import save_model
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 from sacred import Experiment
 from sacred.observers import FileStorageObserver
 from sacred.observers import MongoObserver
 import mlflow
 from urllib.parse import urlparse
 # Konfiguracja serwera i nazwy eksperymentu MLflow
 mlflow.set_tracking_uri('http://tzietkiewicz.vm.wmi.amu.edu.pl:5000/#/')
 mlflow.set_experiment('s449288')
 # Stworzenie obiektu klasy Experiment do śledzenia przebiegu regresji narzędziem Sacred
 ex = Experiment(save_git_info=False)
 # Dodanie obserwatora FileObserver
 ex.observers.append(FileStorageObserver('runs'))
 #Dodanie obserwatora Mongo
 ex.observers.append(MongoObserver(url='mongodb://admin:IUM_2021@172.17.0.1:27017', db_name='sacred'))
 # Przykładowa modyfikowalna z Sacred konfiguracja wybranych parametrów treningu
@ex.config
 def config():
    epochs = 100
    units = 1
    learning_rate = 0.1
 # Reszta kodu wrzucona do udekorowanej funkcji train do wywołania przez Sacred, żeby coś było capture'owane
@ex.capture
 def train(epochs, units, learning_rate, _run):
    # Podpięcie treningu do MLflow
    with mlflow.start_run() as run:
        print('MLflow run experiment_id: {0}'.format(run.info.experiment_id))
        print('MLflow run artifact_uri: {0}'.format(run.info.artifact_uri))
        # Wczytanie danych
        data_train = pd.read_csv('lego_sets_clean_train.csv')
        data_test = pd.read_csv('lego_sets_clean_test.csv')
        # Wydzielenie zbiorów dla predykcji ceny zestawu na podstawie liczby klocków, którą zawiera
        train_piece_counts = np.array(data_train['piece_count'])
        train_prices = np.array(data_train['list_price'])
        test_piece_counts = np.array(data_test['piece_count'])
        test_prices = np.array(data_test['list_price'])
        # Normalizacja
        normalizer = layers.Normalization(input_shape=[1, ], axis=None)
        normalizer.adapt(train_piece_counts)
        # Inicjalizacja
        model = tf.keras.Sequential([
            normalizer,
            layers.Dense(units=units)
        ])
        # Kompilacja
        model.compile(
            optimizer=tf.optimizers.Adam(learning_rate=learning_rate),
            loss='mean_absolute_error'
        )
        # Trening
        history = model.fit(
            train_piece_counts,
            train_prices,
            epochs=epochs,
            verbose=0,
            validation_split=0.2
        )
        # Wykonanie predykcji na danych ze zbioru testującego
        y_pred = model.predict(test_piece_counts)
        # Zapis predykcji do pliku
        results = pd.DataFrame(
            {'test_set_piece_count': test_piece_counts.tolist(), 'predicted_price': [round(a[0], 2) for a in y_pred.tolist()]})
        results.to_csv('lego_reg_results.csv', index=False, header=True)
        # Zapis modelu do pliku standardowo poprzez metodę kerasa i poprzez metodę obiektu Experiment z Sacred
        model.save('lego_reg_model')
        ex.add_artifact('lego_reg_model/saved_model.pb')
        # Przykładowo zwracamy loss ostatniej epoki w charakterze wyników, żeby było widoczne w plikach zapisanych przez obserwator
        hist = pd.DataFrame(history.history)
        hist['epoch'] = history.epoch
        _run.log_scalar('final.training.loss', hist['loss'].iloc[-1])
        # Ewaluacja MAE na potrzeby MLflow (kopia z evaluate.py)
        mae = model.evaluate(
            test_piece_counts,
            test_prices, verbose=0)
        # Zapis parametrów i metryk dla MLflow
        mlflow.log_param('epochs', epochs)
        mlflow.log_param('units', units)
        mlflow.log_param('learning_rate', learning_rate)
        mlflow.log_metric("mae", mae)
        # Logowanie i zapis modelu dla Mlflow
        signature = mlflow.models.signature.infer_signature(train_piece_counts, model.predict(train_piece_counts))
        tracking_url_type_store = urlparse(mlflow.get_tracking_uri()).scheme
        if tracking_url_type_store != 'file':
            mlflow.keras.log_model(model, 'lego-model', registered_model_name='TFLegoModel',
                                     signature=signature)
        else:
            mlflow.keras.log_model(model, 'model', signature=signature, input_example=500)
@ex.automain
 def main(epochs, units, learning_rate):
    train()