dvc.yaml

2021-06-12 22:59:33 +02:00 · 2021-06-12 22:59:33 +02:00 · 4aa18c3b0e
commit 4aa18c3b0e
parent f403cbba03
2 changed files with 85 additions and 0 deletions
--- a/dvc.yaml
+++ b/dvc.yaml
@ -0,0 +1,17 @@
 stages:
    preprocess:
      cmd: python3 preprocesing.py
      deps:
        - preprocesing.py
        - who_suicide_statistics.csv
      outs:
        - train.csv
    train:
      cmd: python3 training.py
      deps:
      - training.py
      - train.csv
      outs:
      - results.csv
      - suicide_model.h5
--- a/dvc_training.py
+++ b/dvc_training.py
@ -0,0 +1,68 @@
 import sys
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import os
 from countries_map import countries
 import tensorflow as tf
 from tensorflow.keras.layers import Input, Dense, Activation, Dropout
 from tensorflow.keras.models import Model
 from tensorflow.keras.callbacks import EarlyStopping
 from keras.models import Sequential
 from sklearn.metrics import mean_squared_error
 from tensorflow import keras
 from tensorflow.keras import layers
 from tensorflow.keras.layers.experimental import preprocessing
 EPOCHS = int(sys.argv[1])
 BATCH_SIZE = int(sys.argv[2])
 train = pd.read_csv('train.csv')
 validate = pd.read_csv('validate.csv')
 test = pd.read_csv('test.csv')
 # podział train set
 X_train = train.loc[:, train.columns != 'suicides_no']
 y_train = train[['suicides_no']]
 X_test = test.loc[:, train.columns != 'suicides_no']
 y_test = test[['suicides_no']]
 normalizer = preprocessing.Normalization()
 normalizer.adapt(np.array(X_train))
 first = np.array(X_train[:1])
 with np.printoptions(precision=2, suppress=True):
    print('First example:', first)
    print()
    print('Normalized:', normalizer(first).numpy())
 model = tf.keras.Sequential([
    normalizer,
    layers.Dense(units=1)
 ])
 model.predict(X_train[:10])
 # Compile model
 model.compile(
    optimizer=tf.optimizers.Adam(learning_rate=0.1),
    loss='mean_absolute_error')
 # Train model
 history = model.fit(
    X_train, y_train,
    batch_size=BATCH_SIZE,
    epochs=EPOCHS,
    validation_split=0.2)
 model.save_weights('suicide_model.h5')
 test_results = {}
 test_results['model'] = model.evaluate(
    X_test, y_test, verbose=0)
 test_predictions = model.predict(X_test).flatten()
 predictions = model.predict(X_test)
 pd.DataFrame(predictions).to_csv('results.csv')
 model.summary()