Zadanie frameworki ML

2021-05-08 23:47:37 +02:00 · 2021-05-08 23:47:37 +02:00 · 12fcd199fa
commit 12fcd199fa
parent 0b95b22cfa
3 changed files with 7284 additions and 41 deletions
--- a/3
+++ b/3
@ -7,10 +7,13 @@ RUN apt install -y curl
 RUN pip3 install --user pandas
 RUN pip3 install --user matplotlib
 RUN pip3 install --user numpy
 RUN pip3 install --user tensorflow
 RUN pip3 install --user sklearn
 WORKDIR /app
 COPY ./preparations.sh ./
 COPY ./preprocesing_python.py ./
 COPY ./training.py ./
 # CMD ./preparations.sh
--- a/results.csv
+++ b/results.csv
--- a/training.py
+++ b/training.py
@ -3,60 +3,87 @@ import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import os
 import tensorflow as tf
 from countries_map import countries
 import tensorflow as tf
 from tensorflow.keras.layers import Input, Dense, Activation, Dropout
 from tensorflow.keras.models import Model
 from tensorflow.keras.callbacks import EarlyStopping
 from keras.models import Sequential
 from sklearn.metrics import mean_squared_error
 from tensorflow import keras
 from tensorflow.keras import layers
 from tensorflow.keras.layers.experimental import preprocessing
-def mapSet(set):
+age = {"5-14 years": 0, "15-24 years": 1, "25-34 years": 2,
    age = {"5-14 years": 0, "15-24 years": 1, "25-34 years": 2,
       "35-54 years": 3, "55-74 years": 4, "75+ years": 5}
-    sex = {"male": 0, "female": 1}
+sex = {"male": 0, "female": 1}
    set["age"].replace(age, inplace=True)
    set["sex"].replace(sex, inplace=True)
    set["country"].replace({v: k for k, v in countries.items()}, inplace=True)
    return set
 column_names = ["country", "year", "sex", "age", "suicides_no", "population"]
 feature_names = ["country", "year", "sex", "age", "population"]
 label_name = column_names[4]
 # wczytanie danych
 sc = pd.read_csv('who_suicide_statistics.csv')
 print(sc.shape)
 # Usunięcie niepełnych danych
 sc.dropna(inplace=True)
 # Kategoryzacja
 sc = pd.get_dummies(
    sc, columns=['age', 'sex', 'country'], prefix='', prefix_sep='')
 # podział na train validate i test
 train, validate, test = np.split(sc.sample(frac=1, random_state=42),
                                 [int(.6*len(sc)), int(.8*len(sc))])
 train.dropna(inplace=True)
 validate.dropna(inplace=True)
 test.dropna(inplace=True)
-train_n = mapSet(train)
+# podział train set
-validate_n = mapSet(validate)
+X_train = train.loc[:, train.columns != 'suicides_no']
-test_n = mapSet(validate)
+y_train = train[['suicides_no']]
 X_test = test.loc[:, train.columns != 'suicides_no']
 y_test = test[['suicides_no']]
-train_csv = pd.DataFrame.to_csv(train_n, index=False)
+normalizer = preprocessing.Normalization()
 normalizer.adapt(np.array(X_train))
-train_dataset = tf.data.experimental.make_csv_dataset(
+first = np.array(X_train[:1])
-    train_csv,
+with np.printoptions(precision=2, suppress=True):
-    1000,
+    print('First example:', first)
-    column_names=column_names,
+    print()
-    label_name=label_name,
+    print('Normalized:', normalizer(first).numpy())
    num_epochs=1)
-features, labels = next(iter(train_dataset))
+model = tf.keras.Sequential([
-print(features)
+    normalizer,
    layers.Dense(units=1)
 ])
 model.predict(X_train[:10])
-plt.scatter(features['year'],
+# Compile model
-            features['age'],
+model.compile(
-            c=labels,
+    optimizer=tf.optimizers.Adam(learning_rate=0.1),
-            cmap='sex')
+    loss='mean_absolute_error')
-plt.xlabel("year")
+# Train model
-plt.ylabel("age")
+history = model.fit(
-plt.show()
+    X_train, y_train,
    epochs=30,
    validation_split=0.2)
-print("Features: {}".format(feature_names))
+test_results = {}
 print("Label: {}".format(label_name))
-# print(train)
+test_results['model'] = model.evaluate(
    X_test, y_test, verbose=0)
 test_predictions = model.predict(X_test).flatten()
 # a = plt.axes(aspect='equal')
 # plt.scatter(y_test, test_predictions)
 # plt.xlabel('True values [sucides_no]')
 # plt.ylabel('Predictions values [sucides_no]')
 # lims = [0, 5000]
 # plt.xlim(lims)
 # plt.ylim(lims)
 # _ = plt.plot(lims, lims)
 # plt.show()
 predictions = model.predict(X_test)
 pd.DataFrame(predictions).to_csv('results.csv')