ium 5

2024-04-23 22:10:38 +02:00 · 2024-04-23 22:10:38 +02:00 · bfc6feba86
commit bfc6feba86
parent 9b1f8c68ca
6 changed files with 150 additions and 1 deletions
--- a/.gitignore
+++ b/.gitignore
@ -4,3 +4,4 @@ openpowerlifting.csv
 openpowerlifting-2024-01-06-4c732975.csv
 .idea
 .ipynb_checkpoints
+powerlifting_test_predictions.csv
--- a/05.ipynb
+++ b/05.ipynb
@ -0,0 +1,81 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "collapsed": true,
+    "is_executing": true
+   },
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "from sklearn.model_selection import train_test_split\n",
+    "from sklearn.preprocessing import StandardScaler\n",
+    "import tensorflow as tf\n",
+    "from tensorflow.keras.models import Sequential\n",
+    "from tensorflow.keras.layers import Dense\n",
+    "\n",
+    "# Wczytywanie danych\n",
+    "data = pd.read_csv('openpowerlifting.csv')\n",
+    "\n",
+    "# Zakładając, że kolumny to 'squat', 'bench_press', 'deadlift' i 'total'\n",
+    "features = data[['squat', 'bench_press', 'deadlift']]\n",
+    "target = data['total']\n",
+    "\n",
+    "# Podział na dane treningowe i testowe\n",
+    "X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)\n",
+    "\n",
+    "# Normalizacja danych\n",
+    "scaler = StandardScaler()\n",
+    "X_train = scaler.fit_transform(X_train)\n",
+    "X_test = scaler.transform(X_test)  # Używamy tego samego scaler do danych testowych\n",
+    "\n",
+    "# Tworzenie modelu\n",
+    "model = Sequential([\n",
+    "    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),\n",
+    "    Dense(64, activation='relu'),\n",
+    "    Dense(1)\n",
+    "])\n",
+    "\n",
+    "model.compile(optimizer='adam', loss='mse', metrics=['mae'])\n",
+    "\n",
+    "# Trenowanie modelu\n",
+    "model.fit(X_train, y_train, epochs=10, validation_split=0.1)  # Używam validation_split zamiast oddzielnego zbioru\n",
+    "\n",
+    "# Save the model\n",
+    "model.save('powerlifting_model.h5')\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "outputs": [],
+   "source": [],
+   "metadata": {
+    "collapsed": false
+   }
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 2
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython2",
+   "version": "2.7.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 0
+}
--- a/2
+++ b/2
@ -2,7 +2,7 @@ FROM ubuntu:latest

 RUN apt-get update && apt-get install -y python3-pip unzip coreutils

-RUN pip install --user kaggle pandas
+RUN pip install --user kaggle pandas scikit-learn tensorflow

 WORKDIR /app

--- a/model.py
+++ b/model.py
@ -0,0 +1,39 @@
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+from sklearn.compose import ColumnTransformer
+from sklearn.pipeline import Pipeline
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Dense
+import tensorflow as tf
+
+data = pd.read_csv('openpowerlifting.csv')
+
+data = data[['Sex', 'Age', 'BodyweightKg', 'TotalKg']].dropna()
+
+features = data[['Sex', 'Age', 'BodyweightKg']]
+target = data['TotalKg']
+
+X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
+
+preprocessor = ColumnTransformer(
+    transformers=[
+        ('num', StandardScaler(), ['Age', 'BodyweightKg']),
+        ('cat', OneHotEncoder(), ['Sex'])
+    ]
+)
+
+pipeline = Pipeline(steps=[
+    ('preprocessor', preprocessor),
+    ('model', Sequential([
+        Dense(64, activation='relu', input_dim=4),  # Liczba wejść musi zgadzać się z wynikowym wymiarem preprocessingu
+        Dense(64, activation='relu'),
+        Dense(1)
+    ]))
+])
+
+pipeline['model'].compile(optimizer='adam', loss='mse', metrics=['mae'])
+
+pipeline.fit(X_train, y_train, model__epochs=10, model__validation_split=0.1)
+
+pipeline['model'].save('powerlifting_model.h5')
--- a/powerlifting_model.h5
+++ b/powerlifting_model.h5
--- a/predict.py
+++ b/predict.py
@ -0,0 +1,28 @@
+import pandas as pd
+import tensorflow as tf
+from sklearn.preprocessing import StandardScaler, OneHotEncoder
+from sklearn.compose import ColumnTransformer
+from sklearn.pipeline import Pipeline
+from sklearn.model_selection import train_test_split
+
+loaded_model = tf.keras.models.load_model('powerlifting_model.h5')
+
+data = pd.read_csv('openpowerlifting.csv')
+data = data[['Sex', 'Age', 'BodyweightKg', 'TotalKg']].dropna()  # Usunięcie wierszy z brakującymi danymi
+features = data[['Sex', 'Age', 'BodyweightKg']]
+target = data['TotalKg']
+
+X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
+
+preprocessor = ColumnTransformer(
+    transformers=[
+        ('num', StandardScaler(), ['Age', 'BodyweightKg']),
+        ('cat', OneHotEncoder(), ['Sex'])
+    ]
+)
+X_test_transformed = preprocessor.fit_transform(X_test)
+
+predictions = loaded_model.predict(X_test_transformed)
+
+predictions_df = pd.DataFrame(predictions, columns=['predicted_TotalKg'])
+predictions_df.to_csv('powerlifting_test_predictions.csv', index=False)