From c8c63d20dced6ae8b44c27a4153756fbeb87fcdc Mon Sep 17 00:00:00 2001
From: wojciechbatruszewicz <wojtek.baltruszewicz@gmail.com>
Date: Mon, 26 Jun 2023 19:18:24 +0200
Subject: [PATCH] dataset stats

---
 JenkinsfileDatasetStats | 34 ++++++++++++++++++++++++++++++++++
 datasetStats.py         |  9 +++++++++
 2 files changed, 43 insertions(+)
 create mode 100644 JenkinsfileDatasetStats
 create mode 100644 datasetStats.py

diff --git a/JenkinsfileDatasetStats b/JenkinsfileDatasetStats
new file mode 100644
index 0000000..de50b87
--- /dev/null
+++ b/JenkinsfileDatasetStats
@@ -0,0 +1,34 @@
+pipeline {
+    agent any
+    parameters {
+        buildSelector(
+            name: 'BUILD_SELECTOR',
+            defaultSelector: lastSuccessful(),
+            description: 'A build to take the artifacts from'
+        )
+    }
+    stages {
+        stage('Copy artifacts') {
+            steps {
+                script {
+                    copyArtifacts(
+                        projectName: 'x1-create-dataset',
+                        selector: buildParameter('BUILD_SELECTOR'),
+                        target: './datasetStats'
+                    )
+                }
+            }
+        }
+        stage('Run sh file') {
+            steps {
+                    script {
+                    sh 'ls -l'
+                    docker.image('docker-image').inside {
+                        sh 'ls -l'
+                        sh 'python3 ./datasetStats.py'
+                    }
+                }
+            }
+        }
+    }
+}
diff --git a/datasetStats.py b/datasetStats.py
new file mode 100644
index 0000000..8c14700
--- /dev/null
+++ b/datasetStats.py
@@ -0,0 +1,9 @@
+import pandas as pd
+
+home_loan_train = pd.read_csv('gender_classification_train.csv')
+home_loan_test = pd.read_csv('gender_classification_test.csv')
+home_loan_val = pd.read_csv('gender_classification_val.csv')
+
+home_loan_train.describe()
+home_loan_test.describe()
+home_loan_val.describe()
\ No newline at end of file