generate subsets as artifacts in Jenkinsfile

2022-03-26 14:08:23 +01:00 · 2022-03-26 14:08:23 +01:00 · b846942ec3
commit b846942ec3
parent b38a9b9333
2 changed files with 19 additions and 0 deletions
--- a/6
+++ b/6
@ -34,4 +34,10 @@ pipeline {
            }
        }
    }
+    post {
+        always {
+            archiveArtifacts artifacts: '*atp*.csv', onlyIfSuccessful: true
+        }
+        //df_atp.csv atp_train.csv atp_test.csv atp_dev.csv
+    }
 }
--- a/simple_init.sh
+++ b/simple_init.sh
@ -1,2 +1,15 @@
 echo 'test'
+
+# delete old files
+rm -r df_atp.csv atp_train.csv atp_test.csv atp_dev.csv
+
+# download dataset
 kaggle datasets download -d hakeem/atp-and-wta-tennis-data
+unzip -o atp-and-wta-tennis-data.zip
+
+# split dataset to train, dev and test subsets
+head -n 8000 df_atp.csv > atp_train.csv
+tail -n 2000 df_atp.csv > atp_test.csv
+head -n 2000 atp_train.csv > atp_dev.csv
+tail -n 6000 atp_train.csv > x.csv
+tail -n 6000 x.csv > atp_train.csv