create dockerfile; modify python scripts n jenkinsfile

2023-04-03 15:31:55 +02:00 · 2023-04-03 15:31:55 +02:00 · 848d0db422
commit 848d0db422
parent 0aa380be3b
6 changed files with 119 additions and 12 deletions
--- a/22
+++ b/22
@ -0,0 +1,22 @@
 FROM python:3.11
 # seting env variables
 ENV KAGGLE_USERNAME=filippatyk
 ENV KAGGLE_KEY=""
 ENV RUN_TYPE=""
 # create working direcotyry
 WORKDIR /app
 # install python dependencies
 COPY requirements.txt ./
 RUN pip install --no-cache-dir -r requirements.txt
 COPY dataset.py ./
 #make dir for data
 RUN mkdir -p ./data
 CMD kaggle datasets download -p data --unzip clmentbisaillon/fake-and-real-news-dataset && python ./dataset.py "--$RUN_TYPE"
--- a/24
+++ b/24
@ -28,23 +28,37 @@ node {
        checkout([$class: 'GitSCM', branches: [[name: '*/master']], extensions: [], userRemoteConfigs: [[credentialsId: 's424714', url: 'https://git.wmi.amu.edu.pl/s424714/ium_424714']]])
    }
-    stage('Shell Script') {
+    stage('Dockerfile build') {
        // creating global envs for kaggle CLI
        withEnv(["KAGGLE_USERNAME=${params.KAGGLE_USERNAME}",
                "KAGGLE_KEY=${params.KAGGLE_KEY}" ]) {
-            sh 'echo KAGGLE_USERNAME: $KAGGLE_USERNAME'
+            // sh 'echo KAGGLE_USERNAME: $KAGGLE_USERNAME'
            sh "chmod +x -R ${env.WORKSPACE}"
-            sh "./create-dataset.sh ${CUTOFF}"
+
            def dockerImage = docker.build("dataset-create", "./dockerfiles/test")
            // sh "./create-dataset.sh ${CUTOFF}"
        }
    }
    stage("DOCKER testing"){
        withEnv(["KAGGLE_USERNAME=${params.KAGGLE_USERNAME}",
                "KAGGLE_KEY=${params.KAGGLE_KEY}" ]) {
            // sh 'echo KAGGLE_USERNAME: $KAGGLE_USERNAME'
            dockerImage.inside{
                sh "export $KAGGLE_KEY"
                sh "kaggle datasets download -p data --unzip clmentbisaillon/fake-and-real-news-dataset && python ./dataset.py --dataset"
                sh "cp /data/dataset/dataset.csv ${WORKSPACE}"
            }
-
+            // sh "./create-dataset.sh ${CUTOFF}"
        }
    }
    stage('Saving artefacts') {
        echo 'Goodbye!'
-        archiveArtifacts 'data/dataset.csv'
+        archiveArtifacts 'dataset.csv'
    }
 }
--- a/dane.ipynb
+++ b/dane.ipynb
@ -569,13 +569,6 @@
    "print(f\"y_val count: {y_val.count()}\")\n",
    "print(f\"y_test count: {y_test.count()}\")\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
--- a/dataset.py
+++ b/dataset.py
@ -0,0 +1,74 @@
 import argparse
 from pathlib import Path
 import pandas as pd
 from sklearn.model_selection import train_test_split
 parser = argparse.ArgumentParser(
    prog="Dataset",
    description="creating dataset or loading stats",
 )
 parser.add_argument("--dataset", action="store_true", default=False)
 parser.add_argument("--stats", action="store_true", default=False)
 args = parser.parse_args()
 TRUE_NEWS_PATH = Path("data/True.csv")
 FAKE_NEWS_PATH = Path("data/Fake.csv")
 DATA_PATH = TRUE_NEWS_PATH.parent
 DATASET_PATH = DATA_PATH / "dataset"
 # loading datasets
 true_news = pd.read_csv(TRUE_NEWS_PATH)
 fake_news = pd.read_csv(FAKE_NEWS_PATH)
 # clearing dataset
 true_news = true_news.drop(columns=["title", "subject", "date"])
 fake_news = fake_news.drop(columns=["title", "subject", "date"])
 # setting binary classification
 true_news["Value"] = 1
 fake_news["Value"] = 0
 # merging dataset
 dataset = pd.concat([true_news, fake_news], axis=0)
 dataset["text"] = dataset["text"].str.strip()
 dataset.dropna(axis=0, how="any", inplace=False, subset=["text"])
 # spliting dataset for train,val,test
 X_train, X_val_test, y_train, y_valtest = train_test_split(
    dataset["text"], dataset["Value"], test_size=0.2, shuffle=True, random_state=20
 )
 X_test, X_val, y_test, y_val = train_test_split(
    X_val_test, y_valtest, test_size=0.5, shuffle=True, random_state=21
 )
 train_data = pd.concat([X_train, y_train], axis=1)
 val_data = pd.concat([X_val, y_val], axis=1)
 test_data = pd.concat([X_test, y_test], axis=1)
 if args.dataset:
    DATASET_PATH.mkdir(parents=True, exist_ok=True)
    dataset.to_csv((DATASET_PATH / "dataset.csv"), index=False)
    train_data.to_csv((DATASET_PATH / "train.csv"), index=False)
    val_data.to_csv((DATASET_PATH / "val.csv"), index=False)
    test_data.to_csv((DATASET_PATH / "test.csv"), index=False)
    print(dataset)
 if args.stats:
    std_stats = [y_train.std(), y_val.std(), y_test.std()]
    mean_stats = [y_train.mean(), y_val.mean(), y_test.mean()]
    count_stats = [y_train.count(), y_val.count(), y_test.count()]
    stats = pd.DataFrame(
        data=[std_stats, mean_stats, count_stats],
        index=["std", "mean", "count"],
        columns=["train", "val", "test"],
    )
    stats.to_csv((DATA_PATH / "stats.csv"))
    print(stats)
 if not (args.dataset or args.stats):
    print("NO RUN TYPE SPECIFIED")
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,3 @@
 pandas==1.5.3
 scikit_learn==1.2.2
 kaggle==1.5.13
--- a/test.sh
+++ b/test.sh
@ -1 +1,2 @@
-echo "Witaj $1"
+KUPA=$1
 echo "Witaj --$KUPA"
`@ -1 +1,2 @@`
	`echo "Witaj $1"`	`KUPA=$1`
		`echo "Witaj --$KUPA"`