ium_444463/download_data_and_process.py

import subprocess
import pandas as pd
import numpy as np
import kaggle

kaggle.api.authenticate()
kaggle.api.dataset_download_files('shivamb/real-or-fake-fake-jobposting-prediction', path='fake_job_postings.csv', unzip=True)


data=pd.read_csv('fake_job_postings.csv/fake_job_postings.csv')
data = data.replace(np.nan, '', regex=True)

print("="*20)
print('Ilość wierszy w zbiorze: ',len(data))

print("="*10, ' data["department"].value_counts() ', 10*'=')
print(data["department"].value_counts())

print("="*10, ' data.median() ', 10*'=')
print(data.median())

print("="*10, ' data.describe(include="all") ', 10*'=')
print(data.describe(include='all'))

data.describe(include="all").to_csv(r'stats.txt', header=None, index=None, sep='\t', mode='a')
created docker 2022-04-02 14:15:19 +02:00			`import subprocess`
			`import pandas as pd`
			`import numpy as np`
r 2022-04-03 18:34:04 +02:00			`import kaggle`
r 2022-04-03 14:01:27 +02:00
r 2022-04-03 18:34:04 +02:00			`kaggle.api.authenticate()`
			`kaggle.api.dataset_download_files('shivamb/real-or-fake-fake-jobposting-prediction', path='fake_job_postings.csv', unzip=True)`
a 2022-04-03 16:00:01 +02:00





r 2022-04-03 18:34:04 +02:00			`data=pd.read_csv('fake_job_postings.csv/fake_job_postings.csv')`
created docker 2022-04-02 14:15:19 +02:00			`data = data.replace(np.nan, '', regex=True)`

			`print("="*20)`
			`print('Ilość wierszy w zbiorze: ',len(data))`

			`print("="10, ' data["department"].value_counts() ', 10'=')`
			`print(data["department"].value_counts())`

			`print("="10, ' data.median() ', 10'=')`
			`print(data.median())`

			`print("="10, ' data.describe(include="all") ', 10'=')`
Jenkins file to stats 2022-04-03 12:05:23 +02:00			`print(data.describe(include='all'))`

			`data.describe(include="all").to_csv(r'stats.txt', header=None, index=None, sep='\t', mode='a')`