add jupyter

2022-03-18 13:08:00 +01:00 · 2022-03-18 13:08:00 +01:00 · 4cdb496a97
commit 4cdb496a97
parent 561a92489e
4 changed files with 415 additions and 76 deletions
--- a/README.md
+++ b/README.md
@ -1,10 +1,2 @@
-##Projekt na przedmiot inżynieria oprogramowania
+## Projekt na przedmiot inżynieria oprogramowania

-#### Starting script:
-
-1. pip install --user kaggle #API Kaggle, do pobrania zbioru
-2. pip install --user pandas
-3. kaggle datasets download -d akash14/house-price-dataset  (U have to have Kaggle token, more info here: https://www.kaggle.com/docs/api)
-4. unzip -o house-price-dataset.zip / tar -xf .\house-price-dataset.zip (for windows)
-
-data from https://www.kaggle.com/datasets/akash14/house-price-dataset
--- a/src/preparation.py
+++ b/src/preparation.py
@ -1,36 +0,0 @@
-import pandas as pd
-import os
-
-# rename files
-# os.rename('../Participants_Data_HPP/Train.csv', '../Participants_Data_HPP/Test1.csv')
-# os.rename('../Participants_Data_HPP/Test.csv', '../Participants_Data_HPP/Train1.csv')
-
-# paths
-filePathTest = "../Participants_Data_HPP/Train.csv"
-filePathTrain = "../Participants_Data_HPP/Test.csv"
-
-dataTest = pd.read_csv(filePathTest)
-dataTrain = pd.read_csv(filePathTrain)
-
-number_lines = len(dataTest.index)
-row_size = number_lines // 2
-
-# start looping through data writing it to a new file for each set
-# no of csv files with row size
-k = 2
-size = row_size
-
-# split test data to test and dev
-for i in range(k):
-    df = dataTest[size * i:size * (i + 1)]
-    name = ""
-    if i == 0:
-        name = "Dev"
-    else:
-        name = "Test"
-    df.to_csv(f'../Participants_Data_HPP/' + name + '.csv', index=False)
-
-#df_1 = pd.read_csv("../Participants_Data_HPP/Dev.csv")
-
-#df_2 = pd.read_csv("../Participants_Data_HPP/Test.csv")
-
--- a/src/statistics.py
+++ b/src/statistics.py
@ -1,31 +0,0 @@
-import pandas as pd
-import matplotlib.pyplot as plt
-
-#https://www.kaggle.com/code/aadhavvignesh/regression-with-scikit-learn-practical-ml-1
-
-dataPath = '../Participants_Data_HPP/Train.csv'
-data = pd.read_csv(dataPath)
-info = data.info()
-description = data.describe(include="all")
-corr = data.corr()
-
-#select the most significant
-data = data[['TARGET(PRICE_IN_LACS)', 'SQUARE_FT', 'BHK_NO.', 'RESALE']]
-#print(data.head())
-data["BHK_NO."].value_counts().plot(kind="bar")
-#plt.show()
-
-#normalize price column and flat area using min max technique
-columnName1 = 'TARGET(PRICE_IN_LACS)'
-columnName2 = 'SQUARE_FT'
-
-column1Min = data[columnName1].min()
-column1Max = data[columnName1].max()
-column2Min = data[columnName2].min()
-column2Max = data[columnName2].max()
-
-data[columnName1] = (data[columnName1] - column1Min) / (column1Max - column1Min)
-data[columnName2] = (data[columnName2] - column2Min) / (column2Max - column2Min)
-
-print(data.head())
-print(data.describe(include="all"))
--- a/src/task1.ipynb
+++ b/src/task1.ipynb