1
0
Fork 0

Zadania 06

This commit is contained in:
szwedek 2018-01-20 18:18:03 +01:00
parent e6f680a3ba
commit 6ee1afac99
1 changed files with 101 additions and 15 deletions

View File

@ -1,14 +1,37 @@
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
matplotlib.style.use('ggplot')
plt.rcParams['figure.figsize'] = (10, 7)
import pandas as pd
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from mpl_toolkits.mplot3d import Axes3D
from sklearn.metrics import mean_squared_error, r2_score
# funkcja, która wczyta zestaw danych z pliku *mieszkania.csv* i zwróci obiekt typu *DataFrame*.
def wczytaj_dane():
pass
dane = pd.read_csv('mieszkania.csv', # ścieżka do pliku
sep=',', # separator
index_col='Id') # ustawienie indeksu na kolumnę Id
return (dane)
def most_common_room_number(dane):
pass
return (dane['Rooms'].mode()[0])
def cheapest_flats(dane, n):
pass
return (dane.nsmallest(n, 'Expected'))
def find_borough(desc):
dzielnice = ['Stare Miasto',
@ -19,36 +42,99 @@ def find_borough(desc):
'Winogrady',
'Miłostowo',
'Dębiec']
pass
for i in dzielnice:
if desc.find(i) + 1:
return (i)
return ('Inne')
def add_borough(dane):
pass
dane['Borough'] = dane['Location'].apply(find_borough)
return (dane)
def write_plot(dane, filename):
pass
fig = plt.figure()
dane.plot(kind='bar')
plt.savefig(filename)
plt.close(fig)
def mean_price(dane, room_number):
pass
return (dane.groupby(['Rooms']).mean()['Expected'][room_number])
def find_13(dane):
pass
return (dane[dane['Floor'] == 13]['Borough'].tolist())
def find_best_flats(dane, borough='Winogrady', rooms=3, floor=1):
return (dane[(dane['Borough'] == borough) & (dane['Rooms'] == rooms) & (dane['Floor'] == floor)])
def find_best_flats(dane):
pass
def main():
dane = wczytaj_dane()
print(dane[:5])
print("Najpopularniejsza liczba pokoi w mieszkaniu to: {}"
print("Najpopularniejsza liczba pokoi w mieszkaniu to: {}."
.format(most_common_room_number(dane)))
print("{} to najłądniejsza dzielnica w Poznaniu."
.format(find_borough("Grunwald i Jeżyce"))))
print('Pięć najtańszych ofert sprzedaży mieszkań: \n{}'
.format(cheapest_flats(dane, 5)))
print("{} to najładniejsza dzielnica w Poznaniu."
.format(find_borough("Grunwald i Jeżyce")))
# dane['Borough'] = dane['Location'].apply(find_borough)
dane = add_borough(dane)
write_plot(dane.groupby(['Borough']).count()['Expected'], 'filename')
print('Dzielnice, które zawierają ofertę mieszkanie na 13 piętrze to: {}.'.format(', '.join(find_13(dane))))
print('Średnia cena mieszkania {0}-pokojowego z ofert sprzedaży mieszkań wynosi: {1:.0f} zł.'
.format(3, mean_price(dane, 3)))
# print(find_best_flats(dane))
# Dzielimy dane na dwie części - jedną do uczenia 80% oraz drugą do testowania 20%
dane_X = dane[['SqrMeters', 'Rooms']]
dane_Y = dane[['Expected']]
dane_X_train, dane_X_test, dane_Y_train, dane_Y_test = train_test_split(dane_X,
dane_Y,
test_size=0.2,
random_state=2)
# Tworzymy model regresji wielorakiej, zmienną wyjaśnianą będzie cena
# mieszkania, zmiennymi wyjaśniającymi będą: wielkość mieszkania i liczba
# pokoi
regr = linear_model.LinearRegression()
# Uczymy model korzystając ze zbioru uczącego
regr.fit(dane_X_train, dane_Y_train)
# Współczynniki modelu
print('Współczynniki: {0:.4f} (SqrMeters) {1:.4f} (Rooms)'.format(regr.coef_[0,0],
regr.coef_[0,1]))
# Dokonujemy predykcji korzystając ze zbioru testującego
dane_Y_pred = regr.predict(dane_X_test)
# Test
print('Dopasowanie modelu: {:.4f}'.format(regr.score(dane_X_test, dane_Y_test)))
# Błąd średniokwadratowy
print('Błąd średniokwadratowy: {:.4f}'.format(mean_squared_error(dane_Y_test, dane_Y_pred)))
# Explained variance score: 1 is perfect prediction
print('Variance score: {:.4f}'.format(r2_score(dane_Y_test, dane_Y_pred)))
print("Średnia cena mieszkania 3-pokojowego, to: {}"
.format(mean_price(dane, 3)))
if __name__ == "__main__":
main()