Zadania 06

2018-01-20 18:18:03 +01:00 · 2018-01-20 18:18:03 +01:00 · 6ee1afac99
commit 6ee1afac99
parent e6f680a3ba
1 changed files with 101 additions and 15 deletions
--- a/labs06/task02.py
+++ b/labs06/task02.py
@ -1,14 +1,37 @@
 #!/usr/bin/env python
 # -*- coding: utf-8 -*-
 import numpy as np
 import matplotlib.pyplot as plt
 import matplotlib
 matplotlib.style.use('ggplot')
 plt.rcParams['figure.figsize'] = (10, 7)
 import pandas as pd
 from sklearn import linear_model
 from sklearn.model_selection import train_test_split
 from mpl_toolkits.mplot3d import Axes3D
 from sklearn.metrics import mean_squared_error, r2_score
 # funkcja, która wczyta zestaw danych z pliku *mieszkania.csv* i zwróci obiekt typu *DataFrame*.
 def wczytaj_dane():
-    pass
+    dane = pd.read_csv('mieszkania.csv',  # ścieżka  do pliku
                       sep=',',  # separator
                       index_col='Id')  # ustawienie indeksu na kolumnę Id
    return (dane)
 def most_common_room_number(dane):
-    pass
+    return (dane['Rooms'].mode()[0])
 def cheapest_flats(dane, n):
-    pass
+    return (dane.nsmallest(n, 'Expected'))
 def find_borough(desc):
    dzielnice = ['Stare Miasto',
@ -19,36 +42,99 @@ def find_borough(desc):
                 'Winogrady',
                 'Miłostowo',
                 'Dębiec']
-    pass
+    for i in dzielnice:
        if desc.find(i) + 1:
            return (i)
    return ('Inne')
 def add_borough(dane):
-    pass
+    dane['Borough'] = dane['Location'].apply(find_borough)
    return (dane)
 def write_plot(dane, filename):
-    pass
+    fig = plt.figure()
    dane.plot(kind='bar')
    plt.savefig(filename)
    plt.close(fig)
 def mean_price(dane, room_number):
-    pass
+    return (dane.groupby(['Rooms']).mean()['Expected'][room_number])
 def find_13(dane):
-    pass
+    return (dane[dane['Floor'] == 13]['Borough'].tolist())
 def find_best_flats(dane, borough='Winogrady', rooms=3, floor=1):
    return (dane[(dane['Borough'] == borough) & (dane['Rooms'] == rooms) & (dane['Floor'] == floor)])
 def find_best_flats(dane):
    pass
 def main():
    dane = wczytaj_dane()
    print(dane[:5])
-    print("Najpopularniejsza liczba pokoi w mieszkaniu to: {}"
+    print("Najpopularniejsza liczba pokoi w mieszkaniu to: {}."
          .format(most_common_room_number(dane)))
-    print("{} to najłądniejsza dzielnica w Poznaniu."
+    print('Pięć najtańszych ofert sprzedaży mieszkań: \n{}'
-          .format(find_borough("Grunwald i Jeżyce"))))
+          .format(cheapest_flats(dane, 5)))
    print("{} to najładniejsza dzielnica w Poznaniu."
          .format(find_borough("Grunwald i Jeżyce")))
    # dane['Borough'] = dane['Location'].apply(find_borough)
    dane = add_borough(dane)
    write_plot(dane.groupby(['Borough']).count()['Expected'], 'filename')
    print('Dzielnice, które zawierają ofertę mieszkanie na 13 piętrze to: {}.'.format(', '.join(find_13(dane))))
    print('Średnia cena mieszkania {0}-pokojowego z ofert sprzedaży mieszkań wynosi: {1:.0f} zł.'
          .format(3, mean_price(dane, 3)))
    # print(find_best_flats(dane))
    # Dzielimy dane na dwie części - jedną do uczenia 80% oraz drugą do testowania 20%
    dane_X = dane[['SqrMeters', 'Rooms']]
    dane_Y = dane[['Expected']]
    dane_X_train, dane_X_test, dane_Y_train, dane_Y_test = train_test_split(dane_X,
                                                                            dane_Y,
                                                                            test_size=0.2,
                                                                            random_state=2)
    # Tworzymy model regresji wielorakiej, zmienną wyjaśnianą będzie cena
    # mieszkania, zmiennymi wyjaśniającymi będą: wielkość mieszkania i liczba
    # pokoi
    regr = linear_model.LinearRegression()
    # Uczymy model korzystając ze zbioru uczącego
    regr.fit(dane_X_train, dane_Y_train)
    # Współczynniki modelu
    print('Współczynniki: {0:.4f} (SqrMeters) {1:.4f} (Rooms)'.format(regr.coef_[0,0],
                                      regr.coef_[0,1]))
    # Dokonujemy predykcji korzystając ze zbioru testującego
    dane_Y_pred = regr.predict(dane_X_test)
    # Test
    print('Dopasowanie modelu: {:.4f}'.format(regr.score(dane_X_test, dane_Y_test)))
    # Błąd średniokwadratowy
    print('Błąd średniokwadratowy: {:.4f}'.format(mean_squared_error(dane_Y_test, dane_Y_pred)))
    # Explained variance score: 1 is perfect prediction
    print('Variance score: {:.4f}'.format(r2_score(dane_Y_test, dane_Y_pred)))
    print("Średnia cena mieszkania 3-pokojowego, to: {}"
          .format(mean_price(dane, 3)))
 if __name__ == "__main__":
    main()