Add recommender with HR10 0.116

2021-06-28 20:18:14 +02:00 · 2021-06-28 20:18:14 +02:00 · 4cf2994aca
commit 4cf2994aca
25 changed files with 75392 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,2 @@
+.ipynb_checkpoints
+__pycache__
--- a/README.md
+++ b/README.md
@ -0,0 +1,52 @@
+# Recommender Systems class - Project 2
+
+## Preparing your system
+
+1. Install [Docker](https://docs.docker.com/engine/install/).
+
+2. Fork this repository to your GitHub account.
+ 
+3. Run Jupyter docker image:
+
+```bash
+docker run \
+	-d -p 8888:8888 \
+	-v DIRECTORY:/home/jovyan/REK \
+	--name REK \
+	jupyter/minimal-notebook
+```
+
+Remember to change **DIRECTORY** to directory where all files can be found. You can change it to `$(pwd)` if your current directory is proper one. 
+
+4. Get loging link with following command:
+
+```bash
+docker logs REK 2>&1 | grep -o 'http://127.0.0.1:8888.*' | tail -n1
+
+Example output:
+http://127.0.0.1:8888/?token=2bb816a4bc36a4bdbf64e0c9a89f336ae5404a01d15e442c
+```
+
+5. Prepare conda environment:
+
+```bash
+docker exec REK bash -c "
+conda env create --name rs-class-env -f /home/jovyan/REK/environment.yml;
+python -m ipykernel install --user --name=rs-class-env"
+```
+
+6. You can start/stop container whenever you want:
+
+```bash
+docker stop REK
+docker start REK
+```
+
+If you want to start from scratch, you can remove container:
+
+```bash
+docker stop REK
+docker rm REK
+```
+
+Now you are ready to work!
--- a/data/hotel_data/hotel_data_interactions_df.csv
+++ b/data/hotel_data/hotel_data_interactions_df.csv
--- a/data/hotel_data/hotel_data_original.csv
+++ b/data/hotel_data/hotel_data_original.csv
--- a/data/hotel_data/hotel_data_preprocessed.csv
+++ b/data/hotel_data/hotel_data_preprocessed.csv
--- a/data_preprocessing/init.py
+++ b/data_preprocessing/init.py
--- a/data_preprocessing/data_preprocessing_toolkit.py
+++ b/data_preprocessing/data_preprocessing_toolkit.py
@ -0,0 +1,278 @@
+# Load libraries ---------------------------------------------
+
+from datetime import datetime, timedelta
+from dateutil.easter import easter
+from data_preprocessing.dataset_specification import DatasetSpecification
+
+import pandas as pd
+import numpy as np
+# ------------------------------------------------------------
+
+
+class DataPreprocessingToolkit(object):
+
+    def __init__(self):
+        dataset_specification = DatasetSpecification()
+
+        self.sum_columns = dataset_specification.get_sum_columns()
+        self.mean_columns = dataset_specification.get_mean_columns()
+        self.mode_columns = dataset_specification.get_mode_columns()
+        self.first_columns = dataset_specification.get_first_columns()
+
+        self.nights_buckets = dataset_specification.get_nights_buckets()
+        self.npeople_buckets = dataset_specification.get_npeople_buckets()
+        self.room_segment_buckets = dataset_specification.get_room_segment_buckets()
+
+        self.arrival_terms = dataset_specification.get_arrival_terms()
+
+        self.item_features_columns = dataset_specification.get_items_df_feature_columns()
+
+    # #########################
+    # Entire datasets functions
+    # #########################
+
+    def fix_date_to(self, df):
+        df.loc[:, "date_to"] = df["date_to"].apply(lambda x: x + timedelta(days=1))
+        return df
+
+    def add_length_of_stay(self, df):
+        df.loc[:, "length_of_stay"] = (df["date_to"] - df["date_from"]).dt.days
+        return df
+
+    def add_book_to_arrival(self, df):
+        df.loc[:, "book_to_arrival"] = (df["date_from"] - df["booking_date"]).dt.days
+        return df
+
+    def add_nrooms(self, df):
+        df.loc[:, "n_rooms"] = 1
+        return df
+
+    def add_weekend_stay(self, df):
+        s = df["date_from"].dt.dayofweek
+        e = df["date_to"].dt.dayofweek
+        dt = (df["date_to"] - df["date_from"]).dt.days
+        df.loc[:, "weekend_stay"] = (((s >= 4) & (s != 6)) | (e >= 5) | ((e < s) & (s != 6)) | (dt >= 6))
+        df.loc[:, "weekend_stay"] = df["weekend_stay"].replace({True: 'True', False: 'False'})
+        return df
+
+    def add_night_price(self, df):
+        df.loc[:, "night_price"] = np.round(df["accomodation_price"] / df["length_of_stay"] / df["n_rooms"], 2)
+        return df
+
+    def clip_book_to_arrival(self, df):
+        df.loc[:, "book_to_arrival"] = np.maximum(df["book_to_arrival"], 0)
+        return df
+
+    def sum_npeople(self, df):
+        df.loc[:, "n_people"] = np.maximum(df["n_people"] + df["n_children_1"] + df["n_children_2"] + df["n_children_3"], 1)
+        return df
+
+    def filter_out_company_clients(self, df):
+        df = df.loc[df["is_company"] == 0]
+        return df
+
+    def filter_out_long_stays(self, df):
+        df = df.loc[df["length_of_stay"] <= 21]
+        return df
+
+    def leave_one_from_group_reservations(self, df):
+        unique_group_rows = []
+
+        df.loc[:, "group_id"] = df["group_id"].fillna(-1)
+
+        group_ids = []
+        for idx, row in df.iterrows():
+            if row["group_id"] != -1:
+                if row["group_id"] not in group_ids:
+                    unique_group_rows.append(row)
+                    group_ids.append(row["group_id"])
+            else:
+                unique_group_rows.append(row)
+
+        cleaned_dataset = pd.DataFrame(unique_group_rows, columns=df.columns)
+
+        return df
+
+    def aggregate_group_reservations(self, df):
+        non_group_reservations = df.loc[df["group_id"] == "",
+                                        self.sum_columns + self.mean_columns + self.mode_columns + self.first_columns]
+        group_reservations = df.loc[df["group_id"] != ""]
+
+        agg_datasets = [group_reservations.loc[:, ["group_id"] + self.sum_columns].groupby("group_id").sum(),
+                        group_reservations.loc[:, ["group_id"] + self.mean_columns].groupby("group_id").mean(),
+                        group_reservations.loc[:, ["group_id"] + self.mode_columns].groupby("group_id").agg(lambda x: x.value_counts().index[0]),
+                        group_reservations.loc[:, ["group_id"] + self.first_columns].groupby("group_id").first()]
+
+        group_reservations = agg_datasets[0]
+        for i in range(1, len(agg_datasets)):
+            group_reservations = group_reservations.merge(agg_datasets[i], on="group_id")
+
+        group_reservations = group_reservations.reset_index(drop=True)
+
+        df = pd.concat([non_group_reservations, group_reservations])
+
+        return df
+
+    def leave_only_ota(self, df):
+        df = df.loc[df.loc[:, "Source"].apply(lambda x: "booking" in x.lower() or "expedia" in x.lower())]
+        return df
+
+    def map_date_to_term_datasets(self, df):
+        df.loc[:, "date_from"] = df["date_from"].astype(str).apply(lambda x: x[:10])
+        df.loc[:, 'term'] = df['date_from'].apply(lambda x: self.map_date_to_term(x))
+        return df
+
+    def map_length_of_stay_to_nights_buckets(self, df):
+        df.loc[:, 'length_of_stay_bucket'] = df['length_of_stay'].apply(lambda x: self.map_value_to_bucket(x, self.nights_buckets))
+        return df
+
+    def map_night_price_to_room_segment_buckets(self, df):
+        night_prices = df.loc[df['accomodation_price'] > 1]\
+            .groupby('room_group_id')['night_price'].mean().reset_index()
+        night_prices.columns = ['room_group_id', 'room_night_price']
+        df = pd.merge(df, night_prices, on=['room_group_id'], how='left')
+        df.loc[df['room_night_price'].isnull(), 'room_night_price'] = 0.0
+        df.loc[:, 'room_segment'] = df['room_night_price'].apply(
+            lambda x: self.map_value_to_bucket(x, self.room_segment_buckets))
+        df = df.drop(columns=['room_night_price'])
+        return df
+
+    # def map_night_price_to_room_segment_buckets(self, df):
+    #     night_prices = df.loc[df['accomodation_price'] > 1]\
+    #         .groupby(['term', 'room_group_id'])['night_price'].mean().reset_index()
+    #     night_prices.columns = ['term', 'room_group_id', 'termnight_price']
+    #     df = pd.merge(df, night_prices, on=['term', 'room_group_id'], how='left')
+    #     df.loc[:, 'room_segment'] = df['termnight_price'].apply(
+    #         lambda x: self.map_value_to_bucket(x, self.room_segment_buckets))
+    #     df = df.drop(columns=['termnight_price'])
+    #     return df
+
+    def map_npeople_to_npeople_buckets(self, df):
+        df.loc[:, 'n_people_bucket'] = df['n_people'].apply(lambda x: self.map_value_to_bucket(x, self.npeople_buckets))
+        return df
+
+    def map_item_to_item_id(self, df):
+        df.loc[:, 'item'] = df[self.item_features_columns].astype(str).agg(' '.join, axis=1)
+
+        ids = df['item'].unique().tolist()
+        mapping = {ids[i]: i for i in range(len(ids))}
+
+        df['item_id'] = df['item'].apply(lambda x: mapping[x])
+
+        return df
+
+    def add_interaction_id(self, df):
+        df.loc[:, 'interaction_id'] = range(df.shape[0])
+        return df
+
+    # ################
+    # Column functions
+    # ################
+
+    def bundle_period(self, diff):
+        diff = float(diff)
+        if int(diff) < 0:
+            return "<0"
+        elif int(diff) <= 7:
+            return diff
+        elif 7 < int(diff) <= 14:
+            return "<14"
+        elif 14 < int(diff) <= 30:
+            return "<30"
+        elif 30 < int(diff) <= 60:
+            return "<60"
+        elif 60 < int(diff) <= 180:
+            return "<180"
+        elif int(diff) > 180:
+            return ">180"
+
+    def bundle_price(self, price):
+        mod = 300.0
+        return int((price + mod / 2) / mod) * mod
+
+    def map_date_to_season(self, date):
+        day = int(date[8:10])
+        month = int(date[5:7])
+        if (month == 12 and day >= 21) or (month == 1) or (month == 2) or (month == 3 and day <= 19):
+            return "Winter"
+        if (month == 3 and day >= 20) or (month == 4) or (month == 5) or (month == 6 and day <= 20):
+            return "Spring"
+        if (month == 6 and day >= 21) or (month == 7) or (month == 8) or (month == 9 and day <= 22):
+            return "Summer"
+        if (month == 9 and day >= 23) or (month == 10) or (month == 11) or (month == 12 and day <= 20):
+            return "Autumn"
+
+    def map_value_to_bucket(self, value, buckets):
+        if value == "":
+            return str(buckets[0]).replace(", ", "-")
+        for bucket in buckets:
+            if bucket[0] <= value <= bucket[1]:
+                return str(bucket).replace(", ", "-")
+
+    def map_date_to_term(self, date):
+
+        m = int(date[5:7])
+        d = int(date[8:10])
+        term = None
+
+        for arrival_term in self.arrival_terms:
+            if arrival_term == "Easter":
+                year = int(date[:4])
+                easter_date = easter(year)
+                easter_start = easter_date + timedelta(days=-4)
+                easter_end = easter_date + timedelta(days=1)
+                esm = easter_start.month
+                esd = easter_start.day
+                eem = easter_end.month
+                eed = easter_end.day
+                if ((m > esm) or (m == esm and d >= esd)) and ((m < eem) or (m == eem and d <= eed)):
+                    term = arrival_term
+                    break
+
+            elif arrival_term == "NewYear":
+                sm = self.arrival_terms[arrival_term][0]["start"]["m"]
+                sd = self.arrival_terms[arrival_term][0]["start"]["d"]
+                em = self.arrival_terms[arrival_term][0]["end"]["m"]
+                ed = self.arrival_terms[arrival_term][0]["end"]["d"]
+                if ((m > sm) or (m == sm and d >= sd)) or ((m < em) or (m == em and d <= ed)):
+                    term = arrival_term
+                    break
+
+            else:
+                is_match = False
+
+                for i in range(len(self.arrival_terms[arrival_term])):
+                    sm = self.arrival_terms[arrival_term][i]["start"]["m"]
+                    sd = self.arrival_terms[arrival_term][i]["start"]["d"]
+                    em = self.arrival_terms[arrival_term][i]["end"]["m"]
+                    ed = self.arrival_terms[arrival_term][i]["end"]["d"]
+                    if ((m > sm) or (m == sm and d >= sd)) and ((m < em) or (m == em and d <= ed)):
+                        term = arrival_term
+                        is_match = True
+                        break
+
+                if is_match:
+                    break
+
+        return term
+
+    def map_dates_to_terms(self, dates):
+
+        terms = []
+        for date in dates:
+            term = self.map_date_to_term(date)
+            terms.append(term)
+
+        return terms
+
+    def filter_out_historical_dates(self, date_list):
+        """
+        Filters out past dates from a list of dates.
+        """
+        future_dates = []
+
+        for date in date_list:
+            if date >= datetime.now():
+                future_dates.append(date.strftime("%Y-%m-%d"))
+
+        return future_dates
--- a/data_preprocessing/dataset_specification.py
+++ b/data_preprocessing/dataset_specification.py
@ -0,0 +1,88 @@
+# Load libraries ---------------------------------------------
+
+from collections import defaultdict
+import numpy as np
+
+# ------------------------------------------------------------
+
+
+class DatasetSpecification(object):
+
+    def __init__(self):
+        pass
+
+    # ################
+    # Original dataset functions
+    # ################
+
+    def get_sum_columns(self):
+        return ["n_people", "n_children_1", "n_children_2", "n_children_3", "accomodation_price", "meal_price",
+                "service_price", "paid", "n_rooms"]
+
+    def get_mean_columns(self):
+        return ['discount']
+
+    def get_mode_columns(self):
+        return ["room_id", "room_group_id", "date_from", "date_to", "booking_date", "rate_plan",
+                "length_of_stay", "book_to_arrival", "weekend_stay"]
+
+    def get_first_columns(self):
+        return ["user_id", "client_id", "client_name", "email", "phone", "is_company"]
+
+    def get_id_columns(self):
+        return ["client_id", "client_name", "email", "phone"]
+
+    # ################
+    # Output dataset functions
+    # ################
+
+    def get_people_df_id_columns(self):
+        return ['user_id']
+
+    def get_people_df_feature_columns(self):
+        return []
+
+    def get_items_df_id_columns(self):
+        return ['item_id']
+
+    def get_items_df_feature_columns(self):
+        return ['term', 'length_of_stay_bucket', 'rate_plan', 'room_segment', 'n_people_bucket', 'weekend_stay']
+
+    def get_purchases_df_id_columns(self):
+        return ['user_id', 'item_id']
+
+    def get_purchases_df_feature_columns(self):
+        return []
+
+    # ################
+    # Mapping functions
+    # ################
+
+    def get_nights_buckets(self):
+        return [[0, 1], [2, 3], [4, 7], [8, np.inf]]
+
+    def get_npeople_buckets(self):
+        return [[1, 1], [2, 2], [3, 4], [5, np.inf]]
+
+    def get_room_segment_buckets(self):
+        return [[0, 160], [160, 260], [260, 360], [360, 500], [500, 900], [900, np.inf]]
+
+    def get_book_to_arrival_buckets(self):
+        return [[0, 0], [1, 2], [3, 4], [5, 7], [8, 14], [15, 30], [31, 60], [61, 90], [91, 180], [181, np.inf]]
+
+    def get_arrival_terms(self):
+        arrival_terms = {"Easter": [{"start": {"m": np.nan, "d": np.nan}, "end": {"m": np.nan, "d": np.nan}}],
+                         # Treated with priority
+                         "Christmas": [{"start": {"m": 12, "d": 22}, "end": {"m": 12, "d": 27}}],
+                         "NewYear": [{"start": {"m": 12, "d": 28}, "end": {"m": 1, "d": 4}}],
+                         "WinterVacation": [{"start": {"m": 1, "d": 5}, "end": {"m": 2, "d": 29}}],
+                         "OffSeason": [
+                             {"start": {"m": 3, "d": 1}, "end": {"m": 4, "d": 27}},
+                             {"start": {"m": 5, "d": 6}, "end": {"m": 6, "d": 20}},
+                             {"start": {"m": 9, "d": 26}, "end": {"m": 12, "d": 21}}],
+                         "MayLongWeekend": [{"start": {"m": 4, "d": 28}, "end": {"m": 5, "d": 5}}],
+                         "LowSeason": [
+                             {"start": {"m": 6, "d": 21}, "end": {"m": 7, "d": 10}},
+                             {"start": {"m": 8, "d": 23}, "end": {"m": 9, "d": 25}}],
+                         "HighSeason": [{"start": {"m": 7, "d": 11}, "end": {"m": 8, "d": 22}}]}
+        return arrival_terms
--- a/data_preprocessing/people_identifier.py
+++ b/data_preprocessing/people_identifier.py
@ -0,0 +1,77 @@
+# Load libraries ---------------------------------------------
+
+# ------------------------------------------------------------
+
+
+class PeopleIdentifier(object):
+    
+    def __init__(self):
+        self.id_column_names = []
+        self.pid_cname = ""
+        self.next_available_pid = 0
+        self.cid_to_pid = {}  # {"col1": {cid1: pid1, cid2: pid2}, "col2":...}
+        self.pid_to_cid = {}  # {pid1: {"col1": set(cid1, cid2, ...), "col2": set(...), ...}, pid2: ...}
+        self.data = None
+        
+    def add_pid(self, data, id_column_names, pid_cname):
+        self.id_column_names = id_column_names
+        self.pid_cname = pid_cname
+        
+        for cid_cname in id_column_names:
+            self.cid_to_pid[cid_cname] = {}
+        
+        for idx, reservation in data.iterrows():
+            pids = set()
+            for cid_cname in id_column_names:
+                if reservation[cid_cname] in self.cid_to_pid[cid_cname]:
+                    pids.add(self.cid_to_pid[cid_cname][reservation[cid_cname]])
+#                     print(cid_cname, reservation[cid_cname], self.cid_to_pid[cid_cname][reservation[cid_cname]])
+                    
+            if len(pids) > 0:
+                min_pid = min(pids)
+                
+                self.set_pid(min_pid, reservation)
+                
+                # Merge pids connected through this node
+                
+                if len(pids) > 1:
+                    pids.remove(min_pid)
+                    self.merge_pids(pids, min_pid)
+                    
+#                 print("Chosen pid: {}".format(min_pid))
+            else:
+                new_pid = self.next_available_pid
+                self.next_available_pid += 1
+                
+                self.set_pid(new_pid, reservation)
+#                 print("Chosen pid: {}".format(new_pid))
+                
+#             print("=======")
+#             print(self.pid_to_cid)
+#             print("=======")
+    
+        data_pid = data.copy()
+        data_pid.loc[:, pid_cname] = data_pid.loc[:, id_column_names[0]].apply(lambda x: self.cid_to_pid[id_column_names[0]][x])
+        self.data = data_pid
+        
+        return data_pid
+        
+    def set_pid(self, pid, reservation):
+        for cid_cname in self.id_column_names:
+            if reservation[cid_cname] != "":
+                self.cid_to_pid[cid_cname][reservation[cid_cname]] = pid
+        if pid in self.pid_to_cid:
+            for cid_cname in self.id_column_names:
+                self.pid_to_cid[pid][cid_cname] |= {reservation[cid_cname]} if reservation[cid_cname] != "" else set()
+        else:
+            self.pid_to_cid[pid] = {cid_cname: {reservation[cid_cname]} if reservation[cid_cname] != "" else set() 
+                                    for cid_cname in self.id_column_names}
+        
+    def merge_pids(self, pids_from, pid_to):
+        # print("Merge pids", pids_from, pid_to, self.pid_to_cid)
+        for pid_from in pids_from:
+            for cid_cname in self.id_column_names:
+                for cid in self.pid_to_cid[pid_from][cid_cname]:
+                    self.cid_to_pid[cid_cname][cid] = pid_to
+                self.pid_to_cid[pid_to][cid_cname] |= self.pid_to_cid[pid_from][cid_cname]
+            self.pid_to_cid.pop(pid_from)
--- a/environment.yml
+++ b/environment.yml
@ -0,0 +1,16 @@
+name: rs-class-env
+channels:
+  - defaults
+dependencies:
+  - pip=21.0.1
+  - python=3.8.8
+  - numpy==1.20.1
+  - matplotlib==3.3.2
+  - ipykernel==5.5.0
+  - pandas==1.2.3
+  - hyperopt==0.2.5
+  - seaborn==0.11.1
+  - pip:
+    - sklearn==0.0
+    - torch==1.8.0
+    - livelossplot==0.5.4
--- a/evaluation_and_testing/init.py
+++ b/evaluation_and_testing/init.py
--- a/evaluation_and_testing/evaluation_measures.py
+++ b/evaluation_and_testing/evaluation_measures.py
@ -0,0 +1,89 @@
+# Load libraries ---------------------------------------------
+
+import numpy as np
+import pandas as pd
+from collections import defaultdict
+
+# ------------------------------------------------------------
+
+
+def rmse(r_pred, r_real):
+    return np.sqrt(np.sum(np.power(r_pred - r_real, 2)) / len(r_pred))
+
+
+def mape(r_pred, r_real):
+    return 1 / len(r_pred) * np.sum(np.abs(r_pred - r_real) / np.abs(r_real))
+
+
+def tre(r_pred, r_real):
+    return np.sum(np.abs(r_pred - r_real)) / np.sum(np.abs(r_real))
+
+
+def hr(recommendations, real_interactions, n=1):
+    """
+    Assumes recommendations are ordered by user_id and then by score.
+
+    :param pd.DataFrame recommendations:
+    :param pd.DataFrame real_interactions:
+    :param int n:
+    """
+    # Transform real_interactions to a dict for a large speed-up
+    rui = defaultdict(lambda: 0)
+
+    for idx, row in real_interactions.iterrows():
+        rui[(row['user_id'], row['item_id'])] = 1
+
+    result = 0.0
+
+    previous_user_id = -1
+    rank = 0
+    for idx, row in recommendations.iterrows():
+        if previous_user_id == row['user_id']:
+            rank += 1
+        else:
+            rank = 1
+
+        if rank <= n:
+            result += rui[(row['user_id'], row['item_id'])]
+
+        previous_user_id = row['user_id']
+
+    if len(recommendations['user_id'].unique()) > 0:
+        result /= len(recommendations['user_id'].unique())
+
+    return result
+
+
+def ndcg(recommendations, real_interactions, n=1):
+    """
+    Assumes recommendations are ordered by user_id and then by score.
+
+    :param pd.DataFrame recommendations:
+    :param pd.DataFrame real_interactions:
+    :param int n:
+    """
+    # Transform real_interactions to a dict for a large speed-up
+    rui = defaultdict(lambda: 0)
+
+    for idx, row in real_interactions.iterrows():
+        rui[(row['user_id'], row['item_id'])] = 1
+
+    result = 0.0
+
+    previous_user_id = -1
+    rank = 0
+    for idx, row in recommendations.iterrows():
+        if previous_user_id == row['user_id']:
+            rank += 1
+        else:
+            rank = 1
+
+        if rank <= n:
+            result += rui[(row['user_id'], row['item_id'])] / np.log2(1 + rank)
+
+        previous_user_id = row['user_id']
+
+    if len(recommendations['user_id'].unique()) > 0:
+        result /= len(recommendations['user_id'].unique())
+
+    return result
--- a/evaluation_and_testing/testing.py
+++ b/evaluation_and_testing/testing.py
@ -0,0 +1,209 @@
+# Load libraries ---------------------------------------------
+
+import numpy as np
+import pandas as pd
+from sklearn.model_selection import KFold
+
+from evaluation_and_testing.evaluation_measures import rmse
+from evaluation_and_testing.evaluation_measures import mape
+from evaluation_and_testing.evaluation_measures import tre
+from evaluation_and_testing.evaluation_measures import hr
+from evaluation_and_testing.evaluation_measures import ndcg
+
+# ------------------------------------------------------------
+
+
+def evaluate_train_test_split_explicit(recommender, interactions_df, items_df, seed=6789):
+    rng = np.random.RandomState(seed=seed)
+
+    if isinstance(interactions_df, dict):
+        # If interactions_df is a dict with already split data, use the split
+        interactions_df_train = interactions_df['train']
+        interactions_df_test = interactions_df['test']
+    else:
+        # Otherwise split the dataset into train and test
+
+        shuffle = np.arange(len(interactions_df))
+        rng.shuffle(shuffle)
+        shuffle = list(shuffle)
+
+        train_test_split = 0.8
+        split_index = int(len(interactions_df) * train_test_split)
+
+        interactions_df_train = interactions_df.iloc[shuffle[:split_index]]
+        interactions_df_test = interactions_df.iloc[shuffle[split_index:]]
+
+    # Train the recommender
+
+    recommender.fit(interactions_df_train, None, items_df)
+
+    # Gather predictions
+
+    r_pred = []
+
+    for idx, row in interactions_df_test.iterrows():
+        users_df = pd.DataFrame([row['user_id']], columns=['user_id'])
+        eval_items_df = pd.DataFrame([row['item_id']], columns=['item_id'])
+        eval_items_df = pd.merge(eval_items_df, items_df, on='item_id')
+        recommendations = recommender.recommend(users_df, eval_items_df, n_recommendations=1)
+
+        r_pred.append(recommendations.iloc[0]['score'])
+
+    # Gather real ratings
+
+    r_real = np.array(interactions_df_test['rating'].tolist())
+
+    # Return evaluation metrics
+
+    return rmse(r_pred, r_real), mape(r_pred, r_real), tre(r_pred, r_real)
+
+
+def evaluate_train_test_split_implicit(recommender, interactions_df, items_df, seed=6789):
+    # Write your code here
+    rng = np.random.RandomState(seed=seed)
+
+    if isinstance(interactions_df, dict):
+        # If interactions_df is a dict with already split data, use the split
+        interactions_df_train = interactions_df['train']
+        interactions_df_test = interactions_df['test']
+    else:
+        # Otherwise split the dataset into train and test
+
+        shuffle = np.arange(len(interactions_df))
+        rng.shuffle(shuffle)
+        shuffle = list(shuffle)
+
+        train_test_split = 0.8
+        split_index = int(len(interactions_df) * train_test_split)
+
+        interactions_df_train = interactions_df.iloc[shuffle[:split_index]]
+        interactions_df_test = interactions_df.iloc[shuffle[split_index:]]
+
+    hr_1 = []
+    hr_3 = []
+    hr_5 = []
+    hr_10 = []
+    ndcg_1 = []
+    ndcg_3 = []
+    ndcg_5 = []
+    ndcg_10 = []
+
+    # Train the recommender
+
+    recommender.fit(interactions_df_train, None, items_df)
+
+    # Make recommendations for each user in the test set and calculate the metric
+    # against all items of that user in the test set
+
+    test_user_interactions = interactions_df_test.groupby(by='user_id')
+
+    for user_id, user_interactions in test_user_interactions:
+
+        recommendations = recommender.recommend(pd.DataFrame([user_id], columns=['user_id']),
+                                                items_df, n_recommendations=10)
+
+        hr_1.append(hr(recommendations, user_interactions, n=1))
+        hr_3.append(hr(recommendations, user_interactions, n=3))
+        hr_5.append(hr(recommendations, user_interactions, n=5))
+        hr_10.append(hr(recommendations, user_interactions, n=10))
+        ndcg_1.append(ndcg(recommendations, user_interactions, n=1))
+        ndcg_3.append(ndcg(recommendations, user_interactions, n=3))
+        ndcg_5.append(ndcg(recommendations, user_interactions, n=5))
+        ndcg_10.append(ndcg(recommendations, user_interactions, n=10))
+
+    hr_1 = np.mean(hr_1)
+    hr_3 = np.mean(hr_3)
+    hr_5 = np.mean(hr_5)
+    hr_10 = np.mean(hr_10)
+    ndcg_1 = np.mean(ndcg_1)
+    ndcg_3 = np.mean(ndcg_3)
+    ndcg_5 = np.mean(ndcg_5)
+    ndcg_10 = np.mean(ndcg_10)
+
+    return hr_1, hr_3, hr_5, hr_10, ndcg_1, ndcg_3, ndcg_5, ndcg_10
+
+
+def evaluate_leave_one_out_explicit(recommender, interactions_df, items_df, max_evals=300, seed=6789):
+    rng = np.random.RandomState(seed=seed)
+
+    # Prepare splits of the datasets
+    kf = KFold(n_splits=len(interactions_df), random_state=rng, shuffle=True)
+
+    # For each split of the dataset train the recommender, generate recommendations and evaluate
+
+    r_pred = []
+    r_real = []
+    n_eval = 1
+    for train_index, test_index in kf.split(interactions_df.index):
+        interactions_df_train = interactions_df.loc[interactions_df.index[train_index]]
+        interactions_df_test = interactions_df.loc[interactions_df.index[test_index]]
+
+        recommender.fit(interactions_df_train, None, items_df)
+        recommendations = recommender.recommend(
+            interactions_df_test.loc[:, ['user_id']],
+            items_df.loc[items_df['item_id'] == interactions_df_test.iloc[0]['item_id']])
+
+        r_pred.append(recommendations.iloc[0]['score'])
+        r_real.append(interactions_df_test.iloc[0]['rating'])
+
+        if n_eval == max_evals:
+            break
+        n_eval += 1
+
+    r_pred = np.array(r_pred)
+    r_real = np.array(r_real)
+
+    # Return evaluation metrics
+
+    return rmse(r_pred, r_real), mape(r_pred, r_real), tre(r_pred, r_real)
+
+
+def evaluate_leave_one_out_implicit(recommender, interactions_df, items_df, max_evals=300, seed=6789):
+    rng = np.random.RandomState(seed=seed)
+
+    # Prepare splits of the datasets
+    kf = KFold(n_splits=len(interactions_df), random_state=rng, shuffle=True)
+
+    hr_1 = []
+    hr_3 = []
+    hr_5 = []
+    hr_10 = []
+    ndcg_1 = []
+    ndcg_3 = []
+    ndcg_5 = []
+    ndcg_10 = []
+
+    # For each split of the dataset train the recommender, generate recommendations and evaluate
+
+    n_eval = 1
+    for train_index, test_index in kf.split(interactions_df.index):
+        interactions_df_train = interactions_df.loc[interactions_df.index[train_index]]
+        interactions_df_test = interactions_df.loc[interactions_df.index[test_index]]
+
+        recommender.fit(interactions_df_train, None, items_df)
+        recommendations = recommender.recommend(
+            interactions_df_test.loc[:, ['user_id']], items_df, n_recommendations=10)
+
+        hr_1.append(hr(recommendations, interactions_df_test, n=1))
+        hr_3.append(hr(recommendations, interactions_df_test, n=3))
+        hr_5.append(hr(recommendations, interactions_df_test, n=5))
+        hr_10.append(hr(recommendations, interactions_df_test, n=10))
+        ndcg_1.append(ndcg(recommendations, interactions_df_test, n=1))
+        ndcg_3.append(ndcg(recommendations, interactions_df_test, n=3))
+        ndcg_5.append(ndcg(recommendations, interactions_df_test, n=5))
+        ndcg_10.append(ndcg(recommendations, interactions_df_test, n=10))
+
+        if n_eval == max_evals:
+            break
+        n_eval += 1
+
+    hr_1 = np.mean(hr_1)
+    hr_3 = np.mean(hr_3)
+    hr_5 = np.mean(hr_5)
+    hr_10 = np.mean(hr_10)
+    ndcg_1 = np.mean(ndcg_1)
+    ndcg_3 = np.mean(ndcg_3)
+    ndcg_5 = np.mean(ndcg_5)
+    ndcg_10 = np.mean(ndcg_10)
+
+    return hr_1, hr_3, hr_5, hr_10, ndcg_1, ndcg_3, ndcg_5, ndcg_10
--- a/project_1_data_preparation.html
+++ b/project_1_data_preparation.html
--- a/project_1_data_preparation.ipynb
+++ b/project_1_data_preparation.ipynb
--- a/project_2_recommender_and_evaluation-0_116.ipynb
+++ b/project_2_recommender_and_evaluation-0_116.ipynb
--- a/project_2_recommender_and_evaluation-Copy1.ipynb
+++ b/project_2_recommender_and_evaluation-Copy1.ipynb
--- a/project_2_recommender_and_evaluation-Copy2.ipynb
+++ b/project_2_recommender_and_evaluation-Copy2.ipynb
--- a/project_2_recommender_and_evaluation.ipynb
+++ b/project_2_recommender_and_evaluation.ipynb
--- a/recommenders/init.py
+++ b/recommenders/init.py
--- a/recommenders/amazon_recommender.py
+++ b/recommenders/amazon_recommender.py
@ -0,0 +1,231 @@
+# Load libraries ---------------------------------------------
+
+import pandas as pd
+import numpy as np
+import scipy.special as scisp
+
+from recommenders.recommender import Recommender
+
+# ------------------------------------------------------------
+
+
+class AmazonRecommender(Recommender):
+    """
+    Basic item-to-item collaborative filtering algorithm used in Amazon.com as described in:
+    - Linden G., Smith B., York Y., Amazon.com Recommendations. Item-to-Item Collaborative Filtering,
+        IEEE Internet Computing, 2003,
+    - Smith B., Linden G., Two Decades of Recommender Systems at Amazon.com, IEEE Internet Computing, 2017.
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.recommender_df = pd.DataFrame(columns=['user_id', 'item_id', 'score'])
+        self.interactions_df = None
+        self.item_id_mapping = None
+        self.user_id_mapping = None
+        self.item_id_reverse_mapping = None
+        self.user_id_reverse_mapping = None
+        self.e_xy = None
+        self.n_xy = None
+        self.scores = None
+        self.most_popular_items = None
+        self.should_recommend_already_bought = False
+
+    def initialize(self, **params):
+        if 'should_recommend_already_bought' in params:
+            self.should_recommend_already_bought = params['should_recommend_already_bought']
+
+    def fit(self, interactions_df, users_df, items_df):
+        """
+        Training of the recommender.
+
+        :param pd.DataFrame interactions_df: DataFrame with recorded interactions between users and items
+            defined by user_id, item_id and features of the interaction.
+        :param pd.DataFrame users_df: DataFrame with users and their features defined by
+            user_id and the user feature columns.
+        :param pd.DataFrame items_df: DataFrame with items and their features defined
+            by item_id and the item feature columns.
+        """
+
+        # Shift item ids and user ids so that they are consecutive
+
+        unique_item_ids = interactions_df['item_id'].unique()
+        self.item_id_mapping = dict(zip(unique_item_ids, list(range(len(unique_item_ids)))))
+        self.item_id_reverse_mapping = dict(zip(list(range(len(unique_item_ids))), unique_item_ids))
+        unique_user_ids = interactions_df['user_id'].unique()
+        self.user_id_mapping = dict(zip(unique_user_ids, list(range(len(unique_user_ids)))))
+        self.user_id_reverse_mapping = dict(zip(list(range(len(unique_user_ids))), unique_user_ids))
+
+        interactions_df = interactions_df.copy()
+        interactions_df.replace({'item_id': self.item_id_mapping, 'user_id': self.user_id_mapping}, inplace=True)
+
+        # Get the number of items and users
+
+        self.interactions_df = interactions_df
+        n_items = np.max(interactions_df['item_id']) + 1
+        n_users = np.max(interactions_df['user_id']) + 1
+
+        # Get maximal number of interactions
+
+        n_user_interactions = interactions_df[['user_id', 'item_id']].groupby("user_id").count()
+        # Unnecessary, but added for readability
+        n_user_interactions = n_user_interactions.rename(columns={'item_id': 'n_items'})
+        max_interactions = n_user_interactions['n_items'].max()
+
+        # Calculate P_Y's
+
+        n_interactions = len(interactions_df)
+        p_y = interactions_df[['item_id', 'user_id']].groupby("item_id").count().reset_index()
+        p_y = p_y.rename(columns={'user_id': 'P_Y'})
+        p_y.loc[:, 'P_Y'] = p_y['P_Y'] / n_interactions
+        p_y = dict(zip(p_y['item_id'], p_y['P_Y']))
+
+        # Get the series of all items
+
+        # items = list(range(n_items))
+        items = interactions_df['item_id'].unique()
+
+        # For every X calculate the E[Y|X]
+
+        e_xy = np.zeros(shape=(n_items, n_items))
+        e_xy[:][:] = -1e100
+
+        p_y_powers = {}
+        for y in items:
+            p_y_powers[y] = np.array([p_y[y]**k for k in range(1, max_interactions + 1)])
+
+        # In the next version calculate all alpha_k first (this works well with parallelization)
+
+        for x in items:
+            # Get users who bought X
+            c_x = interactions_df.loc[interactions_df['item_id'] == x]['user_id'].unique()
+
+            # Get users who bought only X
+            c_only_x = interactions_df.loc[interactions_df['item_id'] != x]['user_id'].unique()
+            c_only_x = list(set(c_x.tolist()) - set(c_only_x.tolist()))
+
+            # Calculate the number of non-X interactions for each user who bought X
+            # Include users with zero non-X interactions
+            n_non_x_interactions = interactions_df.loc[interactions_df['item_id'] != x, ['user_id', 'item_id']]
+            n_non_x_interactions = n_non_x_interactions.groupby("user_id").count()
+            # Unnecessary, but added for readability
+            n_non_x_interactions = n_non_x_interactions.rename(columns={'item_id': 'n_items'})
+
+            zero_non_x_interactions = pd.DataFrame([[0]]*len(c_only_x), columns=["n_items"], index=c_only_x)  # Remove
+            n_non_x_interactions = pd.concat([n_non_x_interactions, zero_non_x_interactions])
+
+            n_non_x_interactions = n_non_x_interactions.loc[c_x.tolist()]
+
+            # Calculate the expected numbers of Y products bought by clients who bought X
+            alpha_k = np.array([np.sum([(-1)**(k + 1) * scisp.binom(abs_c, k)
+                                        for abs_c in n_non_x_interactions["n_items"]])
+                                for k in range(1, max_interactions + 1)])
+
+            for y in items:  # Optimize to use only those Y's which have at least one client who bought both X and Y
+                if y != x:
+                    e_xy[x][y] = np.sum(alpha_k * p_y_powers[y])
+                else:
+                    e_xy[x][y] = n_users * p_y[x]
+
+        self.e_xy = e_xy
+
+        # Calculate the number of users who bought both X and Y
+
+        # Simple and slow method (commented out)
+
+        # n_xy = np.zeros(shape=(n_items, n_items))
+
+        # for x in items:
+        #     for y in items:
+        #         users_x = set(interactions_df.loc[interactions_df['item_id'] == x]['user_id'].tolist())
+        #         users_y = set(interactions_df.loc[interactions_df['item_id'] == y]['user_id'].tolist())
+        #         users_x_and_y = users_x & users_y
+        #         n_xy[x][y] = len(users_x_and_y)
+
+        # Optimized method (can be further optimized by using sparse matrices)
+
+        # Get the user-item interaction matrix (mapping to int is necessary because of how iterrows works)
+        r = np.zeros(shape=(n_users, n_items))
+        for idx, interaction in interactions_df.iterrows():
+            r[int(interaction['user_id'])][int(interaction['item_id'])] = 1
+
+        # Get the number of users who bought both X and Y
+
+        n_xy = np.matmul(r.T, r)
+
+        self.n_xy = n_xy
+
+        self.scores = np.divide(n_xy - e_xy, np.sqrt(e_xy), out=np.zeros_like(n_xy), where=e_xy != 0)
+
+        # Find the most popular items for the cold start problem
+
+        offers_count = interactions_df.loc[:, ['item_id', 'user_id']].groupby(by='item_id').count()
+        offers_count = offers_count.sort_values('user_id', ascending=False)
+        self.most_popular_items = offers_count.index
+
+    def recommend(self, users_df, items_df, n_recommendations=1):
+        """
+        Serving of recommendations. Scores items in items_df for each user in users_df and returns
+        top n_recommendations for each user.
+
+        :param pd.DataFrame users_df: DataFrame with users and their features for which
+            recommendations should be generated.
+        :param pd.DataFrame items_df: DataFrame with items and their features which should be scored.
+        :param int n_recommendations: Number of recommendations to be returned for each user.
+        :return: DataFrame with user_id, item_id and score as columns returning n_recommendations top recommendations
+            for each user.
+        :rtype: pd.DataFrame
+        """
+
+        # Clean previous recommendations (iloc could be used alternatively)
+        self.recommender_df = self.recommender_df[:0]
+
+        # Handle users not in the training data
+
+        # Map item ids
+
+        items_df = items_df.copy()
+        items_df.replace({'item_id': self.item_id_mapping}, inplace=True)
+
+        # Generate recommendations
+
+        for idx, user in users_df.iterrows():
+            recommendations = []
+
+            user_id = user['user_id']
+
+            if user_id in self.user_id_mapping:
+                mapped_user_id = self.user_id_mapping[user_id]
+
+                x_list = self.interactions_df.loc[self.interactions_df['user_id'] == mapped_user_id]['item_id'].tolist()
+                final_scores = np.sum(self.scores[x_list], axis=0)
+
+                # Choose n recommendations based on highest scores
+                if not self.should_recommend_already_bought:
+                    final_scores[x_list] = -1e100
+
+                chosen_ids = np.argsort(-final_scores)[:n_recommendations]
+
+                for item_id in chosen_ids:
+                    recommendations.append(
+                        {
+                            'user_id': self.user_id_reverse_mapping[mapped_user_id],
+                            'item_id': self.item_id_reverse_mapping[item_id],
+                            'score': final_scores[item_id]
+                        }
+                    )
+            else:  # For new users recommend most popular items
+                for i in range(n_recommendations):
+                    recommendations.append(
+                        {
+                            'user_id': user['user_id'],
+                            'item_id': self.item_id_reverse_mapping[self.most_popular_items[i]],
+                            'score': 1.0
+                        }
+                    )
+
+            user_recommendations = pd.DataFrame(recommendations)
+
+            self.recommender_df = pd.concat([self.recommender_df, user_recommendations])
+
+        return self.recommender_df
--- a/recommenders/nearest_neighbors_recommender.py
+++ b/recommenders/nearest_neighbors_recommender.py
@ -0,0 +1,233 @@
+# Load libraries ---------------------------------------------
+
+import pandas as pd
+import numpy as np
+
+from recommenders.recommender import Recommender
+
+# ------------------------------------------------------------
+
+
+class NearestNeighborsRecommender(Recommender):
+    """
+    Nearest neighbors recommender allowing to do user-based or item-based collaborative filtering.
+
+    Possible similarity measures:
+        - 'cosine',
+        - 'pearson'.
+    """
+
+    def __init__(self):
+        super().__init__()
+        self.recommender_df = pd.DataFrame(columns=['user_id', 'item_id', 'score'])
+        self.interactions_df = None
+        self.item_id_mapping = None
+        self.user_id_mapping = None
+        self.item_id_reverse_mapping = None
+        self.user_id_reverse_mapping = None
+        self.r = None
+        self.similarities = None
+        self.most_popular_items = None
+
+        self.collaboration_type = 'user'
+        self.similarity_measure = 'cosine'
+        self.n_neighbors = 10
+        self.should_recommend_already_bought = False
+
+    def initialize(self, **params):
+        if 'n_neighbors' in params:
+            self.n_neighbors = params['n_neighbors']
+        if 'should_recommend_already_bought' in params:
+            self.should_recommend_already_bought = params['should_recommend_already_bought']
+
+    def fit(self, interactions_df, users_df, items_df):
+        """
+        Training of the recommender.
+
+        :param pd.DataFrame interactions_df: DataFrame with recorded interactions between users and items
+            defined by user_id, item_id and features of the interaction.
+        :param pd.DataFrame users_df: DataFrame with users and their features defined by
+            user_id and the user feature columns.
+        :param pd.DataFrame items_df: DataFrame with items and their features defined
+            by item_id and the item feature columns.
+        """
+
+        del users_df, items_df
+
+        # Shift item ids and user ids so that they are consecutive
+
+        unique_item_ids = interactions_df['item_id'].unique()
+        self.item_id_mapping = dict(zip(unique_item_ids, list(range(len(unique_item_ids)))))
+        self.item_id_reverse_mapping = dict(zip(list(range(len(unique_item_ids))), unique_item_ids))
+        unique_user_ids = interactions_df['user_id'].unique()
+        self.user_id_mapping = dict(zip(unique_user_ids, list(range(len(unique_user_ids)))))
+        self.user_id_reverse_mapping = dict(zip(list(range(len(unique_user_ids))), unique_user_ids))
+
+        interactions_df = interactions_df.copy()
+        interactions_df.replace({'item_id': self.item_id_mapping, 'user_id': self.user_id_mapping}, inplace=True)
+
+        # Get the number of items and users
+
+        self.interactions_df = interactions_df
+        n_items = np.max(interactions_df['item_id']) + 1
+        n_users = np.max(interactions_df['user_id']) + 1
+
+        # Get the user-item interaction matrix (mapping to int is necessary because of how iterrows works)
+        r = np.zeros(shape=(n_users, n_items))
+        for idx, interaction in interactions_df.iterrows():
+            r[int(interaction['user_id'])][int(interaction['item_id'])] = 1
+
+        if self.collaboration_type == 'item':
+            r = r.T
+
+        self.r = r
+
+        # Calculate all similarities
+
+        similarities = None
+        if self.similarity_measure == 'cosine':
+            n_uv = np.matmul(r, r.T)
+            norms = np.sqrt(np.diag(n_uv))
+            similarities = n_uv / norms[:, np.newaxis] / norms[np.newaxis, :]
+        elif self.similarity_measure == 'pearson':
+            r_shifted = r - np.mean(r, axis=1).reshape(-1, 1)
+            n_uv = np.matmul(r_shifted, r_shifted.T)
+            norms = np.sqrt(np.diag(n_uv))
+            norms[norms == 0] = 0.000001
+            similarities = n_uv / norms[:, np.newaxis] / norms[np.newaxis, :]
+
+        np.fill_diagonal(similarities, -1000)
+
+        self.similarities = similarities
+
+        # Find the most popular items for the cold start problem
+
+        offers_count = interactions_df.loc[:, ['item_id', 'user_id']].groupby(by='item_id').count()
+        offers_count = offers_count.sort_values('user_id', ascending=False)
+        self.most_popular_items = offers_count.index
+
+    def recommend(self, users_df, items_df, n_recommendations=1):
+        """
+        Serving of recommendations. Scores items in items_df for each user in users_df and returns
+        top n_recommendations for each user.
+
+        :param pd.DataFrame users_df: DataFrame with users and their features for which
+            recommendations should be generated.
+        :param pd.DataFrame items_df: DataFrame with items and their features which should be scored.
+        :param int n_recommendations: Number of recommendations to be returned for each user.
+        :return: DataFrame with user_id, item_id and score as columns returning n_recommendations top recommendations
+            for each user.
+        :rtype: pd.DataFrame
+        """
+
+        # Clean previous recommendations (iloc could be used alternatively)
+        self.recommender_df = self.recommender_df[:0]
+
+        # Handle users not in the training data
+
+        # Map item ids
+
+        items_df = items_df.copy()
+        items_df = items_df.loc[items_df['item_id'].isin(self.item_id_mapping)]
+        items_df.replace({'item_id': self.item_id_mapping}, inplace=True)
+
+        # Generate recommendations
+
+        for idx, user in users_df.iterrows():
+            recommendations = []
+
+            user_id = user['user_id']
+
+            if user_id in self.user_id_mapping:
+                chosen_ids = []
+                scores = []
+                mapped_user_id = self.user_id_mapping[user_id]
+
+                if self.collaboration_type == 'user':
+                    neighbor_ids = np.argsort(-self.similarities[mapped_user_id])[:self.n_neighbors]
+                    user_similarities = self.similarities[mapped_user_id][neighbor_ids]
+
+                    item_ids = items_df['item_id'].tolist()
+
+                    v_i = self.r[neighbor_ids][:, item_ids]
+
+                    scores = np.matmul(user_similarities, v_i) / np.sum(user_similarities)
+
+                    # Choose n recommendations based on highest scores
+                    if not self.should_recommend_already_bought:
+                        x_list = self.interactions_df.loc[
+                            self.interactions_df['user_id'] == mapped_user_id]['item_id'].tolist()
+                        scores[x_list] = -1e100
+
+                    chosen_ids = np.argsort(-scores)[:n_recommendations]
+
+                elif self.collaboration_type == 'item':
+                    x_list = self.interactions_df.loc[
+                        self.interactions_df['user_id'] == mapped_user_id]['item_id'].tolist()
+                    scores = np.sum(self.similarities[x_list], axis=0)
+
+                    # Choose n recommendations based on highest scores
+                    if not self.should_recommend_already_bought:
+                        scores[x_list] = -1e100
+
+                    chosen_ids = np.argsort(-scores)[:n_recommendations]
+
+                for item_id in chosen_ids:
+                    recommendations.append(
+                        {
+                            'user_id': self.user_id_reverse_mapping[mapped_user_id],
+                            'item_id': self.item_id_reverse_mapping[item_id],
+                            'score': scores[item_id]
+                        }
+                    )
+            else:  # For new users recommend most popular items
+                for i in range(n_recommendations):
+                    recommendations.append(
+                        {
+                            'user_id': user['user_id'],
+                            'item_id': self.item_id_reverse_mapping[self.most_popular_items[i]],
+                            'score': 1.0
+                        }
+                    )
+
+            user_recommendations = pd.DataFrame(recommendations)
+
+            self.recommender_df = pd.concat([self.recommender_df, user_recommendations])
+
+        return self.recommender_df
+
+
+class UserBasedCosineNearestNeighborsRecommender(NearestNeighborsRecommender):
+
+    def __init__(self):
+        super().__init__()
+
+        self.collaboration_type = 'user'
+        self.similarity_measure = 'cosine'
+
+
+class UserBasedPearsonNearestNeighborsRecommender(NearestNeighborsRecommender):
+
+    def __init__(self):
+        super().__init__()
+
+        self.collaboration_type = 'user'
+        self.similarity_measure = 'pearson'
+
+
+class ItemBasedCosineNearestNeighborsRecommender(NearestNeighborsRecommender):
+
+    def __init__(self):
+        super().__init__()
+
+        self.collaboration_type = 'item'
+        self.similarity_measure = 'cosine'
+
+
+class ItemBasedPearsonNearestNeighborsRecommender(NearestNeighborsRecommender):
+
+    def __init__(self):
+        super().__init__()
+
+        self.collaboration_type = 'item'
+        self.similarity_measure = 'pearson'
--- a/recommenders/netflix_recommender.py
+++ b/recommenders/netflix_recommender.py
@ -0,0 +1,305 @@
+# Load libraries ---------------------------------------------
+
+import pandas as pd
+import numpy as np
+import scipy.special as scisp
+from livelossplot import PlotLosses
+from collections import defaultdict, deque
+
+from recommenders.recommender import Recommender
+
+# ------------------------------------------------------------
+
+
+class NetflixRecommender(Recommender):
+    """
+    Collaborative filtering based on matrix factorization with the following choice of an optimizer:
+      - Stochastic Gradient Descent (SGD),
+      - Mini-Batch Gradient Descent (MBGD),
+      - Alternating Least Squares (ALS).
+    """
+
+    def __init__(self, seed=6789, n_neg_per_pos=5, print_type=None, **params):
+        super().__init__()
+        self.recommender_df = pd.DataFrame(columns=['user_id', 'item_id', 'score'])
+        self.interactions_df = None
+        self.item_id_mapping = None
+        self.user_id_mapping = None
+        self.item_id_reverse_mapping = None
+        self.user_id_reverse_mapping = None
+        self.r = None
+        self.most_popular_items = None
+
+        self.n_neg_per_pos = n_neg_per_pos
+        if 'optimizer' in params:
+            self.optimizer = params['optimizer']
+        else:
+            self.optimizer = 'SGD'
+        if 'n_epochs' in params:  # number of epochs (each epoch goes through the entire training set)
+            self.n_epochs = params['n_epochs']
+        else:
+            self.n_epochs = 10
+        if 'lr' in params:  # learning rate
+            self.lr = params['lr']
+        else:
+            self.lr = 0.01
+        if 'reg_l' in params:  # regularization coefficient
+            self.reg_l = params['reg_l']
+        else:
+            self.reg_l = 0.1
+        if 'embedding_dim' in params:
+            self.embedding_dim = params['embedding_dim']
+        else:
+            self.embedding_dim = 8
+
+        self.user_repr = None
+        self.item_repr = None
+
+        if 'should_recommend_already_bought' in params:
+            self.should_recommend_already_bought = params['should_recommend_already_bought']
+        else:
+            self.should_recommend_already_bought = False
+
+        self.validation_set_size = 0.2
+
+        self.seed = seed
+        self.rng = np.random.RandomState(seed=seed)
+
+        self.print_type = print_type
+
+    def fit(self, interactions_df, users_df, items_df):
+        """
+        Training of the recommender.
+
+        :param pd.DataFrame interactions_df: DataFrame with recorded interactions between users and items
+            defined by user_id, item_id and features of the interaction.
+        :param pd.DataFrame users_df: DataFrame with users and their features defined by
+            user_id and the user feature columns.
+        :param pd.DataFrame items_df: DataFrame with items and their features defined
+            by item_id and the item feature columns.
+        """
+
+        del users_df, items_df
+
+        # Shift item ids and user ids so that they are consecutive
+
+        unique_item_ids = interactions_df['item_id'].unique()
+        self.item_id_mapping = dict(zip(unique_item_ids, list(range(len(unique_item_ids)))))
+        self.item_id_reverse_mapping = dict(zip(list(range(len(unique_item_ids))), unique_item_ids))
+        unique_user_ids = interactions_df['user_id'].unique()
+        self.user_id_mapping = dict(zip(unique_user_ids, list(range(len(unique_user_ids)))))
+        self.user_id_reverse_mapping = dict(zip(list(range(len(unique_user_ids))), unique_user_ids))
+
+        interactions_df = interactions_df.copy()
+        interactions_df.replace({'item_id': self.item_id_mapping, 'user_id': self.user_id_mapping}, inplace=True)
+
+        # Get the number of items and users
+
+        self.interactions_df = interactions_df
+        n_users = np.max(interactions_df['user_id']) + 1
+        n_items = np.max(interactions_df['item_id']) + 1
+
+        # Get the user-item interaction matrix (mapping to int is necessary because of how iterrows works)
+        r = np.zeros(shape=(n_users, n_items))
+        for idx, interaction in interactions_df.iterrows():
+            r[int(interaction['user_id'])][int(interaction['item_id'])] = 1
+
+        self.r = r
+
+        # Generate negative interactions
+        negative_interactions = []
+
+        i = 0
+        while i < self.n_neg_per_pos * len(interactions_df):
+            sample_size = 1000
+            user_ids = self.rng.choice(np.arange(n_users), size=sample_size)
+            item_ids = self.rng.choice(np.arange(n_items), size=sample_size)
+
+            j = 0
+            while j < sample_size and i < self.n_neg_per_pos * len(interactions_df):
+                if r[user_ids[j]][item_ids[j]] == 0:
+                    negative_interactions.append([user_ids[j], item_ids[j], 0])
+                    i += 1
+                j += 1
+
+        interactions_df = pd.concat(
+            [interactions_df, pd.DataFrame(negative_interactions, columns=['user_id', 'item_id', 'interacted'])])
+
+        # Initialize user and item embeddings as random vectors (from Gaussian distribution)
+
+        self.user_repr = self.rng.normal(0, 1, size=(r.shape[0], self.embedding_dim))
+        self.item_repr = self.rng.normal(0, 1, size=(r.shape[1], self.embedding_dim))
+
+        # Initialize losses and loss visualization
+
+        if self.print_type is not None and self.print_type == 'live':
+            liveloss = PlotLosses()
+
+        training_losses = deque(maxlen=50)
+        training_avg_losses = []
+        training_epoch_losses = []
+        validation_losses = deque(maxlen=50)
+        validation_avg_losses = []
+        validation_epoch_losses = []
+        last_training_total_loss = 0.0
+        last_validation_total_loss = 0.0
+
+        # Split the data
+
+        interaction_ids = self.rng.permutation(len(interactions_df))
+        train_validation_slice_idx = int(len(interactions_df) * (1 - self.validation_set_size))
+        training_ids = interaction_ids[:train_validation_slice_idx]
+        validation_ids = interaction_ids[train_validation_slice_idx:]
+
+        # Train the model
+
+        for epoch in range(self.n_epochs):
+            if self.print_type is not None and self.print_type == 'live':
+                logs = {}
+
+            # Train
+
+            training_losses.clear()
+            training_total_loss = 0.0
+            batch_idx = 0
+            for idx in training_ids:
+                user_id = int(interactions_df.iloc[idx]['user_id'])
+                item_id = int(interactions_df.iloc[idx]['item_id'])
+
+                e_ui = r[user_id, item_id] - np.dot(self.user_repr[user_id], self.item_repr[item_id])
+                self.user_repr[user_id] = self.user_repr[user_id] \
+                    + self.lr * (e_ui * self.item_repr[item_id] - self.reg_l * self.user_repr[user_id])
+                self.item_repr[item_id] = self.item_repr[item_id] \
+                    + self.lr * (e_ui * self.user_repr[user_id] - self.reg_l * self.item_repr[item_id])
+
+                loss = e_ui**2
+                training_total_loss += loss
+
+                if self.print_type is not None and self.print_type == 'text':
+                    print("\rEpoch: {}\tBatch: {}\tLast epoch - avg training loss: {:.2f} avg validation loss: {:.2f} loss: {}".format(
+                        epoch, batch_idx, last_training_total_loss, last_validation_total_loss, loss), end="")
+
+                batch_idx += 1
+
+                training_losses.append(loss)
+                training_avg_losses.append(np.mean(training_losses))
+
+            # Validate
+
+            validation_losses.clear()
+            validation_total_loss = 0.0
+            for idx in validation_ids:
+                user_id = int(interactions_df.iloc[idx]['user_id'])
+                item_id = int(interactions_df.iloc[idx]['item_id'])
+
+                e_ui = r[user_id, item_id] - np.dot(self.user_repr[user_id], self.item_repr[item_id])
+
+                loss = e_ui**2
+                validation_total_loss += loss
+
+                validation_losses.append(loss)
+                validation_avg_losses.append(np.mean(validation_losses))
+
+            # Save and print epoch losses
+
+            training_last_avg_loss = training_total_loss / len(training_ids)
+            training_epoch_losses.append(training_last_avg_loss)
+            validation_last_avg_loss = validation_total_loss / len(validation_ids)
+            validation_epoch_losses.append(validation_last_avg_loss)
+
+            if self.print_type is not None and self.print_type == 'live' and epoch >= 3:
+                # A bound on epoch prevents showing extremely high losses in the first epochs
+                # noinspection PyUnboundLocalVariable
+                logs['loss'] = training_last_avg_loss
+                logs['val_loss'] = validation_last_avg_loss
+                # noinspection PyUnboundLocalVariable
+                liveloss.update(logs)
+                liveloss.send()
+
+        # Find the most popular items for the cold start problem
+
+        offers_count = interactions_df.loc[:, ['item_id', 'user_id']].groupby(by='item_id').count()
+        offers_count = offers_count.sort_values('user_id', ascending=False)
+        self.most_popular_items = offers_count.index
+
+    def recommend(self, users_df, items_df, n_recommendations=1):
+        """
+        Serving of recommendations. Scores items in items_df for each user in users_df and returns
+        top n_recommendations for each user.
+
+        :param pd.DataFrame users_df: DataFrame with users and their features for which
+            recommendations should be generated.
+        :param pd.DataFrame items_df: DataFrame with items and their features which should be scored.
+        :param int n_recommendations: Number of recommendations to be returned for each user.
+        :return: DataFrame with user_id, item_id and score as columns returning n_recommendations top recommendations
+            for each user.
+        :rtype: pd.DataFrame
+        """
+
+        # Clean previous recommendations (iloc could be used alternatively)
+        self.recommender_df = self.recommender_df[:0]
+
+        # Handle users not in the training data
+
+        # Map item ids
+
+        items_df = items_df.copy()
+        items_df = items_df.loc[items_df['item_id'].isin(self.item_id_mapping)]
+        items_df.replace({'item_id': self.item_id_mapping}, inplace=True)
+
+        # Generate recommendations
+
+        for idx, user in users_df.iterrows():
+            recommendations = []
+
+            user_id = user['user_id']
+
+            if user_id in self.user_id_mapping:
+                mapped_user_id = self.user_id_mapping[user_id]
+
+                ids_list = items_df['item_id'].tolist()
+                id_to_pos = np.array([0]*len(ids_list))
+                for k in range(len(ids_list)):
+                    id_to_pos[ids_list[k]] = k
+                scores = np.matmul(self.user_repr[mapped_user_id].reshape(1, -1),
+                                   self.item_repr[ids_list].T).flatten()
+
+                # Choose n recommendations based on highest scores
+                if not self.should_recommend_already_bought:
+                    x_list = self.interactions_df.loc[
+                        self.interactions_df['user_id'] == mapped_user_id]['item_id'].tolist()
+                    scores[id_to_pos[x_list]] = -1e100
+
+                chosen_pos = np.argsort(-scores)[:n_recommendations]
+
+                for item_pos in chosen_pos:
+                    recommendations.append(
+                        {
+                            'user_id': self.user_id_reverse_mapping[mapped_user_id],
+                            'item_id': self.item_id_reverse_mapping[ids_list[item_pos]],
+                            'score': scores[item_pos]
+                        }
+                    )
+            else:  # For new users recommend most popular items
+                for i in range(n_recommendations):
+                    recommendations.append(
+                        {
+                            'user_id': user['user_id'],
+                            'item_id': self.item_id_reverse_mapping[self.most_popular_items[i]],
+                            'score': 1.0
+                        }
+                    )
+
+            user_recommendations = pd.DataFrame(recommendations)
+
+            self.recommender_df = pd.concat([self.recommender_df, user_recommendations])
+
+        return self.recommender_df
+
+    def get_user_repr(self, user_id):
+        mapped_user_id = self.user_id_mapping[user_id]
+        return self.user_repr[mapped_user_id]
+
+    def get_item_repr(self, item_id):
+        mapped_item_id = self.item_id_mapping[item_id]
+        return self.item_repr[mapped_item_id]
--- a/recommenders/recommender.py
+++ b/recommenders/recommender.py
@ -0,0 +1,52 @@
+# Load libraries ---------------------------------------------
+
+# ------------------------------------------------------------
+
+
+class Recommender(object):
+    """
+    Base recommender class.
+    """
+
+    def __init__(self):
+        """
+        Initialize base recommender params and variables.
+
+        :param int seed: Seed for the random number generator.
+        """
+        pass
+
+    def fit(self, interactions_df, users_df, items_df):
+        """
+        Training of the recommender.
+
+        :param pd.DataFrame interactions_df: DataFrame with recorded interactions between users and items
+            defined by user_id, item_id and features of the interaction.
+        :param pd.DataFrame users_df: DataFrame with users and their features defined by user_id and the user feature columns.
+        :param pd.DataFrame items_df: DataFrame with items and their features defined by item_id and the item feature columns.
+        """
+        pass
+
+    def recommend(self, users_df, items_df, n_recommendations=1):
+        """
+        Serving of recommendations. Scores items in items_df for each user in users_df and returns
+        top n_recommendations for each user.
+
+        :param pd.DataFrame users_df: DataFrame with users and their features for which recommendations should be generated.
+        :param pd.DataFrame items_df: DataFrame with items and their features which should be scored.
+        :param int n_recommendations: Number of recommendations to be returned for each user.
+        :return: DataFrame with user_id, item_id and score as columns returning n_recommendations top recommendations
+            for each user.
+        :rtype: pd.DataFrame
+        """
+
+        recommendations = pd.DataFrame(columns=['user_id', 'item_id', 'score'])
+
+        for ix, user in users_df.iterrows():
+            user_recommendations = pd.DataFrame({'user_id': user['user_id'],
+                                                 'item_id': [-1] * n_recommendations,
+                                                 'score': [3.0] * n_recommendations})
+
+            recommendations = pd.concat([recommendations, user_recommendations])
+
+        return recommendations
--- a/recommenders/tfidf_recommender.py
+++ b/recommenders/tfidf_recommender.py
@ -0,0 +1,102 @@
+# Load libraries ---------------------------------------------
+
+import pandas as pd
+from sklearn.feature_extraction.text import TfidfVectorizer
+from collections import defaultdict
+
+from recommenders.recommender import Recommender
+
+# ------------------------------------------------------------
+
+
+class TFIDFRecommender(Recommender):
+    """
+    Recommender based on the TF-IDF method.
+    """
+
+    def __init__(self):
+        """
+        Initialize base recommender params and variables.
+        """
+        super().__init__()
+        self.tfidf_scores = None
+
+    def fit(self, interactions_df, users_df, items_df):
+        """
+        Training of the recommender.
+
+        :param pd.DataFrame interactions_df: DataFrame with recorded interactions between users and items
+            defined by user_id, item_id and features of the interaction.
+        :param pd.DataFrame users_df: DataFrame with users and their features defined by user_id
+            and the user feature columns.
+        :param pd.DataFrame items_df: DataFrame with items and their features defined by item_id
+            and the item feature columns.
+        """
+
+        self.tfidf_scores = defaultdict(lambda: 0.0)
+
+        # Prepare the corpus for tfidf calculation
+
+        interactions_df = pd.merge(interactions_df, items_df, on='item_id')
+        user_genres = interactions_df.loc[:, ['user_id', 'genres']]
+        user_genres.loc[:, 'genres'] = user_genres['genres'].str.replace("-", "_", regex=False)
+        user_genres.loc[:, 'genres'] = user_genres['genres'].str.replace(" ", "_", regex=False)
+        user_genres = user_genres.groupby('user_id').aggregate(lambda x: "|".join(x))
+        user_genres.loc[:, 'genres'] = user_genres['genres'].str.replace("|", " ", regex=False)
+        user_ids = user_genres.index.tolist()
+        genres_corpus = user_genres['genres'].tolist()
+
+        # Calculate tf-idf scores
+
+        vectorizer = TfidfVectorizer()
+        tfidf_scores = vectorizer.fit_transform(genres_corpus)
+
+        # Transform results into a dict {(user_id, genre): score}
+
+        for u in range(tfidf_scores.shape[0]):
+            for g in range(tfidf_scores.shape[1]):
+                self.tfidf_scores[(user_ids[u], vectorizer.get_feature_names()[g])] = tfidf_scores[u, g]
+
+    def recommend(self, users_df, items_df, n_recommendations=1):
+        """
+        Serving of recommendations. Scores items in items_df for each user in users_df and returns
+        top n_recommendations for each user.
+
+        :param pd.DataFrame users_df: DataFrame with users and their features for which recommendations
+            should be generated.
+        :param pd.DataFrame items_df: DataFrame with items and their features which should be scored.
+        :param int n_recommendations: Number of recommendations to be returned for each user.
+        :return: DataFrame with user_id, item_id and score as columns returning n_recommendations top recommendations
+            for each user.
+        :rtype: pd.DataFrame
+        """
+
+        recommendations = pd.DataFrame(columns=['user_id', 'item_id', 'score'])
+
+        # Transform genres to a unified form used by the vectorizer
+
+        items_df = items_df.copy()
+        items_df.loc[:, 'genres'] = items_df['genres'].str.replace("-", "_", regex=False)
+        items_df.loc[:, 'genres'] = items_df['genres'].str.replace(" ", "_", regex=False)
+        items_df.loc[:, 'genres'] = items_df['genres'].str.lower()
+        items_df.loc[:, 'genres'] = items_df['genres'].str.split("|")
+
+        # Score items
+
+        for uix, user in users_df.iterrows():
+            items = []
+            for iix, item in items_df.iterrows():
+                score = 0.0
+                for genre in item['genres']:
+                    score += self.tfidf_scores[(user['user_id'], genre)]
+                score /= len(item['genres'])
+                items.append((item['item_id'], score))
+
+            items = sorted(items, key=lambda x: x[1], reverse=True)
+            user_recommendations = pd.DataFrame({'user_id': user['user_id'],
+                                                 'item_id': [item[0] for item in items][:n_recommendations],
+                                                 'score': [item[1] for item in items][:n_recommendations]})
+
+            recommendations = pd.concat([recommendations, user_recommendations])
+
+        return recommendations