{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Preparing dataset" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import scipy.sparse as sparse\n", "from collections import defaultdict\n", "from itertools import chain\n", "import random\n", "\n", "train_read=pd.read_csv('./Datasets/ml-100k/train.csv', sep='\\t', header=None, names=['user', 'item', 'rating', 'timestamp'])\n", "test_read=pd.read_csv('./Datasets/ml-100k/test.csv', sep='\\t', header=None, names=['user', 'item', 'rating', 'timestamp'])" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | user | \n", "item | \n", "rating | \n", "timestamp | \n", "
---|---|---|---|---|
0 | \n", "664 | \n", "525 | \n", "4 | \n", "876526580 | \n", "
1 | \n", "49 | \n", "1 | \n", "2 | \n", "888068651 | \n", "
2 | \n", "352 | \n", "273 | \n", "2 | \n", "884290328 | \n", "
3 | \n", "618 | \n", "96 | \n", "3 | \n", "891307749 | \n", "
4 | \n", "560 | \n", "24 | \n", "2 | \n", "879976772 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
79995 | \n", "267 | \n", "127 | \n", "5 | \n", "878970529 | \n", "
79996 | \n", "727 | \n", "205 | \n", "5 | \n", "883710104 | \n", "
79997 | \n", "606 | \n", "135 | \n", "5 | \n", "880926245 | \n", "
79998 | \n", "579 | \n", "7 | \n", "3 | \n", "880952006 | \n", "
79999 | \n", "474 | \n", "789 | \n", "4 | \n", "887927152 | \n", "
80000 rows × 4 columns
\n", "\n", " | user | \n", "item | \n", "rating | \n", "timestamp | \n", "user_code | \n", "item_code | \n", "
---|---|---|---|---|---|---|
0 | \n", "664 | \n", "525 | \n", "4 | \n", "876526580 | \n", "663 | \n", "524 | \n", "
1 | \n", "49 | \n", "1 | \n", "2 | \n", "888068651 | \n", "48 | \n", "0 | \n", "
2 | \n", "352 | \n", "273 | \n", "2 | \n", "884290328 | \n", "351 | \n", "272 | \n", "
3 | \n", "618 | \n", "96 | \n", "3 | \n", "891307749 | \n", "617 | \n", "95 | \n", "
4 | \n", "560 | \n", "24 | \n", "2 | \n", "879976772 | \n", "559 | \n", "23 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
99995 | \n", "804 | \n", "94 | \n", "4 | \n", "879446194 | \n", "803 | \n", "93 | \n", "
99996 | \n", "109 | \n", "627 | \n", "5 | \n", "880582133 | \n", "108 | \n", "626 | \n", "
99997 | \n", "239 | \n", "489 | \n", "5 | \n", "889178833 | \n", "238 | \n", "488 | \n", "
99998 | \n", "663 | \n", "294 | \n", "3 | \n", "889491811 | \n", "662 | \n", "293 | \n", "
99999 | \n", "206 | \n", "245 | \n", "1 | \n", "888179772 | \n", "205 | \n", "244 | \n", "
100000 rows × 6 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "11 | \n", "12 | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "5 | \n", "3.529975 | \n", "10 | \n", "3.529975 | \n", "25 | \n", "3.529975 | \n", "32 | \n", "3.529975 | \n", "33 | \n", "... | \n", "44 | \n", "3.529975 | \n", "46 | \n", "3.529975 | \n", "50 | \n", "3.529975 | \n", "52 | \n", "3.529975 | \n", "55 | \n", "3.529975 | \n", "
1 | \n", "2 | \n", "1 | \n", "3.529975 | \n", "2 | \n", "3.529975 | \n", "3 | \n", "3.529975 | \n", "4 | \n", "3.529975 | \n", "5 | \n", "... | \n", "6 | \n", "3.529975 | \n", "7 | \n", "3.529975 | \n", "8 | \n", "3.529975 | \n", "9 | \n", "3.529975 | \n", "11 | \n", "3.529975 | \n", "
2 rows × 21 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "5 | \n", "6 | \n", "7 | \n", "8 | \n", "9 | \n", "... | \n", "11 | \n", "12 | \n", "13 | \n", "14 | \n", "15 | \n", "16 | \n", "17 | \n", "18 | \n", "19 | \n", "20 | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "814 | \n", "5.0 | \n", "1122 | \n", "5.0 | \n", "1189 | \n", "5.0 | \n", "1201 | \n", "5.0 | \n", "408 | \n", "... | \n", "318 | \n", "4.485356 | \n", "483 | \n", "4.466667 | \n", "513 | \n", "4.400000 | \n", "603 | \n", "4.392638 | \n", "50 | \n", "4.385106 | \n", "
1 | \n", "2 | \n", "119 | \n", "5.0 | \n", "814 | \n", "5.0 | \n", "1122 | \n", "5.0 | \n", "1189 | \n", "5.0 | \n", "1201 | \n", "... | \n", "114 | \n", "4.509091 | \n", "408 | \n", "4.500000 | \n", "169 | \n", "4.494505 | \n", "318 | \n", "4.485356 | \n", "483 | \n", "4.466667 | \n", "
2 rows × 21 columns
\n", "\n", " | user | \n", "item | \n", "est_score | \n", "
---|---|---|---|
0 | \n", "0 | \n", "60 | \n", "4.0 | \n", "
1 | \n", "10 | \n", "40 | \n", "3.0 | \n", "
2 | \n", "20 | \n", "0 | \n", "3.0 | \n", "
3 | \n", "20 | \n", "20 | \n", "4.0 | \n", "
4 | \n", "20 | \n", "70 | \n", "4.0 | \n", "