diff --git a/CHANGELOG.md b/CHANGELOG.md
deleted file mode 100644
index 1b0e31e..0000000
--- a/CHANGELOG.md
+++ /dev/null
@@ -1,4 +0,0 @@
-
-## 2.0.0 (2020-05-22)
-
-* Switch to probabilities as the main metric
diff --git a/dev-0/.ipynb_checkpoints/model-checkpoint.ipynb b/dev-0/.ipynb_checkpoints/model-checkpoint.ipynb
deleted file mode 100644
index 363fcab..0000000
--- a/dev-0/.ipynb_checkpoints/model-checkpoint.ipynb
+++ /dev/null
@@ -1,6 +0,0 @@
-{
- "cells": [],
- "metadata": {},
- "nbformat": 4,
- "nbformat_minor": 5
-}
diff --git a/dev-0/.ipynb_checkpoints/run-checkpoint.ipynb b/dev-0/.ipynb_checkpoints/run-checkpoint.ipynb
deleted file mode 100644
index c605518..0000000
--- a/dev-0/.ipynb_checkpoints/run-checkpoint.ipynb
+++ /dev/null
@@ -1,1212 +0,0 @@
-{
- "cells": [
- {
- "cell_type": "code",
- "execution_count": 1,
- "id": "7dc5e391",
- "metadata": {},
- "outputs": [],
- "source": [
- "import pandas as pd\n",
- "import csv"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 2,
- "id": "a0825c64",
- "metadata": {},
- "outputs": [],
- "source": [
- "tsv_data = pd.read_csv('in.tsv', sep='\\t',header=None, quoting=csv.QUOTE_NONE)[0]"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 3,
- "id": "4b9092a6",
- "metadata": {},
- "outputs": [],
- "source": [
- "expected = pd.read_csv('expected.tsv', sep='\\t',header=None)[0]"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 4,
- "id": "56c39aa1",
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "137314\n",
- "137314\n"
- ]
- }
- ],
- "source": [
- "print(len(expected))\n",
- "print(len(tsv_data))"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 5,
- "id": "d7b300ca",
- "metadata": {},
- "outputs": [],
- "source": [
- "male={'silnik', 'windows', 'gb', 'mb', 'mecz', 'pc', 'opony', 'apple', 'iphone', 'zwiastuny', 'hd', 'ubuntu', 'system', 'serwer'}\n",
- "female={'ciąża', 'miesiączki', 'ciasto', 'ciąże', 'zadowolona', 'antykoncepcyjne', 'ginekologia', 'tabletki', 'porodzie', 'mąż', 'krwawienie', 'ciasta'}\n",
- "male = {x[:6].lower() for x in male}\n",
- "female = {x[:6].lower() for x in female}"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 6,
- "id": "31b5864b",
- "metadata": {},
- "outputs": [],
- "source": [
- "trimmed_docs=[]\n",
- "for document in tsv_data:\n",
- " new_doc=[]\n",
- " for word in str(document).lower().split():\n",
- " new_doc.append(word[:6])\n",
- " trimmed_docs.append(new_doc)"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 7,
- "id": "c1f02d77",
- "metadata": {},
- "outputs": [],
- "source": [
- "male_or_female=[]\n",
- "for doc in trimmed_docs:\n",
- " male_or_female.append((len(male&set(doc)), len(female&set(doc))))"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 8,
- "id": "6edfd944",
- "metadata": {},
- "outputs": [],
- "source": [
- "answers=[]\n",
- "for i in male_or_female:\n",
- " if i[0]>i[1]:\n",
- " answers.append(1)\n",
- " else:\n",
- " answers.append(0)"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 13,
- "id": "0f93e706",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/plain": [
- "[0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " ...]"
- ]
- },
- "execution_count": 13,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "answers"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 9,
- "id": "40369c2b",
- "metadata": {},
- "outputs": [],
- "source": [
- "result=[]\n",
- "for i in range(len(answers)):\n",
- " if answers[i]==expected[i]:\n",
- " result.append(1)\n",
- " else:\n",
- " result.append(0)\n"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 10,
- "id": "e296921c",
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "Predykcja modelu wynosi 51.007909%\n"
- ]
- }
- ],
- "source": [
- "print(f'Predykcja modelu wynosi {sum(result)/len(result)*100:.6f}%')"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 11,
- "id": "fee431a4",
- "metadata": {},
- "outputs": [],
- "source": [
- "df = pd.DataFrame(result)\n",
- "df.to_csv('out.tsv', sep = '\\t')"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "id": "fe397203",
- "metadata": {},
- "outputs": [],
- "source": []
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "id": "4d089843",
- "metadata": {},
- "outputs": [],
- "source": []
- }
- ],
- "metadata": {
- "kernelspec": {
- "display_name": "Python 3 (ipykernel)",
- "language": "python",
- "name": "python3"
- },
- "language_info": {
- "codemirror_mode": {
- "name": "ipython",
- "version": 3
- },
- "file_extension": ".py",
- "mimetype": "text/x-python",
- "name": "python",
- "nbconvert_exporter": "python",
- "pygments_lexer": "ipython3",
- "version": "3.9.7"
- }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}
diff --git a/dev-0/.jovianrc b/dev-0/.jovianrc
deleted file mode 100644
index 2f4547b..0000000
--- a/dev-0/.jovianrc
+++ /dev/null
@@ -1,3 +0,0 @@
-{
- "notebooks": {}
-}
\ No newline at end of file
diff --git a/dev-0/run.ipynb b/dev-0/run.ipynb
deleted file mode 100644
index c605518..0000000
--- a/dev-0/run.ipynb
+++ /dev/null
@@ -1,1212 +0,0 @@
-{
- "cells": [
- {
- "cell_type": "code",
- "execution_count": 1,
- "id": "7dc5e391",
- "metadata": {},
- "outputs": [],
- "source": [
- "import pandas as pd\n",
- "import csv"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 2,
- "id": "a0825c64",
- "metadata": {},
- "outputs": [],
- "source": [
- "tsv_data = pd.read_csv('in.tsv', sep='\\t',header=None, quoting=csv.QUOTE_NONE)[0]"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 3,
- "id": "4b9092a6",
- "metadata": {},
- "outputs": [],
- "source": [
- "expected = pd.read_csv('expected.tsv', sep='\\t',header=None)[0]"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 4,
- "id": "56c39aa1",
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "137314\n",
- "137314\n"
- ]
- }
- ],
- "source": [
- "print(len(expected))\n",
- "print(len(tsv_data))"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 5,
- "id": "d7b300ca",
- "metadata": {},
- "outputs": [],
- "source": [
- "male={'silnik', 'windows', 'gb', 'mb', 'mecz', 'pc', 'opony', 'apple', 'iphone', 'zwiastuny', 'hd', 'ubuntu', 'system', 'serwer'}\n",
- "female={'ciąża', 'miesiączki', 'ciasto', 'ciąże', 'zadowolona', 'antykoncepcyjne', 'ginekologia', 'tabletki', 'porodzie', 'mąż', 'krwawienie', 'ciasta'}\n",
- "male = {x[:6].lower() for x in male}\n",
- "female = {x[:6].lower() for x in female}"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 6,
- "id": "31b5864b",
- "metadata": {},
- "outputs": [],
- "source": [
- "trimmed_docs=[]\n",
- "for document in tsv_data:\n",
- " new_doc=[]\n",
- " for word in str(document).lower().split():\n",
- " new_doc.append(word[:6])\n",
- " trimmed_docs.append(new_doc)"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 7,
- "id": "c1f02d77",
- "metadata": {},
- "outputs": [],
- "source": [
- "male_or_female=[]\n",
- "for doc in trimmed_docs:\n",
- " male_or_female.append((len(male&set(doc)), len(female&set(doc))))"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 8,
- "id": "6edfd944",
- "metadata": {},
- "outputs": [],
- "source": [
- "answers=[]\n",
- "for i in male_or_female:\n",
- " if i[0]>i[1]:\n",
- " answers.append(1)\n",
- " else:\n",
- " answers.append(0)"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 13,
- "id": "0f93e706",
- "metadata": {},
- "outputs": [
- {
- "data": {
- "text/plain": [
- "[0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 0,\n",
- " 1,\n",
- " 0,\n",
- " 0,\n",
- " ...]"
- ]
- },
- "execution_count": 13,
- "metadata": {},
- "output_type": "execute_result"
- }
- ],
- "source": [
- "answers"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 9,
- "id": "40369c2b",
- "metadata": {},
- "outputs": [],
- "source": [
- "result=[]\n",
- "for i in range(len(answers)):\n",
- " if answers[i]==expected[i]:\n",
- " result.append(1)\n",
- " else:\n",
- " result.append(0)\n"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 10,
- "id": "e296921c",
- "metadata": {},
- "outputs": [
- {
- "name": "stdout",
- "output_type": "stream",
- "text": [
- "Predykcja modelu wynosi 51.007909%\n"
- ]
- }
- ],
- "source": [
- "print(f'Predykcja modelu wynosi {sum(result)/len(result)*100:.6f}%')"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": 11,
- "id": "fee431a4",
- "metadata": {},
- "outputs": [],
- "source": [
- "df = pd.DataFrame(result)\n",
- "df.to_csv('out.tsv', sep = '\\t')"
- ]
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "id": "fe397203",
- "metadata": {},
- "outputs": [],
- "source": []
- },
- {
- "cell_type": "code",
- "execution_count": null,
- "id": "4d089843",
- "metadata": {},
- "outputs": [],
- "source": []
- }
- ],
- "metadata": {
- "kernelspec": {
- "display_name": "Python 3 (ipykernel)",
- "language": "python",
- "name": "python3"
- },
- "language_info": {
- "codemirror_mode": {
- "name": "ipython",
- "version": 3
- },
- "file_extension": ".py",
- "mimetype": "text/x-python",
- "name": "python",
- "nbconvert_exporter": "python",
- "pygments_lexer": "ipython3",
- "version": "3.9.7"
- }
- },
- "nbformat": 4,
- "nbformat_minor": 5
-}
diff --git a/dev-0/run.py b/dev-0/run.py
deleted file mode 100644
index 282b06e..0000000
--- a/dev-0/run.py
+++ /dev/null
@@ -1,87 +0,0 @@
-#!/usr/bin/env python
-# coding: utf-8
-
-# In[90]:
-
-
-import pandas as pd
-import csv
-
-
-# In[91]:
-
-
-tsv_data = pd.read_csv('in.tsv', sep='\t',header=None, quoting=csv.QUOTE_NONE)[0]
-
-
-# In[139]:
-
-
-#expected = pd.read_csv('expected.tsv', sep='\t',header=None)[0]
-
-
-
-
-
-# In[158]:
-
-
-male={'silnik', 'windows', 'gb', 'mb', 'mecz', 'pc', 'opony', 'apple', 'iphone', 'zwiastuny', 'hd', 'ubuntu', 'system', 'serwer', 'piłka', 'metal'}
-female={'ciąża', 'miesiączki', 'ciasto', 'ciąże', 'zadowolona', 'antykoncepcyjne', 'ginekologia', 'tabletki', 'porodzie', 'mąż', 'krwawienie', 'ciasta', 'narzeczony', 'ślub'}
-male = {x[:6].lower() for x in male}
-female = {x[:6].lower() for x in female}
-
-
-# In[159]:
-
-
-trimmed_docs=[]
-for document in tsv_data:
- new_doc=[]
- for word in str(document).lower().split():
- new_doc.append(word[:6])
- trimmed_docs.append(new_doc)
-
-
-# In[160]:
-
-
-male_or_female=[]
-
-for doc in trimmed_docs:
- male_or_female.append((len(male&set(doc)), len(female&set(doc))))
-
-doc_mean = sum(map(len, trimmed_docs))/float(len(trimmed_docs))
-# In[161]:
-
-print(doc_mean)
-answers=[]
-for i in range(len(male_or_female)):
- if male_or_female[i][0]>male_or_female[i][1]:
- answers.append(1)
- elif male_or_female[i][0]male_or_female[i][1]:
- answers.append(1)
- elif male_or_female[i][0]male_or_female[i][1]:
- answers.append(1)
- elif male_or_female[i][0]