{ "cells": [ { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import gensim\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "from sklearn.linear_model import LinearRegression" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "
---|---|---|---|---|---|
0 | \n", "1985.493151 | \n", "1985.495890 | \n", "PRZEKRÓJ | \n", "MBC | \n", "nowią część kultury. U nas już nikt ich nie ch... | \n", "
1 | \n", "1926.473973 | \n", "1926.476712 | \n", "NADWIŚLANIN | \n", "KPBC | \n", "hlstorja znana w okresie piramid, jak wlaśclcl... | \n", "
2 | \n", "2013.961644 | \n", "2013.964384 | \n", "SĄD APELACYJNY W ŁODZI I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "działek. Idąc dalej w swych hipotetycznych roz... | \n", "
3 | \n", "1925.000000 | \n", "1926.000000 | \n", "GAZETA BANKOWA | \n", "eBUW | \n", "w Warszawie o stosunkach domowych dziatwy szko... | \n", "
4 | \n", "1981.000000 | \n", "1982.000000 | \n", "CIA | \n", "ZBC | \n", "\\\\'iykład: \"Cywilizacyjna Koncepcja dziejów ¥e... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
107458 | \n", "2013.057534 | \n", "2013.060274 | \n", "SĄD REJONOWY DLA WROCŁAWIA-ŚRÓDMIEŚCIA WE WROC... | \n", "SAOS | \n", "M. (2) na rzecz powoda M. S. kwotę 5003,66 zł ... | \n", "
107459 | \n", "2013.021918 | \n", "2013.024658 | \n", "WYROK W SPRAWIE KIO | \n", "SAOS | \n", "Zintegrowanego Systemu Informatycznego (ZSI), ... | \n", "
107460 | \n", "2013.920548 | \n", "2013.923288 | \n", "SĄD OKRĘGOWY W PIOTRKOWIE TRYBUNALSKIM IV WYDZ... | \n", "SAOS | \n", "prokurator. Wyrokowi temu powołując się na prz... | \n", "
107461 | \n", "2013.082192 | \n", "2013.084931 | \n", "SĄD REJONOWY W JELENIEJ GÓRZE I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "07 lipca 2010 r. świadczą o tym, że nie wszyst... | \n", "
107462 | \n", "2013.098630 | \n", "2013.101370 | \n", "SĄD OKRĘGOWY W ELBLĄGU I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "zatem niezdolności do pracy było schorzenie sa... | \n", "
107463 rows × 5 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "mean | \n", "
---|---|---|---|---|---|---|
0 | \n", "1985.493151 | \n", "1985.495890 | \n", "PRZEKRÓJ | \n", "MBC | \n", "nowią część kultury. U nas już nikt ich nie ch... | \n", "1985.494521 | \n", "
1 | \n", "1926.473973 | \n", "1926.476712 | \n", "NADWIŚLANIN | \n", "KPBC | \n", "hlstorja znana w okresie piramid, jak wlaśclcl... | \n", "1926.475342 | \n", "
2 | \n", "2013.961644 | \n", "2013.964384 | \n", "SĄD APELACYJNY W ŁODZI I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "działek. Idąc dalej w swych hipotetycznych roz... | \n", "2013.963014 | \n", "
3 | \n", "1925.000000 | \n", "1926.000000 | \n", "GAZETA BANKOWA | \n", "eBUW | \n", "w Warszawie o stosunkach domowych dziatwy szko... | \n", "1925.500000 | \n", "
4 | \n", "1981.000000 | \n", "1982.000000 | \n", "CIA | \n", "ZBC | \n", "\\\\'iykład: \"Cywilizacyjna Koncepcja dziejów ¥e... | \n", "1981.500000 | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
107458 | \n", "2013.057534 | \n", "2013.060274 | \n", "SĄD REJONOWY DLA WROCŁAWIA-ŚRÓDMIEŚCIA WE WROC... | \n", "SAOS | \n", "M. (2) na rzecz powoda M. S. kwotę 5003,66 zł ... | \n", "2013.058904 | \n", "
107459 | \n", "2013.021918 | \n", "2013.024658 | \n", "WYROK W SPRAWIE KIO | \n", "SAOS | \n", "Zintegrowanego Systemu Informatycznego (ZSI), ... | \n", "2013.023288 | \n", "
107460 | \n", "2013.920548 | \n", "2013.923288 | \n", "SĄD OKRĘGOWY W PIOTRKOWIE TRYBUNALSKIM IV WYDZ... | \n", "SAOS | \n", "prokurator. Wyrokowi temu powołując się na prz... | \n", "2013.921918 | \n", "
107461 | \n", "2013.082192 | \n", "2013.084931 | \n", "SĄD REJONOWY W JELENIEJ GÓRZE I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "07 lipca 2010 r. świadczą o tym, że nie wszyst... | \n", "2013.083562 | \n", "
107462 | \n", "2013.098630 | \n", "2013.101370 | \n", "SĄD OKRĘGOWY W ELBLĄGU I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "zatem niezdolności do pracy było schorzenie sa... | \n", "2013.100000 | \n", "
107463 rows × 6 columns
\n", "\n", " | 0 | \n", "1 | \n", "2 | \n", "3 | \n", "4 | \n", "mean | \n", "tokenized | \n", "
---|---|---|---|---|---|---|---|
0 | \n", "1985.493151 | \n", "1985.495890 | \n", "PRZEKRÓJ | \n", "MBC | \n", "nowią część kultury. U nas już nikt ich nie ch... | \n", "1985.494521 | \n", "[o, poparzonego, pa, prawda, zdecydowała, btll... | \n", "
1 | \n", "1926.473973 | \n", "1926.476712 | \n", "NADWIŚLANIN | \n", "KPBC | \n", "hlstorja znana w okresie piramid, jak wlaśclcl... | \n", "1926.475342 | \n", "[o, szynki, got, nie, rowy, wynikuwymierzonego... | \n", "
2 | \n", "2013.961644 | \n", "2013.964384 | \n", "SĄD APELACYJNY W ŁODZI I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "działek. Idąc dalej w swych hipotetycznych roz... | \n", "2013.963014 | \n", "[o, zrealizowania, a, życiowego, uwagę, wiadom... | \n", "
3 | \n", "1925.000000 | \n", "1926.000000 | \n", "GAZETA BANKOWA | \n", "eBUW | \n", "w Warszawie o stosunkach domowych dziatwy szko... | \n", "1925.500000 | \n", "[o, obszerna, uwzględnia, handel, idinia, praw... | \n", "
4 | \n", "1981.000000 | \n", "1982.000000 | \n", "CIA | \n", "ZBC | \n", "\\\\'iykład: \"Cywilizacyjna Koncepcja dziejów ¥e... | \n", "1981.500000 | \n", "[o, marazynu, ouiedlowym, nie, dijjliot, ti, w... | \n", "
... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "... | \n", "
107458 | \n", "2013.057534 | \n", "2013.060274 | \n", "SĄD REJONOWY DLA WROCŁAWIA-ŚRÓDMIEŚCIA WE WROC... | \n", "SAOS | \n", "M. (2) na rzecz powoda M. S. kwotę 5003,66 zł ... | \n", "2013.058904 | \n", "[uzasadnieniu, o, a, gdyby, kwotę, skład, zast... | \n", "
107459 | \n", "2013.021918 | \n", "2013.024658 | \n", "WYROK W SPRAWIE KIO | \n", "SAOS | \n", "Zintegrowanego Systemu Informatycznego (ZSI), ... | \n", "2013.023288 | \n", "[o, lit, a, ingerencji, uwagę, zastrzeżeniem, ... | \n", "
107460 | \n", "2013.920548 | \n", "2013.923288 | \n", "SĄD OKRĘGOWY W PIOTRKOWIE TRYBUNALSKIM IV WYDZ... | \n", "SAOS | \n", "prokurator. Wyrokowi temu powołując się na prz... | \n", "2013.921918 | \n", "[o, uzasadnieniu, odmiennego, zarówno, a, życi... | \n", "
107461 | \n", "2013.082192 | \n", "2013.084931 | \n", "SĄD REJONOWY W JELENIEJ GÓRZE I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "07 lipca 2010 r. świadczą o tym, że nie wszyst... | \n", "2013.083562 | \n", "[o, który, roboty, wszystkie, a, wspólnotę, bu... | \n", "
107462 | \n", "2013.098630 | \n", "2013.101370 | \n", "SĄD OKRĘGOWY W ELBLĄGU I WYDZIAŁ CYWILNY | \n", "SAOS | \n", "zatem niezdolności do pracy było schorzenie sa... | \n", "2013.100000 | \n", "[o, który, nieszczęśliwy, uzasadnieniu, a, mia... | \n", "
107463 rows × 7 columns
\n", "\n", " | 0 | \n", "
---|---|
0 | \n", "potoku Brodawka swe- o an13.gonistt:, Zd7islaw... | \n", "
1 | \n", "Zll zgrazę .wi.la Okropne d.,.,je przyniósł na... | \n", "
2 | \n", "działalność wielu placówek kul nie naj istotni... | \n", "
3 | \n", "po przeglosie warianty s' z', stawszy sit) fon... | \n", "
4 | \n", "<a i naturaL n ll c h warunk6w, jest gł6umJ(m ... | \n", "
... | \n", "... | \n", "
11557 | \n", "mOlna było nie tylko zobaczyc sylwetkę auta, a... | \n", "
11558 | \n", "musi bye i bt'd7ie naszI!! Krolestwo Polskie. ... | \n", "
11559 | \n", "Rzeszy a nawet z P()II- moina %Q,dac jcdunie p... | \n", "
11560 | \n", "zatopionych okret6w podejrnowano juz dawnlej, ... | \n", "
11561 | \n", "lista szczęśliwców: Nagrodę główną superzestaw... | \n", "
11562 rows × 1 columns
\n", "\n", " | 0 | \n", "
---|---|
0 | \n", "1983.500000 | \n", "
1 | \n", "1956.500000 | \n", "
2 | \n", "1958.105479 | \n", "
3 | \n", "1973.500000 | \n", "
4 | \n", "1970.883562 | \n", "
... | \n", "... | \n", "
11558 | \n", "2000.500000 | \n", "
11559 | \n", "1906.500000 | \n", "
11560 | \n", "1937.500000 | \n", "
11561 | \n", "1928.500000 | \n", "
11562 | \n", "1997.500000 | \n", "
11563 rows × 1 columns
\n", "" ], "text/plain": [ " 0\n", "0 1983.500000\n", "1 1956.500000\n", "2 1958.105479\n", "3 1973.500000\n", "4 1970.883562\n", "... ...\n", "11558 2000.500000\n", "11559 1906.500000\n", "11560 1937.500000\n", "11561 1928.500000\n", "11562 1997.500000\n", "\n", "[11563 rows x 1 columns]" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" } ], "source": [ "y_test = pd.read_csv('./dev-1/expected.tsv', header=None, sep='\\t')\n", "y_test" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [], "source": [ "x_test_vect = vect.transform(x_test[0])" ] }, { "cell_type": "code", "execution_count": 78, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(11562, 4401862)" ] }, "execution_count": 78, "metadata": {}, "output_type": "execute_result" } ], "source": [ "x_test_vect.shape" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [], "source": [ "y_pred = reg.predict(x_test_vect)" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "11562" ] }, "execution_count": 76, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(y_pred)" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [], "source": [ "from sklearn.metrics import mean_squared_error" ] }, { "cell_type": "code", "execution_count": 90, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "11562" ] }, "execution_count": 90, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(y_test[0:11562])" ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "42.68002861698133" ] }, "execution_count": 82, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mean_squared_error(y_test[0:11562], y_pred, squared=False)" ] }, { "cell_type": "code", "execution_count": 91, "metadata": {}, "outputs": [], "source": [ "x_test_dev0 = pd.read_csv('./dev-0/in.tsv', header=None, sep='\\t')\n", "y_test_dev0 = pd.read_csv('./dev-0/expected.tsv', header=None, sep='\\t')\n", "x_test_dev0_vect = vect.transform(x_test_dev0[0])\n" ] }, { "cell_type": "code", "execution_count": 92, "metadata": {}, "outputs": [], "source": [ "y_pred_dev_0 = reg.predict(x_test_dev0_vect)" ] }, { "cell_type": "code", "execution_count": 93, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "19998" ] }, "execution_count": 93, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(y_pred_dev_0)" ] }, { "cell_type": "code", "execution_count": 94, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "20000" ] }, "execution_count": 94, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(y_test_dev0)" ] }, { "cell_type": "code", "execution_count": 97, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "66.03561497032095" ] }, "execution_count": 97, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mean_squared_error(y_test_dev0[0:19998], y_pred_dev_0, squared=False)" ] }, { "cell_type": "code", "execution_count": 101, "metadata": {}, "outputs": [], "source": [ "pd.DataFrame(y_pred_dev_0).to_csv('./dev-0/out.tsv', header=None, sep='\\t', index=False)\n", "pd.DataFrame(y_pred).to_csv('./dev-1/out.tsv', header=None, sep='\\t', index=False)" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 2 }