forked from kubapok/retroc2
update script
This commit is contained in:
parent
ad632af707
commit
aa6998f037
40000
dev-0/out.tsv
40000
dev-0/out.tsv
File diff suppressed because it is too large
Load Diff
194
retroc2.ipynb
194
retroc2.ipynb
@ -25,7 +25,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 38,
|
"execution_count": 68,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -33,12 +33,12 @@
|
|||||||
" all_data = lzma.open(filename).read().decode('UTF-8').split('\\n')\n",
|
" all_data = lzma.open(filename).read().decode('UTF-8').split('\\n')\n",
|
||||||
" return [line.split('\\t') for line in all_data][:-1]\n",
|
" return [line.split('\\t') for line in all_data][:-1]\n",
|
||||||
"\n",
|
"\n",
|
||||||
"train_data = read_data('train/train.tsv.xz')[::500]"
|
"train_data = read_data('train/train.tsv.xz')[::250]"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 39,
|
"execution_count": 69,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -51,7 +51,7 @@
|
|||||||
" 'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów\". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC\" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC\"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\\' Tak. czy zna pani włelko\\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło']"
|
" 'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów\". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC\" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC\"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\\' Tak. czy zna pani włelko\\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło']"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 39,
|
"execution_count": 69,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -62,7 +62,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 40,
|
"execution_count": 70,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -80,7 +80,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 41,
|
"execution_count": 71,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -89,7 +89,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 42,
|
"execution_count": 72,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -486,7 +486,7 @@
|
|||||||
" 'ciemnicy']"
|
" 'ciemnicy']"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 42,
|
"execution_count": 72,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -497,7 +497,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 43,
|
"execution_count": 73,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -840,7 +840,7 @@
|
|||||||
" 'gorący']"
|
" 'gorący']"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 43,
|
"execution_count": 73,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -852,7 +852,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 44,
|
"execution_count": 74,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -862,7 +862,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 45,
|
"execution_count": 75,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -874,16 +874,16 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 46,
|
"execution_count": 76,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"data": {
|
"data": {
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
"215"
|
"430"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 46,
|
"execution_count": 76,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -894,7 +894,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 47,
|
"execution_count": 77,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -925,9 +925,9 @@
|
|||||||
" <th>______</th>\n",
|
" <th>______</th>\n",
|
||||||
" <th>____x</th>\n",
|
" <th>____x</th>\n",
|
||||||
" <th>__ch</th>\n",
|
" <th>__ch</th>\n",
|
||||||
|
" <th>__n_</th>\n",
|
||||||
|
" <th>__naie</th>\n",
|
||||||
" <th>__o</th>\n",
|
" <th>__o</th>\n",
|
||||||
" <th>_a</th>\n",
|
|
||||||
" <th>_b</th>\n",
|
|
||||||
" <th>...</th>\n",
|
" <th>...</th>\n",
|
||||||
" <th>франкф</th>\n",
|
" <th>франкф</th>\n",
|
||||||
" <th>фялофс</th>\n",
|
" <th>фялофс</th>\n",
|
||||||
@ -944,12 +944,12 @@
|
|||||||
" <tbody>\n",
|
" <tbody>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>0</th>\n",
|
" <th>0</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -968,12 +968,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>1</th>\n",
|
" <th>1</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -992,12 +992,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>2</th>\n",
|
" <th>2</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1016,12 +1016,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>3</th>\n",
|
" <th>3</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1040,12 +1040,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>4</th>\n",
|
" <th>4</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1064,12 +1064,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>5</th>\n",
|
" <th>5</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1088,12 +1088,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>6</th>\n",
|
" <th>6</th>\n",
|
||||||
" <td>0.040798</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.064346</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1112,12 +1112,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>7</th>\n",
|
" <th>7</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1136,12 +1136,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>8</th>\n",
|
" <th>8</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1160,12 +1160,12 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" <tr>\n",
|
" <tr>\n",
|
||||||
" <th>9</th>\n",
|
" <th>9</th>\n",
|
||||||
" <td>0.000000</td>\n",
|
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.000000</td>\n",
|
" <td>0.0</td>\n",
|
||||||
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
" <td>0.0</td>\n",
|
" <td>0.0</td>\n",
|
||||||
@ -1184,38 +1184,38 @@
|
|||||||
" </tr>\n",
|
" </tr>\n",
|
||||||
" </tbody>\n",
|
" </tbody>\n",
|
||||||
"</table>\n",
|
"</table>\n",
|
||||||
"<p>10 rows × 25509 columns</p>\n",
|
"<p>10 rows × 42788 columns</p>\n",
|
||||||
"</div>"
|
"</div>"
|
||||||
],
|
],
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
" __ ___ ____ _____ ______ ____x __ch __o _a _b ... \\\n",
|
" __ ___ ____ _____ ______ ____x __ch __n_ __naie __o ... франкф \\\n",
|
||||||
"0 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"1 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"2 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"3 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"4 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"5 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"6 0.040798 0.0 0.0 0.0 0.0 0.064346 0.0 0.0 0.0 0.0 ... \n",
|
"6 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"7 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"7 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"8 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"9 0.000000 0.0 0.0 0.0 0.0 0.000000 0.0 0.0 0.0 0.0 ... \n",
|
"9 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ... 0.0 \n",
|
||||||
"\n",
|
"\n",
|
||||||
" франкф фялофс что шшяшшш щвашш ьввдвн ьлало эавкде юрвдич ях \n",
|
" фялофс что шшяшшш щвашш ьввдвн ьлало эавкде юрвдич ях \n",
|
||||||
"0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"3 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"5 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"6 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"6 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"7 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"7 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"9 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
"9 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 \n",
|
||||||
"\n",
|
"\n",
|
||||||
"[10 rows x 25509 columns]"
|
"[10 rows x 42788 columns]"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 47,
|
"execution_count": 77,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1226,16 +1226,17 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 48,
|
"execution_count": 78,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"data": {
|
"data": {
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
"array([1., 0., 0., ..., 0., 0., 0.])"
|
"array([0.47377066, 0. , 0. , ..., 0. , 0. ,\n",
|
||||||
|
" 0. ])"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 48,
|
"execution_count": 78,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1246,7 +1247,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 49,
|
"execution_count": 79,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1255,7 +1256,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 50,
|
"execution_count": 80,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
@ -1264,7 +1265,7 @@
|
|||||||
"LinearRegression()"
|
"LinearRegression()"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 50,
|
"execution_count": 80,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1276,18 +1277,18 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 51,
|
"execution_count": 81,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"data": {
|
"data": {
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
"array([1985.49452053, 1967.30958903, 1919.55479387, 1842.49999998,\n",
|
"array([1985.49452053, 1925.6178082 , 1967.30958903, 1937.49999998,\n",
|
||||||
" 1930.67808218, 1967.49999998, 2012.5887978 , 2013.1958904 ,\n",
|
" 1919.55479387, 1932.77459015, 1842.49999998, 1932.08333332,\n",
|
||||||
" 1938.49999998, 1876.93852457])"
|
" 1930.67808218, 2000.49999998])"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 51,
|
"execution_count": 81,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1298,7 +1299,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 52,
|
"execution_count": 82,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1312,7 +1313,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 53,
|
"execution_count": 83,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1321,18 +1322,18 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 54,
|
"execution_count": 84,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"data": {
|
"data": {
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
"array([1856.34950057, 1998.14824651, 1980.9029765 , 1937.6572196 ,\n",
|
"array([1889.28635713, 1950.9440436 , 1957.26235075, 1959.53052259,\n",
|
||||||
" 1909.521258 , 1946.78126886, 1915.19790703, 1899.90957018,\n",
|
" 1914.96228803, 1948.17090442, 1951.19472106, 1917.66714928,\n",
|
||||||
" 1897.26065759, 1954.66458951])"
|
" 1912.14525243, 1936.7929999 ])"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 54,
|
"execution_count": 84,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1343,7 +1344,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 66,
|
"execution_count": 92,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1355,7 +1356,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 56,
|
"execution_count": 86,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1365,14 +1366,14 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 57,
|
"execution_count": 94,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"name": "stdout",
|
"name": "stdout",
|
||||||
"output_type": "stream",
|
"output_type": "stream",
|
||||||
"text": [
|
"text": [
|
||||||
"47.658531615811334\n"
|
"38.80250628936373\n"
|
||||||
]
|
]
|
||||||
}
|
}
|
||||||
],
|
],
|
||||||
@ -1387,7 +1388,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 65,
|
"execution_count": 88,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1401,7 +1402,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 61,
|
"execution_count": 89,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1410,18 +1411,18 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 62,
|
"execution_count": 90,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [
|
"outputs": [
|
||||||
{
|
{
|
||||||
"data": {
|
"data": {
|
||||||
"text/plain": [
|
"text/plain": [
|
||||||
"array([1983.16061382, 1913.76206771, 1922.81889879, 1940.76034008,\n",
|
"array([1970.80482572, 1891.52353205, 1914.05051655, 1921.30242974,\n",
|
||||||
" 1950.58829951, 1890.32262944, 1935.14295119, 1932.10534702,\n",
|
" 1908.01225049, 1912.69373127, 1911.11153893, 1948.74997295,\n",
|
||||||
" 1969.90671923, 1935.72959798])"
|
" 1925.77888352, 1923.62798817])"
|
||||||
]
|
]
|
||||||
},
|
},
|
||||||
"execution_count": 62,
|
"execution_count": 90,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"output_type": "execute_result"
|
"output_type": "execute_result"
|
||||||
}
|
}
|
||||||
@ -1432,7 +1433,7 @@
|
|||||||
},
|
},
|
||||||
{
|
{
|
||||||
"cell_type": "code",
|
"cell_type": "code",
|
||||||
"execution_count": 67,
|
"execution_count": 93,
|
||||||
"metadata": {},
|
"metadata": {},
|
||||||
"outputs": [],
|
"outputs": [],
|
||||||
"source": [
|
"source": [
|
||||||
@ -1441,6 +1442,13 @@
|
|||||||
" f.write(str(round(i, 11)) + '\\n')\n",
|
" f.write(str(round(i, 11)) + '\\n')\n",
|
||||||
"f.close()"
|
"f.close()"
|
||||||
]
|
]
|
||||||
|
},
|
||||||
|
{
|
||||||
|
"cell_type": "code",
|
||||||
|
"execution_count": null,
|
||||||
|
"metadata": {},
|
||||||
|
"outputs": [],
|
||||||
|
"source": []
|
||||||
}
|
}
|
||||||
],
|
],
|
||||||
"metadata": {
|
"metadata": {
|
||||||
|
56
retroc2.py
56
retroc2.py
@ -16,56 +16,56 @@ import pandas as pd
|
|||||||
from sklearn.linear_model import LinearRegression
|
from sklearn.linear_model import LinearRegression
|
||||||
|
|
||||||
|
|
||||||
# In[38]:
|
# In[68]:
|
||||||
|
|
||||||
|
|
||||||
def read_data(filename):
|
def read_data(filename):
|
||||||
all_data = lzma.open(filename).read().decode('UTF-8').split('\n')
|
all_data = lzma.open(filename).read().decode('UTF-8').split('\n')
|
||||||
return [line.split('\t') for line in all_data][:-1]
|
return [line.split('\t') for line in all_data][:-1]
|
||||||
|
|
||||||
train_data = read_data('train/train.tsv.xz')[::500]
|
train_data = read_data('train/train.tsv.xz')[::250]
|
||||||
|
|
||||||
|
|
||||||
# In[39]:
|
# In[69]:
|
||||||
|
|
||||||
|
|
||||||
train_data[0]
|
train_data[0]
|
||||||
|
|
||||||
|
|
||||||
# In[40]:
|
# In[70]:
|
||||||
|
|
||||||
|
|
||||||
stop_words = get_stop_words('pl') + ['a', 'u', 'i', 'z', 'w', 'o']
|
stop_words = get_stop_words('pl') + ['a', 'u', 'i', 'z', 'w', 'o']
|
||||||
print(stop_words)
|
print(stop_words)
|
||||||
|
|
||||||
|
|
||||||
# In[41]:
|
# In[71]:
|
||||||
|
|
||||||
|
|
||||||
train_data_tokenized = [list(set(gensim.utils.tokenize(x[4], lowercase = True))) for x in train_data]
|
train_data_tokenized = [list(set(gensim.utils.tokenize(x[4], lowercase = True))) for x in train_data]
|
||||||
|
|
||||||
|
|
||||||
# In[42]:
|
# In[72]:
|
||||||
|
|
||||||
|
|
||||||
train_data_tokenized[0]
|
train_data_tokenized[0]
|
||||||
|
|
||||||
|
|
||||||
# In[43]:
|
# In[73]:
|
||||||
|
|
||||||
|
|
||||||
train_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in train_data_tokenized]
|
train_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in train_data_tokenized]
|
||||||
train_data_stemmatized[0]
|
train_data_stemmatized[0]
|
||||||
|
|
||||||
|
|
||||||
# In[44]:
|
# In[74]:
|
||||||
|
|
||||||
|
|
||||||
vectorizer = TfidfVectorizer()
|
vectorizer = TfidfVectorizer()
|
||||||
vectors = vectorizer.fit_transform([' '.join(i) for i in train_data_stemmatized])
|
vectors = vectorizer.fit_transform([' '.join(i) for i in train_data_stemmatized])
|
||||||
|
|
||||||
|
|
||||||
# In[45]:
|
# In[75]:
|
||||||
|
|
||||||
|
|
||||||
feature_names = vectorizer.get_feature_names()
|
feature_names = vectorizer.get_feature_names()
|
||||||
@ -74,44 +74,44 @@ denselist = dense.tolist()
|
|||||||
df = pd.DataFrame(denselist, columns=feature_names)
|
df = pd.DataFrame(denselist, columns=feature_names)
|
||||||
|
|
||||||
|
|
||||||
# In[46]:
|
# In[76]:
|
||||||
|
|
||||||
|
|
||||||
len(train_data)
|
len(train_data)
|
||||||
|
|
||||||
|
|
||||||
# In[47]:
|
# In[77]:
|
||||||
|
|
||||||
|
|
||||||
df[:10]
|
df[:10]
|
||||||
|
|
||||||
|
|
||||||
# In[48]:
|
# In[78]:
|
||||||
|
|
||||||
|
|
||||||
vectorizer.transform(['__ ma kota']).toarray()[0]
|
vectorizer.transform(['__ ma kota']).toarray()[0]
|
||||||
|
|
||||||
|
|
||||||
# In[49]:
|
# In[79]:
|
||||||
|
|
||||||
|
|
||||||
train_Y = [(float(x[0]) + float(x[1])) / 2 for x in train_data]
|
train_Y = [(float(x[0]) + float(x[1])) / 2 for x in train_data]
|
||||||
|
|
||||||
|
|
||||||
# In[50]:
|
# In[80]:
|
||||||
|
|
||||||
|
|
||||||
model = LinearRegression() # definicja modelu
|
model = LinearRegression() # definicja modelu
|
||||||
model.fit(df, train_Y) # dopasowanie modelu
|
model.fit(df, train_Y) # dopasowanie modelu
|
||||||
|
|
||||||
|
|
||||||
# In[51]:
|
# In[81]:
|
||||||
|
|
||||||
|
|
||||||
model.predict(df[:10])
|
model.predict(df[:10])
|
||||||
|
|
||||||
|
|
||||||
# In[52]:
|
# In[82]:
|
||||||
|
|
||||||
|
|
||||||
with open('dev-0/in.tsv', "r", encoding="utf-8") as f:
|
with open('dev-0/in.tsv', "r", encoding="utf-8") as f:
|
||||||
@ -122,19 +122,19 @@ dev_0_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) f
|
|||||||
dev_0_data = [' '.join(i) for i in dev_0_data_stemmatized]
|
dev_0_data = [' '.join(i) for i in dev_0_data_stemmatized]
|
||||||
|
|
||||||
|
|
||||||
# In[53]:
|
# In[83]:
|
||||||
|
|
||||||
|
|
||||||
y_predicted = model.predict(vectorizer.transform(dev_0_data).toarray())
|
y_predicted = model.predict(vectorizer.transform(dev_0_data).toarray())
|
||||||
|
|
||||||
|
|
||||||
# In[54]:
|
# In[84]:
|
||||||
|
|
||||||
|
|
||||||
y_predicted[:10]
|
y_predicted[:10]
|
||||||
|
|
||||||
|
|
||||||
# In[66]:
|
# In[92]:
|
||||||
|
|
||||||
|
|
||||||
f = open("dev-0/out.tsv", "a")
|
f = open("dev-0/out.tsv", "a")
|
||||||
@ -143,14 +143,14 @@ for i in y_predicted:
|
|||||||
f.close()
|
f.close()
|
||||||
|
|
||||||
|
|
||||||
# In[56]:
|
# In[86]:
|
||||||
|
|
||||||
|
|
||||||
with open('dev-0/expected.tsv', "r", encoding="utf-8") as f:
|
with open('dev-0/expected.tsv', "r", encoding="utf-8") as f:
|
||||||
e = [line.rstrip() for line in f]
|
e = [line.rstrip() for line in f]
|
||||||
|
|
||||||
|
|
||||||
# In[57]:
|
# In[94]:
|
||||||
|
|
||||||
|
|
||||||
import math
|
import math
|
||||||
@ -161,7 +161,7 @@ for i in range(len(y_predicted)):
|
|||||||
print(math.sqrt(sum(t)/len(y_predicted)))
|
print(math.sqrt(sum(t)/len(y_predicted)))
|
||||||
|
|
||||||
|
|
||||||
# In[65]:
|
# In[88]:
|
||||||
|
|
||||||
|
|
||||||
with open('test-A/in.tsv', "r", encoding="utf-8") as f:
|
with open('test-A/in.tsv', "r", encoding="utf-8") as f:
|
||||||
@ -172,19 +172,19 @@ test_A_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)]))
|
|||||||
test_A_data = [' '.join(i) for i in test_A_data_stemmatized]
|
test_A_data = [' '.join(i) for i in test_A_data_stemmatized]
|
||||||
|
|
||||||
|
|
||||||
# In[61]:
|
# In[89]:
|
||||||
|
|
||||||
|
|
||||||
y_test_predicted = model.predict(vectorizer.transform(test_A_data).toarray())
|
y_test_predicted = model.predict(vectorizer.transform(test_A_data).toarray())
|
||||||
|
|
||||||
|
|
||||||
# In[62]:
|
# In[90]:
|
||||||
|
|
||||||
|
|
||||||
y_test_predicted[:10]
|
y_test_predicted[:10]
|
||||||
|
|
||||||
|
|
||||||
# In[67]:
|
# In[93]:
|
||||||
|
|
||||||
|
|
||||||
f = open("test-A/out.tsv", "a")
|
f = open("test-A/out.tsv", "a")
|
||||||
@ -192,3 +192,9 @@ for i in y_test_predicted:
|
|||||||
f.write(str(round(i, 11)) + '\n')
|
f.write(str(round(i, 11)) + '\n')
|
||||||
f.close()
|
f.close()
|
||||||
|
|
||||||
|
|
||||||
|
# In[ ]:
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
28440
test-A/out.tsv
28440
test-A/out.tsv
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue
Block a user