{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# retroc2" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import lzma\n", "import csv\n", "from stop_words import get_stop_words\n", "import gensim\n", "import itertools\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "import pandas as pd\n", "from sklearn.linear_model import LinearRegression" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [], "source": [ "def read_data(filename):\n", " all_data = lzma.open(filename).read().decode('UTF-8').split('\\n')\n", " return [line.split('\\t') for line in all_data][:-1]\n", "\n", "train_data = read_data('train/train.tsv.xz')[::250]" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['1985.49315068493',\n", " '1985.49589037925',\n", " 'PRZEKRÓJ',\n", " 'MBC',\n", " 'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów\". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC\" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC\"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\\' Tak. czy zna pani włelko\\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło']" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train_data[0]" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "['ach', 'aj', 'albo', 'bardzo', 'bez', 'bo', 'być', 'ci', 'cię', 'ciebie', 'co', 'czy', 'daleko', 'dla', 'dlaczego', 'dlatego', 'do', 'dobrze', 'dokąd', 'dość', 'dużo', 'dwa', 'dwaj', 'dwie', 'dwoje', 'dziś', 'dzisiaj', 'gdyby', 'gdzie', 'go', 'ich', 'ile', 'im', 'inny', 'ja', 'ją', 'jak', 'jakby', 'jaki', 'je', 'jeden', 'jedna', 'jedno', 'jego', 'jej', 'jemu', 'jeśli', 'jest', 'jestem', 'jeżeli', 'już', 'każdy', 'kiedy', 'kierunku', 'kto', 'ku', 'lub', 'ma', 'mają', 'mam', 'mi', 'mną', 'mnie', 'moi', 'mój', 'moja', 'moje', 'może', 'mu', 'my', 'na', 'nam', 'nami', 'nas', 'nasi', 'nasz', 'nasza', 'nasze', 'natychmiast', 'nią', 'nic', 'nich', 'nie', 'niego', 'niej', 'niemu', 'nigdy', 'nim', 'nimi', 'niż', 'obok', 'od', 'około', 'on', 'ona', 'one', 'oni', 'ono', 'owszem', 'po', 'pod', 'ponieważ', 'przed', 'przedtem', 'są', 'sam', 'sama', 'się', 'skąd', 'tak', 'taki', 'tam', 'ten', 'to', 'tobą', 'tobie', 'tu', 'tutaj', 'twoi', 'twój', 'twoja', 'twoje', 'ty', 'wam', 'wami', 'was', 'wasi', 'wasz', 'wasza', 'wasze', 'we', 'więc', 'wszystko', 'wtedy', 'wy', 'żaden', 'zawsze', 'że', 'a', 'u', 'i', 'z', 'w', 'o']\n" ] } ], "source": [ "stop_words = get_stop_words('pl') + ['a', 'u', 'i', 'z', 'w', 'o']\n", "print(stop_words)" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [], "source": [ "train_data_tokenized = [list(set(gensim.utils.tokenize(x[4], lowercase = True))) for x in train_data]" ] }, { "cell_type": "code", "execution_count": 72, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['hepburn',\n", " 'przestać',\n", " 'skazano',\n", " 'l',\n", " 'chce',\n", " 'ic',\n", " 'miasto',\n", " 'ta',\n", " 'aerobiku',\n", " 'czy',\n", " 'wszyscy',\n", " 'jestem',\n", " 'już',\n", " 'dymiące',\n", " 'zarobionych',\n", " 'katharine',\n", " 'dwadzie',\n", " 'zdecydowała',\n", " 'normalnym',\n", " 'potem',\n", " 'jednej',\n", " 'widzę',\n", " 'tygodniowy',\n", " 'toma',\n", " 'byl',\n", " 'huk',\n", " 'liwości',\n", " 'te',\n", " 'kt',\n", " 'mury',\n", " 'fort',\n", " 'więzienia',\n", " 'okolo',\n", " 'walczę',\n", " 'o',\n", " 'ani',\n", " 'znaleźli',\n", " 'dzieje',\n", " 'okazała',\n", " 'człowieka',\n", " 'maja',\n", " 'nawet',\n", " 'wydawalo',\n", " 'musiały',\n", " 'minutach',\n", " 'głazy',\n", " 'qtkiem',\n", " 'zbawienna',\n", " 'wprost',\n", " 'jednak',\n", " 'wśród',\n", " 'samowolne',\n", " 'życiem',\n", " 'kobieta',\n", " 'g',\n", " 'aprzedawanłe',\n", " 'odrzucając',\n", " 'dostojnicy',\n", " 'uważalam',\n", " 'paryt',\n", " 'włelko',\n", " 'luksusowo',\n", " 'podobnego',\n", " 'własnych',\n", " 'katharłne',\n", " 'karaibskiego',\n", " 'samych',\n", " 'wybuchła',\n", " 'nic',\n", " 'dla',\n", " 'de',\n", " 'księżniczki',\n", " 'łna',\n", " 'klątwa',\n", " 'sfinanaowała',\n", " 'powłedziala',\n", " 'pani',\n", " 'część',\n", " 'wiązek',\n", " 'wyłącznie',\n", " 'rzucona',\n", " 'akcja',\n", " 'opuściłby',\n", " 'karnej',\n", " 'myl',\n", " 'p',\n", " 'leo',\n", " 'zwłokami',\n", " 'pokolenie',\n", " 'miejscach',\n", " 'spalenia',\n", " 'kłedyi',\n", " 'mieliśmy',\n", " 'koie',\n", " 'takiej',\n", " 'walali',\n", " 'rano',\n", " 'naprawdę',\n", " 'większymi',\n", " 'na',\n", " 'zna',\n", " 'si',\n", " 'normalnymi',\n", " 'były',\n", " 'apolityczna',\n", " 'zaufanie',\n", " 'całkiem',\n", " 'zyliśmy',\n", " 'ptzeraźliwe',\n", " 'udało',\n", " 'tym',\n", " 're',\n", " 'osiągnąć',\n", " 'mgnieniu',\n", " 'pochłonął',\n", " 'naszym',\n", " 'rołożonej',\n", " 'grube',\n", " 'oka',\n", " 'tworzyły',\n", " 'istoty',\n", " 'debie',\n", " 'każda',\n", " 'zy',\n", " 'mniej',\n", " 'chciałam',\n", " 'popiół',\n", " 'leży',\n", " 'najtrudnłej',\n", " 'znad',\n", " 'jego',\n", " 'pochodzący',\n", " 'zmieniło',\n", " 'snobów',\n", " 'dumna',\n", " 'byłam',\n", " 'yciu',\n", " 'pieniądze',\n", " 'pokryte',\n", " 'bardziej',\n", " 'm',\n", " 'do',\n", " 'bukietu',\n", " 'żyć',\n", " 'poparzonego',\n", " 'w',\n", " 'ę',\n", " 'calkowicle',\n", " 'vad',\n", " 'tak',\n", " 'gdzie',\n", " 'kampanię',\n", " 'celi',\n", " 'pozostawać',\n", " 'sylbarisa',\n", " 'nieprawdopodobną',\n", " 'nie',\n", " 'około',\n", " 'wojna',\n", " 'calkouńcie',\n", " 'odnaleziono',\n", " 'uc',\n", " 'które',\n", " 'poprzedniego',\n", " 'dzieci',\n", " 'wietnam',\n", " 'płenłędz',\n", " 'publicznej',\n", " 'odprężona',\n", " 'spełniła',\n", " 'ja',\n", " 'nę',\n", " 'stosy',\n", " 'jęki',\n", " 'wyłączyć',\n", " 'chyba',\n", " 'skrom',\n", " 'jemy',\n", " 'jak',\n", " 'więcej',\n", " 'była',\n", " 'jłeniędzy',\n", " 'przed',\n", " 'nadzwyczajne',\n", " 'musi',\n", " 'młodego',\n", " 'używam',\n", " 'szalona',\n", " 'przeciwnego',\n", " 'naprclwdę',\n", " 'to',\n", " 'tom',\n", " 'fć',\n", " 'myślę',\n", " 'wiedziałam',\n", " 'za',\n", " 'niesubordynacja',\n", " 'nies',\n", " 'by',\n", " 'chcę',\n", " 'ucichły',\n", " 'lowe',\n", " 'precheur',\n", " 'zresztą',\n", " 'dopiero',\n", " 'winy',\n", " 'j',\n", " 'zności',\n", " 'zamieniony',\n", " 'mł',\n", " 'ulice',\n", " 'czyjeś',\n", " 'taki',\n", " 'ogień',\n", " 'ze',\n", " 'óża',\n", " 'fortuny',\n", " 'nas',\n", " 'kwiatów',\n", " 'usłyszano',\n", " 'kim',\n", " 'został',\n", " 'ry',\n", " 'as',\n", " 'france',\n", " 'moje',\n", " 'ludzi',\n", " 'n',\n", " 'niż',\n", " 'nłer',\n", " 'jaki',\n", " 'chodzą',\n", " 'go',\n", " 'makabryczne',\n", " 'tomem',\n", " 'siebie',\n", " 'ogromny',\n", " 'opuszczenie',\n", " 'dotychc',\n", " 'nikt',\n", " 'panł',\n", " 'tego',\n", " 'pieniędzy',\n", " 'wydaję',\n", " 'jest',\n", " 'pa',\n", " 'skromniej',\n", " 'bardzo',\n", " 'powodu',\n", " 'wiele',\n", " 'aamo',\n", " 'btllo',\n", " 'przy',\n", " 'latwe',\n", " 'żywej',\n", " 'sz',\n", " 'gwiazdami',\n", " 'ktore',\n", " 'pobyt',\n", " 'e',\n", " 'elektoralną',\n", " 'nagle',\n", " 'tłumie',\n", " 'pierwsze',\n", " 'krzyki',\n", " 'niedzielę',\n", " 'wiekiem',\n", " 'zwęglonymi',\n", " 'pomocy',\n", " 'ą',\n", " 'tragedię',\n", " 'teren',\n", " 'ludźmi',\n", " 'sposobu',\n", " 'trwała',\n", " 'łe',\n", " 'artystyczna',\n", " 'wielu',\n", " 'i',\n", " 'przybyli',\n", " 'zrozumiałam',\n", " 'mieszkańców',\n", " 'okazało',\n", " 'ma',\n", " 'wyrastały',\n", " 'lat',\n", " 'wsz',\n", " 'niechybnie',\n", " 'mnie',\n", " 'jeszcze',\n", " 'wietnamie',\n", " 'wodza',\n", " 'cia',\n", " 'temu',\n", " 'myllt',\n", " 'łstkie',\n", " 'mo',\n", " 'nowią',\n", " 'kiedy',\n", " 'pod',\n", " 'vorbrodt',\n", " 'od',\n", " 'zmiany',\n", " 'generacji',\n", " 'tycie',\n", " 'gra',\n", " 'jebt',\n", " 'pogorzelisko',\n", " 't',\n", " 'przez',\n", " 'pant',\n", " 'ż',\n", " 'umieram',\n", " 'okres',\n", " 'hollywood',\n", " 'ruin',\n", " 'przywrócić',\n", " 'opisał',\n", " 'kultury',\n", " 'czuję',\n", " 'że',\n", " 'mieszkańc',\n", " 'pac',\n", " 'cyganeria',\n", " 'obejmujący',\n", " 'pracowałam',\n", " 'innym',\n", " 'rolnica',\n", " 'prawda',\n", " 'swój',\n", " 'nasze',\n", " 'swojej',\n", " 'większość',\n", " 'uchroniły',\n", " 'kobietom',\n", " 'a',\n", " 'oglądać',\n", " 'znale',\n", " 'wyczerpanego',\n", " 'd',\n", " 'ofiar',\n", " 'co',\n", " 'był',\n", " 'aktorka',\n", " 'z',\n", " 'wszystkie',\n", " 'szkoły',\n", " 'uratowany',\n", " 'między',\n", " 'dwa',\n", " 'km',\n", " 'umiałam',\n", " 'miasta',\n", " 'kr',\n", " 'gdybym',\n", " 'awłeźych',\n", " 'ich',\n", " 'awołch',\n", " 'doszlo',\n", " 'więzień',\n", " 'kontakcie',\n", " 'jako',\n", " 'zrmażdźenla',\n", " 'usłyszałem',\n", " 'ćwierć',\n", " 'wierzę',\n", " 'się',\n", " 'mocno',\n", " 'kilku',\n", " 'coś',\n", " 'ego',\n", " 'być',\n", " 'andrzej',\n", " 'jej',\n", " 'gwiazdy',\n", " 'całkowicie',\n", " 'tllm',\n", " 'dni',\n", " 'dnia',\n", " 'walczyć',\n", " 'ratunkowa',\n", " 'lscy',\n", " 'cele',\n", " 'u',\n", " 'banalniejsze',\n", " 'ludzie',\n", " 'gorący',\n", " 'najlepiej',\n", " 'ciemnicy']" ] }, "execution_count": 72, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train_data_tokenized[0]" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['zreszt',\n", " 'l',\n", " 'kontak',\n", " 'chce',\n", " 'ic',\n", " 'miasto',\n", " 'sposob',\n", " 'ta',\n", " 'uchron',\n", " 'kultur',\n", " 'wszysc',\n", " 'pozost',\n", " 'potem',\n", " 'jednej',\n", " 'widzę',\n", " 'toma',\n", " 'spełni',\n", " 'byl',\n", " 'vorbro',\n", " 'huk',\n", " 'okazał',\n", " 'te',\n", " 'kt',\n", " 'mury',\n", " 'fort',\n", " 'okolo',\n", " 'odpręż',\n", " 'nadzwy',\n", " 'walczę',\n", " 'ani',\n", " 'mieliś',\n", " 'dzieje',\n", " 'odrzuc',\n", " 'podobn',\n", " 'maja',\n", " 'nawet',\n", " 'głazy',\n", " 'qtkiem',\n", " 'wprost',\n", " 'jednak',\n", " 'wśród',\n", " 'karaib',\n", " 'genera',\n", " 'osiągn',\n", " 'życiem',\n", " 'g',\n", " 'rzucon',\n", " 'paryt',\n", " 'włelko',\n", " 'dymiąc',\n", " 'ogląda',\n", " 'awłeźy',\n", " 'niechy',\n", " 'samych',\n", " 'gwiazd',\n", " 'de',\n", " 'łna',\n", " 'hollyw',\n", " 'pochod',\n", " 'klątwa',\n", " 'samowo',\n", " 'sylbar',\n", " 'pani',\n", " 'część',\n", " 'wiązek',\n", " 'akcja',\n", " 'niedzi',\n", " 'karnej',\n", " 'myl',\n", " 'szalon',\n", " 'p',\n", " 'leo',\n", " 'rołożo',\n", " 'całkie',\n", " 'kłedyi',\n", " 'koie',\n", " 'takiej',\n", " 'elekto',\n", " 'walali',\n", " 'rano',\n", " 'zna',\n", " 'ucichł',\n", " 'si',\n", " 'zamien',\n", " 'były',\n", " 'wyczer',\n", " 'całkow',\n", " 'udało',\n", " 'tym',\n", " 'naprcl',\n", " 'znaleź',\n", " 'mieszk',\n", " 'calkow',\n", " 're',\n", " 'naszym',\n", " 'grube',\n", " 'oka',\n", " 'liwośc',\n", " 'umiała',\n", " 'istoty',\n", " 'debie',\n", " 'każda',\n", " 'zy',\n", " 'mniej',\n", " 'popiół',\n", " 'miejsc',\n", " 'leży',\n", " 'znad',\n", " 'andrze',\n", " 'wyłącz',\n", " 'snobów',\n", " 'dumna',\n", " 'byłam',\n", " 'przeci',\n", " 'dopier',\n", " 'odnale',\n", " 'yciu',\n", " 'calkou',\n", " 'najtru',\n", " 'm',\n", " 'zarobi',\n", " 'chciał',\n", " 'żyć',\n", " 'ę',\n", " 'vad',\n", " 'hepbur',\n", " 'celi',\n", " 'przywr',\n", " 'wojna',\n", " 'opuszc',\n", " 'dwadzi',\n", " 'ptzera',\n", " 'uc',\n", " 'które',\n", " 'dzieci',\n", " 'zrozum',\n", " 'musiał',\n", " 'zbawie',\n", " 'bardzi',\n", " 'nę',\n", " 'stosy',\n", " 'jęki',\n", " 'zwęglo',\n", " 'młodeg',\n", " 'poparz',\n", " 'chyba',\n", " 'aprzed',\n", " 'skrom',\n", " 'jemy',\n", " 'skromn',\n", " 'więcej',\n", " 'była',\n", " 'większ',\n", " 'kwiató',\n", " 'musi',\n", " 'używam',\n", " 'zwłoka',\n", " 'wybuch',\n", " 'tygodn',\n", " 'niepra',\n", " 'wietna',\n", " 'cygane',\n", " 'tom',\n", " 'fć',\n", " 'człowi',\n", " 'myślę',\n", " 'za',\n", " 'nies',\n", " 'by',\n", " 'pokryt',\n", " 'chcę',\n", " 'lowe',\n", " 'winy',\n", " 'j',\n", " 'zdecyd',\n", " 'zności',\n", " 'mł',\n", " 'ulice',\n", " 'czyjeś',\n", " 'ogień',\n", " 'ze',\n", " 'makabr',\n", " 'óża',\n", " 'kim',\n", " 'został',\n", " 'ry',\n", " 'as',\n", " 'france',\n", " 'ludzi',\n", " 'n',\n", " 'umiera',\n", " 'nłer',\n", " 'chodzą',\n", " 'pienię',\n", " 'tomem',\n", " 'kobiet',\n", " 'siebie',\n", " 'wiekie',\n", " 'sfinan',\n", " 'nikt',\n", " 'panł',\n", " 'tego',\n", " 'wydaję',\n", " 'ogromn',\n", " 'rolnic',\n", " 'pa',\n", " 'ratunk',\n", " 'powodu',\n", " 'artyst',\n", " 'wiele',\n", " 'zaufan',\n", " 'public',\n", " 'aamo',\n", " 'btllo',\n", " 'przy',\n", " 'latwe',\n", " 'żywej',\n", " 'skazan',\n", " 'sz',\n", " 'ktore',\n", " 'minuta',\n", " 'pobyt',\n", " 'e',\n", " 'powłed',\n", " 'pogorz',\n", " 'jłenię',\n", " 'apolit',\n", " 'ciemni',\n", " 'nagle',\n", " 'najlep',\n", " 'tłumie',\n", " 'krzyki',\n", " 'usłysz',\n", " 'jeszcz',\n", " 'pomocy',\n", " 'przyby',\n", " 'ą',\n", " 'teren',\n", " 'ludźmi',\n", " 'trwała',\n", " 'zrmażd',\n", " 'łe',\n", " 'walczy',\n", " 'wielu',\n", " 'dotych',\n", " 'tworzy',\n", " 'lat',\n", " 'wsz',\n", " 'banaln',\n", " 'wyrast',\n", " 'wszyst',\n", " 'wodza',\n", " 'cia',\n", " 'temu',\n", " 'myllt',\n", " 'własny',\n", " 'normal',\n", " 'łstkie',\n", " 'dostoj',\n", " 'uważal',\n", " 'mo',\n", " 'nowią',\n", " 'wiedzi',\n", " 'aerobi',\n", " 'pracow',\n", " 'płenłę',\n", " 'zmiany',\n", " 'tycie',\n", " 'gra',\n", " 'opuści',\n", " 'jebt',\n", " 't',\n", " 'przez',\n", " 'pant',\n", " 'ż',\n", " 'okres',\n", " 'spalen',\n", " 'ruin',\n", " 'opisał',\n", " 'więzie',\n", " 'czuję',\n", " 'luksus',\n", " 'pac',\n", " 'mgnien',\n", " 'innym',\n", " 'kampan',\n", " 'prawda',\n", " 'aktork',\n", " 'swój',\n", " 'obejmu',\n", " 'swojej',\n", " 'znale',\n", " 'zyliśm',\n", " 'kathar',\n", " 'd',\n", " 'ofiar',\n", " 'pierws',\n", " 'napraw',\n", " 'traged',\n", " 'był',\n", " 'zmieni',\n", " 'szkoły',\n", " 'między',\n", " 'km',\n", " 'miasta',\n", " 'kr',\n", " 'gdybym',\n", " 'przest',\n", " 'awołch',\n", " 'doszlo',\n", " 'pochło',\n", " 'uratow',\n", " 'jako',\n", " 'wierzę',\n", " 'ćwierć',\n", " 'preche',\n", " 'mocno',\n", " 'kilku',\n", " 'coś',\n", " 'poprze',\n", " 'ego',\n", " 'pokole',\n", " 'księżn',\n", " 'bukiet',\n", " 'tllm',\n", " 'fortun',\n", " 'dni',\n", " 'dnia',\n", " 'niesub',\n", " 'wydawa',\n", " 'lscy',\n", " 'cele',\n", " 'pienią',\n", " 'ludzie',\n", " 'gorący']" ] }, "execution_count": 73, "metadata": {}, "output_type": "execute_result" } ], "source": [ "train_data_stemmatized = [list(set([w[:6] for w in set(i) - set(stop_words)])) for i in train_data_tokenized]\n", "train_data_stemmatized[0]" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [], "source": [ "vectorizer = TfidfVectorizer()\n", "vectors = vectorizer.fit_transform([' '.join(i) for i in train_data_stemmatized])" ] }, { "cell_type": "code", "execution_count": 75, "metadata": {}, "outputs": [], "source": [ "feature_names = vectorizer.get_feature_names()\n", "dense = vectors.todense()\n", "denselist = dense.tolist()\n", "df = pd.DataFrame(denselist, columns=feature_names)" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "430" ] }, "execution_count": 76, "metadata": {}, "output_type": "execute_result" } ], "source": [ "len(train_data)" ] }, { "cell_type": "code", "execution_count": 77, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", " | __ | \n", "___ | \n", "____ | \n", "_____ | \n", "______ | \n", "____x | \n", "__ch | \n", "__n_ | \n", "__naie | \n", "__o | \n", "... | \n", "франкф | \n", "фялофс | \n", "что | \n", "шшяшшш | \n", "щвашш | \n", "ьввдвн | \n", "ьлало | \n", "эавкде | \n", "юрвдич | \n", "ях | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
1 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
2 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
3 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
4 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
5 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
6 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
7 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
8 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
9 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "... | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "0.0 | \n", "
10 rows × 42788 columns
\n", "