12 KiB
12 KiB
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from sklearn.linear_model import LinearRegression
df = pd.read_csv('train/train.tsv', sep='\t', header=None)
df = df.head(1000)
df = df.iloc[:, [0,1,4]]
df.iloc[0, 2]
'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\' Tak. czy zna pani włelko\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło'
y = (df.iloc[:, 0] + df.iloc[:, 1])/2
y
0 1985.494521 1 1926.475342 2 2013.963014 3 1925.500000 4 1981.500000 ... 995 1913.546575 996 1938.132877 997 1998.119178 998 1910.500000 999 1930.935616 Length: 1000, dtype: float64
x = df.iloc[:, 2]
vectorizer = TfidfVectorizer(lowercase=False)
X = vectorizer.fit_transform(x)
x = vectorizer.transform(x)
x[0]
<1x141915 sparse matrix of type '<class 'numpy.float64'>' with 387 stored elements in Compressed Sparse Row format>
test_x = pd.read_csv('dev-0/in.tsv', sep='\t', header=None)
test_y = pd.read_csv('dev-0/expected.tsv', sep='\t', header=None)
test_x = vectorizer.transform(test_x)
test_x
[1;31m---------------------------------------------------------------------------[0m [1;31mTypeError[0m Traceback (most recent call last) Input [1;32mIn [7][0m, in [0;36m<cell line: 4>[1;34m()[0m [0;32m 1[0m test_x [38;5;241m=[39m pd[38;5;241m.[39mread_csv([38;5;124m'[39m[38;5;124mdev-0/in.tsv[39m[38;5;124m'[39m, sep[38;5;241m=[39m[38;5;124m'[39m[38;5;130;01m\t[39;00m[38;5;124m'[39m, header[38;5;241m=[39m[38;5;28;01mNone[39;00m) [0;32m 2[0m test_y [38;5;241m=[39m pd[38;5;241m.[39mread_csv([38;5;124m'[39m[38;5;124mdev-0/expected.tsv[39m[38;5;124m'[39m, sep[38;5;241m=[39m[38;5;124m'[39m[38;5;130;01m\t[39;00m[38;5;124m'[39m, header[38;5;241m=[39m[38;5;28;01mNone[39;00m) [1;32m----> 4[0m test_x [38;5;241m=[39m [43mvectorizer[49m[38;5;241;43m.[39;49m[43mtransform[49m[43m([49m[43mtest_x[49m[43m)[49m [0;32m 5[0m test_x File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:2101[0m, in [0;36mTfidfVectorizer.transform[1;34m(self, raw_documents)[0m [0;32m 2084[0m [38;5;124;03m"""Transform documents to document-term matrix.[39;00m [0;32m 2085[0m [0;32m 2086[0m [38;5;124;03mUses the vocabulary and document frequencies (df) learned by fit (or[39;00m [1;32m (...)[0m [0;32m 2097[0m [38;5;124;03m Tf-idf-weighted document-term matrix.[39;00m [0;32m 2098[0m [38;5;124;03m"""[39;00m [0;32m 2099[0m check_is_fitted([38;5;28mself[39m, msg[38;5;241m=[39m[38;5;124m"[39m[38;5;124mThe TF-IDF vectorizer is not fitted[39m[38;5;124m"[39m) [1;32m-> 2101[0m X [38;5;241m=[39m [38;5;28;43msuper[39;49m[43m([49m[43m)[49m[38;5;241;43m.[39;49m[43mtransform[49m[43m([49m[43mraw_documents[49m[43m)[49m [0;32m 2102[0m [38;5;28;01mreturn[39;00m [38;5;28mself[39m[38;5;241m.[39m_tfidf[38;5;241m.[39mtransform(X, copy[38;5;241m=[39m[38;5;28;01mFalse[39;00m) File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1379[0m, in [0;36mCountVectorizer.transform[1;34m(self, raw_documents)[0m [0;32m 1376[0m [38;5;28mself[39m[38;5;241m.[39m_check_vocabulary() [0;32m 1378[0m [38;5;66;03m# use the same matrix-building strategy as fit_transform[39;00m [1;32m-> 1379[0m _, X [38;5;241m=[39m [38;5;28;43mself[39;49m[38;5;241;43m.[39;49m[43m_count_vocab[49m[43m([49m[43mraw_documents[49m[43m,[49m[43m [49m[43mfixed_vocab[49m[38;5;241;43m=[39;49m[38;5;28;43;01mTrue[39;49;00m[43m)[49m [0;32m 1380[0m [38;5;28;01mif[39;00m [38;5;28mself[39m[38;5;241m.[39mbinary: [0;32m 1381[0m X[38;5;241m.[39mdata[38;5;241m.[39mfill([38;5;241m1[39m) File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1201[0m, in [0;36mCountVectorizer._count_vocab[1;34m(self, raw_documents, fixed_vocab)[0m [0;32m 1199[0m [38;5;28;01mfor[39;00m doc [38;5;129;01min[39;00m raw_documents: [0;32m 1200[0m feature_counter [38;5;241m=[39m {} [1;32m-> 1201[0m [38;5;28;01mfor[39;00m feature [38;5;129;01min[39;00m [43manalyze[49m[43m([49m[43mdoc[49m[43m)[49m: [0;32m 1202[0m [38;5;28;01mtry[39;00m: [0;32m 1203[0m feature_idx [38;5;241m=[39m vocabulary[feature] File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:115[0m, in [0;36m_analyze[1;34m(doc, analyzer, tokenizer, ngrams, preprocessor, decoder, stop_words)[0m [0;32m 113[0m doc [38;5;241m=[39m preprocessor(doc) [0;32m 114[0m [38;5;28;01mif[39;00m tokenizer [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m: [1;32m--> 115[0m doc [38;5;241m=[39m [43mtokenizer[49m[43m([49m[43mdoc[49m[43m)[49m [0;32m 116[0m [38;5;28;01mif[39;00m ngrams [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m: [0;32m 117[0m [38;5;28;01mif[39;00m stop_words [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m: [1;31mTypeError[0m: expected string or bytes-like object