retroc2/lin reg.ipynb

12 KiB
Raw Blame History

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from sklearn.linear_model import LinearRegression
df = pd.read_csv('train/train.tsv', sep='\t', header=None)
df = df.head(1000)
df = df.iloc[:, [0,1,4]]
df.iloc[0, 2]
'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\' Tak. czy zna pani włelko\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło'
y = (df.iloc[:, 0] + df.iloc[:, 1])/2
y
0      1985.494521
1      1926.475342
2      2013.963014
3      1925.500000
4      1981.500000
          ...     
995    1913.546575
996    1938.132877
997    1998.119178
998    1910.500000
999    1930.935616
Length: 1000, dtype: float64
x = df.iloc[:, 2]
vectorizer = TfidfVectorizer(lowercase=False)
X = vectorizer.fit_transform(x)
x = vectorizer.transform(x)
x[0]
<1x141915 sparse matrix of type '<class 'numpy.float64'>'
	with 387 stored elements in Compressed Sparse Row format>
test_x = pd.read_csv('dev-0/in.tsv', sep='\t', header=None)
test_y = pd.read_csv('dev-0/expected.tsv', sep='\t', header=None)

test_x = vectorizer.transform(test_x)
test_x
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
Input In [7], in <cell line: 4>()
      1 test_x = pd.read_csv('dev-0/in.tsv', sep='\t', header=None)
      2 test_y = pd.read_csv('dev-0/expected.tsv', sep='\t', header=None)
----> 4 test_x = vectorizer.transform(test_x)
      5 test_x

File ~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:2101, in TfidfVectorizer.transform(self, raw_documents)
   2084 """Transform documents to document-term matrix.
   2085 
   2086 Uses the vocabulary and document frequencies (df) learned by fit (or
   (...)
   2097     Tf-idf-weighted document-term matrix.
   2098 """
   2099 check_is_fitted(self, msg="The TF-IDF vectorizer is not fitted")
-> 2101 X = super().transform(raw_documents)
   2102 return self._tfidf.transform(X, copy=False)

File ~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1379, in CountVectorizer.transform(self, raw_documents)
   1376 self._check_vocabulary()
   1378 # use the same matrix-building strategy as fit_transform
-> 1379 _, X = self._count_vocab(raw_documents, fixed_vocab=True)
   1380 if self.binary:
   1381     X.data.fill(1)

File ~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1201, in CountVectorizer._count_vocab(self, raw_documents, fixed_vocab)
   1199 for doc in raw_documents:
   1200     feature_counter = {}
-> 1201     for feature in analyze(doc):
   1202         try:
   1203             feature_idx = vocabulary[feature]

File ~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:115, in _analyze(doc, analyzer, tokenizer, ngrams, preprocessor, decoder, stop_words)
    113     doc = preprocessor(doc)
    114 if tokenizer is not None:
--> 115     doc = tokenizer(doc)
    116 if ngrams is not None:
    117     if stop_words is not None:

TypeError: expected string or bytes-like object