retroc2/lin reg.ipynb at c2a3b129456c9fb993d0958b573dde3ea43d63b3

Karol Idaszak c2a3b12945 first commit

2022-05-18 12:12:29 +02:00

12 KiB

Raw Blame History

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
from sklearn.linear_model import LinearRegression

df = pd.read_csv('train/train.tsv', sep='\t', header=None)
df = df.head(1000)
df = df.iloc[:, [0,1,4]]

df.iloc[0, 2]

'nowią część kultury. U nas już nikt ich nie chce oglądać. Chciałam osiągnąć coś wprost przeciwnego: przywrócić kobietom zaufanie do samych siebie, do własnych mo!liwości. Katharłne Hepburn powłedziala. kłedyi, łe najtrudnłej$ze to ..aprzedawanłe debie jak bukietu Awłeźych kwiatów". Czy pant nie myllt. tak aamo7 Jestem bardziej odprężona niż Katharine. Gwiazdy jej generacji były większymi gwiazdami i musiały być całkiem nadzwyczajne. Nasze pokolenie jest banalniejsze. Jako kobieta i jako aktorka najlepiej czuję się w tłumie. --. Jest szalona rolnica między tym co ludzie o panł myl\'ą. a tllm. kim panł jeBt naprClwdę. Ja tego nie widzę. Był taki okres w naszym ż\'yciu, że Tom i ja n e mieliśmy pieniędzy. NIe pracowałam. Zyliśmy z koie zności bardzo skrom- -. -... .. nie. Zresztą dotychC" as zy- . popiół znad ruin miasta. Ogromny teren, obejmuJący około 58 km t został zamieniony w dymiące pogorzelisko. Ulice miasta pokryte były zwęglonymi zwłokami mieszkańc6w, kt6re w wielu miejscach tworzyły makabryczne stosy. Wśród ofiar znaleźli się wszyscy dostojnicy przybyli poprzedniego dnia z Fort de France. Przez pierwsze dwa dni trwała akcja ratunkowa, nie udało się jednak znale:fć ani jednej żywej istoty. Dopiero w niedzielę, 11 maja, usłyszano czyjeŚ jęki. Odrzucając głazy i gorący jeszcze popiół, odnaleziono mocno poparzonego i całkowicie wyczerpanego młodego człowieka. Okazało si że jest to więzień pochodzący z leo Precheur. Skazano go na tygodniowy pobyt w karnej celi (ciemnicy) za samowolne opuszczenie więzienia. Ta niesubordynacja okazała się dla Sylbarisa zbawienna. Grube mury celi, Rołożonej u pod!1 óża g?ry, uchroniły go od zrmażdźenla i od spalenia\'. Uratowany tak opisał nieprawdopodobną tragedię miasta: To btllo okolo 8 rano... nagle usłyszałem ogromny huk, a potem pTzeraźliwe krzyki ludzi. W sZ]lScy . l .\' , P walali: pa ę nę.... umIeram.... o kilku minutach. WSZ1łstkie ucichły. Wszystkie... :z 1D1/;qtkiem mo;ego... Ogień pochłonął miasto i jego mieszkańców. Spełniła się klątwa rzucona przez wodza karaibskiego przed nies łna ćwierć wiekiem. ANDRZEJ VORBRODT jemy o wiele skromniej, niż większość ludzi z Hollywood. Moje. dzieci chodzą do publicznej szkoły, nie chcę, by wyrastały na .snobów. Myślę, że każda aktorka chyba że gra wyłącznie kr6lowe i księżniczki musi pozostawać w kontakcie z normalnymi ludźmi i z normalnym życiem. Zresztą, gdybym nagle zdecydowała się żyć luksusowo, Tom niechybnie opuściłby mnie\' w mgnieniu oka. Wydawalo mł się nłer4%, e ma pant paC2. UC"ic winy z powodu awołch ]Jłeniędzy... Nic podobnego. Jestem dumna ze sposobu, w jaki wydaję moje pieniądze. Używam ich na cele? w które wierzę i o ktore walczę. - czy t,o prawda. te sfinanaowała pant calkouńcie kampanię elektoralną Toma przy pomocy płenłędZ1l zarobionych na aerobiku\' Tak. czy zna pani włelko\' swojej fortuny? ..:.. Mniej więcej. Przed Tomem byl Vad\'m; Paryt. cyganeria artystyczna, latwe tycie... Była pant kim innym. Jak doszlo do takiej zmiany? Dwadzie cia lat temu nie wiedziałam kim jestem. Byłam całkiem apolityczna. Kiedy wybuchła wojna w Wietnamie, n!e wiedziałam nawet gdzie leży Wietnam. A kiedy zrozumiałam, co naprawdę się dzieje w Wietnamie nie umiałam się wyłączyć j przestać walczyć o to, co Ic-uważalam za swój 000- wiązek. To calkowicle zmieniło'

y = (df.iloc[:, 0] + df.iloc[:, 1])/2
y

0      1985.494521
1      1926.475342
2      2013.963014
3      1925.500000
4      1981.500000
          ...     
995    1913.546575
996    1938.132877
997    1998.119178
998    1910.500000
999    1930.935616
Length: 1000, dtype: float64

x = df.iloc[:, 2]
vectorizer = TfidfVectorizer(lowercase=False)
X = vectorizer.fit_transform(x)
x = vectorizer.transform(x)

x[0]

<1x141915 sparse matrix of type '<class 'numpy.float64'>'
	with 387 stored elements in Compressed Sparse Row format>

test_x = pd.read_csv('dev-0/in.tsv', sep='\t', header=None)
test_y = pd.read_csv('dev-0/expected.tsv', sep='\t', header=None)

test_x = vectorizer.transform(test_x)
test_x

[1;31m---------------------------------------------------------------------------[0m
[1;31mTypeError[0m                                 Traceback (most recent call last)
Input [1;32mIn [7][0m, in [0;36m<cell line: 4>[1;34m()[0m
[0;32m      1[0m test_x [38;5;241m=[39m pd[38;5;241m.[39mread_csv([38;5;124m'[39m[38;5;124mdev-0/in.tsv[39m[38;5;124m'[39m, sep[38;5;241m=[39m[38;5;124m'[39m[38;5;130;01m\t[39;00m[38;5;124m'[39m, header[38;5;241m=[39m[38;5;28;01mNone[39;00m)
[0;32m      2[0m test_y [38;5;241m=[39m pd[38;5;241m.[39mread_csv([38;5;124m'[39m[38;5;124mdev-0/expected.tsv[39m[38;5;124m'[39m, sep[38;5;241m=[39m[38;5;124m'[39m[38;5;130;01m\t[39;00m[38;5;124m'[39m, header[38;5;241m=[39m[38;5;28;01mNone[39;00m)
[1;32m----> 4[0m test_x [38;5;241m=[39m [43mvectorizer[49m[38;5;241;43m.[39;49m[43mtransform[49m[43m([49m[43mtest_x[49m[43m)[49m
[0;32m      5[0m test_x

File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:2101[0m, in [0;36mTfidfVectorizer.transform[1;34m(self, raw_documents)[0m
[0;32m   2084[0m [38;5;124;03m"""Transform documents to document-term matrix.[39;00m
[0;32m   2085[0m 
[0;32m   2086[0m [38;5;124;03mUses the vocabulary and document frequencies (df) learned by fit (or[39;00m
[1;32m   (...)[0m
[0;32m   2097[0m [38;5;124;03m    Tf-idf-weighted document-term matrix.[39;00m
[0;32m   2098[0m [38;5;124;03m"""[39;00m
[0;32m   2099[0m check_is_fitted([38;5;28mself[39m, msg[38;5;241m=[39m[38;5;124m"[39m[38;5;124mThe TF-IDF vectorizer is not fitted[39m[38;5;124m"[39m)
[1;32m-> 2101[0m X [38;5;241m=[39m [38;5;28;43msuper[39;49m[43m([49m[43m)[49m[38;5;241;43m.[39;49m[43mtransform[49m[43m([49m[43mraw_documents[49m[43m)[49m
[0;32m   2102[0m [38;5;28;01mreturn[39;00m [38;5;28mself[39m[38;5;241m.[39m_tfidf[38;5;241m.[39mtransform(X, copy[38;5;241m=[39m[38;5;28;01mFalse[39;00m)

File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1379[0m, in [0;36mCountVectorizer.transform[1;34m(self, raw_documents)[0m
[0;32m   1376[0m [38;5;28mself[39m[38;5;241m.[39m_check_vocabulary()
[0;32m   1378[0m [38;5;66;03m# use the same matrix-building strategy as fit_transform[39;00m
[1;32m-> 1379[0m _, X [38;5;241m=[39m [38;5;28;43mself[39;49m[38;5;241;43m.[39;49m[43m_count_vocab[49m[43m([49m[43mraw_documents[49m[43m,[49m[43m [49m[43mfixed_vocab[49m[38;5;241;43m=[39;49m[38;5;28;43;01mTrue[39;49;00m[43m)[49m
[0;32m   1380[0m [38;5;28;01mif[39;00m [38;5;28mself[39m[38;5;241m.[39mbinary:
[0;32m   1381[0m     X[38;5;241m.[39mdata[38;5;241m.[39mfill([38;5;241m1[39m)

File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:1201[0m, in [0;36mCountVectorizer._count_vocab[1;34m(self, raw_documents, fixed_vocab)[0m
[0;32m   1199[0m [38;5;28;01mfor[39;00m doc [38;5;129;01min[39;00m raw_documents:
[0;32m   1200[0m     feature_counter [38;5;241m=[39m {}
[1;32m-> 1201[0m     [38;5;28;01mfor[39;00m feature [38;5;129;01min[39;00m [43manalyze[49m[43m([49m[43mdoc[49m[43m)[49m:
[0;32m   1202[0m         [38;5;28;01mtry[39;00m:
[0;32m   1203[0m             feature_idx [38;5;241m=[39m vocabulary[feature]

File [1;32m~\AppData\Roaming\Python\Python310\site-packages\sklearn\feature_extraction\text.py:115[0m, in [0;36m_analyze[1;34m(doc, analyzer, tokenizer, ngrams, preprocessor, decoder, stop_words)[0m
[0;32m    113[0m     doc [38;5;241m=[39m preprocessor(doc)
[0;32m    114[0m [38;5;28;01mif[39;00m tokenizer [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m:
[1;32m--> 115[0m     doc [38;5;241m=[39m [43mtokenizer[49m[43m([49m[43mdoc[49m[43m)[49m
[0;32m    116[0m [38;5;28;01mif[39;00m ngrams [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m:
[0;32m    117[0m     [38;5;28;01mif[39;00m stop_words [38;5;129;01mis[39;00m [38;5;129;01mnot[39;00m [38;5;28;01mNone[39;00m:

[1;31mTypeError[0m: expected string or bytes-like object

12 KiB Raw Blame History Unescape Escape

12 KiB

Raw Blame History