Compare commits
4 Commits
Author | SHA1 | Date | |
---|---|---|---|
680de8dc60 | |||
587bc42691 | |||
918dda14d2 | |||
d071aa92f7 |
1
.gitignore
vendored
Normal file
1
.gitignore
vendored
Normal file
@ -0,0 +1 @@
|
|||||||
|
.idea
|
35
classifier.py
Normal file
35
classifier.py
Normal file
@ -0,0 +1,35 @@
|
|||||||
|
from sklearn.feature_extraction.text import TfidfVectorizer
|
||||||
|
from sklearn.naive_bayes import MultinomialNB
|
||||||
|
|
||||||
|
classifier = MultinomialNB()
|
||||||
|
vectorizer = TfidfVectorizer()
|
||||||
|
|
||||||
|
|
||||||
|
def train():
|
||||||
|
with open('train/train.tsv') as f:
|
||||||
|
docs = [line.rstrip() for line in f]
|
||||||
|
docs_preprocessed = []
|
||||||
|
y = []
|
||||||
|
for doc in docs:
|
||||||
|
y_with_doc = doc.split('\t')
|
||||||
|
y.append(y_with_doc[0])
|
||||||
|
doc = y_with_doc[1]
|
||||||
|
docs_preprocessed.append(doc)
|
||||||
|
y = [int(value) for value in y]
|
||||||
|
x = vectorizer.fit_transform(docs_preprocessed)
|
||||||
|
classifier.fit(x, y)
|
||||||
|
|
||||||
|
|
||||||
|
def classify(path):
|
||||||
|
with open(path + 'in.tsv') as f:
|
||||||
|
docs = [line.rstrip() for line in f]
|
||||||
|
test_x = vectorizer.transform(docs)
|
||||||
|
predictions = classifier.predict(test_x)
|
||||||
|
with open(path + 'out.tsv', 'w') as file:
|
||||||
|
for prediction in predictions:
|
||||||
|
file.write("%i\n" % prediction)
|
||||||
|
|
||||||
|
|
||||||
|
train()
|
||||||
|
classify('dev-0/')
|
||||||
|
classify('test-A/')
|
5452
dev-0/out.tsv
Normal file
5452
dev-0/out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
BIN
train/train.tsv.gz → geval
Normal file → Executable file
BIN
train/train.tsv.gz → geval
Normal file → Executable file
Binary file not shown.
350
stopwords
Normal file
350
stopwords
Normal file
@ -0,0 +1,350 @@
|
|||||||
|
a
|
||||||
|
aby
|
||||||
|
ach
|
||||||
|
acz
|
||||||
|
aczkolwiek
|
||||||
|
aj
|
||||||
|
albo
|
||||||
|
ale
|
||||||
|
alez
|
||||||
|
ależ
|
||||||
|
ani
|
||||||
|
az
|
||||||
|
aż
|
||||||
|
bardziej
|
||||||
|
bardzo
|
||||||
|
beda
|
||||||
|
bedzie
|
||||||
|
bez
|
||||||
|
deda
|
||||||
|
będą
|
||||||
|
bede
|
||||||
|
będę
|
||||||
|
będzie
|
||||||
|
bo
|
||||||
|
bowiem
|
||||||
|
by
|
||||||
|
byc
|
||||||
|
być
|
||||||
|
byl
|
||||||
|
byla
|
||||||
|
byli
|
||||||
|
bylo
|
||||||
|
byly
|
||||||
|
był
|
||||||
|
była
|
||||||
|
było
|
||||||
|
były
|
||||||
|
bynajmniej
|
||||||
|
cala
|
||||||
|
cali
|
||||||
|
caly
|
||||||
|
cała
|
||||||
|
cały
|
||||||
|
ci
|
||||||
|
cie
|
||||||
|
ciebie
|
||||||
|
cię
|
||||||
|
co
|
||||||
|
cokolwiek
|
||||||
|
cos
|
||||||
|
coś
|
||||||
|
czasami
|
||||||
|
czasem
|
||||||
|
czemu
|
||||||
|
czy
|
||||||
|
czyli
|
||||||
|
daleko
|
||||||
|
dla
|
||||||
|
dlaczego
|
||||||
|
dlatego
|
||||||
|
do
|
||||||
|
dobrze
|
||||||
|
dokad
|
||||||
|
dokąd
|
||||||
|
dosc
|
||||||
|
dość
|
||||||
|
duzo
|
||||||
|
dużo
|
||||||
|
dwa
|
||||||
|
dwaj
|
||||||
|
dwie
|
||||||
|
dwoje
|
||||||
|
dzis
|
||||||
|
dzisiaj
|
||||||
|
dziś
|
||||||
|
gdy
|
||||||
|
gdyby
|
||||||
|
gdyz
|
||||||
|
gdyż
|
||||||
|
gdzie
|
||||||
|
gdziekolwiek
|
||||||
|
gdzies
|
||||||
|
gdzieś
|
||||||
|
go
|
||||||
|
i
|
||||||
|
ich
|
||||||
|
ile
|
||||||
|
im
|
||||||
|
inna
|
||||||
|
inne
|
||||||
|
inny
|
||||||
|
innych
|
||||||
|
iz
|
||||||
|
iż
|
||||||
|
ja
|
||||||
|
jak
|
||||||
|
jakas
|
||||||
|
jakaś
|
||||||
|
jakby
|
||||||
|
jaki
|
||||||
|
jakichs
|
||||||
|
jakichś
|
||||||
|
jakie
|
||||||
|
jakis
|
||||||
|
jakiś
|
||||||
|
jakiz
|
||||||
|
jakiż
|
||||||
|
jakkolwiek
|
||||||
|
jako
|
||||||
|
jakos
|
||||||
|
jakoś
|
||||||
|
ją
|
||||||
|
je
|
||||||
|
jeden
|
||||||
|
jedna
|
||||||
|
jednak
|
||||||
|
jednakze
|
||||||
|
jednakże
|
||||||
|
jedno
|
||||||
|
jego
|
||||||
|
jej
|
||||||
|
jemu
|
||||||
|
jesli
|
||||||
|
jest
|
||||||
|
jestem
|
||||||
|
jeszcze
|
||||||
|
jeśli
|
||||||
|
jezeli
|
||||||
|
jeżeli
|
||||||
|
juz
|
||||||
|
już
|
||||||
|
kazdy
|
||||||
|
każdy
|
||||||
|
kiedy
|
||||||
|
kilka
|
||||||
|
kims
|
||||||
|
kimś
|
||||||
|
kto
|
||||||
|
ktokolwiek
|
||||||
|
ktora
|
||||||
|
ktore
|
||||||
|
ktorego
|
||||||
|
ktorej
|
||||||
|
ktory
|
||||||
|
ktorych
|
||||||
|
ktorym
|
||||||
|
ktorzy
|
||||||
|
ktos
|
||||||
|
ktoś
|
||||||
|
która
|
||||||
|
które
|
||||||
|
którego
|
||||||
|
której
|
||||||
|
który
|
||||||
|
których
|
||||||
|
którym
|
||||||
|
którzy
|
||||||
|
ku
|
||||||
|
lat
|
||||||
|
lecz
|
||||||
|
lub
|
||||||
|
ma
|
||||||
|
mają
|
||||||
|
mało
|
||||||
|
mam
|
||||||
|
mi
|
||||||
|
miedzy
|
||||||
|
między
|
||||||
|
mimo
|
||||||
|
mna
|
||||||
|
mną
|
||||||
|
mnie
|
||||||
|
moga
|
||||||
|
mogą
|
||||||
|
moi
|
||||||
|
moim
|
||||||
|
moj
|
||||||
|
moja
|
||||||
|
moje
|
||||||
|
moze
|
||||||
|
mozliwe
|
||||||
|
mozna
|
||||||
|
może
|
||||||
|
możliwe
|
||||||
|
można
|
||||||
|
mój
|
||||||
|
mu
|
||||||
|
musi
|
||||||
|
my
|
||||||
|
na
|
||||||
|
nad
|
||||||
|
nam
|
||||||
|
nami
|
||||||
|
nas
|
||||||
|
nasi
|
||||||
|
nasz
|
||||||
|
nasza
|
||||||
|
nasze
|
||||||
|
naszego
|
||||||
|
naszych
|
||||||
|
natomiast
|
||||||
|
natychmiast
|
||||||
|
nawet
|
||||||
|
nia
|
||||||
|
nią
|
||||||
|
nic
|
||||||
|
nich
|
||||||
|
nie
|
||||||
|
niech
|
||||||
|
niego
|
||||||
|
niej
|
||||||
|
niemu
|
||||||
|
nigdy
|
||||||
|
nim
|
||||||
|
nimi
|
||||||
|
niz
|
||||||
|
niż
|
||||||
|
no
|
||||||
|
o
|
||||||
|
obok
|
||||||
|
od
|
||||||
|
około
|
||||||
|
on
|
||||||
|
ona
|
||||||
|
one
|
||||||
|
oni
|
||||||
|
ono
|
||||||
|
oraz
|
||||||
|
oto
|
||||||
|
owszem
|
||||||
|
pan
|
||||||
|
pana
|
||||||
|
pani
|
||||||
|
po
|
||||||
|
pod
|
||||||
|
podczas
|
||||||
|
pomimo
|
||||||
|
ponad
|
||||||
|
poniewaz
|
||||||
|
ponieważ
|
||||||
|
powinien
|
||||||
|
powinna
|
||||||
|
powinni
|
||||||
|
powinno
|
||||||
|
poza
|
||||||
|
prawie
|
||||||
|
przeciez
|
||||||
|
przecież
|
||||||
|
przed
|
||||||
|
przede
|
||||||
|
przedtem
|
||||||
|
przez
|
||||||
|
przy
|
||||||
|
roku
|
||||||
|
rowniez
|
||||||
|
również
|
||||||
|
sam
|
||||||
|
sama
|
||||||
|
są
|
||||||
|
sie
|
||||||
|
się
|
||||||
|
skad
|
||||||
|
skąd
|
||||||
|
soba
|
||||||
|
sobą
|
||||||
|
sobie
|
||||||
|
sposob
|
||||||
|
sposób
|
||||||
|
swoje
|
||||||
|
ta
|
||||||
|
tak
|
||||||
|
taka
|
||||||
|
taki
|
||||||
|
takie
|
||||||
|
takze
|
||||||
|
także
|
||||||
|
tam
|
||||||
|
te
|
||||||
|
tego
|
||||||
|
tej
|
||||||
|
ten
|
||||||
|
teraz
|
||||||
|
też
|
||||||
|
to
|
||||||
|
toba
|
||||||
|
tobą
|
||||||
|
tobie
|
||||||
|
totez
|
||||||
|
toteż
|
||||||
|
totobą
|
||||||
|
trzeba
|
||||||
|
tu
|
||||||
|
tutaj
|
||||||
|
twoi
|
||||||
|
twoim
|
||||||
|
twoj
|
||||||
|
twoja
|
||||||
|
twoje
|
||||||
|
twój
|
||||||
|
twym
|
||||||
|
ty
|
||||||
|
tych
|
||||||
|
tylko
|
||||||
|
tym
|
||||||
|
u
|
||||||
|
w
|
||||||
|
wam
|
||||||
|
wami
|
||||||
|
was
|
||||||
|
wasz
|
||||||
|
wasza
|
||||||
|
wasze
|
||||||
|
we
|
||||||
|
według
|
||||||
|
wiele
|
||||||
|
wielu
|
||||||
|
więc
|
||||||
|
więcej
|
||||||
|
wlasnie
|
||||||
|
właśnie
|
||||||
|
wszyscy
|
||||||
|
wszystkich
|
||||||
|
wszystkie
|
||||||
|
wszystkim
|
||||||
|
wszystko
|
||||||
|
wtedy
|
||||||
|
wy
|
||||||
|
z
|
||||||
|
za
|
||||||
|
zaden
|
||||||
|
zadna
|
||||||
|
zadne
|
||||||
|
zadnych
|
||||||
|
zapewne
|
||||||
|
zawsze
|
||||||
|
ze
|
||||||
|
zeby
|
||||||
|
zeznowu
|
||||||
|
zł
|
||||||
|
znow
|
||||||
|
znowu
|
||||||
|
znów
|
||||||
|
zostal
|
||||||
|
został
|
||||||
|
żaden
|
||||||
|
żadna
|
||||||
|
żadne
|
||||||
|
żadnych
|
||||||
|
że
|
||||||
|
żeby
|
5447
test-A/out.tsv
Normal file
5447
test-A/out.tsv
Normal file
File diff suppressed because it is too large
Load Diff
98132
train/train.tsv
Normal file
98132
train/train.tsv
Normal file
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue
Block a user