This commit is contained in:
Dominik Jagosz 2024-05-17 21:36:24 +02:00
parent 8202edc3ba
commit c8d7e1452c
15 changed files with 109171 additions and 2 deletions

3
.idea/.gitignore vendored Normal file
View File

@ -0,0 +1,3 @@
# Default ignored files
/shelf/
/workspace.xml

View File

@ -0,0 +1,24 @@
<component name="InspectionProjectProfileManager">
<profile version="1.0">
<option name="myName" value="Project Default" />
<inspection_tool class="PyPep8NamingInspection" enabled="true" level="WEAK WARNING" enabled_by_default="true">
<option name="ignoredErrors">
<list>
<option value="N802" />
</list>
</option>
</inspection_tool>
<inspection_tool class="PyUnresolvedReferencesInspection" enabled="true" level="WARNING" enabled_by_default="true">
<option name="ignoredIdentifiers">
<list>
<option value="main.PRAWO" />
</list>
</option>
</inspection_tool>
<inspection_tool class="SpellCheckingInspection" enabled="false" level="TYPO" enabled_by_default="false">
<option name="processCode" value="true" />
<option name="processLiterals" value="true" />
<option name="processComments" value="true" />
</inspection_tool>
</profile>
</component>

View File

@ -0,0 +1,6 @@
<component name="InspectionProjectProfileManager">
<settings>
<option name="USE_PROJECT_PROFILE" value="false" />
<version value="1.0" />
</settings>
</component>

4
.idea/misc.xml Normal file
View File

@ -0,0 +1,4 @@
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectRootManager" version="2" project-jdk-name="Python 3.10 (sport-text-classification-ball-isi-public)" project-jdk-type="Python SDK" />
</project>

8
.idea/modules.xml Normal file
View File

@ -0,0 +1,8 @@
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectModuleManager">
<modules>
<module fileurl="file://$PROJECT_DIR$/.idea/sport-text-classification-ball-isi-public.iml" filepath="$PROJECT_DIR$/.idea/sport-text-classification-ball-isi-public.iml" />
</modules>
</component>
</project>

View File

@ -0,0 +1,10 @@
<?xml version="1.0" encoding="UTF-8"?>
<module type="PYTHON_MODULE" version="4">
<component name="NewModuleRootManager">
<content url="file://$MODULE_DIR$">
<excludeFolder url="file://$MODULE_DIR$/venv" />
</content>
<orderEntry type="inheritedJdk" />
<orderEntry type="sourceFolder" forTests="false" />
</component>
</module>

90
mian.py Normal file
View File

@ -0,0 +1,90 @@
import csv
import nltk
import pandas as pd
from sklearn.neural_network import MLPClassifier
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec
nltk.download('punkt')
# w pliku train.tsv w kolumnach 25706, 58881, 73761 trzeba zamienic w tekscie tabulator na 4 spacje
train = pd.read_csv('train/train.tsv', sep='\t')
train.columns = ["y", "x"]
print(train["y"][0], train["x"][0])
# https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/
slowa = []
for tekst in train["x"]:
pom = []
for slowo in word_tokenize(tekst):
pom.append(slowo.lower())
slowa.append(pom)
print(slowa[0])
# https://radimrehurek.com/gensim/models/word2vec.html
model = Word2Vec(sentences=slowa, vector_size=100, window=5, min_count=1, workers=4)
model.save("word2vec.model")
wektor = model.wv['przyjmujący']
print(wektor)
podobne = model.wv.most_similar('przyjmujący', topn=5)
print(podobne)
teksty = []
for tekst in train["x"]:
pom = None
for slowo in word_tokenize(tekst):
wektor = model.wv[slowo.lower()]
if pom is None:
pom = wektor
else:
pom = pom + wektor
teksty.append(wektor)
print(teksty[0])
X = teksty
y = train["y"]
clf = MLPClassifier() # activation="tanh"
clf.fit(X, y)
# w pliku in.tsv w kolumnach 1983, 5199 trzeba zamienic w tekscie tabulator na 4 spacje
test = pd.read_csv('test-A/in.tsv', sep='\t')
test.columns = ["x"]
print(test["x"][0])
# https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/
slowa = []
for tekst in test["x"]:
pom = []
for slowo in word_tokenize(tekst):
pom.append(slowo.lower())
slowa.append(pom)
print(slowa[0])
teksty = []
for tekst in test["x"]:
pom = None
for slowo in word_tokenize(tekst):
wektor = None
try:
wektor = model.wv[slowo.lower()]
except KeyError:
pass
if wektor is not None:
if pom is None:
pom = wektor
else:
pom = pom + wektor
teksty.append(wektor)
print(teksty[0])
przewidywania = clf.predict(teksty)
print(przewidywania)
with open("test-A/out.tsv", "w", encoding="utf-8") as uwu:
for p in przewidywania:
uwu.write(str(p)+"\n")

View File

@ -1980,7 +1980,7 @@ Piotrcovia rozpoczęła od dwóch wygranych Szczypiornistki Piotrcovii odniosły
Primera Division: sześć goli Realu Madryt. Był efektowny i bezlitosny dla Celty Vigo Real Madryt odniósł zwycięstwo 6:0 z Celtą Vigo w przedostatniej kolejce Primera Division. Pomimo nieobecności Cristiano Ronaldo finalista Ligi Mistrzów poradził sobie bez problemu z przeciwnikiem.
Akcja ratunkowa pod Nanga Parbat zakończona. Wielicki: Ratownicy są w Skardu Uratowali Elisabeth Revol, nie udało się pomóc Tomaszowi Mackiewiczowi. Wiemy już, że polscy himalaiści, którzy dokonali niebywałego wyczynu w ostatnich dniach, wrócili już do bazy pod K2.
Symbol Stali odchodzi. Michał Chodara pożegna się z Mielcem Dobiegła końca ośmioletnia przygoda Michała Chodary ze Stalą Mielec. Były reprezentant Polski nie zagra w zespole w sezonie 2018/2019.
Charles Leclerc odrzuca pochwały. "Staram się ich nie słuchać" Od początku sezonu wielu ekspertów chwali jazdę Charlesa Leclerca. Młody \ Monakijczyk spokojnie podchodzi do takich opinii. - Staram się ich nie słuchać - twierdzi kierowca Alfa Romeo Sauber.
Charles Leclerc odrzuca pochwały. "Staram się ich nie słuchać" Od początku sezonu wielu ekspertów chwali jazdę Charlesa Leclerca. Młody \ Monakijczyk spokojnie podchodzi do takich opinii. - Staram się ich nie słuchać - twierdzi kierowca Alfa Romeo Sauber.
US Open: Stan Wawrinka rywalem Juana Martina del Potro. Kei Nishikori lepszy od Ivo Karlovicia Stan Wawrinka pokonał Ilję Marczenkę 6:4, 6:1, 6:7(5), 6:3 i w środowym ćwierćfinale US Open 2016 spotka się z Juanem Martinem del Potro. W 1/4 finału znalazł się także Kei Nishikori, który zwyciężył Ivo Karlovicia 6:3, 6:4, 7:6(4).
Amerykanin wyrzucony z zespołu ze skutkiem natychmiastowym. Powodem niesportowe zachowanie Trident Motorsport ze skutkiem natychmiastowym zakończył współpracę z Santino Ferruccim. O młodym kierowcy zrobiło się głośno, gdy podczas ostatniego wyścigu Formuły 2 celowo wjechał w kolegę z zespołu i wyeliminował go z rywalizacji.
Kolejne osłabienie PSG? Kylian Mbappe ma problem z kostką Kylian Mbappe narzeka na uraz kostki w prawej nodze. Przypomnijmy, iż wcześniej kontuzji doznał Neymar, który na pewno nie zagra z Realem Madryt.
@ -5196,7 +5196,7 @@ Mercedes wściekły po porażce w Australii. "Pokonały nas nowe opony" Broniąc
Ostrovia - MTS. Jednostronny mecz w Ostrowie. MTS rozbity w kwadrans Pogrom w Ostrowie Wielkopolskim. Prowadzona przez Krzysztofa Przybylskiego Ostrovia w sobotnim spotkaniu 2. kolejki I ligi mężczyzn gr. B pewnie pokonała MTS Chrzanów 39:32 (22:13). Mecz rozstrzygnięty był już po kwadransie.
MŚ 2017 kobiet: półfinał nie dla Czeszek. Holandia gra dalej Waleczne Czeszki za burtą Mistrzostw Świata 2017 piłkarek ręcznych. Holandia wytrzymała wojnę nerwów (30:26) i zawalczy o przepustkę do gry o złoto ze zwycięzcą pary Norwegia - Rosja.
Liga Mistrzów: porażka w Paryżu. PGE VIVE odpadło z rozgrywek Szczypiorniści PGE VIVE ponieśli drugą porażkę w ćwierćfinale Ligi Mistrzów i nie awansowali do najlepszej czwórki rozgrywek. Kielczanie we Francji przegrali z Paris Saint-Germain HB 32:35.
PGE Skra Bełchatów najlepsza w Gostycynie. Kontuzja przyjmującego Trefla Gdańsk Siatkarze PGE Skry Bełchatów zwyciężyli w turnieju towarzyskim rozgrywanym w Gostycynie. Podopieczni Roberto Piazzy w finale zmagań okazali się lepsi od niemieckiego\ Netzhoppers KW zwyciężając po tie-breaku.
PGE Skra Bełchatów najlepsza w Gostycynie. Kontuzja przyjmującego Trefla Gdańsk Siatkarze PGE Skry Bełchatów zwyciężyli w turnieju towarzyskim rozgrywanym w Gostycynie. Podopieczni Roberto Piazzy w finale zmagań okazali się lepsi od niemieckiego\ Netzhoppers KW zwyciężając po tie-breaku.
Serie A: Cucine Lube pójdzie za ciosem? Drugi mecz wielkiego finału Lega Pallavolo. Tym razem w Trydencie Po bolesnej porażce 0:3 w pierwszym meczu finału Lega Pallavolo, Diatec stoi pod ścianą. Jeśli w najbliższy czwartek znów przegra z Cucine Lube, szanse na scudetto będzie miał już tylko iluzoryczne. Na żywo od 20.30 w Sportklubie.
IHF Super Globe: FC Barcelona Kamila Syprzaka w finale! Zwycięzca Ligi Mistrzów za burtą FC Barcelona z Kamilem Syprzakiem w składzie zagra w finale nieoficjalnych Klubowych Mistrzostw Świata. Hiszpanie pokonali Vardar Skopje 32:29 (15:12). W drugim półfinale obrońca trofeum - Fuesche Berlin zagra z gospodarzem turnieju Al Saad.
Maciej Kot o upadku Richarda Freitaga. "Według mnie to była jego wina" - Według mnie była to wina skoczka - mówi Maciej Kot o poważnym upadku Richarda Freitaga w 1. serii konkursu w Innsbrucku. Polski skoczek tłumaczy, jaki błąd popełnił jego niemiecki kolega i dodaje, że ściska za niego kciuki.

Can't render this file because it is too large.

5446
test-A/out.csv Normal file

File diff suppressed because it is too large Load Diff

5446
test-A/out.tsv Normal file

File diff suppressed because it is too large Load Diff

98132
train/train.tsv Normal file

File diff suppressed because it is too large Load Diff

Binary file not shown.

BIN
word2vec.model Normal file

Binary file not shown.

BIN
word2vec.model.syn1neg.npy Normal file

Binary file not shown.

Binary file not shown.