Upload files to "/"

2024-05-28 00:07:12 +02:00 · 2024-05-28 00:07:12 +02:00 · 3f52da0cc9
commit 3f52da0cc9
parent 5c00b91197
1 changed files with 150 additions and 0 deletions
--- a/copy.py
+++ b/copy.py
@ -0,0 +1,150 @@
+import nltk
+import pandas as pd
+from sklearn.neural_network import MLPClassifier
+from nltk.tokenize import word_tokenize
+from gensim.models import Word2Vec
+import numpy as np
+nltk.download('punkt')
+
+# w pliku train.tsv w kolumnach 25706, 58881, 73761 trzeba zamienic w tekscie tabulator na 4 spacje
+train = pd.read_csv('train/train.tsv', sep='\t', names=['y', 'x'], header=None)
+print(train["y"][0], train["x"][0])
+
+# https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/
+slowa_train = []
+for tekst in train["x"]:
+    pom = []
+    for slowo in word_tokenize(tekst):
+        pom.append(slowo.lower())
+    slowa_train.append(pom)
+print(slowa_train[0])
+
+# https://radimrehurek.com/gensim/models/word2vec.html
+model = Word2Vec(sentences=slowa_train, vector_size=100, window=5, min_count=1, workers=4)
+model.save("word2vec.model")
+
+wektor = model.wv['przyjmujący']
+print(wektor)
+
+podobne = model.wv.most_similar('przyjmujący', topn=5)
+print(podobne)
+
+teksty = []
+for tekst in train["x"]:
+    pom = None
+    for slowo in word_tokenize(tekst):
+        wektor = model.wv[slowo.lower()]
+        if pom is None:
+            pom = wektor
+        else:
+            pom = np.concatenate((pom,wektor))
+    teksty.append(pom)
+print(teksty[0].shape)
+#print(teksty[0])
+
+liczba_wejscia = 1000#0
+
+poprawione_teksty = []
+for wektor in teksty:
+    if len(wektor)>liczba_wejscia:
+        poprawione_teksty.append(wektor[:liczba_wejscia])
+    else:
+        poprawione_teksty.append(np.pad(wektor,(0,liczba_wejscia-len(wektor)), mode='constant', constant_values=0))
+print(poprawione_teksty[0].shape)
+#print(poprawione_teksty[0])
+
+print(train["y"].to_numpy())
+
+X = poprawione_teksty
+y = train["y"].to_numpy()
+
+clf = MLPClassifier()   # activation="tanh"
+clf.fit(X, y)
+
+# w pliku in.tsv w kolumnach 1983, 5199 trzeba zamienic w tekscie tabulator na 4 spacje
+dev_in = pd.read_csv('dev-0/in.tsv', sep='\t', names=['x'], header=None)
+print(dev_in["x"][0])
+
+dev_expected = pd.read_csv('dev-0/expected.tsv', sep='\t', names=['y'], header=None)
+print(dev_expected["y"][0])
+
+teksty_dev= []
+for tekst in dev_in["x"]:
+    pom = None
+    for slowo in word_tokenize(tekst):
+        wektor = None
+        try:
+            wektor = model.wv[slowo.lower()]
+        except KeyError:
+            pass
+        if wektor is not None:
+            if pom is None:
+                pom = wektor
+            else:
+                pom = np.concatenate((pom,wektor))
+    teksty_dev.append(pom)
+print(teksty_dev[0].shape)
+#print(teksty_dev[0])
+
+poprawione_teksty_dev = []
+for wektor in teksty_dev:
+    if len(wektor)>liczba_wejscia:
+        poprawione_teksty_dev.append(wektor[:liczba_wejscia])
+    else:
+        poprawione_teksty_dev.append(np.pad(wektor,(0,liczba_wejscia-len(wektor)), mode='constant', constant_values=0))
+print(poprawione_teksty_dev[0].shape)
+#print(poprawione_teksty_dev[0])
+
+przewidywania_dev = clf.predict(poprawione_teksty_dev)
+print(przewidywania_dev)
+
+with open("dev-0/out.tsv", "w", encoding="utf-8") as uwu:
+    for p in przewidywania_dev:
+        uwu.write(str(p)+"\n")
+
+mianownik = 0
+licznik=0
+for e,o in zip(dev_expected["y"].to_list(),przewidywania_dev):
+    mianownik +=1
+    if e==o:
+        licznik +=1
+print(licznik,"/",mianownik,licznik/mianownik)
+
+
+# w pliku in.tsv w kolumnach 1983, 5199 trzeba zamienic w tekscie tabulator na 4 spacje
+test = pd.read_csv('test-A/in.tsv', sep='\t', names=['x'], header=None)
+print(test["x"][0])
+
+teksty_test = []
+for tekst in test["x"]:
+    pom = None
+    for slowo in word_tokenize(tekst):
+        wektor = None
+        try:
+            wektor = model.wv[slowo.lower()]
+        except KeyError:
+            pass
+        if wektor is not None:
+            if pom is None:
+                pom = wektor
+            else:
+                pom = np.concatenate((pom,wektor))
+    teksty_test.append(pom)
+print(teksty_test[0].shape)
+#print(teksty_test[0])
+
+poprawione_teksty_test = []
+for wektor in teksty_test:
+    if len(wektor)>liczba_wejscia:
+        poprawione_teksty_test.append(wektor[:liczba_wejscia])
+    else:
+        poprawione_teksty_test.append(np.pad(wektor,(0,liczba_wejscia-len(wektor)), mode='constant', constant_values=0))
+print(poprawione_teksty_test[0].shape)
+print(poprawione_teksty_test[0])
+
+przewidywania = clf.predict(poprawione_teksty_test)
+print(przewidywania)
+
+with open("test-A/out.tsv", "w", encoding="utf-8") as uwu:
+    for p in przewidywania:
+        uwu.write(str(p)+"\n")