diff --git a/evaluate/Instruction.md b/evaluate/Instruction.md new file mode 100644 index 0000000..de371bf --- /dev/null +++ b/evaluate/Instruction.md @@ -0,0 +1,36 @@ +# Instrukcja + +Wykorzystaj przygotowany klasyfikator do sklasyfikowania danych wejściowych z **in.tsv** (z preprocessingiem) lub **raw.tsv** (bez preporcessingu). Następnie zapisz wyniki do **predicted.tsv** pamiętając o tym, że kolejność ma znaczenie. Następnie uruchom **evaluate.ipynb** i sprawdź wynik. + +Do stworzenia własnego preprocessignu zmodyfikuj **preprocess.ipynb**, ale **nie pushuj** zmodyfikowanego notebooka. + +## Klasy + +#### Klasy = ['request', 'inform', 'bye', 'reqmore', 'help', 'ack', 'affirm', 'hello', 'thankyou', 'null'] +Musisz wykorzystywać takie same nazwy klas, podanie **'request()'** dla **'request'** zostanie uznane za błąd. + +Jeśli jedna wypowiedź miała dwie etykiety (np. hello & request) dane został zapisane dwukrotnie z różnymi etykietami. +|in.tsv|evaluate.tsv| +|---|---| +| Oki, to będzie tyle | ack | +| Oki, to będzie tyle | inform | +Tak, uzysaknie 100% dokładności może być niemożliwe. + +## Opis plików .ipynb + +#### evaluate.ipynb +Zwraca wynik klasyfikacji porównując **predicted.tsv** do **evaluate.tsv**. + +#### preprocess.ipynb +Preprocessuje dane wejściowe. Pozwala zobaczyć jak działa preprocessing i pozwala na zrobienie własnego preporcessingu. Odkomentowanie ostatniej komórki nadpisze **in.tsv**. + +## Opis plików .tsv + +#### in.tsv +Dane wejściowe z preprocessingiem, domyślne wejście. +#### raw.tsv +Dane wejściowe bez prerocessingu, skorzystaj z tego jeśli chcesz zastosować własny preprocessing. +#### predicted.tsv +W tym pliku zapisz swoje predykcje dla danych z **in.tsv** lub **raw.tsv** +#### evaluate.tsv +Ten plik zawiera zaadnotowane etykiety aktów dla wypowiedzi z **in.tsv**/**raw.tsv**. **Nie zmieniaj tego pliku.** Przy wykorzystani tego pliku do uczenia maszynowego nie używaj **evaluate.ipynb** do oceny modelu, zamiast tego podziel dane na treningowe, walidacyjne i testowe. Ewaluuj model na części danych nie wykorzystanych podczas treningu (na testowych, jeśli wykorzystujesz do treningu dane treningowe i walidacyjne). Pamiętaj, żeby przed podziałem zbioru wymieszać kolejność. \ No newline at end of file