Systemy_dialogowe/evaluate/Instruction.md

# Instrukcja

Wykorzystaj przygotowany klasyfikator do sklasyfikowania danych wejściowych z **in.tsv** (z preprocessingiem) lub **raw.tsv** (bez preporcessingu). Następnie zapisz wyniki do **predicted.tsv** pamiętając o tym, że kolejność ma znaczenie. Następnie uruchom **evaluate.ipynb** i sprawdź wynik.

Do stworzenia własnego preprocessignu zmodyfikuj **preprocess.ipynb**, ale **nie pushuj** zmodyfikowanego notebooka.

## Klasy

#### Klasy = ['request', 'inform', 'bye', 'reqmore', 'help', 'ack', 'affirm', 'hello', 'thankyou', 'null']
Musisz wykorzystywać takie same nazwy klas, podanie **'request()'** dla **'request'** zostanie uznane za błąd.

Jeśli jedna wypowiedź miała dwie etykiety (np. hello & request) dane został zapisane dwukrotnie z różnymi etykietami.

in.tsv|evaluate.tsv
---|---
Oki, to będzie tyle | ack 
Oki, to będzie tyle | inform 


Tak, uzysaknie 100% dokładności może być niemożliwe.

## Opis plików .ipynb

#### evaluate.ipynb
Zwraca wynik klasyfikacji porównując **predicted.tsv** do **evaluate.tsv**.

#### preprocess.ipynb
Preprocessuje dane wejściowe. Pozwala zobaczyć jak działa preprocessing i pozwala na zrobienie własnego preporcessingu. Odkomentowanie ostatniej komórki nadpisze **in.tsv**.

## Opis plików .tsv

#### in.tsv
Dane wejściowe z preprocessingiem, domyślne wejście.
#### raw.tsv
Dane wejściowe bez prerocessingu, skorzystaj z tego jeśli chcesz zastosować własny preprocessing.
#### predicted.tsv
W tym pliku zapisz swoje predykcje dla danych z **in.tsv** lub **raw.tsv**
#### evaluate.tsv
Ten plik zawiera zaadnotowane etykiety aktów dla wypowiedzi z  **in.tsv**/**raw.tsv**. **Nie zmieniaj tego pliku.** Przy wykorzystani tego pliku do uczenia maszynowego nie używaj **evaluate.ipynb** do oceny modelu, zamiast tego podziel dane na treningowe, walidacyjne i testowe. Ewaluuj model na części danych nie wykorzystanych podczas treningu (na testowych, jeśli wykorzystujesz do treningu dane treningowe i walidacyjne). Pamiętaj, żeby przed podziałem zbioru wymieszać kolejność.
Add instruction.md 2022-04-26 18:34:24 +02:00			`# Instrukcja`

			`Wykorzystaj przygotowany klasyfikator do sklasyfikowania danych wejściowych z in.tsv (z preprocessingiem) lub raw.tsv (bez preporcessingu). Następnie zapisz wyniki do predicted.tsv pamiętając o tym, że kolejność ma znaczenie. Następnie uruchom evaluate.ipynb i sprawdź wynik.`

			`Do stworzenia własnego preprocessignu zmodyfikuj preprocess.ipynb, ale nie pushuj zmodyfikowanego notebooka.`

			`## Klasy`

			`#### Klasy = ['request', 'inform', 'bye', 'reqmore', 'help', 'ack', 'affirm', 'hello', 'thankyou', 'null']`
			`Musisz wykorzystywać takie same nazwy klas, podanie 'request()' dla 'request' zostanie uznane za błąd.`

			`Jeśli jedna wypowiedź miała dwie etykiety (np. hello & request) dane został zapisane dwukrotnie z różnymi etykietami.`
Fix instruction.md 2022-04-26 18:35:33 +02:00
			`in.tsv\|evaluate.tsv`
			`---\|---`
			`Oki, to będzie tyle \| ack`
			`Oki, to będzie tyle \| inform`


Add instruction.md 2022-04-26 18:34:24 +02:00			`Tak, uzysaknie 100% dokładności może być niemożliwe.`

			`## Opis plików .ipynb`

			`#### evaluate.ipynb`
			`Zwraca wynik klasyfikacji porównując predicted.tsv do evaluate.tsv.`

			`#### preprocess.ipynb`
			`Preprocessuje dane wejściowe. Pozwala zobaczyć jak działa preprocessing i pozwala na zrobienie własnego preporcessingu. Odkomentowanie ostatniej komórki nadpisze in.tsv.`

			`## Opis plików .tsv`

			`#### in.tsv`
			`Dane wejściowe z preprocessingiem, domyślne wejście.`
			`#### raw.tsv`
			`Dane wejściowe bez prerocessingu, skorzystaj z tego jeśli chcesz zastosować własny preprocessing.`
			`#### predicted.tsv`
			`W tym pliku zapisz swoje predykcje dla danych z in.tsv lub raw.tsv`
			`#### evaluate.tsv`
			`Ten plik zawiera zaadnotowane etykiety aktów dla wypowiedzi z in.tsv/raw.tsv. Nie zmieniaj tego pliku. Przy wykorzystani tego pliku do uczenia maszynowego nie używaj evaluate.ipynb do oceny modelu, zamiast tego podziel dane na treningowe, walidacyjne i testowe. Ewaluuj model na części danych nie wykorzystanych podczas treningu (na testowych, jeśli wykorzystujesz do treningu dane treningowe i walidacyjne). Pamiętaj, żeby przed podziałem zbioru wymieszać kolejność.`