SystemyDialogowe/evaluation.md

# Ewaluacja - asystent kalendarza spotkań

## Ankieta zadowolenia użytkownika:
https://forms.office.com/r/L16YGV6MLz

Ankieta zadowolenia użytkownika poruszała kilka kwestii, takich jak:
* główne zadanie, jakie użytkownik chciał zrealizować przy pomocy systemu
* czy udało się powyższe zadanie w pełni przy pomocy systemu zrealizować
* łatwość realizacji tego zadania w skali 1-5
* zrozumiałość wypowiedzi użytkownika dla systemu w skali 1-5
* zrozumiałość wypowiedzi systemu w skali 1-5
* jak bardzo system reagował zgodnie z oczekiwaniami użytkownika w skali 1-5
* odpowiedniość tempa interakcji w skali 1-5
* czy użytkownik wiedział co odpowiedzieć na każdym etapie dialogu w skali 1-5
* czy błąd krytyczny systemu zakończył rozmowę
* 2 pytania opisowe, co wg. użytkownika działa w systemie najlepiej i najgorzej
* czy użytkownik zamierza używać systemu w przyszłości w skali 1-5
* ogólna ocena systemu w skali 1-5
<!-- end of the list -->
Udało się zebrać odpowiedzi dotyczące 10 przeprowadzonych rozmów.

### Pytanie 1: Główne zadanie użytkownika.
* 8 użytkowników wskazało jako główny cel <b>umówienie spotkania</b>
* 1 użytkownik chciał sprawdzić <b>listę spotkań</b>
* 1 użytkownik chciał <b>odwołać spotkanie</b>

### Pytanie 2: Czy udało się zrealizować główne zadanie?
* 7 użytkowników odpowiedziało <b>tak</b>
* 3 użytkowników odpowiedziało <b>nie</b>
<!-- end of the list -->
Wszyscy użytkownicy, którym udało się zrealizować główne zadanie chcieli utworzyć spotkanie. Można więc wysnuć wniosek, że to element systemu, który działa najlepiej i jednocześnie najpopularniejszy wśród użytkowników. Co za tym idzie system można nazwać dość skutecznym, jednak nie radzi sobie w pełni ze wszystkimi planowanymi zadaniami.

### Pytanie 3: Łatwość realizacji zadania.
Średnia ocena tej metryki to 3.5/5 <br>
Najczęstsze oceny to <b>4 - co oznacza łatwą realizację zadania</b> (5 użytkowników) oraz <b>3 - umiarkowanie</b> (3 użytkowników). <br>
Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.

### Pytanie 4: Jak system rozumiał wypowiedzi użytkownika?
Średnia ocena tej metryki to 3.5/5 <br>
Najczęstsze oceny to <b>4 - co oznacza zrozumienie większości wypowiedzi</b> (6 użytkowników) oraz <b>2 - zrozumienie niektórych wypowiedzi</b> (3 użytkowników). <br>
Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.

### Pytanie 5: Jak użytkownik rozumiał wypowiedzi systemu?
Średnia ocena tej metryki to 4.3/5 <br>
Najczęstsze oceny to <b>5 - użytkownik rozumiał w pełni wypowiedzi systemu</b> (5 użytkowników) oraz <b>4 - użytkownik rozumiał w większości wypowiedzi systemu</b> (4 użytkowników). <br>
Najniższa ocena (2) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.

### Pytanie 6: System robił to, co oczekiwał użytkownik.
Średnia ocena tej metryki to 3.6/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>3 - trudno powiedzieć</b> (2 użytkowników). <br>
Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.

### Pytanie 7: Tempo interakcji z systemem było odpowiednie.
Średnia ocena tej metryki to 4.1/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>
Najniższa ocena (3) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.

### Pytanie 8: Użytkownik wiedział co ma odpowiadać na każdym etapie dialogu.
Średnia ocena tej metryki to 3.9/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (6 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>
Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.

### Pytanie 9: Czy krytyczny błąd systemu przerwał rozmowę?
* 7 użytkowników odpowiedziało <b>tak</b>
* 3 użytkowników odpowiedziało <b>nie</b> 
<!-- end of the list -->
Najbardziej niepokojąca metryka w ankiecie. Aż 70% rozmów skończyło się krytycznym błędem systemu, jednak w większości przypadków nie wpłynęło to na realizację głównego zadania użytkownika. Z pewnością trzeba się skupić w przyszłości na wyeliminowaniu tych błędów.

### Pytanie 10: Co w systemie działało nagorzej (nieobowiązkowe pytanie opisowe)?
Najczęściej wskazywanymi mankamentami systemu były błędne przechwytywanie slotów, co często prowadziło do ponownego zadania tego samego pytania oraz nieoczekiwane zakończenie konwersacji błędem krytycznym. Aż 7 użytkowników zdecydowało się odpowiedzieć na to pytanie, co najprawdopodobniej oznacza, że system dalej posiada niewielkie błędy wpływające na jego jakość. 

### Pytanie 11: Co w systemie działało najlepiej (nieobowiązkowe pytanie opisowe)?
Tylko 3 użytkowników zdecydowało się odpowiedzieć na to pytanie, co może oznaczać, że większość z nich nie widziała w systemie bardzo dobrze działających elementów. <br>
Użytkownicy, którzy odpowiedzieli na to pytanie jako główną zaletę wskazali, że system realizuje pomyślnie podstawowy scenariusz, czyli tworzenie spotkania.

### Pytanie 12: Czy użytkownik zamierza używać systemu w przyszłości?
Średnia ocena tej metryki to 2.9/5 <br>
Najczęstsza ocena to <b>3 - trudno powiedzieć</b> (9 użytkowników). <br>
Większość użytkowników nie ma wyrobionego zdania na temat przydatności systemu. Może to oznaczać, że system nie przekonał użytkowników podczas testów lub nie zawiera wszystkich oczekiwanych funkcjonalności.

### Pytanie 13: Ogólna ocena systemu przez użytkownika.
Średnia ocena tej metryki to 3.9/5 <br>
Najczęstsza ocena to <b>4</b> (5 użytkowników). <br>
Ogólnie system wypada dość dobrze. Najniższe oceny dotyczyły rozmów, podczas których nie udało się zrealizować zadania oraz system zakończył niespodziewanie rozmowe przez błąd. Można więc wysnuć wniosek, że wyeliminowanie tych błędów i poprawa skuteczności podniosłaby ogólną ocenę systemu.

## Inne metryki ewaluacyjne.
### Task success rate:
System poprawnie zrealizował 9 zadań z 16 możliwych, co daje <b>56,25%</b> skuteczności. <br>
Tą skuteczność można uznać za dość dobrą, jednak na pewno trzeba by ją zwiększyć w toku dalszych prac nad systemem. <br>
Głownym elementem systemu, który powodował niepomyślną realizację zadań był moduł NLU (głównie błędne wyłapywanie wartości slotów) oraz moduł NLG (system nie generował odpowiedzi przy niektórych nieprzewidzianych scenariuszach).

### Slot error rate:
System poprawnie wyłapał 23 wartości slotu na 55 przypadków, co daje <b>41,81%</b> skuteczności. <br>
System przede wszystkim miał problem ze slotem <b>opis spotkania</b> oraz <b>uczestnik spotkania</b>. Dość sprawnie wyłapuje slot <b>data</b> oraz <b>godzina</b>.
evaluacja ankiety 2021-06-20 23:43:47 +02:00			`# Ewaluacja - asystent kalendarza spotkań`

			`## Ankieta zadowolenia użytkownika:`
			`https://forms.office.com/r/L16YGV6MLz`

			`Ankieta zadowolenia użytkownika poruszała kilka kwestii, takich jak:`
			`* główne zadanie, jakie użytkownik chciał zrealizować przy pomocy systemu`
			`* czy udało się powyższe zadanie w pełni przy pomocy systemu zrealizować`
			`* łatwość realizacji tego zadania w skali 1-5`
			`* zrozumiałość wypowiedzi użytkownika dla systemu w skali 1-5`
			`* zrozumiałość wypowiedzi systemu w skali 1-5`
			`* jak bardzo system reagował zgodnie z oczekiwaniami użytkownika w skali 1-5`
			`* odpowiedniość tempa interakcji w skali 1-5`
			`* czy użytkownik wiedział co odpowiedzieć na każdym etapie dialogu w skali 1-5`
			`* czy błąd krytyczny systemu zakończył rozmowę`
			`* 2 pytania opisowe, co wg. użytkownika działa w systemie najlepiej i najgorzej`
			`* czy użytkownik zamierza używać systemu w przyszłości w skali 1-5`
			`* ogólna ocena systemu w skali 1-5`
small md fix 2021-06-20 23:49:39 +02:00			`<!-- end of the list -->`
			`Udało się zebrać odpowiedzi dotyczące 10 przeprowadzonych rozmów.`
evaluacja ankiety 2021-06-20 23:43:47 +02:00
			`### Pytanie 1: Główne zadanie użytkownika.`
			`* 8 użytkowników wskazało jako główny cel <b>umówienie spotkania</b>`
			`* 1 użytkownik chciał sprawdzić <b>listę spotkań</b>`
			`* 1 użytkownik chciał <b>odwołać spotkanie</b>`

			`### Pytanie 2: Czy udało się zrealizować główne zadanie?`
			`* 7 użytkowników odpowiedziało <b>tak</b>`
			`* 3 użytkowników odpowiedziało <b>nie</b>`
small md fix 2021-06-20 23:49:39 +02:00			`<!-- end of the list -->`
			`Wszyscy użytkownicy, którym udało się zrealizować główne zadanie chcieli utworzyć spotkanie. Można więc wysnuć wniosek, że to element systemu, który działa najlepiej i jednocześnie najpopularniejszy wśród użytkowników. Co za tym idzie system można nazwać dość skutecznym, jednak nie radzi sobie w pełni ze wszystkimi planowanymi zadaniami.`
evaluacja ankiety 2021-06-20 23:43:47 +02:00
			`### Pytanie 3: Łatwość realizacji zadania.`
			`Średnia ocena tej metryki to 3.5/5 <br>`
			`Najczęstsze oceny to <b>4 - co oznacza łatwą realizację zadania</b> (5 użytkowników) oraz <b>3 - umiarkowanie</b> (3 użytkowników). <br>`
			`Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 4: Jak system rozumiał wypowiedzi użytkownika?`
			`Średnia ocena tej metryki to 3.5/5 <br>`
			`Najczęstsze oceny to <b>4 - co oznacza zrozumienie większości wypowiedzi</b> (6 użytkowników) oraz <b>2 - zrozumienie niektórych wypowiedzi</b> (3 użytkowników). <br>`
			`Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 5: Jak użytkownik rozumiał wypowiedzi systemu?`
			`Średnia ocena tej metryki to 4.3/5 <br>`
			`Najczęstsze oceny to <b>5 - użytkownik rozumiał w pełni wypowiedzi systemu</b> (5 użytkowników) oraz <b>4 - użytkownik rozumiał w większości wypowiedzi systemu</b> (4 użytkowników). <br>`
			`Najniższa ocena (2) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 6: System robił to, co oczekiwał użytkownik.`
			`Średnia ocena tej metryki to 3.6/5 <br>`
			`Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>3 - trudno powiedzieć</b> (2 użytkowników). <br>`
			`Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 7: Tempo interakcji z systemem było odpowiednie.`
			`Średnia ocena tej metryki to 4.1/5 <br>`
			`Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>`
			`Najniższa ocena (3) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 8: Użytkownik wiedział co ma odpowiadać na każdym etapie dialogu.`
			`Średnia ocena tej metryki to 3.9/5 <br>`
			`Najczęstsze oceny to <b>4 - zgadzam się</b> (6 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>`
			`Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.`

			`### Pytanie 9: Czy krytyczny błąd systemu przerwał rozmowę?`
			`* 7 użytkowników odpowiedziało <b>tak</b>`
small md fix 2021-06-20 23:49:39 +02:00			`* 3 użytkowników odpowiedziało <b>nie</b>`
			`<!-- end of the list -->`
final eval report 2021-06-21 09:56:59 +02:00			`Najbardziej niepokojąca metryka w ankiecie. Aż 70% rozmów skończyło się krytycznym błędem systemu, jednak w większości przypadków nie wpłynęło to na realizację głównego zadania użytkownika. Z pewnością trzeba się skupić w przyszłości na wyeliminowaniu tych błędów.`
evaluacja ankiety 2021-06-20 23:43:47 +02:00
			`### Pytanie 10: Co w systemie działało nagorzej (nieobowiązkowe pytanie opisowe)?`
			`Najczęściej wskazywanymi mankamentami systemu były błędne przechwytywanie slotów, co często prowadziło do ponownego zadania tego samego pytania oraz nieoczekiwane zakończenie konwersacji błędem krytycznym. Aż 7 użytkowników zdecydowało się odpowiedzieć na to pytanie, co najprawdopodobniej oznacza, że system dalej posiada niewielkie błędy wpływające na jego jakość.`

			`### Pytanie 11: Co w systemie działało najlepiej (nieobowiązkowe pytanie opisowe)?`
			`Tylko 3 użytkowników zdecydowało się odpowiedzieć na to pytanie, co może oznaczać, że większość z nich nie widziała w systemie bardzo dobrze działających elementów. <br>`
			`Użytkownicy, którzy odpowiedzieli na to pytanie jako główną zaletę wskazali, że system realizuje pomyślnie podstawowy scenariusz, czyli tworzenie spotkania.`

			`### Pytanie 12: Czy użytkownik zamierza używać systemu w przyszłości?`
			`Średnia ocena tej metryki to 2.9/5 <br>`
			`Najczęstsza ocena to <b>3 - trudno powiedzieć</b> (9 użytkowników). <br>`
			`Większość użytkowników nie ma wyrobionego zdania na temat przydatności systemu. Może to oznaczać, że system nie przekonał użytkowników podczas testów lub nie zawiera wszystkich oczekiwanych funkcjonalności.`

			`### Pytanie 13: Ogólna ocena systemu przez użytkownika.`
			`Średnia ocena tej metryki to 3.9/5 <br>`
			`Najczęstsza ocena to <b>4</b> (5 użytkowników). <br>`
final eval report 2021-06-21 09:56:59 +02:00			`Ogólnie system wypada dość dobrze. Najniższe oceny dotyczyły rozmów, podczas których nie udało się zrealizować zadania oraz system zakończył niespodziewanie rozmowe przez błąd. Można więc wysnuć wniosek, że wyeliminowanie tych błędów i poprawa skuteczności podniosłaby ogólną ocenę systemu.`

			`## Inne metryki ewaluacyjne.`
			`### Task success rate:`
			`System poprawnie zrealizował 9 zadań z 16 możliwych, co daje <b>56,25%</b> skuteczności. <br>`
			`Tą skuteczność można uznać za dość dobrą, jednak na pewno trzeba by ją zwiększyć w toku dalszych prac nad systemem. <br>`
			`Głownym elementem systemu, który powodował niepomyślną realizację zadań był moduł NLU (głównie błędne wyłapywanie wartości slotów) oraz moduł NLG (system nie generował odpowiedzi przy niektórych nieprzewidzianych scenariuszach).`

			`### Slot error rate:`
			`System poprawnie wyłapał 23 wartości slotu na 55 przypadków, co daje <b>41,81%</b> skuteczności. <br>`
			`System przede wszystkim miał problem ze slotem <b>opis spotkania</b> oraz <b>uczestnik spotkania</b>. Dość sprawnie wyłapuje slot <b>data</b> oraz <b>godzina</b>.`