Wszyscy użytkownicy, którym udało się zrealizować główne zadanie chcieli utworzyć spotkanie. Można więc wysnuć wniosek, że to element systemu, który działa najlepiej i jednocześnie najpopularniejszy wśród użytkowników. Co za tym idzie system można nazwać dość skutecznym, jednak nie radzi sobie w pełni ze wszystkimi planowanymi zadaniami.
Najczęstsze oceny to <b>4 - co oznacza łatwą realizację zadania</b> (5 użytkowników) oraz <b>3 - umiarkowanie</b> (3 użytkowników). <br>
Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.
### Pytanie 4: Jak system rozumiał wypowiedzi użytkownika?
Średnia ocena tej metryki to 3.5/5 <br>
Najczęstsze oceny to <b>4 - co oznacza zrozumienie większości wypowiedzi</b> (6 użytkowników) oraz <b>2 - zrozumienie niektórych wypowiedzi</b> (3 użytkowników). <br>
Najniższe oceny dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.
### Pytanie 5: Jak użytkownik rozumiał wypowiedzi systemu?
Średnia ocena tej metryki to 4.3/5 <br>
Najczęstsze oceny to <b>5 - użytkownik rozumiał w pełni wypowiedzi systemu</b> (5 użytkowników) oraz <b>4 - użytkownik rozumiał w większości wypowiedzi systemu</b> (4 użytkowników). <br>
Najniższa ocena (2) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.
### Pytanie 6: System robił to, co oczekiwał użytkownik.
Średnia ocena tej metryki to 3.6/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>3 - trudno powiedzieć</b> (2 użytkowników). <br>
Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.
### Pytanie 7: Tempo interakcji z systemem było odpowiednie.
Średnia ocena tej metryki to 4.1/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (7 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>
Najniższa ocena (3) dotyczyła rozmowy, w której nie doszło do pomyślej realizacji zadania.
### Pytanie 8: Użytkownik wiedział co ma odpowiadać na każdym etapie dialogu.
Średnia ocena tej metryki to 3.9/5 <br>
Najczęstsze oceny to <b>4 - zgadzam się</b> (6 użytkowników) oraz <b>5 - całkowicie się zgadzam</b> (2 użytkowników). <br>
Najniższe oceny (2 oraz 3) dotyczyły rozmów, w których nie doszło do pomyślej realizacji zadania.
### Pytanie 9: Czy krytyczny błąd systemu przerwał rozmowę?
Najbardziej niepokojąca metryka w ankiecie. Aż 70% rozmów skończyło się krytycznym błędem systemu, jednak w większości przypadków nie wpłynęło to na realizację głównego zadania użytkownika. Z pewnością trzeba się skupić w przyszłości na wyeliminowaniu tych błędów.
### Pytanie 10: Co w systemie działało nagorzej (nieobowiązkowe pytanie opisowe)?
Najczęściej wskazywanymi mankamentami systemu były błędne przechwytywanie slotów, co często prowadziło do ponownego zadania tego samego pytania oraz nieoczekiwane zakończenie konwersacji błędem krytycznym. Aż 7 użytkowników zdecydowało się odpowiedzieć na to pytanie, co najprawdopodobniej oznacza, że system dalej posiada niewielkie błędy wpływające na jego jakość.
### Pytanie 11: Co w systemie działało najlepiej (nieobowiązkowe pytanie opisowe)?
Tylko 3 użytkowników zdecydowało się odpowiedzieć na to pytanie, co może oznaczać, że większość z nich nie widziała w systemie bardzo dobrze działających elementów. <br>
Użytkownicy, którzy odpowiedzieli na to pytanie jako główną zaletę wskazali, że system realizuje pomyślnie podstawowy scenariusz, czyli tworzenie spotkania.
### Pytanie 12: Czy użytkownik zamierza używać systemu w przyszłości?
Średnia ocena tej metryki to 2.9/5 <br>
Najczęstsza ocena to <b>3 - trudno powiedzieć</b> (9 użytkowników). <br>
Większość użytkowników nie ma wyrobionego zdania na temat przydatności systemu. Może to oznaczać, że system nie przekonał użytkowników podczas testów lub nie zawiera wszystkich oczekiwanych funkcjonalności.
### Pytanie 13: Ogólna ocena systemu przez użytkownika.
Średnia ocena tej metryki to 3.9/5 <br>
Najczęstsza ocena to <b>4</b> (5 użytkowników). <br>
Ogólnie system wypada dość dobrze. Najniższe oceny dotyczyły rozmów, podczas których nie udało się zrealizować zadania oraz system zakończył niespodziewanie rozmowe przez błąd. Można więc wysnuć wniosek, że wyeliminowanie tych błędów i poprawa skuteczności podniosłaby ogólną ocenę systemu.
## Inne metryki ewaluacyjne.
### Task success rate:
System poprawnie zrealizował 9 zadań z 16 możliwych, co daje <b>56,25%</b> skuteczności. <br>
Tą skuteczność można uznać za dość dobrą, jednak na pewno trzeba by ją zwiększyć w toku dalszych prac nad systemem. <br>
Głownym elementem systemu, który powodował niepomyślną realizację zadań był moduł NLU (głównie błędne wyłapywanie wartości slotów) oraz moduł NLG (system nie generował odpowiedzi przy niektórych nieprzewidzianych scenariuszach).
### Slot error rate:
System poprawnie wyłapał 23 wartości slotu na 55 przypadków, co daje <b>41,81%</b> skuteczności. <br>
System przede wszystkim miał problem ze slotem <b>opis spotkania</b> oraz <b>uczestnik spotkania</b>. Dość sprawnie wyłapuje slot <b>data</b> oraz <b>godzina</b>.