SystemyDialogowe-ProjektMag.../evaluation.md

Odpowiedzi w pliku nachos-ankieta.xlsx zawierają odpowiedzi tekstowe, które korespondują z ocenami w skali od 1 do 7.
Na przykład, dla pytania "Czy zamierzasz używać systemu w przyszłości?" odpowiedziami teksotwymi i ich reprezntacją liczbową są:
Z pewnością -> 7
Tak -> 6
Raczej tak -> 5
Średnio -> 4
Raczej nie -> 3
Pewnie nie -> 2
Na pewno nie -> 1

Z tego powodu wszystkie te wartości zostały przemienione na dane liczbowe, by przeprowadzić lepszą ewaluację. (plik znajduje się w tym katalogu)

Ankieta była anonimowa, a użytkownicy korzystali z różnych komputerów, w tym członków zespołu do jej wypełnienia, nie należy się więc sugerować kolumną "Email"

Odpowiedzi jest łącznie 10, co oznacza, że wszyscy obecni (zgodnie z listą obecności z dnia 15.06) wypełnili ankietę jednokrotnie, pod warunkiem że nikt nie zrobił tego dwa razy, czego nie możemy byc pewni.

Wszystkie 10 osób odpowiedziało na pytanie, czy udało się zarezerwować bilet twierdząco, więc dla prostej metryki "task success" mamy współczynnik 100%

Dla kolejnych metryk, w której każda z nich posiadała skalę od 1 do 7, systemom udało się zdobyć (wyniki po uśrednieniu):
Czy odpowiedzi systemu były zrozumiałe? -> 6.1 na 7
Czy zamierzasz używać systemu w przyszłości? -> 5 na 7
Czy na każdym etapie rozmowy wiedziałeś co powiedzieć? -> 6.7 na 7
Czy system rozumiał wiadomości za pierwszym razem, bez konieczności powtarzania? -> 6 na 7
Czy system zachowywał się zgodnie z twoimi przewidywaniami? -> 5.8 na 7
Jakie jest prawdopodobieństwo, że polecisz nas znajomemu lub współpracownikowi? -> 6 na 7

Wyniki te są zadowalające, uzyskując około 6 na 7 pkt z prawie każdej kategorii. Z rozmów z użytkownikami wiemy też jaki błędy poprawić w przyszłości, gdzie priorytetowym z nich jest rezxerwacja miejsc, tj. wybieranie dokładnego miejsca A-J, 1-20.
Najgorzej wypadło "Czy zamierzasz używać systemu w przyszłości?" co może oznaczać, że na zajęciach pojawił się lepszy system, z którego użytkownicy chcieliby korzystać. Jednak do takich wniosków potrzeba  by było analizy ankiet dla wszystkich systemów, nie tylko tej jednej.