systemy_dialogowe/ewaluacja.md

# Ewaluacja systemu składania zamówienia w restauracji

## Ankieta zadowolenia użytkownika:
 https://forms.office.com/e/xzmnut3rRn

 Ankieta zadowolenia użytkownika poruszała kilka kwestii, takich jak:
* Zrozumiałość systemu przez użytkownika, mierzone w skali od 1 do 5.
* Zrozumiałość wypowiedzi użytkownika przez system, również mierzona w skali od 1 do 5.
* Zrozumiałość wypowiedzi użytkownika przez system, również mierzona w skali od 1 do 5.
* Odpowiedniość tempa interakcji, oceniana w skali od 1 do 5.
* Wiedza użytkownika o tym, co powiedzieć na każdym etapie dialogu, mierzona w skali od 1 do 5.
* Częstotliwość, z jaką system odpowiadał zbyt wolno, oceniana w skali od 1 do 5.
* Odpowiedź systemu na oczekiwania użytkownika, mierzona w skali od 1 do 5.
* Intencja użytkownika do korzystania z systemu w przyszłości, oceniana w skali od 1 do 5.
* Częstość, z jaką użytkownik prosił o pomoc lub żądał restartu systemu, mierzona w skali od 1 do 5.
* Jak często system nie odpowiadał na pytania użytkownika, mierzone w skali od 1 do 5.
* Wrażenia użytkownika na temat systemu oraz jego samopoczucie po interakcji z systemem, mierzona stopniowo od bardzo złej do bardzo dobrej.
* Ocena wsparcia od osoby trzeciej, w tym przypadku Stefana, również mierzona stopniowo od bardzo złej do bardzo dobrej.
<!-- end of the list -->
Udało się zebrać odpowiedzi dotyczące 3 przeprowadzonych rozmów.

### 1.1. Czy system można było łatwo zrozumieć?
* Średnia ocena dla tej metryki wyniosła 2.7/5.
* Najczęściej użytkownicy ocenili zrozumiałość systemu na 3 (2 użytkowników).
* Jeden użytkownik ocenił zrozumiałość systemu na 2.
* Wnioskując z tych danych, można stwierdzić, że system może wymagać pewnej poprawy w kwestii jasności i przejrzystości komunikacji.

### 1.2. Czy system rozumiał to co mówiłeś?
* Średnia ocena wyniosła 2/5.
* W tym przypadku oceny były bardziej zróżnicowane, co sugeruje, że system może mieć problem z poprawnym interpretowaniem komend użytkownika. Ten obszar wymaga dalszych badań i poprawek.

### 1.3. Czy łatwo było znaleźć to czego szukałeś (np. restaurację w pobliżu)?
* Średnia ocena wyniosła 2.3/5.
* Oceny były podobne jak w poprzednich kategoriach, co może wskazywać na problemy z dostarczaniem odpowiednich i użytecznych informacji użytkownikowi.

### 1.4. Czy tempo interakcji było odpowiednie?
* Średnia ocena wyniosła 3.7/5.
* Najczęstsza ocena to 4 (2 użytkowników).
* Wyniki te sugerują, że tempo interakcji jest na dobrym poziomie i większość użytkowników jest zadowolona z tempa reakcji systemu.

### 1.5. Czy wiedziałeś co powiedzieć na każdym etapie dialogu?
* Średnia ocena wyniosła 2.3/5.
* Te wyniki mogą sugerować, że system może wymagać dodatkowych wskazówek lub lepszego prowadzenia użytkowników przez proces interakcji.

### 1.6. Jak często system odpowiadał zbyt wolno?
* Średnia ocena: 2.67/5.
* To wskazuje na to, że prędkość reakcji systemu mogła wpłynąć na ogólne doświadczenia użytkowników i może wymagać poprawy.
### 1.7. Czy system robił to czego oczekiwałeś?
* Średnia ocena wyniosła 2.7/5.
* To sugeruje, że system nie zawsze spełniał oczekiwania użytkowników.

### 1.8. Czy zamierzasz używać systemu w przyszłości?
* Średnia ocena wyniosła 3.3/5.
* Najczęstsza ocena to 3 (2 użytkowników).
* Większość użytkowników jest niezdecydowana co do tego, czy będą chcieli korzystać z systemu w przyszłości, co może sugerować, że system nie spełnił

### 2.1. Jak często prosiłeś o pomoc?
* Średnia ocena wyniosła 3.7/5.
*  Użytkownicy często prosili o pomoc, co może sugerować, że system nie jest wystarczająco intuicyjny lub że jego funkcje nie są wystarczająco jasne.

### 2.2. Jak często żądałeś restartu?
* Średnia ocena wyniosła 1/5, co wskazuje, że użytkownicy nie potrzebowali restartować systemu.
* Jest to pozytywna informacja, ponieważ sugeruje, że system działa stabilnie i nie ma poważnych problemów technicznych.

### 2.3. Jak często chciałeś przerwać odpowiedź systemu?
* Średnia ocena wyniosła 1/5.
* Jak w przypadku restartu, użytkownicy nie przerywali odpowiedzi systemu, co jest dobrą informacją.

### 2.4. Jak często system nie odpowiadał na Twoje pytania?
* Średnia ocena wyniosła 4/5.
* Często występowały sytuacje, gdy system nie odpowiadał na pytania użytkowników, co jest problemem.
* System powinien być w stanie odpowiedzieć na wszystkie pytania użytkowników lub przynajmniej wyjaśnić, dlaczego nie jest w stanie na nie odpowiedzieć.

### 3. Jak oceniasz ogólnie swoje samopoczucie po skorzystaniu z systemu?
* Dwóch użytkowników odczuwało pewien dyskomfort po korzystaniu z systemu, co może wskazywać na potencjalne problemy w interakcji z systemem.
* Może to wynikać z trudności w zrozumieniu systemu, lub też z niedopasowania systemu do ich potrzeb lub oczekiwań.
* Jednakże, jeden użytkownik nie odczuł żadnego dyskomfortu po korzystaniu z systemu, co sugeruje, że dla niektórych użytkowników interakcja z systemem była satysfakcjonująca.

### 4. Jakie wrażenie wywarł na Tobie system?
* Oceny w tej kategorii były dość zróżnicowane, od "przeciętne" do "dobre".
* To sugeruje, że system w pewien sposób spełnił oczekiwania użytkowników, ale ma jeszcze pole do poprawy.

### 5. Jak oceniasz wsparcie Stefana?
* Dwoje z trzech użytkowników, którzy korzystali z pomocy Stefana, ocenili je jako "dobrze".
* Jeden użytkownik nie korzystał z pomocy Stefana, więc nie mógł ocenić tego aspektu.
* Wyniki te sugerują, że wsparcie od Stefana jest skuteczne i pomocne dla tych, którzy z niego korzystają.

## Dodatkowe metryki ewaluacyjne.
### Task success rate:
* Przyjmując, że pytanie "Czy system robił to czego oczekiwałeś?" reprezentuje stopień sukcesu zadania. Średnia ocena dla tego pytania wynosi 3.3 na 5, co sugeruje, że sukces zadania wynosi około 66% (3.3/5 * 100%).

### Slot error rate:
* Przypuszczać, że pytanie "Czy system rozumiał to co mówiłeś?" jest pewnym wskaźnikiem błędów slotów. Średnia ocena dla tego pytania wynosi 2 na 5, co sugeruje, że wskaźnik błędów slotów może być dość wysoki, wynoszący około 60% (1 - 2/5 * 100%).