systemy_dialogowe/ewaluacja.md

95 lines
6.1 KiB
Markdown
Raw Permalink Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Ewaluacja systemu składania zamówienia w restauracji
## Ankieta zadowolenia użytkownika:
https://forms.office.com/e/xzmnut3rRn
Ankieta zadowolenia użytkownika poruszała kilka kwestii, takich jak:
* Zrozumiałość systemu przez użytkownika, mierzone w skali od 1 do 5.
* Zrozumiałość wypowiedzi użytkownika przez system, również mierzona w skali od 1 do 5.
* Odpowiedniość tempa interakcji, oceniana w skali od 1 do 5.
* Wiedza użytkownika o tym, co powiedzieć na każdym etapie dialogu, mierzona w skali od 1 do 5.
* Częstotliwość, z jaką system odpowiadał, oceniana w skali od 1 do 5.
* Odpowiedź systemu na oczekiwania użytkownika, mierzona w skali od 1 do 5.
* Intencja użytkownika do korzystania z systemu w przyszłości, oceniana w skali od 1 do 5.
* Częstość, z jaką użytkownik prosił o pomoc lub żądał restartu systemu, mierzona w skali od 1 do 5.
* Jak często system nie odpowiadał na pytania użytkownika, mierzone w skali od 1 do 5.
* Wrażenia użytkownika na temat systemu oraz jego samopoczucie po interakcji z systemem, mierzona stopniowo od bardzo złej do bardzo dobrej.
* Ocena wsparcia od osoby trzeciej, w tym przypadku Stefana, również mierzona stopniowo od bardzo złej do bardzo dobrej.
<!-- end of the list -->
Udało się zebrać odpowiedzi dotyczące 3 przeprowadzonych rozmów.
### 1.1. Czy system można było łatwo zrozumieć?
* Średnia ocena dla tej metryki wyniosła 2.7/5.
* Najczęściej użytkownicy ocenili zrozumiałość systemu na 3 (2 użytkowników).
* Jeden użytkownik ocenił zrozumiałość systemu na 2.
* Wnioskując z tych danych, można stwierdzić, że system może wymagać pewnej poprawy w kwestii jasności i przejrzystości komunikacji.
### 1.2. Czy system rozumiał to co mówiłeś?
* Średnia ocena wyniosła 2/5.
* W tym przypadku oceny były bardziej zróżnicowane, co sugeruje, że system może mieć problem z poprawnym interpretowaniem komend użytkownika. Ten obszar wymaga dalszych badań i poprawek.
### 1.3. Czy łatwo było znaleźć to czego szukałeś (np. restaurację w pobliżu)?
* Średnia ocena wyniosła 2.3/5.
* Oceny były podobne jak w poprzednich kategoriach, co może wskazywać na problemy z dostarczaniem odpowiednich i użytecznych informacji użytkownikowi.
### 1.4. Czy tempo interakcji było odpowiednie?
* Średnia ocena wyniosła 3.7/5.
* Najczęstsza ocena to 4 (2 użytkowników).
* Wyniki te sugerują, że tempo interakcji jest na dobrym poziomie i większość użytkowników jest zadowolona z tempa reakcji systemu.
### 1.5. Czy wiedziałeś co powiedzieć na każdym etapie dialogu?
* Średnia ocena wyniosła 2.3/5.
* Te wyniki mogą sugerować, że system może wymagać dodatkowych wskazówek lub lepszego prowadzenia użytkowników przez proces interakcji.
### 1.6. Jak często system odpowiadał zbyt wolno?
* Średnia ocena: 2.7/5.
* To wskazuje na to, że prędkość reakcji systemu mogła w jakimś stopniu wpłynąć na ogólne doświadczenia użytkowników i może wymagać poprawy.
### 1.7. Czy system robił to czego oczekiwałeś?
* Średnia ocena wyniosła 2.7/5.
* To sugeruje, że system nie zawsze spełniał oczekiwania użytkowników.
### 1.8. Czy zamierzasz używać systemu w przyszłości?
* Średnia ocena wyniosła 3.3/5.
* Najczęstsza ocena to 3 (2 użytkowników).
* Większość użytkowników jest niezdecydowana co do tego, czy będą chcieli korzystać z systemu w przyszłości, co może sugerować, że system nie spełnił ich oczekiwań.
### 2.1. Jak często prosiłeś o pomoc?
* Średnia ocena wyniosła 3.7/5.
* Użytkownicy często prosili o pomoc, co może sugerować, że system nie jest wystarczająco intuicyjny lub że jego funkcje nie są wystarczająco jasne.
### 2.2. Jak często żądałeś restartu? 
* Średnia ocena wyniosła 1/5, co wskazuje, że użytkownicy nie potrzebowali restartować systemu.
* Jest to pozytywna informacja, ponieważ sugeruje, że system działa stabilnie i nie ma poważnych problemów technicznych.
### 2.3. Jak często chciałeś przerwać odpowiedź systemu?
* Średnia ocena wyniosła 1/5.
* Jak w przypadku restartu, użytkownicy nie przerywali odpowiedzi systemu, co jest dobrą informacją.
### 2.4. Jak często system nie odpowiadał na Twoje pytania?
* Średnia ocena wyniosła 4/5.
* Często występowały sytuacje, gdy system nie odpowiadał na pytania użytkowników, co jest problemem.
* System powinien być w stanie odpowiedzieć na wszystkie pytania użytkowników, dlatego też wymaga dodatkowych poprawek.
### 3. Jak oceniasz ogólnie swoje samopoczucie po skorzystaniu z systemu?
* Dwóch użytkowników odczuwało pewien dyskomfort po korzystaniu z systemu, co może wskazywać na potencjalne problemy w interakcji z systemem.
* Może to wynikać z trudności w zrozumieniu systemu, lub też z niedopasowania systemu do ich potrzeb lub oczekiwań.
* Jednakże, jeden użytkownik nie odczuł żadnego dyskomfortu po korzystaniu z systemu, co sugeruje, że dla niektórych użytkowników interakcja z systemem była satysfakcjonująca.
### 4. Jakie wrażenie wywarł na Tobie system?
* Oceny w tej kategorii były dość zróżnicowane, od "przeciętne" do "dobre".
* To sugeruje, że system w pewien sposób spełnił oczekiwania użytkowników, ale ma jeszcze pole do poprawy.
### 5. Jak oceniasz wsparcie Stefana?
* Dwoje z trzech użytkowników, którzy korzystali z pomocy Stefana, ocenili ją jako "dobrze".
* Jeden użytkownik nie korzystał z pomocy Stefana, więc nie mógł ocenić tego aspektu.
* Wyniki te sugerują, że wsparcie od Stefana jest skuteczne i pomocne dla tych, którzy z niego korzystają.
## Dodatkowe metryki ewaluacyjne.
### Task success rate:
* Przyjmując, że pytanie "Czy system robił to czego oczekiwałeś?" reprezentuje stopień sukcesu zadania. Średnia ocena dla tego pytania wynosi 3.3 na 5, co sugeruje, że sukces zadania wynosi około 66% (3.3/5 * 100%).
### Slot error rate:
* Przyjmując, że pytanie "Czy system rozumiał to co mówiłeś?" jest pewnym wskaźnikiem błędów slotów. Średnia ocena dla tego pytania wynosi 2 na 5, co sugeruje, że wskaźnik błędów slotów może być dość wysoki, wynoszący około 60% (1 - 2/5 * 100%).