telegram-bot-systemy-dialogowe/evaluation.md

4.4 KiB

Zadowolenie użytkownika:

Miara ta została zbadana przy pomocy kwestionariusza ankiety udostępnionego pod adresem: https://forms.office.com/Pages/DesignPage.aspx#Analysis=true&FormId=4Z5ocy-0JU6l9mbR8pvAksTZBFwnYhpNiX-Xgn9ie2xUMTBSWENQVkMzUUszWEhCRjkzTkhGN1lDVCQlQCN0PWcu

W toku badania zadowolenia uzyskanych zostało osiem odpowiedzi dotyczących takich kwestii jak: ocena jakości prowadzonej rozmowy, realizacja celu, stopień realizacji celu, chaotyczność przebiegu rozmowy czy czas jaki zajęło uzyskanie pożądanej informacji.

  1. Średnia ocena jakości przeprowadzonej rozmowy wyniosła 6.63 - najniższa uzyskana ocena wyniosła trzy, a najwyższa dziesięć. Uzyskane oceny były związane ze skomplikowaniem i długością dialogu, im dłuższy i bardziej rozbudowany dialog tym niższa ocena, co związane było z niedostatecznym pokryciem wszystkich opcji. Najwyższą skuteczność bot uzyskiwał w przypadku dialogów dotyczących wypożyczeń, a najniższą w przypadku opcji dodatkowych takich jak zakładanie karty bibliotecznej czy kar.

  2. Równocześnie, jak wynika z odpowiedzi w pytaniu drugim aż siedem z ośmiu użytkowników wskazało, że ostatecznie cel rozmowy został realizowany, jedna osoba wskazała, że nie wie, podczas gdy nikt nie wskazał odpowiedzi przeczącej. Co sugeruje, że pomimo problemów i niedociągnięć bot może zostać uznany za skutecznego.

  3. Pytanie trzecie pozwoliło uzyskać dodatkowe informacje na temat skuteczności, ponieważ dwie osoby wskazały, że udało im się uzyskać odpowiedzi na wszystkie pytania, a kolejne sześć osób uznało, że udało im się uzyskać odpowiedź na większość pytań. Ponadto nikt nie wskazał odpowiedzi dotyczących uzyskania odpowiedzi na mniejszość pytań oraz odpowiedzi dotyczącej niezdolności uzyskania odpowiedzi na żadne pytanie. Tym samym potwierdza to wniosek wynikający z odpowiedzi na pytanie drugie.

  4. W pytaniu czwartym użytkownicy mieli za zadanie wskazać, czy rozmowa miała chaotyczny przebieg, dwie osoby wskazały odpowiedź twierdzącą, pięć przeczącą, a jedna osoba stwierdziła że nie wie. Odpowiedzi negatywne dotyczą szczególnie tych bardziej rozbudowanych dialogów.

  5. Pytanie piąte dotyczyło czasu potrzebnego do uzyskania satysfakcjonującej odpowiedzi, w trzech przypadkach ankietowani wskazali, że zajęło to mniej niż dwie minuty. Kolejne cztery osoby wskazały na przedział 2-5 minut, a jedna że proces ten zajął ponad 10 minut.

  6. W pytaniu szóstym ankietowani zostali poproszeni żeby określić, czy w toku rozmowy pojawiły się zakłócenia. Według sześciu badanych zakłócenia w trakcie rozmowy nie wystąpiły, dwie osoby wskazały odpowiedź, że zakłócenia wystąpiły, ale były niewielkie. Nikt nie wskazał odpowiedzi mówiącej, że zakłócenia były duże.

  7. Pytanie siódme miało charakter otwarty i dotyczyło opisu zakłóceń które wystąpiły w trakcie rozmowy, badani udzielili dwóch odpowiedzi. Jedna osoba wskazała, że system nie zrozumiał zapytania, podczas gdy druga wskazała, że system czasami wskazywał odpowiedź "Nie rozumiem pytania lub nie posiadamy takiej książki".

  8. W pytaniu ósmym badani zostali poproszeni o wskazanie stopnia w jakim system rozumiał otrzymywane pytania. Skala miała charakter pięcio stopniowy i obejmowała odpowiedzi: zdecydowanie tak, tak, przeciętnie, nie, zdecydowanie nie. Tylko jedna osoba udzieliła odpowiedzi zdecydowanie tak, cztery osoby udzieliły odpowiedzi tak, a trzy osoby odpowiedzi przeciętnie. Nikt jednak nie wskazał odpowiedzi nie lub zdecydowanie nie.

  9. W dodatkowych uwagach pojawiła się propozycja dodania dodatkowych informacji na temat terminów zwrotów czy książek do zwrotu, które obecnie nie są dostępne.

Miary wypełnienia zadania: Task succes: 7/8 - ponieważ siedem osób wskazało, że cel rozmowy został zrealizowany, a jedna wskazała odpowiedź nie wiem, co zostało zinterpretowane jako porażkę czyli wartość 0.

Miary efektywności dialogu: Czas: 86% dialogów zostało zrealizowanych w czasie poniżej 6 minut, 38% dialogów zostało zrealizowanych w czasie poniżej 2 minut, 13% dialogów było realizowanch w czasie powyżej 10 minut.

Liczba tur: Średnia liczba tur: 4.3

Miary jakości dialogu 0/43 - liczba wystąpień aktu help w stosunku do pozostałych aktów 0/43 - liczba wystąpień aktu restart w stosunku do pozostałych aktów