3.6 KiB
Charakterystyka ankiety
Ankieta składała się z 7 pytań będących mieszanką pytań wymagających udzielenia odpowiedzi liczbowej w skali 1-5 (1 - najgorzej, 5 - najlepiej), pytań wymagających odpowiedzi tak lub słownego doprecyzowania, czemu nie i jednego pytania otwartego, wymagającego jednak podania wyłącznie pojedynczej liczby. Ankieta wypełniona została 16 razy, w każdym przypadku poprawnie. Z racji jej anonimowego charakteru nie było kontrolowane, ile razy dana osoba ją wypełniła, natomiast z racji ograniczonego czasu zajęć, na których została przeprowadzona, jak i jej ostatecznej liczby wypełnień raczej było to jedno wypełnienie na osobę.
Pytania z ankiety i odpowiedzi na nie udzielone znajdują się w pliku survey.xlsx.
Ogólne obserwacje na podstawie podsumowanych odpowiedzi na poszczególne pytania:
- We wszystkich 16 testach udało się zrealizować cel konwersacji z botem.
- Średnio potrzebne było 1,19 resetu, by zrealizować cel konwersacji.
- Struktura i sensowność konwersacji uzyskały średnią ocenę 4,31/5.
- Stopień, w jakim konwersacja była przekonująca wynosił średnio 4,44/5.
- Średnio testerom udało się zrealizować 4,63/5 całej zamierzonej konwersacji. Wartość liczbowa rozumiana jest jako stopień pokrycia poszczególnych części konwersacji, takich jak np. wybranie filmu, ustalenie liczby biletów itp. Chociaż nie było to sprecyzowane w pytaniu, biorąc pod uwagę fakt, iż cel konwersacji został zrealizowany w każdym wypadku, wynik najpewniej dotyczy stopnia realizacji konwersacji przypadającego na jedną sesję, rozumianą jako rozmowa kontynuowana do czasu prawidłowego zakończenia, błędu systemu lub resetu.
- W 37,5% przypadków działanie systemu zostało określone jako bezproblemowe pod kątem bugów, errorów itd. W pozostałych przypadkach pojawiały się następujące problemy: problemy z wybraniem miejsca, trudności z rozpoznaniem imienia i nazwiska, zapętlanie, problem z rezerwacją 2 biletów, błędy dotyczące tytułu filmu i - najistotniejszy - error przerywający działanie problemu.
- Język, którego używał bot został uznany za odpowiedni pod kątem rejestru, naturalności, poprawności gramatycznej itp. we wszystkich oprócz jednego przypadku, w którym został uznany za "za mało cool".
Wnioski:
System wypadł zaskakująco dobrze, biorąc pod uwagę ograniczony czas, jaki zespół przeznaczył na jego tworzenie. Zdecydowanie przerósł oczekiwania. Najistotniejszym faktem komunikowanym przez wyniki ankiety jest przesłanka, że system działa na tyle dobrze, że wszystkim ankietowanym udało zrealizować się cel rozmowy. Tak więc jest generalnie używalny, chociaż średnio z nieco ponad 1 restartem, co wydaje się być jednak nie takim złym wynikiem. Ogólne zdolności konwersacyjne systemu oceniane w pytaniach wymagających odpowiedzi w skali 1-5 zostały dobrze ocenione i najpewniej nie wymagają większych dalszych prac. Również kwestia błędów nie przedstawia się najgorzej - część z nich wynika z siłą rzeczy zbyt małej ilości danych treningowych, co należy uznać za zrozumiałe, biorąc pod uwagę małą skalę procesu ich zbierania realizowanego na jednych ze wcześniejszych zajęć w semestrze. Aspektem wymagającym poprawy w pierwszej kolejności i jednocześnie największym zaobserwowanym problemem natomiast jest error, który powoduje pełne przerwanie działania systemu podczas konwersacji. Pierwszy raz zaobserwowany podczas testów na zajęciach w z pozoru losowych momentach dialogu, został on już zidentyfikowany przez członków zespołu i zostanie naprawiony.