fix formatting
This commit is contained in:
parent
1d37157d4e
commit
eb4843d12a
@ -4,16 +4,16 @@ Ankieta składała się z 7 pytań będących mieszanką pytań wymagających ud
|
|||||||
|
|
||||||
Pytania z ankiety i odpowiedzi na nie udzielone znajdują się w pliku survey.xlsx.
|
Pytania z ankiety i odpowiedzi na nie udzielone znajdują się w pliku survey.xlsx.
|
||||||
|
|
||||||
**Ogólne obserwacje na podstawie podsumowanych odpowiedzi na poszczególne pytania:**
|
**Ogólne obserwacje na podstawie podsumowanych odpowiedzi na poszczególne pytania**
|
||||||
|
|
||||||
- We wszystkich 16 testach udało się zrealizować cel konwersacji z botem.
|
- We wszystkich 16 testach udało się zrealizować cel konwersacji z botem;
|
||||||
- Średnio potrzebne było 1,19 resetu, by zrealizować cel konwersacji.
|
- Średnio potrzebne było 1,19 resetu, by zrealizować cel konwersacji;
|
||||||
- Struktura i sensowność konwersacji uzyskały średnią ocenę 4,31/5.
|
- Struktura i sensowność konwersacji uzyskały średnią ocenę 4,31/5;
|
||||||
- Stopień, w jakim konwersacja była przekonująca wynosił średnio 4,44/5.
|
- Stopień, w jakim konwersacja była przekonująca wynosił średnio 4,44/5;
|
||||||
- Średnio testerom udało się zrealizować 4,63/5 całej zamierzonej konwersacji. Wartość liczbowa rozumiana jest jako stopień pokrycia poszczególnych części konwersacji, takich jak np. wybranie filmu, ustalenie liczby biletów itp. Chociaż nie było to sprecyzowane w pytaniu, biorąc pod uwagę fakt, iż cel konwersacji został zrealizowany w każdym wypadku, wynik najpewniej dotyczy stopnia realizacji konwersacji przypadającego na jedną sesję, rozumianą jako rozmowa kontynuowana do czasu prawidłowego zakończenia, błędu systemu lub resetu.
|
- Średnio testerom udało się zrealizować 4,63/5 całej zamierzonej konwersacji. Wartość liczbowa rozumiana jest jako stopień pokrycia poszczególnych części konwersacji, takich jak np. wybranie filmu, ustalenie liczby biletów itp. Chociaż nie było to sprecyzowane w pytaniu, biorąc pod uwagę fakt, iż cel konwersacji został zrealizowany w każdym wypadku, wynik najpewniej dotyczy stopnia realizacji konwersacji przypadającego na jedną sesję, rozumianą jako rozmowa kontynuowana do czasu prawidłowego zakończenia, błędu systemu lub resetu;
|
||||||
- W 37,5% przypadków działanie systemu zostało określone jako bezproblemowe pod kątem bugów, errorów itd. W pozostałych przypadkach pojawiały się następujące problemy: problemy z wybraniem miejsca, trudności z rozpoznaniem imienia i nazwiska, zapętlanie, problem z rezerwacją 2 biletów, błędy dotyczące tytułu filmu i - najistotniejszy - error przerywający działanie problemu.
|
- W 37,5% przypadków działanie systemu zostało określone jako bezproblemowe pod kątem bugów, errorów itd. W pozostałych przypadkach pojawiały się następujące problemy: problemy z wybraniem miejsca, trudności z rozpoznaniem imienia i nazwiska, zapętlanie, problem z rezerwacją 2 biletów, błędy dotyczące tytułu filmu i - najistotniejszy - error przerywający działanie problemu;
|
||||||
- Język, którego używał bot został uznany za odpowiedni pod kątem rejestru, naturalności, poprawności gramatycznej itp. we wszystkich oprócz jednego przypadku, w którym został uznany za "za mało cool".
|
- Język, którego używał bot został uznany za odpowiedni pod kątem rejestru, naturalności, poprawności gramatycznej itp. we wszystkich oprócz jednego przypadku, w którym został uznany za "za mało cool".
|
||||||
|
|
||||||
**Wnioski:**
|
**Wnioski**
|
||||||
|
|
||||||
System wypadł zaskakująco dobrze, biorąc pod uwagę ograniczony czas, jaki zespół przeznaczył na jego tworzenie. Zdecydowanie przerósł oczekiwania. Najistotniejszym faktem komunikowanym przez wyniki ankiety jest przesłanka, że system działa na tyle dobrze, że wszystkim ankietowanym udało zrealizować się cel rozmowy. Tak więc jest generalnie używalny, chociaż średnio z nieco ponad 1 restartem, co wydaje się być jednak nie takim złym wynikiem. Ogólne zdolności konwersacyjne systemu oceniane w pytaniach wymagających odpowiedzi w skali 1-5 zostały dobrze ocenione i najpewniej nie wymagają większych dalszych prac. Również kwestia błędów nie przedstawia się najgorzej - część z nich wynika z siłą rzeczy zbyt małej ilości danych treningowych, co należy uznać za zrozumiałe, biorąc pod uwagę małą skalę procesu ich zbierania realizowanego na jednych ze wcześniejszych zajęć w semestrze. Aspektem wymagającym poprawy w pierwszej kolejności i jednocześnie największym zaobserwowanym problemem natomiast jest error, który powoduje pełne przerwanie działania systemu podczas konwersacji. Pierwszy raz zaobserwowany podczas testów na zajęciach w z pozoru losowych momentach dialogu, został on już zidentyfikowany przez członków zespołu i zostanie naprawiony.
|
System wypadł zaskakująco dobrze, biorąc pod uwagę ograniczony czas, jaki zespół przeznaczył na jego tworzenie. Zdecydowanie przerósł oczekiwania. Najistotniejszym faktem komunikowanym przez wyniki ankiety jest przesłanka, że system działa na tyle dobrze, że wszystkim ankietowanym udało zrealizować się cel rozmowy. Tak więc jest generalnie używalny, chociaż średnio z nieco ponad 1 restartem, co wydaje się być jednak nie takim złym wynikiem. Ogólne zdolności konwersacyjne systemu oceniane w pytaniach wymagających odpowiedzi w skali 1-5 zostały dobrze ocenione i najpewniej nie wymagają większych dalszych prac. Również kwestia błędów nie przedstawia się najgorzej - część z nich wynika z siłą rzeczy zbyt małej ilości danych treningowych, co należy uznać za zrozumiałe, biorąc pod uwagę małą skalę procesu ich zbierania realizowanego na jednych ze wcześniejszych zajęć w semestrze. Aspektem wymagającym poprawy w pierwszej kolejności i jednocześnie największym zaobserwowanym problemem natomiast jest error, który powoduje pełne przerwanie działania systemu podczas konwersacji. Pierwszy raz zaobserwowany podczas testów na zajęciach w z pozoru losowych momentach dialogu, został on już zidentyfikowany przez członków zespołu i zostanie naprawiony.
|
||||||
|
Loading…
Reference in New Issue
Block a user