728x90
챗봇 평가에 어려운 점:
정확한 평가 환경 set-up이 어렵다. Topic의 여부, 대화 길이, 평가자가 어떤 말하냐 등을 객관적으로 두기가 어렵다.
따라서 프롬프트없이 크라우드소싱으로 사용자들이 대개 multi-turn대화에서 평가한다.
평가지표 humanness:
참가자 중 챗봇이 사람같다고 대답한 사람의 비율
평가지표 engagingness:
참가자 중 챗봇과의 대화를 즐기는 사람의 비율
그리고 이러한 값이 유의미한지 가설검증을 함께 한다.
728x90
'ML > NLP' 카테고리의 다른 글
[NLP][Chatbot][Paper]Recipes for building an open-domain chatbot (0) | 2020.09.28 |
---|