챗봇 평가 방법

2020. 9. 27. 23:09

728x90

챗봇 평가에 어려운 점:

정확한 평가 환경 set-up이 어렵다. Topic의 여부, 대화 길이, 평가자가 어떤 말하냐 등을 객관적으로 두기가 어렵다.

따라서 프롬프트없이 크라우드소싱으로 사용자들이 대개 multi-turn대화에서 평가한다.

평가지표 humanness:

참가자 중 챗봇이 사람같다고 대답한 사람의 비율

평가지표 engagingness:

참가자 중 챗봇과의 대화를 즐기는 사람의 비율

그리고 이러한 값이 유의미한지 가설검증을 함께 한다.

728x90

[NLP][Chatbot][Paper]Recipes for building an open-domain chatbot (0)	2020.09.28

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

나를 잃지 말자