728x90
728x90
728x90

Paper:

https://arxiv.org/pdf/2004.13637.pdf

 

Remarks:

-

728x90

'ML > NLP' 카테고리의 다른 글

챗봇 평가 방법  (0) 2020.09.27
728x90

매달마다 선크림 판매량을 예측하는 모델을 학습한다고 하자.

이 때, 매달마다 선크림 판매량 데이터에서 직전년도 매달 판매량을 뺀 데이터를 가지고 학습을 하고(=remove seasonal patterns, 이를 differencing이라 함)

 

predict할 때 다시 seasonal patterns를 돌려주어 계산

728x90
728x90

one-hot encoding했을 때 feature 수가 너무 클 때

-유관 numerical features로 교체해서 사용(국가코드를 국가인구나 GDP같은 feature로)

-learnable, low-dimensional vector로 교체(즉 embedding vector 선택)

728x90
728x90

1. 시간 순으로 나눈다.

ex) 2000년부터 2010년은 학습, 2010년부터 2015년은 validation, 2015년부터 2020년은 test

주의사항:

  학습데이터에서 학습한 패턴이 미래에도 있을 것이란 보장이 되어야 학습이 의미가 있음, 예를 들면 2010년부터 2015년 사이 등장한 "급식체"같은 학습기간 동안 없었던 말투는 모델 성능이 높지 않을 수 있다. 즉 시계열 데이터가 stationary가 아니라면 모델 성능 하락, 이를 확인하기 위해서는 validation error를 시간순으로 찍어본다. 비교적 과거에서 error가 비교적 현재에서의 error보다 작다면 not stationary를 확인할 수 있고,  학습데이터의 시간 구간을 줄일 필요가 있다. 

 

2. 다른 차원으로 나눈다.

ex) 2000년부터 2020년 중 회사 1만개에 대한 데이터가 있다면,

회사 8천개의 데이터를 train, 1천개의 데이터를 validation, 1천개의 데이터를 test

주의사항:

  train data와 test data가 서로 correlated된 경향을 띌 수가 있다. 특히 앞선 예의 경우 금융위기 맞으면 둘다 망하거나 시장이 좋으면 둘다 떡상하니까, 따라서 generalization ability를 따지는 데에서 not useful할 수 있음

 

728x90
728x90

 

챗봇 평가에 어려운 점:

  정확한 평가 환경 set-up이 어렵다. Topic의 여부, 대화 길이, 평가자가 어떤 말하냐 등을 객관적으로 두기가 어렵다.

  따라서 프롬프트없이 크라우드소싱으로 사용자들이 대개 multi-turn대화에서 평가한다.

 

평가지표 humanness:

  참가자 중 챗봇이 사람같다고 대답한 사람의 비율

 

평가지표 engagingness:

  참가자 중 챗봇과의 대화를 즐기는 사람의 비율

 

그리고 이러한 값이 유의미한지 가설검증을 함께 한다.

 

728x90

'ML > NLP' 카테고리의 다른 글

[NLP][Chatbot][Paper]Recipes for building an open-domain chatbot  (0) 2020.09.28

+ Recent posts