Learning to rank란
item의 정확한 score를 regression하는게 아니라, optimal ordering of list of items.
종류:Pointwise|Pairwise|Listwise
각각은 loss function에 들어가는 document의 개수에 따라 구분된다.
pointwise는 1개, Pairwise는 2개, Listwise는
pointwise는 document가 query에 해당하는 relevancy를 학습하고, 실제 inference할 때는 각 document의 relevancy 순으로 출력, 즉 관건은, documents끼리 independent하다는 것, classical classification/regression을 사용
pairwise는 a pair of documents를 보고 ordering을 매김, the number of inversions를 줄이게끔 loss function을 정의하여 사용, relative order를 예측하는 게 좀 더 ranking의 본질에 가깝다. 단점은 training/inference가 시간복잡도가 크고 사실 낮은 ranking에 존재하는 pair끼리의 계산이나 상위 ranking에 존재하는 pair끼리의 계산이 동일하게 들어가는 점이 단점,
listwise는 entire list of documents를 보고 optimal ordering을 찾는 것, 예를 들면, NDCG를 utility function으로 보고 학습, 장점이 training/inference의 시간복잡도가 낮음,
Recommender system과 Ranking의 차이점은?
-ranking은 ordering이 결과임, 개별 item의 score도 predicted rating이 아니라, ordering으로서의 score이며 utility로서의 score가 아님
-ranking은 user의 input(query나 category선택, 지리적 정보 등)이 중요한 역할
가장 처음 드는 의문 점, labeled data를 어떻게 얻느냐?
1. Human (relevance) judgement
각 query마다
binary로 각 document가 relevant인지 irrelevant인지->pointwise용
document A가 B보다 더 relevant인지->pairwise용
document A,B,C의 ordering->listwise용, 다만 수집 비용이 큼(time consuming and exhaustive)
혹은
한개의 query당 얻은 document(item)의 relevance(perfect, excellent, good, fair, bad 형태의 five level이 한 예)를 judge
majority voting으로 query당 document의 label로 선정
2. query당 documents의 전체 고객들의 click number로 relative relevance 측정
대개 상위 ranking document가 더 클릭될 확률이 높은데 (click bias라 불림)
그럼에도 불구하고 lower ranked가 더 큰 클릭을 얻었다면 그것이 more relevant
각각이 단점이 존재, 둘다 noisy할 가능성이 있고
전자는 각 human이 query를 직접 관심갖고 입력한 상황이 아니므로 error가 발생할 확률이 높고
후자는 high frequency query만 labeling이 가능
참고자료:
medium.com/recombee-blog/introduction-to-personalized-search-2b70eb5fa5ae
www.iro.umontreal.ca/~nie/IFT6255/Books/Learning-to-rank.pdf
'ML > Recsys' 카테고리의 다른 글
[Recsys]Content-based filtering의 장단점 (0) | 2020.10.19 |
---|---|
[Recsys]Which similarity measure to choose? (0) | 2020.10.19 |
(미완)[Recsys][metric]offline metric, Hit Rate, ARHR, P@K, AP@K, MAP@K, MAE, MSE, RMSE, NDCG, COVERAGE (0) | 2020.10.08 |
(미완)[Recsys][Paper]Deep Generative Ranking for Personalized Recommendation (0) | 2020.10.04 |
(미완)[Recsys][Metric]Offline metrics (0) | 2020.10.04 |