728x90
728x90
728x90

Contextual data is data that gives context to a person, entity or event. It is commonly used by universities in order to determine academic potential of applicants as well as business organizations for market research and prediction. Contextual data is taken from various sources and may include family and socioeconomic background, educational history, health background, general environment and many other factors.

 

즉, 추천 시스템에서는 한 고객을 구매내역으로만 특징 짓다가 다른 요소를 고려하여 반영할 수 있다. 이러한 다른 요소(contextual features)로는 고객의 성별, 주거지 등이 될 수 있다.

 

혹은 고객에 대한 정보 뿐 아니라 고객-상품 과 관련없이 "날씨" 등도 고려할 수 있으며 이것 또한 contextual feature가 되겠다.

728x90
728x90

SGD(Stochastic gradient descent)

WALS(Weighted alternating least squares)

 

WALS란 어떤 방식이냐,

Fixing U and solving for V

Fixing V and solving for U

각 과정을 교차(alternating)하면서 objective function내에 square term을 최소화

각 과정은 linear system이므로 exactly하게 solved됨

objective function을 보면, Fixing U에선 V에 대한 convex, Fixing V에선 U에 대한 convex function이다. 다만, U와 V에 동시에 살피면 convex가 아니다. 즉 not jointly convex

 

SGD vs WALS

 

SGD의 장단점:

-(장점)flexible, loss가 꼭 error square형태가 아니어도 가능

-(장점)병렬계산처리 가능

-(단점)수렴 속도가 WLAS보단 느림

-(단점)unobserved data 다루기가 힘듦, negative sampling이나 gravity 사용이 필요

 

WLAS의 장점:

-(장점)병렬계산처리 가능

-(장점)SGD보다 빠르게 수렴

-(장점)unobserved data 다루기가 쉬움

-(단점)error square형태의 loss에 대해서만 가능

 

 

 

728x90
728x90

A(User-item matrix)에서 (entry는 feedback)

 

Observed only MF는 오직 observed data에 대해서만 objective function에 포함

Weighted MF는 unobserved data 또한 objective function에 포함 with some weight

SVD는 Observed+Unobserved, 즉 모두 포함(따라서 Frobenius norm으로 계산)

 

Observed only MF는 loss가 낮아보이겠으나, 대다수가 0이 아닌 값으로 학습하여(특히 A가 binary 1/0라면 모두 1로 학습해버리는 경향을 띔) generalization 능력이 떨어짐

SVD는 User-item matrix가 굉장히 sparse하여 대다수가 0으로 학습하여 generalization 능력이 떨어짐

Weighted MF는 unoserved data에 적당한 weight를 주어 0과 1에 치우치지 않게 학습(observed data에서도 training set에 많이 등장한 (u,i)는 가중치를 더 줄 수 있음)

 

728x90
728x90

장점:

-타 유저의 데이터를 필요로 하지않아 easy to scale to a large number of users

-해당 유저 고유의 interest를 capture하기 때문에, 덕후들만이 좋아할(대다수 유저들은 좋아하지 않는) 상품이 추천 가능

 

단점:

-item embedding에 있어서 domain knowledge의 수준에 따라 모델 성능 좌우

-유저의 interest 내에서만 추천이 돌기 때문에, interest를 확장할 수는 없다.

728x90
728x90

cosine VS dot product

-dot product가 cosine에 비해 sensitive to the norm of the embedding.

-training set에서 자주 등장한 상품은 norm이 큰 경향이 있음

-따라서 "popularity"를 고려한다면 dot product를 쓰자.

-하지만, popular items가 recommendation을 dominate한다면,

s(i,j) = ||i||^α ||j||^α cos(i,j)

형태로 norm에 대한 일련의 조정을 하여 사용하자.

 

그리고 주의할 점,

training set에 아주 적게 등장한 상품은 embedding이 update가 적게 될 것이다.

근데, 만약 initial embedding의 norm이 아주 큰 상황에서

dot product로 similarity를 measure하여 사용한다면

아주 rare하게 등장한 상품이 recommendation을 dominate할 수도 있음

따라서, initializer를 적절하게 택하는게 필요

 

 

728x90
728x90

추천 시스템 모델을 개발하고 나면, offline metric을 통해 먼저 성능을 가늠해본다.

여기서는 각 offline metric의 정의와 장점, 단점, 단점보완법 등을 알아보자.

 

상황:

tester는 주어진 기간에 구매한 상품set이 존재하고 B = set(bitem_1, bitem_2, ..., bitem_N])

recommendation engine은 각 tester마다 추천 상품 list가 존재 R = [ritem_1, r_item2, ..., ritem_K]

 

Hit rate

-유저마다 Top-k recommendation에서 hit한게 존재하면 hit += 1

-#hit/#user

-고객의 내역 중 time-axis가 존재한다면

  -train/test를 특정 time으로 나눠 계산 가능

  -혹은 고객별 first J data를 활용하여 train후 J+1부터를 test로 삼아 계산 가능

-time-axis가 존재하지 않는다면 leave one out cross validation 사용

장점:

-해석이 아주 간편함

-time-axis가 존재하지 않을 때, 계산량은 많으며 굉장히 낮은 값을 가짐

단점:

-rank-unaware방식

 

ARHR

-Average Reciprocal Hit Rate

-sum(1/rank)/#user

장점:

-rank를 고려하지만...

단점:

-first의 rank만 고려함

 

P@K

-Precision at K

-R의 first K개 중 relevant items의 개수 비율

-Decision-support measure 

ex)

B = set([티셔츠, 반바지])

R = [음료수, 거울, 티셔츠, 반바지]

P@1 = 0/1  # [음료수](1) 중에 set([티셔츠, 반바지])가 존재하는 개수(0)

P@2 = 0/2  # [음료수, 거울](2) 중에 set([티셔츠, 반바지])가 존재하는 개수(0)

P@3 = 1/3  # [음료수, 거울, 티셔츠](3) 중에 set([티셔츠, 반바지])가 존재하는 개수(1)

 

AP@K

-Average Precision at K

-P@1, P@2, ..., P@K의 평균

-Decision-support measure 

장점:

-ranking에 sensitive하다, R 내에서 순서를 바꾸면 score값이 바뀜

-stable, R 내에서 순서를 "조금"만 바꾸면 AP@K값도 "조금"만 바뀜

-ranking이 높은 item이 큰 weight를 갖는다.

-recall-oriented factor가 존재, 즉 tester의 모든 relevant items를 고려해서 AP@K값이 나온다.

단점:

-해석이 어렵다, 이 숫자가 0.03이라고해서 즉각적인 해석이 되지 않는다. 게다가 기본적으로 작은 값들을 가질 때가 많은데, 프로젝트 보고서를 작성할 때 높으신 분에게 이 숫자를 보여주면 기겁할 수 있으니 PM들이 다른 수치가 없냐고 묻는다. 그럴 때엔 다른 수치를 대체하여 사용하거나, 비슷한 도메인에서의 paper에서의 metric을 들고와서 부연설명을 하는게 필요하다.

ex)(위의 예 이어서)

AP@1 = P@1/1 = 0

AP@2 = (P@1+P@2)/2 = (0+0)/2 = 0

AP@3 = (P@1+P@2+P@3)/3 = (0+0+1/3)/3 = 1/9

 

MAP@K

-Mean Average Precision at K

-각 tester마다 AP@K를 구하고, 전체 tester에 대한 AP@K값의 평균

-Decision-support measure 

-장단점은 AP@K와 같다.

 

DCG(Discounted Cumulative Gain), IDCG(Ideal DCG), NDCG(Normalized DCG)

-Decision-support measure

-Gain = Relevancy level

장점

-MAP는 relevance에 대해서만 고려한다면, DCG형태의 concept은 relevancy의 level에 주목한다.

(즉 MAP는 관련이 있다vs없다 지만, DCG형태는 관련이 x(float)만큼 있다. 형태의 관점)

-

단점

-Bad recommendation에 대해서 penalty 부과를 하지 않는다. 대안책으로 bad에 대해 negative score(원래는 zero score를 부과하지만)를 부과하면 해결이 된다. 이 때 전반적으로 score가 낮아지는 경향을 띄며, precision이 recall보다 중요할 때 사용

-다 맞힌 NDCG@3과 다 맞힌 NDCG@5를 생각하면, 후자가 더 높은 점수여야하는데 보정이 안된다. 이 때, 전자는 missing 2 target으로 생각하고 minimum relevance를 설정하여 부과하여 전자도 NDCG@5로 계산하면 보정이 된다.

(즉 더 높은 k에 대해서 더 잘맞춘 경우 점수가 더 높게 설정이 필요)

 

MAE

-Mean Absolute Error

-tester마다 B의 rating과 R의 predicted rating간의 차이의 합(의 평균, 이 때 평균낼 때는 B 중에서도 tester가 rating한 상품들의 개수가 분모로 간다.)

-Error metrics

특징:

-모든 user를 만족할 필요 없을 때 사용, 즉 몇몇 유저에게는 bad recommendation이 등장할 수 있음

-여러 tester에 대해 MAE를 구할 때, 각 유저마다 상품마다 차이를 구하고, 개별tester기준으로 평균을 하는 이유는, 한 user에게 비교적 predict이 우수했음에도 불구하고 error계산하는 상품이 많았다면, 단순히 error값이 커지기 때문, 즉 all users contribute equally하기 위함

-전체 tester들의 B 중에서 rating한 items가 많은 경우, 그 중 popular item과 not popular item이 존재하는 경우 popular/not popular 으로 divide해서 측정하기도 한다. 이는 popular item이 not popular보다 prediction power가 높기 때문에, 비교적 not popular item이 얼마나 예측력을 가지는 것을 따로 보기 위함(long-tail item에 대한 평가)

-Error metrics이기 때문에, 모든 items를 동일한 weight를 갖고 error 측정, 즉 ranking이 중요하지 않은 형태, 즉 not rank-aware metric으로 Top-k recommendation 관점에서는 부적절

-Recommendation system을 평가할 때는 각 tester마다의 MAE를 구하고 전체 tester에 대해 평균

 

MSE, RMSE

-Mean Squared Error, Root Mean Squared Error

-Error metrics

특징:

-큰 error는 더 큰 error로 해석하기에, bad recommendation이 등장하지 않아야하는 조심스러울 때 유용

-여러 tester에 대해 MSE/RMSE를 구할 때, 각 유저마다 상품마다 차이를 구하고, 개별tester기준으로 평균을 하는 이유는, 한 user에게 비교적 predict이 우수했음에도 불구하고 error계산하는 상품이 많았다면, 단순히 error값이 커지기 때문, 즉 all users contribute equally하기 위함

-전체 tester들의 B 중에서 rating한 items가 많은 경우, 그 중 popular item과 not popular item이 존재하는 경우 popular/not popular 으로 divide해서 측정하기도 한다. 이는 popular item이 not popular보다 prediction power가 높기 때문에, 비교적 not popular item이 얼마나 예측력을 가지는 것을 따로 보기 위함(long-tail item에 대한 평가)

-Error metrics이기 때문에, 모든 items를 동일한 weight를 갖고 error 측정, 즉 ranking이 중요하지 않은 형태, 즉 not rank-aware metric으로 Top-k recommendation 관점에서는 부적절

-MSE는 단위가 rating의 제곱, RMSE는 rating과 같음

-Recommendation system을 평가할 때는 각 tester마다의 MAE를 구하고 전체 tester에 대해 평균

 

참고자료:

www.amazon.com/Building-Recommender-Systems-Machine-Learning/dp/1718120125/ref=cm_cr_arp_d_product_top?ie=UTF8

 

Building Recommender Systems with Machine Learning and AI: Help people discover new products and content with deep learning, neu

Building Recommender Systems with Machine Learning and AI: Help people discover new products and content with deep learning, neural networks, and machine learning recommendations.

www.amazon.com

https://trec.nist.gov/presentations/TREC8/intro/tsld039.htm

 

Average Precision

Average Precision Advantages sensitive to entire ranking: changing a single rank will change final score stable: a small change in ranking makes a relatively small change in score has both precision- and recall-oriented factors ranks closest to 1 receive l

trec.nist.gov

https://www.amazon.com/Practical-Recommender-Systems-Kim-Falk/dp/1617292702/ref=sr_1_1?crid=UK2XQNNRKLEG&dchild=1&keywords=practical+recommender+systems&qid=1602080875&sprefix=practical+recommen%2Caps%2C462&sr=8-1

 

Amazon.com

Enter the characters you see below Sorry, we just need to make sure you're not a robot. For best results, please make sure your browser is accepting cookies.

www.amazon.com

https://www.vernier.com/til/1014

 

What are Mean Squared Error and Root Mean Squared Error? - Technical Information Library

The Mean Squared Error (MSE) is a measure of how close a fitted line is to data points. For every data point, you take the...

www.vernier.com

 

728x90
728x90

1. dictionary merge/update

a, b : dictionary

c = a|b  # merge a with b, right always win if key conflicts, a,b 모두 합치되 common key에 대한 value는 b에 것 사용

a |= b  # update a, a와 b모두에 있는 key는 b에서의 value로 update, a에만 있는 key는 그대로 유지

 

 

2. remove prefix/suffix of strings

a : string

a.removeprefix(prefix)  # a가 입력한 prefix로 시작한다면 그것을 slicing으로 제외한 결과를 return

a.removesuffix(suffix)  # a가 입력한 suffix로 끝나면 그것을 slixing으로 제외한 결과를 return

 

3. Type hinting for built-in generic types

type hinting에서 generic type에 대한 지원이 추가

Type hin

 

728x90
728x90

Streaming metric(or stateful metric)이란, (예를 들어 precision)

First batch때 (True positive, False positive) = (4, 5) -> Precision = (4) / (5) = 0.8

Second batch때 (True positive, False positive) = (0, 3) -> Precision = (4+0) / (5+3) = 0.5

...

 

방식으로 batch때마다 metric의 평균이 아니라

batch때마다 각 amount들을 누적해서 계산하는 방식의 metric을 가리킨다.

 

 

728x90
728x90

Paper:

https://dl.acm.org/doi/pdf/10.1145/3298689.3347012

 

Remarks:

-click|like|purchase 등의 활동으로 User-Item binary matrix 생성

(혹은 특정 threshold지정하고 그 값 이상은 1 아니면 0으로 binarize하기)

-

 

Remarks:

 

 

 

-논문에서 제시하는 모델을 살펴보면

  -X는 User-item binary matrix(user가 item을 클릭했다면 1, 아니면 0, 혹은 rating matrix로부터 threshold이상이면 1, 아니면 0으로 binarize해서 사용 가능)

  -

 

 

논문내용 쭉 정리

논문에서 말하는 장점(특히 missing value에 대한 얘기 등)위주로정리

 

728x90
728x90

NDCG

MAPK 등

정의와

예시

해석시 주의할점, 단점, 단점보강방법 등

 

728x90

+ Recent posts