일반적인 Hypergeometric Distribution해석(변인이 1개)
전체 M개가 들어있는 항아리
그 중 내가 좋아하는게 n개, 좋아하지 않는게 M-n개
이 때 M개 중 k개를 비복원으로 뽑을 때 내가 좋아하는게 0,1,2,... 개가 나올 확률 분포
(이게 가장 직관적으로 이해하기 쉬운 해석)
근데 Fisher's exact test를 보다가 변인이 2개인 경우임에도 Hypergeometric distribution으로 해석하는데
바로 이해가 안되어서 정리한다.
공부하는 남자가 a명
공부하는 여자가 b명
공부안하는 남자가 c명
공부안하는 여자가 d명, 총원 n = (a+b+c+d)
따라서 남자가 a+c, 여자가 b+d, 공부하는 사람이 a+b, 공부안하는 사람이 c+d
이 때, a,b,c,d 각각을 모르고, a+c, b+d, a+b, c+d만 알 때, 공부하는 남자 수를 확률변수 X라 할 때
X의 분포는 기하 분포를 따른다.
P(X=k)
= {(a+c) choose k * (b+d) choose (a+b-k)} / n choose (a+b) (1)
= {(a+b) choose k * (c+d) choose (a+c-k)} / n choose (a+c) (2)
...
Hypergeometric distribution으로 해석할 때
(1)에서, n명 중 (a+b)명을 비복원으로 뽑을 때, 내가 좋아하는게(=남자) (a+c)명 중 a명 뽑는 상황
->n명에 대해서 남자(=내가 좋아하는게)로 만들고 공부하냐 안하냐는 잊고,
n명에 대해서 (a+b)명을 뽑아 공부하는 사람으로 만들었을 때, 그 때 내가 좋아하는 게 k개 있는 것으로 해석
(2)에서, n명 중 a+c명을 비복원으로 뽑을 때, 내가 좋아하는게(=공부하는사람) a+b명 중 a명 뽑는 상황
->n명에 대해서 공부하는(=내가 좋아하는게)로 만들고 남자냐 여자냐는 잊고,
n명에 대해서 (a+c)명을 뽑아 남자로 만들었을 때, 그 때 내가 좋아하는 게 k개 있는 것으로 해석
즉, 2변인 중 한 변인으로 먼저 grouping했을 때 나머지 변인으로 분류지을 확률을 생각
P.S.
-n, (a+b), (a+c), (b+d), (c+d)가 주어지면, 자유도가 1인 상황이 된다.
-P(X=k)가 a,b,c,d에 대한 대칭식은 아니다. 하지만, n choose (a+b)의 (a+b) 대신 (a+c), (b+d), (c+d) 변형식 얻기 다 가능