728x90
728x90
728x90

둘 다 가설검증(hypothesis test)에서 쓰이는 용어이다.

 

Exact test와 Approximate test는

p-value를 구할 때 exact한 계산으로 구하냐 approximate한 계산으로 구하냐를 가리킨다.

 

주로

non-parametric이면서 p-value를 exact하게 구하거나

parametric인데도 binomial이나 Poisson분포인 경우는 exact 가능

그 외 대다수는 approximate test일 가능성이 높다.

 

예를 들면

Fisher's exact test가 exact test의 대표적인 예

chi-squared test가 approximate test의 대표적인 예

728x90

'Statistics' 카테고리의 다른 글

[Statistics] p-value, 1종 오류(type I error rate)  (0) 2020.10.03
728x90

p-value는 귀무가설(null hypothesis)이 참이라고 가정했을 때 샘플 데이터를 얻을 확률이다. 그래서 샘플링할 때마다 달라지는 확률 변수이다.

type I error rate는 p-value를 보고 null hypothesis를 기각할지 말지 정하는 확률 threshold

=significance level

=False positive rate(positive를 rejecting null hypothesis라 보고, positive라 예측했지만 실제론 negative할 확률)

=null hypothesis를 reject했지만 실제론 not reject해야할 확률

 

p-value는 실제 sampling(observed data)로 부터 결정지어지며

type I error rate는 테스트상 서로 결과를 받아들이기 위한 일종의 기준 상수이다.

다만 "~~~확률"로 불려지니까 헷갈리게 만든다.

 

예를 들면 한 동전이 fair한지 친구랑 테스트하기로 하자. 친구가 동전을 10번 던져 모두 앞면이 나와서, 친구가 "이 동전은 not fair ㅇㅈ?" 나는 "어 ㅇㅈ" 할 것 같다.

 

앞면 9번 뒷면 1번이라도 난 not fair에 ㅇㅈ할 것만 같다.

앞면 8번 뒷면 2번이면 의심이 갈 것이다. 이게 뽀록이 터져서 앞면이 더 나온게 아닐까?

물론 처음부터 앞면 10번 나와도 뽀록이라 의심할 수 있겠지만 그러기엔...

 

앞면이 10번이나 0번 나올 확률은 2/1024

앞면이 10,9,1,0번 나올 확률은 22/1024

 

즉, 22/1024, 약 0.021로 0.05보다 작다. 그래서 귀무가설(=이 동전은 fair다)를 기각한다.

앞면이 10,9,8,2,1,0번 나올 확률은 112/1024, 약 0.109로 0.05보다 크다. 그래서 귀무가설을 기각하지 않는다.

 

여기서 친구가 동전을 10번 던져서 앞면이 나온 횟수로부터 확률 구한 것이 p-value구하는 과정이고

0.05기준으로 fair냐 not fair냐 할 때, 0.05기준으로 할 것이다 하는 것이 type I error rate(=0.05)를 설정하는 과정이다.

즉 Choosing α = setting a bound on type I error

 

친구와 나는 이 동전이 fair한지 안한지에 대한 기준인 type I error rate를 먼저 결정하고 실험을 해야한다.

그리고 type I error rate를 얼마로 결정했든 p-value는 동전10번 던져진 결과에 의해 결정된다.

둘을 비교하고선 서로 정한 기준(type I error rate)에 따라 결론을 얻을 것이다(fair or not fair)

728x90

'Statistics' 카테고리의 다른 글

[Statistics] Exact test, Approximate test  (0) 2020.10.03

+ Recent posts