728x90
Missing data에도 분류가 있다.
MCAR(Missing Completely At Random), 특정 column(c_k)의 결측 여부가 완전히 random으로 발생하는 경우, 즉 c_k가 다른 c_1, c_2, ...와는 관련이 없을 때를 가리킴
MAR(Missing At Random), 특정 c_k의 결측 여부가 다른 c_1, c_2, ... 중 몇몇과 관련이 있는 경우
예를 들면, 소득수준(=c_1)에 따라 학업성취도(=c_k)의 결측 여부가 관련이 있을 경우
MNAR(Missing Not At Random, non ignorable), 특정 c_k의 결측 여부가 c_k의 값과 관련이 있는 경우
예를 들면, 학업성취도가 낮은 학생들이 학업성취도에 응답하지 않는 경우
Missing data 처리 테크닉
(1) Listwise deletion
변수에 적어도 하나의 결측치라도 존재하면 해당 instance를 제거하는 방식
MCAR일 때만 가능함
sample의 개수가 줄어든다는 단점이 존재
(2) Pairwise deletion
특정 분석에서 사용되는 변수에만 결측치가 존재하는 instance를 제거하는 방식
MCAR일 때만 가능함
sample의 개수가 줄긴하지만 listwise보단 덜 줄어듦
(3) Mean imputation
전체점수의 평균값으로 결측치를 대체해버리는 방식
MAR일 때 baised된 값이 나오게 됨
728x90
'Math' 카테고리의 다른 글
[Statistics] Skewness & Kurtosis (0) | 2020.11.15 |
---|---|
(미완)Softmax with scale converges to Hardmax(argmax) when (0) | 2020.11.06 |
[Statistics]Likelihood, MLE, MAP (0) | 2020.10.25 |
(미완)[Parameter Inference]Sampling based inference (0) | 2020.10.18 |
[Algorithm]Viterbi algorithm (0) | 2020.10.18 |