(미완)Missing data를 어떻게 다룰 것인가

2020. 10. 26. 00:55

728x90

Missing data에도 분류가 있다.

MCAR(Missing Completely At Random), 특정 column(c_k)의 결측 여부가 완전히 random으로 발생하는 경우, 즉 c_k가 다른 c_1, c_2, ...와는 관련이 없을 때를 가리킴

MAR(Missing At Random), 특정 c_k의 결측 여부가 다른 c_1, c_2, ... 중 몇몇과 관련이 있는 경우

예를 들면, 소득수준(=c_1)에 따라 학업성취도(=c_k)의 결측 여부가 관련이 있을 경우

MNAR(Missing Not At Random, non ignorable), 특정 c_k의 결측 여부가 c_k의 값과 관련이 있는 경우

예를 들면, 학업성취도가 낮은 학생들이 학업성취도에 응답하지 않는 경우

Missing data 처리 테크닉

(1) Listwise deletion

변수에 적어도 하나의 결측치라도 존재하면 해당 instance를 제거하는 방식

MCAR일 때만 가능함

sample의 개수가 줄어든다는 단점이 존재

(2) Pairwise deletion

특정 분석에서 사용되는 변수에만 결측치가 존재하는 instance를 제거하는 방식

MCAR일 때만 가능함

sample의 개수가 줄긴하지만 listwise보단 덜 줄어듦

(3) Mean imputation

전체점수의 평균값으로 결측치를 대체해버리는 방식

MAR일 때 baised된 값이 나오게 됨

728x90

[Statistics] Skewness & Kurtosis (0)	2020.11.15
(미완)Softmax with scale converges to Hardmax(argmax) when (0)	2020.11.06
[Statistics]Likelihood, MLE, MAP (0)	2020.10.25
(미완)[Parameter Inference]Sampling based inference (0)	2020.10.18
[Algorithm]Viterbi algorithm (0)	2020.10.18

나를 잃지 말자