728x90

IDA, EDA, CDA를 알아보자.

 

IDA란,

 

The most important distinction between the initial data analysis phase and the main analysis phase, is that during initial data analysis one refrains from any analysis that is aimed at answering the original research question.

특히 다음 4개의 과정을 따른다. 각 과정은 EDA/CDA에서 어떠한 analysis를 할 것이냐에 따라 선택적으로 사용

Quality of data(frequency counts, descriptive statistics(평균, 표준편차, 중앙값 등), normality(skewness, kurtosis, frequency histograms etc), 현재 데이터의 coding scheme을 다른 데이터에 쓸 수 있는지(A국가에 대한 데이터 coding scheme을 B국가에 대해서도 쓸 수 있는지) 등을 체크

(skewness는 데이터의 분포의 비대칭성을 가리킴)

(kurtosis는 데이터의 tailedness를 나타내는 수치인데, 계산식에 따라 다른 해석을 갖는다. Pearson 방식의 경우 클수록 tail이 두꺼움을 나타내며 outliers가 많이 존재함을 나타낸다.)

Quality of measurements(consistency of measurement를 측정, 예를 들면 응답자가 "자전거를 좋아한다"에 yes라고 답변하고, 이후 "자전거를 싫어한다"라는 질문에는 no라고 대답했는 지 등)

Initial transformations(missing data처리하기, variable transformations(square root transformation(정규분포와 살짝 다를 때), log-transformation(정규분포와 많이 다를 때), Inverse transformation(정규분포와 심각하게 다를 때), categorical로 만들기(정규분포와 심각하게 다르며 앞선 transformation이 도움안될 때) 등)

Randomization procedures(종속 변수 외 상당한 background 변수들이 groups마다 골고루 퍼져있는지 확인)

기타

  -dropout(설문 도중 이탈한 데이터 비율)을 확인

  -item nonresponse(설문지 중 응답하지 않음이 많은 설문 문항)을 확인

  -모집단 내 모든 group들이 sample에 존재하는 지

 

EDA란, 

In statistics, exploratory data analysis is an approach to analyzing data sets to summarize their main characteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task.

 

CDA란,

 

728x90

+ Recent posts