728x90

기본용어:

frequency distribution:y축은 빈도수, x축은 어떤 value

tail:frequency distribution에서 대개 x값이 아주 작거나 아주 큰 부분에서 low frequency를 보이는데, 이러한 부분을 가리킴(대개 long narrow 형태를 띔)

long-tail distribution: heavy-tailed, fat-tailed distribution이라고도 불린다. 극단적으로 큰 y값 또는 극단적으로 작은 y값이 상대적으로 더 자주 발생하는 분포를 가리킴.

skew:two tails에서 하나가 나머지 하나보다 긴 경우를 가리킴

 

highly skewed의 예:소득분포(이 경우 x축은 연봉 같은 소득 값, y축은 빈도수)

 

대부분의 data는 정규분포를 따르지 않는다. 해당 도메인에 대한 지식과 통계적인 지식을 함께 활용하여 어떠한 분포로 모델링을 해야할 지 선택해야 한다. 특히 그렇지 않는다면 extreme events가 발생할 수 있다.

즉 long-tailed 부근의 사건이 정규분포로 예상했던 것 보다 더 자주 일어날 것이다 라는 것

 

728x90

+ Recent posts