728x90
기본용어:
frequency distribution:y축은 빈도수, x축은 어떤 value
tail:frequency distribution에서 대개 x값이 아주 작거나 아주 큰 부분에서 low frequency를 보이는데, 이러한 부분을 가리킴(대개 long narrow 형태를 띔)
long-tail distribution: heavy-tailed, fat-tailed distribution이라고도 불린다. 극단적으로 큰 y값 또는 극단적으로 작은 y값이 상대적으로 더 자주 발생하는 분포를 가리킴.
skew:two tails에서 하나가 나머지 하나보다 긴 경우를 가리킴
highly skewed의 예:소득분포(이 경우 x축은 연봉 같은 소득 값, y축은 빈도수)
대부분의 data는 정규분포를 따르지 않는다. 해당 도메인에 대한 지식과 통계적인 지식을 함께 활용하여 어떠한 분포로 모델링을 해야할 지 선택해야 한다. 특히 그렇지 않는다면 extreme events가 발생할 수 있다.
즉 long-tailed 부근의 사건이 정규분포로 예상했던 것 보다 더 자주 일어날 것이다 라는 것
728x90