ML

기술통계 - 중심 경향치 측정(중앙값, 최빈값)

ta_chan 2024. 9. 22. 10:50

강의 링크 : https://www.udemy.com/course/statsml_x/

문제시 삭제합니다.

Median(중앙값)

Formula :
$$ x_i, \space i=\frac{n+1}{2} $$

  • 단순히 x의 중앙값을 구하는것

Suitable for:
단봉분포

Suitable data types:
구간, 비율

Example
x = [0,4,1,-2,7]
med(x) = [-2,0,1,4,7]

x =[10,0,4,1,-2,7]
med(x) = [-2,0,1,4,7,10]
med(x) = 2.5

실패 시나리오

  • 단봉푼포에서는 중앙값이 중심경향치를 의미한다.
  • 쌍봉분포에서는 중앙값이 중심경향치를 의미하지 않음.

성공 시나리오

  • mean을 이용한 중심경향치 계산은 비대칭된 분포에서는 부적절함
  • 하지만 중앙값(median)을 이용한 중심경향치 계산은 적절하다.

Mode(최빈값)

Formula:
가장 많이 나온 값

Suitable for:
모든 분포도

Suitable data types:
모든 타입(수치형 데이터는 이산형 데이터로 변환되어야함) -> 주로 명목 데이터에 사용

Example
x=[0,0,1,1,1,2,3,4]
mode(x) = 1

x=[0,0,1,1,1,0,2,3,4]
mode(x) = 0,1

분포도

  • 단봉형, 쌍봉형 데이터 모두 적합

  • 범주형 데이터에 적합

  • 이산형 데이터에도 적합

요약

Mean: 평균값, 이상치에 민감하다. 중심경향치를 구할 때 가장 많이 사용되는 방법. - 정규분포일 때 사용

Median:. 중앙값(상위50%,하위50%)

  • 정규분포 일. 때 빼고는 단봉분포일때 사용

Mode: 가장 많은 값

  • 명목형 데이터일 때 사용