데이터 정규화, 이상치 - Z-score standardization

ta_chan 2024. 9. 23. 20:07

2024. 9. 23. 20:07

강의 링크 : https://www.udemy.com/course/statsml_x/

데이터를 어떻게 일반화된 z-score로 전환하는지
왜 z-score 변환이 좋고, 왜 어디에서나 사용되는지
z-score를 해석하는 방법
z-score 변환의 기본 가정

Why we need z: Apples vs. oranges

내 키를 다른사람의 무게와 어떻게 비교하는가?
Problem : 단위가 완벽하게 다르다. 그러므로 전적으로 비교불가하다.

**
**Key insight: 값 자체로는 해석하기 어렵다. 분포와 값을 연결한다면 해석하기 쉽다.
**

Solution: 두 측정을 일반화하여 단위가 없도록 스케일링 한다.

Z - transform

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

** sigma = 표준편차
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$
Mean-center(평균 중심): 개별값으로부터 평균을 추출한다.
Variance-normalize(분산 정규화): 표준편차로 나눈다.
분포의 중심에서 표준편차 단위로 표현된 값을 가지게 된다.

즉, z 데이터의 단위는 표준편차 단위이다.

Z-transform은 데이터를 이동시키고 늘리지만, 모양을 변경하지 않는다.

Z-transform assumption

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

Z-transform을 유효하게 만드는 중요한 가정은 뭘까?
평균과 표준편차가 분포의 중심경향치와 분산을 유효하게 설명해야한다
대략적으로 가우시안분포를 따라야 한다는 것을 의미한다

파란 분포 처럼 정규분포를 따라가야 z-스코어가 의미 있음
녹색 분포는 계산은 가능하나 z-score의 의미가 없음

'ML' 카테고리의 다른 글

데이터 정규화, 이상치 - What are outliers and why are they dangerous? (0)	2024.09.23
데이터 정규화, 이상치 - Min-max scaling (0)	2024.09.23
기술통계 - Shanon entropy (0)	2024.09.23
기술통계 - statistical moments (0)	2024.09.23
기술통계 - QQ plots(quintile-quintile) (0)	2024.09.23

타짱의 기술블로그