강의 링크 : https://www.udemy.com/course/statsml_x/
- 데이터를 어떻게 일반화된 z-score로 전환하는지
- 왜 z-score 변환이 좋고, 왜 어디에서나 사용되는지
- z-score를 해석하는 방법
- z-score 변환의 기본 가정
Why we need z: Apples vs. oranges
내 키를 다른사람의 무게와 어떻게 비교하는가?
Problem : 단위가 완벽하게 다르다. 그러므로 전적으로 비교불가하다.
**
**Key insight: 값 자체로는 해석하기 어렵다. 분포와 값을 연결한다면 해석하기 쉽다.
**
Solution: 두 측정을 일반화하여 단위가 없도록 스케일링 한다.
Z - transform
$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$
** sigma = 표준편차
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$
Mean-center(평균 중심): 개별값으로부터 평균을 추출한다.
Variance-normalize(분산 정규화): 표준편차로 나눈다.
분포의 중심에서 표준편차 단위로 표현된 값을 가지게 된다.
즉, z 데이터의 단위는 표준편차 단위이다.
Z-transform은 데이터를 이동시키고 늘리지만, 모양을 변경하지 않는다.
Z-transform assumption
$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$
Z-transform을 유효하게 만드는 중요한 가정은 뭘까?
평균과 표준편차가 분포의 중심경향치와 분산을 유효하게 설명해야한다
대략적으로 가우시안분포를 따라야 한다는 것을 의미한다
- 파란 분포 처럼 정규분포를 따라가야 z-스코어가 의미 있음
- 녹색 분포는 계산은 가능하나 z-score의 의미가 없음
'ML' 카테고리의 다른 글
데이터 정규화, 이상치 - What are outliers and why are they dangerous? (0) | 2024.09.23 |
---|---|
데이터 정규화, 이상치 - Min-max scaling (0) | 2024.09.23 |
기술통계 - Shanon entropy (0) | 2024.09.23 |
기술통계 - statistical moments (0) | 2024.09.23 |
기술통계 - QQ plots(quintile-quintile) (0) | 2024.09.23 |