강의 링크 : https://www.udemy.com/course/statsml_x/
- z-score의 중요성 기억하기
- 어떻게 z-score가 이상치를 탐지하는지
- 반복적인 z스코어 이상치 메서드
The z-score
$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$
평균중심과 표준편차를 일반화
z-score 는 분포의 중심에서 표준 편차 단위로 떨어져 있는 것으로 해석된다.
z-score 는 만약 현재 분포가 대략적으로 정규분포라면 유효하다.
- 만약 정규분포가 아니라면, 수정된 z-score를 사용해야 한다.
Z-score for outliers
Algorithm:
- 데이터를 z-score로 변환하다.
- 만약 데이터 포인트가 이상치이고, 이것이 표준편차의 임계점을 초과한다면(종종 3, 하지만 임시적이다.)
- z스코어는 무손실 변환 -> 데이터의 모양을 변화시키지 않는다 -> 데이터들의 관계에 변화가 없음
- 우리가 가진 값들이 양수뿐이어도 스케일링을 통해 음수가 될 수 있다.
- 임계값은 임의적(주관이 개입된다.) -> 음수가 될수도, 양수가 될수도 있다.
- 이상치를 제거하고 이상치가 없을때 까지 반복한다
이를 반복한다.
- 첫번째 반복에서는 하나의 이상치만 발견 -> 제거(이후 반복에서 표준편차의 값이 달라지게 됨)
- 기존에는 이상치가 아니였던 데이터가 이상치가 됨 -> 제거
- 더이상 이상치가 나오지 않음-> 총 3개의 이상치 제거
강사는 좋아하는 방법이 아님. -> 이상치가 아니라고 생각했던것들도 제거되기 때문
'ML' 카테고리의 다른 글
데이터 정규화, 이상치 - The modified z-score method (0) | 2024.09.23 |
---|---|
데이터 정규화, 이상치 - What are outliers and why are they dangerous? (0) | 2024.09.23 |
데이터 정규화, 이상치 - Min-max scaling (0) | 2024.09.23 |
데이터 정규화, 이상치 - Z-score standardization (0) | 2024.09.23 |
기술통계 - Shanon entropy (0) | 2024.09.23 |