강의 링크 : https://www.udemy.com/course/statsml_x/

  • z-score의 중요성 기억하기
  • 어떻게 z-score가 이상치를 탐지하는지
  • 반복적인 z스코어 이상치 메서드

The z-score

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

평균중심과 표준편차를 일반화
z-score 는 분포의 중심에서 표준 편차 단위로 떨어져 있는 것으로 해석된다.
z-score 는 만약 현재 분포가 대략적으로 정규분포라면 유효하다.

  • 만약 정규분포가 아니라면, 수정된 z-score를 사용해야 한다.

Z-score for outliers

Algorithm:

  1. 데이터를 z-score로 변환하다.
  2. 만약 데이터 포인트가 이상치이고, 이것이 표준편차의 임계점을 초과한다면(종종 3, 하지만 임시적이다.)

  • z스코어는 무손실 변환 -> 데이터의 모양을 변화시키지 않는다 -> 데이터들의 관계에 변화가 없음
  • 우리가 가진 값들이 양수뿐이어도 스케일링을 통해 음수가 될 수 있다.
  • 임계값은 임의적(주관이 개입된다.) -> 음수가 될수도, 양수가 될수도 있다.
  1. 이상치를 제거하고 이상치가 없을때 까지 반복한다
    이를 반복한다.

  • 첫번째 반복에서는 하나의 이상치만 발견 -> 제거(이후 반복에서 표준편차의 값이 달라지게 됨)
  • 기존에는 이상치가 아니였던 데이터가 이상치가 됨 -> 제거
  • 더이상 이상치가 나오지 않음-> 총 3개의 이상치 제거
    강사는 좋아하는 방법이 아님. -> 이상치가 아니라고 생각했던것들도 제거되기 때문

+ Recent posts