강의 링크 : https://www.udemy.com/course/statsml_x/

  • 왜 이상치(outlier)가 모호한 용어인지
  • 레버리지의 의미
  • 이상치를 처리하는 여러가지 전략들
  • 왜 이상치는 당신의 연구에서 가장 중요한것이 되는가.

An outlier by another other name

Outlier
Anomaly
Extreme(deviant) data
Non-representative data
Noise
** deviant : 일탈적인

  • 왼쪽의 경우, 이상치의 측정은 명확하다
  • 하지만 오른쪽의 경우, 무엇이 이상치인가?

  • 2차원 디멘션일 경우에는 무엇이 아웃라이어일까?
  • 차원이 커질수록 아웃라이어 구분은 더욱더 모호해진다.

Where do outliers com from?

Noisy data
noisy or faulty equipment(장비결함)
Human error(e.g., typo)
Non-cooperative research participant(비협조적인 참가자)
Natural variation(자연적 변이)


Why are outliers bad?

많은 통계적 분석들은 제곱항을 사용(variance, ANOVA, polynomials(다항식), GLM, correlation(상관관계), etc.)

  • 왜 제곱이 나쁜가?
    큰 이상치가 제곱하게 되어 값이 더 커지게 된다.

  • 왼쪽은 원본 데이터
  • 오른쪽은 원본 데이터를 제곱한 것. 이상치의 크기가 더 커졌다. -> 상관관계, 회귀 분석, ANOVA, 일반 선형 모델과 같은 분석의 결과가 부정확할 수 있다.

이상치는 작은 수의 데이터일 때 더 큰 영향을 줄 수 있다.

  • 데이터 수가 적을 때에는 이상치에 대해서 더더욱 신경을 써야 한다.

Leverage

모든 이상치는 동일하지 않다. 이상치는 중간에 있을 때 보다 가장자리에 있을때가 더 나쁘다.

  • x축에 대해서는 이상치는 아니지만, y축에서는 이상치이다.
  • 파란색 최적선(best fit line)은 이상치를 제외했을 경우
  • 노란색 최적선은 이상치를 포함했을 경우
  • 이 상황에서 이상치는 상대적으로 크게 영향을 주지 않고있다. -> 기울기에는 변화가 없기 때문 -> 로우 레버리지
  • 일반적으로 y 축의 변화에는 관심이 없음 ->기울기, 즉 x,y의 관계에 관심

  • 현재의 경우, 기울기에 큰 영향을 미치므로 레버리지가 높다고 볼 수 있음

  • 하지만 데이터 수가 늘어남에 따라 기울기의 차이는 줄어드는것을 볼 수 있음
  • -> 작은 데이터의 경우 이상치가 기울기에 큰 영향을 미칠 가능성이 높지만, 데이터가 많으면 많을수록 그 영향은 줄어든다.

How to deal with outliers

Strategy 1:
이상치를 식별하고 분석을 수행하기 전에 제거하는것
Assumption: 이상치가 의미없는 값일 경우

Strategy 2:
이상치를 그대로 두고 이상치가 결과에 미치는 부정적 영향을 완화하는 견고한 방법을 찾아라
Assumption: 비정상적이지만 유효한 데이터일 경우

결론 :
이상치는 무조건적으로 조사되고, 평가되어야 한다.
생각없이 이상치를 제거하지 말아라
이상치를 무시하지 말아라

  • 이상치는 매우 유용한 정보를 제공할 수 있다.
  • 이상치가 어디서 비롯되고, 왜 데이터에 존재하는지 이해하는것이 매우 중요할 수 있다. -> 이상치가 연구의 가장 중요할 부분일 수도 있는 이유.

+ Recent posts