강의 링크 : https://www.udemy.com/course/statsml_x/

  • 비정규본포에 대한 z-score 대안

Modified Z-score for outliers

For non-normal distributions:

  1. z-score를 수정된 z-score로 대체한다.
  2. 이전 매서드를 반복한다.
  3. 긴꼬리 분포에 유용하다.


Modified Z-score for outliers

$$M_i = \frac{.6745(x_i-\overline{x})}{MAD}$$

  • .6745 : 정규분포의 3번째 사분위수(Q3:데이터의 75%가 이 값보다 작거나 같음)에 해당하는 표준편차 단위$$MAD = median(|x_i-\overline{x}|)$$
  • $$\overline{x} = median(x)$$

강의 링크 : https://www.udemy.com/course/statsml_x/

  • z-score의 중요성 기억하기
  • 어떻게 z-score가 이상치를 탐지하는지
  • 반복적인 z스코어 이상치 메서드

The z-score

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

평균중심과 표준편차를 일반화
z-score 는 분포의 중심에서 표준 편차 단위로 떨어져 있는 것으로 해석된다.
z-score 는 만약 현재 분포가 대략적으로 정규분포라면 유효하다.

  • 만약 정규분포가 아니라면, 수정된 z-score를 사용해야 한다.

Z-score for outliers

Algorithm:

  1. 데이터를 z-score로 변환하다.
  2. 만약 데이터 포인트가 이상치이고, 이것이 표준편차의 임계점을 초과한다면(종종 3, 하지만 임시적이다.)

  • z스코어는 무손실 변환 -> 데이터의 모양을 변화시키지 않는다 -> 데이터들의 관계에 변화가 없음
  • 우리가 가진 값들이 양수뿐이어도 스케일링을 통해 음수가 될 수 있다.
  • 임계값은 임의적(주관이 개입된다.) -> 음수가 될수도, 양수가 될수도 있다.
  1. 이상치를 제거하고 이상치가 없을때 까지 반복한다
    이를 반복한다.

  • 첫번째 반복에서는 하나의 이상치만 발견 -> 제거(이후 반복에서 표준편차의 값이 달라지게 됨)
  • 기존에는 이상치가 아니였던 데이터가 이상치가 됨 -> 제거
  • 더이상 이상치가 나오지 않음-> 총 3개의 이상치 제거
    강사는 좋아하는 방법이 아님. -> 이상치가 아니라고 생각했던것들도 제거되기 때문

강의 링크 : https://www.udemy.com/course/statsml_x/

  • 왜 이상치(outlier)가 모호한 용어인지
  • 레버리지의 의미
  • 이상치를 처리하는 여러가지 전략들
  • 왜 이상치는 당신의 연구에서 가장 중요한것이 되는가.

An outlier by another other name

Outlier
Anomaly
Extreme(deviant) data
Non-representative data
Noise
** deviant : 일탈적인

  • 왼쪽의 경우, 이상치의 측정은 명확하다
  • 하지만 오른쪽의 경우, 무엇이 이상치인가?

  • 2차원 디멘션일 경우에는 무엇이 아웃라이어일까?
  • 차원이 커질수록 아웃라이어 구분은 더욱더 모호해진다.

Where do outliers com from?

Noisy data
noisy or faulty equipment(장비결함)
Human error(e.g., typo)
Non-cooperative research participant(비협조적인 참가자)
Natural variation(자연적 변이)


Why are outliers bad?

많은 통계적 분석들은 제곱항을 사용(variance, ANOVA, polynomials(다항식), GLM, correlation(상관관계), etc.)

  • 왜 제곱이 나쁜가?
    큰 이상치가 제곱하게 되어 값이 더 커지게 된다.

  • 왼쪽은 원본 데이터
  • 오른쪽은 원본 데이터를 제곱한 것. 이상치의 크기가 더 커졌다. -> 상관관계, 회귀 분석, ANOVA, 일반 선형 모델과 같은 분석의 결과가 부정확할 수 있다.

이상치는 작은 수의 데이터일 때 더 큰 영향을 줄 수 있다.

  • 데이터 수가 적을 때에는 이상치에 대해서 더더욱 신경을 써야 한다.

Leverage

모든 이상치는 동일하지 않다. 이상치는 중간에 있을 때 보다 가장자리에 있을때가 더 나쁘다.

  • x축에 대해서는 이상치는 아니지만, y축에서는 이상치이다.
  • 파란색 최적선(best fit line)은 이상치를 제외했을 경우
  • 노란색 최적선은 이상치를 포함했을 경우
  • 이 상황에서 이상치는 상대적으로 크게 영향을 주지 않고있다. -> 기울기에는 변화가 없기 때문 -> 로우 레버리지
  • 일반적으로 y 축의 변화에는 관심이 없음 ->기울기, 즉 x,y의 관계에 관심

  • 현재의 경우, 기울기에 큰 영향을 미치므로 레버리지가 높다고 볼 수 있음

  • 하지만 데이터 수가 늘어남에 따라 기울기의 차이는 줄어드는것을 볼 수 있음
  • -> 작은 데이터의 경우 이상치가 기울기에 큰 영향을 미칠 가능성이 높지만, 데이터가 많으면 많을수록 그 영향은 줄어든다.

How to deal with outliers

Strategy 1:
이상치를 식별하고 분석을 수행하기 전에 제거하는것
Assumption: 이상치가 의미없는 값일 경우

Strategy 2:
이상치를 그대로 두고 이상치가 결과에 미치는 부정적 영향을 완화하는 견고한 방법을 찾아라
Assumption: 비정상적이지만 유효한 데이터일 경우

결론 :
이상치는 무조건적으로 조사되고, 평가되어야 한다.
생각없이 이상치를 제거하지 말아라
이상치를 무시하지 말아라

  • 이상치는 매우 유용한 정보를 제공할 수 있다.
  • 이상치가 어디서 비롯되고, 왜 데이터에 존재하는지 이해하는것이 매우 중요할 수 있다. -> 이상치가 연구의 가장 중요할 부분일 수도 있는 이유.

강의 링크 : https://www.udemy.com/course/statsml_x/

  • 어떻게 특정한 범위의 데이터를 스케일링하는지(특히[0,1])
  • 왜 min-max 스케일링이 유용한지

Min-max scaling: the main idea

  • 데이터를 0~1사이의 값으로 변환 - > min-max 스케일링 -> 유니티 정규화 데이터
  • 유니티 정규화 데이터(unity norm data) -> 데이터가 0~1까지의 범위를 가진다는것을 의미
  • z-score와 동일하게 데이터의 상대적 값을 변경하지 않는다 -> 무손실변환
  • 하지만 z-score와는 달리 그래프의 단위는 표준편차 단위가 아니다

Min-max scaling: the Formula

Scale to a range of 0 to 1 :

$$\tilde{x}=\frac{x-\min_\space x}{\max_\space x - \min_ \space x}$$

Scale to a range of a to b:

$$x^* = a+\tilde{x}(b-a)$$

강의 링크 : https://www.udemy.com/course/statsml_x/

  • 데이터를 어떻게 일반화된 z-score로 전환하는지
  • 왜 z-score 변환이 좋고, 왜 어디에서나 사용되는지
  • z-score를 해석하는 방법
  • z-score 변환의 기본 가정

Why we need z: Apples vs. oranges

내 키를 다른사람의 무게와 어떻게 비교하는가?
Problem : 단위가 완벽하게 다르다. 그러므로 전적으로 비교불가하다.

**
**Key insight: 값 자체로는 해석하기 어렵다. 분포와 값을 연결한다면 해석하기 쉽다.
**

Solution: 두 측정을 일반화하여 단위가 없도록 스케일링 한다.


Z - transform

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

** sigma = 표준편차
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$
Mean-center(평균 중심): 개별값으로부터 평균을 추출한다.
Variance-normalize(분산 정규화): 표준편차로 나눈다.
분포의 중심에서 표준편차 단위로 표현된 값을 가지게 된다.

즉, z 데이터의 단위는 표준편차 단위이다.

Z-transform은 데이터를 이동시키고 늘리지만, 모양을 변경하지 않는다.


Z-transform assumption

$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$

Z-transform을 유효하게 만드는 중요한 가정은 뭘까?
평균과 표준편차가 분포의 중심경향치와 분산을 유효하게 설명해야한다
대략적으로 가우시안분포를 따라야 한다는 것을 의미한다

  • 파란 분포 처럼 정규분포를 따라가야 z-스코어가 의미 있음
  • 녹색 분포는 계산은 가능하나 z-score의 의미가 없음

강의 링크 : https://www.udemy.com/course/statsml_x/

What's in a name?

사건의 불확실성을 수량화 하는 방법
불확실성이 클수록 더 많은 정보가 존재하게 된다.
불확실성이 증가할수록 엔트로피도 증가한다.
얼마나 불확실한가를 수치로 나타낸것

  • 경기를 한다고 할때, 이 경기가 이길지, 질지를 알게된다면, 그것은 즉, 승부가 어떻게 날지 불확실한게 아니라, 확실해져가고 있는것이다. 즉, 누가 이길지 알수 없을때가 엔트로피가 가장 높고, 어느 한쪽이 지든 이기든 확실해져 간다면, 엔트로피는 줄어든다.

Formula for entropy

$$H = -\sum^n_{i=1}p(x_i)log_2(p(x_i))$$

x = data values
p = probability
** 1보다 작은 수의 로그는 음수를 반환하기 때문에, 모든것이 음수가 된다. 그 상태에서 그래프를그리면 U자 형태가 된다.
** 음수로 계산하는것보다는 양수로 계산하는게 더 좋기때문에 -를 붙여 수를 양수로 변환한다.
** 이전의 엔트리 그래프가 ∩ 모양인 이유가 -를 곱해서 U가 뒤집어졌기 때문이다.

어떤 데이터에 이 공식을 적용할 수 있을까?
명목,순서,이산 데이터

구간,비율 데이터는 어떨까?
히스토그램 생성을 통해 이산 데이터로 변환한다.
중요: 엔트로피는 빈의 크기와 빈의 수에 따라 달라진다.


Interpreting entropy

높은 엔트로피는 데이터셋이 많은 변동성을 가진다는것을 의미한다. -> 데이터가 일정하지 않고 다양하다 -> 정보가 많다.
낮은 엔트로피는 데이터셋의 값이 대부분 비슷하다는것을 의미한다. -> 값이 반복되므로 정보가 적다 -> 그래서 엔트로피가 낮으면 정보가 적다.

엔트로피와 분산의 차이는 뭘까?

  • 분산과 엔트로피는 데이터의 유사한 특성을 측정한다는 공통점이 있다.
    엔트로피는 비선형이며, 분포에 대한 어떠한 가정도 하지 않는다.
  • 분포가 어떻게 생겼는지 고민할 필요 없음
    분산은 평균의 유효성에 의존 -> 대략적인 정규 분포 데이터에만 적용이 가능함.

엔트로피에는 두가지 단위가 존재

Units:"bits"
## $$H = -\\sum^n\_{i=1}p(x\_i)log\_2(p(x\_i))$$ - 최대 엔트로피 : 1
Units:"nats"
## $$H = -\\sum^n\_{i=1}p(x\_i)ln(p(x\_i))$$ - 자연로그 기반

이 두 공식은 단위만 일관적으로 사용하면 어떤 공식을 사용해도 상관없음

강의 링크 : https://www.udemy.com/course/statsml_x/

Unstandardized statistical moments

** Unstandardized : 표준화되지 않은

General formula : $$m_k = n^{-1}\sum^n_{i=1}(x_i-\overline{x})^k$$

First moment : mean $$m_1 = n^{-1}\sum^n_{i=1}x_i$$
Second moment: variance $$m_2 = n^{-1}\sum^n_{i=1}(x_i-\overline{x})^2$$Third moment : skewness
** skewness(비대칭도/왜도) : 데이터 분포의 대칭성이 얼마나 결핍되었는지
$$m_3 = (n\sigma^3)^{-1}\sum^n_{i=1}(x_i-\overline{x})^3$$

Fourth moment: kurtosis
** kurtosis(첨도) : 그래프 꼬리의 굵기 / 분포에 존재하는 outlier의 척도
$$m_4 = (n\sigma^4)^{-1}\sum^n_{i=1}(x_i-\overline{x})^4$$


First moment: mean

$$m_1 = n^{-1}\sum^n_{i=1}x_i$$

Mean: Average value

Second moment : variance

$$m_2 = n^{-1}\sum^n_{i=1}(x_i-\overline{x})^2$$

Variance: Dispersion

Third moment : skewness

$$m_3 = (n\sigma^3)^{-1}\sum^n_{i=1}(x_i-\overline{x})^3$$

Skewness: Dispersion asymmetry

** asymmetry : 비대칭

  • 왜도의 방향 = 데이터 값을 이상치 범위로 끌어당기는 방향을 나타냄
  • 이상치가 오른쪽에 있으므로, positive, right skew
  • 이상치가 왼쪽에 있으므로 negative, left skew

Fourth moment : kurtosis

$$m_4 = (n\sigma^4)^{-1}\sum^n_{i=1}(x_i-\overline{x})^4$$

Kurtosis: Tail "fatness"

  • 꼬리가 굵어서 high kurtisis
  • 꼬리가 얇아서 low kurtosis

강의 링크 : https://www.udemy.com/course/statsml_x/

 

#### The normal and the wannabe

왼쪽은 정규분포를 따르는것으로 보이나, 오른쪽은 확실하지 않음
qq플롯은 정규분포가 맞는지 아닌지 좀더 편하게 해석할수 있게 해주는 도구

 

---

#### The QQ plot

이전 슬라이드와 동일한 데이터를 qq플롯으로 보았을 때
x = 이론상의 녹색 선이였던 데이터 , y = 실제 데이터
정규분포를 따른다면 qq플롯의 대각선을 따라 대략적으로 데이터가 표시된다.

강의 링크 : https://www.udemy.com/course/statsml_x/

Medians, super-charged

  • 중앙값을 한번 구하고, 나눈 두면에서 각각 중앙값을 구함

  • 이렇게 3개의 사분위수(quartile)을 만들었을때, 1~3의 범위 내의 데이터는 전체 데이터의 50%를 차지하게 된다. 그리고 이것을 interquartile이라고 부른다.

The Box-and-whisker plot, redux

  • 박스플롯의 median은 전체 데이터의 중위값, quartile 1은 하위 50%의 중위값, quartile3는 상위 50%의 중위값
  • 그리고 quartile1~3까지 모두 아우르는 범위를 interquartile이라고 부른다.

강의 링크 : https://www.udemy.com/course/statsml_x/

문제시 삭제합니다.

산포의 발상

  • 이 다양한 분포가 얼마나 퍼져 있는지를 측정할 필요가 있음
  • 중심경향과는 관계없이 데이터셋에 적용 할 수 있는 하나의 숫자가 필요하다.

Variance(분산)

Formula : $$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$

  • $x_i-\overline{x}$ (중심화/mean centering): 각 데이터포인트에 평균값을 빼는것

Suitable for:
어떤 분포든
가우시안 분포가 가장 적합

Suitable data types:
수치 데이터
순서형 데이터(but requires mean) -> 보통은 잘 안씀

결론적으로는 수치 데이터인 단봉 가우시안 분포에 가장 잘맞음

Example
x = [8,0,4,1,-2,7]
var(x) = $\frac{\sum^N_{i=1}([5,-3,1,-2,-5,4]^2)}{N-1}$
var(x) = 16

x = [2,3,4,3,4,4]
var(x) = 0.67

  • 분산값이 크면 실제로 데이터도 넓게 분산되어있다
  • 분산값이 작으면 작게 분산되어있다

공식에 대한 의문

$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$

Why mean-center?

분산은 평균 주변의 산포를 나타낸다
아래의 두 데이터셋은 동일한 분산을 가져야 한다

d1 = [1 2 3 3 2 1]
d2 = [101 102 103 103 102 101]

어떠한 값이든, 그 간격이 동일하다면 같은 분산이 나와야 한다
즉, 각 위치에서 평균위치 사이의 거리를 알아야 하기 때문이다

Why are the differences squared?

우리는 평균까지의 거리를 알고싶다.
제곱이 없다면 분산은 0이 될 것이다.

d1 = [1 2 3 3 2 1]
Mean-centered d1 = [-1 0 1 1 0 -1] sums to 0!

즉, 평균과 현재 데이터포인트의 거리를 구하는것이기 때문에 음수는 존재할 수 없다.

Why not take the absolute value("mean absolute difference")?

*mean absolute difference(MAD) : 평균 절대 편차*$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}|x_i-\overline{x}|$$

제곱 :

  • 큰 값에 더 강조를 둠
  • 최적화에 더유리함(연속적이고 미분 가능)
  • 유클리드 거리와 더 가까움
  • 분포의 두번째 '모먼트'
  • 최소제곱 회귀와 더 좋은 연결
  • 기타 특성들

MAD:

  • 좋음
  • 이상치에 강함
  • 흔히 사용되지 않음
  • 이상값 및 데이터 정리에 대한 섹션의 '중위수 절대 편차라는 공식'과 연관이 있음
Why divide by n-1?

N-1로 나누는것은 표본 분산을 계산하기 위한것
N으로 나누는것은 모집단의 분산을 계산하기 위한것

모집단 평균은 이론적인 수량이다

  • 모집단 평균은 이론적인 수치이기 때문에, 모집단이 따르고 있다고 가정하는 통계적 분포의 파라미터들을 기반으로 계산이 가능하다
  • 예 : 중심경향치와 표준편차를 이용해 모집단의 평균을 추정
    반면에 표본 평균은 경험적 수량이다
  • 표본 평균은 표본마다 다르다

정확하게는 모집단을 $\sigma^2$ 으로 했을 때의 공식은 n으로 나눈는 것이 맞고,
표본집단, $S^2$ 일때에는 n-1이 맞다

하지만 많은 상황에서 사람들은 두 용어를 혼용해서 쓰므로 맥락에 맞게 해석해야 한다

주사위의 모집단 평균은 3.5이다

  • 주사위를 던지면 던질수록 그 수의 평균은 3.5에 가까워 진다
    주사위를 4번 던졌을 때 (표본) 표본 평균은 3이다

표본 평균을 알고 있다면, 표본의 나머지 값을 추론하기 위해 알아야 할 값의 개수는 몇개인가?
정답 : 3 / ex) 1,2,4,?

  • 표본 평균이 3이라고 할때, 1,2,4의 값이 나왔고, 마지막은 몇이 나올지 모른다
  • 이 방정식에서 유일한 미지수이기 때문에 마지막 값은 5가 된다
    그러므로, 이 표본에는 N-1 자유값 또는 자유도가 있다
  • 마지막 값은 자유롭지 않으며, 다른 값들과 값들의 평균에 완전히 의존한다.
  • 그래서 평균과 다른 값들을 알면, 다른값들과 평균에 의존하기 때문에 사전에 알 필요가 없는 값이 항상 존재한다.
  • 그래서 표본 분산의 경우, 우리는 n-1로 나누는 것이다.
  • 이것이 이 통계의 자유도의 수이다.

Standard deviation(표준 편차)

Formula:
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$

  • 단순히 보면 데이터포인트와 평균값들의 평균거리처럼 보이지만, 제곱이 존재하므로 일반 평균거리값과는 다르게 큰수에 더 가중치를 줄 수 있다
  • 데이터 변동성에 대한 강조가 필요하거나, 이상치가 중요할 경우 표준편차를 사용하고, 덜 민감한 변동성 측정이 필요할 경우 평균거리가 유용하다.Fano factor(파노 팩터): $$F= \frac{\sigma^2}{\mu}$$
  • Two other related measures
  • Fano Factor = 1: 포아송 분포와 일치하며, 사건 발생의 규칙성과 불규칙성 사이의 균형을 잘 유지하는 상태
  • Fano Factor > 1: 데이터가 포아송 분포보다 더 큰 변동성을 가지며, 더 불규칙한 특성을 나타냄
  • Fano Factor < 1: 데이터가 포아송 분포보다 더 작은 변동성을 가지며, 더 규칙적인 특성을 나타냄
    Coefficient of variation(변동계수): $$CV = \frac{\sigma}{\mu}$$
  • 데이터의 상대적 변동성을 비교할 때 유용
  • 특히 평균값이 다른 두 데이터 세트를 비교할 때 적절함
  • 상대적인 변동성을 측정하므로 단일 데이터는 계산할 수 없다.

통계 응용에 나옴
정규화된 변동성 측정치
양수값만을 포함하는 데이터셋에 사용됨

즉, 파노 팩터는 단일 데이터에 대한 절대적인 측정값을 나타내며, 변동계수는 두 데이터 사이의 변동성이 얼마나 차이가 나는지에 대한 상대적 측정값을 나타낸다.

+ Recent posts