강의 링크 : https://www.udemy.com/course/statsml_x/

문제시 삭제합니다.

산포의 발상

  • 이 다양한 분포가 얼마나 퍼져 있는지를 측정할 필요가 있음
  • 중심경향과는 관계없이 데이터셋에 적용 할 수 있는 하나의 숫자가 필요하다.

Variance(분산)

Formula : $$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$

  • $x_i-\overline{x}$ (중심화/mean centering): 각 데이터포인트에 평균값을 빼는것

Suitable for:
어떤 분포든
가우시안 분포가 가장 적합

Suitable data types:
수치 데이터
순서형 데이터(but requires mean) -> 보통은 잘 안씀

결론적으로는 수치 데이터인 단봉 가우시안 분포에 가장 잘맞음

Example
x = [8,0,4,1,-2,7]
var(x) = $\frac{\sum^N_{i=1}([5,-3,1,-2,-5,4]^2)}{N-1}$
var(x) = 16

x = [2,3,4,3,4,4]
var(x) = 0.67

  • 분산값이 크면 실제로 데이터도 넓게 분산되어있다
  • 분산값이 작으면 작게 분산되어있다

공식에 대한 의문

$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$

Why mean-center?

분산은 평균 주변의 산포를 나타낸다
아래의 두 데이터셋은 동일한 분산을 가져야 한다

d1 = [1 2 3 3 2 1]
d2 = [101 102 103 103 102 101]

어떠한 값이든, 그 간격이 동일하다면 같은 분산이 나와야 한다
즉, 각 위치에서 평균위치 사이의 거리를 알아야 하기 때문이다

Why are the differences squared?

우리는 평균까지의 거리를 알고싶다.
제곱이 없다면 분산은 0이 될 것이다.

d1 = [1 2 3 3 2 1]
Mean-centered d1 = [-1 0 1 1 0 -1] sums to 0!

즉, 평균과 현재 데이터포인트의 거리를 구하는것이기 때문에 음수는 존재할 수 없다.

Why not take the absolute value("mean absolute difference")?

*mean absolute difference(MAD) : 평균 절대 편차*$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}|x_i-\overline{x}|$$

제곱 :

  • 큰 값에 더 강조를 둠
  • 최적화에 더유리함(연속적이고 미분 가능)
  • 유클리드 거리와 더 가까움
  • 분포의 두번째 '모먼트'
  • 최소제곱 회귀와 더 좋은 연결
  • 기타 특성들

MAD:

  • 좋음
  • 이상치에 강함
  • 흔히 사용되지 않음
  • 이상값 및 데이터 정리에 대한 섹션의 '중위수 절대 편차라는 공식'과 연관이 있음
Why divide by n-1?

N-1로 나누는것은 표본 분산을 계산하기 위한것
N으로 나누는것은 모집단의 분산을 계산하기 위한것

모집단 평균은 이론적인 수량이다

  • 모집단 평균은 이론적인 수치이기 때문에, 모집단이 따르고 있다고 가정하는 통계적 분포의 파라미터들을 기반으로 계산이 가능하다
  • 예 : 중심경향치와 표준편차를 이용해 모집단의 평균을 추정
    반면에 표본 평균은 경험적 수량이다
  • 표본 평균은 표본마다 다르다

정확하게는 모집단을 $\sigma^2$ 으로 했을 때의 공식은 n으로 나눈는 것이 맞고,
표본집단, $S^2$ 일때에는 n-1이 맞다

하지만 많은 상황에서 사람들은 두 용어를 혼용해서 쓰므로 맥락에 맞게 해석해야 한다

주사위의 모집단 평균은 3.5이다

  • 주사위를 던지면 던질수록 그 수의 평균은 3.5에 가까워 진다
    주사위를 4번 던졌을 때 (표본) 표본 평균은 3이다

표본 평균을 알고 있다면, 표본의 나머지 값을 추론하기 위해 알아야 할 값의 개수는 몇개인가?
정답 : 3 / ex) 1,2,4,?

  • 표본 평균이 3이라고 할때, 1,2,4의 값이 나왔고, 마지막은 몇이 나올지 모른다
  • 이 방정식에서 유일한 미지수이기 때문에 마지막 값은 5가 된다
    그러므로, 이 표본에는 N-1 자유값 또는 자유도가 있다
  • 마지막 값은 자유롭지 않으며, 다른 값들과 값들의 평균에 완전히 의존한다.
  • 그래서 평균과 다른 값들을 알면, 다른값들과 평균에 의존하기 때문에 사전에 알 필요가 없는 값이 항상 존재한다.
  • 그래서 표본 분산의 경우, 우리는 n-1로 나누는 것이다.
  • 이것이 이 통계의 자유도의 수이다.

Standard deviation(표준 편차)

Formula:
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$

  • 단순히 보면 데이터포인트와 평균값들의 평균거리처럼 보이지만, 제곱이 존재하므로 일반 평균거리값과는 다르게 큰수에 더 가중치를 줄 수 있다
  • 데이터 변동성에 대한 강조가 필요하거나, 이상치가 중요할 경우 표준편차를 사용하고, 덜 민감한 변동성 측정이 필요할 경우 평균거리가 유용하다.Fano factor(파노 팩터): $$F= \frac{\sigma^2}{\mu}$$
  • Two other related measures
  • Fano Factor = 1: 포아송 분포와 일치하며, 사건 발생의 규칙성과 불규칙성 사이의 균형을 잘 유지하는 상태
  • Fano Factor > 1: 데이터가 포아송 분포보다 더 큰 변동성을 가지며, 더 불규칙한 특성을 나타냄
  • Fano Factor < 1: 데이터가 포아송 분포보다 더 작은 변동성을 가지며, 더 규칙적인 특성을 나타냄
    Coefficient of variation(변동계수): $$CV = \frac{\sigma}{\mu}$$
  • 데이터의 상대적 변동성을 비교할 때 유용
  • 특히 평균값이 다른 두 데이터 세트를 비교할 때 적절함
  • 상대적인 변동성을 측정하므로 단일 데이터는 계산할 수 없다.

통계 응용에 나옴
정규화된 변동성 측정치
양수값만을 포함하는 데이터셋에 사용됨

즉, 파노 팩터는 단일 데이터에 대한 절대적인 측정값을 나타내며, 변동계수는 두 데이터 사이의 변동성이 얼마나 차이가 나는지에 대한 상대적 측정값을 나타낸다.

+ Recent posts