강의 링크 : https://www.udemy.com/course/statsml_x/
문제시 삭제합니다.
산포의 발상
- 이 다양한 분포가 얼마나 퍼져 있는지를 측정할 필요가 있음
- 중심경향과는 관계없이 데이터셋에 적용 할 수 있는 하나의 숫자가 필요하다.
Variance(분산)
Formula : $$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$
- $x_i-\overline{x}$ (중심화/mean centering): 각 데이터포인트에 평균값을 빼는것
Suitable for:
어떤 분포든
가우시안 분포가 가장 적합
Suitable data types:
수치 데이터
순서형 데이터(but requires mean) -> 보통은 잘 안씀
결론적으로는 수치 데이터인 단봉 가우시안 분포에 가장 잘맞음
Example
x = [8,0,4,1,-2,7]
var(x) = $\frac{\sum^N_{i=1}([5,-3,1,-2,-5,4]^2)}{N-1}$
var(x) = 16
x = [2,3,4,3,4,4]
var(x) = 0.67
- 분산값이 크면 실제로 데이터도 넓게 분산되어있다
- 분산값이 작으면 작게 분산되어있다
공식에 대한 의문
$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}(x_i-\overline{x})^2$$
분산은 평균 주변의 산포를 나타낸다
아래의 두 데이터셋은 동일한 분산을 가져야 한다
d1 = [1 2 3 3 2 1]
d2 = [101 102 103 103 102 101]
어떠한 값이든, 그 간격이 동일하다면 같은 분산이 나와야 한다
즉, 각 위치에서 평균위치 사이의 거리를 알아야 하기 때문이다
우리는 평균까지의 거리를 알고싶다.
제곱이 없다면 분산은 0이 될 것이다.
d1 = [1 2 3 3 2 1]
Mean-centered d1 = [-1 0 1 1 0 -1] sums to 0!
즉, 평균과 현재 데이터포인트의 거리를 구하는것이기 때문에 음수는 존재할 수 없다.
*mean absolute difference(MAD) : 평균 절대 편차*$$\sigma^2 = \frac{1}{n-1} \sum^n_{i=1}|x_i-\overline{x}|$$
제곱 :
- 큰 값에 더 강조를 둠
- 최적화에 더유리함(연속적이고 미분 가능)
- 유클리드 거리와 더 가까움
- 분포의 두번째 '모먼트'
- 최소제곱 회귀와 더 좋은 연결
- 기타 특성들
MAD:
- 좋음
- 이상치에 강함
- 흔히 사용되지 않음
- 이상값 및 데이터 정리에 대한 섹션의 '중위수 절대 편차라는 공식'과 연관이 있음
N-1로 나누는것은 표본 분산을 계산하기 위한것
N으로 나누는것은 모집단의 분산을 계산하기 위한것
모집단 평균은 이론적인 수량이다
- 모집단 평균은 이론적인 수치이기 때문에, 모집단이 따르고 있다고 가정하는 통계적 분포의 파라미터들을 기반으로 계산이 가능하다
- 예 : 중심경향치와 표준편차를 이용해 모집단의 평균을 추정
반면에 표본 평균은 경험적 수량이다 - 표본 평균은 표본마다 다르다
정확하게는 모집단을 $\sigma^2$ 으로 했을 때의 공식은 n으로 나눈는 것이 맞고,
표본집단, $S^2$ 일때에는 n-1이 맞다
하지만 많은 상황에서 사람들은 두 용어를 혼용해서 쓰므로 맥락에 맞게 해석해야 한다
주사위의 모집단 평균은 3.5이다
- 주사위를 던지면 던질수록 그 수의 평균은 3.5에 가까워 진다
주사위를 4번 던졌을 때 (표본) 표본 평균은 3이다
표본 평균을 알고 있다면, 표본의 나머지 값을 추론하기 위해 알아야 할 값의 개수는 몇개인가?
정답 : 3 / ex) 1,2,4,?
- 표본 평균이 3이라고 할때, 1,2,4의 값이 나왔고, 마지막은 몇이 나올지 모른다
- 이 방정식에서 유일한 미지수이기 때문에 마지막 값은 5가 된다
그러므로, 이 표본에는 N-1 자유값 또는 자유도가 있다 - 마지막 값은 자유롭지 않으며, 다른 값들과 값들의 평균에 완전히 의존한다.
- 그래서 평균과 다른 값들을 알면, 다른값들과 평균에 의존하기 때문에 사전에 알 필요가 없는 값이 항상 존재한다.
- 그래서 표본 분산의 경우, 우리는 n-1로 나누는 것이다.
- 이것이 이 통계의 자유도의 수이다.
Standard deviation(표준 편차)
Formula:
$$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$
- 단순히 보면 데이터포인트와 평균값들의 평균거리처럼 보이지만, 제곱이 존재하므로 일반 평균거리값과는 다르게 큰수에 더 가중치를 줄 수 있다
- 데이터 변동성에 대한 강조가 필요하거나, 이상치가 중요할 경우 표준편차를 사용하고, 덜 민감한 변동성 측정이 필요할 경우 평균거리가 유용하다.Fano factor(파노 팩터): $$F= \frac{\sigma^2}{\mu}$$
- Two other related measures
- Fano Factor = 1: 포아송 분포와 일치하며, 사건 발생의 규칙성과 불규칙성 사이의 균형을 잘 유지하는 상태
- Fano Factor > 1: 데이터가 포아송 분포보다 더 큰 변동성을 가지며, 더 불규칙한 특성을 나타냄
- Fano Factor < 1: 데이터가 포아송 분포보다 더 작은 변동성을 가지며, 더 규칙적인 특성을 나타냄
Coefficient of variation(변동계수): $$CV = \frac{\sigma}{\mu}$$ - 데이터의 상대적 변동성을 비교할 때 유용
- 특히 평균값이 다른 두 데이터 세트를 비교할 때 적절함
- 상대적인 변동성을 측정하므로 단일 데이터는 계산할 수 없다.
통계 응용에 나옴
정규화된 변동성 측정치
양수값만을 포함하는 데이터셋에 사용됨
즉, 파노 팩터는 단일 데이터에 대한 절대적인 측정값을 나타내며, 변동계수는 두 데이터 사이의 변동성이 얼마나 차이가 나는지에 대한 상대적 측정값을 나타낸다.
'ML' 카테고리의 다른 글
기술통계 - QQ plots(quintile-quintile) (0) | 2024.09.23 |
---|---|
기술통계 - 사분범위 (0) | 2024.09.23 |
기술통계 - 중심 경향치 측정(중앙값, 최빈값) (0) | 2024.09.22 |
기술통계 - 중심 경향치 측정(평균) (0) | 2024.09.22 |
기술통계 - 정확도, 정밀도, 해상도 (0) | 2024.09.22 |