내 키를 다른사람의 무게와 어떻게 비교하는가? Problem : 단위가 완벽하게 다르다. 그러므로 전적으로 비교불가하다.
** **Key insight: 값 자체로는 해석하기 어렵다. 분포와 값을 연결한다면 해석하기 쉽다. **
Solution: 두 측정을 일반화하여 단위가 없도록 스케일링 한다.
Z - transform
$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$
** sigma = 표준편차 $$\sigma = \sqrt\sigma^2 = \sqrt{\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2}$$ Mean-center(평균 중심): 개별값으로부터 평균을 추출한다. Variance-normalize(분산 정규화): 표준편차로 나눈다. 분포의 중심에서 표준편차 단위로 표현된 값을 가지게 된다.
즉, z 데이터의 단위는 표준편차 단위이다.
Z-transform은 데이터를 이동시키고 늘리지만, 모양을 변경하지 않는다.
Z-transform assumption
$$z_i = \frac{x_i-\overline{x}}{\sigma_x}$$
Z-transform을 유효하게 만드는 중요한 가정은 뭘까? 평균과 표준편차가 분포의 중심경향치와 분산을 유효하게 설명해야한다 대략적으로 가우시안분포를 따라야 한다는 것을 의미한다
사건의 불확실성을 수량화 하는 방법 불확실성이 클수록 더 많은 정보가 존재하게 된다. 불확실성이 증가할수록 엔트로피도 증가한다. 얼마나 불확실한가를 수치로 나타낸것
경기를 한다고 할때, 이 경기가 이길지, 질지를 알게된다면, 그것은 즉, 승부가 어떻게 날지 불확실한게 아니라, 확실해져가고 있는것이다. 즉, 누가 이길지 알수 없을때가 엔트로피가 가장 높고, 어느 한쪽이 지든 이기든 확실해져 간다면, 엔트로피는 줄어든다.
Formula for entropy
$$H = -\sum^n_{i=1}p(x_i)log_2(p(x_i))$$
x = data values p = probability ** 1보다 작은 수의 로그는 음수를 반환하기 때문에, 모든것이 음수가 된다. 그 상태에서 그래프를그리면 U자 형태가 된다. ** 음수로 계산하는것보다는 양수로 계산하는게 더 좋기때문에 -를 붙여 수를 양수로 변환한다. ** 이전의 엔트리 그래프가 ∩ 모양인 이유가 -를 곱해서 U가 뒤집어졌기 때문이다.
어떤 데이터에 이 공식을 적용할 수 있을까? 명목,순서,이산 데이터
구간,비율 데이터는 어떨까? 히스토그램 생성을 통해 이산 데이터로 변환한다. 중요: 엔트로피는 빈의 크기와 빈의 수에 따라 달라진다.
Interpreting entropy
높은 엔트로피는 데이터셋이 많은 변동성을 가진다는것을 의미한다. -> 데이터가 일정하지 않고 다양하다 -> 정보가 많다. 낮은 엔트로피는 데이터셋의 값이 대부분 비슷하다는것을 의미한다. -> 값이 반복되므로 정보가 적다 -> 그래서 엔트로피가 낮으면 정보가 적다.
엔트로피와 분산의 차이는 뭘까?
분산과 엔트로피는 데이터의 유사한 특성을 측정한다는 공통점이 있다. 엔트로피는 비선형이며, 분포에 대한 어떠한 가정도 하지 않는다.
분포가 어떻게 생겼는지 고민할 필요 없음 분산은 평균의 유효성에 의존 -> 대략적인 정규 분포 데이터에만 적용이 가능함.
엔트로피에는 두가지 단위가 존재
Units:"bits"
## $$H = -\\sum^n\_{i=1}p(x\_i)log\_2(p(x\_i))$$
- 최대 엔트로피 : 1
Units:"nats"
## $$H = -\\sum^n\_{i=1}p(x\_i)ln(p(x\_i))$$
- 자연로그 기반
General formula : $$m_k = n^{-1}\sum^n_{i=1}(x_i-\overline{x})^k$$
First moment : mean $$m_1 = n^{-1}\sum^n_{i=1}x_i$$ Second moment: variance $$m_2 = n^{-1}\sum^n_{i=1}(x_i-\overline{x})^2$$Third moment : skewness ** skewness(비대칭도/왜도) : 데이터 분포의 대칭성이 얼마나 결핍되었는지 $$m_3 = (n\sigma^3)^{-1}\sum^n_{i=1}(x_i-\overline{x})^3$$