강의 링크 : https://www.udemy.com/course/statsml_x/

What's in a name?

사건의 불확실성을 수량화 하는 방법
불확실성이 클수록 더 많은 정보가 존재하게 된다.
불확실성이 증가할수록 엔트로피도 증가한다.
얼마나 불확실한가를 수치로 나타낸것

  • 경기를 한다고 할때, 이 경기가 이길지, 질지를 알게된다면, 그것은 즉, 승부가 어떻게 날지 불확실한게 아니라, 확실해져가고 있는것이다. 즉, 누가 이길지 알수 없을때가 엔트로피가 가장 높고, 어느 한쪽이 지든 이기든 확실해져 간다면, 엔트로피는 줄어든다.

Formula for entropy

$$H = -\sum^n_{i=1}p(x_i)log_2(p(x_i))$$

x = data values
p = probability
** 1보다 작은 수의 로그는 음수를 반환하기 때문에, 모든것이 음수가 된다. 그 상태에서 그래프를그리면 U자 형태가 된다.
** 음수로 계산하는것보다는 양수로 계산하는게 더 좋기때문에 -를 붙여 수를 양수로 변환한다.
** 이전의 엔트리 그래프가 ∩ 모양인 이유가 -를 곱해서 U가 뒤집어졌기 때문이다.

어떤 데이터에 이 공식을 적용할 수 있을까?
명목,순서,이산 데이터

구간,비율 데이터는 어떨까?
히스토그램 생성을 통해 이산 데이터로 변환한다.
중요: 엔트로피는 빈의 크기와 빈의 수에 따라 달라진다.


Interpreting entropy

높은 엔트로피는 데이터셋이 많은 변동성을 가진다는것을 의미한다. -> 데이터가 일정하지 않고 다양하다 -> 정보가 많다.
낮은 엔트로피는 데이터셋의 값이 대부분 비슷하다는것을 의미한다. -> 값이 반복되므로 정보가 적다 -> 그래서 엔트로피가 낮으면 정보가 적다.

엔트로피와 분산의 차이는 뭘까?

  • 분산과 엔트로피는 데이터의 유사한 특성을 측정한다는 공통점이 있다.
    엔트로피는 비선형이며, 분포에 대한 어떠한 가정도 하지 않는다.
  • 분포가 어떻게 생겼는지 고민할 필요 없음
    분산은 평균의 유효성에 의존 -> 대략적인 정규 분포 데이터에만 적용이 가능함.

엔트로피에는 두가지 단위가 존재

Units:"bits"
## $$H = -\\sum^n\_{i=1}p(x\_i)log\_2(p(x\_i))$$ - 최대 엔트로피 : 1
Units:"nats"
## $$H = -\\sum^n\_{i=1}p(x\_i)ln(p(x\_i))$$ - 자연로그 기반

이 두 공식은 단위만 일관적으로 사용하면 어떤 공식을 사용해도 상관없음

+ Recent posts