정보이론(Information theory)

정보이론은 통신, 데이터 압축, 암호화, 통계학, 뇌 과학, 인공지능 등 다양한 분야에서 기본적인 이론적 토대를 제공하는 학문입니다. 정보의 정량화, 전송, 저장, 해석과 관련된 시스템에서 정보가 어떻게 처리되고 최적화될 수 있는지에 대해 알 수 있습니다.

정보량 (Information Quantity)

정보량은 메시지가 담고 있는 정보의 양을 정량화한 것입니다. 메시지가 발생할 확률에 기반하여 계산됩니다. 더 희귀한 메시지일수록 더 많은 정보를 제공합니다. 정보량

I

은 다음과 같은 수식으로 표현됩니다:

I(x) = -\log_2 P(x)

여기서

I(x)

는 메시지

x

의 정보량이며,

P(x)

는 메시지

x

가 선택될 확률입니다. 로그의 밑이 2인 이유는 정보량을 비트(bit) 단위로 측정하기 위함입니다.

동전 던지기에서 앞면이 나올 확률은 1/2, 뒷면이 나올 확률도 1/2입니다." 이 경우 앞면의 정보량은

-\log_2(1/2) = 1

비트입니다. 즉, 동전 던지기의 결과는 1비트의 정보를 제공합니다.

엔트로피 (Entropy)

엔트로피는 시스템이 담을 수 있는 정보의 평균적인 양을 나타내며, 정보의 불확실성 또는 무질서도를 측정합니다. 엔트로피

H(X)

는 다음과 같이 정의됩니다:

\blue{ H(X)} = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)

XXX 는 메시지의 집합(무작위 변수), 
xix_ixi​ 는 특정 메시지,
P(xi)P(x_i)P(xi​)는 메시지 xix_ixi​ 의 확률(X가 특정 값 x를 가질 확률)입니다.

예시:

동전 던지기에서, 앞면과 뒷면이 나올 확률이 모두 1/2일 때,

엔트로피는

-\frac{1}{2}\log_2\frac{1}{2} - \frac{1}{2}\log_2\frac{1}{2} = 1

비트입니다. 이는 최대의 불확실성을 의미하며, 시스템이 담을 수 있는 정보의 양이 최대임을 나타냅니다.

정보의 상호작용과 전송

정보이론에서는 정보를 어떻게 효율적으로 전송할 수 있는지에 대해서도 연구합니다. 클로드 섀넌은 "통신의 수학적 이론"에서 이러한 문제를 다루었으며, 채널 용량이라는 개념을 도입했습니다. 채널 용량은 단위 시간당 최대로 전송할 수 있는 정보의 양을 의미합니다. 이는 다음 수식으로 표현됩니다:

C = B \log_2(1 + \frac{S}{N})

정보량은 사건의 불확실성을 수치로 나타내며, 사건이 일어날 확률이 낮을수록 더 많은 정보를 제공합니다. 이는 정보이론의 기본적인 원칙 중 하나입니다.

먼저, 사건

x

의 정보량

I(x)

는 다음과 같이 정의됩니다:

\red {I(x)} = -\log_b P(x)

여기서

P(x)

는 사건

x

가 발생할 확률이며,

b

는 로그의 밑으로, 정보량을 측정하는 단위에 따라 다릅니다. 밑이 2일 경우, 정보량은 비트(bit)로 측정되고, 자연로그 e 의 경우는 네이츠(nats)로 측정됩니다.

식은 정보를 정량적으로 표현하기 위해 필요한 세 가지 조건을 만족합니다:

일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것과 마찬가지입니다. 확률이 1인 사건은 정보량이 0입니다.

일어날 가능성이 낮은 사건은 정보량이 높습니다. 확률이 낮을수록 −log⁡P(x)-\log P(x)−logP(x)의 값은 커집니다.

두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같습니다. 이는 로그의 성질로 인해 독립 사건의 확률을 곱한 것의 로그는 각 사건의 로그를 더한 것과 같다는 점에서 유래합니다.

예를 들어, 파란색 공()

n

개와 빨간색 공() 1개가 있는 상황에서 빨간색 공을 뽑는 사건의 정보량을 계산해보겠습니다. 빨간색 공을 뽑을 확률은

\frac{1}{n+1}

입니다. 이때, 자연로그를 사용하여 정보량을 계산하면:

I(\text{🔴}) = -\log\left(\frac{1}{n+1}\right)

이는 전체 공의 수

n

이 증가함에 따라, 빨간색 공을 뽑는 사건의 정보량이 증가함을 의미합니다. 즉, 더 희귀한 사건일수록 더 많은 정보를 제공한다는 정보이론의 기본 원칙을 반영하는 것입니다.

이제, 파란색 공

n

개와 빨간색 공 1개가 있을 때 빨간색 공을 뽑는 사건의 정보량을 실제 코드로 계산해 보겠습니다.

import numpy as np

# 파란색 공 n개와 빨간색 공 1개가 있을 때, 빨간색 공을 뽑는 사건의 정보량 계산
n = np.array([10, 100, 1000, 10000])  # 다양한 n값에 대해 정보량을 계산해 보기
p_red = 1 / (n + 1)  # 빨간색 공을 뽑을 확률

# 자연로그를 사용하여 정보량 계산
information_content = -np.log(p_red)

# 결과 출력
information_content
Python
복사

빨간색 공 1개와 파란색 공이 각각 10개, 100개, 1000개, 10000개 있을 때 빨간색 공을 뽑는 사건의 정보량은 다음과 같습니다:

•

파란색 공 10개일 때: 약 2.40 네이츠

•

파란색 공 100개일 때: 약 4.62 네이츠

•

파란색 공 1000개일 때: 약 6.91 네이츠

•

파란색 공 10000개일 때: 약 9.21 네이츠

이 결과는 전체 공의 수

n

이 증가함에 따라, 빨간색 공을 뽑는 사건의 정보량이 증가한다는 것을 보여줍니다. 즉, 사건이 더 희귀해질수록 (즉, 빨간색 공을 뽑을 확률이 낮아질수록) 그 사건이 발생했을 때 얻을 수 있는 정보의 양이 커진다는 것을 수치적으로 확인할 수 있습니다. 이는 정보이론에서 불확실성이 높은 사건이 더 많은 정보를 제공한다는 기본 원칙을 잘 보여줍니다.

참고자료:

•

Probability and InformationTheory

www.deeplearningbook.org

https://www.deeplearningbook.org/contents/prob.html