1. 高校数学の美しい物語
  2. 相互情報量の意味とエントロピーとの関係

相互情報量の意味とエントロピーとの関係

更新日時 2021/03/07

(離散の)確率変数 XXYY の間の相互情報量 I(X;Y)I(X;Y) を,

I(X;Y)I(X;Y)

=xXyYPX,Y(x,y)logPX,Y(x,y)PX(x)PY(y)\displaystyle=\sum_{x\in X}\sum_{y\in Y}P_{X,Y}(x,y)\log\dfrac{P_{X,Y}(x,y)}{P_X(x)P_Y(y)}

で定義する。

目次
  • 相互情報量の意味

  • 理由1の証明

  • 理由2の証明

相互情報量の意味

式から分かるように,相互情報量は XXYY について対称です。

以下の2つの理由により,相互情報量は,XXYY の「依存度」を表す指標と考えることができます。

(理由1と理由2の証明は後述します)

理由1

XXYY が独立のとき,I(X;Y)=0I(X;Y)=0 となります。そして,I(X;Y)I(X;Y) の最小値は 00 です。つまりXXYY がある意味で最も依存していないときに,相互情報量は最小となります。

理由2

XX の分布を固定して I(X;Y)I(X;Y) の取りうる値について考えます。このとき,YY の分布が XX の分布と同じである場合に,I(X;Y)I(X;Y) は最大値を達成します。つまりXXYY がある意味で最も依存しているときに,相互情報量は最大となります。

理由1の証明

  • XXYY が独立のとき,PX,Y(x,y)=PX(x)PY(y)P_{X,Y}(x,y)=P_X(x)P_Y(y) なので,I(X;Y)I(X;Y) の定義式の log\log の中身は常に 11 になります。よって,I(X;Y)=0I(X;Y)=0 となります。

  • pk=qk=1\sum p_k=\sum q_k=1pk,qkp_k,q_k が非負のとき,pklogpkqk0\sum p_k\log\dfrac{p_k}{q_k}\geq 0 が成立します(→補足)。この不等式を,pkPX,Y(x,y)p_k\to P_{X,Y}(x,y)qkPX(x)PY(y)q_k\to P_X(x)P_Y(y) として使えば,相互情報量が非負であることが分かります。

補足

対数和不等式の証明と応用で紹介したギブスの不等式です。高校数学の範囲内で証明可能です。

理由2の証明

XXYY も同じ分布に従う場合,任意の aXa\in X に対して PX(a)=PY(a)=PX,Y(a,a)P_X(a)=P_Y(a)=P_{X,Y}(a,a) となるので,
I(X;Y)=xXPX(x)logPX(x)PX(x)PX(x)=xXPX(x)logPX(x)I(X;Y)=\displaystyle\sum_{x\in X}P_X(x)\log\dfrac{P_X(x)}{P_X(x)P_X(x)}\\ =-\displaystyle\sum_{x\in X}P_X(x)\log P_X(x)

となります。これは,XX の平均情報量(エントロピー)H(X)H(X) と呼ばれる量です。

また,I(X;Y)H(X)I(X;Y)\leq H(X) が成立します。以下で証明します。

証明

H(XY)H(X\mid Y)

=yYPY(y)xXPXY(xy)logPXY(xy)-\displaystyle\sum_{y\in Y} P_Y(y)\sum_{x\in X} P_{X\mid Y}(x\mid y)\log P_{X\mid Y}(x\mid y)

という量(条件付きエントロピーと呼ばれる)を導入する。

対数の中身が 11 以下であることに注意すると,H(XY)0H(X\mid Y)\geq 0 が分かる。

あとは,I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X\mid Y) を証明すれば,I(X;Y)H(X)I(X;Y)\leq H(X) が分かる。

実際,以下の2つの式から上の等式は分かる。

H(X)H(X)

=yYPYX(yx)xXPX(x)logPX(x)=-\displaystyle\sum_{y\in Y}P_{Y\mid X}(y\mid x)\sum_{x\in X}P_X(x)\log P_X(x)

=xXyYPX,Y(x,y)log1PX(x)=\displaystyle\sum_{x\in X}\sum_{y\in Y}P_{X,Y}(x,y)\log\dfrac{1}{P_X(x)}

H(XY)-H(X\mid Y)

=xXyYPY(y)PXY(xy)logPXY(xy)=\displaystyle\sum_{x\in X}\sum_{y\in Y}P_Y(y)P_{X\mid Y}(x\mid y)\log P_{X\mid Y}(x\mid y)

=xXyYPX,Y(x,y)logPX,Y(x,y)PY(y)=\displaystyle\sum_{x\in X}\sum_{y\in Y}P_{X,Y}(x,y)\log \dfrac{P_{X,Y}(x,y)}{P_Y(y)}

I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X\mid Y)

という等式は,XXYY の依存度」は「XX のあいまいさ」と「YY を知ったもとでの XX のあいまいさ」の差であると解釈することができます。

複雑な式をTeXで書き上げると気持ちよくなります。

人気記事
  1. 高校数学の美しい物語
  2. 相互情報量の意味とエントロピーとの関係