相互情報量の意味とエントロピーとの関係

相互情報量の意味

相互情報量は,確率変数の間の「依存度」を表す指標。

相互情報量の意味・性質・その証明を整理しました。

相互情報量の定義

相互情報量

(離散の)確率変数 XXYY に対して,相互情報量 I(X;Y)I(X;Y) を,

I(X;Y)=xDXyDYPX,Y(x,y)logPX,Y(x,y)PX(x)PY(y)I(X;Y)\\=\displaystyle\sum_{x\in D_X}\sum_{y\in D_Y}P_{X,Y}(x,y)\log\dfrac{P_{X,Y}(x,y)}{P_X(x)P_Y(y)}

で定義する。

ただし,

  • DXD_XXX がとりうる値全体の集合,DYD_YYY がとりうる値全体の集合
  • PX,YP_{X,Y} は同時確率分布
  • PX(x),PY(y)P_X(x),P_Y(y) は周辺分布

式から分かるように,相互情報量は XXYY について対称です。

相互情報量の意味

相互情報量 I(X;Y)I(X;Y) について,以下の性質1,2が成立します:

  1. XXYY がある意味で最も依存していないときに,相互情報量は最小となる。
  2. XXYY がある意味で最も依存しているときに,相互情報量は最大となる。

それぞれの厳密な意味と証明は後述しますが,この2つの性質により,相互情報量は,XXYY の「依存度」を表す指標と言えます。

相互情報量は依存していないときに最小

まずは性質1「XXYY がある意味で最も依存していないときに,相互情報量は最小」の意味と証明です。

相互情報量の性質1
  • XXYY が独立のとき,I(X;Y)=0I(X;Y)=0
  • I(X;Y)0I(X;Y)\geq 0

つまり,独立な(依存していない)ときに最小値を達成します。

証明
  • XXYY が独立のとき,PX,Y(x,y)=PX(x)PY(y)P_{X,Y}(x,y)=P_X(x)P_Y(y) なので,I(X;Y)I(X;Y) の定義式の log\log の中身は常に 11 になります。よって,I(X;Y)=0I(X;Y)=0 となります。

  • pk=qk=1\sum p_k=\sum q_k=1pk,qkp_k,q_k が非負のとき,pklogpkqk0\sum p_k\log\dfrac{p_k}{q_k}\geq 0 が成立します(→補足)。この不等式を,pkPX,Y(x,y)p_k\to P_{X,Y}(x,y)qkPX(x)PY(y)q_k\to P_X(x)P_Y(y) として使えば,相互情報量が非負であることが分かります。

補足:
対数和不等式の証明と応用で紹介したギブスの不等式です。高校数学の範囲内で証明可能です。

相互情報量は依存しているときに最大

次は性質2「XXYY がある意味で最も依存しているときに,相互情報量は最大」の意味と証明です。

相互情報量の性質2

XX の分布を固定して I(X;Y)I(X;Y) の取りうる値について考える。このとき,YY の分布が XX の分布と同じである場合に,I(X;Y)I(X;Y) は最大値を達成する。

つまり,分布が同じ(依存している)ときに最大値を達成します。

証明

XXYY も同じ分布に従う場合,任意の aDXa\in D_X に対して PX(a)=PY(a)=PX,Y(a,a)P_X(a)=P_Y(a)=P_{X,Y}(a,a) となるので, I(X;Y)=xDXPX(x)logPX(x)PX(x)PX(x)=xDXPX(x)logPX(x)\begin{aligned} I(X;Y) &= \sum_{x\in D_X}P_X(x)\log\dfrac{P_X(x)}{P_X(x)P_X(x)}\\ &= -\sum_{x\in D_X}P_X(x)\log P_X(x) \end{aligned}

となる。これは,XX の平均情報量(エントロピー)H(X)H(X) と呼ばれる量である。

以下では,I(X;Y)H(X)I(X;Y)\leq H(X) を証明する。

H(XY)=yDYPY(y)xDXPXY(xy)logPXY(xy)\begin{aligned} H(X\mid Y) =-\displaystyle\sum_{y\in D_Y} P_Y(y)\sum_{x\in D_X} P_{X\mid Y}(x\mid y)\log P_{X\mid Y}(x\mid y) \end{aligned}

という量(条件付きエントロピーと呼ばれる)を導入する。

対数の中身が 11 以下であることに注意すると,H(XY)0H(X\mid Y)\geq 0 が分かる。

あとは,I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X\mid Y) を証明すれば,I(X;Y)H(X)I(X;Y)\leq H(X) が分かる。

実際,以下の2つの式から上の等式は分かる。

  • H(X)=yYPYX(yx)xXPX(x)logPX(x)=xXyYPX,Y(x,y)log1PX(x)H(X)\\ =-\displaystyle\sum_{y\in Y}P_{Y\mid X}(y\mid x)\sum_{x\in X}P_X(x)\log P_X(x)\\ =\displaystyle\sum_{x\in X}\sum_{y\in Y}P_{X,Y}(x,y)\log\dfrac{1}{P_X(x)}

  • H(XY)=xDXyDYPY(y)PXY(xy)logPXY(xy)=xDXyDYPX,Y(x,y)logPX,Y(x,y)PY(y)-H(X\mid Y)\\ =\displaystyle\sum_{x\in D_X}\sum_{y\in D_Y}P_Y(y)P_{X\mid Y}(x\mid y)\log P_{X\mid Y}(x\mid y)\\ =\displaystyle\sum_{x\in D_X}\sum_{y\in D_Y}P_{X,Y}(x,y)\log \dfrac{P_{X,Y}(x,y)}{P_Y(y)}

I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X\mid Y)

という等式は,XXYY の依存度」は「XX のあいまいさ」と「YY を知ったもとでの XX のあいまいさ」の差であると解釈できます。

複雑な式をTeXで書き上げると気持ちよくなります。