相互情報量の意味とエントロピーとの関係
(離散の)確率変数 と の間の相互情報量 を,
で定義する。
相互情報量の意味
理由1の証明
理由2の証明
相互情報量の意味
式から分かるように,相互情報量は と について対称です。
以下の2つの理由により,相互情報量は, と の「依存度」を表す指標と考えることができます。
(理由1と理由2の証明は後述します)
理由1
と が独立のとき, となります。そして, の最小値は です。つまり と がある意味で最も依存していないときに,相互情報量は最小となります。
理由2
の分布を固定して の取りうる値について考えます。このとき, の分布が の分布と同じである場合に, は最大値を達成します。つまり と がある意味で最も依存しているときに,相互情報量は最大となります。
理由1の証明
-
と が独立のとき, なので, の定義式の の中身は常に になります。よって, となります。
-
, が非負のとき, が成立します(→補足)。この不等式を, として使えば,相互情報量が非負であることが分かります。
補足
対数和不等式の証明と応用で紹介したギブスの不等式です。高校数学の範囲内で証明可能です。
理由2の証明
も も同じ分布に従う場合,任意の に対して となるので,
となります。これは, の平均情報量(エントロピー) と呼ばれる量です。
また, が成立します。以下で証明します。
=
という量(条件付きエントロピーと呼ばれる)を導入する。
対数の中身が 以下であることに注意すると, が分かる。
あとは, を証明すれば, が分かる。
実際,以下の2つの式から上の等式は分かる。
という等式は,「 と の依存度」は「 のあいまいさ」と「 を知ったもとでの のあいまいさ」の差であると解釈することができます。
複雑な式をTeXで書き上げると気持ちよくなります。