相互情報量の意味とエントロピーとの関係
相互情報量は,確率変数の間の「依存度」を表す指標。
相互情報量の意味・性質・その証明を整理しました。
相互情報量の定義
相互情報量の定義
(離散の)確率変数 と に対して,相互情報量 を,
で定義する。
ただし,
- は がとりうる値全体の集合, は がとりうる値全体の集合
- は同時確率分布
- は周辺分布
式から分かるように,相互情報量は と について対称です。
相互情報量の意味
相互情報量の意味
相互情報量 について,以下の性質1,2が成立します:
- と がある意味で最も依存していないときに,相互情報量は最小となる。
- と がある意味で最も依存しているときに,相互情報量は最大となる。
それぞれの厳密な意味と証明は後述しますが,この2つの性質により,相互情報量は, と の「依存度」を表す指標と言えます。
相互情報量は依存していないときに最小
相互情報量は依存していないときに最小
まずは性質1「 と がある意味で最も依存していないときに,相互情報量は最小」の意味と証明です。
- と が独立のとき,
つまり,独立な(依存していない)ときに最小値を達成します。
-
と が独立のとき, なので, の定義式の の中身は常に になります。よって, となります。
-
, が非負のとき, が成立します(→補足)。この不等式を, として使えば,相互情報量が非負であることが分かります。
補足:
対数和不等式の証明と応用で紹介したギブスの不等式です。高校数学の範囲内で証明可能です。
相互情報量は依存しているときに最大
相互情報量は依存しているときに最大
次は性質2「 と がある意味で最も依存しているときに,相互情報量は最大」の意味と証明です。
の分布を固定して の取りうる値について考える。このとき, の分布が の分布と同じである場合に, は最大値を達成する。
つまり,分布が同じ(依存している)ときに最大値を達成します。
も も同じ分布に従う場合,任意の に対して となるので,
となる。これは, の平均情報量(エントロピー) と呼ばれる量である。
以下では, を証明する。
という量(条件付きエントロピーと呼ばれる)を導入する。
対数の中身が 以下であることに注意すると, が分かる。
あとは, を証明すれば, が分かる。
実際,以下の2つの式から上の等式は分かる。
という等式は,「 と の依存度」は「 のあいまいさ」と「 を知ったもとでの のあいまいさ」の差であると解釈できます。
複雑な式をTeXで書き上げると気持ちよくなります。