スコア関数，フィッシャー情報量の定義と具体例

更新 2021/03/07

スコア関数，フィッシャー情報量の定義，および具体例として正規分布の場合を解説します。

尤度関数と対数尤度関数

パラメータ
θ\thetaθ
 を持つ確率密度関数：f(x,θ)f(x,\theta)f(x,θ)
 で表される分布について考えます。
1．尤度関数：
L(θ;x1)=f(x1,θ)L(\theta;x_1)=f(x_1,\theta)L(θ;x1​)=f(x1​,θ)
（尤度関数と確率密度関数は意味が異なります，詳細は統計の本を参照して下さい）。
2．対数尤度関数：
log⁡L(θ;x1)=log⁡f(x1,θ)\log L(\theta;x_1)=\log f(x_1,\theta)logL(θ;x1​)=logf(x1​,θ)
尤度関数は対数を取った方が計算しやすい場合が多いのでしばしば登場します。

スコア関数とフィッシャー情報量

3．スコア関数：
∂∂θlog⁡L=1L∂L∂θ\dfrac{\partial}{\partial\theta}\log L=\dfrac{1}{L}\dfrac{\partial L}{\partial \theta}∂θ∂​logL=L1​∂θ∂L​
対数尤度関数をパラメータで偏微分したものです。スコア関数は観測値
x1x_1x1​ に応じて決まる θ\thetaθ の関数です。
そして，スコア関数の期待値は
000
 です（証明は後述）。そのため，スコア関数の分散は二次モーメントと一致します。この量をフィッシャー情報量と言います。
4．フィッシャー情報量（パラメータの関数）：
Var[∂∂θlog⁡L]=E[(∂∂θlog⁡L)2]\mathrm{Var}\left[\dfrac{\partial}{\partial\theta}\log L\right]=E\left[\left(\dfrac{\partial}{\partial\theta}\log L\right)^2\right]Var[∂θ∂​logL]=E[(∂θ∂​logL)2]

具体例：正規分布の場合

具体例として平均が
μ\muμ
 の正規分布について考えてみます。簡単のためパラメータが1つの場合を扱います（分散を
111
 と固定する）：
f(x,μ)=12πexp⁡{−(x−μ)22}f(x,\mu)=\dfrac{1}{\sqrt{2\pi}}\exp\left\{-\dfrac{(x-\mu)^2}{2}\right\}f(x,μ)=2π​1​exp{−2(x−μ)2​}
・尤度関数
データが
x1x_1x1​
 であったときの尤度関数は，
L=f(x1,μ)=12πexp⁡{−(x1−μ)22}L=f(x_1,\mu)=\dfrac{1}{\sqrt{2\pi}}\exp\left\{-\dfrac{(x_1-\mu)^2}{2}\right\}L=f(x1​,μ)=2π​1​exp{−2(x1​−μ)2​}
・対数尤度関数
尤度関数の対数を取る：
log⁡L=−12log⁡2π−(x1−μ)22\log L=-\dfrac{1}{2}\log 2\pi-\dfrac{(x_1-\mu)^2}{2}logL=−21​log2π−2(x1​−μ)2​
・スコア関数
対数尤度関数を
μ\muμ
 で微分：
∂∂μlog⁡L=x1−μ\dfrac{\partial}{\partial \mu}\log L=x_1-\mu∂μ∂​logL=x1​−μ
注：スコア関数の期待値は確かに
000
 になっています！
・フィッシャー情報量
スコア関数の二次モーメントを計算：
E[(x1−μ)2]=1E[(x_1-\mu)^2]=1E[(x1​−μ)2]=1
注：フィッシャー情報量は一般にはパラメータの関数ですが，この場合はたまたま定数になりました。

スコア関数の期待値

（微分と積分が交換できるという正則条件のもとで）

スコア関数の期待値は $0$ である： $E\left[\dfrac{\partial}{\partial\theta}\log L\right]=0$

証明

$E\left[\dfrac{\partial}{\partial\theta}\log L\right]=E\left[\dfrac{1}{L}\dfrac{\partial L}{\partial \theta}\right]$

であり，右辺は期待値の定義より，

$\displaystyle\int_{x_1}\dfrac{1}{L}\dfrac{\partial L}{\partial \theta}L\:dx_1 =\dfrac{\partial}{\partial\theta}\displaystyle\int_{x_1}L\:dx_1$

ただし，微分と積分の交換を用いた（正則条件）。

上式の右辺の積分値は確率密度関数の定義より $1$ という定数になる。よって，これを $\theta$ で微分すると $0$ になる。

フィッシャー情報量を多変数確率分布の場合に拡張したものがフィッシャー情報行列です。

◎確率・統計分野の記事一覧

この記事の監修者

マスオ

高校数学の美しい物語の管理人。「わかりやすいこと」と「ごまかさないこと」の両立を意識している。著書に『高校数学の美しい物語』『超ディープな算数の教科書』。記事の誤植やわかりにくい等のご指摘はお気軽にメールください！