正規分布の基礎的な知識まとめ

正規分布の基本的な知識を整理しました。

正規分布とは

正規分布(ガウス分布)とは,図のような左右対称の連続型の確率分布です。正確な定義(確率密度関数)については後述します。

正規分布のグラフ

正規分布は最も代表的な分布の一つです。例えば物理などの実験における測定の誤差,テストの点数などは(ほぼ)正規分布に従う(ことが多い)と考えられています。

また,コイン投げのように,反復試行の成功回数が従う確率分布も(反復試行が多いとき,近似的に)正規分布になります。→二項分布の正規近似(ラプラスの定理)

この記事では,正規分布について,確率密度関数の式の意味や,平均・分散の導出を中心に解説します。

正規分布の確率密度関数

正規分布の確率密度関数について解説します。

前提知識:確率密度関数の意味と具体例

正規分布(ガウス分布)の確率密度関数は,

f(x)=12πσexp{(xμ)22σ2}f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}

です。平均は μ\mu,分散は σ2\sigma^2 です。

  • 正規分布の確率密度関数は複雑そうですが,基本形を考えればだいぶ簡単になります。正規分布の中でも平均が μ=0\mu=0,分散が σ2=1\sigma^2=1 であるようなものが特に重要で,標準正規分布と呼ばれます。標準正規分布の確率密度関数は,f(x)=12πex22f(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\tfrac{x^2}{2}} です。だいぶ簡単になりましたね。
  • 標準正規分布標準正規分布のグラフは図のようになります。例えば 00 以上 aa 以下となる確率は斜線部分の面積になります。
  • なお,指数関数 eAe^{A} において AA が複雑な式のとき書きづらいので exp(A)\exp(A) と書いています。

補足

1シグマ区間

1シグマ区間

  • 正規分布において [σ,σ][-\sigma,\sigma] を「1シグマ(1σ1\sigma)区間」と言います。1シグマ区間に入る確率は約68%です。偏差値40から60に相当します。→偏差値の意味・目安・5つの性質
  • 同様に,[kσ,kσ][-k\sigma,k\sigma] を「kk シグマ区間」と言います。2シグマ区間に入る確率は約95%,3シグマ区間に入る確率は約99.7%です。偏差値20から80の間に約99.7%の人間がいるということになります。

正規分布とガウス積分

ガウス積分を用いて3つの重要な性質を証明していきます(→ガウス積分の公式の2通りの証明)。以下の3つ(正規化・平均・分散)を理解すれば,正規分布 f(x)f(x) の確率密度関数がなぜ複雑そうな形をしているのかが分かります。

1(規格化・正規化):正規分布の確率密度関数が本当に確率密度関数であること(全区間で積分すると 11 となること)を確認します。

証明

f(x)dx=12πσexp{(xμ)22σ2}dx\displaystyle\int_{-\infty}^{\infty}f(x)dx=\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}dx

ここで,xμ=yx-\mu=y と置換すると,上式は

12πσ×exp(y22σ2)dy\dfrac{1}{\sqrt{2\pi}\sigma}\times\int_{-\infty}^{\infty}\exp\left(-\dfrac{y^2}{2\sigma^2}\right)dy この定積分の値はガウス積分の公式より 2σ2π\sqrt{2\sigma^2\pi} となるので確かに f(x)f(x) を全区間で積分すると 11 となる。

※ 積分区間が -\infty から \infty なので平行移動しても積分区間は変わりません。

正規分布の平均

2(期待値):f(x)f(x) で表される正規分布の期待値(平均)E[X]E[X]μ\mu であることを証明してみます。これは分布が x=μx=\mu に関して対称な形をしていることから明らかですが,積分の練習として。

証明

期待値の定義より,E[X]=xf(x)dxE[X]=\displaystyle\int_{-\infty}^{\infty}xf(x)dx

ここで,xμ=yx-\mu=y と置換すると,

E[X]=(y+μ)f(y+μ)dy=yf(y+μ)dy+μf(y)dy\begin{aligned}E[X]&=\displaystyle\int_{-\infty}^{\infty}(y+\mu)f(y+\mu)dy\\ &=\displaystyle\int_{-\infty}^{\infty}yf(y+\mu)dy+\mu\int_{-\infty}^{\infty}f(y)dy\end{aligned}

第一項の被積分関数は奇関数×偶関数=奇関数なので積分値は 00,第二項の積分値はさきほど確認したように 11 なので結局 E[X]=μE[X]=\mu となる。

正規分布の分散・標準偏差

3(分散・標準偏差):f(x)f(x) で表される正規分布の分散 V[X]V[X]σ2\sigma^2 であること,つまり標準偏差が σ\sigma であることを証明してみます。

証明

分散の定義より, V[X]=(xμ)212πσexp{(xμ)22σ2}dxV[X]=\displaystyle\int_{-\infty}^{\infty}(x-\mu)^2\dfrac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\dfrac{(x-\mu)^2}{2\sigma^2}\right\}dx

ここで,xμ=yx-\mu=y と置換すると

V[X]=12πσy2exp(y22σ2)dyV[X]=\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}y^2\exp\left(-\dfrac{y^2}{2\sigma^2}\right)dy

よって,ガウス積分の公式(→ガウス積分の公式の2通りの証明の公式3)より V[X]=12πσ×2πσ3=σ2V[X]=\dfrac{1}{\sqrt{2\pi}\sigma}\times\sqrt{2\pi}\sigma^3=\sigma^2

正規分布の確率密度関数は全区間で積分すると1,平均が μ\mu,分散が σ2\sigma^2 となるようにうまく作られていることが分かりました!

偏差値80を越えるのがいかに難しいかが分かります。

Tag:数検1級の範囲と必要な公式まとめ