共分散の意味と簡単な求め方

共分散とは,二組の対応するデータの間の関係を表す数値です。

この記事では,共分散の意味共分散の問題点,そして共分散を簡単に計算する公式などを解説します。

共分散とは

共分散とは「国語の点数」と「数学の点数」のような「二組の対応するデータ」の間の関係を表す数値です。

共分散を計算することで,

「国語の点数」が高いほど「数学の点数」が高い傾向にあるのか?

あるいは

「国語の点数」と「数学の点数」は関係ないのか?

などが分析できます。

共分散の定義と計算例

共分散は,

XX の偏差 × YY の偏差」の平均

で定義されます。

※偏差とは平均との差のことです。

定義だけでは共分散の意味は分かりにくいので,簡単な具体例で計算してみます。

55 人でテストを受けたデータを考える。

X:X: 国語の点数,YY :数学の点数。

各々の点数は,(50,50),(50,70),(80,60),(70,90),(90,100)(50,50),(50,70),(80,60),(70,90),(90,100)

このときの共分散を計算してみましょう。

まず,国語の平均点 μX\mu_X は,

μX=15(50+50+80+70+90)=68\mu_X=\dfrac{1}{5}(50+50+80+70+90)=68

同様に数学の平均点 μY\mu_Y は,

μY=15(50+70+60+90+100)=74\mu_Y=\dfrac{1}{5}(50+70+60+90+100)=74

5人について「XX の偏差 × YY の偏差」は,

(5068)(5074)=432(50-68)(50-74)=432

(5068)(7074)=72(50-68)(70-74)=72

(8068)(6074)=168(80-68)(60-74)=-168

(7068)(9074)=32(70-68)(90-74)=32

(9068)(10074)=572(90-68)(100-74)=572

よって共分散は, XX の偏差 × YY の偏差」の平均なので,

15(432+72168+32+572)=188\dfrac{1}{5}(432+72-168+32+572)=188

と計算できます。

最短で得点力を上げる典型問題集【PDF】のT73では,共分散を計算するときに計算ミスをしないコツも紹介しています。

共分散の符号の意味

共分散は,「XX の偏差 × YY の偏差」の平均なので

共分散が大きい(正)→ XX が大きいとき YY も大きい傾向がある

共分散が 00 に近い→ XXYY にあまり関係はない

共分散が小さい(負)→ XX が大きいとき YY は小さい傾向がある

と言えます。

例えば,上記の例だと,国語の点数と数学の点数の共分散は 00 よりだいぶ大きいので「国語の点が高い人は数学の点も高い傾向にある」と言うことができます。直感的に納得できる結果ですね。

共分散を表す記号

共分散は英語で「Covariance」と言うので,XXYY の共分散のことを Cov(X,Y)\mathrm{Cov}(X,Y) と書くことがあります。

また,共分散を σXY\sigma_{XY} と書くこともあります。

共分散は,

XX の偏差 × YY の偏差」の平均

で定義されましたが,これを期待値の記号を使って表すと,

E[(XμX)(YμY)]E[(X-\mu_X)(Y-\mu_Y)]

となります。ただし μX\mu_XXX の平均,μY\mu_YYY の平均です。

共分散の問題点

共分散は「スケール変換に対して不変でない」という問題点があります。

例えば,上記のテストの例で国語も数学も 1010 点満点で評価した場合を考えてみます。

55 人の点数は,(5,5),(5,7),(8,6),(7,9),(9,10)(5,5),(5,7),(8,6),(7,9),(9,10) となります。

このデータに対して共分散を求めると Cov(X,Y)=1.88\mathrm{Cov}(X,Y)=1.88 となります。

本質的に同じデータに対しての共分散が満点の決め方によって 188188 になったり 1.881.88 になったり変動してしまいます。そのため共分散の数値だけを見て関係性を判断することは難しいのです。

その問題点を解消するために実際には共分散を規格化した相関係数というものが用いられます。→相関係数の意味と6つの性質(範囲が-1以上1以下、など)

共分散の簡単な求め方

実は,共分散はXX の偏差 × YY の偏差」の平均という定義を使うよりも,少しだけ簡単な求め方があります!

共分散を簡単に求める公式

Cov(X,Y)=E[XY]μXμY\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y

実際にテストの例:

(50,50),(50,70),(80,60),(70,90),(90,100)(50,50),(50,70),(80,60),(70,90),(90,100)

で共分散を計算してみます。

まず,国語の平均点 μX\mu_X は,

μX=15(50+50+80+70+90)=68\mu_X=\dfrac{1}{5}(50+50+80+70+90)=68

同様に数学の平均点 μY\mu_Y は,

μY=15(50+70+60+90+100)=74\mu_Y=\dfrac{1}{5}(50+70+60+90+100)=74

次に,かけ算の平均 E[XY]E[XY] は,

E[XY]=15(5050+5070+8060+7090+90100)=5220E[XY]\\=\dfrac{1}{5}(50\cdot 50+50\cdot 70+80\cdot 60+70\cdot 90+90\cdot 100)\\=5220

以上より,共分散を簡単に求める公式を使うと,

Cov(X,Y)=52206874=188\mathrm{Cov}(X,Y)=5220-68\cdot 74=188

となりさきほどの答えと一致しました!

こちらの方法の方が計算量がやや少なくて楽です。実際の試験では計算ミスをしやすいので,2つの方法でそれぞれ共分散を求めて一致することを確認しましょう。この公式は強力な検算テクニックになるのです!

では,共分散を簡単に求める公式:

Cov(X,Y)=E[XY]μXμY\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y

を証明しておきます。

証明

まず期待値の中身を展開すると,

Cov(X,Y)=E[XYXμYYμX+μXμY]\mathrm{Cov}(X,Y)=E[XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y]

となる。次に和の期待値は期待値の和なので

Cov(X,Y)=E[XY]E[XμY]E[YμX]+E[μXμY]\mathrm{Cov}(X,Y)\\ =E[XY]-E[X\mu_Y]-E[Y\mu_X]+E[\mu_X\mu_Y]

定数倍は期待値の外側に出せるので,右辺第二項は

E[X]μY=μXμY-E[X]\mu_Y=-\mu_X\mu_Y となる。

右辺第三項も μXμY-\mu_X\mu_Y となる。

定数の期待値は定数そのものなので右辺第四項は μXμY\mu_X\mu_Y となる。

以上から Cov(X,Y)=E[XY]μXμY\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y

共分散と分散の関係

共分散の定義式で形式的に X=YX=Y としてみると,

Cov(X,X)=E[(XμX)2]\mathrm{Cov}(X,X)=E[(X-\mu_X)^2] となり XX の分散の定義式と一致します。

このような意味で,「共分散は分散の一般化」とみなせます。

さらに,共分散を簡単に求める公式:

Cov(X,Y)=E[XY]μXμY\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y

X=YX=Y としてみると,

Var[X]=E[X2]μX2\mathrm{Var}[X]=E[X^2]-\mu_X^2

という式が得られます。

これは,分散の意味と2通りの求め方・計算例で紹介した有名な公式です。

大学の統計学では分散共分散行列という行列が活躍します。→分散共分散行列の定義と性質

Tag:期待値と分散に関する公式一覧

Tag:数学1の教科書に載っている公式の解説一覧