ケンドールの順位相関係数

ケンドールの順位相関係数の定義,計算例,性質,および関連する検定手法について解説します。

ケンドールの順位相関係数の定義

ケンドールの順位相関係数(ケンドールのタウ)とは,nn 個のペアのデータ: (x1,y1),,(xn,yn)(x_1,y_1),\cdots,(x_n,y_n) から計算される,XXYY の関係を表す指標の1つです。

(xi,yi)(x_i,y_i)(xj,yj)(x_j,y_j) という2個のペアのデータについて,

(xixj)(yiyj)>0(x_i-x_j)(y_i-y_j) > 0 のとき「順方向」

(xixj)(yiyj)<0(x_i-x_j)(y_i-y_j) < 0 のとき「逆方向」

と呼ぶことにします。

(2個のペアの選び方は全部で nC2{}_n\mathrm{C}_2 通りあります)

このとき 「順方向のペア数ー逆方向のペア数」をnC2{}_n\mathrm{C}_2 で割った値をケンドールの順位相関係数と言います。

計算例

例題

n=4n=4 で,データが (80,90),(50,70),(100,80),(60,60)(80,90),(50,70),(100,80),(60,60) のときケンドールの順位相関係数を計算せよ。

解答

1つめのペアと2つめのペア: (80,90)(80,90)(50,70)(50,70) は「順方向」

1つめのペアと3つめのペア: (80,90)(80,90)(100,80)(100,80) は「逆方向」

1つめのペアと4つめのペア: (80,90)(80,90)(60,60)(60,60) は「順方向」

2つめのペアと3つめのペア: (50,70)(50,70)(100,80)(100,80) は「順方向」

2つめのペアと4つめのペア: (50,70)(50,70)(60,60)(60,60) は「逆方向」

3つめのペアと4つめのペア: (100,80)(100,80)(60,60)(60,60) は「順方向」

よって,ケンドールの順位相関係数は,τ=426=13\tau=\dfrac{4-2}{6}=\dfrac{1}{3}

注: xi=xjx_i=x_j または yi=yjy_i=y_j となる異なる i,ji,j が存在する場合はもう少し複雑な処理が必要になります。今回は x1,,xnx_1,\cdots,x_n は全て異なり,y1,,yny_1,\cdots,y_n も全て異なる場合を考えます。

意味,性質

  • XX が大きいほど YY が大きい傾向にある」とき順方向のペア数は多くなります。逆に「XX が大きいほど YY が小さい傾向にある」とき逆方向のペア数は多くなります。よって,ケンドールの順位相関係数が大きいほど「XX が大きいほど YY が大きい傾向にある」と言えます。

  • 一般的な相関係数(ピアソンの相関係数)と違って,データの値を直接使うのではなく大小関係のみを考慮します。

  • xxyy の順番が完全に一致しているとき,全てのペアが順方向になるので τ=1\tau=1 になります。また,xxyy の順番が完全に逆転しているとき,τ=1\tau=-1 になります。

  • 常に1τ1-1\leq \tau \leq 1 です。

  • 確率分布 P(X,Y)P(X,Y) から nn 個のサンプル (x1,y1),,(xn,yn)(x_1,y_1),\cdots,(x_n,y_n) を生成したとき,XXYY が独立なら τ\tau の期待値は 00 になります。

独立性の検定

確率分布 P(X,Y)P(X,Y) から nn 個のサンプル (x1,y1),,(xn,yn)(x_1,y_1),\cdots,(x_n,y_n) を生成した状況を考えます。このとき,ケンドールの順位相関係数を使って XXYY が独立かどうか検定することができます。

XXYY が独立で nn が十分大きい(n>10n > 10 )とき,τ\tau は平均 00 ,分散 2(2n+5)9n(n1)\dfrac{2(2n+5)}{9n(n-1)} の正規分布に近似的に従うことが知られています(※)。

よって,帰無仮説: XXYY は独立

として統計量 τ2(2n+5)9n(n1)\dfrac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} と標準正規分布のパーセント点を比較すれば検定できます。

確率分布 P(X,Y)P(X,Y) に関する仮定を必要としない一般的な方法(ノンパラメトリックな手法)です。

参考文献:The Kendall Rank Correlation Coefficient

※の証明はA tremendously simplified derivation of the variance of Kendall’s τに載っているようです(読者の方に教えていただきました)。