ケンドールの順位相関係数

ケンドールの順位相関係数

ケンドールの順位相関係数は,

  • 「順方向のペア数」「逆方向のペア数」nC2\dfrac{「順方向のペア数」-「逆方向のペア数」}{{}_n\mathrm{C}_2} で定義される量

  • 2つの変数の「順位(並び順)」の一致度を測る指標

  • 値が高いほど「片方が上がるともう片方も上がる」関係が強い

ケンドールの順位相関係数の定義,計算例,性質,および関連する検定手法について解説します。

ケンドールの順位相関係数の定義

ケンドールの順位相関係数(Kendall’s tau,ケンドールのタウ)とは,nn 個のペアのデータ: (x1,y1),,(xn,yn)(x_1,y_1),\dots,(x_n,y_n) から計算される,XXYY の関係を表す指標の1つです。

(xi,yi)(x_i,y_i)(xj,yj)(x_j,y_j) という2個のペアのデータについて,

  • (xixj)(yiyj)>0(x_i-x_j)(y_i-y_j) > 0 のとき「順方向」
  • (xixj)(yiyj)<0(x_i-x_j)(y_i-y_j) < 0 のとき「逆方向」

と呼ぶことにします。

このとき 「順方向のペア数ー逆方向のペア数」を nC2{}_n\mathrm{C}_2 で割った値をケンドールの順位相関係数と言います。

(2個のペアの選び方は全部で nC2{}_n\mathrm{C}_2 通りあります。つまり,全部のペアの中での順方向ペア数の割合を計算しています)

計算例

例題

n=4n=4 で,データが (80,90),(50,70),(100,80),(60,60)(80,90),(50,70),(100,80),(60,60) のときケンドールの順位相関係数を計算せよ。

解答
  • 1つめのペアと2つめのペア:
    (80,90)(80,90)(50,70)(50,70) は「順方向」
  • 1つめのペアと3つめのペア:
    (80,90)(80,90)(100,80)(100,80) は「逆方向」
  • 1つめのペアと4つめのペア:
    (80,90)(80,90)(60,60)(60,60) は「順方向」
  • 2つめのペアと3つめのペア:
    (50,70)(50,70)(100,80)(100,80) は「順方向」
  • 2つめのペアと4つめのペア:
    (50,70)(50,70)(60,60)(60,60) は「逆方向」
  • 3つめのペアと4つめのペア:
    (100,80)(100,80)(60,60)(60,60) は「順方向」

よって,ケンドールの順位相関係数は,τ=426=13\tau=\dfrac{4-2}{6}=\dfrac{1}{3}

注: xi=xjx_i=x_j または yi=yjy_i=y_j となる異なる i,ji,j が存在する場合はもう少し複雑な処理が必要になります。今回は x1,,xnx_1,\dots,x_n は全て異なり,y1,,yny_1,\dots,y_n も全て異なる場合を考えます。

意味,性質

  • XX が大きいほど YY が大きい傾向にある」とき順方向のペア数は多くなります。逆に「XX が大きいほど YY が小さい傾向にある」とき逆方向のペア数は多くなります。よって,ケンドールの順位相関係数が大きいほど「XX が大きいほど YY が大きい傾向にある」と言えます。

  • xxyy の順番が完全に一致しているとき,全てのペアが順方向になるので τ=1\tau=1 になります。また,xxyy の順番が完全に逆転しているとき,τ=1\tau=-1 になります。

  • 常に1τ1-1\leqq \tau \leqq 1 です。

  • 確率分布 P(X,Y)P(X,Y) から nn 個のサンプル (x1,y1),,(xn,yn)(x_1,y_1),\dots,(x_n,y_n) を生成したとき,XXYY が独立なら τ\tau の期待値は 00 になります。

いろいろな相関係数

  • 順位相関係数は,一般的な相関係数(ピアソンの相関係数)と違って,データの値を直接使うのではなく大小関係のみを考慮します。
  • 順位相関係数は順位のみを見るので,外れ値に強いです。
  • 順位相関係数の中でも,ケンドールの順位相関係数はこの記事で紹介しました。もう1つスピアマンの順位相関係数もあります。スピアマンの順位相関係数は,「データを順位に変換してからピアソンの相関係数を計算」したものです。

独立性の検定

確率分布 P(X,Y)P(X,Y) から nn 個のサンプル (x1,y1),,(xn,yn)(x_1,y_1),\dots,(x_n,y_n) を生成した状況を考えます。このとき,ケンドールの順位相関係数を使って XXYY が独立かどうか検定することができます。

XXYY が独立で nn が十分大きい(n>10n > 10)とき,τ\tau は平均 00,分散 2(2n+5)9n(n1)\dfrac{2(2n+5)}{9n(n-1)} の正規分布に近似的に従うことが知られています(※)。

よって,帰無仮説:XXYY は独立

として統計量 τ2(2n+5)9n(n1)\dfrac{\tau}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} と標準正規分布のパーセント点を比較すれば検定できます。

確率分布 P(X,Y)P(X,Y) に関する仮定を必要としない一般的な方法(ノンパラメトリックな手法)です。

参考文献:The Kendall Rank Correlation Coefficient

※の証明はA tremendously simplified derivation of the variance of Kendall’s τに載っているようです(読者の方に教えていただきました)。