ケンドールの順位相関係数
ケンドールの順位相関係数は,
-
で定義される量
-
2つの変数の「順位(並び順)」の一致度を測る指標
-
値が高いほど「片方が上がるともう片方も上がる」関係が強い
ケンドールの順位相関係数の定義,計算例,性質,および関連する検定手法について解説します。
ケンドールの順位相関係数の定義
ケンドールの順位相関係数の定義
ケンドールの順位相関係数(Kendall’s tau,ケンドールのタウ)とは, 個のペアのデータ: から計算される, と の関係を表す指標の1つです。
と という2個のペアのデータについて,
- のとき「順方向」
- のとき「逆方向」
と呼ぶことにします。
このとき 「順方向のペア数ー逆方向のペア数」を で割った値をケンドールの順位相関係数と言います。
(2個のペアの選び方は全部で 通りあります。つまり,全部のペアの中での順方向ペア数の割合を計算しています)
計算例
で,データが のときケンドールの順位相関係数を計算せよ。
- 1つめのペアと2つめのペア:
と は「順方向」 - 1つめのペアと3つめのペア:
と は「逆方向」 - 1つめのペアと4つめのペア:
と は「順方向」 - 2つめのペアと3つめのペア:
と は「順方向」 - 2つめのペアと4つめのペア:
と は「逆方向」 - 3つめのペアと4つめのペア:
と は「順方向」
よって,ケンドールの順位相関係数は,
注: または となる異なる が存在する場合はもう少し複雑な処理が必要になります。今回は は全て異なり, も全て異なる場合を考えます。
意味,性質
意味,性質
-
「 が大きいほど が大きい傾向にある」とき順方向のペア数は多くなります。逆に「 が大きいほど が小さい傾向にある」とき逆方向のペア数は多くなります。よって,ケンドールの順位相関係数が大きいほど「 が大きいほど が大きい傾向にある」と言えます。
-
と の順番が完全に一致しているとき,全てのペアが順方向になるので になります。また, と の順番が完全に逆転しているとき, になります。
-
常に です。
-
確率分布 から 個のサンプル を生成したとき, と が独立なら の期待値は になります。
いろいろな相関係数
- 順位相関係数は,一般的な相関係数(ピアソンの相関係数)と違って,データの値を直接使うのではなく大小関係のみを考慮します。
- 順位相関係数は順位のみを見るので,外れ値に強いです。
- 順位相関係数の中でも,ケンドールの順位相関係数はこの記事で紹介しました。もう1つスピアマンの順位相関係数もあります。スピアマンの順位相関係数は,「データを順位に変換してからピアソンの相関係数を計算」したものです。
独立性の検定
確率分布 から 個のサンプル を生成した状況を考えます。このとき,ケンドールの順位相関係数を使って と が独立かどうか検定することができます。
と が独立で が十分大きい()とき, は平均 ,分散 の正規分布に近似的に従うことが知られています(※)。
よって,帰無仮説: と は独立
として統計量 と標準正規分布のパーセント点を比較すれば検定できます。
確率分布 に関する仮定を必要としない一般的な方法(ノンパラメトリックな手法)です。
参考文献:The Kendall Rank Correlation Coefficient
※の証明はA tremendously simplified derivation of the variance of Kendall’s τに載っているようです(読者の方に教えていただきました)。