四分位数の求め方といろいろな例題
四分位数 とは,データを小さい順に並べたときの,下から ,または上から の部分にある数のことです。
特に,下から の数を 第1四分位数 と言い,上から の数を 第3四分位数 と言います。
四分位数の求め方にはいくつかの流儀があります。このページでは,四分位数を求める2つの方法を,具体例を使って解説します。
四分位数の定義と例
四分位数の定義と例
データを小さい順に並べたときに,
-
下から の部分にある数を第1四分位数
-
ちょうど真ん中にある数を第2四分位数
-
上から の部分にある数を第3四分位数
と言います。
「下から の部分」をどう定めるかには,いくつか考え方があります。最も一般的な方法は,幅を四等分する方法です。データを並べて(データ数について)幅を四等分します。
データを小さい方から並べると だった。四分位数を求めよ。
データは 個。「幅」は なので四等分すると各区間の幅は となる。よって,
第1四分位数は ,
第2四分位数は ,
第3四分位数は
ちなみに,第2四分位数のことは,中央値とも言います。
四分位数のメリット
四分位数のメリット
平均値や中央値を使えば,データのおおまかな傾向を1つの数字で表現することができます。
一方, 四分位数を使えば,データのおおまかな傾向を3つの数字で表現することができます。「中央値が9」と言うよりも「四分位数が4,9,12」と言う方が,データの傾向をより正確に表現できます。
さらに,四分位数には「外れ値の影響を受けない」というメリットがあります。
例えば,さきほどの計算例では, という外れ値をスルーできています。
このように外れ値に引っ張られにくので,四分位数は「頑強」と言われることがあります。
データ数が4k+3のときの四分位数
データ数が4k+3のときの四分位数
さきほどの例題のように,データの数が の倍数 のときには各分点に対応するデータが存在して,四分位数を計算することができました。
しかし,そうでないときには,分点が中間に来ます。 その場合は,近い2点のデータの重み付き平均を取るという考え方が一般的です。
データを小さい方から並べると だった。四分位数を求めよ。
データ数は で,幅は なので,第1四分位点は と の中点になる。
よって, と の平均を考えることにより第1四分位数は ,
第3四分位数も同様に
データ数が偶数の場合の四分位数
データ数が偶数の場合の四分位数
データ数が偶数のときには一つの区間幅には などが登場します。このような場合,重みを (分点から遠い側), (近い側)とした重み付き平均を考えます。
一次元データ の四分位数を求めよ。
幅は なので各区間の幅は になる。
よって,第1四分位数は
第3四分位数は
四分位数の2つめの定義「ヒンジ」
四分位数の2つめの定義「ヒンジ」
四分位数の定義として「幅を4等分する」考え方を紹介しましたが,「半分に割って,さらに半分に割る」という考え方もできます。
つまり,四分位数の2つめの定義として, 中央で上半分と下半分に分けて,下半分の中央値を第1四分位数,上半分の中央値を第3四分位数とするという考え方もあります。
この方法だと の重みなどを考えなくてよいので,さきほどの方法より単純です。
高校の数学1の教科書(東京書籍)にもこちらの方法が採用されています。
上の方法と区別したいときは,こちらの方法で求めた四分位数を ヒンジと言います。
例題1から3(以下のデータ)のヒンジをそれぞれ求めよ。
・例題1:
中央値は 。下半分のデータ の中央値は なので下側ヒンジは
同様に上側ヒンジは の中央値なので
・例題2:
中央値は ,下側ヒンジは の中央値なので
同様に上側ヒンジは
・例題3:
中央値は ,下側ヒンジは ,上側ヒンジは
注:さきほどの四分位数と今回のヒンジでは微妙に値が異なります。一般的にヒンジの方が「端っこに近い」値を取ってきます。
ヒンジの方が端っこに近いのは図を見て納得して下さい!
四分位数のいろいろな求め方
四分位数のいろいろな求め方
-
この他にも四分位数の定め方には流儀があるのでテストに出しにくい話題だと思います。
-
ただし(少なくとも東京書籍の)教科書にはヒンジが四分位数として載っていたので,高校生はヒンジを覚えておけばOKだと思います。
-
実際のデータを扱う場合はデータ数が大量にあることが多く,どの流儀を使っても得られる数値は大差ないのであまり心配する必要はありません。
「第一四分位数」のように漢字で書くと「だいじゅうよんぶんいすう」のように読んでしまうリスクがあるので「第1四分位数」のように数字を使いました。