平均値,中央値,最頻値の求め方といくつかの例

更新日時 2021/12/17

データ群の特徴を一つの数値で表したものを代表値と呼ぶ。代表値の中でも平均値,中央値,最頻値が有名。

平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。

目次
  • 3つの代表値(平均値・中央値・最頻値)の共通点・違う点

  • 平均値の求め方と例

  • 中央値の求め方と例

  • 最頻値の求め方と例

  • 3つの代表値について

3つの代表値(平均値・中央値・最頻値)の共通点・違う点

平均値・中央値・最頻値は,いずれもたくさんの数を1つの数で「代表する」ための値です。

ただし,どの代表値を使うべきかは状況によって異なります。以下のようなメリット・デメリットを理解しておくことが重要です(それぞれの意味は後で例を使って詳しく説明します)。

平均値のメリット・デメリット

平均値のメリット:全てのデータを考慮できる。

平均値のデメリット:外れ値(異常に大きい値,小さい値)に弱い。

中央値のメリット・デメリット

中央値のメリット:外れ値に強い。

中央値のデメリット:全てのデータを十分に考慮できていない。

最頻値のメリット・デメリット

最頻値のメリット:外れ値に強い。

最頻値のデメリット:一つに決まらないことがある。サンプルサイズが少ないと使えない。

平均値の求め方と例

データの値の算術平均(全部足してデータ数で割ったもの)を平均値と言います。みなさんご存知,最も有名な代表値です。

例1

六人の国語のテストの点数はそれぞれ 52,52,70,72,80,10052,52,70,72,80,100 点であった。テストの点数の平均を求めよ。

解答

平均値は,52+52+70+72+80+1006=71\dfrac{52+52+70+72+80+100}{6}=71

例2

数学のテスト直前に天才が転校して来た。数学のテストはとても難しかった。その結果,七人の数学のテストの点数はそれぞれ 6,9,9,10,10,10,1006,9,9,10,10,10,100 点であった。テストの点数の平均を求めよ。

解答

平均値は,6+9+9+10+10+10+1007=22\dfrac{6+9+9+10+10+10+100}{7}=22

ほとんどの人が 1010 点以下なのに一人の天才によって平均点が 1010 点以上も上がってしまいました。

平均値のメリット・デメリット(再掲)

平均値のメリット:全てのデータを考慮できる。

平均値のデメリット:外れ値(異常に大きい値,小さい値)に弱い。

度数分布表と平均値

データが度数分布表にまとめられている場合は,「度数」と「階級値」を用いて平均値を近似的に求めることができます。具体的には,階級が nn 行あり,ii 行目の階級値を xix_i,度数を cic_i とすると,平均値は以下の値に近くなります。

x1c1+x2c2++xncnc1+c2++cn \dfrac{x_1c_1 + x_2c_2 + \cdots + x_nc_n}{c_1 + c_2 + \cdots + c_n}

以下は,とある学校のA組生徒の体重についての度数分布表である。以下の度数分布表を用いて,おおよその平均値を求めよ。

階級 度数 階級値
30kg以上40kg未満 3 35kg
40kg以上50kg未満 7 45kg
50kg以上60kg未満 11 55kg
60kg以上70kg未満 6 65kg
70kg以上80kg未満 2 75kg
80kg以上90kg未満 1 85kg
解答

おおよその平均値は

3×35+7×45+11×55+6×65+2×75+1×853+7+11+6+2+1=165030=55  kg \begin{aligned} &\dfrac{3 \times 35 + 7 \times 45 + 11 \times 55 + 6 \times 65 + 2 \times 75 + 1 \times 85}{3 + 7 + 11 + 6 + 2 + 1}\\ &=\dfrac{1650}{30} = 55\;\text{kg} \end{aligned}

中央値の求め方と例

データを大きい順(または小さい順)に並べたとき,真ん中の値を中央値(メディアン)と言います。データの数が偶数のときは「真ん中の値」が二つ登場するのでそれらを足して2で割ったものを中央値とします。

例1

さきほどの六人の国語の点数 (52,52,70,72,80,100)(52,52,70,72,80,100) において中央値を求めよ。

解答

六人の中間である,三位と四位の点数を足して2で割ったものが中央値である。よって中央値は,70+722=71\dfrac{70+72}{2}=71 点。

例2

さきほどの七人の数学の点数 (6,9,9,10,10,10,100)(6,9,9,10,10,10,100) において中央値を求めよ。

解答

七人の中間である,四位の点数が中央値である。よって中央値は 1010 点。

中央値のメリット・デメリット(再掲)

中央値のメリット:外れ値に強い。

中央値のデメリット:全てのデータを十分に考慮できていない。 (100点を取った天才が報われない)

最頻値の求め方と例

データの中で最も頻度が高い値を最頻値(モード)と言います。

例2

さきほどの七人の数学の点数 (6,9,9,10,10,10,100)(6,9,9,10,10,10,100) において最頻値を求めよ。

解答

1010 点をとった人が三人であり最も多いので最頻値は 1010 点。

例1

さきほどの六人の国語の点数 (52,52,70,72,80,100)(52,52,70,72,80,100) において最頻値を求めよ。

解答

5252 点が二人であとは同じ点数をとった人はいないので最頻値は 5252 点。

この例で 5252 点の人が 5353 点になると最頻値による分析はできなくなります。また,5252 点の人が 7070 点になると最頻値は 7070 点になってしまいます。

この例のようにサンプルサイズが少ないとき,データがぴったり一致することは珍しいので変なところ(感覚とズレるところ)に最頻値が来ることがあります。そのためそのまま最頻値を使うのは得策ではありません。

そこで,データを度数分布表・ヒストグラムにした上で度数が最も大きい階級の階級値を最頻値とすることもあります。

最頻値のメリット・デメリット(再掲)

最頻値のメリット:外れ値に強い。

最頻値のデメリット:一つに決まらないことがある。サンプルサイズが少ないと使えない。

ヒストグラムと最頻値

ヒストグラムから最頻値を求める場合,「最も度数の多い階級の階級値」を最頻値とみなすことがあります。最も山が高くなっている部分が最頻値です。

ヒストグラム

3つの代表値について

対称で山が一つ(単峰性)の分布では平均値,代表値,最頻値はほとんど同じ値なのでどれを使っても問題ないことが多いです(上側の図,横軸はデータの値,縦軸はデータの頻度を表す)。

代表値

山が一つでも対称でない(偏っている)分布のときは 平均値が外れ値に引っ張られ「平均値,中央値,最頻値」の順に並ぶことが多いです(ピアソンの経験則)。例えば所得の分布もこのような構造をしていると考えられます(年収1億とかの人が平均年収をつりあげている,下側の図)。

以上のように,代表値は分布の特徴を表す重要な指標ですが, 一つの代表値だけで判断するのは危険ということです。背後にある分布がどのような形なのか意識するべきです。

データを一つの数字で表すのは便利ですが,限界があるということです。

Tag:数学1の教科書に載っている公式の解説一覧