平均値,中央値,最頻値の求め方といくつかの例
- 平均値とは,「合計」÷「個数」
- 中央値とは,「大きさ順に並べた真ん中」
- 最頻値とは,「一番たくさんある数」
例えば, というデータの場合,
- 平均値は,合計,個数は なので です。
- 中央値は,大きさ順に並べると なので真ん中の です。
- 最頻値は,一番たくさんある です。
以下では,平均値,中央値,最頻値の意味や計算方法について,より詳しく説明していきます。
3つの代表値(平均値・中央値・最頻値)の共通点・違う点
3つの代表値(平均値・中央値・最頻値)の共通点・違う点
-
平均値,中央値,最頻値は,いずれもたくさんの数を1つの数で「代表する」ための値です。「代表値」と呼ばれます。
-
どの代表値を使うべきかは状況によります。以下のメリット・デメリットを理解しておきましょう(それぞれの後で詳しく説明します)。
- 平均値のメリット:全てのデータを考慮できる。
- 平均値のデメリット:外れ値(異常に大きい値,小さい値)に弱い。
- 中央値のメリット:外れ値に強い。
- 中央値のデメリット:全てのデータを十分に考慮できていない。
- 最頻値のメリット:外れ値に強い。
- 最頻値のデメリット:一つに決まらないことがある。サンプルサイズが少ないと使えない。
平均値の求め方と例
平均値の求め方と例
データの値の算術平均(全部足してデータ数で割ったもの)を平均値と言います。最も有名な代表値です。
六人の国語のテストの点数はそれぞれ 点であった。テストの点数の平均を求めよ。
平均値は, 点
数学のテスト直前に天才が転校して来た。数学のテストはとても難しかった。その結果,七人の数学のテストの点数はそれぞれ 点であった。テストの点数の平均を求めよ。
平均値は,点
ほとんどの人が 点以下なのに一人の天才によって平均点が 点以上も上がってしまいました。
- 平均値のメリット:全てのデータを考慮できる。
- 平均値のデメリット:外れ値(異常に大きい値,小さい値)に弱い。
度数分布表と平均値
データが度数分布表にまとめられている場合は,「度数」と「階級値」を用いて平均値を近似的に求めることができます。具体的には,階級が 行あり, 行目の階級値を ,度数を とすると,平均値は以下の値に近くなります。
以下は,とある学校のA組生徒の体重についての度数分布表である。以下の度数分布表を用いて,おおよその平均値を求めよ。
階級 | 度数 | 階級値 |
---|---|---|
30kg以上40kg未満 | 3 | 35kg |
40kg以上50kg未満 | 7 | 45kg |
50kg以上60kg未満 | 11 | 55kg |
60kg以上70kg未満 | 6 | 65kg |
70kg以上80kg未満 | 2 | 75kg |
80kg以上90kg未満 | 1 | 85kg |
おおよその平均値は
中央値の求め方と例
中央値の求め方と例
データを大きい順(または小さい順)に並べたとき,真ん中の値を中央値(メディアン)と言います。データの数が偶数のときは「真ん中の値」が二つ登場するのでそれらを足して2で割ったものを中央値とします。
さきほどの六人の国語の点数 において中央値を求めよ。
六人の中間である,三位と四位の点数を足して2で割ったものが中央値である。よって中央値は, 点。
さきほどの七人の数学の点数 において中央値を求めよ。
七人の中間である,四位の点数が中央値である。よって中央値は 点。
- 中央値のメリット:外れ値に強い。
- 中央値のデメリット:全てのデータを十分に考慮できていない。(100点を取った天才が報われない)
最頻値の求め方と例
最頻値の求め方と例
データの中で最も頻度が高い値を最頻値(モード)と言います。
さきほどの七人の数学の点数 において最頻値を求めよ。
点をとった人が三人であり最も多いので最頻値は 点。
さきほどの六人の国語の点数 において最頻値を求めよ。
点が二人であとは同じ点数をとった人はいないので最頻値は 点。
この例で 点の人が 点になると最頻値による分析はできなくなります。また, 点の人が 点になると最頻値は 点になってしまいます。
この例のようにサンプルサイズが少ないとき,データがぴったり一致することは珍しいので変なところ(感覚とズレるところ)に最頻値が来ることがあります。そのためそのまま最頻値を使うのは得策ではありません。
そこで,データを度数分布表・ヒストグラムにした上で度数が最も大きい階級の階級値を最頻値とすることもあります。
- 最頻値のメリット:外れ値に強い。
- 最頻値のデメリット:一つに決まらないことがある。サンプルサイズが少ないと使えない。
ヒストグラムと最頻値
ヒストグラムから最頻値を求める場合,「最も度数の多い階級の階級値」を最頻値とみなすことがあります。最も山が高くなっている部分が最頻値です。
3つの代表値について
3つの代表値について
対称で山が一つ(単峰性)の分布では平均値,中央値,最頻値はほとんど同じ値なのでどれを使っても問題ないことが多いです(上側の図,横軸はデータの値,縦軸はデータの頻度を表す)。
山が一つでも対称でない(偏っている)分布のときは 平均値が外れ値に引っ張られ「平均値,中央値,最頻値」の順に並ぶことが多いです(ピアソンの経験則)。例えば所得の分布もこのような構造をしていると考えられます(年収1億とかの人が平均年収をつりあげている,下側の図)。
以上のように,代表値は分布の特徴を表す重要な指標ですが, 一つの代表値だけで判断するのは危険です。背後にある分布がどのような形なのか意識するべきです。
データを一つの数で表すのは便利ですが,限界があるということです。