データの分析,確率

データの分析,確率 に関する30記事をまとめました。くわしくは各リンク先を見てください。

偏差値とは, 50+10×その人の点数ー平均標準偏差50+10×\dfrac{その人の点数ー平均}{標準偏差} で計算される指標です。

偏差値

→偏差値の意味・目安・5つの性質

共分散とは,二組の対応するデータの間の関係を表す数値です。

→共分散の意味と簡単な求め方

期待値の定義

以下の式で定義される E[X]E[X] を期待値と言う:

E[X]=i=1npixiE[X]=\displaystyle\sum_{i=1}^np_ix_i

→期待値と分散に関する公式一覧

平均値・中央値・最頻値
  • 平均値とは,「合計」÷「個数」
  • 中央値とは,「大きさ順に並べた真ん中」
  • 最頻値とは,「一番たくさんある数」

→平均値,中央値,最頻値の求め方といくつかの例

分散の意味

分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。

  • 分散が大きい → バラつきが大きい,平均から遠いものが多い
  • 分散が小さい → バラつきが小さい,全部が平均に近い,まとまっている

分散の意味

→分散の意味と2通りの求め方・計算例

四分位数の定義

四分位数 とは,データを小さい順に並べたときの,下から 14\dfrac{1}{4} ,または上から 14\dfrac{1}{4} の部分にある数のことです。

特に,下から 14\dfrac{1}{4} の数を 第1四分位数 と言い,上から 14\dfrac{1}{4} の数を 第3四分位数 と言います。

→四分位数の求め方といろいろな例題

箱ひげ図

箱ひげ図の意味

箱ひげ図とは,図のように「最大値・最小値・四分位数」の情報を表現したグラフです。箱ひげ図には平均値の情報が含まれることもあります。

箱ひげ図を見れば,データの分布をおおまかに把握できます。

→箱ひげ図の見方・読み取り方(中央値,平均値,四分位数,最大・最小値)

余事象(よじしょう)の公式

AA が起こる確率」11AA が起こらない確率」

余事象

→余事象の考え方と例題

標準偏差の意味

標準偏差とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。

  • 標準偏差が大きい → バラつきが大きい,平均から遠いものが多い
  • 標準偏差が小さい → バラつきが小さい,全部が平均に近い,まとまっている

標準偏差

→標準偏差の意味と分散との違い

相関係数の定義

相関係数 ρ\rho は, ρ=1ni=1n(xix)(yiy)1ni=1n(xix)21ni=1n(yiy)2 \rho=\dfrac{\dfrac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}{\sqrt{\dfrac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}}} で定義される。標準偏差 σX,σY\sigma_X,\sigma_Y と共分散 σXY\sigma_{XY} を使うと, ρ=σXYσXσY \rho=\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y} とも書ける。

→相関係数の意味と6つの性質(範囲が-1以上1以下、など)

反復試行の確率

確率 pp で成功するような試行を独立に nn 回反復して行ったとき,nn 回のうち kk 回成功する確率は,

nCkpk(1p)nk{}_n\mathrm{C}_kp^k(1-p)^{n-k}

→反復試行の確率の公式といろいろな例題

nn 人でじゃんけんをしたときにあいこになる確率は pn=12n23n1p_n=1-\dfrac{2^n-2}{3^{n-1}}

→じゃんけんであいこになる確率の求め方と値

期待値の線形性

確率変数 X,YX,Y と期待値に関して以下が成立する: E[X+Y]=E[X]+E[Y]E[X+Y]=E[X]+E[Y] より一般に,以下が成立する: E[i=1nXi]=i=1nE[Xi]\displaystyle E[\sum_{i=1}^nX_i]=\sum_{i=1}^nE[X_i]

→和の期待値は期待値の和【期待値の線形性】

ベイズの定理

P(X)P(YX)=P(Y)P(XY)=P(XY)P(X)P(Y|X)=P(Y)P(X|Y)=P(X\cap Y)

→ベイズの定理の基本的な解説

ポリアの壺

壺(つぼ)に赤玉が aa 個,白球が bb 個入っている。その中から玉を1つ無作為に取り出し,選んだ玉を壺に戻した上で選んだ玉と同じ色の玉を1つ壺に加える。

この試行を nn 回繰り返す。nn 回目に赤玉が選ばれる確率は pn=aa+bp_n=\dfrac{a}{a+b}

→ポリアの壺にまつわる確率とその証明

  • 確率 pp で当たるような試行を(独立に)nn 回繰り返す。そのうち kk 回当たる確率は,nCkpk(1p)nk{}_n\mathrm{C}_kp^k(1-p)^{n-k} である。
  • 二項分布 B(n,p)\mathrm{B}(n,p) に従う確率変数の期待値は npnp,分散は np(1p)np(1-p) である。

→二項分布の平均と分散の二通りの証明

確率変数 XXYY について,

1:独立なら無相関

2:無相関でも独立とは限らない

3:多次元正規分布に従うときは,独立     \iff 無相関

→独立と無相関の意味と違いについて

破産確率は,

pqp\neq q のとき αnαN1αN\dfrac{\alpha^n-\alpha^N}{1-\alpha^N}

p=qp=q のとき 1nN1-\dfrac{n}{N}

→破産の確率と漸化式

誕生日のパラドックス

2323 人いれば,その中に「同じ誕生日である二人組」が 5050 %以上の確率で存在する。

→同じ誕生日の二人組がいる確率について

じゃんけんグリコの最適戦略はもらえる得点をスライドさせた感じになる。

→じゃんけんグリコの最適戦略と東大の問題

幾何分布

P(n)=(1p)n1pP(n)=(1-p)^{n-1}p

で表される離散型確率分布を幾何分布と言う。

→幾何分布の具体例と期待値,無記憶性について

残っているマッチの本数 KK の期待値は,(2n+1)2nCn22n1\dfrac{(2n+1){}_{2n}\mathrm{C}_n}{2^{2n}}-1

→バナッハのマッチ箱

結論

3人の巴戦では,最初に戦う2人が有利で,勝つ確率は 51435.7\dfrac{5}{14}\fallingdotseq 35.7% である。残った1人の勝つ確率は 41428.6\dfrac{4}{14}\fallingdotseq 28.6% である。

→巴戦の確率

モンティ・ホール問題

モンティ・ホール問題

  1. 三つの扉がある。一つは正解。二つは不正解。

  2. 挑戦者は三つの中から一つ扉を選ぶ。

  3. 司会者(モンティ)は答えを知っており,残り二つの扉の中で不正解の扉を一つ選んで開ける。

  4. 挑戦者は残り二つの扉の中から好きな方を選べる。このとき扉を変えるべきか?変えないべきか?

→モンティ・ホール問題とその解説

コンプガチャの回数の期待値

nn 種類,等確率のコンプガチャで全ての景品を集めるのに必要な回数の期待値は n(1+12+13++1n)n\left(1+\dfrac{1}{2}+\dfrac{1}{3}+\cdots +\dfrac{1}{n}\right) である。

→コンプガチャに必要な回数の期待値の計算

あみだくじの確率には,かなりの偏りがある。

→あみだくじの確率を計算してみた

もし人生で nn 人の異性と付き合うことが分かっていて nn が十分大きいなら,最初の ne\dfrac{n}{e} 人とは別れてその後で「今までで一番いい人」がいたら結婚するべきである。

→秘書問題(お見合い問題)とその解法

ブールの不等式(Union Bound)

事象 A1,A2,,AnA_1,A_2,\cdots,A_n に対して

P(A1A2An)i=1nP(Ai)P(A_1\cup A_2\cup\cdots\cup A_n)\leq \displaystyle\sum_{i=1}^nP(A_i)

→ブールの不等式の証明と応用例

平均値と中央値の性質
  • 平均値は平均二乗誤差(MSE,Mean Squared Error)を最小にする。
  • 中央値は平均絶対誤差(MAE,Mean Absolute Error)を最小にする。

→平均値は二乗誤差最小,中央値は絶対誤差最小

ジニ係数とは,データの不平等さの具合を見る指標である。

00 以上 11 以下の実数をとり,00 に近ければ近いほど,分布が均一であることを示す。

→ローレンツ曲線とジニ係数~均等度合いを示す指標