データの分析,確率

和の期待値は期待値の和【期待値の線形性】

確率変数 X,YX,Y と期待値に関して以下が成立する:

E[X+Y]=E[X]+E[Y]E[X+Y]=E[X]+E[Y]

より一般的には,E[i=1nXi]=i=1nE[Xi]\displaystyle E[\sum_{i=1}^nX_i]=\sum_{i=1}^nE[X_i]

→ 和の期待値は期待値の和【期待値の線形性】

偏差値の意味・目安・5つの性質

平均を μ\mu ,標準偏差を σ\sigma ,得点を xix_i とすると,偏差値 TiT_i は,

Ti=xiμσ×10+50T_i=\dfrac{x_i-\mu}{\sigma}\times 10+50

で計算できます。

→ 偏差値の意味・目安・5つの性質

ベイズの定理の基本的な解説

ベイズの定理:

P(X)P(YX)=P(Y)P(XY)=P(XY)P(X)P(Y|X)=P(Y)P(X|Y)=P(X\cap Y)

条件付き確率とベイズの定理の基本的な話です。

→ ベイズの定理の基本的な解説

ポリアの壺にまつわる確率とその証明

ポリアの壺:

壺に赤玉が aa 個,白球が bb 個入っている。その中から玉を1つ無作為に取り出し, 選んだ玉を壺に戻した上で選んだ玉と同じ色の玉を1つ壺に加える。

この試行を nn 回繰り返す。 nn 回目に赤玉が選ばれる確率は pn=aa+bp_n=\dfrac{a}{a+b}

→ ポリアの壺にまつわる確率とその証明

共分散の意味と簡単な求め方

共分散とは,二組の対応するデータの間の関係を表す数値です。

→ 共分散の意味と簡単な求め方

相関係数の意味と6つの性質(範囲が-1以上1以下、など)

二組の対応するデータ (X,Y)(X,Y) に対して,相関係数 ρ\rho を以下で定義する:

ρ=Cov(X,Y)σXσY\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}

→ 相相関係数の意味と6つの性質(範囲が-1以上1以下、など)

期待値と分散に関する公式一覧

期待値と分散に関して覚えておくべき公式を整理しました。

→ 期待値と分散に関する公式一覧

二項分布の平均と分散の二通りの証明

  • 確率 pp で当たるような試行を(独立に)nn 回繰り返す。そのうち kk 回当たる確率は,nCkpk(1p)nk{}_n\mathrm{C}_kp^k(1-p)^{n-k} である。
  • 二項分布 B(n,p)\mathrm{B}(n,p) に従う確率変数の期待値は npnp,分散は np(1p)np(1-p) である。

→ 二項分布の平均と分散の二通りの証明

独立と無相関の意味と違いについて

確率変数 XXYY

1:独立なら無相関

2:無相関でも独立とは限らない

3:多次元正規分布に従うとき独立     \iff 無相関

確率変数の独立性,無相関について。混同しやすいので整理しました。

→ 独立と無相関の意味と違いについて

破産の確率と漸化式

漸化式を用いて確率を求める有名問題を解説します。難関大の受験対策のよい練習問題になるだけでなく,現実的で面白い話題です。

→ 破産の確率と漸化式

平均値,中央値,最頻値の求め方といくつかの例

データ群の特徴を一つの数値で表したものを代表値と呼ぶ。代表値の中でも平均値,中央値,最頻値が有名。

平均値,中央値,最頻値の意味と計算方法を解説します。いくつかの具体例を通じてそれぞれのメリット・デメリットを見ていきます。

→ 平均値,中央値,最頻値の求め方といくつかの例

モンティ・ホール問題とその解説

条件付き確率に関する超有名な問題です。直感的にすぐ納得できる人もいますが,全く納得できない人も多いのでモンティ・ホールのジレンマと呼ばれることもあります。

→ モンティ・ホール問題とその解説

同じ誕生日の二人組がいる確率について

誕生日のパラドックス:2323 人いれば,その中に同じ誕生日である二人組が 50%50\%以上で存在する。

同じ誕生日である二人組が存在する確率,なぜパラドックスと呼ばれるのか,三人組の場合はどうなのか,について解説します。

→ 同じ誕生日の二人組がいる確率について

反復試行の確率の公式といろいろな例題

反復試行の確率:

確率 pp で成功するような試行を独立に nn 回反復して行ったとき,nn 回のうち kk 回成功する確率は,

nCkpk(1p)nk{}_n\mathrm{C}_kp^k(1-p)^{n-k}

反復試行の確率の公式の証明,簡単な例題,最大点を求める応用問題を解説。

→ 反復試行の確率の公式といろいろな例題

コンプガチャに必要な回数の期待値の計算

コンプガチャの期待値:

nn 種類,等確率のコンプガチャで全ての景品を集めるのに必要な回数の期待値は n(1+12+13++1n)n(1+\dfrac{1}{2}+\dfrac{1}{3}+\cdots +\dfrac{1}{n}) である。

コンプガチャについて。確率の練習問題として上式を二通りの方法で証明してみます。

→ コンプガチャに必要な回数の期待値の計算

条件付き確率の意味といろいろな例題

条件付き確率の意味を理解するために,いろいろな例題(サイコロ,男の子か女の子か問題,病気の検査の問題)を解説します。

→ 条件付き確率の意味といろいろな例題

分散の意味と2通りの求め方・計算例

分散とは,データの散らばりの大きさを表す指標です。分散が小さいほど「全員が平均に近い」と言え,分散が大きいほど「平均から遠いデータが多い」と言えます。

このページでは, 分散の意味分散の定義式の理由 ,そして 分散を効率的に計算する方法 について解説します。

→ 分散の意味と2通りの求め方・計算例

じゃんけんグリコの最適戦略と東大の問題

じゃんけんグリコの最適戦略はもらえる得点をスライドさせた感じになる。

じゃんけんグリコにおける「最適戦略」の意味,最適戦略の構成法を解説します。東大入試でも出題された有名な話題です。

→ じゃんけんグリコの最適戦略と東大の問題

幾何分布の具体例と期待値,無記憶性について

幾何分布: P(n)=(1p)n1pP(n)=(1-p)^{n-1}p で表される離散型確率分布を幾何分布と言う。

「幾何分布」という言葉は高校数学では登場しませんが,内容は高校の確率レベルです。

→ 幾何分布の具体例と期待値,無記憶性について

四分位数の求め方といろいろな例題

四分位数の定義

四分位数 とは,データを小さい順に並べたときの,下から 14\dfrac{1}{4} ,または上から 14\dfrac{1}{4} の部分にある数のことです。

特に,下から 14\dfrac{1}{4} の数を 第1四分位数 と言い,上から 14\dfrac{1}{4} の数を 第3四分位数 と言います。

四分位数の求め方にはいくつかの流儀があります。このページでは,四分位数を求める2つの方法を,具体例を使って解説します。

→ 四分位数の求め方といろいろな例題

あみだくじの確率を計算してみた

あみだくじの確率にはかなりの偏りが生じる。

あみだくじの確率を計算しようと試みてみたら,思ったよりも面白い数学の話になったので紹介します。

→ あみだくじの確率を計算してみた

じゃんけんであいこになる確率の求め方と値

nn 人でじゃんけんをしたときにあいこになる確率は pn=12n23n1p_n=1-\dfrac{2^n-2}{3^{n-1}}

前半はじゃんけんであいこになる確率 pnp_n の二通りの導出。

後半は2人,3人, \cdots ,10人のときに実際にあいこになる確率の計算。

→ じゃんけんであいこになる確率の求め方と値

箱ひげ図の見方・読み取り方(中央値,平均値,四分位数,最大・最小値)

箱ひげ図の意味

箱ひげ図とは,図のように「最大値・最小値・四分位数」の情報を表現したグラフです。箱ひげ図には 平均値の情報が含まれることもあります。

箱ひげ図を見れば,データの分布を大雑把に把握することができます。

→ 箱ひげ図の見方・読み取り方(中央値,平均値,四分位数,最大・最小値)

秘書問題(お見合い問題)とその解法

もし人生で nn 人の異性と付き合うことが分かっていて nn が十分大きいなら,最初の ne\dfrac{n}{e} 人とは別れてその後で「今までで一番いい人」がいたら結婚するべきである。

→ 秘書問題(お見合い問題)とその解法

ブールの不等式の証明と応用例

事象 A1,A2,,AnA_1,A_2,\cdots,A_n に対して

P(A1A2An)i=1nP(Ai)P(A_1\cup A_2\cup\cdots\cup A_n)\leq \displaystyle\sum_{i=1}^nP(A_i)

→ ブールの不等式の証明と応用例

余事象の考え方と例題

余事象の公式:

P(A)=1P(A)P(A)=1-P(\overline{A})

余事象の意味,余事象の考え方を使う面白い例題を解説します。

→ 余事象の考え方と例題

ヒストグラムとは&注意点

データを整理する代表的な手法の一つであるヒストグラム(柱状グラフ,頻度分布図)について解説します。

→ ヒストグラムとは&注意点

バナッハのマッチ箱

バナッハのマッチ箱と呼ばれる有名な確率の問題とその解法を解説します。

→ バナッハのマッチ箱

標準偏差の意味と分散との違い

標準偏差 σ\sigma はデータの散らばり具合を表す指標の一つ。データを x1,x2,,xnx_1,x_2,\cdots ,x_n とすると

σ=1ni=1n(xiμ)2\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}

ただし,μ\mu はデータの平均です。

→ 標準偏差の意味と分散との違い

巴戦の確率

巴戦(ともえせん)の問題について解説します。2016年東大第2問(文理共通)でも扱われた話題です。

→ 巴戦の確率