じゃんけんグリコの最適戦略と東大の問題

じゃんけんグリコの最適戦略はもらえる得点をスライドさせた感じになる。

じゃんけんグリコにおける「最適戦略」の意味,最適戦略の構成法を解説します。東大入試でも出題された有名な話題です。

じゃんけんグリコのルール

  • じゃんけんを何回も繰り返し,獲得点数を競う
  • グーで勝てば3点,チョキで勝てば5点,パーで勝てば6点もらえる
  • 二人以上なら何人でも遊べるが,ここでは二人の場合のみ考える

グーは「グリコ」が3文字。チョキは「チョコレート」が5音,パーは「パイナップル」が6文字であることから点数が決まっています。

なお,チョコレートは6文字なのでチョキで勝つと6点もらえるというルールの方が一般的なようです。

もらえる得点が非対称なので,それぞれの手を確率 13\dfrac{1}{3} で出すよりもよい戦略がきっとある!だから最適戦略を考えよう,という問題です。

最適戦略とは

グーを出す確率が pp,チョキを出す確率が qq,パーを出す確率が rr であるような戦略を (p,q,r)(p,q,r) と書くことにします。

ここでは東大の問題(後述)にならって 相手がどんな戦略を取ってきても,自分がもらえる得点の期待値がマイナスにはならないような戦略のことを最適戦略と言うことにします。

※この記事では「自分がもらえる得点ー相手がもらえる得点」の期待値を単に「自分がもらえる得点」の期待値と呼んでいます。例えば,相手がチョキで勝ったときは自分がもらえる得点は 3-3,のように考えてください)

注:二人の条件は同じなので,お互いが同じ戦略を取ればもらえる得点の期待値は必ず0になります。

よって「相手がどんな戦略を取ってきても自分がもらえる得点の期待値が必ずプラス」となるようないわゆる必勝法は存在しません。そこで,最適戦略を上記のように定義するのが自然です。

東大の問題

東大1992年理系第6問です(言い回しは変えています)。

(1)相手が (13,13,13)(\frac{1}{3},\frac{1}{3},\frac{1}{3}) という戦略を取ってくるとき,自分がもらえる得点の期待値を最大化する戦略を求めよ。

(2)先述の意味での最適戦略を求めよ。

(1)の解答

自分が (p,q,r)(p,q,r) という戦略,相手が (a,b,c)(a,b,c) という戦略のとき

自分がグーで勝つ確率は pbpb,相手がグーで勝つ確率は qaqa

自分がチョキで勝つ確率は qcqc,相手がチョキで勝つ確率は rbrb

自分がパーで勝つ確率は rara,相手がパーで勝つ確率は pcpc

よって,一回のジャンケンでもらえる得点の期待値は

E=3(pbqa)+5(qcrb)+6(rapc)E=3(pb-qa)+5(qc-rb)+6(ra-pc)

(1)の設定のとき,

E=13(3p3q+5q5r+6r6p)=13(3p+2q+r)=13(14p+q)E=\dfrac{1}{3}(3p-3q+5q-5r+6r-6p)=\dfrac{1}{3}(-3p+2q+r)\\ =\dfrac{1}{3}(1-4p+q)

(最後の変形で p+q+r=1p+q+r=1 を用いた)

これは p=0,q=1,(r=0)p=0,q=1,(r=0) のときに最大となる。よって, チョキを出し続けるのがよい(これは直感と一致する)!

注:ただし,ずっとチョキを出し続けていると相手もそれに気づいてグーを出してくるでしょう。現実の勝負では相手の戦略 (a,b,c)(a,b,c) が一定ではありません。

最適戦略

次は(2)の解答です。いよいよ最適戦略を求めます!

(2)の解答

条件:任意の相手の戦略 (a,b,c)(a,b,c) に対して E0E\geq 0

を満たす自分の戦略 (p,q,r)(p,q,r) を求めるのが目標。とりあえず a,b,ca,b,c について整理する:

E=a(6r3q)+b(3p5r)+c(5q6p)E=a(6r-3q)+b(3p-5r)+c(5q-6p)

ここで,条件を満たす     6r3q0,3p5r0,5q6p0\iff 6r-3q\geq 0,3p-5r\geq 0,5q-6p\geq 0

\Leftarrow は自明,\Rightarrow については特に (a,b,c)=(1,0,0),(0,1,0),(0,0,1)(a,b,c)=(1,0,0),(0,1,0),(0,0,1) の場合に条件が成立することから)

あとは上の三つの不等式を解くのみ。

  • p,q,rp,q,r のいずれもが 00 ではない(もしどれか1つが 00 になると残り二つも 00 になってしまう)。
  • よって,不等式の両辺は正なので辺々かけあわせると 90pqr90pqr90pqr\geq 90pqr

となり等号が成立。つまり,もとの三つの不等式でも等号が成立していた!

よって,最適戦略は p:q:r=5:6:3p:q:r=5:6:3 を満たす。つまり, (p,q,r)=(514,614,314)(p,q,r)=(\frac{5}{14},\frac{6}{14},\frac{3}{14})

コメント:もらえる得点 (3,5,6)(3,5,6) を一つスライドさせたような形になっています。これは直感的には説明しにくいですね。

自分は幼少期,チョキ5点ルールで遊んだ記憶があります(最適戦略など考えずに無邪気に遊んでいました)。

Tag:東大入試数学の良問と背景知識まとめ