皆さん、こんにちは。
今回は前回の「区間推定」の続きで、「母比率の推定」について紹介します。
1. 母比率とは?
世の中には2者択一の問題が数多くあります(※どっちでもない、という回答が現実には存在しますが、今回は無視します)。
・男性or女性
・都会派or田舎派
・保守orリベラル
・綾波派orアスカ派
etc
などなど、挙げればきりがありません。
どちらの派閥がどれだけの割合存在するかは、全員を調べることはできないので、何人かを無作為に選んでアンケートなり世論調査なりをするはずです。
こうした調査の結果がどれだけ、全体の割合(母比率)をとらえられているか?それを今回は統計学的に推定します。
2. 母比率の推定(理論)
母比率は、次のようにベルヌーイ分布をベースにした正規分布を使って推定します。
ベルヌーイ分布とは、こちら離散確率分布の代表例 ~一様分布、ベルヌーイ分布、二項分布、ポアソン分布~ - ちょぴん先生の数学部屋 (hatenablog.com)で取り上げた通り、確率変数が0か1しか値を取らない「2者択一」な状況を記述する確率分布でした。
このとき、Xの標本平均Xバーは標本比率Rを表すのですが、これは次に紹介する具体例を見た方が理解が速いと思います。
というわけで、早速ですが、具体例を見ていきます。
3. 母比率の推定(具体例)
では、具体例として次の問題を考えます。
「内閣支持率を調べるため、無作為に2000人を選んで世論調査をした。結果『支持する』と回答したのが1200人だった。このとき、日本全体の内閣支持率pを、信頼度95%で推定せよ」
岸田政権は低空飛行のまま9月末で退陣しますが、総裁選を間近に控えマスメディアでは有力候補の支持率の調査が頻繁に報道されています。そして11月には米国で大統領選挙があるため、その世論調査も盛んに報道されています。
現実の世論調査では質問の仕方や回答者の選び方で結果を誘導することができてしまうわけですが、今回はその話は脇に置いて、偏りのないフェアな世論調査ができていると仮定します。
さて、今回は日本人で内閣を支持している人が全体のp%だけいる場合に、2000人の世論調査の結果からpの値を推定しようという話です。
今、世論調査で回答した人たち各々に、内閣を支持する場合には「1」、支持しない場合には「0」となる確率変数Xiを定義します。(※ただしi=1,2,・・・・,2000)
このとき、各々の確率変数Xiはpをパラメータとするベルヌーイ分布に従っています。
ベルヌーイ分布の平均と分散を再掲すると
となるので、結局個々のXiは平均p, 分散p(1-p)の確率分布に従っています。
すると、中心極限定理から、X1~X2000の標本平均Xバーは平均p, 分散p(1-p)/2000の正規分布に従います。
ここで、実は、標本平均Xバーが2000人を調べた支持率Rそのものになっています。
なぜか、Xバーを計算する式そのものを見てみましょう。
分母には調べた人数2000が来ます。そして分子には「1」や「0」の和が来るわけですが、ここの「1」の個数は、『支持する』と答えた人の人数1200になりますよね。
残りは全て0なので、分子で生き残るのは「1」の個数1200だけです。
結果としてXバーは、1200/2000という分数になり、これは世論調査した結果の支持率そのものの計算式ですよね。
以上の理由から、Xiの標本平均Xバーは、世論調査で得られた標本比率(ここでは支持率)Rとなります。
よってRを計算すれば、
となります。
ここで、Xバーが平均p, 分散p(1-p)/2000の正規分布に従うので、それと同じ値である標本比率Rも平均p, 分散p(1-p)/2000の正規分布に従います。
よって、Rを標準化した確率変数Z
は標準正規分布に従います。
正規分布表(今回はこちらを参照しました標準正規分布表 )から、中央部が信頼度95%になるような横軸の位置を調べると、±1.96となることが分かります。
よって、Zの信頼度95%の信頼区間は
となります。
③をpについて解くと、
となりますが、困ったことに、左辺と右辺にもpが混じってしまっています。
本来なら、実質pの2次不等式を解く羽目になるはずです。
ですが、ここは確率の大原則、「大数の法則」を利用させてもらいます。
『サンプル数が多ければ、その現象が起こる割合はその現象が起こる確率に収束する』というのが大数の法則です。
例えば、サイコロを何度も投げる状況を考えたとき、最初の6回は必ずしも1~6が均等に1回ずつ出るとは限りません。しかし、何度も投げ続けていくと、1~6の出た回数はいずれ均等に近づいていきます。これが大数の法則の言わんとすることです。
今回の場合は、サンプル数が2000と十分に大きいため、大数の法則で
p≒R
とおよそ近似できるということになります。
ということで、ご都合主義的ではありますが、左辺と右辺にあるpだけRに置き換えてしまいます。すると、
とpが評価できます。
あとは、④にRの値0.6を代入すれば、
お目当てのpの信頼度95%での範囲が求まりました。
結果は、世論調査の結果から、内閣支持率が58%~62%である確率が95%ということになります。
よって、この世論調査結果から、支持の方が不支持よりも多い、ということは言えそうだということです。
ここまで、「母平均」「母比率」と推定の方法を見てきたので、次回は「母分散」の推定方法を紹介します。