ちょぴん先生の数学部屋

数学の楽しさを、現役メーカーエンジニアが伝授するぞ!

「コロナ対策に自粛は無意味だ~!」というデマにご注意!!その4~少数から全体を推定する危うさ~

皆さん、こんにちは。

 

この記事でお馴染みの京都大学藤井聡教授が、またしてもとんでもない珍論を発言していたので紹介します。

 

発端は以下のツイートです。

 とあるワイドショーにて緊急事態宣言を延長すべきか否かのアンケートを取ったらしく、その結果、医療崩壊を恐れているはずの「医療福祉関係者」の「延長すべきでない」が44.4%もあって、「ほら、医療従事者は現場をよく分かっているから、実際は大したことないと分かっている。だから緊急事態宣言の延長は必要ないんだよ」とドヤ顔でツイートした次第です。

 

しかし、各項目の数字が全て11.1の倍数になっていることに気が付き、経済評論家の池戸万作氏が次のようなツッコミを加えました。

 100÷9 =11.1 ですので、確かにサンプル数が9人の可能性が大いにあります。この画面だけからは、各カテゴリーの人数の内訳は分からず、合計500人という情報しか分かりません。

 

これを受けて、すかさず藤井氏は以下のようにツイートしました。

 正直何を言っているのか意味が分かりませんが、とりあえずの結論は「たとえサンプルが9人であっても統計学的に医療従事者ほど延長に反対していると言えるのである」ということのようです。

 

「はぁ!?」

 

と思いませんでしたか?たった9人でそう判断するなんて大丈夫なの?と感じたと思います。少なくとも私はそう思いました。

 

ということで、この記事ではこの藤井氏の主張が正しいのか統計学を使ってファクトチェックを行います。

 

 

ここでは、「区間推定」という統計学の手法を使います。

 

これは少人数でデータを取った結果がどれだけ信頼できるかを調べる方法で、具体例としては「10人に綾波派かアスカ派かを質問して、6人が綾波派だと答えたとする。このとき日本人全体の綾波派は何%いるだろう?6割と判断して大丈夫か?」という問題です。(※ちなみにわたしはアスカ派です笑)

 

今回の場合だと、「9人の医療従事者に緊急事態宣言を延長すべきか否かを聞いて、4人が延長すべきでないと答えた。このとき日本全体の医療従事者の何%が延長すべきでないと答えるだろうか?」という問いになります。

 

これを求める公式は次のようになります。

f:id:stchopin:20210304174639p:plain

参考文献: 

https://bellcurve.jp/statistics/course/9122.html

(※この式は、2項分布という確率分布を想定しその分散がnp(1-p)と書けることから導出されます。が、ここを詳しく話すと本筋から脱線してしまうので、この記事においては結果の式だけ覚えておけばよいです)

 

各文字の説明をしておくと、

p : 標本比率 →n人のデータから得られた割合、今回の場合は44.4%のこと

zα:信頼区間1-αと正規分布から得られるパラメータ(後述)

n:サンプル数、今回の場合は9

r:知りたい推定値、今回の場合は「日本全体の医療従事者で延長すべきでないと答える人の割合」

となります。


ここで、zαについて説明しておくと、

そもそも、今回の推定は「rが○○<r<△△となる確率が、100α%となる」ような○○と△△の数字を求める作業になります。αの値が大きいほど、信用に値する推定値といえます。

 

そして詳しくは参考文献の記事のグラフ(標準正規分布)を見てほしいのですが、αの値に対応したzαという値が1対1で決まっております。

 

通常、この手の推定をするときはα=0.95を選ぶのが一般的なので、それに対応するzαは、zα=1.96となっています。

 

ここまでの情報、p=0.44, n=9, zα=1.96を、上記の式に代入して、rの範囲を求めてみると、

0.44 - 0.32 < r < 0.44 + 0.32

12% < r < 76%

となります。つまり、ありのまま今起こったことを話すと、

「日本全体の医療従事者の12%~76%が延長すべきでないと答える、と95%の確率で推定される」

という結論が得られました。

 

何を言っているか分かんないと思います。12%~76%という範囲はあまりにガバガバすぎて、医療従事者の過半数がどっちの意見なのかすら全くおぼつきません。

 

何でこんなにガバガバになってしまったのでしょう?

 

もう一度式を再掲します。

f:id:stchopin:20210304174639p:plain

 

 

この式を見ると、pから同じ幅だけ両端がばらついているので、zα×√ がバラツキを表しています。

そこに登場する数字をチェックしていくと、まずpはアンケートの結果そのものなので変えようがないです。よってpは固定で考えます。

 

すると、残る候補はzαとnになります。バラツキを小さくしようと思ったら、まずはzαの数字を小さくする手が考えられますね。

 

しかし、この数字を小さくしようとするとαを小さくしないといけません。αが小さくなると言う事は、推定した区間の信頼度が落ちていくことになってしまい、望ましくありません。

 

となると、信頼度を95%に固定するなら、あとはnを大きくするしかない。

 

そうです。今回仮定したn=9という値こそが、ガバガバ評価になってしまった真犯人です。nの値として9はあまりに小さすぎたのです。

 

上記の式の通り、nのルートでバラツキは影響を受けるので、バラツキ度合いを1/10に抑えるには、nを100倍の900にする必要があるのです。

 

ということで、冒頭の藤井氏の主張、

「たとえサンプルが9人であっても統計学的に医療従事者ほど延長に反対していると言えるのである」

到底正しいとは言えませんね。

 

しかも、医療関係者以外のカテゴリーでも同様の不備を抱えている可能性があるにもかかわらず、「医療従事者ほど延長に反対している」という相関関係まで断言するなんて、アホだとしか言いようがありませんし、「医療従事者ほど延長に反対する」具体的な理由すら述べていないわけです。

 

 

この程度の統計の知識であれば、京大教授なら当然ご存じのはずです。というか、9人のデータを良しとするなんて統計を知らない人であっても常識レベルでおかしいと思うはずです。

 

にもかかわらず、「自粛は無意味だ」という自説に都合の良いデータが出てくると見るやそんな検証をすっ飛ばし、よく分からない理屈をこねて「正しい」と判断して拡散してしまう。

 

悍ましいの一言です。

 

その1~3で紹介した印象操作のグラフも含めて、

数学の知識のない人に対して、それをいいことに印象操作・専門用語による誤魔化しを行って、何とかして自粛緩和に扇動しようとしている。

としか思えません。極めて悪質な、学者の風上にも置けない所業だという思いを強くしました。

 

しかし、数学に強い人たちにはこの手のフェイクは通用しません。必ずバレます。

 

皆様も、くれぐれも騙されないように注意してください!!

 

 [3/10追記]

ちなみにこの藤井教授、過去に「自粛は無意味だ」と主張するために明確な嘘を付いたことがあります。

 このグラフは正しいのですが、「7月の「冬」の感染拡大は全く自粛せずに収束しています。」の部分が真っ赤な嘘です。こういうカラクリです。

 

1. 大都市メルボルンのあるビクトリア州でのみ、7月に感染爆発が発生した

2. ビクトリア州では世界一厳しいロックダウンを実施し、市中感染を収束させた

3. オーストラリアの他の州は特に制限をかけていなかったため、国全体に均せば自粛率は「見かけ上低く見える」

 

www.newsweekjapan.jp

 

上記の事実があったのに、それには(意図的かどうかは別にして)一切触れず「自粛なしに収束した」と結論しているのです。世界一厳しいロックダウンを耐え抜いたビクトリア州の方々に対して大変失礼でしょう。

 

当然リプ欄や引用リツイートにはデマだという批判が殺到しましたが、未だに謝罪撤回をしていません。

 

こういったデマを流して世論誘導することを平気でできる輩だということが、この事例だけでも明白だと思います。