ヨビノリさんの企画、「数学夏祭り」に参加しております。
本日9/7に出題された、第6問はこちら、
統計データの処理の問題ですね。やっていきます
(筆者の解答時間40分、うちexcelへのデータ打ち込みに30分。実質10分)
筆者の解答
(最初の1行分のみ抜粋)
統計データから「相関係数」を求める、統計学の基本中の基本の問題です。
正味excelに計算させるだけの問題なので、データ200組(数値にして400個)の打ち込みに一番時間を取られました。。。
こんな無意味な数字を200組打ち込むのは中々につらかったです。
1. 「平均」:読んで字のごとく、データを全部足してデータの個数で割ったものです。
2.「分散」: データのバラけ具合を表す数値です。
ばらけ方を見積もろうとすれば、「データと平均の差」を合計すれば良さそうですね。しかし、差のまま足してしまうと0になってしまい、都合が悪いです。「差の絶対値」を足せばこの点は解消できますが、絶対値だと計算が面倒です。
そんな事情もあり、一般に、「データと平均の差の2乗」を足し算し、データの個数の影響を除くためにデータ数で割ります。要するに、
「分散」=「データと平均の差の2乗 の平均」と定義するのが一般的です。
3. 「共分散」:2つのデータがどれだけ傾向が一致しているかを表す数値です。
分散の定義と似ていますが、定義は、
「共分散」
=「(データXとXの平均値との差)× (データYとYの平均値との差) の平均」
となります。
ただ、データの相場値によって大きさがいくらでも変わってしまい、どれだけ傾向が一致しているかを直観的につかみにくいのが難点です。よって共分散がそのまま使われることはあまりないです。
では、実際に「どれだけ傾向が一致しているかを見る」のに使われる数値は何か、それこそが、今回要求されている、「相関係数」です。
4. 「相関係数」
これは、共分散の値を見やすく修正したものになり、以下のように定義されます。
「相関係数」=「(X,Yの共分散)÷ √(Xの分散) ÷√(Yの分散)」
この操作をすることによって、相関係数Rは、-1≦R≦1の値に必ず収まることが知られており、Rが1に近いほど「右肩上がりの関係 = 正の相関」、Rが-1に近いほど「右肩下がりの関係 =負の相関」といった感じに、直感的に分かりやすくなります。
このように、相関係数は、2種類のデータに「右肩上がりor下がり」の関係があるかないかを確認するのに使われます。
ただし、相関係数=0 だからといって「無関係」とは限らないことに注意です!!相関係数で見れるのは、あくまで「直線的な関係の有無」だけです。
また、「相関がある」=「因果関係がある」とは限らないことにも要注意です。
「風が吹けば桶屋が儲かる」という諺を例にすれば、
もし、「その日の風量と、その日の桶屋の売り上げのデータをプロットしたら正の相関があった!」としても、だからといって「風が強い、だから桶が売れる」と結論付けてはいけないわけです。
本当に因果関係がある可能性ももちろんありますが、まぐれでそうなったのかもしれないですし、諺通りに、
「風が吹く→土埃によって盲人が増える→盲人は三味線を弾く→三味線の原料になるネコの需要が増える→猫が減ればネズミが増える→ネズミが桶をかじる→桶が売れる」
といういくつもの因果関係を経てそうなっているかもしれないわけです。
ということで、excelでX,Yの平均と分散、XとYの共分散を計算させて相関係数を求める。それだけの問題です。
そんなこんなで、今回の相関係数は0.020となって、0に近い値ですので、XとYに直線的な相関はほぼないと言えます。
さて、こんな無秩序なデータの羅列をどうやって作ったんだろう?と邪推しながらデータを打ち込んでおりましたが、グラフにしてみると・・・・・
あっ(察し)