はじめに
「推測統計学」で、少ないサンプルでも全体が見える!
もう1つの「推測統計学」の前提は、「全数調査をしない」ことでした。常識的に考えれば全数調査(悉皆調査ともいう)をするほうがよさそうですが、なぜしないのでしょうか?
その理由は、クラスや会社の全数調査ならすぐにできても、国単位や県単位の場合、全数調査をすると、あまりに時間と手間がかかること、さらに費用が莫大になることです。
全数調査の代表は「国勢調査」です。これは5年に1回、実施されますが、2015年の調査費用には650億円かかったとされています。主に地域の自治会や町内会が実際の調査員を出し、調査員に選ばれた人は50~100戸を担当し、国勢調査の説明とその後の回収を担当します。何度伺っても不在の家もありますので、調査員が国勢調査に割く時間はかなりのものとなります(調査員は全国で70万人といわれる)。
そこで、多くの調査では全数調査を行わず、代わりに「サンプル調査」(標本調査ともいう)を採用しています。サンプルですから、そこで得た平均値が、国民全体の平均値とピタリ一致している、という保証はどこにもありません。というより、「近い数値にはなっても、ピタリ一致はしない。誤差が必ず出てくるだろう」と考えるのがふつうでしょう。
では、真の値はどうすればわかるのでしょうか? それは、 おおもと(母集団)の平均値や標準偏差などを「推測する」 のです。このとき、2つの推測方法があります。
点推定……サンプルの平均=母数の平均と考え、ピンポイントで推定する。
区間推定……サンプルの平均値から、少し幅をもって推定する
(1)の点推定は、かなりのギャンブルです。1000人のサンプル調査で、ビジネスパーソンの昼食代の平均が「750円」と出れば、全ビジネスパーソンの昼食代を「750円」とピンポイントで推定します。1つの数値で表すため「わかりやすさ」はありますが、「ピタリ同じ」と考えるのは無理があります。また、政権の支持率やテレビの視聴率では誤解も生じますね。
(2)の区間推定は、何度も取ったサンプルの平均値「750円」に幅をもたせます。具体的には一定の数式に「750円」という数値を入れることで、「本当の金額は、95%の信頼度(確率)で730~770円の範囲に入っている」のような幅をもった予測をするのです。この(2)の方法で、サンプル調査で得たデータから母集団の平均値、標準偏差などを推測していきます。これが「推測統計学」です。
そもそも全数調査をしにくい状況では、事実上サンプル調査しか方法がありません。そしてここで大事なことは、「幅をもって推測していること」です。
サンプル調査は、安い、早い、信頼度が高い(高い確率)―という、メリットの多い調査方法で、これを支えているのが統計学(推測統計学)なのです。
しかし、使い方を誤ると誤解やミスリードも起きるので、注意が必要なんです。それらの事例も、この章で解説していきましょう。
サンプルを正しくとるコツは?
家庭の味といえば「みそ汁」と答える日本人は多そうです。実は、このみそ汁にこそ、「サンプル調査の極意」が隠されています。
みそ汁をつくるとき、食卓に出す前に「味見」をしますよね。味が薄い、塩味が足りないと気づけば、そこで微調整します。これがサンプル調査の極意なのです。
料理をするときって、味に偏りがないように、みそ汁全体をよく混ぜたり、みその塊が残っていれば溶かして、全体が同じような濃さになった段階で「味見」をするはずです。
味見はわずかな量で判断しますから(全部を飲んだら意味がない)、お鍋のみそ汁の味が不均等な場合は、味見になりません。味見はサンプルとりですから、 「全体を縮小したサンプル」になっているかどうか、それが味見のポイントです。