アンケート調査はどこまで信用できる？歴史的なミスを犯したサンプリング調査に学ぶ

はじめに

「推測統計学」で、少ないサンプルでも全体が見える！

もう1つの「推測統計学」の前提は、「全数調査をしない」ことでした。常識的に考えれば全数調査（悉皆調査ともいう）をするほうがよさそうですが、なぜしないのでしょうか？

その理由は、クラスや会社の全数調査ならすぐにできても、国単位や県単位の場合、全数調査をすると、あまりに時間と手間がかかること、さらに費用が莫大になることです。

全数調査の代表は「国勢調査」です。これは5年に1回、実施されますが、2015年の調査費用には650億円かかったとされています。主に地域の自治会や町内会が実際の調査員を出し、調査員に選ばれた人は50～100戸を担当し、国勢調査の説明とその後の回収を担当します。何度伺っても不在の家もありますので、調査員が国勢調査に割く時間はかなりのものとなります（調査員は全国で70万人といわれる）。

そこで、多くの調査では全数調査を行わず、代わりに「サンプル調査」（標本調査ともいう）を採用しています。サンプルですから、そこで得た平均値が、国民全体の平均値とピタリ一致している、という保証はどこにもありません。というより、「近い数値にはなっても、ピタリ一致はしない。誤差が必ず出てくるだろう」と考えるのがふつうでしょう。

では、真の値はどうすればわかるのでしょうか？　それは、 おおもと（母集団）の平均値や標準偏差などを「推測する」 のです。このとき、2つの推測方法があります。

点推定……サンプルの平均＝母数の平均と考え、ピンポイントで推定する。
区間推定……サンプルの平均値から、少し幅をもって推定する

(1)の点推定は、かなりのギャンブルです。1000人のサンプル調査で、ビジネスパーソンの昼食代の平均が「750円」と出れば、全ビジネスパーソンの昼食代を「750円」とピンポイントで推定します。1つの数値で表すため「わかりやすさ」はありますが、「ピタリ同じ」と考えるのは無理があります。また、政権の支持率やテレビの視聴率では誤解も生じますね。

(2)の区間推定は、何度も取ったサンプルの平均値「750円」に幅をもたせます。具体的には一定の数式に「750円」という数値を入れることで、「本当の金額は、95％の信頼度（確率）で730～770円の範囲に入っている」のような幅をもった予測をするのです。この(2)の方法で、サンプル調査で得たデータから母集団の平均値、標準偏差などを推測していきます。これが「推測統計学」です。

そもそも全数調査をしにくい状況では、事実上サンプル調査しか方法がありません。そしてここで大事なことは、「幅をもって推測していること」です。

サンプル調査は、安い、早い、信頼度が高い（高い確率）―という、メリットの多い調査方法で、これを支えているのが統計学（推測統計学）なのです。

しかし、使い方を誤ると誤解やミスリードも起きるので、注意が必要なんです。それらの事例も、この章で解説していきましょう。