はじめに

全体= サンプルがそっくりなのが理想

サンプル調査も、味見と同じです。 サンプル調査は全数調査の代わりにするものですから、全体(母集団)とサンプルとをできるだけ同じ状態にすることがポイント。 そうでないと、サンプル調査をしても歪んだデータを集めてしまうことになります。

たとえば、「現在、どの新聞を定期購読しているか」を知りたいとします。1万人に聞くとしたら、当然、47都道府県のすべてに、人口比で人数を割り振るでしょう。さらに、各県の市区町村にも人口比で割り振ろうと考えるのが自然です。そのあとは、名前順に1000軒ごとに1軒選ぶ、といったアトランダムな方法で選びます。決して、恣意的に選んではいけません。 恣意的に選べば、偏りが起きるからです。

もし、このアンケートを北海道だけに絞って回答を集めたらどうなるでしょうか。全国紙はともかく、ブロック紙(いくつかのエリアにまたがる地域で販売されている新聞紙)の場合、中日新聞や西日本新聞は実数よりもぐっと少なく示され、同じブロック紙でも北海道新聞は実数よりも大きなシェアになるだろう、と容易に想像できます(北海道新聞、中日新聞、西日本新聞が3大ブロック紙)。このことは、愛知県に絞る、九州に絞る場合も同様です。

歴史的なミスを犯したサンプリング調査

2016年の米大統領選挙はヒラリー・クリントンとトランプの一騎討ちで、多くの世論調査では「クリントン有利」としていたのに、予想は外れました。このときの選挙以上に有名なのが1936年のアメリカの大統領選挙でしょう。

この年は、民主党はルーズベルト候補(現職大統領)、共和党はランドン候補の対決でしたが、無名のギャラップ社(当時の名称はアメリカ世論研究所)は、全米の有権者から3000人の調査で「ルーズベルトが54%で有利」と予想。

これに対し、世論調査で定評のあったリテラリー・ダイジェスト社(以下、ダイジェスト社)は「ランドン57%で勝利」を予想。そのサンプル数は実に200万人で、ギャラップ社の700倍。

その結果はどうだったか……? 

46州でルーズベルトが勝ち、選挙人獲得数はルーズベルト523人に対し、ランドンはわずか8人だったのです。ここで問題です!

データdeクイズ
なぜ、200万人ものサンプルを集めたダイジェスト社が予想を外し、たった3000人のサンプルでギャラップ社は的中できたのでしょうか?

答えは、 「ダイジェスト社は、サンプリングのミスをした」です。

予想を大きく外したダイジェスト社の場合、自社の雑誌購読者(高額な雑誌)、電話やクルマの保有者の総計1000万人を選び、そのなかから200万人の回答を得ていました。

当時、電話やクルマを所有できる人は高所得層に限られており、多くは共和党支持者でした。つまり、200万人のサンプルを集めたといっても、ほとんど同じ階層、同じ政党支持者の人々からの回答を得ていたのです。

対するギャラップ社は、都市の男女、農村の男女という地域別・性別、あるいは富裕層、それに次ぐ層などの所得別など、人口比にできるだけ等しく抽出していました。

つまり、「投票者の縮図」を作成し、それに合わせて回答を得ていたのです。結果的に、 正しい縮図をつくれば、小さなサンプルでも全体を反映できる ことがわかったのです。

投資管理もマネーフォワード MEで完結!配当・ポートフォリオを瞬時に見える化[by MoneyForward]