はじめに

ビジネスシーンや経済指標などでよく用いられるアンケート調査ですが、表される数値はどこまで信用できるものなのでしょうか?

そこで、サイエンスライター・本丸諒 氏の著書『グラフとクイズで見えなかった世界が見えてくる すごい統計学』(飛鳥新社)より、一部を抜粋・編集して統計学でサンプルから推測する方法について解説します。


統計学は「記述」と「推測」の2種類!

統計学の本を読みはじめると、本のはじめのほうに「記述統計学、推測統計学の2つがある」と書いてあります。そして記述統計学とはグラフや表に記述する統計学のこと、推測統計学とはサンプルから母集団を推測する統計学のこと―という説明も添えられているのですが、私にはいまひとつ腑に落ちない分け方に思えます。

というのも、2つに分けるなら、東日本と西日本、北半球と南半球、男と女のように、何かひとつの条件で線引きするものですが、いま述べた形ですと、「グラフ化する」と「推測する」という異なる視点で線引きしているように見えるからです。

そこで私はこの2つの統計学の違い(線引きのポイント)を、

・記述統計学……全数調査をしたデータを扱う統計学のこと
・推測統計学……全数調査をせず、サンプル調査のデータを扱う統計学のこと

このように、 記述統計学と推測統計学とは、「全数調査か、否か」で分けて考える ようにしています。そのほうがスッキリするでしょう。現に、『統計学用語』(アーク出版)という用語辞典で「記述統計学」を引くと、「調査対象とする母集団を構成する個体を『全数調査』して、調査の目的に応じて、その母集団の統計的な性質や特徴を〝記述〞することを目的とした統計学」とあります。わざわざ「全数調査」の部分をカギカッコで囲んで「大事だよ」と注意喚起し、〝記述〞のほうは、あえて〝 〞カッコ書きであることからも、「全数調査が前提だ」と読み取れます。

アンケートから社員の生声が聞こえてくる「記述統計学」

「全数調査」とはいっても、国家全体とか世界全体のデータである必要はありません。

たとえば、Ⅹ社の総務部長が「社員の通勤時間を知って、通勤手当や勤務形態の改善を図りたい」と考えた場合、その全数とはⅩ社の社員全員(60名)を指します。

アンケートの結果を並べたものが(1)の数字です。これを見ただけで、何かわかるでしょうか。そう、データが多数あれば理解度が上がるというものではないのです。

そこで全体を把握しやすくするために、表とグラフにしてさらに60人分の元データを代表する数値(代表値)を抽出してみました(2)。統計学でいう代表値とは、「平均値、中央値、最頻値」の3つでしたね。データの範囲(幅)がどれくらいに分布しているかは「最大値・最小値」で見ることもできますので、それも算出してみました。

代表値やデータの範囲をつかんだおかげで、Ⅹ社の部長は通勤状態を把握することができました。これによって、「在宅ワークを週1で入れれば、社員の疲労度を抑えつつ、手当も減らす」という提案ができるかもしれません。 データは集めること自体が目的ではありません。「分析して、なんらかの対策や提案を目指すこと」が目的 ですからね。

グラフや表にまとめ、代表値(平均値など)やデータの範囲(最大値、最小値)を記述し、分析することで対策を打てるようにする―「記述統計学」と呼ばれるゆえんです。

新NISA、自分に合った投資金額をお手軽に診断!マネーフォワードMEプレミアムサービス[by MoneyForward HOME]