最近テレビで、「日本人の○○%が知らなかった」とか、「日本人の○○%が正しく解答した」とかいう番組をよく目にするようになりました。
そこで感じるのは、「日本人の・・」というからには、何人から聴き取りをして言っているのだろうか、という素朴な疑問です。つまり、日本の人口に対してサンプル数はいくら必要かという問題です。
統計学の問題なのですが、計算してみました。
これには先ず、母集団を決める必要があります。
2013年の日本の人口は1.273億人です。これには、質問に回答できない赤ちゃんも痴呆老人も含まれます。しかし、多めに設定しておけば文句を言う人はいないでしょう。従って、母集団は1.3億人で計算します。
次に、信頼率と要求精度です。
要求精度は、許容する誤差の範囲です。ここでは一般的な5%とします。
信頼率は99%とします。
この計算では、例えば、100回推定すれば,推定された信頼区間の中に母比率±5%の数値が含まれることが99回あることが保証できると言うことです。
この計算結果では必要なサンプル数は、664人です。
ちなみに、条件を緩和し、要求精度5%、信頼率90%とすると、必要なサンプル数は271人になります。
つまり、271人以上にインタビューすれば、「日本人全体で・・」とはばかりなく胸を張って言えることになります。
統計学というのはとても奇妙な学問です。計算結果があたっているときは自信満々に「統計が示すとおり」というくせに、結果が外れたり、自分に責任がかかるときは、「統計学上の数値なので」と直ぐに逃げ腰になる。その点を追求すると、「統計を知らない人の発言だ」と開き直る。
犯人逮捕に統計学を駆使するプロファイラーが活躍するドラマがありますが、どうもうさん臭い。
統計学を直感的にうさん臭いと感じるのは、ある意味正しい感覚なのではないでしょうか。
例えば、要求精度5%、信頼率90%で271人以上のサンプルということで、300人にアンケートを採ったとします。さて、この300人は、質問に対して正直に答えているのでしょうか。景品をもらえるから参加した人もいれば、いやいや参加した人もいるはずです。世の中にはへそ曲がりの人がたくさんいます。故意に結果をねじ曲げてやろうと考えているかも知れません。
しかし、統計学では、それも含めて、最終的には正規分布の形になると仮定しています。
「いやいや、経験的にそうはならないだろう!」という我々の感覚とは違います。
統計学が威力を発揮するのが選挙の開票速報です。早々と当選確定になる候補者がいるかと思えば、一度、当確になったのに落選してしまう候補者も稀にですが、存在します。結果的に見れば、選挙速報に使われている統計学の手法によって、かなりの精度で候補者の当落を早い段階で判定しています。
しかし、なぜ、当確者が落選するようなことになるのか。
統計学では、落選したのは、たまたま信頼区間外の値になっただけのこと。それだけです。それ以外の意味はありません。だから、統計学の責任ではない。あえて言うならば「調査方法の問題」。
そこが「うさん臭い」と感じるのが庶民の感覚です。それも含めての統計学ではないのか!
サンプルの中に特異なデータは必ず存在します。そのデータを切り捨てるのか、入れるのかで結果は違ってきます。様々な検定方法が開発されていますが、統計学はまだまだ進化の途上にあり、今後も新しい理論が出てくるように思います。