勘違いしやすい統計の基礎用語を整理する

ベイジアンについては、認知科学の理解にとっても重要だし統計的検定にも関心があるしで、相変わらず勉強中なのだが、その過程で困ったことがある。実は、頻度主義とベイズ主義の比較に興味を持ってネットにあった日本語の論文やスライドを幾つか見たのだが、そこで困惑する事態に出会った。

それは、それらの文献や資料において使われている用語についての定義の仕方が互いに整合性が取れないことだ。困ったことに、どの文献や資料も内容はもっともらしくてどの用語の定義を信用していいのかよく分からない。こういう場合は仕方がないので、英語の論文を含めてより広く文献を探すことにしている。そうこうしているうちになんとなく理解できるようになったので、あくまで勉強中の素人による理解として聞いてください。

頻度主義は本来は確率論の用語である

頻度主義とベイズ主義を比較した文章を読むと、仮説検定や推定についての話が出てくる。仮説検定法には後で詳しく論じるが、仮設検定法を主題とした文章をそうした比較を主題とした文章と照らし合わせると、どうも言っていることに違いがある。その違いがうまく解消できなくて困ってしまった。そこで英語の文献に頼ったのだが、そこで分かったが、頻度主義とベイズ主義を仮説検定や推定に関わる用語として直接に用いている人は多いが、これは正確には問題があるということだ。頻度主義というのは本来は確率論の用語であり、確率論として頻度主義を採用した立場が頻度論の統計や推論であるということだ。ベイズ主義とベイズ統計・ベイズ推論とを全く同じ意味として用いることは少なくとも誤解を招く原因である。

ただややこしいのは、確率論の基礎的な考え方として頻度主義(frequentist)とベイズ主義(bayesianism)があるという言い方はしないわけではないが、もっと一般的には別の分類法を用いる。確率論の立場としては、論理説、主観説、頻度説、傾向説 1と大きく四つに分けられ、その中でも前者二つは認識的確率 2、後者二つは9偶然的(客観的)確率と呼ばれる(「リスコミでの確率による不確実性伝達の課題」を参照)。些細なことを言うと、主観説とベイズ主義はたいてい一致するが、必ず一致するわけではない。細かい話は別にしても、はっきりと言えることは頻度主義(ベイズ主義も?)はあくまで確率論の用語であって、確率論としてそれらの立場に立った統計学が構築されていると考えるのが妥当だ。

頻度主義に基づいたのがネイマン-ピアソン流の統計的推論だ

頻度主義の説明として仮説検定法や推定法が挙げられることは多い。この説明に問題があることはすでに述べたが、実はこの説明の仕方に問題があることは始めは別の方面から気づいていた。なぜなら、頻度主義とベイズ主義の比較について調べるよりも前に、統計的推論におけるフィッシャー流とネイマン-ピアソン流の違いに触れた論文を先に読んでいたからだ。頻度主義の説明として二者択一的な仮説検定法が挙げられることがあるが、これは大間違いとまでは言わないが、正確にはネイマン-ピアソン流の統計的検定法の特徴だとするのが正しい。私のような素人にはネイマン-ピアソン流以外に頻度主義に基づいた統計学があるのかどうかよく分からないが、少なくともそれが誤解を招く言い方なのは確かだ。好意的に見れば、頻度主義として二者択一的な仮説検定法を挙げるのは一般に普及した主流の仮説検定法を批判する目的であることは理解できる。しかし、実はここにもう一つの罠がある。

普及した仮説検定法は純血のネイマン-ピアソン流か?

一般に普及した主流の仮説検定法がネイマン-ピアソン流の仮説検定法だとはよく言われる。しかし、それも正確には正しくないらしい。それに気づいたのはそれを主題にした論文を見つけて読んだせいだが、実はそれ以前から違和感を感じていた。統計学者のフィッシャーとネイマンの間の論争を論じた論文を読んでいたときに、フィッシャーについての説明の中でp値が触れられているのを読んで不思議に思った。なぜなら、最近の再現性問題で話題にされたのがp値の誤用だったからだ。もちろんp値の誤用は主流の仮説検定法の元に行なわれた誤りだ。つまり、主流の仮説検定法にはネイマン-ピアソン流の二者択一の仮説検定とフィッシャー由来のp値がともに含まれていることになる。このことには薄々気づいていたのだが誤魔化していたところで、「機能的ツールとしての統計的仮説検定」を読んで疑いが確信に変わった。一般に普及した仮説検定法はフィッシャー流とネイマン-ピアソン流が混ざったハイブリッド仮説検定法だったのだ。

主流の仮説検定法の問題がネイマン-ピアソン流の仮説検定法の問題として語られることは多いが、実のところこれは正確には異なる。例えば再現性問題において、有意差を出すために標本数を事後的に変えることでp値を調整することが問題としてあげられた。しかし、これは主流のハイブリッド仮説検定法だからこそ生じる誤りであり、ネイマン-ピアソン流の仮説検定法の問題ではない。純粋なネイマン-ピアソン流では前もって標本の大きさを決める過程があるのに主流の方法ではそれは必須になっていない。標本数が増えるほど有意差は出やすくなる(小さな差でも有意になる)ことは知られているが、それを考慮すれば標本数を前もって決めるべきなのは当たり前だ。いくらなんでもネイマンやピアソンがそこに気づかないほどまでの馬鹿ではなかった。むしろ馬鹿なのは仮説検定を無理矢理ハイブリッドにしてしまった側の学者たちだ。

あなたは仮説検定における二つの過誤を本当に理解しているのか?

仮説検定法については標本数の他にも効果力や検定力の問題もあるが、詳しくはリンクした論文を読んでください。実はこの論文を読んで気づいた大事なことがもう一つある。それは統計学の授業や教科書で必ず触れられる二つの過誤についてだ。私は心理学科の出身だが、統計の授業で二つの過誤がよく理解できなかった。その後も、稀に気が向いた時に統計の教科書を見てみても、どうしても第一の過誤と第二の過誤の話がよく分からなかった。それは私に頭が悪いからだと長らく思っていたが、そうもそれだけが原因ではなかったらしい。

つまり、学校で習った主流の(ハイブリッド)仮説検定法では二つの過誤の考え方があまり生かされていないのが、私が理解できなかった理由だったのだ。というのは、本来のネイマン-ピアソン流にはあった検定力(検出力)への配慮が主流の仮説検定法では必須ではないせいだ。その結果として、二つの過誤を説明する意義が失われてしまっている。要するに、一方で標本数が定まらないことで有意差が出やすくなり、他方で検定力(検出力)が低いせいで誤って差がないとされてしまうことだ。本当は両側から別々の過誤を防ぐ必要があるが、主流の仮説検定法ではそれが為されていない。主流の仮説検定法の枠組みでは、私のような論理的整合性で物事を理解する人間には二つの過誤が理解しにくいのも仕方がないと思えてきた。

批判されがちなネイマン-ピアソン…が勘違いの始まり

再現性問題によって主流の仮説検定法に批判が集まり、その源がネイマン-ピアソンにあるとされることは多い。しかし、それが勘違いなことはすでに説明した。本来のネイマン-ピアソン流の仮説検定法では標本数と効果量(から導かれる検定力)を前もって決めておく必要がある。考えてみれば効果量、つまり二つの群の間にどのくらいの違いがあってほしいのかという期待による基準がなければ、そこから導かれる確率に何の意味があるのかは私にはよく分からない。主流の仮説検定法は表向きに客観主義を装うことで、本来必要な研究者の側がこうあってほしいという主観的な期待を消し去ってしまったのだ 3。その結果が論理的に整合性がないとされる主流の仮説検定法だとしたら、それは不幸なことでしかない。


  1. 傾向性説と訳されることもあるが、これだと私のように心の哲学に慣れた人間にはdispotisionの訳だと勘違いしてしまうが、実際はpropensityが原語のようだ。訳し分けは難しい。

  2. epistemic probabilityは認識論的確率とよく訳されるが、認識論的はepistemologicalの訳語なのでややこしい。もちろんlogicalの部分が「論」の意味を持っている。

  3. それでも謎として残るのは、本文でリンクした論文「機能的ツールとしての統計的仮説検定」p.19を見ると、なぜネイマン-ピアソン流の仮説検定法では標本の大きさの決定が先で検定力(検出力)による検討が後なのかよく理解できない。どう考えても期待される効果量を先に決めてから標本数を決めるほうが合理的だ。同論文p.31にあるガイドラインの第一項を見ると効果量を見積もってから標本の大きさを決定するというプロセスが示されているので、やはり私の考え方のほうが妥当な気がする。「p値は臨床研究データ解析結果報告に有用な 優れたモノサシである」も参照。