ベイズ脳は認知バイアスを説明できるのか?

認知科学でもここずっと話題となり続けている自由エネルギー原理(予測処理)1は、自らを脳や心のための統一理論であると称している。これまでの理論と比べての扱える適用範囲の広さを考えると、こういう主張をしたくなる気持ちも分からなくもない。

統一理論を目指す予測処理は認知バイアスを説明できるのか?

ただ、前々から疑問に感じていたのは、予測処理は知覚や運動のような低次認知の説明が得意なのに比して、言語や思考のような高次認知の説明はあまりうまく行っていないことだ。統一を主張する人たちがよく出す説明の成功例は、知覚に知識(予期)が影響を与えるトップダウン効果なのだが、これはせいぜい低次認知と高次認知の境界であって、高次認知の本丸には入れていない。(主に能動的推論によって)説明できる範囲を広げようとする試みは現在進行系で進められてはいるが、統一を可能と感じられるはっきりとした目処があるとは言いがたい。

予測処理(自由エネルギー原理)が扱うのに困りそうなところとしてすぐに思いつきやすいのは、認知バイアスである。大雑把に説明すると、認知バイアスとは規範的な論理や確率に従わない傾向を指す。予測処理の特徴はそのベイズ確率の採用にあるが、認知バイアスはその確率に従わない認知傾向であり、明らかに矛盾があって扱いに困るはずだ。これは統一理論と称するには障害のはずだと前々から思っていたので、どうするのだろう?とずっと不思議に感じていた。

論文「なぜベイズ脳は明示な確率推論問題をうまく扱えないのか?」

そこで見つけたのが、次の論文(おそらくプレプリント)だ。

https://www.researchgate.net/publication/358688709_Why_Bayesian_brains_perform_poorly_on_explicit_probabilistic_reasoning_problems

著者たちは、自由エネルギー原理で有名なフリストンとも共著論文も多い人たちだ。この論文では、ベイズ脳が規範的な確率に従わない認知バイアスをどうやって説明できるか?を論じている。ベイズ脳とは、脳がベイズ計算をしているとする説であり、予測処理はその典型となる理論である。

これから論ずるように、ベイズ脳仮説と判断や意思決定の研究で報告されている体系的な推論の偏り(reasoning biases)の間にある緊張を解けると主張する様々な反応がある。

"Why Bayesian brains perform poorly on explicit probabilistic reasoning problems"preprint p.4より

この後、二重過程説による説明をした後に

だが、どのように明示な推論(reasoning)過程を完全なベイズ脳によって理解できるのか?、要するになぜこの過程がこのような貧しい直観と既に見た不健全な推論(inference)の例のような顕在的な反応を生み出すことになるのか?、という興味深いが探求されざる疑問は残っている。

"Why Bayesian brains perform poorly on explicit probabilistic reasoning problems"preprint p.5より

ここで困るのが、reasoningとinferenceの訳し分けだ。ここではどっちも推論と訳したが、どっちも前提(入力)から過程を経て結果(出力)を導く所は同じだが、reasoningは主に意識的な(つまりexplicitな)判断の過程なのに対して、inferenceはより一般的な意味であり、無意識的な過程も含みうるところが違う。ここでは、間違ったinferenceをしてしまうreasoningをベイズ脳はどう説明できるのか?が問題になっている。正直、どう訳し分けるべきか?私には分からないので、原語を添えながら説明していきます。

論文ではこの後に、これまでの有力な説明としてサンプリング説などを挙げているが、ここではひとまずそこは飛ばして、後半の著者たち自身による説明を見てみよう。

この論文の著者たちはバイアスをどう説明するか?

まずはいきなり本人たちによる説明を引用してみよう。

私達の議論で最初に取り上げるのは、推論の過程(process of inference)と推論された内容(content being inferred)との違いの重要性である。例えばベイズ知覚では、脳はその感覚の異なる可能な隠れた原因の事後確率を推論する(infer)。
…中略…
この場合(バイアスをもたらす問題)では、個人は確率そのものを報告するように求められる。言い換えると、確率は推論された内容である。 つまり、知覚において脳は隠れ状態を通して(over hidden states)確率を推論(infer)しているが、明示な確率推論(reasoning)の問題には、確率について隠れ状態としての(as hidden states)推論(inference)を行なう個人が必要となる。

"Why Bayesian brains perform poorly on explicit probabilistic reasoning problems"preprint p.7より

正直なところ、知覚の説明は理解できるが、バイアスをもたらす判断(reasoning)の説明はよく分からない。この後で「状態や観察として確率を扱う生成モデルをベイズ脳が持っているべきだとする理由はない」(Figure 1.の注釈より)とも説明されているが、これでは説明というよりもバイアスを扱えない言い訳にしか聞こえない。論文では、さらに能動的推論との比較もされてるが、あまり内容は変わらない。

この論文、最後はバイアスをもたらす判断はベイズ脳の脅威ではない…と言い張っているようにしか見えなくて、正直ガッカリしかない。もう、統一理論だと言い張るのはやめた方がいいと思う。

ここまで読んできて、なんでこんなガッカリの論文を紹介したの?と思う人はいるかもしれない。しかし、この記事の本番はまだこれからだ。途中で省略した他の説明であるサンプリング説をここからは取り上げていく。ここまでに取り上げてきた論文中の説明が物足りないので、元の論文に遡って読んだら、こっちの方がよっぽど面白かった。それを紹介していきます。

### ベイズ脳でバイアスを説明するためのサンプリング説

これから主に参照する論文は次のものになります。

これは一部に実験も含まれた詳しい論文だが、もっと簡潔にサンプリング説を説明した論文としては次のようなものもある。

https://journals.sagepub.com/doi/full/10.1177/0963721420954801

ベイズを用いた式は、複雑になると直接に解くのは困難であることが知られている。そこで、現在ではMCMCに代表されるサンプリングによる計算法がよく用いられる。実際に解を導くためには何度もの多数回のサンプリングが行なわれている。もしサンプリングの回数が少ないと、初期値や偶然による偏りが出やすくなる。この考え方がサンプリング説の基本となるアイデアとなる。

サンプリング説によって説明できる分かりやすい例としては、連言の誤り(conjunction fallacies)が挙げられる。連言の誤りとは、Aだけの確率とAかつBの確率とを比べたら、必ずAかつBの確率の方が低くなるはずなのに、問題によってはAかつBの確率の方が高いと答えやすいことだ。連言の誤りとして最も有名なのはリンダ問題だが、ここでは別の例を挙げよう。

トヴァスキーとカーネマン(1983)は参加者に小説の四ページにある単語の数を推測させた。それは、-----n-のパターンと----ingのパターンであった。参加者は----ingの数をより高く見積り、より簡単にそれと分かった。これが意味するのは、より簡単に心的に取り出せる(sampled)ものが、よりありうるものとして見積もられることだ。[…中略…]----ingのパターンに合う単語は全て、-----n-のパターンにも合っている、だからそんなことはありえない。

"The Bayesian Sampler"p.720より

reasoningにおいては、サンプリング回数が少なくならざるをえないのでバイアスが生じるとする説明は私は見事だと思う。ただし、ただのサンプリング説だけではベイズを用いるべき理由にはならない。実際に、サンプリング説より前に既に統計理論プラスノイズ説というのもあって、サンプル回数が少ないほどノイズ(誤差)が生じやすいのだから、この点からは理論としての説明力はどちらもせいぜい同等でしかない。にも関わらず、なぜベイジアンサンプラーの方が有望なのか?の説明はややこしくなるのでここではしない。

異なるベイズ脳観による問題

サンプリング説による説明は見事なので、ベイズ脳にとってはとりあえずこれでいいじゃない?という気持ちにはなる。しかし、必ずしもそうはいかない。そもそもまだ説明できないバイアスがあるのでは?という疑問はここでは脇に置く(だから量子確率による説明の出番がなくなる訳ではまだない)。しかし、問題はそこではない。それはベイズ脳観の違いにある。

前半で取り上げた論文では、フリストンとの共著もある研究者なせいもあり、彼らの想定するベイズ脳は自由エネルギー原理(予測処理)に寄っている。それに対して、後半の論文では参照文献に予測処理関連の著書がほぼない(予測符号化だけならなくもない?)。つまり、想定されているベイズ脳がどこまで同じか?よく分からないのだ。

さらに、そこに伴う問題として自由エネルギー原理(予測処理)では基本的に計算法として変分(variational)法が採用されており、サンプリング法を取り入れてよいのか?よく分からない。むしろ、自由エネルギー原理にKL擬距離が理論的に取り入れられていることを考えると、(計算量の問題を別にしても)そんな簡単にはサンプリング法でもいいじゃん!…と言う訳にはいかないのかもしれない。

追記

  • 連言の誤りについての説明の間違いを修正(2022/11/6)

  1. ここでは、予測処理と自由エネルギー原理との違いは気にせず、同じような理論として扱う。なぜなら、ここではベイズ脳としての共通点だけを論じているからだ