書評 ファニーハフ「おしゃべりな脳の研究」

おしゃべりな脳の研究――内言・聴声・対話的思考

人の内なる声について、科学的成果を交えながら、それを研究する心理学者が分かりやすく伝えてくれる著作

内言や聴声について、専門に研究してる心理学者が、科学的な成果や様々な文献を参照ながら、一般向けに分かりやすく語った著作。前半は思考時に起きる心の中の言葉(内言)について、後半は実際には存在しない声がリアルに聞こえる現象(聴声)について、科学や文学からの色んな事例を取り上げて説明してくれている。ただし、内言と聴声を結びつける著者独自の考え方に基づいているが、そこは当人も認めるように証拠はまだ十分ではない。とはいえ、日本語で内言や聴声について科学的に扱った著作は珍しいので、興味を持ったならお勧め。

原題は「内なる声 どのように私達は自分自身と話すかの歴史と科学」。外からは分からない心の中で生じる声について、心理学や脳科学を参照する科学的な章と、文学や歴史を参照する人文的な章と、がだいたい交互に置かれて説明されている。

前半は内言研究の紹介。内言とは人が思考するときに心の中で話す言葉のことであり、ロシアの心理学者ヴィゴツキーが取り上げたことでよく知られている。内言は外からは分からないので研究は難しそうだが、元からは独り言(私的発話)の研究として、近年は脳画像の研究として、調べられている。この著作では特に、著者自身も関わった経験サンプリング法と呼ばれる、突然にブザーがなった時間にすぐに内的経験を聞く手法に基づく記述が多いのが特徴だ。科学書としてみた場合、この前半が断然に面白い。

後半は聞こえないはずの声が現実と同じように聞こえる聴声がテーマとなる。聴声は幻聴とも呼ばれて異常扱いされがちだが、必ずしもそうではないことが説明されている。ただ後半は精神病理学的な側面が強く、前半とはちょっと様子が違う。著者独自の理論によって内言と聴声には関連があるとされて、それによって前半と後半がつながっている。

内言であれ聴声であれ、まとまって日本語で読める科学的な著作は他にないので、貴重な翻訳である。科学的な視点からみると物足りない所がなくもないが、そもそも発展途上の研究テーマなのだ。最終章を見ると、この研究テーマについて課題と共に語られていて、それ自体が興味深い章となっている。

あまりハードルを上げずに気軽に読めばいい本だと思うが、気になるところがなくもない。聴声を内言と結びつけるのは著作独自の理論だが、これは本文でも描かれているように当の聴声者による反発に合っているが、確かに無理がなくもない。(作業記憶と結びついて)制御可能な内言と制御不可の聴声を関連付けるのは厳しいと感じる。

疑問に感じる部分も少しなくもないが、そこも含めてこの本は読む価値がある。翻訳も良好で全体的に読みやすい。なにより内言と聴声について科学的な成果に触れながら分かりやすく書かれた日本語の著作は今のところ他に見当たらない。そして、この本には著者自身の関心と専門に基づいているからこその良さに溢れている。

おしゃべりな脳の研究――内言・聴声・対話的思考


書評の本文から抜いた詳しい批判

実は私自身も若い頃に近い状態(軽めの言語性幻聴)になったことがあるが、その経験からも内言と聴声の関連については無理を感じる。本文でも指摘されているが、聴声は解離での説明の方が適切だと感じる。つまり、つらい現実の自分から無理やり心を引き離すのが解離であり、解離こそが幻聴(聴声)を生み出すはずだ。

解離が聴声と内言を結びつけるとする著者の説明はいまいち説得力がない(著者も薄々気づいている)。厳しい環境を生きた古代人の例も考慮すれば、環境からの強すぎるストレスが本人の持つ信念・道徳・信仰・世界観と結びついて、聴声が起こるのであり、そこに内言の入る余地があるか?怪しい(予測処理論を持ち出しても、説明できるのは声の帰属までであり声の発生までは説明できない)。

著作全体としては著者自身の関心と研究履歴に沿った内容であり、そうなのは正しいと思う。だが、やはり前半の内言と後半の聴声は、それぞれが興味深い内容なのだが、内容としてきれいに繋がっているとは言いがたい。聴声に合うように内言モデルを広げることが正しいのか?疑問に感じる。

とはいえ、聴声を精神的な異常としてではなく、正常な心的な防衛機能として捉えようとする本書の試みは素晴らしいと思う。そのような著作は日本ではまだ珍しいので、その点でもこの本はお薦めできる。

自由エネルギー原理の予測処理的な大枠を自分なりに理解してみる

自由エネルギー原理については、このブログでは既に何度か批判的な議論を紹介している。フリストンブランケットやメカニズムとの関係についてはすでに記事をあげたが、私自身の自由エネルギー原理への印象は相変わらず良くならない。他に気にしてる話題がなくもないのだが、自由エネルギー原理は最近ネットに上がっている関連論文の数が多く出てきており、どうしても気になってしまう。

もちろん詳しい議論は専門の学者にやってもらうしかなく、私としてはそれに期待している。ただ幾本も文献を読んでも自由エネルギー原理への基本的理解があまり定まらない。例えばある日本の有名学者は論文で運動や主体感はactive inferenceでこそ扱えるかのような書き方をしているが、運動も主体感も自由エネルギー原理が影も形もない頃から予測符号化で扱えることが知られている(運動はWolpertら、主体感はFrithらの研究があった)。

自由エネルギー原理について数式がたくさん書いてある論文は日本語でもいくつもある。だが私のこれまでの経験上、(この件に限らず)数式を論文や記事にたくさん書いてる人がその数式の意味をちゃんと理解している訳では必ずしもないことは承知している(分かってるなら数式の説明しろよ!)。結局は自分で努力して理解するしかない(いつものことだ)。

この記事は、元々は自由エネルギー原理の核となるactive inferenceについて自分なりの見解を書く予定だった。しかし、フリストンらが今年出したばかりのある論文をつい最近見つけて、そこにかなり詳しく説明されていたので、ここでは抑えめに書くことにした。てか、active interenceが実は思ってた以上に未完成の発展中なのに驚いた。

予測処理の説明を引用して私が注釈する

以下は、ある論文からの引用を翻訳して、そこに私が注釈します。書くのは完全に私なりの理解なので、正確に知りたい人は自分で確かめてください。

自由エネルギー原理(予測処理) = 予測符号化 + 能動的推論

予測処理の見方の元では、生成モデルの予測が実際の観察と比較されて、モデルと観察との間の違い(予測誤差、形式的には自由エネルギーと同等)は階層の中で上へと送られる。神経システムの目的は階層の各段階を通してその予測誤差を最小化することである。これは二つの方法で達成される:つまり、実際の観察と合う確率(the probability of the observation)を最大化するように世界の状態を推測することによってであり、これは知覚に相当し予測符号化の枠組みで典型的にモデル化される;または、その予測を実現させる機会(the chance of meeting those predictions)を増やすために世界の中でデータをとったり(sampling)行動を起こしたり(acting)することによってでもある。この後者の形を想定するモデルは能動的推論(active inference)モデルと呼ぶことにする。

Martina G. Vilas , Ryszard Auksztulewicz & Lucia Melloni "Active Inference as a Computational Framework for Consciousness"pdf版のp.5より翻訳

自由エネルギー原理と予測処理との関係が曖昧なのは以前の記事で触れたが、ここでは共通部分だけが説明されてます。自由エネルギー原理は独自に拡大しており、例えば一般的にフリストンブランケットは予測処理理論の中には含まれなく、自由エネルギー原理に独自に付け加わっていると考えていいと思う。

私自身の自由エネルギー原理への元々の理解は、予測符号化に階層化とactive inferenceを加えたものだった。 しかし、予測符号化を階層化するだけではあまりオリジナリティがない。それよりはこの引用にあるように、自由エネルギー原理を予測符号化とactive interenceを組み合わせたものと理解する方が分かりやすい。予測符号化とactive interenceはそれなりに独立してるので、個人的には予測符号化はそれだけで完成度が高いので先に勉強してしまうのがお勧め

ここまでactive interenceをわざと訳さないできた。それは理由がある。日本語の文献で定訳となっている「能動的推論」に疑問があるからだ。なぜならactive interenceは、予測符号化のperceptual inference(知覚的推論) と対照となる用語だからだ。知覚に対応させるなら行為の方が相応しい1。「能動的」の訳語は、身体化(特にenactivism)を思わせるが、それは必ずしも実態と合わない。この後で説明するように、(能動的にする)新たなデータの取得は、active interenceの目的の一つであるが、それは唯一の目的ではない。かと言って、行為的推論と訳しても分かりにくいので、ここでは定訳に従う。

既にあった予測符号化とは異なり、active interence(能動的推論)こそが自由エネルギー原理の革新であり、これを説明するのが上の引用のすぐ後に続く次の引用だ。

能動的推論の核心は期待される自由エネルギーにあり

能動的推論(active inference)モデルはこのようなことを含意している:システムは今ここでの驚きを最小化するだけでなく、行為の連鎖としての方策(policy)を選ぶ過程を通して期待される驚き(expected suprise)も最小化する。この最小化は二つの方法で達成されうる:つまり、事前設定によって定められた報酬(rewards)を得られる可能性を最大化するような実際的な(pragmatic)行為を行なうことによってである。またもう一つは、探索によって得られる情報を最大化するような認識を高める(epistemic)行為を行なうことによってだ。すなわち、未来の状態についての信念と何らかの状態についての可能性を表した仮想的な(counterfactual)信念と特定の方策を選んだ時にあったはずのその結果とを生成モデルは持っていなければならない。階層上の各段階での状態の間での変化は上の階層によって定められることになる(contextualized)。

Martina G. Vilas , Ryszard Auksztulewicz & Lucia Melloni "Active Inference as a Computational Framework for Consciousness"pdf版のp.5より翻訳

予測符号化が今ここでの驚きを最小化するのに対して、能動的推論は未来における驚きを最小化する。未来における驚きは期待される驚きとここでは呼ばれ、日本語訳で期待自由エネルギーと呼ばれるのと同じである。(引用では説明されてないが)行為の連鎖のことを方策(policy)と呼び、期待される驚きを最小化するような方策が選ばれる。

期待される自由エネルギー(驚き)は二つの項を持った数式に分解できる

EFE(期待される自由エネルギー)には色んな分解法がありうるが、等式3.1で示されたのは最も重要である。なぜなら、EFEは外在的、目的指向型の項(文献によっては道具的値とも呼ばれる)と内在的、情報探求型の項とに分けられるからだ

Beren Millidge,Alexander Tschantz&Christopher L. Buckley "Whence the Expected Free Energy?" p.454より翻訳

ここにある外在的項が実際的行為に対応し、内在的項が認識を高める行為に対応する。つまり、将来的に報酬を得ようとするか?新しい情報を得ようとするか?を総合的に判断しようとする2RPGのゲームで説明すると、今の街の周辺で経験値や金を貯めるか?マップの先を探索して新しい街を探すか?を選ぶことに値する。または、今の会社に残って働き続けるか?今の会社を辞めて転職や起業をするか?を選ぶのにも近い。起業して一時的に収入が減ったとしても将来的に大金持ちになれるならそれを選ぶだろう。

ちなみに、能動的推論で説明できる現象としてよく挙げられるのは、目立つ所に注意が向くこと。ただ、極端な例(報酬なしであからさまに顕著な情報がある)なので、説明できてる感があまりしない。

能動的推論に私が何となく感じる疑問

ある行為を選んだ時にどんな状態になるか?の計算は、マルコフ過程(直前の状態によって次の状態が決まる時系列の計算)によって行なわれるらしい^3。具体的な計算は今の私にはまだよく分からないが、何となく感じる疑問はある。

最も極端な例を挙げると、どうせ将来のいつか人は必ず死ぬのだから、何をしても無駄だ!という鬱的な判断をそもそも避けられるのだろうか?(ある所で悲観的予測の問題と呼ばれていたのと同じ)。これはケインズがした古典的な経済学理論(均衡システム)への指摘と等しい。真っ暗闇問題(dark room problem)も、きっとこの暗闇から脱出したら良いことがあるんだ!という知識と欲望に従って脱することができるのだ。つまり時間的な先の計算がいまいちよく分からない。最も悲惨な将来を想定して何もしない(途中経過を計算するまでもない)ような悲観的予測はありうる(今のままの生活を続けるだけなので珍しい選択とは言えない)。こうしたことを本当に数式化できてるのか?

もう一つ意地悪な疑問を挙げると、能動的推論が行動を起こす前に全てを計画するプランニングのモデルに見えることだ。このプランニングモデルは人類学者サッチマンが批判した古典的認知科学で採用されていたモデルだ。プランニングモデル(世界を正しく表象して前もって正しい行動を決める)に反対するような形で現れたのが、AIのサブサンプションモデル(ブルックス)とも言える。つまり、自由エネルギー原理は身体化に与してるように言われるが、(表面的な数式的な洗練化にも関わらず)能動的推論が採用してるようにも見えるプランニングモデルが身体化以前の古臭いものに見えなくもない。古臭いモデルだからいけない訳ではないが、身体化に与しているかのような言説と合っていないのは問題だと思う(そんなことは始めから言わなければいい。それで能動的推論の価値は下がらない)。

こうした私の現時点での疑問が正しいのか?よく分からない。それは各自で確かめてください。


  1. 知覚のトップダウン効果は、知覚が単なる感覚からの受動ではない点では能動的である。しかし、これは予測符号化で説明できる事態であり、active inferenceとは関係ない

  2. 期待される自由エネルギーを下げる方法としては、他にニッチ構築のように環境を変えることが指摘されることもある。ただ理屈としては分かるが、どうやって数理的にモデル化するのか?どうもよく分からない。

人工知能は知覚の逆問題を解いたのか?

正直なところ、今の人工知能なんて驚異的な統計装置かもしれないけど所詮は生きた心とは似ていない…と最近は高をくくっていた。でも、次の記事を読んだときはマジかもしれないと思い始めた

NeRFの仕組みがどんなものかいまいち分からないのでまだ評価しがたいところもあるが、このような説明には納得できるところもある

テネンバウムは、このほどMITの助教授に就任したヴィンセント・シッツマンの研究を紹介する。シッツマンらのグループは、限られた数の2D画像を基にニューラルレンダリングの技法を用いて物体の3Dイメージを生成する発想を、19年に初めて披露した。
シッツマンらの研究のテーマは、本物そっくりの完璧な3Dイメージを作成することではなく、不完全な写真から物体のおおよその形状を推測するアルゴリズムをつくることだった。これは人間が習慣的にこなしていることだと、テネンバウムは言う。「例えば目の前にあるコーヒーカップを手に取ろうとするとき、手が近づいていくと同時に、人間の知覚システムは自然にカップの背面がどの辺りにあるかを推測しています」と彼は言う。

二次元の画像を「高精度な3Dイメージ」に変換するアルゴリズムが、AIの進化を加速させる | WIRED.jpより

この引用に出てくるテネンバウムは私の好きな学者の一人であり、私がベイズを勉強しようと思った最初のきっかけは彼の影響でもある。その彼による説明はそれなりに説得力を感じる

この紹介されている技術で基本となる「二次元を三次元への変換」は、視覚研究では最重要課題である。認知科学においても2Dイメージから3Dへの変換は重要であり、ギブソンによって(網膜上の二次元イメージとしては)否定された後にマーがあらためて持ち出したいわくつきでもある

大気中を通過する光の動きを利用したこのアルゴリズムは、3D空間の各データポイントの密度と色を計算するよう設計されている。これにより2D画像をどこから見てもリアルな3Dイメージに変換することが可能になったのだ。

二次元の画像を「高精度な3Dイメージ」に変換するアルゴリズムが、AIの進化を加速させる | WIRED.jpより

これを読むと、もしかしてNeRFはマーの夢を叶えた技術では?という期待は大きい

二次元の三次元への変換は私達が日々行っていることであり、当たり前のようである。しかし、二次元を三次元へと変えるのは「逆問題」(inverse problem)と呼ばれる難しい問題でもある

逆問題とは何か?

逆問題とは結果から原因を探る問題であり、原因から結果を導く順問題とは違って独自の困難を伴っている。すごく簡単な例を出すと、1と2を足し算すると3になるが、これは順問題である。逆に足すと3になる数の組み合わせは何か?を問うのが逆問題である。これは簡単な例だが、ほとんどの逆問題は一意に答えを導くことはできない。

例えば、サイコロの一面だけがこちらに見えていたときに、見えてないところを含めてそれを立方体として認識できるのは当たり前ではない。見えてない面が存在しなかったりもっと複雑な形だったり、といった複雑な可能性は日常的には排除されている。他にも世の中は逆問題にあふれている。例えば病気の診断とは、表れた症状からその原因となる病気を推測することだが、症状だけから病気を当てるのは実はとても難しい。推理小説の探偵は、犯罪が行われた後にその犯罪が誰がどのように行なったか?を当てるのだが、これも逆問題である

逆問題は、学校で出されるような問題とは違って、答えが一つに定まらない方が普通である。この逆問題の特徴は、設定不良(ill-posed;非適切)と呼ばれる。例えば、図形の一部が隠されていてもまとまった一つの図形として認識されるが、それは隠された部分もなめらかにつながっていると勝手に想定されているからだ。この場合は「なめらかなつながり」という前提の設定によって、始めて答えとしての図形を推測できるようになる

逆問題では、与えられたデータだけからは答えがうまく出せないので、前提となる知識を付け加えることで答えを導きやすくする。こうした逆問題の構造はベイズを用いたモデルによって表わすことができる。ベイズの説明は長くなるのでここではしないが、逆問題とベイズの共通点は生きた心の特徴にも応用できることでもある

ニューラルネットワークの欠点はどうなった?

逆問題については前々から説明したいと思っていたが、今回やっと取り上げることはできた。しかし、逆問題の広がりと心の科学における重要性を説明し切ることはできない。とりあえずNeRFが逆問題を扱えたことの重大さだけは分かってもらいたい。ただ、NeRFがニューラルネットワークの欠点をどこまで克服できているか?は私にはまだよく分からない

ディープラーニング(階層の深いニューラルネットワーク)があまりに大量のデータを必要とするところが、生きた心とは似ていないことは前にも指摘した。今回の技術もここをどう解釈すればいいか?まだよく分からない。しかし、生きた心も三次元への変換を生まれてから一から全て学んでいる訳ではない気もするが、そもそも生き物が生まれてから三次元を認識できるまでにどんな知覚情報をどれくらい得ているか?もよく分からないので、解釈のしようは色々あるのかもしれない

前にも説明したが、ニューラルネットワークが得意なことを大雑把に分けると、(非線形な)回帰分析とパターン認識がある(もちろん別の分け方もありうる)。どちらも高度な相関的なパターンの学習から可能になっている。どちらにせよニューラルネットワークは、バイアスはそのまま反映されるし、ある種のノイズにも弱い

ニューラルネットワークは小さな相関をだんだんと組み合わせていってマクロなパターンを見つけ出してるので、相関を細かく錯乱させるノイズがマクロなパターンの判断に影響を与える。だが、これはマクロなパターンを細かなノイズとは独立に認識できる生きた心とは似ていない。しかし、これはパターン認識の点でニューラルネットワークが生きた心とはあまり似ていないというだけで、今回の技術への影響ははっきりしない

今回の、知覚の逆問題を解くニューラルネットワークはこれまでの回帰分析やパターン認識のような応用とは様子が違うと感じる。逆問題は生きた心の根底に関わる問題であり、これに取り組めたことの持つ応用可能性は計り知れない。現実世界を自由に動き回る人工知能ができるかもしれない…と懐疑心の強い自分でも期待したくはなる

おまけのおすすめPDF

ネットにある日本語の逆問題の記事はたいてい物理学や工学のモノが多く、お世辞にも読みやすくない。以下のpdfは、認知科学との関連に触れられてる手軽な読みものです→「逆問題と認識論