人工知能は知覚の逆問題を解いたのか？ - 蒼龍のタワゴト~認知科学とか哲学とか~

正直なところ、今の人工知能なんて驚異的な統計装置かもしれないけど所詮は生きた心とは似ていない…と最近は高をくくっていた。でも、次の記事を読んだときはマジかもしれないと思い始めた

NeRFの仕組みがどんなものかいまいち分からないのでまだ評価しがたいところもあるが、このような説明には納得できるところもある

テネンバウムは、このほどMITの助教授に就任したヴィンセント・シッツマンの研究を紹介する。シッツマンらのグループは、限られた数の2D画像を基にニューラルレンダリングの技法を用いて物体の3Dイメージを生成する発想を、19年に初めて披露した。
シッツマンらの研究のテーマは、本物そっくりの完璧な3Dイメージを作成することではなく、不完全な写真から物体のおおよその形状を推測するアルゴリズムをつくることだった。これは人間が習慣的にこなしていることだと、テネンバウムは言う。「例えば目の前にあるコーヒーカップを手に取ろうとするとき、手が近づいていくと同時に、人間の知覚システムは自然にカップの背面がどの辺りにあるかを推測しています」と彼は言う。

二次元の画像を「高精度な3Dイメージ」に変換するアルゴリズムが、AIの進化を加速させる | WIRED.jpより

この引用に出てくるテネンバウムは私の好きな学者の一人であり、私がベイズを勉強しようと思った最初のきっかけは彼の影響でもある。その彼による説明はそれなりに説得力を感じる

この紹介されている技術で基本となる「二次元を三次元への変換」は、視覚研究では最重要課題である。認知科学においても2Dイメージから3Dへの変換は重要であり、ギブソンによって(網膜上の二次元イメージとしては)否定された後にマーがあらためて持ち出したいわくつきでもある

大気中を通過する光の動きを利用したこのアルゴリズムは、3D空間の各データポイントの密度と色を計算するよう設計されている。これにより2D画像をどこから見てもリアルな3Dイメージに変換することが可能になったのだ。

二次元の画像を「高精度な3Dイメージ」に変換するアルゴリズムが、AIの進化を加速させる | WIRED.jpより

これを読むと、もしかしてNeRFはマーの夢を叶えた技術では？という期待は大きい

二次元の三次元への変換は私達が日々行っていることであり、当たり前のようである。しかし、二次元を三次元へと変えるのは「逆問題」(inverse problem)と呼ばれる難しい問題でもある

逆問題とは何か？

逆問題とは結果から原因を探る問題であり、原因から結果を導く順問題とは違って独自の困難を伴っている。すごく簡単な例を出すと、1と2を足し算すると3になるが、これは順問題である。逆に足すと3になる数の組み合わせは何か？を問うのが逆問題である。これは簡単な例だが、ほとんどの逆問題は一意に答えを導くことはできない。

例えば、サイコロの一面だけがこちらに見えていたときに、見えてないところを含めてそれを立方体として認識できるのは当たり前ではない。見えてない面が存在しなかったりもっと複雑な形だったり、といった複雑な可能性は日常的には排除されている。他にも世の中は逆問題にあふれている。例えば病気の診断とは、表れた症状からその原因となる病気を推測することだが、症状だけから病気を当てるのは実はとても難しい。推理小説の探偵は、犯罪が行われた後にその犯罪が誰がどのように行なったか？を当てるのだが、これも逆問題である

逆問題は、学校で出されるような問題とは違って、答えが一つに定まらない方が普通である。この逆問題の特徴は、設定不良(ill-posed;非適切)と呼ばれる。例えば、図形の一部が隠されていてもまとまった一つの図形として認識されるが、それは隠された部分もなめらかにつながっていると勝手に想定されているからだ。この場合は「なめらかなつながり」という前提の設定によって、始めて答えとしての図形を推測できるようになる

逆問題では、与えられたデータだけからは答えがうまく出せないので、前提となる知識を付け加えることで答えを導きやすくする。こうした逆問題の構造はベイズを用いたモデルによって表わすことができる。ベイズの説明は長くなるのでここではしないが、逆問題とベイズの共通点は生きた心の特徴にも応用できることでもある

ニューラルネットワークの欠点はどうなった？

逆問題については前々から説明したいと思っていたが、今回やっと取り上げることはできた。しかし、逆問題の広がりと心の科学における重要性を説明し切ることはできない。とりあえずNeRFが逆問題を扱えたことの重大さだけは分かってもらいたい。ただ、NeRFがニューラルネットワークの欠点をどこまで克服できているか？は私にはまだよく分からない

ディープラーニング(階層の深いニューラルネットワーク)があまりに大量のデータを必要とするところが、生きた心とは似ていないことは前にも指摘した。今回の技術もここをどう解釈すればいいか？まだよく分からない。しかし、生きた心も三次元への変換を生まれてから一から全て学んでいる訳ではない気もするが、そもそも生き物が生まれてから三次元を認識できるまでにどんな知覚情報をどれくらい得ているか？もよく分からないので、解釈のしようは色々あるのかもしれない

前にも説明したが、ニューラルネットワークが得意なことを大雑把に分けると、(非線形な)回帰分析とパターン認識がある(もちろん別の分け方もありうる)。どちらも高度な相関的なパターンの学習から可能になっている。どちらにせよニューラルネットワークは、バイアスはそのまま反映されるし、ある種のノイズにも弱い

ニューラルネットワークは小さな相関をだんだんと組み合わせていってマクロなパターンを見つけ出してるので、相関を細かく錯乱させるノイズがマクロなパターンの判断に影響を与える。だが、これはマクロなパターンを細かなノイズとは独立に認識できる生きた心とは似ていない。しかし、これはパターン認識の点でニューラルネットワークが生きた心とはあまり似ていないというだけで、今回の技術への影響ははっきりしない

今回の、知覚の逆問題を解くニューラルネットワークはこれまでの回帰分析やパターン認識のような応用とは様子が違うと感じる。逆問題は生きた心の根底に関わる問題であり、これに取り組めたことの持つ応用可能性は計り知れない。現実世界を自由に動き回る人工知能ができるかもしれない…と懐疑心の強い自分でも期待したくはなる

おまけのおすすめPDF

ネットにある日本語の逆問題の記事はたいてい物理学や工学のモノが多く、お世辞にも読みやすくない。以下のpdfは、認知科学との関連に触れられてる手軽な読みものです→「逆問題と認識論」