画像生成プログラムDALL-Eから人の知性を考える

WIREDの記事はいつも楽しみに読んでいるが、最近はこんな記事が面白かった。

AIは人の知性とは異なる道を歩む

この記事を見てあらためて思うのは、現在の人工知能は生きた知性とは全く違う道を歩んでいるということだ。そこで思い出すのは、スタニスラフ・レム「砂漠の惑星」だ。

私はそこまでのSF好きではないが、私の読んだことのある中で最も好きなSF作家はスタニスラフ・レムだ。レムほどに生命やAIについて科学的な洞察に富んでいるSF作家を私は知らない。その中でも「砂漠の惑星」はかなり好きな作品だ。

粗筋の紹介はここでは省くが、この作品の洞察の一つが、生命やAIを私達の想像の範囲内に収めることへの批判だ。よくあるAI脅威論とは、AIを私達の想像の延長にある脅威として描いている安っぽいSF的想像に過ぎない。

しかし、それはAIが私達とは全く異なる知性へと発展する可能性に目をつぶることにしかならない。そして、今回の記事も現在の人工知能が、生きた人間の知性とは別の方向に向かっていることを示している。

画像生成プログラムを人の知性と比べる

この技術は「CLIP」と呼ばれ、人間の脳が学習する仕組みに着想を得て考え出された人工ニューラルネットワークというアルゴリズムで構成されている。そして、ネット上にある何億もの画像とそれに付随するキャプションを使って学習し、それぞれの画像の正しいラベルを予測するように訓練されている。

http://https://wired.jp/2021/02/11/ai-go-art-steering-self-driving-car/」より

現在のニューラルネットワークが、(着想と元ではあるが)現実の人の脳にあまり似ていないことは前にも指摘した。そして、WIREDの記事で紹介されている「DALL-E」もやはり、話題になった「GPT-3」と同じく生きた人の知性とは似ていない。その理由は刺激の貧困問題にある。

刺激の貧困問題(別名はプラトン問題)とは、チョムスキーが指摘した有名な問題だ。つまり、人はなぜそこまで多くの(言語)刺激に触れていないのに文法(規則性)を理解できるのか?という問題だ。しかも、この指摘の背景にはスキナー流の行動主義への批判があった。(心理学的)行動主義とニューラルネットワークとの関係を考えれば、これは興味深い問題だ。

引用から分かるように、今回発表されたプログラムもネットからの大量のデータセットを用いている1。もちろん、これは実際の人の知性が行なっていることとは異なるし、似てもいない

今のAIが人の知性と似ていないもう一つの理由

リンク先にある「スパゲティでつくられた騎士」の画像を見ると圧倒されてしまうが、これを生み出したアルゴリズムは、現実の人の知性とは似ていない。最近自然な文を生成することで話題になった、同じくOpenAIによって開発されたGPT-3も事情は同じだ。

GPT-3もDALL-Eと同じく、大量のデータセットを用いていてニューラルネットワークに学習させているのは共通だ。だが、人の知性との違いはDALL-EよりGPT-3の方が説明しやすい。

人の想像する「スパゲティでつくられた騎士」とDALL-Eの生成する画像を比較して説明するのは難しい。しかし、GPT-3の生成する文の問題は既に指摘されており、GPT-3が意味を理解していないのは明らかである。

世界を理解していないAI(ただしそれは欠点ではない)

GPT-3を単純に説明すると、語同士の高度な連想ゲームである。連想ゲームもあそこまで高度になると文法的な文を生み出す…と分かったのは大きな発見ではある。しかし、現実の世界ではありえない意味内容の文を平気で生成するので、現実的な存在論(オントロジー)を持っているとはとても思えない。

つまり、GPT-3もDALL-Eも高度な相関や(パターンの)類似を学んでいるだけであり、向こう側にある世界の因果や構造まで学んでいる訳ではない。

しかし、これは逆から捉えることもできる。現実の人間は、世界の因果や構造を前もって想定することで少ないデータからでも規則性を学べる。だが逆から見れば、世界についての想定が邪魔をして、学べる規則性に限界があるとも言える。人のバイアスとはそういうものだ。

おわり

AIを人の知性と似せる汎用人工知能の研究もあり、それはそれで興味深い。だが、現在急速にに発展しているのは、人の知性とは異なる道を歩むAIの方だ。

AIを人の知性と同じ基準で測って、超える超えないで騒ぐシンギュラリティなんて下らない。人とは異なる方向に知性が発展していくAIにもっと想像を巡らすべきだ。


  1. ただし、WIREDの記事には混乱がある。『カーシック・ナラシマンは、DALL-EもCLIPも、どちらも「すごい技術だ」と興奮を隠せない』とあり、まるでDALL-EとCLIPを同等の技術として並べている。記事を読んだ私の印象では、画像を生成するプログラムの名前がDALL-Eで、そこで用いられている技術の名前がCLIPな気がする。CLIPを自動運転のプログラムにも応用できるはず…という内容なので、これが正しい理解だと私は思うが、正確には各自で確認してください。どうであれ、DALL-Eは大量のデータセットを使っているはずなので、このブログ記事の本文には影響はない