AIでデータの偏りと社会の偏りは分けてみよう - 蒼龍のタワゴト~認知科学とか哲学とか~

このブログの前回の記事で、相関しか見ない人工知能では知的な機械としては限界があるとするパールの見解を紹介して、相関しか見ないニューラルネットワークは現実の偏りを学習すると書いた。

その後に、新型コロナ騒ぎも含めて色んな事情で大事なブログを確認できていなったことにやっと気付いた。それである記事を読んで、前回の記事は誤解を与える書き方をしてたことに気付いた。そこで、この辺りについて軽く私の見解を書いてみることにした。

人工知能のバイアス(偏り)論争を見る

AIによる差別や偏見は、データが公正なら起きないのか――そんなツイッター上のやり取りをめぐって、“AIのゴッドファーザー”とも呼ばれる第一人者が炎上。ツイッターの離脱宣言をした。
そもそものきっかけは、モザイク化した顔画像を高精細画像に変換できるというAI研究で、「オバマ前大統領の画像から白人の顔ができた」という事例がネットで話題になったことだった。
これについて、「データにバイアス（偏り）があるから」と、“AIのゴッドファーザー”の一人と呼ばれるフェイスブックのチーフAIリサーチャー、ヤン・ルカン氏がツイート。
するとAIの差別や偏見の研究で知られるグーグルのリサーチサイエンティスト、ティムニット・ゲブルー氏が「問題をデータに矮小化すべきでない」と、社会の差別構造を含めた問題の根深さを指摘する。

以上は、「AIの差別をめぐり“AIのゴッドファーザー”が炎上し、ツイッターをやめる」の冒頭からの引用だ。長い引用になってしまったが、これから論じるこの論争の全体像が書かれている。

論争の基本構造は、データの偏りを強調するルカンと、社会の偏りの反映を強調するゲブルーと、の対立にある。論争の経過については、詳しくは参照記事を見てもらいたいが、物別れに終わって結論は出ていない。だが私はこれを読んで、前回の記事と関連しているのが分かり、そこを補完したいと思った。

前回の記事への復習とその論争との関連

まず、私が書いた前回の記事を復習したい。前回の記事では、相関と因果の区別がつかない現在の人工知能(特にニューラルネットワーク)では、現実の偏りがそのまま学習されてしまうとした。

一見すると、これは人工知能に社会の偏りが反映されるとするゲブルーの立場と同じなので、私はゲブルーの見解に賛同すると思われるかもしれない。しかし、私自身は全ての人工知能に社会の偏りが反映されると言うゲブルーの解釈は、安易な拡大解釈だと思っている。

どのように社会の偏りを学習するのか？

私が前回の記事で、人工知能が現実の偏りを学習するとしたのは、次のような想定からである。

病気になる確率を出す人工知能を作ろう

病気になる可能性を判定する人工知能を作るとする。そこで病気のデータを含めて関連のありそうな様々なデータを人工知能に学習させるとする。すると、必要な情報を入れると、その人がある病気になる確率が出てくる人工知能が完成する。これがあれば、医療保険などに適用できて便利そうだ。

入力データとして人種の情報を入れるとする。もし黒人と入力すると病気になる確率が高いと出たとしたら、それは保険料にも反映されるだろう。しかし、黒人と貧しさが強く結びついている(相関が高い)としたら、病気になる確率が高い本当の原因は貧しさであることになる。だが、相関だけで因果が分からない人工知能では、病気になる本当の原因は分からないのだ、黒人の貧しさという社会の偏りがそのまま学習されてしまう。

これが、前回の記事で想定されていた人工知能への偏りの反映である。このような変数間の関係を見る回帰分析的な人工知能では、社会の偏りが学習されるのは避けられない。もちろん、偏りをもたらす人種の情報を入力から外す手はある。しかし、どの情報の組み合わせなら(予測力を下げずに)偏りを回避できるのか？は明らかでないことの方が多い。

こういう点ではゲブルーの指摘は確かに正しい。しかし、この論争で問題になっている顔認証(顔生成)は、相関と因果の区別がつかないことで起こる問題ではない。

パターン認識はデータの偏りを学習する

顔認識とはパターン認識の一種であり、顔生成もその応用の一種である。正確には識別モデルと生成モデルの区別が関わっているが、ここでは省略する。面倒なので、ここでは顔認識(識別モデル)だけを扱うが、顔生成(生成モデル)への議論の拡張はそれほど難しくない。

顔認識のようなパターン認識では、参照記事にもあるように、黒人で誤認識率が高くなる…といった形で偏りが表れる。ルカンが指摘するように、このような偏りが出る原因は学習データの偏りにある。この場合は、学習データに白人が多かったのが、認識率に偏りが出る原因だ。

学習データの偏りに社会の側の偏見が反映される…と言われれば、それは間違っていない。しかし、それは既に説明した社会の中に存在する偏りを直接に学習した訳ではない。そこでは学習データを選んだ側の偏見が、データの偏りに反映されている。

データの偏りと社会の偏りは分けるべきだ

(非線形な)回帰分析とパターン認識では、社会にある偏りが反映されると言えば、同じに聞こえるが、そのメカニズムには違いがある。その違いが分からないと、それへの対処法も分からなくなる。前者が現段階では解決が困難なのに対して、後者はデータの範囲を広げれば良いので、単に解決不可とは言いがたい(ただし完全な解決はない)。

ここでは統計とのアナロジーを使って説明しておこう。パターン認識に偏りをもたらすデータの偏りとはサンプリングの問題と似ており、(非線形な)回帰分析を偏らせる社会の偏りは統計的な分析の仕方の問題に似ている。これらを安易に一緒にしてはならない。

おわりに

ビックデータやこの前の人工知能のブームのときに、データは大量に増やせば問題はない…みたいな発言は日本でもよく見かけた。その時はまだ統計を勉強し直す前だったが、それでもビックデータや人工知能でもサンプリングの偏りと無関係な訳ないじゃん〜と一人で突っ込んでた覚えがある。¹

最後に注意しておくが、この記事の内容は論争への解説ではなく、あくまでただの補完です。論点が広がりすぎたこの論争への回答は私の能力では出せません。ただ、こういう問題を語れる人が日本にはあまりいない感じなのは困った状態だ(私も単に他の多くの人よりはこの問題が分かるだけで、本来の得意領域とは違う)。

おまけ

この記事を一通り書いたあとで、次の記事を見つけた。

ということは、データや変数をただ増やすだけでは計算コストがどんどん高くなりすぎて無理がある…ということだ。力業で押してれば人工知能で何でもできるようになる！と考えるシンギュラリティ馬鹿をもともと私は冷たい目で見てるので、そりゃそうだよなぁ〜と納得してしまうところもある。

ただ、この前の第三次人工知能ブームを経て、今やAIは人間のような現実の知能の再現ではなく、世界じゅうを予測できる神のような機械を目指すかに向かってる様相がなくもない。そんなの目指してたら、いくらコストが必要なのか際限がない。バベルの塔を立てたい欲望は私にはないので、なんかそういう人たちは私にはあまり理解できない。

母集団といった統計的概念も、ビックデータや人工知能の話題に比較的簡単に応用できる。この論争では社会全体が母集団だから、こうしたデータの偏りが問題になる(母集団とデータセットが一致することは現実的にありえない。サンプリングをするという手もありうるが、それをするコストや少数派を反映できる十分な規模を考えると難しい)。しかしショッピングサイトなら、購入者全体が母集団だとしたら、開始時からのすべてのデータを取れるので、データの偏りはそれほど問題でなくなる。↩