ブログに書く記事のアイデアはあるのだが、ともかくきちんとした文章を書くのが面倒くさい。だから、ここにアイデアの概要だけを書いてスッキリさせるつもり。

前々から準備しているのは「素人による素人のための教養としての機械学習講座」で、アイデアだけはできてるので大雑把に書いてしまう。記事の大きな流れは、(非)線形分離からサンプリングへと言う流れで、アルゴリズムの話をゼロにして考え方だけを提示するのがミソだ。アルゴリズムの話をするならヘッブ則から始めればいいのだが、この先は深めると切りがないしそれを説明した書籍だっていくらでもある。普通の人はニューラルネットワークの考え方だけ分かれば十分だ。すると、世間で問題になっている人工知能の問題を理解するという点では、線形分離から識別モデルを理解して、そこからサンプリングによってデータからパターンを学ぶ事の意味を知ればそれで十分だ。現実にはその程度だって理解されていないのだ。

私が記事を書く気を失った理由の一つは、好都合な学術記事がネットで見つかったせいもある。それは「google:講座 機械学習超入門 全6回 間下以大」であるが、特に第二回で線形分離と関わりのある識別モデルについて、最後の第六回でデータのサンプリングの偏りによる問題にも触れられていて、ちゃんと知りたい人はこれを読むのがお薦め。線形分離というのはパーセプトロンの限界として知られているが、ニューラルネットワークはデータを分類するためのパターンを見出すのだ…ということを理解するのに線形分離の例は都合がいい。現代のニューラルネットワーク非線形な複雑なパターンを見つけ出せるようになったことさえ理解できれば十分。ここまでで識別モデルを理解できたら、次は統計学の出番だ。

ニューラルネットワークがデータからパターンを学ぶことが分かれば、その学習されたパターンが本当に見出すべきパターンと一致しているのかが問題になる。そこで母集団とそこからのデータのサンプリングの考え方が使える。

母集団にそもそもパターンがない場合に機械学習を使うバカらしさは脇においても、母集団にパターンがあるとしても得られたデータから学習されたパターンと一致するとは限らない。最近よく出される例では、黒人の写真をゴリラだと識別した例があるが、これは母集団(全ての人種を含む)と学習データ(白人ばっかり)とでパターンが一致してなかったことの典型例だ。学習データの量が多くてもサンプリングの偏りの問題は全くの別の問題であり、これは統計学を知っていれば分かることだ。何でも学習機械に大量のデータから学習させれば何とかなるんでしょ…という安易な考えは駄目なのだ。

この内容を本当に素人でも理解できるように書くのは一言で面倒なので、多分やらない。ただ、ここのところ個人的にずっと考え続けている現代の情報環境についての話とも関連しているので、やっぱり人工知能についてこの程度は理解していてほしいというはある。