強化学習は教師あり学習/教師なし学習の対と同等の機械学習の分類なのか?
ネットで強化学習について調べていて、(私に判断できない技術的な説明は脇に置くと)いくつかのサイトにあった強化学習そのものについての説明を読んで違和感を感じてしまった。
強化学習そのものについての知識は、認知科学について勉強してコネクショニズムや自律的ロボティクスについて既に知っていたので問題ないのだが、最近読んだ認知科学関連の論文でモデルフリーやモデルベースと言う用語が出てきたので、それらの勉強ついでに強化学習についても調べてみた。モデルフリー/モデルベースについては記事を書くアイデアがない訳ではないが、ベイジアンモデルについてもっとちゃんと勉強してからがいいか迷っているのでそれは脇に置く。そこでもうちょっと気楽に書ける強化学習そのものについての説明に焦点を当てた記事を書くことにした。
強化学習と教師あり学習と教師なし学習は同等か?
私が違和感を感じたのは検索上位に出た強化学習の記事「強化学習入門」と「これさえ読めばすぐに理解できる強化学習の導入と実践」だ。これらには海外の学者の講義を参照した図が載っていて、その図では機械学習を教師あり学習と教師なし学習と強化学習へと三つに分類できると同等の立場で説明されている。これは私の理解からするとどことなく違和感がある。一見海外の学者の講義を参照していて信用できそうに思えるが、記事にある説明の該当部分を読んでいると(私は元の講義は確認していないが)これらの記事を書いている人自身がよく理解しないままに表面的に説明している匂いがする。私の理解では教師あり学習/教師なし学習の対が基本にあり、強化学習はそれとは別という感じがする。
教師あり学習によって強化学習を説明する
実際に別のサイトでは、例えば
強化学習とは,試行錯誤を通じて環境に適応する学習制御の枠組である.教師付き学習(Supervised learning)とは異なり,状態入力に対する正しい行動 出力を明示的に示す教師が存在しない.
とあり、強化学習そのものを教師あり学習によって説明している。私が最も優れた説明だと思ったサイトがあって、そこでは
強化学習は教師あり学習に似ていますが、(教師による)明確な「答え」は提示されません。では何が提示されるかというと、「行動の選択肢」と「報酬」になります。
これだと答え=報酬と考えれば同じじゃないか(行動A=10pt、のような)、と感じると思いますが、一つ大きな違いがあります。それは強化学習においての報酬は「各行動」に対してではなく、「連続した行動の結果」に対して与えられるという点です。
- 「ゼロからDeepまで学ぶ強化学習」強化学習の特性より
ここでも強化学習を教師あり学習を引き合いに出して説明しているが、特に報酬が与えられる対象の違い(「各行動」か「連続した行動の結果」か)で説明するところがうまい。これだと強化学習を用いている自律的(構成的)ロボティクスとも強化学習の源でもある学習心理学とも調和していて見事だ。このサイトの説明の正しさを裏付けるものとしてある論文からの引用もしておこう
このような表面的な特徴をみると、「教師あり学習」と「教師なし学習」の中間に位置する手法と考えてしまうことも多いが、これらと強化学習の間には、ひとつの重要な違いがある。それは「教師あり学習」「教師なし学習」は、環境との相互作用がなく、既にあるデータ、あるいはこれからどんどん入ってくることが分かっているデータに対する分析手法であるのに対し、「強化学習」は、まだデータがない場合に、どのようにデータを集めるか、という方針も含めて決定する手法であるという点である。
- 「実用化する強化学習」冒頭より
ていうか、あまりに説明が素晴らしすぎて、すべての強化学習の説明サイトはこの論文を引用するのが一番じゃないかとさえ思えてくる。
学習心理学経由の強化学習も少しだけ
ちなみに、(ここではこれ以上詳しくは触れないが)学習心理学経由の強化学習についての説明も引用しておく
特定の目標物に手を伸ばす運動をさせるだけでも,複数ある関節を連携させるための複雑な計算が必要になる。そんな手間はかけずに,動物のオペラント条件づけのように学習させることができないだろうか。それを実現するのが強化学習である。
強化学習は,行動の良し悪しの評価(報酬)をもとに人工的なエージェントに行動を学習させるための計算手法である。
- 「学習の理論から強化学習,計算論モデリングへ」(PDF)条件づけと強化学習より
この論文でも触れられているモデルフリー/モデルベースについては気が向いたら記事を書くかもしれない(約束はできない)。私としては、学者も含めて他の人が頑張ってくれているのならわざわざ自分がネットに何か書く必要性は特に感じないのだが、ここ最近の人工知能ブームで門外漢が焼付け場の知識で適当なことを語っていたりするのを聞くにつけ(そしてたとえ学者であっても専門外について見当違いな発言をしてるのを見るにつけ)まだ自分にも活躍の余地はあるのかな〜と思わなくもない。