人間は相手の意図を適切に読み取る力を利用して共同作業をこなすが、AI(人工知能)は同じことができるのだろうか。もし、AIに他者の心を適切に読む能力である「心の理論」を実装できれば、AI同士が適切に協力して作業をこなせるようになるはずだ。協力型ゲーム「Hanabi」で強化学習した事例を紹介する後編。

▼前編はこちら AIは“心を読む”ことができるか? AI同士が協調する社会が来る

 強化学習は、現在のAI・深層学習の研究で、特に意思決定に関する分野である。通常の強化学習は、とある目標を達成すべき環境内に1体のエージェント(以降、強化学習で意思決定をする主体のAIをエージェントと呼ぶ)が存在し、そのエージェントの最適な意思決定問題を考える。マルチエージェント強化学習は、環境内にエージェントが2体以上存在する場合の最適な意思決定問題を考える強化学習研究の一分野である。

 マルチエージェント強化学習では、複数のエージェントが同時に強化学習を行うために生じる以下のような特有の問題がある。

(1)学習の非定常性
 エージェントが1体の強化学習であれば、あるエージェントが環境内で取った行動の結果は、自分自身の行動のみに依存する。従って、その結果を基に学習を行えばいつかは最適な意思決定則(最適方策)を獲得できる。しかし、マルチエージェント強化学習では、自分以外のエージェントも学習を行っており、それらのエージェントも環境内で行動するため、自分の行動した結果が別のエージェントにも依存してしまう。これにより、最適方策を獲得することが困難となる。

(2)不完全情報性
 ある環境で行動するエージェントは、自分以外のエージェントに関する全ての情報を観測できるとは限らない。他のエージェントには何が見えているのか、他のエージェントの状態はどうなっているのか、他のエージェントは何を持っているのかなど、意思決定に利用できる多くの情報が不足している。

(3)学習時に共同作業したエージェントとは別のエージェントとの協調(ゼロショット協調)
 学習する際に環境に存在したものと同じエージェントが、学習を終えて実際に動作する環境でも存在するとは限らない。つまり、学習時に共同作業を行っていたエージェントとは別のエージェントと何らかのタスクを実行することになり、学習された方策がうまく機能しない可能性がある。これは、教師あり学習などのより一般的な機械学習の問題で発生する過学習の問題にも似ている。

 これらの問題を解決するにはどうすればよいだろうか。ここで登場してくるのが「心の理論」である。前編で人間を例に解説をした心の理論だが、これをマルチエージェント強化学習の問題に置き換えると、「自分以外のエージェントの意思決定や意図に対して適切な推論を行う」能力であるといえる。もし、このような能力をマルチエージェント強化学習を行うエージェントに実装できれば、上記の問題は解決できるのではないだろうか。

 マルチエージェント強化学習では、このような心の理論の実装として、大きく分けて2種類のアプローチが提案されている。

 1つは、Opponent Modelingと呼ばれる手法であり、マルチエージェント強化学習では長く研究されている(なお、「Opponent」は一般に「敵」という意味だが、ここでは味方を含め自分以外の他者全般を指す)。

 「モデリング」という単語がついているように、この手法では、自分以外のエージェントの方策に関して何らかの方法でモデリングを行い、自身の方策の学習に利用する。つまり、「あのエージェントはこのような状況ではこのように行動するだろう」という予測を行う何らかのモデルを持つことで、ある状況で実質的に別のエージェントの行動を読めることになり、適切な意思決定や学習ができるということである。

この記事は会員限定(無料)です。