人工知能(AI)は、深層強化学習の発展により、囲碁や将棋などの対戦型ゲームにおいて人間を上回るパフォーマンスを出すようになった。しかし実世界における問題は、敵対的な状況だけではない。むしろ個々人が協力・協調しなければ解けない問題も多い。

牧草地における過放牧は、共有地の悲劇の典型例の一つである(写真/Shutterstock)
牧草地における過放牧は、共有地の悲劇の典型例の一つである(写真/Shutterstock)

 個人と社会の間には一般に最適化のジレンマが存在することがある。個人の最適化は必ずしも社会全体の利益にはつながらず、またその結果、個⼈として不利益を被ってしまうこともある。

 例えば、経済学の世界では「共有地の悲劇」(Tragedy of the Commons)(i)と呼ばれる問題が昔からよく知られている。

 ある資源が複数の個体に共有されている状況において、一個人としては消費行動によりその利益をまるまる一人で享受できる一方、共有資源の減少分は全員で分割して負担するため、個人には資源を消費し続けるインセンティブが生まれる。その結果、全員が同様の理由で消費行動を取り続け、資源の枯渇が起こってしまう問題である。牧草地における過放牧や漁場での乱獲、大気汚染など、例を挙げれば枚挙にいとまがない。

 では、この問題における個人をAIに置き換えてみた(つまりAI同士で資源を共有する)場合に、問題が簡単になるのかというとそのようなことはない。ジレンマが存在する状況でいかに協調的に動作するAIを開発するかという問題は、長年取り組まれているテーマである。

 このような個人と社会全体の間のジレンマ(共有地の悲劇に限らない)を抽象化した一連の仮想的なゲームとして「Sequential Social Dilemmas」(SSDs)がある(ii)(iii)。次の図はSSDsのうち、「Cleanup」と「Harvest」というゲームである。どちらのゲームにおいても、共有された一つの環境下において、複数のエージェントがりんごという共有の資源を取り合いながら自己の報酬を最大化する。しかし、りんごを取りすぎると様々な条件によってりんごの出現率が下がってしまう。つまり個々のエージェントにとっては、短期的にはりんごを収穫することが利益につながる一方、長期的には協調的な行動が必要になってくる。個人と全体、そして短期と長期の間にジレンマが存在するゲームである。

「Cleanup」(左)と「Harvest」(右)のプレー画面。緑のセルはりんごを表し、赤・橙(ダイダイ)・茶・黄色のセルはエージェントを表す。Cleanupでは定期的に土地の掃除をしなければりんごが生えてこなくなる。Harvestではセル周辺のりんごの数が少なくなるとりんごの出現率が低下してしまう(iii)
「Cleanup」(左)と「Harvest」(右)のプレー画面。緑のセルはりんごを表し、赤・橙(ダイダイ)・茶・黄色のセルはエージェントを表す。Cleanupでは定期的に土地の掃除をしなければりんごが生えてこなくなる。Harvestではセル周辺のりんごの数が少なくなるとりんごの出現率が低下してしまう(iii)

 このようなゲームにおいては、たとえ最新の深層強化学習のアルゴリズムを使っても、個人のりんごの獲得数を最大化するように学習させるだけではうまく行かない。りんごの収穫を進めつつも、いかに協力行動を導きながら長期的な報酬を最大化するアルゴリズムを開発できるかが肝要なのである。

「Cleanup」(左)と「Harvest」(右)における各エージェントの利得(縦軸)と自分以外のエージェントの協力人数(横軸)の関係を表したグラフ。どちらにおいても、自分以外の協力人数が同一であれば裏切り行為(りんごを獲得する行動、、グラフ内の赤い線)を選択した場合が、高い利得につながっている(iii)
「Cleanup」(左)と「Harvest」(右)における各エージェントの利得(縦軸)と自分以外のエージェントの協力人数(横軸)の関係を表したグラフ。どちらにおいても、自分以外の協力人数が同一であれば裏切り行為(りんごを獲得する行動、、グラフ内の赤い線)を選択した場合が、高い利得につながっている(iii)

 2019年、機械学習におけるトップ会議の一つである「International Conference on Machine Learning」(ICML)において、英国ディープマインドを中心とする研究チームから『Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning』という論文が発表された。この論文のアルゴリズムでは、上述のような協力行動が必要とされる環境において、あるエージェントが他のエージェントに与える影響度の大きさを数値化し報酬関数に組み込むことによって、間接的に協力・協調行動を促し、従来の手法よりもシステム全体として高い利得を得ることに成功した。

「Social learning」によって協力行動を引き起こす

 人間はそれぞれ独立に学習できる一方、他者との関わりの中で学ぶことも多い。例えば他人の行動を真似ることで、1人の場合よりも効率的に技術を習得することができる。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>