囲碁、将棋、チェスとあらゆるゲームで人間を破り、その名をとどろかせた「Alpha」。このシリーズから2020年に最新のかつ最強のAI(人工知能)「MuZero(ミューゼロ)」についての論文が発表された。驚くべきは、ゲームのルールという基本的な情報すら与えられていない状態から出発しているという点だ。その“脳内”のメカニズムを解き明かす。
2016年、Google傘下のDeepMind社が開発した囲碁AI、AlphaGo(アルファゴー)が、当時世界最強とされた囲碁棋士イ・セドルを破り世界に衝撃をもたらした。そして翌17年には、人間の棋譜データを使わず、ゲームの戦略に関する知識が文字通り「ゼロ」の状態から学習した囲碁AI、AlphaGo Zero(アルファゴー ゼロ)がそのAlphaGoを超えた。そしてAlphaGo Zeroの発表からわずか数カ月後には、囲碁におけるAlphaGoや人類のトッププロどころか、将棋、チェスなどのボードゲームでも既存の最強AIを超えるに至ったAlphaZero(アルファゼロ)が発表された。
人類対AIの枠を超え、既に人類を超えていた他の強豪AIすら破った「Alpha」の名を冠するこれらのAIは、この時点で既にこれらのボードゲームの頂点にあり、これ以上目指すところはないように思われた。実際、「Alpha」の名は、既にボードゲームの分野から離れ、さらに難易度の高いRTSゲームでグランドマスターを打倒するAlphaStar(アルファスター)や、タンパク質の立体構造予測のような科学的発見を目指すAlphaFold(アルファフォールド)に受け継がれた。
「Alpha」の活躍から3年近くたった20年、「Alpha」の開発に関わった研究者らが著者に名を連ねる、新たなボードゲームAIの論文がDeepMindから発表された。論文のタイトルは「Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model」。この論文で発表された新たなAI、MuZero(ミューゼロ)は、ゲームの戦略に関する知識どころか、そもそもゲームの進め方などの基本的ルールすら知らない完全な無の状態から学習を行って、AlphaZeroに匹敵、あるいは超える強さに到達したと報告されていた。驚くべきことに、このMuZeroは、囲碁や将棋、チェスなどのゲームの盤面やルールそのままではなく、最善手を決定するために必要なゲーム要素のみをモデリング。そのモデル上でシミュレーションを行うやり方で、ボードゲームのみならず一般的なデジタルゲームでも同じやり方で人間や既存AIを超える強さに至ったという。
なお、MuZeroを開発した論文の筆頭著者Julian Schrittwieser氏は、MuZeroの「Mu」の名前は、日本語の「無(Mu)」「夢(Mu)」という語と、ギリシャ文字の「μ(ミュー、mu)」をかけて着想を得たとしている。具体的には、ゲームに対するルールも戦略も知らない「無」の状態から、未来のゲーム展開を予測し最善手を決定するための「夢」の世界(モデル)を作り出す手法であるという意味を込めているという。
この記事では、世界最高の学術雑誌Natureに掲載されたMuZeroに関する前述の論文「Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model」に書かれたMuZeroのアルゴリズムやその性質、将棋棋士の思考との関連について解説する。
ゲームAIにおけるシミュレーションと学習
MuZeroの詳細に踏み込む前に、MuZeroでも用いられている既存のゲームAIのアルゴリズムについて、囲碁や将棋、チェスなどのゲームの性質と合わせて解説する。
囲碁、将棋、チェスのようなボードゲームは、完全情報ゲームという性質のゲームに分類され、ゲームに関する盤面や相手の持ち駒などの情報などが隠されることなく全て公開されている。これらのゲームは、現在の盤面からどの手を打ってどんな盤面になるかを表すゲーム木を使用し、ゲームの終端状態から遡って最善手を決定できるため、原理的には、必勝法を求めることができる。
実際にはこれらのゲームの展開の総数は10の何百乗(無量大数よりもはるかに大きい数)も存在し、現在人類が持つ計算資源では、最高性能のスパコンを使ったとしても現実的な時間で解を求めることは不可能である。そのため、AlphaGoなどでは近似的に最善手を求める手法として、モンテカルロ木探索(MCTS; Monte Carlo Tree Search)と呼ばれるシミュレーションアルゴリズムを使っていた。モンテカルロ木探索自体は、2000年代前半から存在する定番手法だが、AlphaGoでは、AIの強化学習と呼ばれる意思決定則学習手法と深層学習を組み合わせた深層強化学習によって、モンテカルロ木探索を効率化することで圧倒的な強さに到達している。具体的には、ゲームの展開を全てシミュレーションできない問題に対して、深層強化学習を行った深層ニューラルネットワークに盤面を入力したときの勝率、良い打ち手(方策)の出力を参考にすることで、探索する範囲を大幅に縮小している(図2)。
「Alpha」の最終形態であるAlphaZeroでは、あらかじめモンテカルロ木探索する際に必要な最低限のゲームルールのみを与えられ、以下のような流れで学習を行っている。
この記事は会員限定(無料)です。