「コーラの缶を机から取ってゴミ箱に捨てておいて」といった人間の言語による指示をロボットが理解し、更にその指示を遂行するための手順をロボット自身が導き出す技術はロボットの応用上大きな可能性を秘めている。今回は大規模言語モデルを活用し、指示に応じてロボット自身が一連の動作のプログラムを作り出すことを目指したGoogleから公開された論文(Code as Policies: Language Model Programs for Embodied Control)を紹介する。
大規模言語モデルとは
GPT-3(i)をはじめとした、大量のデータとパラメーターで訓練した大規模言語モデルを活用し、後続のタスクを追加の学習なしでうまく解く取り組みが広がっている。
言語モデルとは単語・文字の連なりをモデル化したものであり、言語モデルを活用することにより、例えば
練乳や小豆、さまざまなフルーツが入っていて夏場におすすめな鹿児島のスイーツは「空白」
とした場合、この「空白」に埋まるものの候補として、選択肢となる個々の単語に対して算出された確率をもとに、もっともらしい選択肢を選ぶことができる。(うまく学習された言語モデルでは上記の空白を埋める単語として「スイートポテト」よりも「しろくま」の確率が高いことが期待される)。
言語モデルを従来よりも多くのパラメーター数を持つニューラルネットワーク(特にトランスフォーマー)と大量のデータで訓練しモデル化したものが大規模言語モデルである。
大規模言語モデルはパラメーターの再学習なく、対象のタスクをうまく解くzero-shotやfew-shotの性能が注目されている。
見本となるような例をいくつか含めてモデルに入力し(入力の文字列をプロンプトと呼ぶ)、対象のタスクの答えとなる文字列を取得するのが大規模言語モデルを活用したfew-shotである。以下はGPT-3を開発したOpen AIの例を日本語化したものだ。
この記事は会員限定(無料)です。