日本語などの自然言語による指示を理解することができるエージェント(ロボットなど)の開発は、例えば一般家庭の家事を代替するなど、産業応用上大きな可能性を秘めている。しかし、多様な言語指示や家庭環境に適応して動作するロボットを、深層学習・強化学習を用いて作るためには、莫大なデータが必要となると考えられる。本稿では、言語指示に従うロボットの開発に必要なデータ数を削減するための3つの研究を紹介する。
現在のAI研究の重要なゴールの1つが、自然言語(日本語や英語といった、人間が意思疎通のために日常的に用いる言語)による指示を理解することができるエージェント(ロボットなど)の開発である。自然言語という人間にとって容易に使用可能なインターフェースを介して様々なタスクを実行できるロボットは、産業応用上大きな可能性を秘めている。
例えば、自然言語を理解するロボットは一般家庭の家事(片付けなど)を代替するのに役立つと考えられる。ロボットに家事を代替させる場合、ロボットは非常に多様な家事=タスク集合の中から、その場面に適したタスクを選択し実行する必要がある。その際に、ロボットを監督する人間が「お皿を台所からテーブルへ運んで」といったような言語指示を与えることができたら、ロボットが場面に即したタスクを実行することが可能になるため、効率的に家事を代替できる。
このようなロボットの研究開発にも、深層学習が基盤技術として取り入れられている。このロボットの開発には、自然言語を処理する技術や、ロボットのセンサー入力となる画像を認識する技術が必要となるが、それらは深層学習の得意とする分野である。
ロボットシステムにおいて深層学習がどのような役割を期待されているかをもう少し具体的に述べると、まずセンサーから得られた画像や自然言語を入力とし、行動系列を出力するようなディープニューラルネットを用意する。そしてこのニューラルネットを、模倣学習(教師データの模倣による学習)や強化学習(試行錯誤からの学習)によって、データを用いて訓練する。
しかし、実応用上の期待の大きさにもかかわらず、自然言語指示に従うロボットの構築は現在のところ困難である。その原因の1つが、ロボットが非常に多様な言語・環境を扱う必要があるためである。例えば、前述の一般家庭における家事代替を考えると、ロボットは単一の家庭ではなく、様々な家庭において使用できた方が好ましい。
そのためには、ロボットが多様な家庭環境(部屋・家具の配置)に汎化する(≒各家庭において追加的な学習を必要とせずに正しく動作する)必要がある。近年、強化学習・模倣学習は深層学習と組み合わせることで発展を遂げたとはいえ、この汎化性能についてはしばしば無視されてきた。
この記事は会員限定(無料)です。