
東大松尾ゼミの「深層学習」研究会
-
- 第49回
- 2023.05.16
AIエージェント25人が暮らす”村”の実験 AI同士でパーティーも開催 人間の行動を模倣する「AI(人工知能)エージェント」の実現は、人間の複雑さゆえに非常に難しい課題とされてきた。ただ大規模言語モデル(LLM)の進化により、その実現に向けて大きな一歩を踏み出している。人間の行動をハイレベルに模倣できる最新技術はどこまで進化しているのかを紹介する。 -
- 第48回
- 2023.04.13
ChatGPTなど大規模言語モデルの弱点は? それを補うツールの活用 大きな話題となっているChatGPT(チャットGPT)のような大規模言語モデル(LLM)は、自然言語処理、テキスト要約、テキスト生成、チャットボット、バーチャルアシスタント、機械翻訳、コード生成など幅広い用途があり、さまざまな分野の言語を処理・生成する方法に革命を起こす可能性がある。一方、その弱点や限界なども各所で指摘、報告されており、実用として利用するにあたってはそれらを把握することが重要だ。本記事ではこうした弱点について挙げ、それらを補う研究や動きについて紹介する。 -
- 第47回
- 2023.03.22
三人称視点のデータセットを一人称視点に汎用するMeta AIの研究 2021年、ARグラスやヘッドマウントディスプレーの開発に力を入れるFacebook AI Research (現Meta AI)が一人称視点動画に対する機械学習の研究論文を発表した。本記事では、一人称視点(First-Person View、もしくはEgocentric Viewと呼ばれる)の映像に対する機械学習の試みを取り上げる。 -
- 第46回
- 2023.02.22
ボルツマンマシンの再来! 生成モデルとしての復活 人工知能(AI)の深層学習(ディープラーニング)の第一人者とされるカナダ・トロント大学のジェフリー・ヒントン教授のグループが17年前に発表した積層自己符号化器(stacked autoencoder)。これを構成するRBM (Restricted Boltzmann Machine)が、生成モデルとして、近年また注目されている。ヒントン教授らの最新論文を取り上げる。 -
- 第45回
- 2023.01.19
誤差逆伝播法を用いない深層ニューラルネットワークの学習方法 近年の人工知能の進展は、言うまでもなく深層学習によってけん引されてきた。深層学習では、これまで様々なモデル(ニューラルネットワーク)が提案されているが、ほぼ全てのモデルのパラメータの学習において誤差逆伝播(でんぱ)法(backpropagation)が使われている。 -
- 第44回
- 2022.12.19
ロボット自身が動作プログラムを出力する 広がる言語モデルの活用 「コーラの缶を机から取ってゴミ箱に捨てておいて」といった人間の言語による指示をロボットが理解し、更にその指示を遂行するための手順をロボット自身が導き出す技術はロボットの応用上大きな可能性を秘めている。今回は大規模言語モデルを活用し、指示に応じてロボット自身が一連の動作のプログラムを作り出すことを目指したGoogleから公開された論文(Code as Policies: Language Model Programs for Embodied Control)を紹介する。 -
- 第43回
- 2022.11.15
時系列データの汎用的な表現学習の研究動向 気象データや株価、センサー値など、広い分野で扱われている時系列データ。これらのデータをモデル化することで、予測や分類、異常検知などに活用できる。今回は、時系列データの表現学習に関わるトランスフォーマーモデルや自己教師あり学習の最新研究事例を紹介する。 -
- 第42回
- 2022.10.20
画像認識の「セグメンテーション」で新研究 物体の深さも認識 画像に何が写っているかをコンピューターに理解させようとする画像認識のタスクの中に「セグメンテーション」がある。セグメンテーションは画像のピクセル単位で何を示しているかを分類する手法である。中でも単純に各ピクセルが何を表しているかを推定するSemantic Segmentation、画像中から物体とその意味を推定するInstance Segmentation、そして、これらを組み合わせたPanoptic Segmentationの3つに分けられる。今回は、最新の研究からPanoptic Segmentationとピクセルの深さ推定を同時に行った論文を紹介する。 -
- 第41回
- 2022.09.08
無限回の計算を有限回で近似するテクニック「カップリング」とは 繰り返し計算を伴う深層学習モデルの有効性が示されてきた。しかし、計算を無限回せずとも、有限回の計算で近似する「カップリング」というテクニックの有効性が検証され、機械学習の場でも応用が広がっている。 -
- 第40回
- 2022.08.10
イマジネーションを画像化する「Text-to-Imageモデル」の最前線 「バックパックを背負って自転車に乗る柴犬(しばいぬ)」「パン生地を練る幸せそうなパンダ」など、AI(人工知能)に描かせた写真のような画像がネットで話題になっている。条件文を入れれば、現実に存在しないような画像も生成できてしまう「Text-to-Imageモデル」の最新状況について解説する。 -
- 第39回
- 2022.06.24
目的へ到達する技術「LEXA」とは 強化学習と世界モデル 「部屋をきれいにする」「指定された料理を作る」といったタスクをロボットが解けるように学習するには、どのような技術が必要だろうか? 候補技術の1つとして、環境とのインタラクションを通じて目的のタスクを達成するような行動選択を獲得する、強化学習という技術が盛んに研究されている。 -
- 第38回
- 2022.05.16
大規模事前学習モデルの課題とは? AI開発の民主化に必要なこと 米グーグルが開発した言語処理モデル「BERT」に代表されるような大規模事前学習モデルの活用が進んでいるが、一方でいくつかの課題も指摘されている。21年に公開された複数の論文では、オープンソースソフトウエア(OSS)の開発の考え方を基にした解消方法を提案している。これらがAI(人工知能)の開発を民主化するためのヒントになるかもしれない。 -
- 第37回
- 2022.04.05
好みに合わせてリコメンド 進化する推薦システムの最新事情 サービスにおいて利用者の選択を支援する「推薦システム」は機械学習のビジネスへの代表的な応用事例の1つである。特に、扱うアイテムの数が膨大であることやユーザーの行動を容易に取得できることなどから、ウェブサービスにおいて重要な役割を果たしている。 -
- 第36回
- 2022.03.15
協力型ゲームで強化学習 マルチエージェントにおける心の理論 人間は相手の意図を適切に読み取る力を利用して共同作業をこなすが、AI(人工知能)は同じことができるのだろうか。もし、AIに他者の心を適切に読む能力である「心の理論」を実装できれば、AI同士が適切に協力して作業をこなせるようになるはずだ。協力型ゲーム「Hanabi」で強化学習した事例を紹介する後編。 -
- 第35回
- 2022.03.14
AIは“心を読む”ことができるか? AI同士が協調する社会が来る 人間は相手の意図を適切に読み取る力を利用して共同作業をこなすが、AI(人工知能)は同じことができるのだろうか。もし、AIに他者の心を適切に読む能力である「心の理論」を実装できれば、AI同士が適切に協力して作業をこなせるようになるはずだ。今回紹介する研究論文では、AI同士が協調するマルチエージェント強化学習のタスクで心の理論の実装を試みている。 -
- 第34回
- 2022.02.03
ノイズから画像を復元 拡散確率モデルによる画像生成の最前線 精緻な画像生成だけでなく、テキストから画像を生成するような用途にも応用できる「拡散確率モデル」。データを生成するのに時間がかかるなど課題もまだ存在するが注目度は高い。今後は、画像・音声などの高次元なデータの生成など、多くの領域での応用が期待されている。 -
- 第33回
- 2022.01.18
ベンチマークに悪影響を及ぼすテストデータのラベルミスを検証 今日の深層学習の技術を支える要素の一つである教師ラベル付き大規模データセット。その大規模さ故にすべてのデータに対して正しい教師ラベルを付与するのは容易ではなく、一定の割合のラベルミスが存在する。こうしたミスは「学習されたモデルの性能の優劣」の判断を誤らせ、データセットのベンチマークとしての機能の低下を引き起こしかねない。今回紹介する研究では、ラベルミスの悪影響に関する分析を行い、この手の誤りについての関心が低い現在の状況に警鐘を鳴らしている。 -
- 第32回
- 2021.11.30
双方向の“対話”でタスクをこなす 人と協働するロボットの研究 深層学習により画像や言語などのデータを機械で処理することが容易になったことを契機に、現実世界で動作するロボットの開発に対する期待が高まっている。もしロボットが言語を用いて人間に質問を行って支援を求めることができたら、作業をより柔軟に行えるはずだ。この記事では、言語を用いて人間と協働するロボットの開発に取り組む研究を紹介する。 -
- 第31回
- 2021.10.29
学習してないのに予測 「CLIP」がコンピュータービジョンを進化 学習していないものも予測できることで注目を集める画像モデル「CLIP」がコンピュータービジョン(画像や映像の識別)の分野に大きな影響を与えている。米スタンフォード大学はCLIPやBERT、GPT-3といった、大規模データで学習して幅広いタスクに汎用的に適用できるモデルを“基盤モデル”と称し、研究センターの設立まで発表するほど。そんなCLIPの周辺動向および各分野での応用例を紹介する。 -
- 第30回
- 2021.10.07
人工知能の“思考”が分かる? 予測精度と並んで重要な「解釈性」 人工知能(AI)がなぜそのような“答え”を出したのか。機械学習モデルの振る舞いを理解できる度合いを「解釈性」と呼ぶ。ビジネスなどあらゆるシーンで人工知能を活用する社会では、学習モデルの精度はもちろんのこと、なぜそのような結果を出したのかを説明できないと顧客の支持を得ることは難しい。解釈性は深層学習によるモデルが普及する現在、重要な研究テーマの一つになっている。 -
- 第29回
- 2021.09.30
時間軸の活用で動画分類に特化した最新のDA手法「VideoMix」とは 過学習を防ぎ、AIの精度を高める上で欠かせないData Augmentation(DA)。近年では様々なタスクに対するDAが研究されているが、メジャーなタスクである動画認識が近年までDAの研究対象としてほとんど注目されていなかった。画像分類において有効なDAとして知られる「CutMix」に、動画に特有の要素である「時間軸」盛り込むことで誕生した、動画分類向けDA手法「VideoMix」を紹介する。 -
- 第28回
- 2021.08.24
AIはプログラムの夢を見るか? 睡眠学習する驚きのアルゴリズム “寝たり起きたり”を繰り返しながら学習する「DreamCoder」。そこで使われる「Wake-sleepアルゴリズム」は、「起床フェーズ」と「睡眠フェーズ」の2つのフェーズを繰り返す。起床フェーズでは外界からのデータと認識モデルを基に学習、睡眠フェーズでは夢として過去を思い出したり妄想したりして自分の認識を改善する。 -
- 第27回
- 2021.07.01
自由視点のスポーツ観戦も期待できる「NeRF」を効率化する新工程 自由視点画像生成アルゴリズム「NeRF(Neural Radiance Field)」(ナーフ)。近年、非常に注目を集めているが、課題の一つが学習に非常に時間がかかるという点だ。解決策としてGoogle DeepMindから提案されたのが「NeRF-VAE」である。 -
- 第26回
- 2021.05.31
「NeRF」の最新事例 自由視点映像やリアルタイムレンダリングも ニューラルネットワークを用いた自由視点画像生成アルゴリズム「NeRF (Neural Radiance Field)」(ナーフ)。最先端の現場では、自由視点映像の生成やリアルタイムレンダリングなど、実用化に向けた様々な手法が脅威的なスピードで研究されている。 -
- 第25回
- 2021.05.14
1層でも高精度 不動点を用いたディープラーニング「DEQ」とは たった1層分のニューラルネットワークだけで多層のモデルと同等以上の精度が出るという「Deep Equilibrium Model (DEQ)」。その精度やメモリー効率などにおける優位性が注目されている。 -
- 第24回
- 2021.03.29
最強AI「MuZero」とは ルールを知らないのにゲームで勝ちまくる 囲碁、将棋、チェスとあらゆるゲームで人間を破り、その名をとどろかせた「Alpha」。このシリーズから2020年に最新のかつ最強のAI(人工知能)「MuZero(ミューゼロ)」についての論文が発表された。驚くべきは、ゲームのルールという基本的な情報すら与えられていない状態から出発しているという点だ。その“脳内”のメカニズムを解き明かす。 -
- 第23回
- 2021.02.25
安く、お手軽に生成モデルが使える! Lightweight GANに注目 本物と見分けのつかないリアルな画像を生成できることで注目を集めるGenerative Adversarial Network(GAN)の計算コストの削減を図った「Lightweight GAN」について紹介する。莫大な学習コストのために一個人では学習が困難であった従来のGANに対して、Lightweight GANはGPU1枚かつ1日未満というお手軽な学習が可能だ。さらに学習に必要なデータも従来モデルと比較して大幅に少なく、GANの低リソース化は今後の応用、発展を推進するに違いない。 -
- 第22回
- 2021.01.21
「ロボットに声で家事を指示するには?」深層・強化学習の最前線 日本語などの自然言語による指示を理解することができるエージェント(ロボットなど)の開発は、例えば一般家庭の家事を代替するなど、産業応用上大きな可能性を秘めている。しかし、多様な言語指示や家庭環境に適応して動作するロボットを、深層学習・強化学習を用いて作るためには、莫大なデータが必要となると考えられる。本稿では、言語指示に従うロボットの開発に必要なデータ数を削減するための3つの研究を紹介する。 -
- 第21回
- 2021.01.12
識別モデルと生成モデルを同時に学習!? 深層学習の再解釈 「識別モデル」と「生成モデル」は、いずれも機械学習において欠かせないアプローチの手法だ。この2つは、これまでは基本的に別々に研究が進められてきたが、新たな論文ではこれらを同時に学習するモデル「JEM」を提案。より広い視点から統一的に解釈する研究は、今後非常に重要になっていくと考えられる。 -
- 第20回
- 2020.12.08
画像研究の知見を時系列に生かす 越境する深層学習研究の面白さ 深層学習(ディープラーニング)の領域は非常に広く、さまざまな分野での活用が期待されている。例えば、時系列の予測や分類のために、VAEやGANといった画像処理の技術を利用する、という方法もある。一見自分に関係なさそうな領域でも、深掘りすると通底している部分が見つかる、という点が深層学習研究の面白いところだ。 -
- 第19回
- 2020.10.05
高性能AIを自作できる!? ディープラーニングモデル構築の新手法 ディープラーニング(DL)は現代のAI(人工知能)開発における要の技術。翻訳や物体認識、 文字認識などで必要になる「モデル構築」を、劇的にシンプルかつスピーディーにする新たな手法が発見された。たとえるなら、広大な砂漠から宝のありかをどんどん絞り込んでいくようなイメージで、自身の環境に適応した最新のAIを作り出すことも簡単になる。DLモデル構築に新たな時代を切り開く、新手法について紹介していく。 -
- 第18回
- 2020.09.07
VRで注目、新技術「NeRF」の衝撃 様々な視点の画像を美しく合成 複数の視点の画像から、新たな視点の画像を合成して作り出す「Novel View Synthesis」というタスクがある。VRやスポーツの自由視点映像などには不可欠な技術だ。この領域で驚異的な性能を発揮したのが「NeRF」(ナーフ)。果たしてどんなアルゴリズムで、美しい合成画像を作り出せるのか。世界中の研究者や技術者に衝撃を与えたその技術を、論文からひもといていく。 -
- 第17回
- 2020.07.21
新型コロナウイルスの構造を解析せよ “最強AI”が挑む最前線 Google傘下のDeepMind社が開発したAI「AlphaFold(アルファフォールド)」が科学的発見に挑む特集の後編。AIがどのように複雑なタンパク質構造を予測していくのか、そのメカニズムを紹介していく。さらに、創薬などへの応用が期待される、新型コロナウイルス研究の最前線も取り上げる。 -
- 第16回
- 2020.07.16
Google傘下のAIによる科学的発見 立体構造予測で世界に衝撃 科学的発見は人間に特有だと考えられていた極めて難しい知的活動だが、技術の発展により、機械であるAIによる科学的発見も可能になってきた。Google傘下のDeepMind社が開発したタンパク質の立体構造予測AI「AlphaFold(アルファフォールド)」は、AIによる科学的発見の代表的な成功例。AlphaFoldはコンテストで圧倒的な成績をたたき出し、世界に衝撃を与えた。前編ではまずはタンパク質の仕組みや立体構造予測の応用について説明していく。 -
- 第15回
- 2020.07.07
深層学習が苦手な「予測」を克服できるか? メタ学習「ConvCNP」 医者が診断する際、一つの血液検査の数値だけでは病気の特定は難しい。だが検査項目を増やしていくことで、病気の特定はより確実性を増していく。このように、人はデータを増やすことで予測の精度を上げることができる。同様にAIの予測に不確実性を持たせ、観測点を増やすことでその不確実性を減らす最新の研究の一つを紹介しよう。 -
- 第14回
- 2020.04.08
深層学習における「不確かさ」の意味 知らないデータも検知 今回は「Ensemble Distribution Distillation」という論文を紹介する。一言でいうと、複数の深層ニューラルネットワーク(DNN)の出力を利用することで、「知識の不確かさ」を獲得し、学習データ以外のデータを検知する手法である。 -
- 第13回
- 2020.02.27
協調AIなら解ける? 経済学のジレンマ「共有地の悲劇」 人工知能(AI)は、深層強化学習の発展により、囲碁や将棋などの対戦型ゲームにおいて人間を上回るパフォーマンスを出すようになった。しかし実世界における問題は、敵対的な状況だけではない。むしろ個々人が協力・協調しなければ解けない問題も多い。 -
- 第12回
- 2019.10.25
深層学習で「服の仮想試着」実現 自然さ実現する“画像修復” ディープラーニング(深層学習)研究では国内トップレベルの東京大学・松尾研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、「服の着せ替え」を実現するAI(人工知能)に関する論文を取り上げる。 -
- 第11回
- 2019.08.30
エヌビディアが編み出した驚異のAI画像変換技術 GauGANって何だ 近年、深層学習を活用したアプリケーションが企業から提供されるようになった。例えば自分の声でスマートフォンを操作したり、撮った写真の色合いをを自動で加工したりできる。これらの裏側ではAI(人工知能)の技術が使われている。米アドビや米エヌビディアがAIを用いた新機能をお披露目して見る人を毎回驚かせている。 -
- 第10回
- 2019.07.09
データがないのに学習可能? 最先端AI「メタ学習」がスゴい ディープラーニング(深層学習)研究では国内トップレベルの東京大学・松尾研究室のメンバーが開催する最新論文の輪読会から、話題の論文を紹介する本連載。今回は、直接データを必要としない予測モデル「メタ学習」に関する論文を取り上げる。