たった1層分のニューラルネットワークだけで多層のモデルと同等以上の精度が出るという「Deep Equilibrium Model (DEQ)」。その精度やメモリー効率などにおける優位性が注目されている。

 今回は機械学習の国際会議NeurIPSで発表された「Deep Equilibrium Models」[1]と「Multiscale Deep Equilibrium Models」[2]という論文を紹介する。どちらの論文も、米カーネギーメロン大学の同じ研究グループから発表された。

 一般によく知られているディープニューラルネットワークは数十~数百の層から構成される。例えば画像認識のモデルとしてよく使われる「Residual Network」[3]では、その層数は最大で152にもなる。

 しかし今回紹介する「Deep Equilibrium Model(DEQ)」では、ある特殊なテクニックを用いることにより、たった1層分のニューラルネットワークだけでResidual Networkのような多層のモデルと同等以上の精度が出ることが分かった。

重み共有と不動点

 ディープラーニングのモデルは、非線形な層を重ねていくことにより局所的でシンプルな特徴から大局的で複雑な概念を階層的に捉えることができるというアイデアのもと研究が進んできた。これは、各層において別々の重みを学習させているからこそ可能なことである。

 これと対照的だが近年よく使われるテクニックとして、ニューラルネットワーク内の複数の層において同一の重みを使用する「重み共有」と呼ばれる技術が知られている。複数の層における重みを共有することで学習しなければならないパラメーターの数が削減されるため、モデルの正則化(モデルが過度に複雑になるのを防ぐこと)が促され、汎化性能(未知のデータに対する性能)が向上する。また、学習・推論時のメモリー使用量を抑えることもできる。最近自然言語処理などでよく使用される「Transformer」[4]というモデルにおいても、このテクニックは使われている。

 このアイデアをさらに進めたものとして、ほぼすべての層で同じ重みを使うニューラルネットワークも提案[5]されており、このモデルにおいても精度的に他の最新のモデルと遜色ない数値が報告されている。

 では、この各層の重みが同一であるニューラルネットワークにおける各層の出力の値は、層が深くなるにつれてどうなっていくだろうか? その結果は下の図のようになる。

この記事は会員限定(無料)です。