気象データや株価、センサー値など、広い分野で扱われている時系列データ。これらのデータをモデル化することで、予測や分類、異常検知などに活用できる。今回は、時系列データの表現学習に関わるトランスフォーマーモデルや自己教師あり学習の最新研究事例を紹介する。
時系列へのトランスフォーマーの適用
トランスフォーマーは自然言語だけでなく、コンピュータビジョンなど,多くの領域で適用が進んでいる。自然言語の領域においては米グーグルの「BERT(バート)」や米オープンAIの「GPT」などがある。トランスフォーマーベースのモデルに対して、大規模データで事前学習させることで汎用的な特徴表現を獲得。事前学習したモデルを目的としたタスクのデータで微調整(ファインチューニング)し、ゼロから学習するよりも高い性能を発揮することが示されている。
時系列データの領域においても、トランスフォーマーを適用した研究が活発だ。しかし、単純に適用しようとしたときには課題も存在する。
通常のトランスフォーマーモデルの構造では、Self Attention(自己注意)機構において、同じベクトルからクエリとキーとバリューの3つに埋め込み、クエリとキーの内積を求めてバリューを加重和に用いる処理を行う。この処理によって、結果としてベクトルから重要な情報を取り出すような機能が働くが、この処理は時系列データの場合、入力系列長が長くなるにつれ、内積処理による計算量が増大していってしまうことが問題となる。時系列データにトランスフォーマーを適用することを考えたとき、多くの研究で注視しているポイントは、この課題に対して、計算やメモリを効率化し、長期の依存関係を捉えられるようにすることだ。
Informer(i)では(1)内積計算の際に、重要な特徴量だけを選抜し、計算対象にする、(2)Self Attentionの処理の度に毎回系列長を半分の長さに蒸留(畳み込みとマックスプーリングの処理)という大きく2点の工夫で効率化している。
(1)について、もう少し補足すると、この研究ではアテンションの重みはロングテール(緩やかに減衰するような分布)の分布を形成し、重要な情報は一部の情報のみであることを示している。その性質を利用してクエリの分布と一様分布を比較し、図1のActiveのようなクエリのみを選抜し、Self Attention時の計算に利用している。これらの工夫によって、Informerでは計算コストを大幅に下げ、長期の系列予測において高い精度を達成している。
また、Pyraformer(ii)というモデルでは別のアプローチで、計算量の削減及び、時系列における長期依存関係性の学習の効率化を実現している。名前にも表れている通り、このモデルでの最も大きな工夫はピラミッド型グラフのSelf Attention機構である。グラフ型のアテンション構造は下から上にいくほど粗い時間情報を表現する構造になっており、それにより、通常のSelf Attentionに比べ、同じ時間スケール感での効率的な長期依存性の表現や、異なる時間スケール感での多重解像度表現を効率的に学習することが可能になっている。モデルの構造としては通常のトランスフォーマーをベースとし、Self Attentionを行う前に時間方向の畳み込みによって、時間方向の段階的な要約情報を得た上でSelf Attentionを行う構造になっている。
この記事は会員限定(無料)です。