Google傘下のDeepMind社が開発したAI「AlphaFold(アルファフォールド)」が科学的発見に挑む特集の後編。AIがどのように複雑なタンパク質構造を予測していくのか、そのメカニズムを紹介していく。さらに、創薬などへの応用が期待される、新型コロナウイルス研究の最前線も取り上げる。

前編はこちら

 AlphaFoldによるタンパク質立体構造は以下の2つの処理で構成されている。

  1. 予測対象のタンパク質のアミノ酸配列と、アラインメントという手続きによって得られた特徴を深層ニューラルネットワークに入力し、残基間の距離ヒストグラム(distgram)と、各残基のねじれ角(torsion angle)を予測する
  2. 得られたねじれ角を変数の初期値とし、勾配降下によってポテンシャル関数を最小化→ねじれ角にノイズを与えて再び勾配降下を繰り返して、最適な構造を探索する
AIによるタンパク質の立体構造予測は、新型コロナウイルスの治療薬開発のためにも欠かせない分野となっている(写真はイメージ/Shutterstock)
AIによるタンパク質の立体構造予測は、新型コロナウイルスの治療薬開発のためにも欠かせない分野となっている(写真はイメージ/Shutterstock)

 ①の処理では、立体構造を予測したいタンパク質のアミノ酸配列が立体構造を形成した場合に、各アミノ酸残基のβ炭素と他のアミノ酸残基のβ炭素が空間内でとる距離(以降は単に残基間距離とも呼ぶ)と、各残基がなすねじれ角(φ、ψ)を予測する。ここでβ炭素とは、アミノ酸のカルボキシル基とアミノ基が結合した中央の炭素(α炭素)に直接つながった側鎖の炭素を指す。距離の単位にはÅ(オングストローム)を使う。例えば、29番目の残基と1番目の残基の距離は〇〇オングストローム、2番目の残基との距離は〇〇オングストローム、3番目の残基との距離は…といった感じである。

 距離の予測は、確率分布として出力される。つまり、ある1つの距離を確定的に予測するのではなく、いくつかに区切った距離の候補から「この距離である確率は何パーセントである」というふうに出力している。これは予測の不確かさを含んでおり、分布の分散が大きい場合には予測の精度が低下する。最終的には、距離の予測は下の図のように、残基間の距離を色で分けた距離ヒストグラムで表される。

 ねじれ角は二面角とも呼ばれ、アミノ酸残基が立体構造中で2つの結合部位を回転させてとる角度である。このねじれ角によってタンパク質の立体構造を決定することができ、後の勾配降下による最適化では、このねじれ角(φ、ψ)を変数として最適化を行う。

AlphaFoldの深層ニューラルネットワークの出力。aは予測対象のタンパク質の立体構造、b、cは深層ニューラルネットワークが出力した値を基にした距離ヒストグラムで、i番目の残基のβ炭素とj番目の残基のβ炭素の距離を色の違いで示している。縦軸の番号は、残基番号を表しており赤のラインは29番目。dは出力された残基のβ炭素間の距離(29番目とその他)の予測確率分布。赤のラインは、実際の立体構造の距離を示しており、AlphaFoldの予測した確率分布のモード(縦軸の確率が一番大きいところ)とほぼ一致している(出典:Nature論文Improved protein structure prediction using potentials from deep learningの図から抜粋)
AlphaFoldの深層ニューラルネットワークの出力。aは予測対象のタンパク質の立体構造、b、cは深層ニューラルネットワークが出力した値を基にした距離ヒストグラムで、i番目の残基のβ炭素とj番目の残基のβ炭素の距離を色の違いで示している。縦軸の番号は、残基番号を表しており赤のラインは29番目。dは出力された残基のβ炭素間の距離(29番目とその他)の予測確率分布。赤のラインは、実際の立体構造の距離を示しており、AlphaFoldの予測した確率分布のモード(縦軸の確率が一番大きいところ)とほぼ一致している(出典:Nature論文Improved protein structure prediction using potentials from deep learningの図から抜粋)
関連リンク(クリックで別ページへ):
Improved protein structure prediction using potentials from deep learning(Nature)

 この距離ヒストグラムとねじれ角の予測では、予測器として深層ニューラルネットワークを使用する。このネットワークは予測の前に、タンパク質立体構造分類データベースCATHから作成したデータセットを使って正確な予測ができるよう学習する。ここで使う深層ニューラルネットワークの構造は、画像認識でトップクラスの性能を発揮する残差ネットワーク(Residual Network)を採用している。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>