京都大学は理化学研究所(理研)などと取り組んでいるビッグデータを活用した創薬事業で、ディープラーニングの活用を始めた。従来手法に比べて、10倍以上多くの学習データを入力できるメドをつけた。2016年にも本格的な活用を始め、新薬開発の成功率アップに結びつけていきたい考えだ。

 京大大学院医学研究科の奥野恭史教授が2012年からエーザイ、小野薬品工業、キッセイ薬品工業、参天製薬、塩野義製薬、田辺三菱製薬、日本新薬など製薬20社以上やITベンダーなどとスーパーコンピューターの「京」を活用した創薬に取り組んでいる。

 コンピューターのシリコン半導体で処理することから、「インシリコ創薬」とも呼ばれる。結合すれば薬の効果を発揮すると知られているタンパク質と化合物のペアを学習するステップと、予測により新たな組み合わせを探索するステップの大きく2つのプロセスがある。

インテルの支援で処理速度4倍に

 奥野教授らは2015年に入って前段の学習ステップに、ディープラーニングを導入した。ディープラーニングでは読み込んだデータで脳の構造のような多層のニューラルネットワークを構成。従来のサポートベクターマシン(SVM)と呼ぶ機械学習の手法では12万5000ペアのデータが限界だったが、数百万以上の組み合わせを学習させることが可能となる見通しだ。京大の奥野教授は「学習データが増えると、京で新たな組み合わせを予測する際のエラーの確率を引き下げられる」と期待する。

 ディープラーニングの基盤ソフトとしては、カナダのモントリオール大学が中心に開発を進めている「Theano」を採用したが、当初は処理性能が低かった。そこでインテルに相談して、同社の海外研究所と連携。PCサーバーを利用してソフトや処理環境をチューニングし、当初の約4倍の速度になったという。

 京を用いたこれまでの取り組みでは、2つ目の予測ステップにおいて、病気の原因となるタンパク質631種類に対して、データベースに登録された3000万種類の化合物との相互作用の可能性を予測し、新薬の候補となり得る物質を探索している。それらの組み合わせは合計で189億通りにもなる。

写真は京による、結合可能性の 予測を可視化した画像
写真は京による、結合可能性の 予測を可視化した画像

 能力が高いスパコン「京」を活用することで、候補の絞り込みを従来の「構造解析」から、物質の特徴を基にした「パターン認識」へと転換。タンパク質と化合物の全ての組み合わせについて調べられるようになった。

 膨大なデータベースから候補となる化合物を絞り込め、新薬開発の成功につながる。1品目当たりの開発費用を250億円程度引き下げるのが狙いだ。

 現在、参画する各製薬会社は、予測で発見した薬剤候補の化合物をもとに自社医薬品の開発を進めているという。最終的には、病気の原因となるタンパク質に作用する、候補となる化合物の設計まで自動で計算する手法の開発が目的だ。