NTTの傘下にある研究所の1つ、NTTセキュアプラットフォーム研究所は、暗号化したまま深層学習(ディープラーニング)の標準的な学習処理を実行できる秘密計算技術を、世界で初めて実現した。これにより、企業が秘密にしたいデータや個人のプライバシーに関わるデータなどを、AI(人工知能)で処理しやすくなり、データ分析の精度向上が見込める。
2020年は新たな通信規格5Gが実用化される。企業はIoTなどから集まってくる膨大な量のデータを分析し、収益向上などに役立てるのが当たり前の時代になる。
通常、収集・蓄積したデータを保管したり、別のコンピューターに送信したりするときには、暗号化して情報漏洩のリスク低減を図っている。しかし、実際にデータを分析するときは、暗号化されたデータを復号化して元データに戻してから処理する必要があった。
このため、企業が秘密にしたいデータや個人のプライバシーに関わるデータを収集・分析するとき、第三者である他社や個人からはもちろん社内の別組織からであっても、情報漏洩リスクを懸念されて、データの提供を受けにくいというケースが少なくなかった。このままでは、データを分析する際、データ量が不足し、AIを使った分析の精度が十分に上がらない恐れがある。
企業も個人も安心してデータを提供できる
今回、NTTセキュアプラットフォーム研究所が開発したのは、深層学習の標準的なアルゴリズムを使った分析をするとき、暗号化したデータを、暗号化したままの状態で計算・処理し、分析結果だけを出力できるという秘密計算技術だ。
データを暗号化したまま一度も元データに戻さずに分析できるため、「第三者である企業や個人も、従来よりも安心してデータを提供する可能性が高まる」(NTTセキュアプラットフォーム研究所チーフ・セキュリティ・サイエンティストの高橋克巳氏)。その結果、深層学習に利用できるデータの量や種類が増え、AIによる分析精度の向上が期待できるというわけだ。
具体的には、深層学習の標準的なアルゴリズムを実行する際、秘密計算で処理するには難しかった課題を、2つの異なるアプローチで解決した。
1つは、2012年に開発した「秘密写像」と呼ばれる独自技術を用いるアプローチだ。
通常、深層学習では、ソフトマックス関数と呼ばれる数式やAdamと呼ばれる処理を用いた計算が必要。これらの計算は主に割り算、指数、逆数、平方根を組み合わせて処理する。ところが、秘密計算にとって、割り算や指数、逆数、平方根という処理は不得手なため、ソフトマックス関数やAdamの計算が難しかった。
そこでNTTセキュアプラットフォーム研究所は、あらかじめ入出力の組を並べた対応表を用意し、入力と対応表を暗号化しつつ、入力に対応する出力が得られる「秘密写像」技術を用いることで、秘密計算の中でもソフトマックス関数やAdamの計算を可能にした。これにより、「どんなに複雑な計算であっても一定の桁数、現在は約4桁までは、計算できる」(高橋氏)。
もう1つは、専用アルゴリズムを開発するアプローチだ。秘密計算にとって不得手だったソフトマックス関数やAdamを構成する割り算、指数、逆数、平方根それぞれについて、専用の高速アルゴリズムを開発して対応するものだ。
例えば、逆数の計算。逆数を近似計算する数式にのっとって計算処理を進めると、数式内のべき乗の際に桁数が増大し、計算が困難になる。そこで小数点以下の桁数を小数点以下2位までに処理する“右シフト”処理で対応するのが一般的だった。今回、世界最高速度の右シフト秘密計算アルゴリズムを開発し、高速計算を可能にしたのだ。
欧米の既存研究よりも処理性能は格段に速い
秘密写像は、どんな複雑な計算でも対応可能だが計算できる桁数は現状で約4桁にとどまる。それに対して専用アルゴリズムは、割り算や指数など計算方法に合わせて開発する必要があり、それぞれの計算速度に違いが出る一方、計算できる桁数は現状で約7桁と多い。NTTセキュアプラットフォーム研究所は、この2つのアプローチを組み合わせて、暗号化したまま深層学習の標準的な学習処理を実行できる秘密計算技術を実現したわけだ。
実際、AIで一般的なベンチマークテスト「MNIST」の結果を見ると、6万件の手書き文字の画像を判別するモデル学習において、訓練データを1回学習するまでの時間は、「専用アルゴリズムを用いた場合で312秒、秘密写像を用いた場合で412秒しかかからない」(高橋氏)。欧米の既存の研究がおおむね2000秒以上かかっているのに比べ、処理性能は格段に高いといえる。
今後はAIの知見を持つパートナーと連携し、実証実験などに取り組んで、今回開発した秘密計算技術の有効性を実証していく。その後、時期は未定だが、「分析の“場”は提供するが、データの中身は見ない」という方針を掲げ、この技術をNTTグループ各社が提供するクラウドサービスに順次、実装していく考え。実用化されれば、一般の企業のデータ利活用を後押しすることになる可能性が高い。