ビッグデータを生かした予測分析の活用は、企業の競争力を大きく向上させる。先進企業の取り組みからその未来を予測する。特集の最終回となる第4回は、経済予測、予防医療の事例を取り上げる。

【経済予測】成果出る足もと予測、株価は道半ば

 経済予測では、公開まで時間がかかるGDP(国内総生産)や物価指数をいち早く推測して、金融政策などに反映しようという動きが盛んだ。

 例えば、日本銀行の調査統計局は2013年秋、GDP成長率の足もとの予測をする手法を開発した。日銀内では通称「マンモス」と呼ばれており、推定値は日銀の政策委員が判断材料の1つとして使っている。

 GDPの1次速報は、対象の四半期が終了してから公表までに約6週間もかかってしまう。そこでマンモスは速報性の高い約500種の経済指標を用いて、月次でGDPを推定する。

 マンモスの予測は2段階。まずGDPの80%ほどをカバーする主要な指標(鉱工業生産指数と第3次産業活動指数)を用いて、GDPの変動の基本部分を割り出す。次に、500種類の経済指標をグループに分け、情報が重複しないように主成分を抽出して、残りの変動部分を求める。

 2004年までさかのぼってマンモスの推定値と有力民間エコノミスト40人の推定値の平均を比較した。すると、1次速報公表の6週間前ではマンモスの方が精度が高く、2週間前では両者はほぼ同等だった。

 マンモスの手法は、「海外のGDPのナウキャスティング(足もと予測)にも使える」(日銀調査統計局経済調査課経済分析グループの原尚子企画役補佐)と言う。

 また、米MIT(マサチューセッツ工科大学)の「The Billion Price Project」は、インターネット上の小売企業のサイトをソフトウエアで毎日自動的に調査し、日時で「オンライン物価指数」を算出。月次で発表される米国の消費者物価指数に先んじて、かなりの確度で物価の変動などを推定できるようになった。

 ヤフーは膨大な検索履歴から内閣府の「景気動向一致指数」を予測している。公式発表の3週間前に、ほぼ発表に近い数値を割り出すことに成功した。

ツイート株式予想の収益は?

 ネットを流れている膨大なソーシャルデータを分析し、株価の動きを予測できないか。NTTデータとNTTデータ数理システムは、Twitterのデータを利用した金融市場向けの「Twitterセンチメント指数」を共同で開発した。

 日本語のTwitterの過去3年弱の全量(数百億件)から、株式関連のツイートを抽出。投資家のポジティブな気分、またはネガティブな気分を表していると考えられる語(「日経平均イケイケだね」など)を定め、それぞれをポジ語、ネガ語とした。

 ある時間間隔(1分、1時間、1日、1週間)でのこれらのポジ語の数や比率から、「ポジ指数」「ネガ指数」「ポジネガ相対指数」など9種類のTwitter指標値を定める。これらの指標値と日経平均(日次、週次)や、投資家が株価の将来の変動をどのように想定しているかを表した日経平均ボラティリティ・インデックス(VI)との相関関係を、2013年11月まで3年弱分、分析した。

 その結果、「ネガ指数(前週差)」「ネガ指数(前週比)」「ポジネガ相対指数(前週差)」など3種類の指標が日経VI(週次)と統計的に有意な関係にあることが分かった。

 もっとも有意であっても、株価予測で収益を上げられることは意味しない。今回、Twitterセンチメント指標と単純な自己回帰モデルを使って、過去1年間の日経VIの先物取引をした収益性を調べた。

 投資成績はTwitterセンチメント指標を組み込んだ時の方が良かったものの、どちらの取引モデルも最後の収益はマイナスだった。株価の予測は要因が多いため難しい。Twitterセンチメント指標は、「株価の予測をするものではなく、あくまで参考情報」(NTTデータ数理システムの中川慶一郎取締役)と考えるのが良いだろう。

 医療分野も予測への期待が高い分野である。将来かかる病気や流行する感染症などが分かれば、先回りで対処することで、人命を救うことはもちろん、医療費も抑えられるからだ。1人ひとりのデータを解析してそれを積み上げたうえで、全体を横串で分析し、懸念される予測精度の問題も解消しつつある。

【予防医療】将来の発症確率を予測、医療費削減の切り札に

 日立製作所は英マンチェスター地域の医療サービス事業を担う「国民保健サービス」(NHS)と、ヘルスケアサービス向上の実証プロジェクトに取り組んでいる。糖尿病の予備軍向けの生活習慣改善プログラムを共同で開発する。

 日立製作所と日立健康保険組合は今年3月、生活習慣病の発症率や医療費総額をこれまでよりも高い精度で予測するモデルを開発したと発表した。病気の発症率の予測では一般に疾病ごとの予測モデルが使われてきたが、生活習慣病は複数の疾病が相互に影響することが知られており、予測が難しい。

 そこで日立は研究所のデータサイエンティストを投入して、日立健保の組合員11万人の健診データとレセプト(診療報酬明細書)を分析。複数の疾病が互いに影響する予測モデルを開発した。

 さまざまな項目の相互の関係を条件付き確率で表現する手法「ベイジアン・ネットワーク」を適用したところ、目に見える結果が出た。疾病間の影響を考慮しない場合の発症に至る確率の誤差は約10%だが、考慮すると誤差が5%に収まったという。日立は成果をふまえ、「予防、治療、介護のデータを活用したヘルスケア事業をグローバルに展開していく」(スマート情報システム統括本部の宇賀神敦ヘルスケア事業担当本部長)。

共有で予測の速度を上げる

 「インフルエンザの感染は、患者数が全国で1000人を超えると、その後下がらず一気に上がる」と国立感染症研究所感染症免疫センターの菅原民枝研究員は話す。

 同センターのサイトでは、昨日の「インフルエンザ推定患者数」を毎日朝7時に公表している。全国約2割(約1万店)の薬局が出す、1人ひとりの患者の薬の請求書(レセプト)から抗インフルエンザ薬が処方されている患者数を自動算出し、昨日の推定患者数をグラフ化する。

国立感染症研究所は昨日のインフルエンザ患者数を推定
国立感染症研究所は昨日のインフルエンザ患者数を推定

 2009年以前は全国1割の内科・小児科にインフルエンザの患者数を毎週報告してもらい10日後に公表していたものだ。両方のデータを重ね合わせているが、ほぼ一致している。

 推定患者数を基に「来週、患者数はピークに達する」といった定性的な予測ができる。患者数の増え方が鈍化するからだ。しかし「定量的な予測は、異なる流行パターンのウイルスがあるため禁句である」(大日康史主任研究官)と言う。

 それでも、前日までの推定患者数は、定性的な予測をするうえで有力な手掛りである。薬局であれば、どの程度の抗インフルエンザ薬を仕入れればいいか判断できる。各都道府県の保健所や学校も、ワクチン接種や手洗いの励行指示など、大々的に流行する前に対応できる。

 予測分析で成果を出した先進企業は、精度向上への追加投資を惜しまず、収益力を一層高めていく。良質なデータの整備と試行錯誤がものをいう予測分析では、今、投資への迅速な決断を下せるかが優勝劣敗を決める分水嶺となるだろう。

この記事をいいね!する