日経クロストレンドは、商品の販売金額の増減が、広告出稿や消費者の興味関心など何に関連しているかを探るビッグデータ分析の実証実験に取り組んだ。分析途上ながら、例えば日本コカ・コーラの「綾鷹」では自社サイトの利用者数との関連性があったなどの傾向を把握した。企業がデータ分析を進める上での課題も明確となった。

 「広告費の半分が金の無駄使いに終わっている事は分かっている。分からないのはどっちの半分が無駄なのかだ」

 この言葉は、20世紀の初頭に米国で百貨店王とも呼ばれたジョン・ワナメーカーが語ったとされる。それから100年以上たった今も、マーケターは同様の課題に直面している。

 創刊に向けてビッグデータ分析プロジェクトを立ち上げ、データ提供で協力を得た企業、データ分析企業とともに実証実験に取り組んだ。

 商品ブランドの広告出稿、消費者からの興味関心の変化、新製品の発売やキャンペーン、天候といった要因が、POS(販売時点情報管理)販売金額の増減にどう関連しているかを、高度な統計手法を用いて分析した。

最初の壁はデータの前処理

 実証実験は2017年8月に開始。まずはデータ提供企業に実験への協力を求めたところ、ありがたいことに各社が快く協力をしてくれた。提供を受けたデータは原則、2015年7月~2017年6月の日本茶・麦茶分野の商品ブランドに関する日次データだ。一部企業からはチョコレート分野のデータ提供も受けている。

利用データ
[POSデータ]
  • POSデータ:大日本印刷「i-code化ID-POSデータ」*1
  • POSデータ:日本経済新聞社のPOS情報サービス*2
 *1 POSデータの収集はアイディーズ、日本茶・麦茶データを利用
 *2 チョコレートのデータを利用

[広告出稿]
  • テレビCM放映:エム・データ「TV番組・TV-CM放映実績データ(TVメタデータ)」
  • ネット広告出稿:ビデオリサーチインタラクティブ「Web Ads Report Advance」
[消費者の興味関心]
  • サイト利用:ヴァリューズ「VALUES eMark+」
  • Twitter投稿:NTTデータ「Twitterデータ」
  • ECサイト販売:アドウェイズ「Nint」
[その他]
  • 新製品発売とキャンペーン:独自作成
  • カレンダー:独自作成
  • 気象:気象庁のデータを収集

 データが集まれば、すぐ分析に取りかかる──ことはまずない。専門誌「日経ビッグデータ」(4月より日経クロストレンドへ統合)の取材の中で、データ分析担当者から様々な声を聞いてきた。データクレンジングと呼ばれる前処理が、データ分析プロジェクトの作業の大半を占めると言われる。誤記の修正や表記ゆれの統一など基本的なところから、複数のデータを組み合わせることによって不足している情報を補完することなどを指す。

 「クレンジングとデータの基盤作りが、分析の成功に半分以上は関わると考えている」(リクルートジョブズIT戦略室デジタルマーケティング部の板澤一樹部長=日経ビッグデータ2015年4月9日付記事、肩書きは当時)

 「データなんてそこにあるじゃないかと言われてしまうかもしれないが、そのまま解析に足る品質のデータがすでにそこにあるということ自体が実際には珍しい」(ヤフー チーフストラテジーオフィサー 安宅 和人氏=日経ビッグデータ2014年9月24日付の寄稿記事、肩書きは当時)

 本プロジェクトでもその壁に当たった。提供を受けたデータは各社が販売しており、そのまま分析できる品質だが、我々が本分析の価値の1つとして考えたのが、「オンラインとオフラインの施策や反応を統合して分析し、プロモーション効果の競合比較も可能にする」こと。複数のデータを同じ土俵に乗せて分析するには、加工処理が必要になった。

ブランドは「伊右衛門」か「伊右衛門特茶」か

 例えば大日本印刷提供のPOSデータであれば、商品名は「サントリー伊右衛門贅沢冷茶ペット2L×6」や「サントリー伊右衛門特茶手売りペット500ml」のようにメーカー、商品ブランド、提供形態、容量、個数などをつなげた形で記録されている。一方でエム・データのテレビCMでは、「会社名=サントリー」「商品名=伊右衛門特茶」のようにテレビCMごとの企業やブランド名などが記載されている。「伊右衛門」の販売額とCM放送秒数と突き合わせて分析するためには、POSの商品名データをメーカー、ブランドといった属性単位に分解する必要がある。

 当初はデータ分析業務を担当したDATUM STUDIO(東京都新宿区)とともに、自然言語処理を用いて機械的に分解することを試みた。しかし容易ではなかった。途中からは商品ブランドの専用辞書を作成し、手作業も交えながらできるだけ効率的に分解することを目指した。そこで新たな壁となったのは、ブランドの定義だ。

 例えば「伊藤園お~いお茶抹茶入り玄米茶」はどこまでがブランドとすればよいのか、機械的な判断は難しい。企業のブランドサイトや商品の価格帯などを参考にしながら、プロモーションを仕掛ける担当者やブランドマネジャーの考え方をくみ取る必要がある。粒度が異なる様々なデータを用いることを考慮し、一番大きな括りである「お~いお茶」の単位でデータ分析をすることに決めた。後ほど分かるが、チョコレートのブランドはもっと複雑だ。

 こうしたブランド定義の議論やそれに基づく前処理が一段落したころには、実証実験は折り返し地点の10月中旬を迎えた……。

2400超もの「特徴量」を抽出

 そしていよいよPOS販売額増減の要因分析に入る。統計分析では、「最大化/最小化できたらうれしい値」(統計家 西内啓氏=日経ビッグデータ2014年3月3日付の寄稿記事、肩書きは当時)のことを「目的変数」とする。ちなみに西内氏は、「真に目指すべきゴールがどれだけ達成できたかという指標」であることを重視し「アウトカム(成果指標)」と呼んでいる。

 そして「解析単位ごとのアウトカムを左右し得る要因のことを説明変数と呼ぶ」(同)。

 今回の実証実験では、商品ブランドごとのPOSの販売金額の増減が目的変数になる。POSデータの収集先が食品スーパー中心で、毎週末に売り上げが増える傾向にあることを考慮し、「前日比」ではなく「前週比」の増減とした。

 説明変数には、商品ブランド別にテレビCMの放送内容や放送時間帯、ネット広告出稿、Webサイトの利用、Twitterの投稿数、ECサイトの販売数、新製品発売、土日祝日のカレンダーなどのデータから抽出した2400超もの「特徴量」を設定した。

 例えばネット広告の出稿データひとつとっても、どのサイトにどれくらいのサイズで出したかなどの情報が含まれており、多数の特徴量に分けられる。

 分析するデータを展開すると、各ブランドで2年分の日次データとして約730行、特徴量で2400超の列になる。

 分析手法は、「スパース推定の分野で発展してきたノルム・正則化の要素を加えた統計モデリング手法を採用した」(DATUM STUDIOデータ事業部の鈴木彬データサイエンティスト)。

 一般的な重回帰分析は、説明変数間の相関が高いと「多重共線性」という問題を起こしてしまい、使用に堪えない。多重共線性とは説明変数内に相関の高い変数が存在する場合、結果の推定が不安定になってしまう問題・現象である。

 「2400超という多種多様な特徴量を用いても、その変数間の影響も考慮して適切に変数の効果を評価可能」(鈴木氏)な点が本手法採用の理由だ。

綾鷹にデジタル施策との関連性を発見

 分析結果の一例を紹介しよう。下のグラフは日本コカ・コーラの分析結果だ。販売金額の増減との関連性を「オッズ比」で表現した。ちょうど1だと増減との関係がなく、1より大きければ増加と、1未満であれば減少と関連したことを意味する。下記のグラフでは、綾鷹で販売金額の上下と関連があった266の特徴量のうち主な上位の要因を表示した。

日本コカ・コーラの「綾鷹」の販売増(前週比)に関連した主な要因
日本コカ・コーラの「綾鷹」の販売増(前週比)に関連した主な要因

 オッズ比が最も高くなったのは「CM情報:放送時間:15時」(エム・データ提供TVメタデータより)だった。単純に説明すると、15時台にテレビCMを放送した日は、販売額が前週比で伸びる傾向にあったということ。実際は、CM視聴の購買行動への喚起効果が当日に限らないことを考慮して、7日後までの販売金額増を反映している。

 ただし、この結果の解釈は難しい面もある。15時台のCM放送が販売増に結びついたのではなく、同時期に別の要因があり、それが販売額の増加に結びついたものの、分析対象のデータになっていない可能性があること。また、15時台のテレビCMが効果的だとしても、その時間帯だけ買える商習慣にはなっておらず、マーケティング施策の打ち手の改善には結びつけづらい面もある。

 その一方で、貴重な示唆も得られる。例えば4位の「webサイトアクセス:サイトカテゴリ;企業・政府・団体-uu」だ。データを提供してくれたヴァリューズの後藤賢治取締役副社長は、「これは過去に調べたことがあり、(グラフの上から4番目にある)企業・政府・団体はコカ・コーラが運営する『コカ・コーラパーク』(2016年12月にサービス終了)だった」と語る。つまり、コカ・コーラパークへのアクセス(uu)が増えたときは、販売額が伸びる傾向にあったということ。他のブランドとは明らかに違う傾向が出ており、ブランドの特性の比較に使えるだろう。

死蔵されるデータから知見を

 マーケティングに活用できるデータは増える一方だが、企業のマーケターや調査担当者は大量のデータを見る時間がない。購入しても死蔵されるだけの例は少なくない。本分析は大量のデータに埋もれた知見を見いだし、眠れるデータの価値を高める可能性がある。

 本実証実験では、こうした販売額の増減要因を基にした販売額予測にも取り組んだ。また、チョコレート分野の商品でもデータ前処理と一部データを用いた分析を実施した。先に述べたように、日本茶・麦茶以上にブランド定義が難しい面もあることが分かった。

 今回は統計分析手法の技術的な検証が中心となったが、今後は、マーケターの打ち手改善に結びつける特徴量を生みだし、分析結果に反映することが重要になる。また、2年間トータルではなく、四半期単位の要因分析などにもトライしたい。日経クロストレンドで発信する記事づくりでもこうした知見を生かしていく考えだ。