事業部門で活用される主な分析手法を解説する本特集。今回は「クロス集計」「回帰分析」「クラスタリング分析」「決定木分析」の4手法の活用を取り上げる。

本記事は特集「習得すべき分析手法は5つでいい」(前編)の続きです。

【クロス集計】属性の軸で何段にも絞り込む

データを2つ以上の軸で同時に絞り込んで集計する手法。基本的だが応用範囲が広い。仮説を検証したり、対象グループの顧客像を詳細化したりできる。データ分析に本格的に取りかかる前の要約、各分析手法で処理した後の報告といった場面で使われる。分析ではどの軸をどの範囲に設定するのかがポイントとなる。

 8社中8社が使っている“鉄板”とも言える手法がクロス集計である。日本航空(JAL)の渋谷氏は「約8割のデータ分析はクロス分析を使っているのではないか」と言う。

 JALは新たな顧客層を掘り起こすため、女性だけで旅行をする「女子旅」というグループを見いだした。当初の「女子旅」の顧客像は次のようなものだった。

・20~40代の女性マイレージ会員
・Webで購買する
・過去A年間にB回以上、日本発のJAL国際線に搭乗
・同年代グループでC回以上搭乗

 この条件に基づくマイレージ会員は約1万人存在したという。さらに「年代」「渡航時期」「ウェブページ閲覧内容」「渡航先」といった条件でクロス分析する。これによってどの年代、どの渡航先に女子旅が多いのかといったことが分かってくる。

 そうしたクロス集計を重ね、女子旅の顧客プロファイルがより明確になる。具体的には以下のような条件もデータから見えてきた。

・現地での滞在日数がX日
・Y月の搭乗が多い
・スマートフォンでの閲覧が多い
・特定のページをよく閲覧する
・マイレージの加入歴が比較的短い

【回帰分析】比例関係や実現確率を割り出す

データ間の比例関係を確認する手法。1変数との関係を見るものを単回帰、2つ以上の変数との場合は重回帰と言う。単回帰はy=ax+bといった式で表せる。ロジスティック回帰は確率を予測する。複数の因子を比較して、0~1の値を算出。1に近いほど実現確率が高い。流通のほか医療や金融でも使われ始めた。

 データ分析は最終的に収益に結びつける必要がある。JALは今度はロジスティック回帰分析を使って、既存の顧客から同じような特徴を持つ層を見つけ出した。“らしさ”の確率を算出し特定していったのだ。

 そうした女子旅予備軍とも言うべき層にWebサイトでバナーのレコメンドをするなどの施策を展開。該当しない顧客に比べて、購買額が約10倍も多かったという。

日本航空が「女子旅」を特定する際に活用した分析手法
日本航空が「女子旅」を特定する際に活用した分析手法

顧客に紐づくデータで分類

 リクルートライフスタイルで消費者向けのネットサービス全般を担当しているネットビジネス本部ディベロップメントデザインユニットアーキテクトグループの前田周輝氏は旅行予約サイトのじゃらんnetなどで、顧客への施策を実施するためクラスタリング分析を活用している。アクセスログや顧客の予約履歴などを統合したデータを、非階層型のクラスタリング分析でグループ化する。

 そのうえでクロス集計で見つけていた「カップル」「新規」「リピート」「夫婦」といった属性について「より細かくセグメント化できるかどうか、そもそも意味のある詳細化かどうか」(前田氏)を検討する。

【クラスタリング分析】関係の近い情報をグループ化

クラスター分析ともいい、膨大なデータから関係の近い情報を分類する。流通業などが顧客分析に使うケースが多い。階層型は樹形図の出力となる。近くに分類された項目は関係が強く、分析者側がグループの境界を決める。一方で、非階層型は何グループに分類するのかをあらかじめ指定するという特徴がある。

 クラスタリング分析とクロス集計を繰り返すのと並行して、それぞれのセグメントに対するキャンペーンなどの施策を考える。そして該当する顧客がサイトに来訪した際には、ページ内のコンテンツの内容などで適切なおすすめを行う。こうした取り組みで、じゃらんnetの予約数は今年10月までの1年間で7743万人泊と高水準で推移している。

問題要因を決定木であぶりだす

 村田製作所は積層セラミックコンデンサーなど電子部品の不良率の改善にデータ分析を活用している。不良品率を迅速に引き下げ、新製品の早期投入を実現するのが狙いだ。最新のスマートフォンに搭載されている表面積0.4ミリ×0.2ミリメートルの「0402」と呼ぶ積層セラミックコンデンサーのシェアで首位を走る。

 村田製作所はある部品では30工程で各100項目、合計3000項目ものデータを常時取得している。品質改善に結びつく事象は週に約1個見つけ出させているという。

 生産工程では、「決定木がコア」(村田製作所モノづくり技術統括部モノづくり強化推進部生産革新2課マネージャーの下八重修氏)と位置づけており、良品率に問題があった場合、各種データを決定木分析する。

 例えば、「不良率1%以上」といった条件を設定すると、その条件に合致した要因が次々とブレークダウンされていく。図の例では、「設備1」かつ「材料2か3」かつ「粘度2」の状態で「シート厚1」もしくは「電極厚3」の時に問題が起こっている可能性があることが分かる。

村田製作所が不具合要因を決定木であぶり出す手法の適用例
村田製作所が不具合要因を決定木であぶり出す手法の適用例

 「我々が扱っている要因は、設備1、設備2のように、数値のような連続性がないものがほとんど。これらの要因を個別に把握するため、決定木が適している」(下八重氏)。

 決定木分析の前後はデータをクラスタリング分析したり、ヒストグラム化することで、要約したり絞り込んだりする。この際に表示するタイムスケールを変えることも要因特定の重要なポイントだという。

 結果を検証し、条件を変えて決定木分析を何度も繰り返すのが一般的だ。「数時間で分かるものもあれば、数週間かけるものもある。問題がすぐに発見されないのはしめたもの。今までの知見では説明できない要因を発見できる可能性があるからだ」(宮森誠シニアマネージャー)。

【決定木分析】結果に至る道筋を明らかに

多数のデータを読み込んで、条件によって振り分け構造化する手法である。顧客がある商品Aを購入する目的に対し、年齢が40歳以上かつ年収800万円以上かつクルマを持っている、といった条件がツリー構造で可視化される。条件にあてはまれば目的の行動をとる可能性があり、予測モデルとしても活用される。