
マーケターなら知っておきたい統計的手法の基本を解説する本特集。今回は4回にわたる「重回帰分析」の講義の3回目。複数ある独立変数(原因)のうち、どれが、どの程度従属変数(予測結果)に影響を及ぼしているのかについて、法政大学経営学部の西川英彦教授に分かりやすく解説してもらった。
日経クロストレンド有料会員の皆様は本特集の基礎編となる「文系マーケターのための統計入門」も併せてお読みいただけます。ぜひご覧ください。
単回帰より重回帰のほうが精度は高い
――今回は重回帰分析で導き出した回帰モデル(回帰式)を使って、予測結果を算出するところから始めるのでしたね。
西川英彦教授(以下、西川) そうです。いよいよ予測を始めるわけですが、今回もまず「重回帰分析の解説の流れ」をおさらいしておきましょう。この順番は解説を分かりやすくするためのもので、重回帰分析をマスターした後の実際の手順とは異なります。
(1)複数の原因と結果の仮説を立てる
(2)回帰式「y=a1x1+a2x2……+b」を導き出す
(3)母集団でも、各原因を使うのが適切かを検定する
(4)回帰式の精度を確かめる
(5)かぶりの問題を確認する
(6)どの原因が予測結果に利いているのかを調べる
(7)別の原因の影響をコントロールする
――前回の講義「(5)かぶりの問題を確認する」の「多重共線性の問題」はとても難易度の高い内容でしたが、おかげで重回帰分析が優れた統計的手法であることがよく分かりました。
西川 では、新しいドリンク開発の事例について、導き出した回帰モデルを使って売上本数を予測してみましょう。再度示しておきますが、過去販売された20種類のドリンクデータを使い、統計解析ソフト「R(アール)」で重回帰分析した結果は次のようになりました。見方もおさらいしておきましょう。
――英語や数字がたくさん並んでいますが、チェックするポイントが決まっているので、この表についてもだいぶ抵抗がなくなってきました。
西川 偏回帰係数の推定値(Estimate)である味の評価点数、GRP(テレビCMの延べ視聴率)、配荷率(店頭カバー率)は、それぞれ「14.39」「0.01675」「90.98」と算出されました。
さらに各偏回帰係数を個別にt分布を使って検定し、有意かどうかを調べましたね。その結果t値(t value)がそれぞれ「2.482」「2.966」「2.498」となり、p値(Pr(>|t|))は同じく「0.0246」「0.0091」「0.0238」となりました。すべて「5%未満」ですから、偏回帰係数は3つとも統計的に「有意」であることが明らかになりました。切片(Intercept)も「-173.8」と算出され、t値は「-8.334」、p値は「0.000000325」ですので、こちらも有意です。
――回帰モデルの予測精度については、重回帰分析の場合「自由度調整済み決定係数(Adjusted R-squared)」を見ればいいのですよね。
西川 その通り。自由度調整済み決定係数を意味する「Adjusted R-squared」の数字は「0.9186」で「1」に十分近い。さらに回帰モデル全体の妥当性を調べるため、F値(F-statistic、F統計量)の「72.46」を使ってF分布による検定を行った結果、p値が「0.00000000158」となりました。こちらも5%未満ですから、この回帰モデル全体が母集団においても有効であることが確認できました。
さて、これで全部ですか?
――あっ、「95%の信頼区間」だ。すべての偏回帰係数について、95%の信頼区間に「0」が入っていないかも調べるのでしたね。
西川 はい。その結果がこちらです。各偏回帰係数について95%の信頼区間の上限値である97.5%の値と、下限値である2.5%の値の間に「0」がありませんね。つまり、母集団においてもそれぞれの偏回帰係数が有効であることが確認できました。
――これで、必要なすべての条件をクリアしたことが分かりましたから、重回帰分析によって導き出した今回の回帰モデルを、母集団にも当てはめて使って構わないということですね。その結果、このような式になりました。
y(ドリンクの売上本数)=14.4x1(味の評価点数)+0.017x2(GRP)+91.0x3(配荷率)-173.8
西川 そうですね。ところで、新たに開発したドリンクの「味覚テスト」で得られた味の評価点数がいくつだったか覚えていますか。
――単回帰分析の講義で紹介されました。新たに開発したドリンクの評価点数の平均点は「6.4」でした。
西川 はい。さらに今回は「GRP=4000」「配荷率=0.8」で計画しています。各数字を回帰モデルに代入して計算すると、こうなります。
14.4×6.4(味の評価点数の平均点)+0.017×4000(GRP)+91.0×0.8(配荷率)-173.8=59.16(百万)
――おぉ、約6000万本売れるという予測が出ました!
西川 これが重回帰分析によるドリンクの売上本数の予測です。
――あれ? 困ったなぁ。
西川 どうかしましたか。
――だって、独立変数に「味の評価点数」だけを使って単回帰分析したとき、売上本数の予測は確か「約9000万本」でした。重回帰分析との差は約3000万本。こんなに開きがあったら、どちらの予測を信じて生産計画や配送の準備などをすればいいのか……。
このコンテンツ・機能は有料会員限定です。