
前回の「χ2(カイ二乗)検定」の講義では「期待度数」の2行2列のクロス集計表を完成させた。今回はχ2の統計検定量「χ2値」を計算し、バナー広告のABテストにおいてクリックや購入との関係を求め、法政大学経営学部の西川英彦教授が“超初心者レベルの講義”で検証のゴールへと導く。
期待度数から算出するχ2の検定統計量
――ビデオカメラの2種類のバナー広告について、「クリックのABテスト」「購入のABテスト」それぞれクロス集計表に「期待度数」を入れました。この基準となる期待度数から、実際の調査結果がどれだけ離れているのか、その度合いを調べることで、
(5)「p値」を調べるのに必要な「検定統計量」を決められた計算式で求める
という、この「検定統計量」を計算するのですね。
西川英彦教授(以下、西川) そうです。ちなみに実際の調査結果のことを、調査によって観測された数値なので「観測度数」と呼びます。ここで「クリック」と「購入」のABテストの期待度数と観測度数の表を見比べてみましょう。
西川 さて、この期待度数と観測度数がどれだけ離れているのか、その度合いをどんな方法で調べればいいと思いますか。
――例えば、それぞれ同じ位置にあるセルの「観測度数-期待度数」という数値の差を出して、その4つの合計を計算すれば、期待度数と観測度数の離れ具合が分かるんじゃないですか。
西川 では「クリックのABテスト」で計算してみてください。
――はい、単なる引き算ですから簡単です。
(510-500)+(500-490)+(490-500)+(510-500)=0
あれ、期待度数と観測度数の差の合計は「0(ゼロ)」になっちゃった。
西川 「購入のABテスト」で計算しても、同じように「0」になります。正の値と負の値が打ち消し合ってしまいますからね。では、どうすればいいでしょうか。
――どうすればって言われても……。
西川 「標準偏差」の講義で、似たような場面に遭遇したことを覚えていませんか。
――ありました。あのときは「平均のずれ」である「偏差」を合計しても、プラス分とマイナス分が打ち消し合って「0」になってしまいました。だから……そうだ、「偏差」を2乗して「分散」を求めたんだ。
西川 そうです。今回も正の値と負の値が打ち消し合うのを避けるため、それぞれを2乗すればいいのです。
――なるほど。「クリックのABテスト」で計算してみます。
(510-500)2+(500-490)2+(490-500)2+(510-500)2=100+100+100+100=400
今度は期待度数と観測度数の離れ具合が「0」になりませんでした。
西川 「購入のABテスト」でも同じように計算できます。ただし、これだけだと困ったことになります。
――困ったこと?
西川 この方法だと、観測度数や期待度数、つまり「サンプル数」が大きくなればなるほど、離れ度合いの数値も大きくなる。また「サンプル数」が小さくなればなるほど、離れ度合いの数値も小さくなります。つまり、データごとに異なる水準で検討しなければならなくなるので使い勝手が良くありません。
――そんなこと言われても……。
西川 先ほどの「標準偏差」の「分散」の場合も、似たような話がありませんでしたか。
――そう言えば、「分散」を2乗した際も、単位をそろえるために分散の値の平方根(√=ルート)を求めました。
西川 そう。今回は平方根(√=ルート)ではなく、「期待度数」で割ることによって、サンプル数の大小の違いに大きな影響を受けない水準として検討できるようにします。それをセルごとに計算してすべて足せば、「期待度数から観測度数がどれだけ離れているのか」の度合いを調べる検定統計量が計算できるのです。
このχ2検定に使う検定統計量を「χ2値」と言います。χ2値の計算式は、次のようになります。
――観測度数と期待度数のずれの度合いを調べるため、「(観測度数-期待度数)の2乗」を使って計算するから「χ2値」というネーミングなのですね。
西川 そのように言われています。それが講義の冒頭で「χ」には統計的に大した意味はありませんが、「2乗」には意味がありますと言った理由です。
この計算式で計算すると、「クリックのABテスト」と「購入のABテスト」のχ2値は次のようになります。
――「クリックのABテスト」は「0.8」、「購入のABテスト」は「6.27」になりました。
西川 この方法でχ2値を計算すると、期待度数と観測度数の差が大きければχ2値も大きくなり、差が小さければχ2値も小さくなります。
――なるほど、こうやってχ2値を計算すれば、帰無仮説が正しいとする状況の期待度数と実際の観測度数がどれくらい離れているのか、検討できるわけですね。
西川 では、検定統計量の「χ2値」が分かりましたので、次は、
(6)算出された検定統計量の従う分布により、帰無仮説の状況が発生する確率「p値」を調べる
このプロセスに移りましょう。
このコンテンツ・機能は有料会員限定です。
- ①2000以上の先進事例を探せるデータベース
- ②未来の出来事を把握し消費を予測「未来消費カレンダー」
- ③日経トレンディ、日経デザイン最新号もデジタルで読める
- ④スキルアップに役立つ最新動画セミナー