要約統計量を解釈する際に、「最大値」や「最小値」を気にしているだろうか。実は両者を使うと、新たな分析の視点を作りやすい。一定の区間や空間、あるいは実験や観察ごとに集めて分析すれば、モデルも構築できるからだ。今回は、最大値を使った分析を試みる。

データ分析の世界では、「セレンディピティ(偶然現れる幸運)」を“ほとんど意味がない”と切り捨てることが必ずしも正しいとは限らない(写真/Shutterstock)
データ分析の世界では、「セレンディピティ(偶然現れる幸運)」を“ほとんど意味がない”と切り捨てることが必ずしも正しいとは限らない(写真/Shutterstock)

 「セレンディピティ(偶然現れる幸運)」や「事故や災害における想定外の出来事」――。現実世界では、あり得ないと思っていたことがよく起こる。ただ「構えのある心(the prepared mind)」(i)という考え方や、「備えあれば憂いなし」ということわざがあるように、発生確率が極めて低い現象でも、なぜそれが起こるのかを考えれば、様々な示唆を得られる可能性がある。

 あり得ない現象が起こる構造がつかめれば、単なる偶然ではなく必然だとして自ら施策に活用できる。

 データを分析する場合、「平均値」「中央値」「最頻値」などよく起こる値を中心に結果を記述しがちである。最大値や最小値にあまり意味を見出さず、あまり起こらない現象としては無視することもあるだろう。

 極めて起こる確率が低い値としてまず思い浮かぶのは、最小値や最大値である(ii)。通常は一つずつしか値を得られないし、分布の裾野が最小値や最大値で引っ張られて平均値が実態とかけ離れることもある。そのために、あまりにも極端な値は分析対象のデータから外すこともあるだろう(iii)

 ただ必ずしもそれが良いわけではない。最大値や最小値を「極値」として集めて分析してみると、本当にあり得ない値なのか、それとも実は検討すべき起こり得る値なのかを判断できる。例えば、マーケティング担当者が顧客の購買余力に基づく施策を考えている時に、ある日の顧客購入額がその月の最大値だと分かれば、翌日以降のキャンペーン施策を変えられる。要は、分析者の問題設定次第で最大値や最小値の重要度は変わるのである。

 そこで今回は、総務省統計局の家計調査のデータにおける月別最大値を分析してみみたい。次の図と表は2000年1月1日から2017年12月31日までの「日別消費支出(品目分類)」に関する「折れ線グラフ」「ヒストグラム」「要約統計量」である。

日別消費支出(品目分類)の折れ線グラフ
日別消費支出(品目分類)の折れ線グラフ
日別消費支出(品目分類)のヒストグラム
日別消費支出(品目分類)のヒストグラム
日別消費支出(品目分類)の要約統計量(単位:円)
日別消費支出(品目分類)の要約統計量(単位:円)

 このデータの月次の最大値と(iv)平均値を見てみよう。

日別消費支出(品目分類)の月次最大値(オレンジ)と月次平均値(灰色)
日別消費支出(品目分類)の月次最大値(オレンジ)と月次平均値(灰色)

 最大値にも周期性はありそうだが、平均値の動きとは異なっている。そこで、月次の最大値のヒストグラムと要約統計量を考えてみる。

日別消費支出(品目分類)の月次最大値のヒストグラム
日別消費支出(品目分類)の月次最大値のヒストグラム
日別消費支出(品目分類)の月次最大値の要約統計量(単位:円)
日別消費支出(品目分類)の月次最大値の要約統計量(単位:円)

 最大値を集めた場合には、中央値や平均値は通常と同じ解釈ができるかに気を配る必要がある(v)。ただご覧の通り、最大値が1万円程度であれば珍しい値ではないことが分かる。数年に一度程度しか1万5000円を越えないことも結果から分かる。前者の結果は最大値としては想定できる値であり、後者の結果は想定しづらい値といえよう。

最大値を分析することで得られる示唆とは

 次に、月次の最大値の分布は全体のどの部分に位置するかを考えてみよう。次の図は全体のヒストグラムに月次の最大値のヒストグラムを重ねたものだ。なお、点線は月次の最大値の最小値である。

全体のヒストグラム(灰色)における月次の最大値のヒストグラム(オレンジ)
全体のヒストグラム(灰色)における月次の最大値のヒストグラム(オレンジ)
有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>