複数項目の集計値がどれだけばらついているのか、そうならどの程度散らばっているのか、その分布を調べるビジュアル3種を紹介しよう。

 前回までのビジュアルは、平均値の推移を見たり、合計値を比較したり、たくさんあるデータをまとめた集計値を基にして作っていた。今回は、まとめる前のデータ、もしくは複数項目の集計値がどれだけばらついているのか、そうならどの程度散らばっているのか、その分布を調べるビジュアルとして、ヒストグラムと箱ひげ図を扱う。特に、2種類の値でばらつきを見たいときは散布図を使う。複数のビジュアルを組み合わせた応用例も紹介する。

ばらつきを知ることの重要性

 平均・合計など集計値を構成する値がどのようにばらついているのか、確認することは重要なステップだ。ばらつきを知ること自体が目的でない場合でもそれは変わらない。サンプルデータを使って、値の分布を示す「ヒストグラム」を作った。

 ヒストグラムとは、値をある一定の間隔で丸め、各階級(各棒)に含まれる数で棒の長さを表すビジュアルだ。連続的であることを表すために、棒と棒を隣接させよう。

 次の3つのヒストグラムは平均値はすべて同じだが、構成している値の分布は異なる。下の図1のように外れ値を発見できれば、集計から外すという選択ができるので、より適切な値だけを扱える。図3のような分布を想定しているときでも、図2のように異なる分布が混ざり合っているかもしれない。平均値などの集計値を見るだけでなく、ばらつきを知ることから新たな気づきや問題を発見できることは多い。

平均値は同じでも値のばらつきは異なる
平均値は同じでも値のばらつきは異なる
図1には外れ値がある。図2は2つの山で構成されているが、図3の形を想定してしまうとかなり違う印象になる

分布を調べるならヒストグラムと箱ひげ図

 国連による「世界幸福度ランキング(World Happiness Report)2017」のデータを使って、各国のスコアの散らばり具合と日本のポジションを見ていく。

 幸福スコアでヒストグラムを作った。幸福スコアは小数点以下5桁の値を持つが、0.5刻みで丸め、各階級に含まれる国の数で散らばり具合を把握した。横軸はスコアで、高くなるほど幸福度が高い。日本が含まれるのはオレンジの階級だ。国の数が最も多い階級(5.0以上~5.5未満)よりは幸福スコアが高い(5.5以上~6.0未満)。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>