データが生成される背景を考える際には、目に見えるデータを解釈するだけでなく、データに“潜む”数値を抽出して解釈する方法もある。今回は、家計調査のデータを利用して、「潜在変数」について説明する。

目に見えるデータばかりでなく、目に見えないデータで解釈することもデータ分析では重要だ(写真/Shutterstock)
目に見えるデータばかりでなく、目に見えないデータで解釈することもデータ分析では重要だ(写真/Shutterstock)

 データ分析で解釈の対象としやすいのは、目に見える分かりやすい直接観測されたデータである。観測されたデータ同士の関係は回帰式を利用して考えることがある。例えば、家計の支出(被説明変数)をy、所得(説明変数)をxとすると、次のような関数を作れる(i)

 一方、「顧客の所得データを得ることは難しいが、支出には地域環境や県民性が影響していないか」など、一定の制約条件下で支出を構成する変数を考えることもあるだろう。

 こういった問題へのアプローチの一つに、「潜在変数」を考えることがある。潜在変数とは、観測データに影響を与えるが、実は観測されない変数。例えば、「国語」「数学」「英語」「理科」「社会」のそれぞれのテストの点数に影響を与えるものとして文系能力と理系能力があるとされる。これらが潜在変数だ。

 潜在変数の測定は難しいため、データから取り出す方法が様々な場面で利用されている。

 今回は、総務省統計局の「2018年の市区町村別の家計調査における2人以上の世帯の各消費支出」を使って、支出の潜在変数を考えてみよう。このデータでの市区町村数は、167である(ii)

消費支出における潜在変数を考えてみる

 まず、次の図表は各変数のヒストグラムおよび要約統計量である。

各支出のヒストグラム
各支出のヒストグラム
各支出の要約統計量
各支出の要約統計量