
データ分析のワナ
-
- 第10回
- 2019.08.28
データサイエンティストが大切にしたい「たった2つのこと」 本連載は今回が最終回である。これまでの連載を振り返りつつ、データ分析に必要なことをまとめてみたい。データ分析を楽にする方法はあるかもしれないが、分析力を高めるには分析の方向性について意識的な使い分けと、基礎力が必要である。 -
- 第9回
- 2019.08.01
シカゴ市警察のデータ分析マン、彼はいかにその座に着いたか 第一線のデータサイエンティストは、普段分析についてどういう点に留意しているのでしょうか。また、スキルを磨いて成長していくためにどんなことをしているのでしょうか。今回は、米シカゴ市警察で第一線のデータサイエンティストとして活躍している鈴木崇之氏にインタビューを行い、そのヒントを探ってみました。 -
- 第8回
- 2019.07.17
目に見えない“お宝”を探せ ライバルの先行くデータ分析必勝法 データが生成される背景を考える際には、目に見えるデータを解釈するだけでなく、データに“潜む”数値を抽出して解釈する方法もある。今回は、家計調査のデータを利用して、「潜在変数」について説明する。 -
- 第7回
- 2019.07.03
偶然か必然か 統計学に潜む「セレンディピティ」のワナ 要約統計量を解釈する際に、「最大値」や「最小値」を気にしているだろうか。実は両者を使うと、新たな分析の視点を作りやすい。一定の区間や空間、あるいは実験や観察ごとに集めて分析すれば、モデルも構築できるからだ。今回は、最大値を使った分析を試みる。 -
- 第6回
- 2019.06.19
5分で身につく「モンテカルロ法」 データ分析最強の道具を得よ エリア分割について、今回さらに掘り下げて見ていく。この手法は、実際には集計結果にどのような影響があるのだろうか。規模や形状の影響を想像できなければ、独自の視点を考えることは難しい。可変単位地区問題への対応と独自視点を構築するために、今回はモンテカルロ法による地区分割の実験を行い、その結果を紹介する。 -
- 第5回
- 2019.06.05
地図データ分析でお困り? だったら町字以外の区分にチャレンジ 前回紹介した「可変単位地区問題」は、簡単な地理空間データの分析において必ず検討すべき問題である。しかし見方を変えれば、地区の分割は分析者の個性や独創性を発揮しやすい部分でもある。またエリア分割の方法をいくつか知っていれば、データやその分析結果を多面的に評価もできる。今回は地区分割の方法を紹介する。 -
- 第4回
- 2019.05.22
新宿の地価は本当に高いのか 「単位」と「範囲」のワナ 近年注目されている地理空間データでは、地域の区分が分析や解釈に影響を及ぼすことが知られている。これは「可変地理単位地区問題」と呼ばれる。今回はこの問題がどのようなものか、2019年の新宿区の地価公示データを用いて説明する。 -
- 第3回
- 2019.05.08
応用力倍増 「統計モデル」の柔軟な使い方 前回は、時系列データは元のデータが同じであっても、集計単位が異なるだけで、別のデータとして考えられる視点を説明した。しかし、データ分析における現実的な課題として、必要な粒度のデータが得られないことがある。今回は、このような課題への対処を説明する。 -
- 第2回
- 2019.04.17
計算方法次第でデータの印象は変わる、分析の落とし穴 データを解釈するとき、集計単位や計算処理の方法をどれくらい気にしているだろうか。例えば時系列データは、折れ線グラフなどで可視化し傾向を把握するが、集計単位や計算処理の違いで、全く別のデータとして捉えられる場合がある。 -
- 第1回
- 2019.04.03
データ分析しても結果は知っていることばかり…「客観性のワナ」 データ分析は客観的と言われるが本当だろうか。本来、分析や解釈は主観的であってもおかしなことではない。連載「データ分析のワナ」の1回目は、データ分析は分析者の視点の構築が重要であることを説明する。