※日経ソフトウエア 2018年11月号の記事を再構成

ディープラーニングに代表される機械学習が、数式が苦手な人でも“ざっくり分かる”短期集中連載講座。第8回は代表的な機械学習アルゴリズムのうち、あらかじめラベリングされていないデータの分類に使われる「k平均法」を解説する。

k 平均法

 名前や考え方はk近傍法に似ているが、k近傍法が「教師あり学習で分類問題に使われる」のに対し、k平均法は「教師なし学習でクラスタリングに使われる」という違いがある。k近傍法では、学習データのクラスがあらかじめ分かっているわけだが、k平均法の学習データにはそうしたラベル付けはされていない。では、どのように教師なしでクラスタリングできるのだろうか?

 まずは学習データをベクトル空間上にプロットしていく。次に、クラスタの数を適当に決めて(クラスタの数がk)、ランダムにk個の点をプロットする。この点が、各クラスタの初期の「中心」となる(図1の(1))。その後、各学習データを、最も近い中心に紐付ける。これで、学習データがk個のクラスタに分けられることになる(2)。

有料会員になると全記事をお読みいただけるのはもちろん
  • ①2000以上の先進事例を探せるデータベース
  • ②未来の出来事を把握し消費を予測「未来消費カレンダー」
  • ③日経トレンディ、日経デザイン最新号もデジタルで読める
  • ④スキルアップに役立つ最新動画セミナー
ほか、使えるサービスが盛りだくさんです。<有料会員の詳細はこちら>