ディープラーニングに代表される機械学習が、数式が苦手な人でも“ざっくり分かる”短期集中連載講座。第8回は代表的な機械学習アルゴリズムのうち、あらかじめラベリングされていないデータの分類に使われる「k平均法」を解説する。
k 平均法
名前や考え方はk近傍法に似ているが、k近傍法が「教師あり学習で分類問題に使われる」のに対し、k平均法は「教師なし学習でクラスタリングに使われる」という違いがある。k近傍法では、学習データのクラスがあらかじめ分かっているわけだが、k平均法の学習データにはそうしたラベル付けはされていない。では、どのように教師なしでクラスタリングできるのだろうか?
まずは学習データをベクトル空間上にプロットしていく。次に、クラスタの数を適当に決めて(クラスタの数がk)、ランダムにk個の点をプロットする。この点が、各クラスタの初期の「中心」となる(図1の(1))。その後、各学習データを、最も近い中心に紐付ける。これで、学習データがk個のクラスタに分けられることになる(2)。
このコンテンツ・機能は有料会員限定です。
- ①2000以上の先進事例を探せるデータベース
- ②未来の出来事を把握し消費を予測「未来消費カレンダー」
- ③日経トレンディ、日経デザイン最新号もデジタルで読める
- ④スキルアップに役立つ最新動画セミナー