Ch.08

K-meansクラスタリング：ラベルなしでグループ化

正解ラベルなしでデータだけを見て似たもの同士をまとめる 教師なし学習 の代表アルゴリズムです。Ch01で学んだ「教師なし」が実際にどう動くか、 距離 でK個のグループ（クラスタ）を作るK-meansで、概念\to直感\to数式\to実践の順に学びます。Ch02のKNNで使った距離の式を再利用し、繰り返しでまとまりがはっきりする様子を視覚化とともに習得します。

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

最も近い中心に割り当て、中心を属する点の平均に更新することを繰り返します。

① データ — ラベルのない点が特徴空間に散らばっている

点: データ

y

Kは「いくつのグループに分けるか」 — K-meansでは クラスタ数K を人が事前に決めます。K=2なら2つ、K=3なら3つに分かれます。正解ラベルがないため「どのクラスタが正解か」は分からず、「似たもの同士がまとまった結果」だけが得られます。

J = \sum_{k=1}^K \sum_{i \in C_k} \|\mathbf{x}_i - \boldsymbol{\mu}_k\|^2

J

Ch01教師なし学習の代表例 — K-meansは「ラベルなしで構造・クラスタを見つける」を実際に実装した代表アルゴリズムです。顧客セグメンテーション、文書・画像クラスタリング、異常検知の前処理などで最初に試す手法です。

顧客セグメンテーション — 購買履歴だけがあり顧客タイプのラベルがないとき、K-meansで似た顧客をまとめ、人が各クラスタに意味（VIP・一般・離脱リスクなど）を付けて活用します。

直感的で実装が簡単 — 割り当て（最近傍の中心）と更新（平均）だけの反復なので実装しやすく、2次元で可視化すると「まとまる」過程が確認しやすいです。

クラスタリング — 顧客セグメンテーション、トピック・文書のまとめ、画像の色・領域圧縮、遺伝子発現のグループ化など。

前処理・特徴要約 — クラスタ番号を新特徴として教師ありモデルに入れたり、クラスタ代表だけ残してデータを圧縮したりする用途で使います。

Kの選択 — Kは利用者が決めます。複数のKでSSE・シルエットなどを見て、肘の位置や解釈しやすさで選びます。

K

(x_1,y_1)

d(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{\sum_j (x_j - \mu_j)^2}

項目	説明
距離の2乗	2点 $(x_1,y_1)$ , $(x_2,y_2)$ のユークリッド距離の2乗： $(x_2-x_1)^2+(y_2-y_1)^2$ 。比較だけなら平方根は不要。
割り当て	点と $K$ 個の中心が与えられたとき、各中心までの距離（または距離2乗）を計算し、最も小さい中心の番号（1から）がその点のクラスタ。
中心の更新	クラスタ $k$ に属する点の $x$ 座標の平均、 $y$ 座標の平均が新中心 $(\bar{x}_k, \bar{y}_k)$ 。必要なら四捨五入。
SSE	1クラスタ内で $J = \sum_{i \in C_k} \lVert\mathbf{x}_i - \boldsymbol{\mu}_k\rVert^2$ 。各点と中心の距離2乗の和。