Ch.02

K-최근접 이웃 (KNN): 유유상종, 끼리끼리 모이기

類は友を呼ぶ — KNNは「最も近いK個の仲間」を探し、その人たちが何であるかで新しいデータの答えを決めます。特別な学習式はなく、 距離 を測るだけでよい、直感的な最初の分類アルゴリズムです。

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

① 学習データ — 特徴空間の点（ラベル1または2）

点線の円: 距離の順。K=3近傍(紫)のラベル: 1, 2, 2 → 多数決で 2

K近傍法 (KNN): 類は友を呼ぶ

KNNとは — 新しく入ってきたデータ（点）について、 すでに正解ラベルが付いたデータ のうち 最も近いK個 を選び、そのK個の 多数決 で新データのラベルを決める方法です。例：周り5件のうち4件が「スパム」なら、新しいメールもスパムと分類します。

d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i}(x_i - y_i)^2}

Kは自分で決める値（ハイパーパラメータ） — K=1なら最も近い1件と同じ判定、Kを大きくすると多くの近傍の投票で安定しますが境界が鈍くなることがあります。同点を避けるため 奇数 にすることが多いです。

学習段階がありません（Lazy Learning） — KNNはデータを一括で要約した式を作るのではなく、予測のたびに保存したデータとの距離を計算します。そのため モデルを訓練する時間 はほとんどかかりませんが、予測時の 計算量 は多くなることがあります。

解釈がしやすい — 「このメールがスパムなのは、似た5件のうち4件がスパムだったから」のように、 なぜその予測になったか を近傍を見せて説明できるため、説明可能AIでもよく使われます。

他のアルゴリズムの基準線（Baseline） として使います — 深層学習や複雑なモデルの前に、まずKNNで精度を測れば「データがどれだけ分類可能か」を把握できます。

分類（Classification） — 近傍K個の クラス（ラベル） の多数決で新サンプルのクラスを決めます。画像分類、スパム検出、疾患リスク区分などに使われます。

回帰（Regression） — 連続値を予測するときは、近いK個の近傍の 平均 を予測値にします。例：周辺5戸のマンション価格の平均で自宅の相場を推定。

距離の尺度 — 特徴のスケールが違うと距離が一方の特徴に引っ張られます。 正規化 や 標準化 で各特徴を似た範囲に揃えてから距離を測るのがよいです。

KNNは 新データが来たら 保存データのうち 最も近いK個 を選び、 分類 のときはそのK個のラベルの 多数決 、 回帰 のときはK個の値の 平均 を予測値にします。別途学習式を覚えず距離だけ計算すればよいので直感的ですが、特徴のスケールが違うと一方が距離を支配するため、 正規化(Scaling) でスケールを揃えてから距離を測ることが重要です。

\mathbf{x}

項目	説明
入力	新データの特徴ベクトル $\mathbf{x}$
保存データ	(特徴、ラベル) の組 $(\mathbf{x}_i, y_i)$
1	$\mathbf{x}$ と各 $\mathbf{x}_i$ との距離 $d(\mathbf{x}, \mathbf{x}_i)$ を計算
2	距離が小さい順にK個を選択
3（分類）	K個のラベルの多数決で予測 $\hat{y}$ を決定
3（回帰）	K個の $y_i$ の平均を予測 $\hat{y}$ として使用