中級機械学習：実データの限界とモデル最適化

基礎機械学習で学んだデータ・特徴量・学習・評価を土台に、現場の乱れた表の扱い方とモデルを整える考え方を紹介します。

チャプター別中級機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。中級機械学習の流れを一覧で確認できます。

Ch01～Ch20で学ぶこと

中級機械学習では 現実データの前処理 と モデル・ハイパーパラメータチューニング を一つの流れにします。スケーリング・エンコーディング・欠損・不均衡の後、SVM・PCA・ブースティング・クラスタリングを学び、パイプラインと Grid・Random・Optuna で性能を安定させます。

Ch.01
データスケーリングと分布変換
Ch.02
カテゴリ変数エンコーディング
Ch.03
欠損値処理と補完法
Ch.04
不均衡データ処理の基礎
Ch.05
高度な交差検証
Ch.06
多クラス評価とROC-AUC
Ch.07
SVM基礎：決定境界とマージン
Ch.08
カーネルトリック：非線形SVM
Ch.09
次元削減1（PCA）
Ch.10
アンサンブル：バギングとペースティング
Ch.11
ブースティング基礎：AdaBoost
Ch.12
勾配ブースティングマシン（GBM）
Ch.13
密度ベースクラスタリング（DBSCAN）
Ch.14
階層的クラスタリングとデンドログラム
Ch.15
ガウス混合モデル（GMM）
Ch.16
異常検知の基礎
Ch.17
パイプライン構築
Ch.18
ハイパーパラメータチューニング1：グリッド・ランダムサーチ
Ch.19
ハイパーパラメータチューニング2：ベイズ最適化（Optuna）
Ch.20
中級機械学習総まとめ

現実データと前処理・チューニング：中級MLが扱うこと

\mathbf{X}

なぜ重要か

データとスケールが性能を左右します — 偏ったデータや一つの特徴だけ桁が大きいと、検証では良く見えても本番で崩れることがあります。KNNやSVMのように距離やマージンに依存するモデルは、スケールがずれると「近さ」の意味が変わります。基礎 KNN で触れた正規化が、中級では日常の習慣になります。 データリークはスコアを盛ります — テストの情報が学習・前処理に混ざると、検証は良く見えて運用後は落ちます。全データでスケーラーを合わせてから交差検証するのも同じ落とし穴です。分割のあと、訓練だけで統計を合わせ、検証・テストにはその基準だけを適用する順序が大切です。 不均衡と評価はセットで見ます — 正解率だけだと「全部正常」と予測しても高く出ることがあります。少数クラスには適合率・再現率・ROC-AUC も必要です。ハイパーパラメータチューニングは、過学習と未学習のあいだで汎化を整える作業でもあります。

どう使うか

実務では順序が信頼度になります — データを眺め、訓練・検証・テストに分け、前処理は訓練だけで基準を合わせ、モデルを学習し、検証を見ながらハイパーパラメータを選び、最後にテストで報告します。この順を守ると、より現実に近い汎化の判断ができます。 このコースの流れ — 前半はスケーリング・エンコーディング・欠損、不均衡・交差検証・多クラス評価。中盤は SVM・PCA・アンサンブル・クラスタ・異常検知。後半はパイプラインとグリッド・ランダム・ベイズ探索です。下のロードマップで各章の題名を先に確認できます。 基礎機械学習につながります — データ・特徴、欠損、交差検証を学んでいれば、中級では同じテーマを現場の表ひとつに当てはめて深めます。目標は公式の羅列ではなく、なぜ手入れが要るか、どこで指標が嘘をつくか、どう実験するかを落ち着いて身につけることです。

現実データと前処理・チューニング：中級MLが扱うこと

現実データは練習用の表とは違います — 基礎で扱う表はきれいなことが多いです。現場では欠損があり、地域や性別などの文字カテゴリが混ざり、所得と年齢のようにスケールの違う数値が並びます。不正検知のように正例がごく少ないこともあります。モデルは結局

\mathbf{X}

と

\mathbf{y}

だけを受け取るので、まず 特徴ベクトル に整える必要があります。

前処理はモデルが読みやすい形に整える段階です — スケーリングで単位をそろえ、エンコーディングで文字を数値にし、補完で空欄を埋めます。クラスが偏っているときはリサンプリングもします。基礎 Ch.00 の「良い特徴を選ぶ」が、現場では繰り返し可能な手順の集まりになる、と捉えてください。

チューニングとパイプラインは実験を安定させます — 学習で変わる値（重み、木の分割など）と、あらかじめ決める値（木の深さ、SVMの

C

など）は別物です。後者を ハイパーパラメータ と呼びます。パイプライン は前処理と学習を一つの流れにまとめ、新しいデータも同じ順で処理します。

中級機械学習：実データの限界とモデル最適化

チャプター別 中級機械学習図

現実データと前処理・チューニング：中級MLが扱うこと

なぜ重要か

どう使うか

中級機械学習：実データの限界とモデル最適化

チャプター別 中級機械学習図

現実データと前処理・チューニング：中級MLが扱うこと

なぜ重要か

どう使うか

チャプター別中級機械学習図

チャプター別中級機械学習図