中級機械学習:実データの限界とモデル最適化
基礎機械学習で学んだデータ・特徴量・学習・評価を土台に、現場の乱れた表の扱い方とモデルを整える考え方を紹介します。
チャプター別 中級機械学習図
チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。中級機械学習の流れを一覧で確認できます。
Ch01~Ch20で学ぶこと
中級機械学習では 現実データの前処理 と モデル・ハイパーパラメータチューニング を一つの流れにします。スケーリング・エンコーディング・欠損・不均衡の後、SVM・PCA・ブースティング・クラスタリングを学び、パイプラインと Grid・Random・Optuna で性能を安定させます。
- Ch.01データスケーリングと分布変換
- Ch.02カテゴリ変数エンコーディング
- Ch.03欠損値処理と補完法
- Ch.04不均衡データ処理の基礎
- Ch.05高度な交差検証
- Ch.06多クラス評価とROC-AUC
- Ch.07SVM基礎:決定境界とマージン
- Ch.08カーネルトリック:非線形SVM
- Ch.09次元削減1(PCA)
- Ch.10アンサンブル:バギングとペースティング
- Ch.11ブースティング基礎:AdaBoost
- Ch.12勾配ブースティングマシン(GBM)
- Ch.13密度ベースクラスタリング(DBSCAN)
- Ch.14階層的クラスタリングとデンドログラム
- Ch.15ガウス混合モデル(GMM)
- Ch.16異常検知の基礎
- Ch.17パイプライン構築
- Ch.18ハイパーパラメータチューニング1:グリッド・ランダムサーチ
- Ch.19ハイパーパラメータチューニング2:ベイズ最適化(Optuna)
- Ch.20中級機械学習総まとめ
現実データと前処理・チューニング:中級MLが扱うこと
現実データは練習用の表とは違います — 基礎で扱う表はきれいなことが多いです。現場では欠損があり、地域や性別などの文字カテゴリが混ざり、所得と年齢のようにスケールの違う数値が並びます。不正検知のように正例がごく少ないこともあります。モデルは結局 と だけを受け取るので、まず 特徴ベクトル に整える必要があります。
前処理はモデルが読みやすい形に整える段階です — スケーリングで単位をそろえ、エンコーディングで文字を数値にし、補完で空欄を埋めます。クラスが偏っているときはリサンプリングもします。基礎 Ch.00 の「良い特徴を選ぶ」が、現場では繰り返し可能な手順の集まりになる、と捉えてください。
チューニングとパイプラインは実験を安定させます — 学習で変わる値(重み、木の分割など)と、あらかじめ決める値(木の深さ、SVMの など)は別物です。後者を ハイパーパラメータ と呼びます。パイプライン は前処理と学習を一つの流れにまとめ、新しいデータも同じ順で処理します。
なぜ重要か
データとスケールが性能を左右します — 偏ったデータや一つの特徴だけ桁が大きいと、検証では良く見えても本番で崩れることがあります。KNNやSVMのように距離やマージンに依存するモデルは、スケールがずれると「近さ」の意味が変わります。基礎 KNN で触れた正規化が、中級では日常の習慣になります。
データリークはスコアを盛ります — テストの情報が学習・前処理に混ざると、検証は良く見えて運用後は落ちます。全データでスケーラーを合わせてから交差検証するのも同じ落とし穴です。分割のあと、訓練だけで統計を合わせ、検証・テストにはその基準だけを適用する順序が大切です。
不均衡と評価はセットで見ます — 正解率だけだと「全部正常」と予測しても高く出ることがあります。少数クラスには適合率・再現率・ROC-AUC も必要です。ハイパーパラメータチューニングは、過学習と未学習のあいだで汎化を整える作業でもあります。
どう使うか
実務では順序が信頼度になります — データを眺め、訓練・検証・テストに分け、前処理は訓練だけで基準を合わせ、モデルを学習し、検証を見ながらハイパーパラメータを選び、最後にテストで報告します。この順を守ると、より現実に近い汎化の判断ができます。
このコースの流れ — 前半はスケーリング・エンコーディング・欠損、不均衡・交差検証・多クラス評価。中盤は SVM・PCA・アンサンブル・クラスタ・異常検知。後半はパイプラインとグリッド・ランダム・ベイズ探索です。下のロードマップで各章の題名を先に確認できます。
基礎機械学習につながります — データ・特徴、欠損、交差検証を学んでいれば、中級では同じテーマを現場の表ひとつに当てはめて深めます。目標は公式の羅列ではなく、なぜ手入れが要るか、どこで指標が嘘をつくか、どう実験するかを落ち着いて身につけることです。