みんなのAI
機械学習プレイグラウンド
読み込み中…

学ぶ

中級機械学習:実データの限界とモデル最適化

基礎機械学習で学んだデータ・特徴量・学習・評価を土台に、現場の乱れた表の扱い方とモデルを整える考え方を紹介します。

チャプター別 中級機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。中級機械学習の流れを一覧で確認できます。

Ch01~Ch20で学ぶこと

中級機械学習では 現実データの前処理 と モデル・ハイパーパラメータチューニング を一つの流れにします。スケーリング・エンコーディング・欠損・不均衡の後、SVM・PCA・ブースティング・クラスタリングを学び、パイプラインと Grid・Random・Optuna で性能を安定させます。

  • Ch.01
    データスケーリングと分布変換
  • Ch.02
    カテゴリ変数エンコーディング
  • Ch.03
    欠損値処理と補完法
  • Ch.04
    不均衡データ処理の基礎
  • Ch.05
    高度な交差検証
  • Ch.06
    多クラス評価とROC-AUC
  • Ch.07
    SVM基礎:決定境界とマージン
  • Ch.08
    カーネルトリック:非線形SVM
  • Ch.09
    次元削減1(PCA)
  • Ch.10
    アンサンブル:バギングとペースティング
  • Ch.11
    ブースティング基礎:AdaBoost
  • Ch.12
    勾配ブースティングマシン(GBM)
  • Ch.13
    密度ベースクラスタリング(DBSCAN)
  • Ch.14
    階層的クラスタリングとデンドログラム
  • Ch.15
    ガウス混合モデル(GMM)
  • Ch.16
    異常検知の基礎
  • Ch.17
    パイプライン構築
  • Ch.18
    ハイパーパラメータチューニング1:グリッド・ランダムサーチ
  • Ch.19
    ハイパーパラメータチューニング2:ベイズ最適化(Optuna)
  • Ch.20
    中級機械学習総まとめ

現実データと前処理・チューニング:中級MLが扱うこと

現実データは練習用の表とは違います — 基礎で扱う表はきれいなことが多いです。現場では欠損があり、地域や性別などの文字カテゴリが混ざり、所得と年齢のようにスケールの違う数値が並びます。不正検知のように正例がごく少ないこともあります。モデルは結局 X\mathbf{X}X と y\mathbf{y}y だけを受け取るので、まず 特徴ベクトル に整える必要があります。
前処理はモデルが読みやすい形に整える段階です — スケーリングで単位をそろえ、エンコーディングで文字を数値にし、補完で空欄を埋めます。クラスが偏っているときはリサンプリングもします。基礎 Ch.00 の「良い特徴を選ぶ」が、現場では繰り返し可能な手順の集まりになる、と捉えてください。
チューニングとパイプラインは実験を安定させます — 学習で変わる値(重み、木の分割など)と、あらかじめ決める値(木の深さ、SVMの CCC など)は別物です。後者を ハイパーパラメータ と呼びます。パイプライン は前処理と学習を一つの流れにまとめ、新しいデータも同じ順で処理します。

なぜ重要か

データとスケールが性能を左右します — 偏ったデータや一つの特徴だけ桁が大きいと、検証では良く見えても本番で崩れることがあります。KNNやSVMのように距離やマージンに依存するモデルは、スケールがずれると「近さ」の意味が変わります。基礎 KNN で触れた正規化が、中級では日常の習慣になります。
データリークはスコアを盛ります — テストの情報が学習・前処理に混ざると、検証は良く見えて運用後は落ちます。全データでスケーラーを合わせてから交差検証するのも同じ落とし穴です。分割のあと、訓練だけで統計を合わせ、検証・テストにはその基準だけを適用する順序が大切です。
不均衡と評価はセットで見ます — 正解率だけだと「全部正常」と予測しても高く出ることがあります。少数クラスには適合率・再現率・ROC-AUC も必要です。ハイパーパラメータチューニングは、過学習と未学習のあいだで汎化を整える作業でもあります。

どう使うか

実務では順序が信頼度になります — データを眺め、訓練・検証・テストに分け、前処理は訓練だけで基準を合わせ、モデルを学習し、検証を見ながらハイパーパラメータを選び、最後にテストで報告します。この順を守ると、より現実に近い汎化の判断ができます。
このコースの流れ — 前半はスケーリング・エンコーディング・欠損、不均衡・交差検証・多クラス評価。中盤は SVM・PCA・アンサンブル・クラスタ・異常検知。後半はパイプラインとグリッド・ランダム・ベイズ探索です。下のロードマップで各章の題名を先に確認できます。
基礎機械学習につながります — データ・特徴、欠損、交差検証を学んでいれば、中級では同じテーマを現場の表ひとつに当てはめて深めます。目標は公式の羅列ではなく、なぜ手入れが要るか、どこで指標が嘘をつくか、どう実験するかを落ち着いて身につけることです。