みんなのAI
機械学習AI論文

学ぶ

  • AI論文
  • 理論・数学基盤
    • CPAL2026
      • Kernel von Mises Formula of the Influence Function
  • 最適化・効率化
  • アーキテクチャ・アルゴリズム
    • CPAL2026
      • AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • 予測・表形式データ
  • AutoML・MLパイプライン
    • ICML 2025
      • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
  • ビジョン・マルチモーダル
  • NLP・LLM
    • CPAL2026
      • The Curse of Depth in Large Language Models
  • 信頼性・XAI
  • データ中心・特徴設計
  • エッジ・ウェブ
  • ドメイン応用
🏅マイ実績
学ぶ/AI論文/AutoML・MLパイプライン/ICML 2025/AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

ICML 2025

AutoML-Agentは「AutoMLを少し手伝う」ではなく、データ探索から前処理、モデル設計、HPO、コード生成、そしてデプロイまでを フルパイプライン で自動化するマルチエージェントLLMフレームワークです。この記事では入力→計画→分解→実行→検証の流れを、数式ベースでやさしく読み解きます。
PDF原文PDFを開く↗
[要約 & 導入] 3行サマリー + 問題提起
3行要約:
- 致命的な問題: AutoMLは強力ですが、ツールが複雑で専門性がないと始めにくい。
- 従来の限界: LLMベースの支援はパイプラインの一部しか扱えない場合があり、計画生成が単発で探索が非効率。
- 解決策: AutoML-Agentは複数の専門エージェント協業、RAP(検索拡張計画)による候補計画の改善、そしてマルチステージ検証でデプロイ可能なコードに到達します。
たとえ:
- 既存AutoMLは「材料はあるけど、調理順と火加減は自分でやる」ミールキット。
- LLM補助は「レシピを読んでくれることもあるが、最後まで料理してサーブはしない」半自動トースター。
- AutoML-Agentは「役割分担された厨房スタッフ」が協働し、メニュー(要求)を渡せば材料調達から提供(デプロイ)まで一気通貫。
ここから数式の手順へ入ります。
[背景知識] 必要な基礎概念
数式の理解に必要な5つです。
- Full-Pipeline AutoML: データ探索/選定、前処理、モデル設計、HPO、コード生成、デプロイまでの一連。
- Multi-Agent System: 1つのLLMに全部押し込まず役割を分ける設計。
- Retrieval-Augmented Planning(RAP): 外部知識を検索して計画を補強する。
- Plan Decomposition & Parallel: 計画を分解し、依存を最小にして並列実行する。
- Multi-Stage Verification: コードが動くか、性能が良いか、デプロイ可能かを段階的に確認する。
この5つが分かれば、本論文の「数式=地図」が見え始めます。
[提案方法] 核となる提案と数式の完全解体
AutoML-Agentを「入力→計画→分解→実行→最終実装」の数式で理解します。
核となる定式化(この論文の数学的な物語):
- ユーザ指示 III を標準化表現 RRR に変換し、RAPで候補計画集合 PPP を作る。
- 各計画 pip_ipi​ をデータ/モデル段階に分解し、結果 OiO_iOi​ を得る。
- 最良の O∗O^{*}O∗ を選び、デプロイ可能なシステム M∗\mathcal{M}^{*}M∗ に変換する。

(1) プロンプト分解(Prompt Parsing)
R=Ap(I)R = \mathcal{A}_{p}(I)R=Ap​(I)
- 直感:III は自然言語のためそのままでは実行しにくい。Ap\mathcal{A}_pAp​ が「実行しやすい要求の形」に整える。
- この式の記号: III はユーザの自然言語による指示。RRR は標準化された要求(プロンプト解析の出力)。Ap\mathcal{A}_pAp​(Prompt Agent)は I→RI \to RI→R。
(2) RAPによる候補計画生成
P={p1,…,pP}=Amgr(RAP(R))P = \{p_{1}, \dots, p_{P}\} = \mathcal{A}_{mgr}(RAP(R))P={p1​,…,pP​}=Amgr​(RAP(R))
- 直感:Amgr\mathcal{A}_{mgr}Amgr​ が RAP で検索ヒントを取り込み、複数の実行計画候補を出す。
- この式の記号: PPP は候補計画の集合 {p1,…,pP}\{p_1,\dots,p_P\}{p1​,…,pP​}、pip_ipi​ はその iii 番目。RAP(R)RAP(R)RAP(R) は RRR を外部知識で補強する検索拡張計画。Amgr\mathcal{A}_{mgr}Amgr​(Manager Agent)が候補を生成する。
(3) 計画の分解と実行
- データ側:
sid=PD(R,Ad,pi)s_{i}^{d} = PD(R, \mathcal{A}_{d}, p_{i})sid​=PD(R,Ad​,pi​)
Oid=Ad(sid)O_{i}^{d} = \mathcal{A}_{d}(s_{i}^{d})Oid​=Ad​(sid​)
- モデル側:
sim=PD(R,Am,pi,Oid)s_{i}^{m} = PD(R, \mathcal{A}_{m}, p_{i}, O_{i}^{d})sim​=PD(R,Am​,pi​,Oid​)
Oim=Am(sim)O_{i}^{m} = \mathcal{A}_{m}(s_{i}^{m})Oim​=Am​(sim​)
- 直感:sss は「次に何をするか」の状態要約、OOO は各エージェントの成果物。大きな計画をデータ側とモデル側に分けて並列化するイメージ。
- このブロックの記号: PD(⋅)PD(\cdot)PD(⋅) は計画分解(状態 sss と実行単位へ分割)。Ad\mathcal{A}_dAd​ / Am\mathcal{A}_mAm​ は Data / Model Agent。sids_i^dsid​, sims_i^msim​ と OidO_i^dOid​, OimO_i^mOim​ はそれぞれデータ・モデル部分の状態と出力(前処理結果、モデル/HPO 提案など)。
(4) 最終実装
M∗=Ao(I∗)\mathcal{M}^{*} = \mathcal{A}_{o}(I^{*})M∗=Ao​(I∗)
- 直感:候補の中から最良の実行結果 O∗O^{*}O∗ を選び、Ao\mathcal{A}_oAo​ がデプロイ可能なコード・システムに落とし込む。
- この式の記号: M∗\mathcal{M}^{*}M∗ は最終的なデプロイ可能システム。O∗O^{*}O∗ は選ばれた最良結果。I∗I^{*}I∗ は最終実装に使う入力・設定(通常 O∗O^{*}O∗ から写像)。Ao\mathcal{A}_oAo​(Operation Agent)が実装する。

(5) 評価指標:Comprehensive Score(CS)
CS=0.5×SR+0.5×NPSCS = 0.5 \times SR + 0.5 \times NPSCS=0.5×SR+0.5×NPS
NPS=11+sNPS = \frac{1}{1+s}NPS=1+s1​
- 直感:実行・デプロイの成功(SRSRSR)と性能(NPSNPSNPS)を同じ重みで混ぜ、「本当に使える自動化」を測る。
- この式の記号: CSCSCS は総合スコア。SRSRSR は成功率。NPSNPSNPS は正規化性能で、誤差 sss(小さいほど良い)から NPS=1/(1+s)NPS=1/(1+s)NPS=1/(1+s)。
[数式の動作シミュレーション] Toy Data Walkthrough
小さな例で「1フレームずつ」動く感覚を作ります。
状況:
- III: 「画像分類。前処理→高速学習→デプロイ可能なコードを出して。実行失敗は避けたい。」
フレーム1: R=Ap(I)R=\mathcal{A}_p(I)R=Ap​(I)(タスクと制約を構造化)
フレーム2: P=Amgr(RAP(R))P=\mathcal{A}_{mgr}(RAP(R))P=Amgr​(RAP(R)) で P=2P=2P=2 案
- p1p_1p1​: 小規模から効率的前処理+軽量モデル
- p2p_2p2​: クラス不均衡を先に扱うリサンプリング+安定スケジュール
フレーム3: データ側でそれぞれ O1d,O2dO_1^d,O_2^dO1d​,O2d​ を生成
フレーム4: モデル側で O1m,O2mO_1^m,O_2^mO1m​,O2m​(モデル/HPO案)
フレーム5: 検証で O∗O^{*}O∗ を選び、M∗=Ao(I∗)\mathcal{M}^{*}=\mathcal{A}_o(I^{*})M∗=Ao​(I∗) を生成
フレーム6: CS簡易版
- SR=0.9SR=0.9SR=0.9
- s=0.25⇒NPS=11.25=0.8s=0.25 \Rightarrow NPS=\frac{1}{1.25}=0.8s=0.25⇒NPS=1.251​=0.8
- CS=0.5×0.9+0.5×0.8=0.85CS=0.5\times0.9+0.5\times0.8=0.85CS=0.5×0.9+0.5×0.8=0.85
一言:RAPが計画を賢くし、分解が並列実行を可能にし、検証がデプロイへ閉じます。
[実験と結果]
14のデータセットで、モダリティ横断の「フルパイプライン自動化」を評価します。
  • モダリティImage
  • タスク分類
  • 例Butterfly Image, Shopee-IET
  • モダリティText
  • タスク分類
  • 例Ecommerce Text, Textual Entailment
  • モダリティTabular
  • タスク分類
  • 例Banana Quality, Software Defects
  • モダリティTabular
  • タスク回帰
  • 例Crab Age, Crop Price
  • モダリティTabular
  • タスククラスタリング
  • 例Smoker Status, Higher Education Students Performance
  • モダリティTime Series
  • タスク予測
  • 例Weather, Electricity
  • モダリティGraph
  • タスクノード分類
  • 例Cora, Citeseer
モダリティタスク例
Image分類Butterfly Image, Shopee-IET
Text分類Ecommerce Text, Textual Entailment
Tabular分類Banana Quality, Software Defects
Tabular回帰Crab Age, Crop Price
TabularクラスタリングSmoker Status, Higher Education Students Performance
Time Series予測Weather, Electricity
Graphノード分類Cora, Citeseer
追加データセット(比較用、定型データ 6種):
- Smoker Status (Binary): 喫煙の有無を予測する二値分類ベンチマーク。
- Click Prediction Small: 広告クリック/CTRを予測する二値分類データセット。
- MFeat Factors: 複数の因子(feature)に基づく定型ベンチマークで、ML評価に使われます。
- Wine Quality White: ホワイトワインの化学成分から品質スコアを予測する回帰データセット。
- Colleges: 学生・大学関連の指標から入学/成績(成果)を分類・予測する定型データセット。
- House Prices: 物件の特徴量から住宅価格を予測する代表的な回帰ベンチマーク。
主要な実験結果(数値):
- 制約下での成功率: 平均 87.1%(constraint-aware)。
- 探索速度: SELA(MCTS)に比べて 約8倍 速い探索。
- 時間・コスト効率: モデル開発→デプロイまで平均 525秒、費用は約 $0.30(GPT-4o基準)。
つまり、「良いモデル探し」ではなく「良いエンジニアリング成果」を狙う設計です。
[結論と限界]
最終の意義(≤3):
1. フルパイプラインの考え方: AutoMLを一工程ではなく連鎖として定義。
2. RAP+マルチエージェント: 計画探索を単発生成から、導かれた候補探索へ。
3. 検証ファースト: 典型的なLLM失敗(それっぽいのに壊れる)を減らす。
限界 / Future Work:
- テンプレ/骨格依存: 新しいタイプのタスクではベースがさらに必要かもしれない。
- バックボーンLLM依存: 強いLLMほど良い計画と実装を出しやすい。
- 指標の設計に敏感: SR/NPSや検証基準の定義次第で評価が変わる。
最後に、全体のオーケストレーションを一枚の図にまとめます。

[図解] フルパイプラインのオーケストレーションボード

1枚の流れ図に整理します。ユーザ入力 III を標準表現 RRR にし、RAPで計画を補強したうえで、データ・モデル・コードの段階が分解された作業を並列処理し、マルチステージ検証を通過した結果だけがデプロイへ進みます。

精密制御

フルパイプライン制御

AutoML-Agent:RAP + マルチエージェント + マルチステージ検証

作業指示自然言語標準要求解析・標準化RAPデータモデルコード検証デプロイデプロイ
要求を標準化して RRR にし、RAPで候補計画を作り、データ/モデルを分解して並列実行。最後に検証でデプロイ可能な結果だけを確定します。
AutoML-Agentは「自動化」を部品ではなく 全パイプライン として定義します。RAPが計画探索を加速し、分解されたマルチエージェントが並列で動き、マルチステージ検証が信頼性をロックします。数式が長くても、結局は 1 本の流れとして覚えられます:入力標準化 → 候補計画 → 並列実行 → デプロイ可能な最終コード。

관련 AI논문

  • - The Curse of Depth in Large Language Models
  • - AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • - Kernel von Mises Formula of the Influence Function