大家的AI
机器学习AI论文

学习

  • AI论文
  • 理论·数学基础
    • CPAL2026
      • Kernel von Mises Formula of the Influence Function
  • 模型优化·轻量化
  • 核心架构·算法
    • CPAL2026
      • AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • 预测·表格数据
  • AutoML·ML 流水线
    • ICML 2025
      • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
  • 视觉·多模态
  • NLP·大模型
    • CPAL2026
      • The Curse of Depth in Large Language Models
  • 可信·可解释
  • 数据为中心·特征
  • 边缘·网页·服务
  • 领域应用
🏅我的成就
学习/AI论文/AutoML·ML 流水线/ICML 2025/AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

ICML 2025

AutoML-Agent不仅是“把AutoML做得更容易”,而是把数据检索、预处理、模型设计、HPO、代码生成到部署这一整条链路 端到端 自动化。本文把论文的核心数学结构(输入→规划→分解→执行→验证)逐式拆开讲清楚。
PDF打开原文 PDF↗
[摘要与引言] 三行总结 + 问题提出
三行总结:
- 致命问题: 许多 AutoML 工具“功能很多”,但配置门槛高;没有经验就很难启动。
- 传统瓶颈: LLM 辅助往往只覆盖流程的一部分,或只生成一次计划就结束,探索效率不高。
- 核心解决: AutoML-Agent 用多角色协作的多智能体架构,结合 RAP(检索增强规划) 生成更好的候选计划,并通过 多阶段验证 确保最终产出可部署代码。
类比:
- 传统 AutoML 像“材料有了,但做饭顺序与火候要你自己调”的密植套餐。
- 只帮你读配方的 LLM,就像“偶尔提醒你步骤”的半自动设备。
- AutoML-Agent 是酒店式服务:厨房分工明确,你只说菜单,它就把食材获取→烹饪→端上桌(部署)完整做完。
接下来把这条“全流程自动化”翻译成可阅读的数学步骤。
[背景知识] 必须掌握的基础概念
为了阅读本节数式,请认真把握这 5 件事。
- Full-Pipeline AutoML(全流程 AutoML)
- 定义:不是只挑模型,而是把数据检索/选择、预处理、模型设计、HPO、代码生成与部署 全部串起来 自动化。
- Multi-Agent System(多智能体协作)
- 定义:把工作按角色拆开,让“管理者/分析者/执行者”等专职代理协作并交换中间结果。
- Retrieval-Augmented Planning(RAP,检索增强规划)
- 定义:规划时引入外部检索知识(论文/代码/竞赛示例),而不是只靠模型记忆。
- Plan Decomposition & Parallelizable(计划分解与并行)
- 定义:把一个大计划拆成可并行的小任务,让依赖尽量减少。
- Multi-Stage Verification(多阶段验证)
- 定义:不仅“看起来对”,还要逐阶段确认:代码能否运行、性能是否达标、是否能部署。
有了这些,后面的公式就会像地图一样清楚。
[提出方法] 核心提案与数式完全拆解
AutoML-Agent用“输入→规划→分解→执行→最终实现”的形式被数学化描述。
核心定式化(论文的数学叙事):
- 给定用户指令 III,先通过 Prompt Parsing 得到标准表示 RRR。
- 使用 RAP 生成候选计划集合 PPP。
- 对每个候选计划 pip_ipi​,分解并执行数据与模型步骤,得到结果 OiO_iOi​。
- 选择最优 O∗O^{*}O∗,再把它转成可部署系统 M∗\mathcal{M}^{*}M∗。

(1) Prompt Parsing
R=Ap(I)R = \mathcal{A}_{p}(I)R=Ap​(I)
- 直觉:III 是自然语言,难直接执行;Ap\mathcal{A}_pAp​ 把它整理成「可被工具使用的请求结构」。
- 式中符号: III 为用户自然语言任务指令;RRR 为解析后的标准化请求;Ap\mathcal{A}_pAp​(Prompt Agent)完成 I→RI \to RI→R。
(2) RAP + 候选计划集合
P={p1,…,pP}=Amgr(RAP(R))P = \{p_{1}, \dots, p_{P}\} = \mathcal{A}_{mgr}(RAP(R))P={p1​,…,pP​}=Amgr​(RAP(R))
- 直觉:Amgr\mathcal{A}_{mgr}Amgr​ 借助 RAP 引入检索到的外部提示,再给出多条候选执行计划。
- 式中符号: PPP 为候选计划集合 {p1,…,pP}\{p_1,\dots,p_P\}{p1​,…,pP​};pip_ipi​ 为第 iii 条计划;RAP(R)RAP(R)RAP(R) 用语义检索等增强 RRR 上的规划;Amgr\mathcal{A}_{mgr}Amgr​(Manager Agent)生成这些候选。
(3) 计划分解与执行
- 数据智能体:
sid=PD(R,Ad,pi)s_{i}^{d} = PD(R, \mathcal{A}_{d}, p_{i})sid​=PD(R,Ad​,pi​)
Oid=Ad(sid)O_{i}^{d} = \mathcal{A}_{d}(s_{i}^{d})Oid​=Ad​(sid​)
- 模型智能体:
sim=PD(R,Am,pi,Oid)s_{i}^{m} = PD(R, \mathcal{A}_{m}, p_{i}, O_{i}^{d})sim​=PD(R,Am​,pi​,Oid​)
Oim=Am(sim)O_{i}^{m} = \mathcal{A}_{m}(s_{i}^{m})Oim​=Am​(sim​)
- 直觉:sss 概括「下一步要做什么」的状态;OOO 是智能体的产出。大计划被拆成数据侧与模型侧,便于并行推进。
- 式中符号: PD(⋅)PD(\cdot)PD(⋅) 为计划分解(把大计划拆成状态 sss 与可执行子任务);Ad\mathcal{A}_dAd​、Am\mathcal{A}_mAm​ 分别为 Data / Model 智能体;sids_i^dsid​, sims_i^msim​ 与 OidO_i^dOid​, OimO_i^mOim​ 为数据/模型部分的状态与输出(预处理结果、模型与 HPO 建议等)。
(4) 最终实现
M∗=Ao(I∗)\mathcal{M}^{*} = \mathcal{A}_{o}(I^{*})M∗=Ao​(I∗)
- 直觉:在候选中选出最优执行结果 O∗O^{*}O∗ 后,由 Ao\mathcal{A}_oAo​ 生成可部署的代码/系统。
- 式中符号: M∗\mathcal{M}^{*}M∗ 为最终可部署系统;O∗O^{*}O∗ 为被选中的最优结果;I∗I^{*}I∗ 为用于最终实现的输入/配置(通常由 O∗O^{*}O∗ 映射而来);Ao\mathcal{A}_oAo​(Operation Agent)负责落地为代码。

(5) 评估指标:Comprehensive Score (CS)
CS=0.5×SR+0.5×NPSCS = 0.5 \times SR + 0.5 \times NPSCS=0.5×SR+0.5×NPS
NPS=11+sNPS = \frac{1}{1+s}NPS=1+s1​
- 直觉:把「能跑通、能部署」(SRSRSR)与「效果好不好」(NPSNPSNPS)各占一半权重,衡量「真正可用的自动化」。
- 式中符号: CSCSCS 为综合得分;SRSRSR 为成功率;NPSNPSNPS 为归一化性能,由误差 sss(越小越好)按 NPS=1/(1+s)NPS=1/(1+s)NPS=1/(1+s) 计算。
[数式运行模拟] Toy Data Walkthrough
假设你要一个端到端可部署的图像分类系统。
设定:
- III:「找图像分类数据集,做预处理,快速训练,输出可部署代码,并尽量避免运行失败。」
帧1: R=Ap(I)R=\mathcal{A}_p(I)R=Ap​(I)(任务与约束结构化)
帧2: P=Amgr(RAP(R))P=\mathcal{A}_{mgr}(RAP(R))P=Amgr​(RAP(R)) 得到两个候选计划 p1,p2p_1,p_2p1​,p2​
- p1p_1p1​:小数据集优先,轻量模型 + 高效预处理
- p2p_2p2​:先处理类别不平衡,更稳的训练策略
帧3: 数据智能体分别生成 O1d,O2dO_1^d,O_2^dO1d​,O2d​
帧4: 模型智能体分别生成 O1m,O2mO_1^m,O_2^mO1m​,O2m​
帧5: 通过验证选择 O∗O^{*}O∗,生成 M∗=Ao(I∗)\mathcal{M}^{*}=\mathcal{A}_o(I^{*})M∗=Ao​(I∗)
帧6: 计算 CS
- SR=0.9SR=0.9SR=0.9
- 若 s=0.25s=0.25s=0.25,则 NPS=11.25=0.8NPS=\frac{1}{1.25}=0.8NPS=1.251​=0.8
- CS=0.5×0.9+0.5×0.8=0.85CS=0.5\times0.9+0.5\times0.8=0.85CS=0.5×0.9+0.5×0.8=0.85
一句话:RAP引导计划,分解支持并行执行,多阶段验证把结果“关进”部署可用状态。
[实验与结果]
论文用 14 个数据集验证端到端自动化。
  • 模态Image
  • 任务分类
  • 示例数据集Butterfly Image, Shopee-IET
  • 模态Text
  • 任务分类
  • 示例数据集Ecommerce Text, Textual Entailment
  • 模态Tabular
  • 任务分类
  • 示例数据集Banana Quality, Software Defects
  • 模态Tabular
  • 任务回归
  • 示例数据集Crab Age, Crop Price
  • 模态Tabular
  • 任务聚类
  • 示例数据集Smoker Status, Higher Education Students Performance
  • 模态Time Series
  • 任务预测
  • 示例数据集Weather, Electricity
  • 模态Graph
  • 任务节点分类
  • 示例数据集Cora, Citeseer
模态任务示例数据集
Image分类Butterfly Image, Shopee-IET
Text分类Ecommerce Text, Textual Entailment
Tabular分类Banana Quality, Software Defects
Tabular回归Crab Age, Crop Price
Tabular聚类Smoker Status, Higher Education Students Performance
Time Series预测Weather, Electricity
Graph节点分类Cora, Citeseer
追加的定型数据集(用于对比):
- Smoker Status (Binary): 预测某人是否吸烟(二分类基准)。
- Click Prediction Small: 预测广告点击/CTR(二分类数据集)。
- MFeat Factors: 基于多个因子特征构建的定型基准数据,用于评估机器学习效果。
- Wine Quality White: 根据白葡萄酒的化学测量值预测品质分数的回归数据集。
- Colleges: 利用学生/学校相关属性对入学或表现进行分类/预测的定型数据集。
- House Prices: 根据房屋属性特征预测房价的经典回归基准。
主要实验结果(数值):
- 约束下成功率: 平均 87.1%(constraint-aware)。
- 搜索速度: 相比 SELA(MCTS)约 快8倍。
- 时间与成本效率: 从模型开发到部署平均 525秒,成本约 $0.30(GPT-4o 基准)。
因此它不仅在找更好的模型,更是在追求“更可靠、可交付”的自动化产物。
[结论与局限]
最终意义与实践价值(≤3):
1. 全流程理念: 把 AutoML 定义为一整条管线。
2. RAP + 多智能体: 让计划探索从一次生成变成更高效的候选搜索。
3. 先验证再输出: 减少“看起来对但跑不起来”的常见故障。
局限 / 未来工作:
- 模板依赖: 新任务类型可能仍需要更强的骨架/模板。
- 后端LLM依赖: 更强的主力LLM通常带来更好计划与代码。
- 指标敏感: SR/NPS 与验证标准的定义会显著影响评估。
最后,用一张图把全流程编排固定下来。

[图解] 全流程编排看板

单张流程序列图:把用户指令 III 标准化为 RRR,用 RAP 强化规划,数据、模型、代码三个阶段并行处理分解后的任务,仅通过多阶段验证的产物进入部署。

精密控制

全流程控制

AutoML-Agent:RAP + 多智能体 + 多阶段验证

任务指令自然语言标准请求解析与标准化RAP数据模型代码验证上线部署
把需求标准化为 RRR;用RAP生成候选计划;把数据/模型分解后并行执行;最后用验证锁定可部署答案。
AutoML-Agent把自动化定义成端到端系统:RAP加速规划,分解支持并行执行,多阶段验证把可靠性锁死。这样就算数学很长,整篇也能压缩成一条主线:输入标准化 → 候选计划 → 并行执行 → 可部署的最终代码。

관련 AI논문

  • - The Curse of Depth in Large Language Models
  • - AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • - Kernel von Mises Formula of the Influence Function