AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

ICML 2025

AutoML-Agent不仅是“把AutoML做得更容易”，而是把数据检索、预处理、模型设计、HPO、代码生成到部署这一整条链路 端到端 自动化。本文把论文的核心数学结构（输入→规划→分解→执行→验证）逐式拆开讲清楚。

[摘要与引言] 三行总结 + 问题提出 三行总结： - 致命问题： 许多 AutoML 工具“功能很多”，但配置门槛高；没有经验就很难启动。 - 传统瓶颈： LLM 辅助往往只覆盖流程的一部分，或只生成一次计划就结束，探索效率不高。 - 核心解决： AutoML-Agent 用多角色协作的多智能体架构，结合 RAP（检索增强规划） 生成更好的候选计划，并通过 多阶段验证 确保最终产出可部署代码。 类比： - 传统 AutoML 像“材料有了，但做饭顺序与火候要你自己调”的密植套餐。 - 只帮你读配方的 LLM，就像“偶尔提醒你步骤”的半自动设备。 - AutoML-Agent 是酒店式服务：厨房分工明确，你只说菜单，它就把食材获取\to烹饪\to端上桌（部署）完整做完。 接下来把这条“全流程自动化”翻译成可阅读的数学步骤。

[背景知识] 必须掌握的基础概念 为了阅读本节数式，请认真把握这 5 件事。 - Full-Pipeline AutoML（全流程 AutoML） - 定义：不是只挑模型，而是把数据检索/选择、预处理、模型设计、HPO、代码生成与部署 全部串起来 自动化。 - Multi-Agent System（多智能体协作） - 定义：把工作按角色拆开，让“管理者/分析者/执行者”等专职代理协作并交换中间结果。 - Retrieval-Augmented Planning（RAP，检索增强规划） - 定义：规划时引入外部检索知识（论文/代码/竞赛示例），而不是只靠模型记忆。 - Plan Decomposition & Parallelizable（计划分解与并行） - 定义：把一个大计划拆成可并行的小任务，让依赖尽量减少。 - Multi-Stage Verification（多阶段验证） - 定义：不仅“看起来对”，还要逐阶段确认：代码能否运行、性能是否达标、是否能部署。 有了这些，后面的公式就会像地图一样清楚。

I

I

[实验与结果] 论文用 14 个数据集验证端到端自动化。 模态 Image 任务 分类 示例数据集 Butterfly Image, Shopee-IET 模态 Text 任务 分类 示例数据集 Ecommerce Text, Textual Entailment 模态 Tabular 任务 分类 示例数据集 Banana Quality, Software Defects 模态 Tabular 任务 回归 示例数据集 Crab Age, Crop Price 模态 Tabular 任务 聚类 示例数据集 Smoker Status, Higher Education Students Performance 模态 Time Series 任务 预测 示例数据集 Weather, Electricity 模态 Graph 任务 节点分类 示例数据集 Cora, Citeseer 模态 任务 示例数据集 Image 分类 Butterfly Image, Shopee-IET Text 分类 Ecommerce Text, Textual Entailment Tabular 分类 Banana Quality, Software Defects Tabular 回归 Crab Age, Crop Price Tabular 聚类 Smoker Status, Higher Education Students Performance Time Series 预测 Weather, Electricity Graph 节点分类 Cora, Citeseer 追加的定型数据集（用于对比）： - Smoker Status (Binary): 预测某人是否吸烟（二分类基准）。 - Click Prediction Small: 预测广告点击/CTR（二分类数据集）。 - MFeat Factors: 基于多个因子特征构建的定型基准数据，用于评估机器学习效果。 - Wine Quality White: 根据白葡萄酒的化学测量值预测品质分数的回归数据集。 - Colleges: 利用学生/学校相关属性对入学或表现进行分类/预测的定型数据集。 - House Prices: 根据房屋属性特征预测房价的经典回归基准。 主要实验结果（数值）： - 约束下成功率： 平均 87.1% （constraint-aware）。 - 搜索速度： 相比 SELA（MCTS）约 快8倍 。 - 时间与成本效率： 从模型开发到部署平均 525秒 ，成本约 $0.30 （GPT-4o 基准）。 因此它不仅在找更好的模型，更是在追求“更可靠、可交付”的自动化产物。

[结论与局限] 最终意义与实践价值（\leq3）： 1. 全流程理念： 把 AutoML 定义为一整条管线。 2. RAP + 多智能体： 让计划探索从一次生成变成更高效的候选搜索。 3. 先验证再输出： 减少“看起来对但跑不起来”的常见故障。 局限 / 未来工作： - 模板依赖： 新任务类型可能仍需要更强的骨架/模板。 - 后端LLM依赖： 更强的主力LLM通常带来更好计划与代码。 - 指标敏感： SR/NPS 与验证标准的定义会显著影响评估。 最后，用一张图把全流程编排固定下来。

[图解] 全流程编排看板

I

精密控制

全流程控制

AutoML-Agent：RAP + 多智能体 + 多阶段验证

R

数据集与评估设置

实验覆盖图像、文本、表格、时序与图结构基准，并同时评估成功率与归一化性能。

AutoML-Agent把自动化定义成端到端系统：RAP加速规划，分解支持并行执行，多阶段验证把可靠性锁死。这样就算数学很长，整篇也能压缩成一条主线：输入标准化 \to 候选计划 \to 并行执行 \to 可部署的最终代码。

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

[图解] 全流程编排看板

数据集与评估设置

관련 AI논문

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

[图解] 全流程编排看板

数据集与评估设置

관련 AI논문

模态	任务	示例数据集
Image	分类	Butterfly Image, Shopee-IET
Text	分类	Ecommerce Text, Textual Entailment
Tabular	分类	Banana Quality, Software Defects
Tabular	回归	Crab Age, Crop Price
Tabular	聚类	Smoker Status, Higher Education Students Performance
Time Series	预测	Weather, Electricity
Graph	节点分类	Cora, Citeseer