Chapter 1: SELA 与基于树搜索的 AutoML
与上文一致,用平实语句说明:MCTS 在树上用 rollout 与验证分数决定下一步尝试哪条分支;UCT-DP 则改写挑选下一节点时用的 UCT,使训练等代价大的深层步骤较少被浅层搜索挤掉。
什么是蒙特卡洛树搜索(MCTS)?
简要说明: 把接下来要做的实验画成树,反复走下面四步。
- ① 选(选择): 用 UCT 等规则决定下一步去哪个节点。
- ② 加(扩展): 给树挂上还没有的子节点(新的尝试)。
- ③ 跑(rollout): 在这条分支上跑代码或仿真,得到验证分数。
- ④ 传(回传): 把分数往父节点上传,更新访问次数与平均分。
SELA 用这四步加上验证分数,探索 LLM 提出的流水线分支。
UCT 是什么?(把 Upper Confidence Bound 用到树上)在兄弟子节点里选下一步走哪条时用的打分规则。它把平均回报高的分支(利用)和访问还少的分支(探索)放在同一个式子里,用数值比较决定下一个节点。论文里的 UCT-DP 会微调 UCT,使代价更大的深层训练不那么被浅层乱搜挤掉。
四步(一轮)
① 选② 加③ 跑④ 传
紫色虚线表示本次选中的路径示例;多次重复后各分支会累积分数。
[摘要与引言] 三句摘要 + 问题
三句摘要
- 既有 LLM 智能体: 代码多样性不足,多次尝试也难以收敛到好解。
- 传统 AutoML: 接近 固定流水线/搜索模板(如 Auto-sklearn),数据与任务变化时难以动态重组流水线。
- SELA 要点: 用树表示流水线,用 MCTS 安排实验顺序,用验证分数驱动下一分支。UCT-DP 修改 UCT,使更深、训练成本更高的节点优先于浅层乱搜。
比喻: 赛车里只按工厂保养手册顺序操作,接近传统 AutoML;悬挂、发动机 map、胎压一次全改、只跑一圈就结束,接近单次 LLM 生成。SELA 则像看分段圈速与遥测(验证分数),再决定下一步调什么并比较分支的赛道工程师。