SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

Yizhou Chi, Yizhang Lin, Sirui Hong, Duyi Pan, Yaying Fei, Guanghao Mei, Bangbang Liu, Tianqi Pang, Jacky Kwok, Ceyao Zhang, Bang Liu, Chenglin Wu

ICLR 2025 · arXiv:2410.17238

LLMエージェントは多様性の低い・非最適なコードをしばしば生成し、従来のAutoMLは固定パイプラインに縛られます。

MCTS（モンテカルロ木探索）は、実験・意思決定をツリーで表し、ロールアウトと検証スコアから次にどの枝を試すかを決める探索法です。UCT-DPは、次のノードを選ぶUCTの式を論文側で変形したもので、学習・実行などコストの大きい深い段階が浅い探索に押し負けにくくします。

SELAはパイプラインをこのようなツリーとしてMCTSで実験順を決め、UCT-DPで深い段階を優先します。Insightから正規化スコアまで数式を分解します。

PDF論文PDF（arXiv）

Chapter 1: SELAとツリー探索AutoML 上の説明と同じです。MCTS はロールアウトと検証スコアで次に試す枝を選ぶ木探索であり、UCT-DP は次ノードを選ぶ UCT の式を論文側で変形し、学習・実行などコストの大きい深い段階が浅い探索に押し負けにくくします。

モンテカルロ木探索（MCTS）とは？

かんたん要約: これから試す実験を ツリー に書き、4ステップを繰り返します。 - ① 選ぶ（選択）: UCT などで 次にどのノード へ行くか決めます。 - ② 増やす（拡張）: まだない 子ノード （新しい試行）を付け足します。 - ③ 試す（ロールアウト）: その枝でコードやシミュレを走らせ 検証スコア を得ます。 - ④ 戻す（逆伝播）: スコアを 親の上へ 上げて訪問回数・平均を更新します。 SELA は LLM が提案したパイプラインの枝を、この 4ステップ と検証スコアで探索します。 UCT とは？ （Upper Confidence Bound を木に適用したもの）兄弟の子ノードのうち 次にどれへ行くか を決めるためのスコア式です。 これまでの平均報酬が高い枝 （活用）と まだ訪れていない枝 （探索）を 一つの式の中で まとめ、数値比較で次のノードを選びます。論文の UCT-DP はこの UCT を少し変え、 学習コストの大きい深い段階 が 浅い探索 に押し負けにくくします。

4ステップ（1サイクル）

① 選ぶ② 増やす③ 試す④ 戻す

紫の点線は「今回選んだ経路」の例です。繰り返すほど各枝にスコアが蓄積します。

[要約 & 序論] 3行要約 + 問題提起 3行要約 - 既存LLMエージェントの限界: コードの 多様性が低く 、何度試しても 良い解に収束しにくい 。 - 従来AutoMLの限界: Auto-sklearn型の 固定パイプライン・探索テンプレート に近く、データや問題が変わると 動的にパイプラインを組み替え にくい。 - SELAの要点: パイプラインを ツリー で表し、 MCTS で実験順を決め、 検証スコア で次の分岐を選ぶ。 UCT-DP は学習コストの大きい 深いノード を、浅い探索より 優先 するようUCTを変形したもの。 比喩: モータースポーツで 工場の整備マニュアル順だけ 踏むのは従来AutoMLに近い。 足まわり・エンジンマップ・タイヤ圧を一括で変えて一周だけ走る のは単発のLLMコード生成に近い。SELAは セクタータイムとテレメトリを見て （検証スコア） 次に何をいじるか分岐を比較する レースエンジニアに近い。

Chapter 2: 背景知識 — 本文の数式を読むための5つの概念 [背景知識] - AutoML: 前処理・モデル・ハイパーパラメータなどを人の介入を減らして自動化する流れ全体。多くの場合 試す\to測る\to直す の繰り返しです。 - LLM エージェント: 自然言語のタスク説明とデータ要約から コードを生成・実行 する構成です。SELA では 計画（プラン） と コード／実行 が段階に分かれます。 - 探索空間（Search space）: あるデータセット・タスクで試せる 前処理\timesモデル\timesハイパーパラメータ の組み合わせの集合です。組み合わせ爆発のため 全数探索 は現実的ではありません。 - MCTS: 木上でロールアウトと統計を組み合わせ 有望な枝 を選ぶアルゴリズムです。 探索（exploration） と 活用（exploitation） のバランスが鍵です。 - 探索 vs 活用: まだ十分に訪れていない子ノードを多く見るか、平均報酬の高い経路を深めるかを 一つの式で 同時に調整します。 UCT-DP は 深い学習段階を優先する という追加の工夫を入れます。

p

p

Chapter 5: 実験 [結果] 20 個の ML データセット （arXiv 要約）では、SELA は各ベースライン対しておおよそ 勝率 65〜80% を報告— 一貫した優位性 。 MCTS はランダム探索を上回り 、 ロールアウトを増やすほど スコアは 改善 しやすい—API／時間の予算配分に有用です。

Chapter 6: 結論と図の読み方 [結論] 実務で使える要点（3 つ以内） 1. 手作業で全部選ばずに 強い AutoML 基線を得やすい。 2. ロールアウトをキャッシュ して API／GPU コストを下げる。 3. 木のログ で どの枝に入ったか を説明しやすい。 限界: ロボティクス／ソフトウェア工学への一般化、巨大探索空間でのサンプル効率、 解釈性 の UI 設計は今後の課題。 [図の要約] - 従来: 線形／一発生成—フィードバックが弱く目標品質に届かないことがある。 - SELA: 木の上で MCTS + UCT-DP 、 検証スコア で更新—下の 左右パネル は対比のスケッチに過ぎません。

対比の要点

左: 固定順・単発生成ではフィードバックが弱いことがある。 右: 検証スコアで枝を選ぶツリー探索。下は 要点図 のみ。

従来：固定パイプライン・単発生成

一発で全体を決めるとフィードバックが弱く、点が収束しにくい。

実験難易度

開始 → 目標品質

散らばった試行

制御しにくい

SELA：ツリー探索＋UCT-DP

段階ごとに分岐し、検証スコアで平均報酬を更新。

Insight候補Λ（LLM） · 制御された実験 · MCTSロールアウト

ツリー上の収束

目標に近いスコア

SELAは LLMのアイデアをツリー上でMCTS配置 し、 UCT-DP で浅い探索の浪費を減らします。 NS は公平な比較、キャッシュとログは コストと説明 に効きます。

SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning

Yizhou Chi, Yizhang Lin, Sirui Hong, Duyi Pan, Yaying Fei, Guanghao Mei, Bangbang Liu, Tianqi Pang, Jacky Kwok, Ceyao Zhang, Bang Liu, Chenglin Wu

ICLR 2025 · arXiv:2410.17238

LLMエージェントは多様性の低い・非最適なコードをしばしば生成し、従来のAutoMLは固定パイプラインに縛られます。

PDF論文PDF（arXiv）

Chapter 1: SELAとツリー探索AutoML 上の説明と同じです。MCTS はロールアウトと検証スコアで次に試す枝を選ぶ木探索であり、UCT-DP は次ノードを選ぶ UCT の式を論文側で変形し、学習・実行などコストの大きい深い段階が浅い探索に押し負けにくくします。

モンテカルロ木探索（MCTS）とは？

かんたん要約: これから試す実験を ツリー に書き、4ステップを繰り返します。 - ① 選ぶ（選択）: UCT などで 次にどのノード へ行くか決めます。 - ② 増やす（拡張）: まだない 子ノード （新しい試行）を付け足します。 - ③ 試す（ロールアウト）: その枝でコードやシミュレを走らせ 検証スコア を得ます。 - ④ 戻す（逆伝播）: スコアを 親の上へ 上げて訪問回数・平均を更新します。 SELA は LLM が提案したパイプラインの枝を、この 4ステップ と検証スコアで探索します。 UCT とは？ （Upper Confidence Bound を木に適用したもの）兄弟の子ノードのうち 次にどれへ行くか を決めるためのスコア式です。 これまでの平均報酬が高い枝 （活用）と まだ訪れていない枝 （探索）を 一つの式の中で まとめ、数値比較で次のノードを選びます。論文の UCT-DP はこの UCT を少し変え、 学習コストの大きい深い段階 が 浅い探索 に押し負けにくくします。

4ステップ（1サイクル）

① 選ぶ② 増やす③ 試す④ 戻す

紫の点線は「今回選んだ経路」の例です。繰り返すほど各枝にスコアが蓄積します。

[要約 & 序論] 3行要約 + 問題提起 3行要約 - 既存LLMエージェントの限界: コードの 多様性が低く 、何度試しても 良い解に収束しにくい 。 - 従来AutoMLの限界: Auto-sklearn型の 固定パイプライン・探索テンプレート に近く、データや問題が変わると 動的にパイプラインを組み替え にくい。 - SELAの要点: パイプラインを ツリー で表し、 MCTS で実験順を決め、 検証スコア で次の分岐を選ぶ。 UCT-DP は学習コストの大きい 深いノード を、浅い探索より 優先 するようUCTを変形したもの。 比喩: モータースポーツで 工場の整備マニュアル順だけ 踏むのは従来AutoMLに近い。 足まわり・エンジンマップ・タイヤ圧を一括で変えて一周だけ走る のは単発のLLMコード生成に近い。SELAは セクタータイムとテレメトリを見て （検証スコア） 次に何をいじるか分岐を比較する レースエンジニアに近い。

Chapter 1: SELAとツリー探索AutoML

モンテカルロ木探索（MCTS）とは？

[要約 & 序論] 3行要約 + 問題提起

Chapter 2: 背景知識 — 本文の数式を読むための5つの概念

[背景知識]

Chapter 3: 手法 — 平易な注釈つきの数式

[手法] 5ステップ

(1) Insight Proposer

(2) プランとコード

(3) UCT-DP

(4) NS

(5) Rescaled NS

Chapter 4: おもちゃデータのウォークスルー

[おもちゃのシミュレーション]

Chapter 5: 実験

[結果]

Chapter 6: 結論と図の読み方

[結論]

[図の要約]

対比の要点

従来：固定パイプライン・単発生成

SELA：ツリー探索＋UCT-DP

Chapter 1: SELAとツリー探索AutoML

モンテカルロ木探索（MCTS）とは？

[要約 & 序論] 3行要約 + 問題提起

Chapter 2: 背景知識 — 本文の数式を読むための5つの概念

[背景知識]

Chapter 3: 手法 — 平易な注釈つきの数式

[手法] 5ステップ

(1) Insight Proposer

(2) プランとコード

(3) UCT-DP

(4) NS

(5) Rescaled NS

Chapter 4: おもちゃデータのウォークスルー

[おもちゃのシミュレーション]

Chapter 5: 実験

[結果]

Chapter 6: 結論と図の読み方

[結論]

[図の要約]

対比の要点

従来：固定パイプライン・単発生成

SELA：ツリー探索＋UCT-DP