Chapter 1: SELAとツリー探索AutoML
上の説明と同じです。MCTS はロールアウトと検証スコアで次に試す枝を選ぶ木探索であり、UCT-DP は次ノードを選ぶ UCT の式を論文側で変形し、学習・実行などコストの大きい深い段階が浅い探索に押し負けにくくします。
モンテカルロ木探索(MCTS)とは?
かんたん要約: これから試す実験をツリーに書き、4ステップを繰り返します。
- ① 選ぶ(選択): UCT などで次にどのノードへ行くか決めます。
- ② 増やす(拡張): まだない子ノード(新しい試行)を付け足します。
- ③ 試す(ロールアウト): その枝でコードやシミュレを走らせ検証スコアを得ます。
- ④ 戻す(逆伝播): スコアを親の上へ上げて訪問回数・平均を更新します。
SELA は LLM が提案したパイプラインの枝を、この4ステップと検証スコアで探索します。
UCT とは?(Upper Confidence Bound を木に適用したもの)兄弟の子ノードのうち次にどれへ行くかを決めるためのスコア式です。これまでの平均報酬が高い枝(活用)とまだ訪れていない枝(探索)を一つの式の中でまとめ、数値比較で次のノードを選びます。論文の UCT-DP はこの UCT を少し変え、学習コストの大きい深い段階が浅い探索に押し負けにくくします。
4ステップ(1サイクル)
① 選ぶ② 増やす③ 試す④ 戻す
紫の点線は「今回選んだ経路」の例です。繰り返すほど各枝にスコアが蓄積します。
[要約 & 序論] 3行要約 + 問題提起
3行要約
- 既存LLMエージェントの限界: コードの多様性が低く、何度試しても良い解に収束しにくい。
- 従来AutoMLの限界: Auto-sklearn型の固定パイプライン・探索テンプレートに近く、データや問題が変わると動的にパイプラインを組み替えにくい。
- SELAの要点: パイプラインをツリーで表し、MCTSで実験順を決め、検証スコアで次の分岐を選ぶ。UCT-DPは学習コストの大きい深いノードを、浅い探索より優先するようUCTを変形したもの。
比喩: モータースポーツで工場の整備マニュアル順だけ踏むのは従来AutoMLに近い。足まわり・エンジンマップ・タイヤ圧を一括で変えて一周だけ走るのは単発のLLMコード生成に近い。SELAはセクタータイムとテレメトリを見て(検証スコア)次に何をいじるか分岐を比較するレースエンジニアに近い。