Chapter 1: SELA와 트리 탐색 기반 AutoML
앞에서 설명한 내용과 같습니다. MCTS는 트리 위에서 롤아웃과 검증 점수로 다음에 시도할 가지를 고르는 방법이고, UCT-DP는 다음 노드를 고를 때 쓰는 UCT 식을 논문이 바꾼 것으로, 학습·실행처럼 비용이 큰 깊은 단계가 얕은 탐색에 밀리지 않도록 합니다.
몬테카를로 트리 탐색(MCTS)이란?
쉬운 요약: 앞으로 할 실험·결정을 트리에 그려 두고, 같은 네 단계를 계속 돌립니다.
- ① 고르기(선택): UCT 같은 규칙으로 다음에 어느 노드로 갈지 정해요.
- ② 늘리기(확장): 아직 없던 새 자식 노드(새 시도)를 트리에 붙여요.
- ③ 시뮬(롤아웃): 그 가지에서 코드를 돌리거나 시뮬해서 검증 점수를 얻어요.
- ④ 올리기(역전파): 그 점수를 부모·조상 노드로 올려서 방문 횟수·평균 점수를 갱신해요.
SELA는 LLM이 제안한 파이프라인 가지를 이 네 단계로 검증 점수와 함께 탐색합니다.
UCT란? (Upper Confidence Bound를 트리에 적용한 것) 형제 자식 노드 중 다음에 어느 쪽으로 갈지 고를 때 쓰는 점수식입니다. 지금까지 평균이 좋았던 가지(잘 쓰기·활용)와 아직 덜 가본 가지(더 보기·탐험)를 한 식 안에서 섞어서, 숫자 비교로 다음 노드를 고릅니다. 논문의 UCT-DP는 이 UCT를 조금 바꿔 깊은 학습·실행 단계가 얕은 쪽만 훑는 데 밀리지 않게 합니다.
네 단계 (한 사이클)
① 고르기② 늘리기③ 시뮬④ 올리기
보라 점선은 “이번에 고른 경로” 예시입니다. 여러 번 반복되면 가지마다 점수가 쌓입니다.
[초록 & 서론] 3줄 요약 + 문제 제기
3줄 요약
- 기존 LLM 에이전트의 한계: 코드 생성이 다양성이 낮고, 여러 번 시도해도 최적에 가깝게 수렴하지 못하는 경우가 많습니다.
- 전통 AutoML의 한계: Auto-sklearn 등 고정 파이프라인·탐색 템플릿에 가까워, 데이터·문제가 바뀔 때 동적으로 파이프라인을 재구성하기 어렵습니다.
- SELA의 핵심: 파이프라인 구성을 트리로 표현하고 몬테카를로 트리 탐색(MCTS)으로 실험 순서를 정하며, 실험 점수 피드백으로 다음 가지를 고릅니다. UCT-DP는 학습 비용이 큰 깊은 노드를 얕은 탐색만 훑는 것보다 우선하도록 UCT를 수정한 변형입니다.
맞춤 비유: 모터스포츠에서 공장 정비 매뉴얼 순서만 밟는 것은 전통 AutoML에 가깝고, 서스펜션·엔진 맵·타이어압을 한꺼번에 바꾼 뒤 랩을 한 번만 돌고 끝내는 방식은 단발성 LLM 생성에 가깝습니다. SELA는 구간별 랩 타임과 텔레메트리를 보며(검증 점수) 다음에 무엇을 손볼지 가지를 나눠 비교하는 레이스 엔지니어에 가깝습니다.