모두의 AI
머신러닝AI논문

배우기

  • 논문리뷰
  • 이론·수학 기반
    • CPAL2026
      • Kernel von Mises Formula of the Influence Function
  • 모델 최적화·경량화
  • 핵심 아키텍처·알고리즘
    • CPAL2026
      • AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • 예측 모델링·정형 데이터
  • AutoML·ML 파이프라인
    • ICML 2025
      • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
  • 컴퓨터 비전·멀티모달
  • NLP·LLM
    • CPAL2026
      • The Curse of Depth in Large Language Models
  • 신뢰성·XAI
  • 데이터 중심·특성 공학
  • 엣지·웹·서비스
  • 도메인 특화 응용
🏅내 업적
배우기/AI논문/AutoML·ML 파이프라인/ICML 2025/AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

ICML 2025

AutoML-Agent는 “AutoML을 자동으로”를 넘어, 데이터 검색부터 전처리, 모델 설계, HPO, 코드 생성과 배포까지 풀 파이프라인을 끝까지 끌고 가는 멀티 에이전트 LLM 프레임워크입니다. 이 글은 논문의 핵심 수학적 포맷(입력→계획→분해→실행→검증)을 읽기 쉽도록 한 줄씩 해부합니다.
PDF원문 PDF 보기↗
[초록 & 서론] 3줄 요약 + 문제 제기
핵심 3줄 요약:
- 치명적 문제: 기존 AutoML은 “자동”이라는 목표와 달리 실제로는 데이터 수집→전처리→모델 설계→HPO→코드 생성→배포까지 이어지는 설정과 조정이 많습니다. 그래서 전문가가 아니면 파이프라인을 구성하고 실행 조건을 맞추는 것 자체가 어렵고, 작은 불일치가 전체 실행 실패로 번지기 쉽습니다.
- 전통적 한계: LLM 기반 방식은 대개 파이프라인의 일부만 돕거나(예: 전처리 제안만, 모델 선택만), 계획을 한 번만 만들고 끝내는 경우가 많습니다. 그 결과 후보 탐색이 좁아지고, 실제 학습·실행을 반복하는 과정에서 속도와 안정성이 크게 떨어집니다.
- 핵심 해결책: AutoML-Agent는 데이터·모델·구현을 담당하는 역할이 분리된 멀티 에이전트 프레임워크로 문제를 끝까지 끌고 갑니다. 여기에 Retrieval-Augmented Planning(RAP)을 더해 최신 외부 지식(논문/코드/사례)을 참고해 후보 계획을 만들고, Multi-Stage Verification으로 실행 성공과 배포 가능성을 단계적으로 확인해 실패를 초기에 차단합니다.
이제부터는 그 ‘통째로 자동화되는 과정’을 수식과 단계로 분해해 보겠습니다.
[배경 지식] 꼭 필요한 기초 개념
아래는 본론 수식을 읽기 위해 반드시 알아야 하는 5가지입니다.
- Full-Pipeline AutoML (풀 파이프라인 AutoML)
- 정의: 모델 성능만 고르는 수준이 아니라, 데이터 검색/선정, 전처리, 모델 설계, 하이퍼파라미터 최적화(HPO), 코드 생성, 배포까지 연쇄 작업 전체를 자동화하는 목표입니다.
- 왜 필요한가: 성능 하이퍼파라미터 튜닝은 좋아도, 데이터 파이프라인이 부실하면 전체 시스템이 무너집니다.
- Multi-Agent System (멀티 에이전트 협업)
- 정의: 한 모델이 모든 걸 다 하려 하지 않고(혼자 다 끌면 병목), “Manager/Planner/Executor”처럼 역할을 나눈 여러 LLM 에이전트가 각자 전문 작업을 수행하고 결과를 공유하는 구조입니다.
- 직관: 하나의 모델(또는 한 에이전트)이 모든 역할을 동시에 수행하면 병목과 오류가 늘기 쉽습니다. 역할을 분리하면 책임이 명확해지고 결과의 품질이 안정됩니다.
- Retrieval-Augmented Planning (검색 증강 계획)
- 정의: LLM이 내부 지식만으로 계획하지 않고, 외부 문서(논문/코드/Kaggle 등)를 검색해 근거를 보강한 뒤 실행 전략을 만듭니다.
- 핵심: “계획을 더 잘 짜서 탐색을 효율화”하는 데 집중합니다.
- Plan Decomposition & Parallelizable Sub-Tasks (계획 분해 & 병렬 실행 가능 작업)
- 정의: 큰 실행 계획을 데이터 파트/모델 파트/구현 파트처럼 쪼개고, 서로 의존하는 최소만 남겨 병렬로 진행시키는 방식입니다.
- 직관: 큰 계획을 데이터 준비(전처리)와 모델 탐색으로 분리해, 가능한 작업을 동시에 진행하면서 전체 시간을 줄입니다.
- Multi-Stage Verification (멀티스테이지 검증)
- 정의: 코드가 “그럴듯”한지 끝내지 않고, 실제 실행 성공/성능 지표/배포 가능성까지 단계별로 확인해서 실패를 초기에 걸러내는 절차입니다.
- 왜 중요한가: LLM 생성 코드는 종종 구문/런타임/환경 의존성 때문에 실패합니다. 검증이 없으면 사용자는 계속 디버깅을 떠안습니다.
이제 위 5개 개념을 ‘수식이 가리키는 좌표계’로 연결해 본론으로 들어갑니다.
[제안 방법] 핵심 제안 및 수식 완벽 해부
이 절은 논문의 “전체 파이프라인을 수학적으로 묶는 포맷”을 한 번에 잡는 구간입니다. AutoML-Agent를 단순히 시스템 설명으로 보지 말고, 입력→계획→분해→실행→최종 구현의 수학적 흐름으로 이해해 주세요.
핵심 정리(프레임워크의 수학적 포맷):
- AutoML-Agent는 사용자의 작업 지시 III를 표준 표현 RRR로 바꾸고, 검색 증강 계획(RAP)으로 후보 계획 집합 PPP를 생성한 뒤, 각 계획 pip_ipi​를 데이터/모델/코드 실행 단계로 분해해 결과 OiO_iOi​를 산출합니다. 마지막으로 가장 좋은 결과 O∗O^{*}O∗를 실제 배포 코드 형태의 시스템 M∗\mathcal{M}^{*}M∗로 변환합니다.

(1) 프롬프트 파싱 (Prompt Parsing)
R=Ap(I)R = \mathcal{A}_{p}(I)R=Ap​(I)
- 해설(직관): III는 자연어라서 그대로 실행하기 어렵습니다. Ap\mathcal{A}_pAp​는 “실행 가능한 요청 형태”로 정리해 줍니다.
- 이 식에서 쓰인 기호: III는 사용자 자연어 작업 지시(요구사항). RRR는 도구·검색이 읽을 표준화된 요청(프롬프트 파싱 결과). Ap\mathcal{A}_pAp​(Prompt Agent)는 III를 RRR로 바꿉니다.
(2) 검색 증강 계획 생성 (RAP + 후보 계획 집합)
P={p1,…,pP}=Amgr(RAP(R))P = \{p_{1}, \dots, p_{P}\} = \mathcal{A}_{mgr}(RAP(R))P={p1​,…,pP​}=Amgr​(RAP(R))
- 해설(직관): 팀장 Amgr\mathcal{A}_{mgr}Amgr​은 RAP로 “참고할 최신 실전 힌트”를 가져온 뒤, 더 나은 실행 계획을 여러 개 내놓습니다.
- 이 식에서 쓰인 기호: PPP는 후보 계획 집합 ({p1,…,pP})(\{p_1,\dots,p_P\})({p1​,…,pP​}), pip_ipi​는 그중 iii번째 계획. RAP(R)RAP(R)RAP(R)는 표준 요청 RRR에 외부 지식을 붙여 계획을 보강하는 함수. Amgr\mathcal{A}_{mgr}Amgr​(Manager Agent)는 그 결과로 후보 계획들을 생성합니다.
(3) 계획 분해 및 실행 (Plan Decomposition & Execution)
각 계획 pip_ipi​는 데이터 파트와 모델 파트(그리고 필요 시 구현 파트)로 분해됩니다.
- 데이터 에이전트:
sid=PD(R,Ad,pi)s_{i}^{d} = PD(R, \mathcal{A}_{d}, p_{i})sid​=PD(R,Ad​,pi​)
Oid=Ad(sid)O_{i}^{d} = \mathcal{A}_{d}(s_{i}^{d})Oid​=Ad​(sid​)
- 모델 에이전트:
sim=PD(R,Am,pi,Oid)s_{i}^{m} = PD(R, \mathcal{A}_{m}, p_{i}, O_{i}^{d})sim​=PD(R,Am​,pi​,Oid​)
Oim=Am(sim)O_{i}^{m} = \mathcal{A}_{m}(s_{i}^{m})Oim​=Am​(sim​)
- 해설(직관):
- sss는 “상태(다음 단계로 넘어가기 위한 요약 정보)”입니다.
- OOO는 “에이전트 산출물(데이터 전처리 결과, 모델/HPO 제안 등)”입니다.
- PD는 큰 계획을 작은 일로 나누는 ‘작업 쪼개기 엔진’입니다.
- 이 블록에서 쓰인 기호: PD(⋅)PD(\cdot)PD(⋅)는 Plan Decomposition(큰 계획을 상태 sss와 실행 단위로 분해). Ad\mathcal{A}_dAd​, Am\mathcal{A}_mAm​는 각각 Data/Model Agent. sids_i^dsid​, sims_i^msim​는 데이터·모델 파트의 상태, OidO_i^dOid​, OimO_i^mOim​는 각 파트 산출물(전처리 결과, 모델/HPO 제안 등).
(4) 최종 모델 구현 (Final Implementation)
M∗=Ao(I∗)\mathcal{M}^{*} = \mathcal{A}_{o}(I^{*})M∗=Ao​(I∗)
- 해설(직관): 매니저가 고른 최고의 실행 결과 O∗O^{*}O∗를 기반으로, Ao\mathcal{A}_oAo​가 배포 가능한 형태의 코드/시스템을 생성합니다.
- 이 식에서 쓰인 기호: M∗\mathcal{M}^{*}M∗는 최종 배포 가능한 시스템(코드 형태). O∗O^{*}O∗는 후보 중 선택된 최고 실행 결과. I∗I^{*}I∗는 최종 구현에 쓰이는 선택된 입력/설정(O∗O^{*}O∗를 구현 입력으로 매핑). Ao\mathcal{A}_oAo​(Operation Agent)는 이를 실제 코드로 옮깁니다.

(5) 평가 지표: Comprehensive Score (CS)
논문은 성공 여부와 성능을 동시에 보기 위해 다음을 사용합니다.
CS=0.5×SR+0.5×NPSCS = 0.5 \times SR + 0.5 \times NPSCS=0.5×SR+0.5×NPS
NPS=11+sNPS = \frac{1}{1+s}NPS=1+s1​
- 직관: `배포까지 되는가(SR)` + `실력이 얼마나 좋은가(NPS)`를 같은 비중으로 섞어서 “진짜 쓸 수 있는 자동화”를 측정합니다.
- 이 식에서 쓰인 기호: CSCSCS는 Comprehensive Score(종합 점수). SRSRSR는 Success Rate(실행·배포 성공 여부). NPSNPSNPS는 Normalized Performance Score이며, 식 NPS=1/(1+s)NPS=1/(1+s)NPS=1/(1+s)의 sss는 오차(loss/error 등, 작을수록 성능이 좋음).
[수식 작동 시뮬레이션] Toy Data Walkthrough
이제 정말로 수식이 “한 프레임씩” 돌아가는 장면을 만들어 봅시다. 숫자는 가정입니다.
상황: 사용자가 다음을 입력합니다.
- III: “이미지 분류용 데이터셋을 찾아 전처리하고, 빠르게 학습되는 모델을 만들어 배포 가능한 코드로 제공해줘. 단, 실행 실패는 피하고 싶어.”
프레임 1: 프롬프트 파싱
- R=Ap(I)R = \mathcal{A}_p(I)R=Ap​(I)
- RRR는 대략 다음 정보를 포함합니다: task=classification, constraints=“failure-avoid”, candidate modalities=image 등.
프레임 2: RAP 기반 후보 계획 생성
- P=Amgr(RAP(R))P = \mathcal{A}_{mgr}(RAP(R))P=Amgr​(RAP(R))
- 이번에는 P=2P=2P=2개의 후보를 만듭니다.
- p1p_1p1​: 데이터는 작은 이미지셋으로 시작하고, 효율 좋은 전처리+가벼운 모델을 우선.
- p2p_2p2​: 클래스 불균형이 의심되니 리샘플링과 더 안정적인 학습 스케줄을 먼저.
프레임 3: 계획 분해(데이터 파트)
- 데이터 에이전트가 p1p_1p1​에 대해:
- s1d=PD(R,Ad,p1)s_1^d = PD(R, \mathcal{A}_d, p_1)s1d​=PD(R,Ad​,p1​) → 전처리 요구사항 요약
- O1d=Ad(s1d)O_1^d = \mathcal{A}_d(s_1^d)O1d​=Ad​(s1d​) → train/val split, augmentation, dataloader-ready 결과
- 같은 방식으로 p2p_2p2​에 대해서도 O2dO_2^dO2d​가 생성됩니다.
프레임 4: 모델/HPO 파트
- 모델 에이전트는 O1dO_1^dO1d​를 읽고:
- s1m=PD(R,Am,p1,O1d)s_1^m = PD(R, \mathcal{A}_m, p_1, O_1^d)s1m​=PD(R,Am​,p1​,O1d​)
- O1m=Am(s1m)O_1^m = \mathcal{A}_m(s_1^m)O1m​=Am​(s1m​) → 모델 선택+학습 하이퍼파라미터 제안
- p2p_2p2​에 대해서는 class imbalance에 더 집중한 옵션이 제안될 수 있습니다.
프레임 5: 최종 선택과 구현
- 매니저는 검증 결과로 더 나은 후보를 고릅니다: 예를 들어 O∗=O2O^{*}=O_2O∗=O2​.
- 그리고 M∗=Ao(I∗)\mathcal{M}^{*} = \mathcal{A}_o(I^{*})M∗=Ao​(I∗)로 배포 가능한 코드(학습 스크립트+추론 엔드포인트) 형태를 생성합니다.
프레임 6: 종합 점수(CS) 계산(간단 버전)
- 여러 시도 중 코드가 실행되고 배포까지 성공한 비율을 SRSRSR이라고 합시다.
- 이번 실험에서는 SR=0.9SR=0.9SR=0.9
- 오차 기반 정규화 성능은 NPS=11+sNPS = \frac{1}{1+s}NPS=1+s1​로 계산합니다.
- s=0.25s=0.25s=0.25라면 NPS=11.25=0.8NPS=\frac{1}{1.25}=0.8NPS=1.251​=0.8
- 따라서
CS=0.5×0.9+0.5×0.8=0.85CS = 0.5 \times 0.9 + 0.5 \times 0.8 = 0.85CS=0.5×0.9+0.5×0.8=0.85
한 줄로 정리하면: RAP로 계획을 똑똑하게 만들고, 데이터/모델을 분해해 병렬로 돌린 뒤, 검증과 구현으로 배포 가능성을 닫아버리는 흐름입니다.
[실험 및 결과]
논문은 다양한 모달리티에서 동작하는 “풀 파이프라인 자동화”를 보여 주기 위해, 총 14개 데이터셋(5개 타입)을 묶어 평가합니다.
- 데이터셋(요약):
  • 데이터 타입Image
  • 작업분류
  • 예시 데이터셋Butterfly Image, Shopee-IET
  • 특징나비 종 분류, 의류 카테고리 분류
  • 데이터 타입Text
  • 작업분류
  • 예시 데이터셋Ecommerce Text, Textual Entailment
  • 특징상품 텍스트 분류, 문장 관계 추론(NLI)
  • 데이터 타입Tabular
  • 작업분류
  • 예시 데이터셋Banana Quality, Software Defects
  • 특징바나나 품질 판별, 소프트웨어 결함 예측
  • 데이터 타입Tabular
  • 작업회귀
  • 예시 데이터셋Crab Age, Crop Price
  • 특징게 나이 추정, 농작물 가격 예측
  • 데이터 타입Tabular
  • 작업클러스터링
  • 예시 데이터셋Smoker Status, Higher Education Students Performance
  • 특징흡연 상태/학생 성과 그룹화
  • 데이터 타입Time Series
  • 작업예측
  • 예시 데이터셋Weather, Electricity
  • 특징기상 변수, 전력 수요 시계열 예측
  • 데이터 타입Graph
  • 작업노드 분류
  • 예시 데이터셋Cora, Citeseer
  • 특징인용 네트워크 문서 노드 분류
데이터 타입작업예시 데이터셋특징
Image분류Butterfly Image, Shopee-IET나비 종 분류, 의류 카테고리 분류
Text분류Ecommerce Text, Textual Entailment상품 텍스트 분류, 문장 관계 추론(NLI)
Tabular분류Banana Quality, Software Defects바나나 품질 판별, 소프트웨어 결함 예측
Tabular회귀Crab Age, Crop Price게 나이 추정, 농작물 가격 예측
Tabular클러스터링Smoker Status, Higher Education Students Performance흡연 상태/학생 성과 그룹화
Time Series예측Weather, Electricity기상 변수, 전력 수요 시계열 예측
Graph노드 분류Cora, Citeseer인용 네트워크 문서 노드 분류
추가 데이터셋(비교용, 정형 데이터 6종):
- Smoker Status (Binary): 성인들의 흡연 여부를 예측하는 이진 분류 벤치마크.
- Click Prediction Small: 온라인 광고에서 클릭 여부(CTR)를 예측하는 이진 분류 데이터셋.
- MFeat Factors: 여러 요인(feature) 기반의 정형 벤치마크로, 분류 성능을 비교할 때 자주 사용됩니다.
- Wine Quality White: 화이트 와인의 화학 성분으로 품질 점수를 예측하는 회귀 데이터셋.
- Colleges: 학생/입학 관련 지표로 성과를 분류·예측하는 정형 데이터셋.
- House Prices: 주택 특성으로 판매 가격을 예측하는 대표적인 회귀 데이터셋.
핵심 결과(실제 수치):
- 제약 환경에서의 성공률: 평균 87.1% (constraint-aware).
- 탐색 속도: SELA(MCTS) 대비 약 8배 빠른 검색 속도.
- 시간/비용 효율성: 모델 개발→배포까지 평균 525초, 비용 약 $0.30 (GPT-4o 기준).
실무적으로 이 결과가 의미하는 것:
- “파라미터 튜닝을 손으로 해야만 좋은 모델이 나온다”는 기대를 낮추고,
- 엔지니어가 직접 디버깅할 영역을 줄이며,
- 코드 생성→검증→배포까지 이어지는 파이프라인을 표준화할 수 있다는 점에서, AutoML을 제품화하는 데 직접적 힌트를 줍니다.
[결론 및 한계점]
최종 의의 및 실무 활용 가치 (3가지 이내)
1. 풀 파이프라인 자동화의 기준점: “일부만 자동화”가 아니라 검색→전처리→모델→코드→배포까지 연결한 설계 철학이 명확합니다.
2. 멀티 에이전트 협업 + RAP: 계획 탐색을 단발성 생성이 아니라, 외부 검색 힌트 기반 후보화로 바꿉니다.
3. 검증으로 신뢰도 확보: 코드가 실제로 돌아가는지/배포 가능한지에 초점을 둬서, LLM 자동화의 가장 흔한 실패(말은 되는데 코드가 깨짐)를 줄입니다.
한계점 (Future Work)
- 더 넓은 태스크 일반화: 완전히 새로운 유형의 작업에는 skeleton/베이스 템플릿 의존이 남을 수 있습니다.
- 백본 LLM 품질 의존: 더 강한 LLM일수록 계획 품질과 코드 구현이 개선되는 경향이 있습니다.
- 라벨/평가 설계 민감도: 성능 지표(예: success rate, error/loss, 검증 기준)가 제대로 정의되지 않으면 “좋아 보이는 자동화”가 생길 수 있습니다.
이제 마지막으로, 전체 오케스트레이션 흐름을 한 장 도식으로 정리합니다.

[도식화] 풀 파이프라인 오케스트레이션 보드

한 장의 흐름도로 정리합니다. 사용자 입력 III를 표준화해 RRR로 만든 뒤, RAP로 계획을 보강하고, 데이터·모델·코드 단계가 분해된 작업을 병렬로 처리합니다. 멀티스테이지 검증을 통과한 결과만 배포 단계로 넘어갑니다.

정밀 제어

Full-Pipeline 제어

AutoML-Agent: RAP + 멀티 에이전트 + 멀티스테이지 검증

작업 지시자연어표준 요청파싱·표준화RAP데이터모델코드·배포검증배포배포
요구사항을 표준화해 RRR로 만들고, 검색 증강 계획으로 후보를 생성한 뒤, 데이터/모델 에이전트를 병렬로 실행합니다. 마지막엔 검증으로 배포 가능한 결과만 남깁니다.
AutoML-Agent는 “자동화”를 한 조각씩이 아니라 파이프라인 전체로 정의하고, RAP로 계획 탐색을 가속하며, 분해된 멀티 에이전트와 멀티스테이지 검증으로 신뢰도를 잠가 둡니다. 그래서 수식이 길어도 전체 흐름은 한 문장으로 정리됩니다: 입력 표준화 → 후보 계획 생성 → 병렬 실행 → 최종 구현(배포).

관련 AI논문

  • - The Curse of Depth in Large Language Models
  • - AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers
  • - Kernel von Mises Formula of the Influence Function