AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

ICML 2025

AutoML-Agent는 “AutoML을 자동으로”를 넘어, 데이터 검색부터 전처리, 모델 설계, HPO, 코드 생성과 배포까지 풀 파이프라인을 끝까지 끌고 가는 멀티 에이전트 LLM 프레임워크입니다. 이 글은 논문의 핵심 수학적 포맷(입력→계획→분해→실행→검증)을 읽기 쉽도록 한 줄씩 해부합니다.

PDF원문 PDF 보기

[초록 & 서론] 3줄 요약 + 문제 제기 핵심 3줄 요약: - 치명적 문제: 기존 AutoML은 “자동”이라는 목표와 달리 실제로는 데이터 수집\to전처리\to모델 설계\toHPO\to코드 생성\to배포까지 이어지는 설정과 조정이 많습니다. 그래서 전문가가 아니면 파이프라인을 구성하고 실행 조건을 맞추는 것 자체가 어렵고, 작은 불일치가 전체 실행 실패로 번지기 쉽습니다. - 전통적 한계: LLM 기반 방식은 대개 파이프라인의 일부만 돕거나(예: 전처리 제안만, 모델 선택만), 계획을 한 번만 만들고 끝내는 경우가 많습니다. 그 결과 후보 탐색이 좁아지고, 실제 학습\cdot실행을 반복하는 과정에서 속도와 안정성이 크게 떨어집니다. - 핵심 해결책: AutoML-Agent는 데이터\cdot모델\cdot구현을 담당하는 역할이 분리된 멀티 에이전트 프레임워크 로 문제를 끝까지 끌고 갑니다. 여기에 Retrieval-Augmented Planning(RAP) 을 더해 최신 외부 지식(논문/코드/사례)을 참고해 후보 계획을 만들고, Multi-Stage Verification 으로 실행 성공과 배포 가능성을 단계적으로 확인해 실패를 초기에 차단합니다. 이제부터는 그 ‘통째로 자동화되는 과정’을 수식과 단계로 분해해 보겠습니다.

I

I

[결론 및 한계점] 최종 의의 및 실무 활용 가치 (3가지 이내) 1. 풀 파이프라인 자동화의 기준점: “일부만 자동화”가 아니라 검색\to전처리\to모델\to코드\to배포까지 연결한 설계 철학이 명확합니다. 2. 멀티 에이전트 협업 + RAP: 계획 탐색을 단발성 생성이 아니라, 외부 검색 힌트 기반 후보화로 바꿉니다. 3. 검증으로 신뢰도 확보: 코드가 실제로 돌아가는지/배포 가능한지에 초점을 둬서, LLM 자동화의 가장 흔한 실패(말은 되는데 코드가 깨짐)를 줄입니다. 한계점 (Future Work) - 더 넓은 태스크 일반화: 완전히 새로운 유형의 작업에는 skeleton/베이스 템플릿 의존이 남을 수 있습니다. - 백본 LLM 품질 의존: 더 강한 LLM일수록 계획 품질과 코드 구현이 개선되는 경향이 있습니다. - 라벨/평가 설계 민감도: 성능 지표(예: success rate, error/loss, 검증 기준)가 제대로 정의되지 않으면 “좋아 보이는 자동화”가 생길 수 있습니다. 이제 마지막으로, 전체 오케스트레이션 흐름을 한 장 도식으로 정리합니다.

[도식화] 풀 파이프라인 오케스트레이션 보드

I

정밀 제어

Full-Pipeline 제어

AutoML-Agent: RAP + 멀티 에이전트 + 멀티스테이지 검증

R

데이터셋 및 평가 설정

실험은 이미지\cdot텍스트\cdot정형\cdot시계열\cdot그래프를 포함한 벤치마크에서 수행되며, 성공률과 정규화 성능을 함께 평가합니다.

AutoML-Agent는 “자동화”를 한 조각씩이 아니라 파이프라인 전체 로 정의하고, RAP로 계획 탐색을 가속하며, 분해된 멀티 에이전트와 멀티스테이지 검증으로 신뢰도를 잠가 둡니다. 그래서 수식이 길어도 전체 흐름은 한 문장으로 정리됩니다: 입력 표준화 \to 후보 계획 생성 \to 병렬 실행 \to 최종 구현(배포) .

데이터 타입	작업	예시 데이터셋	특징
Image	분류	Butterfly Image, Shopee-IET	나비 종 분류, 의류 카테고리 분류
Text	분류	Ecommerce Text, Textual Entailment	상품 텍스트 분류, 문장 관계 추론(NLI)
Tabular	분류	Banana Quality, Software Defects	바나나 품질 판별, 소프트웨어 결함 예측
Tabular	회귀	Crab Age, Crop Price	게 나이 추정, 농작물 가격 예측
Tabular	클러스터링	Smoker Status, Higher Education Students Performance	흡연 상태/학생 성과 그룹화
Time Series	예측	Weather, Electricity	기상 변수, 전력 수요 시계열 예측
Graph	노드 분류	Cora, Citeseer	인용 네트워크 문서 노드 분류

데이터 타입	작업	예시 데이터셋	특징
Image	분류	Butterfly Image, Shopee-IET	나비 종 분류, 의류 카테고리 분류
Text	분류	Ecommerce Text, Textual Entailment	상품 텍스트 분류, 문장 관계 추론(NLI)
Tabular	분류	Banana Quality, Software Defects	바나나 품질 판별, 소프트웨어 결함 예측
Tabular	회귀	Crab Age, Crop Price	게 나이 추정, 농작물 가격 예측
Tabular	클러스터링	Smoker Status, Higher Education Students Performance	흡연 상태/학생 성과 그룹화
Time Series	예측	Weather, Electricity	기상 변수, 전력 수요 시계열 예측
Graph	노드 분류	Cora, Citeseer	인용 네트워크 문서 노드 분류

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

[도식화] 풀 파이프라인 오케스트레이션 보드

데이터셋 및 평가 설정

관련 AI논문

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

[도식화] 풀 파이프라인 오케스트레이션 보드

데이터셋 및 평가 설정

관련 AI논문