Ch.00
고급 딥러닝: 거대 모델과 생성형 AI의 세계
고급 딥러닝(Ch.00)은 생성형 AI가 “왜 거대해졌는지”와 “어떤 파이프라인으로 작동하는지”를 한 번에 잡아주는 입문 챕터입니다. 이 코스에서는 데이터에서 표현(Representation)을 뽑아내는 학습을 넘어, 대규모 트랜스포머가 문맥을 이해하고 다음 토큰을 예측하는 방식, 그리고 그 결과를 사용자 의도에 맞게 정렬(Alignment)하고 배포(Inference/Deployment)하는 흐름을 배웁니다.
거대 모델로 이어지는 고급 딥러닝 로드맵
아래 로드맵은 Ch01부터 차근차근 채워지며, 각 챕터가 전체 시스템에서 어떤 역할을 하는지 연결해 보여줍니다.
Ch01~Ch24에서 배우는 것
- Ch.01트랜스포머 1: 셀프 어텐션으로 한 번에 보기
- Ch.02트랜스포머: 위치 인코딩과 피드포워드
- Ch.03트랜스포머 계보: BERT는 이해, GPT는 생성
- Ch.04어텐션 최적화: FlashAttention과 희소 어텐션
- Ch.05비전 트랜스포머: 이미지를 패치로 잘라 넣기
- Ch.06Swin 트랜스포머: 전역 어텐션에서 계층적 윈도 구조로
- Ch.07비전 모델의 진화: CNN은 지역, ViT는 전역을 본다
- Ch.08PEFT와 LoRA: 적은 파라미터만 고쳐서 미세조정
- Ch.09QLoRA와 양자화: 더 작게 줄여서 튜닝하기
- Ch.10가치 정렬과 RLHF: 사람 취향에 맞추기
- Ch.11DPO: 강화학습 없이 선호도로 정렬하기
- Ch.12RAG: 검색으로 환각 줄이기
- Ch.13LLM 에이전트: 도구를 쓰는 모델
- Ch.14CNN 완전 정복: 커널, 스트라이드, 패딩부터 뼈대의 진화까지
- Ch.15객체 탐지 (Object Detection): R-CNN 패밀리와 YOLO의 대결 (바운딩 박스 찾기)
- Ch.16이미지 분할 (Segmentation): U-Net과 DeepLab (픽셀 단위로 이미지 이해하기)
- Ch.17Grad-CAM과 XAI: CNN이 어디를 봤는지 보기
- Ch.18그래프 신경망 (GNN): 이웃에게 메시지 보내기
- Ch.19오토인코더: 압축했다가 복원하기
- Ch.20VAE: 확률로 쓰는 생성 공간
- Ch.21GAN 기초: 만들고 구분하기 대결
- Ch.22조건부 GAN: 조건을 주고 원하는 걸 만들기
- Ch.23확산 모델 (Diffusion) 1: 노이즈 넣었다가 빼기
- Ch.24확산 모델 (Diffusion) 2: 잠재 공간에서 확산하기
- Ch.25시각-언어 모델과 CLIP: 이미지와 문장 한 공간에 (앞선 CNN과 LLM 지식의 결합)
- Ch.26음성 인식과 오디오: 소리를 텍스트로
- Ch.27모델 압축과 지식 증류: 큰 걸 작게 옮기기
- Ch.28추론 최적화와 배포: 서버부터 웹 브라우저 런타임까지 서비스할 수 있게 만들기
- Ch.29고급 딥러닝 총정리: 아키텍처와 미래 한눈에
고급 딥러닝이란? (생성형 AI 시스템 관점)
거대 모델(Foundation / LLM)은 다음 토큰을 예측하는 목표로 학습한 거대한 신경망입니다. 즉, 를 최대화하는 방식으로 문장 흐름을 배워요. 학습이 진행될수록 모델은 언어 규칙뿐 아니라 상식·관계 같은 “패턴”을 더 넓게 흡수합니다.
생성형 AI는 보통 세 단계로 생각할 수 있어요. 사전학습(Pretraining)으로 언어/지식을 넓게 익히고, 지도학습 기반 미세조정(Instruction / SFT)로 사용자 의도에 맞춰 응답하게 만들며, 정렬(Alignment)을 통해 선호·안전·거짓말 억제를 더 안정화합니다.
핵심 뼈대는 대부분 Transformer입니다. 셀프 어텐션은 “모든 토큰이 동시에 연결된” 문맥 정보를 만들고, 그 위에 피드포워드와 정규화가 반복되면서 긴 문맥에서도 일관된 표현을 유지하게 해줍니다.
모델을 크게 만들수록 능력은 늘 수 있지만, 동시에 학습이 불안정해지고 비용이 급증합니다. 그래서 고급 딥러닝은 단순히 정확도만이 아니라 학습 안정화, 효율(연산/메모리), 그리고 성능의 재현성을 함께 다룹니다.
생성형 AI의 현실 문제는 “잘 말하는지”가 전부가 아닙니다. 환각(Hallucination), 사실성, 안전성처럼 사용자 신뢰에 직결되는 이슈를 해결하려면 정렬·평가·제어가 필요합니다.
또한 거대 모델은 배포 환경(지연시간, 비용, 서버 제약)과 맞물려 돌아갑니다. 따라서 학습에서 끝나지 않고, 추론 최적화/압축/서빙 전략까지 이어져야 서비스가 됩니다.
현업에서는 보통 `텍스트/이미지 -> 토큰화 -> 컨텍스트 윈도우 -> Transformer -> 디코딩(예: greedy/beam/sample)`의 파이프라인으로 응답을 생성합니다. 이때 디코딩 전략과 프롬프트 설계가 결과 품질을 크게 좌우합니다.
정렬과 제어는 여러 방식으로 이루어집니다. 예를 들어 RLHF/DPO처럼 선호도를 이용해 모델을 업데이트하거나, RAG로 외부 지식을 검색해 근거 기반 답변을 만들 수 있어요.
서비스 관점에서는 도구 사용(Tool use), 캐싱/배치 처리, 양자화/지식 증류 같은 최적화가 함께 들어갑니다. 같은 모델이라도 “어떻게 돌리느냐”에 따라 체감 품질과 비용이 달라집니다.
이 섹션은 고급 딥러닝 전체를 문제 풀이 관점에서 한 번에 짚기 위한 설명입니다. 다음 토큰 예측으로 이루어지는 사전학습은 일반적인 언어 능력의 바탕이 되며, 확률적 생성과 표현 학습과 이어집니다. 사용자 지시에 맞춰 응답하게 만드는 Instruction·SFT는 데이터 포맷과 미세조정이 함께 등장합니다.
정렬(Alignment)은 선호·안전·사실성을 다루며 선호 학습과 보상 모델 개념으로 연결됩니다. RAG·근거 있는 생성은 검색·임베딩·컨텍스트 결합으로 환각을 줄이는 방향과 맞닿아 있고, 추론 최적화는 지연과 비용을 줄이기 위해 양자화·캐싱·증류 같은 실행 층면을 다룹니다.