Ch.05

비전 트랜스포머: 이미지를 패치로 잘라 넣기

z_i=Ex_i

패치 분할선형 임베딩토큰 한 줄인코더분류

학습 흐름 한눈에

① 패치 분할: 이미지를 격자로 자릅니다. ② 토큰화: 각 패치를 벡터로 임베딩하고 위치 정보를 더합니다. ③ 인코더: 멀티헤드 셀프 어텐션+FFN을 반복합니다. ④ 분류: CLS(또는 풀링) 표현에 헤드를 붙입니다.

i

수식 쉽게 이해하기 (ViT 흐름)

P\cdot C

비전 트랜스포머: 이미지를 패치로 잘라 넣기

N^2

왜 중요한지

N

어떻게 쓰이는지

학습 전략: 거인의 어깨 위에 올라타기 ViT는 데이터 먹보입니다. 데이터가 적으면 오히려 CNN보다 성능이 떨어집니다. 그래서 구글이나 메타 같은 빅테크가 엄청난 데이터(ImageNet 등)로 미리 똑똑하게 학습시켜 놓은 사전학습(Pre-trained) 모델 을 가져옵니다. 그리고 우리의 작은 데이터셋에 맞게 머리(분류 헤드)만 살짝 바꿔 미세조정(파인튜닝) 하는 방식으로 사용합니다. 필요하면 강한 증강\cdot정규화\cdot작은 모델 을 함께 씁니다. 서비스 적용 (추론): 크기 조절의 미학 실제 스마트폰 앱이나 웹 서비스에 모델을 올릴 때는 이미지 크기가 제각각입니다. 모델이 소화할 수 있도록 입력 이미지의 크기를 고정 하거나, 큰 이미지를 여러 구역으로 나누어 슬라이딩 윈도 로 순차적으로 처리하는 엔지니어링 기술이 필요합니다. GPU 메모리 한계를 넘기면 배치\cdot해상도\cdotAMP를 조절합니다. 상황에 맞는 무기 선택하기 무조건 최신 ViT가 정답은 아닙니다. 데이터가 넉넉하고 넓은 문맥이 필요하다면 ViT 를, 연산 효율이 중요하고 이미지의 국소적 디테일도 중요하다면 Swin Transformer 나 ConvNeXt (CNN의 장점을 흡수한 최신 모델), 혹은 CNN과 ViT를 섞은 하이브리드 모델 을 과제의 성격에 맞게 골라 써야 합니다. 실무자를 위한 디버깅 체크리스트 * 성능이 안 나올 때: 패치 크기가 너무 크지 않은지, [CLS] 토큰이 잘 세팅되었는지, 사전학습 가중치를 제대로 불러왔는지 확인하세요. * 메모리가 터질 때 (Out Of Memory): 입력 이미지의 해상도를 줄이거나 패치 크기를 키워서 전체 토큰 수를 줄여보세요. 혹은 메모리를 아끼는 효율적인 어텐션 기법(Chapter 04)이나 체크포인팅을 검토합니다.

요약

z_i=Ex_i

문제 풀이를 위한 설명

N

비전 트랜스포머: 이미지를 패치로 잘라 넣기

1. 왜 패치(Patch)인가? 이미지를 단어처럼 읽기

개념: 트랜스포머는 입력된 토큰들의 관계를 학습합니다. 이미지를 트랜스포머에 넣기 위해, ViT는 이미지를 바둑판 모양의 격자로 자릅니다. 이 작은 네모 조각들을 패치(Patch)라고 부릅니다.

직관: 풍경 사진을 16등분으로 자른 직소 퍼즐을 상상해 보세요. 각각의 퍼즐 조각이 문장에서의 '단어' 역할을 합니다. 조각 안에 있는 픽셀 정보들을 길게 한 줄로 쭉 편 다음, 트랜스포머가 이해할 수 있는 크기(차원)의 벡터로 변환하여 모델에 입력합니다.

실전 주의점: 퍼즐 조각을 너무 크게 자르면 전체 덩어리는 줄어들지만 세밀한 부분을 놓치게 됩니다. 반대로 너무 잘게 자르면 디테일은 살지만 조각 수가 너무 많아져 컴퓨터가 계산하다가 지쳐버립니다(메모리 폭발). Chapter 04에서 본 토큰 수· $N^2$ 비용과 직결됩니다.

2. 패치에 이름표 붙이기: 임베딩과 위치 정보

개념: 트랜스포머는 한 번에 모든 조각을 보기 때문에, 조각이 원래 어디에 있던 것인지 위치를 모릅니다. 그래서 각 조각의 벡터에 '나는 왼쪽 위 첫 번째 조각이야'라는 위치 정보(Positional Embedding)를 더해줍니다. 또한, 맨 앞에는 전체 이미지가 무엇인지 결론을 내릴 반장 역할의 [CLS] 토큰을 추가합니다.

핵심 수식: 특정 패치

i

의 픽셀 데이터를

x_i

라고 할 때, 이를 선형 변환 행렬

E

를 곱해 다루기 쉬운 벡터로 만듭니다 (

z_i = E x_i

). 여기에 위치 정보

PE_i

를 더해 최종 입력 벡터

h_i

를 완성합니다. 즉,

h_i = z_i + PE_i

가 됩니다. 이것이 트랜스포머로 들어가는 최종 티켓입니다.

실전: 세그멘테이션·검출 등은 패치 대신 다른 토큰화(픽셀·쿼리 등)를 쓰는 변형이 많습니다.

3. CNN과의 결정적 차이: 돋보기 vs 원탁회의

개념: 전통적인 비전 모델인 CNN은 주변 픽셀들만 확인하는 '합성곱' 연산을 층층이 쌓아갑니다. 반면 ViT는 전역 셀프 어텐션(Global Self-Attention)을 사용하여 멀리 떨어진 패치들 간의 관계를 한 번에 계산합니다. 초기에 작은 conv stem을 붙이는 하이브리드 모델도 흔합니다.

비유: CNN이 '작은 돋보기를 들고 사진을 이리저리 옮겨가며' 탐색한다면, ViT는 '모든 퍼즐 조각을 원탁회의에 앉혀놓고 동시에 서로 의견을 주고받게 하는' 방식입니다. 강아지 사진이라면, '꼬리' 조각과 '귀' 조각이 서로 멀리 떨어져 있어도 ViT는 한 번의 층에서 둘의 관계를 바로 알아챌 수 있습니다.

실전: 데이터가 충분하거나 사전학습이 강하면 ViT가 강하고, 소규모 데이터에서는 증강·사전학습·CNN 특징이 도움이 되기도 합니다.

4. 학습과 추론 시 겪게 되는 현실적인 벽

개념: 모델을 학습시킬 때 정답을 맞히기 위한 손실 함수는 일반적인 분류 문제(교차 엔트로피)와 같습니다. 하지만 문제는 해상도입니다. 추론 시에도 패치 시퀀스 길이에 비례해 연산·메모리가 늘어납니다.

실전: 고화질 이미지를 입력하면 퍼즐 조각(패치)의 수가 기하급수적으로 늘어납니다. 이전 챕터에서 배웠듯 트랜스포머의 계산량은 토큰 수의 제곱(

N^2

)에 비례하므로, 해상도가 조금만 커져도 그래픽 카드(GPU)의 메모리가 터져버리는 현상(OOM)이 발생합니다. 이를 해결하기 위해 윈도우 단위로 연산을 끊어가는 Swin Transformer 같은 변형 모델들이 실무에서 자주 쓰입니다. Chapter 04와 연결되는 효율 어텐션·패치 병합 설계도 함께 봅니다.