Ch.07

비전 모델의 진화: CNN은 지역, ViT는 전역을 본다

같은 사진을 두 방식으로 읽습니다. CNN 은 작은 커널(국소 창) 을 밀며 이웃 픽셀 부터 특징을 쌓고, ViT 는 패치 토큰 에 전역 셀프 어텐션 을 얹어 한 블록에서도 먼 맥락을 섞을 수 있습니다. 윈도 어텐션 으로 그 비용을 나누는 절충도 함께 둡니다.

학습 흐름

돋보기를 밀며 동네를 읽는 CNN, 마을회관에서 한꺼번에 이야기하는 ViT.

N

수식, 이렇게 읽으면 됩니다 (CNN vs ViT)

i

CNN과 ViT: 같은 이미지를 읽는 두 가지 문법

3\times 3

왜 중요한지

N

어떻게 쓰이는지

요약

N

문제 풀이를 위한 설명

N

CNN과 ViT: 같은 이미지를 읽는 두 가지 문법

1. CNN: 돋보기를 밀며 ‘이웃만’ 꼼꼼히 보기 (국소성)

개념: CNN은 아주 작은 필터(예:

3\times 3

크기의 돋보기)를 이미지 위로 슬라이딩하며 훑습니다. 한 위치에서 당장 보는 것은 내 주변 $k\times k$ 뿐이고, 그 결과를 다음 층으로 넘기면 조금 더 넓은 문맥이 쌓입니다.

직관: 층이 깊어질수록 수용장(receptive field)이 서서히 넓어집니다. 얕은 층에서는 선·모서리 같은 단순 패턴을, 깊은 층에서는 눈·귀·코처럼 의미 있는 부위를 인식하게 됩니다. 같은 커널을 여러 위치에서 재사용(가중치 공유)하므로 파라미터 수는 작고, 고양이가 사진 왼쪽에 있든 오른쪽에 있든 비슷한 필터로 잡아내는 이동 등변성(translation equivariance)이 자연스럽게 따라옵니다.

수식으로 잡기: 출력 한 지점은 입력의 국소 패치와 커널의 교차상관(합성곱)으로 얻습니다. 깊이

L

가 쌓일수록 수용장은 층마다 커지며, 먼 거리의 픽셀도 간접적으로 섞입니다.

2. ViT: 패치를 단어처럼 모아 ‘전체가 한 번에 토론’ (전역성)

개념: 이미지를

P\times P

크기의 패치들로 자른 뒤(예:

16\times 16

), 각 패치를 벡터(토큰)로 만듭니다. 밀집 셀프 어텐션 한 블록에서는 (기본형 기준) 모든 패치 쌍이 서로의 관련도를 계산합니다.

직관: CNN이 동네 돋보기라면, ViT는 한 번에 넓게 내려다보는 드론에 가깝습니다. 첫 블록에서도 화면 끝과 끝의 관계를 직접 맞출 수 있는 대신, 패치 개수

N

이 늘면 “누가 누구와 얼마나 말할지”를 적는 점수 행렬이 대략

N\times N

규모로 커져 메모리와 연산이 빠르게 무거워집니다.

스케일만 기억: 어텐션 점수를 만드는 단계는 흔히 $\mathcal{{O}}(N^2 d)$ 에 가깝게 느껴집니다(헤드 수·구현에 따라 상수는 달라짐).

3. ‘전역’을 한 입에 삼키지 않는 계층적 절충

연결: 윈도(작은 구역) 안에서만 먼저 어텐션하고, 시프트(창을 밀기)로 이웃 윈도와 정보를 섞으며, 머징으로 토큰 수를 줄입니다. 즉 “작은 전역”을 여러 번 겹쳐 큰 그림을 만드는 계층적 전략입니다.

한 줄 비유: CNN이 동네 방송, ViT가 전국 생방 토론, 윈도형 설계가 지역 방송국들이 연합해 전국 소식을 짜는 네트워크에 가깝습니다. 윈도·시프트·머징이 “CNN과 ViT 사이”에 서는 이유를, 이 장의 CNN·ViT 축과 맞춰 이해하면 됩니다.

4. 왜 ‘CNN vs ViT’를 같이 알아야 하나? (실무 설계)

모델 선택은 성능 표 한 줄이 아니라, 데이터에 대한 ‘가정 표’를 고르는 일에 가깝습니다.

* 데이터가 적거나 도메인이 까다로울 때: 이미지가 가까운 픽셀끼리 관련 있다는 가정이 강하게 먹히는 CNN·하이브리드가 수렴이 빠르고 안정적인 경우가 많습니다.

* 데이터가 매우 많고 강한 사전학습이 있을 때: 국소 가정에 덜 묶인 ViT 계열이 한계 성능(SOTA)에서 유리한 사례가 많습니다.

* 자율주행 객체 탐지·세그멘테이션처럼 픽셀 단위·여러 스케일이 중요하면: 계층 윈도형 백본, ConvNeXt, FPN 등 다운샘플 피라미드가 익숙한 CNN적 설계가 여전히 강합니다.

* 비용: ViT는

N

이 커질수록 OOM이 먼저 올 수 있으므로, 효율 어텐션과 윈도 기반 계층 설계는 같은 고민의 연장선입니다.