Ch.02

트랜스포머: 위치 인코딩과 피드포워드

트랜스포머의 셀프 어텐션은 단어들 끼리의 관계 를 파악하는 데는 탁월하지만, 단어가 문장 속 어느 위치에 있는지 스스로 알지 못하는 치명적인 단점이 있습니다. 이를 해결하기 위해 단어의 임베딩에 '몇 번째 단어인지' 알려주는 위치 인코딩(Positional Encoding) 이름표를 붙여줍니다. 또한, 어텐션으로 모인 정보를 각 단어별로 깊이 있게 재가공하는 피드포워드(Feed Forward, FFN) 층이 이어집니다. 이 챕터에서는 파동의 원리를 이용한 사인\cdot코사인 위치 인코딩의 직관적인 이해와, 토큰들의 개별 심층 면접관 역할을 하는 FFN의 작동 원리를 초보자의 눈높이에서 쉽고 재미있게 알아봅니다.

수식 쉽게 이해하기

h_t^{(0)} = x_t + PE(t)

위

왼쪽부터 읽는 방향 으로, 각 칸마다 말의 뜻 과 몇 번째인지를 숫자로 만든 정보(PE) 를 한데 더해요.

아래

줄끼리는 서로 섞지 않고, 똑같은 계산 블록 (같은 가중치로 하는 같은 연산)을 네 줄이 각각 한 번씩 거쳐요.

논문에서는 이 계산 블록을 FFN 이라고 부릅니다.

① 입력 만들기 → (중간 단계 생략) → ② 줄마다 같은 FFN

① 다음에 ② 가 같은 블록 안에서 차례로 진행돼요.

한 블록 안 순서

① 먼저 뜻 + 순서(PE) 를 더해 입력 을 만듭니다. (가운데 어텐션 등은 그림에서 생략)

② 그다음 같은 FFN 으로 줄마다 한 번씩 다듬어요. 줄끼리는 서로 안 섞어요.

번호뜻순서값계산 블록(FFN)

트랜스포머: 위치 인코딩과 피드포워드

PE(p)

왜 중요한지

\rightarrow

어떻게 쓰이는지

\rightarrow

요약

트랜스포머가 문맥을 잘 보는 이유의 절반은 셀프 어텐션에 있지만, 문장이 가진 순서 와 어느 칸의 토큰인지 를 안정적으로 모델에 전달하려면 위치 정보를 별도로 실어 보내는 과정이 필요합니다. 전통적인 사인\cdot코사인 위치 인코딩은 여러 주파수의 파동을 겹쳐 위치마다 서로 다른 패턴의 벡터를 만들고, 이를 토큰 임베딩에 더해 초기 표현을 완성합니다. 이후 블록에서는 어텐션이 토큰들 사이의 관계를 조정하고, 피드포워드 층은 그 결과를 토큰별로 동일한 비선형 변환을 반복 적용해 표현을 깊게 다듬습니다. 이때 중간 차원을 넓혔다가 다시 줄이는 구조는 연산 비용과 표현력 사이의 현실적인 타협점이 되며, 번역\cdot요약\cdot분류\cdot생성 같은 응용 전반에서 공통으로 등장하는 설계입니다.

문제 풀이를 위한 설명

h=x+PE(pos)

트랜스포머: 위치 인코딩과 피드포워드

1. 개념: 왜 위치 인코딩이 필요한가? (영화관 좌석표)

셀프 어텐션은 문장을 한 번에 뭉텅이로 처리하기 때문에 단어의 '순서'를 모릅니다. 즉, "아빠가 방에 들어간다"와 "가방에 아빠가 들어간다"를 똑같이 인식할 위험이 있습니다. 위치 인코딩(Positional Encoding)은 각 단어 벡터에 위치 정보가 담긴 벡터

PE(p)

를 더해주는(Add) 과정입니다.

직관적 이해: 영화관표에 "어벤져스(단어 의미)"만 적혀 있고 "좌석 번호(위치)"가 없다면 대혼란이 오겠죠? PE는 각 단어의 목에 "나는 1번 단어다", "나는 2번 단어다"라는 고유한 좌석 번호 띠를 걸어주는 것과 같습니다.

2. 개념: 사인·코사인 위치 인코딩 (시계 비유로 이해하기)

먼저 직관만: 벽시계를 떠올려 보세요. 초침은 빨리 돌고, 분침은 중간, 시침은 아주 천천히 돕니다. 세 바늘이 가리키는 방향이 만드는 모양만 보면 "지금 몇 시 몇 분"처럼 이 단어가 문장에서 몇 번째인지를 짚는 데 도움이 됩니다. 바늘마다 도는 속도가 다르기 때문에 두 시각이 가까운지 먼지(상대 거리)도 같이 읽기 쉬워집니다. 사인·코사인 PE도 느린 파동·빠른 파동을 여러 겹 포개서, 위치마다 서로 다른 숫자 패턴을 만드는 느낌과 비슷합니다.

한 단계만 더: 옛 트랜스포머 논문은 위치마다 벡터를 만들 때, 차원을 나누어 어떤 칸에는

\sin

처럼 돌아가며 반복되는 값, 짝을 이루는 칸에는

\cos

형태를 넣습니다. 주파수를 여러 단계로 두면 가까운 칸과 먼 칸을 모델이 구분하기 쉬워집니다.

수식 (외울 필요 없음, 참고용): 짝수 차원

2i

에는

PE(t, 2i) = \sin(t / 10000^{2i/d_{model}})

, 홀수 차원

2i+1

에는 같은 지수를 쓴

\cos(\cdots)

가 전형적입니다.

t

는 몇 번째 토큰인지,

i

는 벡터의 몇 번째 차원인지,

d_{model}

은 벡터 길이입니다.

쉬운 풀이: 위 식은 "몇 번째 자리( $t$ )마다 숫자로 된 위치 지문을 하나 만든다"고 보면 됩니다. 벡터는 길이

d_{model}

인 여러 칸이고, 칸을 둘씩 짝지어 한 바퀴 도는 속도가 다른 파동을 넣습니다. $t$ 는 "문장에서 몇 번째 토큰인가"이고, $i$ 는 "그 긴 벡터에서 몇 번째 주파수(느린 파~빠른 파)를 쓰는가"에 가깝습니다. $d_{model}$ 은 전체 길이라서, 지수 안에서 파동이 너무 빠르거나 느리지 않게 스케일을 맞출 때 등장합니다. 바로 옆 자리(

t

가 1만큼 차이)면 파동 값이 조금씩만 바뀌고, 멀리 떨어진 자리는 패턴이 더 달라지기 쉬워 "누가 앞·뒤인지" 같은 상대 거리를 읽는 데 도움이 됩니다. $\sin$ 과 $\cos$ 를 짝으로 두면, 마치 바늘이 도는 각도를 두 숫자로 적는 것처럼 한 위치를 더 안정적으로 표현할 수 있습니다(세부는 외울 필요 없음).

활용: 긴 문맥 인코더 등; 이후 모델은 학습형 위치 임베딩·RoPE 등 다른 방식으로도 발전했습니다.

3. 개념: 피드포워드(FFN) — 단어 하나씩 ‘깊은 상담’

한 줄 요약: 어텐션은 단어들이 서로 섞이며 문맥을 나누는 단계이고, FFN은 그다음에 각 단어 줄을 따로 유지한 채 같은 계산을 줄마다 한 번씩 하는 단계입니다(위쪽 그림의 초록 계산 블록이 이 역할에 가깝습니다).

비유: 회의에서 다 같이 이야기(어텐션)한 뒤, 참가자 한 명씩 상담실에 들어가 개인 면담(FFN)을 받는 것과 비슷합니다. 숫자 벡터의 길이(

d_{model}

)를 잠깐 넓혔다가(중간을 크게) 다시 원래 길이로 줄이는 모래시계 모양이 흔합니다.

왜 필요할까요? 어텐션만으로는 ‘곱·더하기’ 위주라 표현이 한계에 걸릴 수 있습니다. FFN 안에 ReLU(

\max(0,\cdot)

)처럼 0보다 작은 값을 잘라 내는 비틀기를 넣어, 직선만으로는 못 그리는 굴곡진 패턴을 배우게 합니다.

수식(참고):

\mathrm{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2

. 보통 모든 위치가 같은

W_1,W_2

를 씁니다.

4. 개념: 한 블록 안 흐름 — 컨베이어 한 칸

한 줄 요약: 인코더 블록 하나는 공장 작업 라인 한 칸처럼, 항상 같은 순서로만 돌아갑니다.

쉬운 순서:

1. 출발 준비: 단어 임베딩에 위치(PE)를 더해 ‘몇 번째 단어인지’가 붙은 상태로 만듭니다.

2. 같이 섞기: 어텐션으로 단어들이 서로 문맥을 주고받습니다.

3. 안 잊게 잇기: Add & Norm — 아까 값을 조금 더해 받침(잔차)을 두고, 숫자 크기를 가지런히(층 정규화) 맞춥니다.

4. 각자 손보기: FFN으로 각 단어 줄을 비선형으로 다듬습니다.

5. 다시 Add & Norm으로 한 번 더 정리합니다.

수식(참고): 먼저

h' = \mathrm{LayerNorm}(h + \mathrm{Attn}(h))

, 이어서

h'' = \mathrm{LayerNorm}(h' + \mathrm{FFN}(h'))

. 이 한 덩어리를 여러 겹 쌓으면 표현이 점점 풍부해집니다.