Ch.01

트랜스포머 1: 셀프 어텐션으로 한 번에 보기

트랜스포머 모델은 단어 간의 관계를 파악하는 셀프 어텐션(Self-Attention), 학습의 안정성을 책임지는 Add & Norm(잔차 연결과 층 정규화), 그리고 파악된 정보를 깊이 있게 가공하는 피드포워드(Feed Forward) 신경망 이라는 세 가지 톱니바퀴로 맞물려 돌아갑니다. 과거의 모델들이 단어를 하나씩 순서대로 읽으며 앞내용을 까먹곤 했다면, 트랜스포머는 문장 전체를 조감도처럼 내려다보며 처리합니다. 이 챕터에서는 초보자도 쉽게 이해할 수 있도록 Query, Key, Value를 통한 어텐션 메커니즘부터, 모델이 지치지 않고 깊게 학습하도록 돕는 Add & Norm과 피드포워드의 직관적인 원리까지 친절하게 알아봅니다.

수식 쉽게 이해하기

Q=XW_Q

셀프 어텐션은 각 토큰이 전체 토큰을 참고해 문맥을 재구성하는 연산입니다.

개념 구조: Q/K/V → 점수 → 정규화 → 가중합

약한 참고중간 참고강한 참고

트랜스포머 1: 셀프 어텐션으로 한 번에 보기

x

왜 중요한지

어떻게 쓰이는지

\rightarrow

요약

Q, K, V

문제 풀이를 위한 설명

A=\mathrm{softmax}(QK^T/\sqrt{d_k})

트랜스포머 1: 셀프 어텐션으로 한 번에 보기

1. 셀프 어텐션(Self-Attention): 문맥을 파악하는 눈

셀프 어텐션은 문장 안의 각 단어가 다른 모든 단어를 동시에 바라보고, 지금 단어를 이해하기 위해 '어떤 단어를 얼마나 참고할지' 가중치를 정하는 과정입니다. 비유하자면 도서관에서 책을 찾는 것과 같습니다. 내가 궁금한 검색어(Query)를 들고, 책들의 키워드(Key)를 확인한 뒤, 가장 관련성 높은 책의 실제 내용(Value)을 골라내는 것이죠. 이를 통해 "배를 타고 강을 건너다 배가 아파서 배를 먹었다"라는 문장에서 각각의 '배'가 주변 단어들과 어떻게 연결되는지 한 번에 파악합니다.

2. Add (잔차 연결, Residual Connection): 정보의 고속도로

어텐션을 통과한 정보는 Add 단계를 거칩니다. 수학적으로는 입력값

x

를 어텐션 결과에 그대로 더해주는

x + \mathrm{Attention}(x)

형태입니다. 비유하자면 '우회도로(지름길)'를 뚫어주는 것과 같습니다. 딥러닝은 층이 깊어질수록 원본 데이터의 정보가 희미해지거나 왜곡되기 쉬운데, 원본 데이터를 징검다리처럼 안전하게 다음 층으로 곧바로 넘겨주어 학습의 방향을 잃지 않게(기울기 소실 방지) 도와주는 든든한 안전망 역할을 합니다.

3. Norm (층 정규화, Layer Normalization): 멘탈 관리와 영점 조절

Add를 거친 데이터는 값이 들쭉날쭉해질 수 있습니다. 그래서 Norm 단계를 통해 데이터의 평균을 0, 분산을 1로 맞추어 줍니다. 수식으로는

\frac{x - \mu}{\sigma}

의 형태를 띱니다. 학교 시험 점수를 과목별로 '표준 편차'를 내어 공평하게 평가하듯, 신경망 안의 숫자 값들이 폭주하거나 죽어버리지 않도록 '영점 조절'을 해주는 과정입니다. 덕분에 모델은 훈련 내내 안정적인 컨디션을 유지합니다.

4. 피드포워드 신경망 (Feed Forward): 개별 심층 면접

어텐션이 '단어와 단어 사이의 관계'를 모아서 섞는 단체 토론이라면, 피드포워드(FFNN)는 각 단어를 따로따로 불러내어 '개별 심층 면접'을 보는 과정입니다. 여기서 각 단어의 벡터는 다른 단어의 눈치를 보지 않고 오직 자기 자신의 의미를 더 깊고 복잡하게 변환(

\mathrm{ReLU}(xW_1 + b_1)W_2 + b_2

)합니다. 이처럼 [어텐션

\rightarrow

Add & Norm

\rightarrow

피드포워드

\rightarrow

Add & Norm]의 흐름이 바로 트랜스포머를 구성하는 하나의 핵심 블록(Encoder Block)입니다.