Ch.03

트랜스포머 계보: BERT는 이해, GPT는 생성

트랜스포머라는 위대한 발명품은 크게 두 갈래의 가문으로 발전했습니다. 문장 전체를 한 번에 꿰뚫어 보는 인코더 가문의 BERT(이해형 모델) 와, 앞선 단어들을 바탕으로 다음 단어를 끊임없이 지어내는 디코더 가문의 GPT(생성형 모델) 입니다. BERT가 '수능 국어 영역 빈칸 추론'의 달인이라면, GPT는 '끝말잇기와 소설 쓰기'의 천재입니다. 이 챕터에서는 두 모델이 어떤 방식으로 학습을 하고, 왜 실무에서 쓰임새가 완전히 다른지 초보자도 쉽게 이해할 수 있는 비유와 함께 정리합니다.

BERT는 문장 전체를 동시에 참고 해 표현을 만들고, GPT는 지금까지의 토큰만 보고 다음 토큰을 이어 붙입니다.

개념 구조: 인코더형(이해) vs 디코더형(생성)

I love deep learning 토큰 관계

BERT

양방향: 각 토큰이 모든 토큰을 함께 참고

왼쪽 미니 비주얼은 멀티헤드 어텐션의 핵심을 단순화해 보여줍니다. 여러 헤드가 서로 다른 관계를 병렬로 보고, 결과를 합쳐(Concat + Projection) 양방향 문맥 표현을 만듭니다.

GPT

인과적: 현재 토큰은 왼쪽(과거) 토큰만 참고

미래 X

오른쪽은 마스크 멀티헤드 어텐션입니다. 구조는 멀티헤드와 같지만, 인과 마스크를 씌워 현재 위치가 미래 토큰을 보지 못하게 제한하고 자기회귀(next-token) 학습을 가능하게 합니다.

BERT 계열

학습 흐름: 토큰화 → 마스크/목표 설정 → 층 반복 → 헤드

① 인코더(BERT): 토큰들이 서로 양방향으로 참고

GPT 계열

미래 토큰 차단

② 디코더(GPT): 왼쪽 문맥만 보고 다음 칸 예측

모델 작동: 양방향 표현 vs 자기회귀 생성

③ 학습 목표: MLM(가려 맞추기) vs 다음 토큰 로그우도

④ 추론: 분류·임베딩 vs 프롬프트로 토큰 생성

BERT 계열

학습 흐름: 토큰화 → 마스크/목표 설정 → 층 반복 → 헤드

① 인코더(BERT): 토큰들이 서로 양방향으로 참고

GPT 계열

미래 토큰 차단

② 디코더(GPT): 왼쪽 문맥만 보고 다음 칸 예측

모델 작동: 양방향 표현 vs 자기회귀 생성

③ 학습 목표: MLM(가려 맞추기) vs 다음 토큰 로그우도

④ 추론: 분류·임베딩 vs 프롬프트로 토큰 생성

수식 쉽게 이해하기

h_t^{(0)} = x_t + PE(t)

트랜스포머 계보: BERT는 이해, GPT는 생성

w_t

왜 중요한지

어떻게 쓰이는지

요약

트랜스포머는 하나의 큰 흐름에서 인코더 가문의 BERT 와 디코더 가문의 GPT 로 나뉘어 왔고, 둘은 학습 목표와 추론 방식이 달라 실무에서 맡는 역할도 크게 갈립니다. BERT는 문장 전체를 양방향으로 읽으며 MLM 등으로 표현 을 다지고, 분류\cdot검색\cdot개체명 인식처럼 이해와 판별 이 중요한 자리에 자주 쓰입니다. GPT는 미래를 가린 채 앞 단어만 보고 다음 토큰을 이어 생성 을 배우기 때문에 챗봇\cdot초안\cdot코드 완성처럼 새 텍스트를 만들어야 하는 작업과 잘 맞습니다. 마스킹 규칙은 생성의 공정성과 시간 순서를 지키는 데도 중요하고, 요즘은 검색으로 근거를 가져와 생성만 맡기는 RAG처럼 두 계열을 조합 하는 설계도 흔합니다.

문제 풀이를 위한 설명

p(x_t\mid x_{<t})

트랜스포머 계보: BERT는 이해, GPT는 생성

1. BERT: 문장을 양방향으로 읽고 '이해'하는 인코더형

개념: BERT(Bidirectional Encoder Representations from Transformers)는 트랜스포머의 인코더(Encoder) 부분만 떼어내어 발전시킨 모델입니다. 핵심은 양방향(Bidirectional) 문맥 파악입니다. 왼쪽 단어와 오른쪽 단어를 동시에 참고하여 현재 단어가 문장에서 어떤 의미로 쓰였는지 가장 정확한 '표현 벡터'를 만들어냅니다.

직관적 이해: 환자를 진찰할 때 과거 병력(왼쪽)과 현재 검사 결과(오른쪽)를 동시에 펼쳐놓고 종합적으로 판단하는 명의와 같습니다. 전체적인 그림을 한 번에 보기 때문에 문맥을 파악하는 능력이 탁월합니다.

수학적 설명: BERT의 대표적인 학습 방법은 MLM(Masked Language Modeling)입니다. 문장 중간의 단어에 구멍(`[MASK]`)을 뚫어놓고, 주변 문맥을 이용해 정답 토큰(

w_t

)의 확률 분포

p(w_t \mid \text{전체 문맥})

를 맞추도록 훈련합니다.

실제 적용: "이 리뷰는 긍정인가요 부정인가요?", "이 문서에서 사람 이름과 날짜를 찾아주세요" 같은 텍스트 분류, 개체명 인식, 문서 검색 등에 압도적으로 많이 쓰입니다.

2. GPT: 다음 단어를 끊임없이 '생성'하는 디코더형

개념: GPT(Generative Pre-trained Transformer)는 트랜스포머의 디코더(Decoder) 부분을 발전시킨 모델입니다. 이 모델은 문장을 처음부터 끝까지 한 번에 보지 못하게 마스크(Mask)로 미래의 단어들을 가려놓고, 오직 과거의 단어들( $1\ldots t-1$ )만 보고 다음 단어( $t$ )를 예측하는 자기회귀(Autoregressive) 방식으로 작동합니다.

직관적 이해: 타자기로 소설을 쓰는 작가와 같습니다. 작가는 아직 쓰지 않은 다음 문장을 미리 볼 수 없습니다. 지금까지 써 내려간 글의 흐름을 바탕으로 가장 자연스러운 다음 단어를 상상해서 적어 나갑니다.

수학적 설명: 현재 위치보다 뒤에 있는 미래 토큰 정보가 섞이지 않도록, 어텐션 행렬에서 대각선 위쪽 영역을

-\infty

로 덮어버리는 Causal Masking을 사용합니다. 학습은 이전 토큰들(

x_{<t}

)이 주어졌을 때 다음 정답 토큰(

x_t

)이 나올 조건부 확률

-\log p(x_t\mid x_{<t})

을 극대화하는 방향으로 진행됩니다.

실제 적용: 챗봇의 답변 생성, 이메일 초안 작성, 코드 자동 완성 등 "무언가를 새로 만들어내는(생성)" 모든 작업에 특화되어 있습니다.

3. 학습 목표의 차이: 빈칸 채우기 vs 끝말잇기

개념: 모델의 뼈대가 다르니 훈련 방식도 다릅니다. BERT는 표현(Representation)을 깊게 이해하기 위해 빈칸을 뚫고 주변 힌트로 맞추는 훈련을 합니다. 반면 GPT는 오로지 생성(Generation) 능력을 키우기 위해 앞 단어만 보고 다음 단어를 이어 말하는 훈련에 집중합니다.

직관적 이해: BERT 훈련소는 "나는 어제 [MASK]에서 밥을 먹었다"라는 시험지를 주고 빈칸에 '식당'이 들어갈지 맞추게 합니다. GPT 훈련소는 "나는 어제 식당에서..."까지만 보여주고 그 뒤에 자연스럽게 이어질 단어들을 계속 지어내게 만듭니다.

핵심 수식 포인트:

- 입력 시작:

h_t^{(0)} = x_t + PE(t)

- 문맥 혼합:

\mathrm{Attn}(Q,K,V)=\mathrm{softmax}(QK^T/\sqrt{d_k})V

- BERT 목표:

\mathcal{L}_{\mathrm{MLM}}=-\sum_{t\in\mathcal{M}}\log p(w_t\mid X)

- GPT 목표:

\mathcal{L}_{\mathrm{LM}}=-\sum_t \log p(x_t\mid x_{<t})

4. 추론(Inference) 방식의 차이: 즉시 판독 vs 스트리밍 생성

개념: 서비스를 운영할 때 사용자 경험(UX)도 달라집니다. BERT는 문장이 통째로 들어오면 한 번의 연산으로 각 단어의 의미 벡터를 '짠' 하고 즉시 뽑아냅니다. 반면 GPT는 프롬프트(질문)를 받으면 한 단어를 만들고, 그 단어를 다시 입력으로 넣어 다음 단어를 만드는 과정을 반복하며 글자를 주르륵 뽑아냅니다.

직관적 이해: BERT는 스캐너처럼 문서 전체를 한 번에 훑고 결론(라벨)을 도출합니다. GPT는 실시간 번역가나 타자기가 한 글자씩 또박또박 말을 이어가는 것과 같습니다. 이 때문에 GPT 류는 출력 길이가 길어질수록 연산 시간이 늘어납니다.