Ch.08

PEFT와 LoRA: 적은 파라미터만 고쳐서 미세조정

큰 표 대신, 작은 두 조각

큰 가중치 표 를 통째로 고치지 않고, 세로로 긴 B 와 가로로 긴 A 를 곱해 업데이트를 만듭니다. 가운데 폭 r 이 작을수록 새로 맞출 숫자가 훨씬 적습니다.

아래 격자는 예시 크기입니다 (4\times2 \cdot 2\times5 \to 4\times5).

① B: 세로로② r: 좁은 길③ A: 가로로④ 합친 표

학습하는 숫자는 두 작은 행렬을 합친 분량 정도로 줄고, 표 전체를 칸마다 맞추는 경우보다 훨씬 적습니다. LoRA는 그 두 조각 만 바꿉니다.

PEFT·LoRA: 적은 파라미터만 고쳐서 미세조정

거대 백본은 그대로 두고, 좁은 LoRA 보조 차선(A·B)만 깔아 목적지에 맞춥니다.

이미 만들어 둔 큰 덩어리(W₀) 는 그대로 두고, 작은 A\cdotB 두 조각 만 새로 배워서 출력을 살짝 돌립니다. 굵은 길 과 좁은 지름길 이 만나 최종 답 이 됩니다.

백본 로드W₀ 동결A·B 학습α/r 스케일출력·병합

학습 흐름 한눈에

① 사전학습 백본: 이미 학습된 큰 모델 뼈대를 그대로 가져옵니다. ② 동결: 원래 가중치는 손대지 않고, LoRA와 맨 위 층 쪽으로만 학습 신호가 가게 합니다. ③ LoRA 학습: 작은 두 조각(A\cdotB)만 새로 맞춰서 출력을 살짝 바꿉니다. ④ 세기 조절: LoRA가 얼마나 반영될지 스케일(보통 α를 r로 나눈 값 등)로 맞춥니다. 구현마다 조금씩 달라요. ⑤ 쓰기\cdot합치기\cdot나누기: 잘 나오는지 확인한 뒤, 보정을 원래 가중치에 합치거나 어댑터만 따로 배포할 수 있습니다.

W_0

수식, 이렇게 읽으면 됩니다 (LoRA 한 층)

W_0

PEFT와 LoRA: 적은 파라미터만 고쳐서 미세조정

W_0

왜 중요한지

W_0

어떻게 쓰이는지

BA

요약

W_0

문제 풀이를 위한 설명

W_0

PEFT와 LoRA: 적은 파라미터만 고쳐서 미세조정

1. 왜 PEFT를 사용해야 할까요? (골조는 남기고 가구만 바꾸기)

개념: 챗GPT 같은 거대 모델들은 뇌세포(파라미터)가 수백억 개에 달합니다. 이 파라미터를 모두 업데이트하는 전체 미세조정은 엄청난 성능의 GPU를 요구하며, 결과를 저장할 때도 거대한 용량을 차지합니다. PEFT는 전체 파라미터 중 아주 일부(보통 1% 미만)만 학습시켜 모델을 효율적으로 똑똑하게 만드는 모든 기술을 뜻합니다.

비유: 겨울 분위기를 내고 싶다고 스마트폰을 새로 사는 사람은 없습니다. 대신 예쁜 겨울용 폰케이스(PEFT)만 씌우면 되죠! 용도에 따라 케이스만 바꿔 끼우듯, 모델을 쉽게 변신시킬 수 있습니다.

실전 주의: 가성비가 최고지만 주의점도 있습니다. 추가하는 가구(파라미터)가 너무 작거나, 학습 데이터가 부족하면 새로운 지식을 제대로 흡수하지 못할 수 있습니다. 그래서 학습률(Learning Rate) 등 환경 설정을 잘 조절하는 것이 핵심입니다.

2. LoRA의 비밀: 거대한 행렬 대신 작은 행렬 두 개 곱하기

개념: 딥러닝 모델은 거대한 숫자 표(행렬)들로 이루어져 있습니다. 이 원래의 거대한 행렬을

W_0

라고 합시다. LoRA는

W_0

는 꽁꽁 얼려두고(동결), 새로운 지식을 배울 작은 행렬 두 개(

B

와

A

)를 만듭니다. 핵심 수식은

\Delta W = B A

입니다.

비유: 아주 두꺼운 1000페이지짜리 백과사전(

W_0

)에 오타를 수정하려고 통째로 다시 인쇄하는 건 비효율적입니다. 대신, 수정 사항이 적힌 작은 포스트잇(

BA

)을 해당 페이지에 살짝 붙이는 것과 같습니다.

상세 설명:

A

행렬은 방대한 정보를 핵심만 요약(압축)하는 역할을 하고,

B

행렬은 그 요약된 정보를 다시 원래 크기로 풀어주는(복원) 역할을 합니다. 이렇게 하면 거대한 행렬을 직접 고치는 것보다 학습해야 할 숫자가 기적적으로 줄어듭니다.

3. LoRA의 조종석: 핵심 하이퍼파라미터

개념: LoRA를 조종하려면 두 가지 중요한 다이얼을 알아야 합니다. 바로 랭크 $r$ 과 스케일 $\alpha$ 입니다.

랭크 $r$ (보조 차선의 개수): 포스트잇의 크기라고 볼 수 있습니다.

r

이 8이면 8차로 우회로, 16이면 16차로입니다. 숫자가 클수록 똑똑해질 수 있지만, 메모리도 더 많이 차지합니다.

스케일 $\alpha$ (지식 반영의 강도): 새로 배운 지식(

BA

)을 기존 지식(

W_0

)에 얼마나 적극적으로 반영할지 결정하는 증폭기입니다.

실전 꿀팁: 컴퓨터 메모리가 벅차면

r

을 줄이세요! 반대로 모델이 내 데이터를 잘 못 맞춘다면

r

을 살짝 키워보는 것이 좋습니다.

4. 다른 챕터들과의 찰떡 연결

개념: Chapter 04와 05에서 배운 어텐션(Attention) 모듈 기억나시나요? LoRA는 주로 이 어텐션 모듈의 핵심 부품들(질문

Q

, 열쇠

K

, 값

V

)에 포스트잇을 붙이는 데 많이 사용됩니다. 선형층(가중치 행렬)이 있는 곳이라면 어디든 LoRA를 찰싹 붙일 수 있습니다.

예고편: 하지만 LoRA를 써도 원래의 거대한 집(

W_0

) 자체가 뚱뚱해서 메모리를 차지할 수 있습니다. 그래서 다음 Chapter 09에서는 이 거대한 모델 자체를 가벼운 소재로 압축해 버리는 양자화(Quantization) 기술과 LoRA를 결합한 환상의 짝꿍, QLoRA를 만나게 됩니다.