Ch.08

参数高效微调 1：PEFT 与 LoRA

不用整张大表，只用两块小的

不必把 整张权重表 从头重写。用 竖长的 B 乘 横长的 A 得到更新。中间宽度 r 越小，要学的数字就越少。

下图格子是示例尺寸（4\times2 \cdot 2\times5 \to 4\times5）。

① B：竖条② r：窄缝③ A：横条④ 合成一张

要学的数大约就是 两块小矩阵 那么多，比把整张表 逐格 对齐少得多。LoRA 只更新 那两块 。

主干 $W_0$ 像冻结的主路不动，只铺窄窄的 LoRA 匝道 $A,B$ 来对准任务。

大块预训练(W₀) 不动，只让 小的 A\cdotB 去学，轻轻把输出推一推。 宽主路 和 窄近道 汇合，得到 最终答案 。

加载骨干冻结 W₀训练 A·Bα/r 缩放输出/合并

训练流程一览

① 加载骨干： 直接使用已经训练好的大模型作为起点。 ② 冻结： 原始权重不动，让训练信号主要走 LoRA 和顶层。 ③ 训练 LoRA： 只学两块小的（A\cdotB），轻轻推动输出。 ④ 调节强度： 用缩放（常见为 α\divr 等）控制 LoRA 影响多大，具体因实现而异。 ⑤ 使用与发布： 验证满意后，把更新并回主权重，或只发布适配器。

BA

W_0

PEFT 与 LoRA：只更新少量参数做微调

W_0

W_0

BA

W_0

W_0

PEFT 与 LoRA：只更新少量参数做微调

1. 为何 PEFT？（留框架，换家具）

* 概念： 像 ChatGPT 这样的模型可以有数百亿参数。全量微调要更新全部权重——需要强力 GPU 和巨大的检查点。PEFT泛指只训练极小一部分（常低于 1%），让模型高效变聪明的一类技术。

* 类比： 没人为了“冬天氛围”就换新手机——你会套一个冬季手机壳（PEFT）。不同用途换不同壳；不同任务换轻量适配器。

* 实务： 性价比很高，但若适配器太小或数据太少，模型可能吸不进新知识——学习率和训练设置很关键。

2. LoRA 的秘密：两个小矩阵，替代一张巨表

* 概念： 深度模型由大堆数字表组成；把原始那张叫

W_0

。LoRA 冻结

W_0

，只学两个小矩阵

B

与

A

。核心关系是

\Delta W = B A

。

* 类比： 为了改一处错字就去重印一千页百科全书（

W_0

）太浪费；不如在那一页贴一张小便利贴（ $BA$ ）。

* 细节：

A

把信息压到要点；

B

再扩回去——所以比整表重写要少训练很多数字。

3. LoRA 的旋钮：秩 $r$ 与缩放 $\alpha$

* 概念： 两个旋钮最重要：秩 $r$ 与 缩放 $\alpha$ 。

* 秩 $r$ （旁路有几条“车道”）： 想象“便利贴有多大”。

r=8

是八车道旁路；

r=16

更宽——更聪明也更吃显存。

* 缩放 $\alpha$ （新知识混得多猛）： 放大

BA

与冻结的

W_0

混合强度。

* 小贴士： 显存紧就降 $r$ ；模型吃不进你的数据就略升 $r$ 试试。

4. 串起第04、05章——并预告第09章

* 概念： 还记得第04〜05章的注意力吗？LoRA 常在

Q

、

K

、

V

上“贴便利贴”——只要有线性权重矩阵，就能挂 LoRA。

* 预告： 即便用了 LoRA，大房子（

W_0

）本身仍占很多显存。第 09 章会讲量化 + LoRA 的 QLoRA 组合，把骨干再瘦一圈。