Ch.08

PEFT 1：PEFTとLoRA

大きい表より、小さな二枚

大きな重み表 を一から全部書き換えるのではなく、 縦に長い B と 横に長い A を掛けて更新を作ります。真ん中の幅 r が小さいほど、学習する数はずっと少なくなります。

図の格子は例として 4\times2 \cdot 2\times5 \to 4\times5 のサイズです。

① B: 縦② r: 狭い③ A: 横④ 一枚に

学習する数は 小さな二枚の行列ぶん に抑えられ、表全体をマス目ごとに合わせるよりずっと少なくなります。LoRA は その二枚 だけを更新します。

巨大な本線 $W_0$ はそのまま、狭いLoRAランプ $A,B$ だけ敷いてタスクへ合わせます。

大きな事前学習ブロック(W₀) はそのまま。 小さなA\cdotB だけ学習して出力を少し動かします。 太い道 と 細い近道 が合わさって 最終出力 になります。

バックボーン読込W₀凍結A·B学習α/rスケール出力/マージ

学習の流れ

① バックボーン読込: すでに学習済みの大きなモデルをそのまま用意する。 ② 凍結: もとの重みは触らず、LoRAと上の層側に学習信号を通す。 ③ LoRA学習: 小さな二枚（A\cdotB）だけを新しく合わせて、出力を少し動かす。 ④ 強さの調整: LoRAがどれだけ効くか、スケール（多くは α\divr など）で合わせる。実装ごとに違う。 ⑤ 使う・統合・配布: 十分か確認したあと、更新を本体にまとめるか、アダプターだけ配る。

W_0

W_0

PEFTとLoRA: 少ないパラメータだけ直してファインチューニング

W_0

W_0

BA

W_0

W_0

PEFTとLoRA: 少ないパラメータだけ直してファインチューニング

1. なぜ PEFT？（骨組みは残して家具だけ）

* 概念: ChatGPT級の巨大モデルはパラメータが数百億あります。フルファインチューニングはすべて更新するため強力なGPUと巨大な保存が要ります。PEFTは全体のごく一部（通常1%未満）だけ学習して、モデルを効率よく賢くする技術の総称です。

* 比喩: 冬の雰囲気のためにスマホを買い替える人はいません。冬用ケース（PEFT）を付けるだけでしょ？用途に合わせてケースを替えるように、モデルも軽く変身できます。

* 実戦: コスパは最高ですが、追加するパラメータが小さすぎたりデータが足りなかったりすると知識が吸収できません。学習率などの設定調整が鍵です。

2. LoRAの秘密: 巨大行列の代わりに二つの小さい行列の積

* 概念: ディープモデルは巨大な表（行列）の集まりです。元の巨大行列を

W_0

とします。LoRA は

W_0

を凍結し、新しい知識を学ぶ小さな二つの行列

B

と

A

を作ります。核は

\Delta W = BA

です。

* 比喩: 1000ページの百科事典（

W_0

）の誤植を直すのに全刷りは非効率。小さな付箋（ $BA$ ）をそのページに貼るようなものです。

* 詳細:

A

は情報を要約（圧縮）し、

B

はそれを元のサイズに戻す（復元）役です。巨大行列を直接いじるより、学習する数が劇的に減ります。

3. LoRAの操縦席: ランク $r$ とスケール $\alpha$

* 概念: LoRA を操るには二つのダイアル、ランク $r$ と スケール $\alpha$ が重要です。

* ランク $r$ （補助レーンの本数）: 付箋の大きさのイメージ。

r=8

なら8車線の迂回路、

r=16

なら広い——賢くなるほどメモリも増えます。

* スケール $\alpha$ （知識の混ぜ方の強さ）: 新しく学んだ

BA

を凍結した

W_0

にどれだけ強く混ぜるかの増幅器です。

* 実戦のコツ: メモリがきつければ

r

を下げる！データに合わないなら

r

を少し上げてみる。

4. 他章とのつながり

* 概念: 第04・05章の注意（Attention）モジュール、覚えていますか？LoRA は多くの場合

Q,K,V

などの部品に付箋を貼るように使われます。線形層（重み行列）がある所ならどこにでも貼れます。

* 予告: それでも元の巨大な家（

W_0

）自体が太ってメモリを食います。だから第09章では、モデル本体を軽い素材に圧縮する量子化と LoRA を組み合わせた QLoRA が登場します。