Ch.02

Transformer：位置エンコーディングとフィードフォワード

セルフアテンションは トークン同士の関係 を捉えますが、文中の 何番目か という順序情報は単体では弱いことがあります。そこでトランスフォーマーはトークン埋め込みに 位置エンコーディング(PE) を足し、「どの位置の単語か」をモデルに伝えます。ブロック内で関係を混ぜたあと、 フィードフォワード(FFN) が各トークン表現を深く更新します。本章では正弦・余弦型PEの直感、学習型位置埋め込みとの違い、FFNの トークンごとのMLP 役割を初心者向けに整理します。

数式の読み方

h_t^{(0)} = x_t + PE(t)

上

左から右に読み、各マスで 意味 と 何番目かを数にした情報（PE） を 足す 。

下

本同士は 混ぜず 、 同じ計算ブロック （同じ重み・同じ演算）を 4 本が それぞれ 一度ずつ通ります。

論文ではこの計算ブロックを FFN と呼びます。

① 入力を作る →（中間は省略）→ ② 本ごとに同じFFN

① のあと ② が、同じブロックの中で順に進みます。

1ブロック内の順番

① まず 意味+順番(PE) を足して 入力 を作ります。（間の注意は図では省略）

② そのあと 同じFFN を本ごとに一度ずつ通します。本同士は混ぜません。

番号意味順の値計算ブロック(FFN)

トランスフォーマー: 位置エンコーディングとフィードフォワード

p

なぜ重要か

d_{ff}

どう使うか

d_{ff}

まとめ

注意機構が強力でも、各トークンが どの位置か を安定して伝えるには、順序情報を別途ベクトルで載せる必要があります。正弦・余弦PEは複数の周波数で位置パターンを作り、埋め込みに足して初期表現を完成させます。その後、注意がトークン間を調整し、FFNが各位置で同じ非線形変換を繰り返して表現を練ります。拡張してから戻すFFNは、品質と計算コストの現実的なつまみです。

解法のための説明

h=x+PE(pos)

トランスフォーマー: 位置エンコーディングとフィードフォワード

1. 概念: なぜ位置エンコーディングか

セルフアテンションは系列全体を見ますが、入力が埋め込みの並びだけだと先頭と末尾の区別が弱くなります。位置エンコーディングは各位置

p

に長さ

d_{model}

のベクトル

PE(p)

を作り、埋め込みに足して順序を伝えます。

直感: 映画館の座席に列・番がないと迷います。PEは各トークン席に番号札を付けます。

数式: トークン埋め込みを

x_t

とすると、多くの場合

h_t^{(0)} = x_t + PE(t)

です。

応用: 翻訳・要約・QAでは語順が意味を変えるため、BERT/GPT 系は位置情報を必ず入れます。

2. 概念: 正弦・余弦 PE（時計のたとえ）

まず直感だけ: アナログ時計を想像してください。秒針は速く、分針は中くらい、時針はとてもゆっくり動きます。3本の針の向きの組み合わせで「今何時何分」が分かるように、文の何番目のトークンかも数字のパターンで区別しやすくします。針の回る速さが違うので、2つの時刻が近いか遠いか（相対距離）も読み取りやすくなります。正弦・余弦 PE も、遅い波と速い波をいくつも重ねて位置ごとに違うベクトルを作る発想に近いです。

もう一歩だけ: 古典的トランスフォーマーは、次元を分けて

\sin

型・対になる

\cos

型の繰り返す（周期的な）値を入れ、複数の周波数帯で近い位置と遠い位置を分けやすくします。

数式（暗記不要・参照用）:

PE(t,2i)=\sin(t/10000^{2i/d_{model}})

、

PE(t,2i+1)=\cos(t/10000^{2i/d_{model}})

など。

t

は位置番号、

i

は次元インデックス、

d_{model}

はベクトルの長さです。

かんたん解説: 式全体は「何番目( $t$ )ごとに、数字の位置パターン（指紋）を1本作る」イメージで十分です。ベクトルは長さ

d_{model}

のたくさんの成分で、隣り合う2成分ずつが回る速さの違う波になります。 $t$ は「文の何番目のトークンか」、 $i$ は「どの周波数帯（遅い波〜速い波）を使うか」に近いです。 $d_{model}$ は全体の長さで、指数の中で波が極端に速すぎ/遅すぎにならないようスケールを合わせます。隣の位置では値が少しずつしか変わらず、離れた位置ほどパターンが違いやすく、「前後の距離感」を読み取りやすくなります。 $\sin$ と $\cos$ のペアは、針の向き（角度）を2つの数で書くのに似て、1本の波だけより安定して位置を表せます（細部は暗記不要）。

応用: 長い文脈のエンコーダ、その後 RoPE などへ発展。

3. 概念: フィードフォワード(FFN) — トークンごとの「個別面談」

一行: 注意(アテンション) はトークン同士が混ざり合う段階、FFN はそのあと 各位置の列を分けたまま、同じ小さなネットを列ごとに1回ずつ通す段階です（上の図の緑の計算ブロックに近いです）。

たとえ: 全員ミーティング（注意）のあと、一人ずつブースに入って個別ヒアリング（FFN）を受けるイメージです。ベクトル幅

d_{model}

をいったん広げて（中間が太い）また元の幅に戻す砂時計型が一般的です。

なぜ必要？ 注意だけだと「掛け算・足し算」中心になりがちです。FFN に ReLU（

\max(0,\cdot)

）などの非線形を入れて、直線だけでは表せない複雑な形を学べます。

数式（参照）:

\mathrm{FFN}(x)=\max(0,xW_1+b_1)W_2+b_2

。

W_1,W_2

は多くの場合全位置で共有です。

応用: 感情分析・NER など。注意が文脈を集め、FFN が各トークンを磨く。

4. 概念: ブロック内の流れ — コンベアの一駅

一行: エンコーダブロック1つは、工場の一駅のように、いつも同じ順番で処理します。

かんたんな順序:

1. 準備: 埋め込みに PE を足し、「何番目か」が載った状態にする。

2. 混ぜる: 注意でトークン間が文脈を交換する。

3. つなぐ: Add & Norm — 手前の値を足す（残差）のと、層正規化でスケールをそろえる。

4. 列ごと: FFNで各位置を非線形に更新する。

5. もう一度 Add & Norm で締める。

数式（参照）: まず

h'=\mathrm{LayerNorm}(h+\mathrm{Attn}(h))

、つづけて

h''=\mathrm{LayerNorm}(h'+\mathrm{FFN}(h'))

。このかたまりを何十回も積む。

応用: 検索・チャット・コード生成など。