Ch.01

Transformer 1：セルフアテンションと並列化

Transformerモデルの心臓ともいえる セルフアテンション（Self-Attention） は、文章中の単語同士がどう関係しているかを一度に捉える革新的な技術です。従来のモデルが単語を順番に読み進めていく間に前半の情報を失いがちだったのに対し、セルフアテンションは文章全体を俯瞰するように見渡し、すべての単語が互いに与える影響を同時に計算します。このチャプターでは、初心者にもわかるように Query・Key・Value という要点を通して、セルフアテンションが重要な情報をどう選び取るのか、そしてマルチヘッドアテンションが実際のAIサービスでどう活きるのかをやさしく解説します。

数式をわかりやすく理解する

Q=XW_Q

セルフ・アテンションは、各トークンが全トークンを参照して文脈を再構成する操作です。

概念構造: Q/K/V → スコア → 正規化 → 重み付き和

弱い参照中程度の参照強い参照

Transformer 1: セルフアテンションを一目で見る

X

なぜ重要か

n

どう使うか

h

要約

セルフアテンションは、各トークンが文の全体を同時に参照して文脈を理解する仕組みで、Transformerの性能を支える重要な基盤です。Query・Key・Valueに分けて関連度を計算し、softmaxで重要度を確率のように正規化して必要な情報を重み付きで合成します。このため、離れた単語同士の関係も一度に反映でき、長い文脈の問題に特に強くなります。さらにマルチヘッドは、単一視点の限界を減らし、複数の観点を組み合わせることで予測の安定性を高めます。結局、セルフアテンションを理解するとは「情報を選択的に集める方法」を理解することであり、翻訳・要約・分類・検索・医療テキスト分析など、実際の機械学習全般につながっていきます。

問題を解くためのヒント

A=\mathrm{softmax}(QK^T/\sqrt{d_k})

Transformer 1: セルフアテンションを一目で見る

概念説明：文脈を掴む目

セルフアテンションは、文中の各単語（トークン）が他のすべての単語を同時に見て、「今の単語を理解するために、どの単語をどれくらい参考にするか」を決める重み付けの仕組みです。例えば「『ば』を乗って川を渡り、ばが痛くて果物のばを食べた」というように、『ば』が複数の意味（船／身体の部位／果物）を持つ場合、セルフアテンションは周りの「乗って」「痛くて」「食べた」などの語を同時に見比べて文脈を判断します。

直観的理解：質問（Q）、手がかり（K）、答え（V）

図書館で本を探す流れにたとえてみましょう。

1. Query（Q）：あなたが検索窓に入れる質問（探したいこと）です。（「ここで“ば”は身体の部位？」など）

2. Key（K）：本の背表紙に書かれたタイトルやキーワードです。（「私は“痛くて”という語で、病気に関わるキーワードを持つ」など）

3. Value（V）：本の中身、つまり実際の情報です。（「痛み・腹痛・病院など、本当の意味」など）

セルフアテンションは Query と Key の一致度（相性）を評価してスコアを作り、そのスコアに応じて Value を混ぜ合わせることで、最終的な単語の意味を決めます。

数式的説明：スケールド・ドット積アテンション

入力を行列

X

とすると、それを3つの学習可能な変換行列で掛けて

Q=XW_Q

K=XW_K

V=XW_V

を作ります。アテンションのスコア（相性）は Query と Key を掛けた

QK^T

で計算します。次元が大きいと値が大きくなりすぎるので、Keyベクトルの次元数である

\sqrt{d_k}

で割ってスケーリングします。その後、softmax を通すと合計が1になる確率重み

A

が得られます。数式は

A=\mathrm{softmax}(QK^T/\sqrt{d_k})

です。最後に、この重み

A

に実際の情報である

V

を掛けて最終出力

AV

を得ます。

実際のML例：賢い文の理解

スパムメールの分類では、「当選」「無料」「クリック」などの語が離れていても、セルフアテンションがそれらの強い関係を一度に見つけてスパム判定に役立ちます。医療の診断システムでも、「頭痛がひどい」「しかし」「発熱なし」のように肯定と否定が混ざった長い文章で、重要な症状とそうでないものを正しく結びつけ、誤診の可能性を大きく下げます。