Ch.05

Vision Transformer（ViT）と画像パッチ

z_i=Ex_i

パッチ分割線形埋め込みトークン列Encoder分類

学習の流れ

① パッチ化: 画像を格子に分割。 ② トークン化: 各パッチを埋め込み、位置を足す。 ③ Encoder: MHA+FFN を繰り返す。 ④ 分類: CLS（またはプーリング）からヘッドへ。

i

P\cdot C

ビジョン・トランスフォーマー: 画像をパッチ・トークンに

N^2

N

学習: 事前学習＋ファインチューニング ImageNet 等で事前学習した ViT を取り、分類ヘッドだけ付け替えてファインチューニングします。データが少ないときは 強いデータ拡張 ・正則化・より小さいモデルも検討します。 推論: 解像度とバッチ 入力サイズを固定するか、大きい画像は スライディングウィンドウ で分割処理します。GPU 限界に当たったらバッチ・解像度・混合精度（AMP）を調整します。 バックボーンの選び方 Swin ・ ConvNeXt ・ CNN+ViT ハイブリッド などを比較し、データ量・遅延・精度のバランスを取ります。常に最新 ViT が正解とは限りません。 デバッグのチェックリスト * 精度が出ない: パッチサイズ、[CLS]、事前学習重み、解像度分布を確認。 * OOM: トークン数を減らす（解像度・パッチ）、Chapter 04 の 効率的注意 やチェックポイントを検討。

z_i=Ex_i

N

ビジョン・トランスフォーマー: 画像をパッチ・トークンに

1. なぜパッチ？画像を「単語」のように読む

概念: Transformer は入力トークン同士の関係を学習します。画像を Transformer に入れるため、ViT は画像を碁盤のような格子に切ります。この小さな四角はパッチです。

直感: 風景写真を16分割したジグソーを想像してください。各ピースが文における「単語」の役割をします。ピース内のピクセルを一列に並べ、モデルが扱える次元のベクトルに変換して入力します。

実務: ピースを大きく切るとトークン数は減るが細部が落ちる。小さく切ると細部は残るがトークンが増え計算負荷が跳ねる（メモリ爆発）。Chapter 04 の トークン数・ $N^2$ コストと直結します。

2. パッチに名札：埋め込みと位置

概念: Transformer は一度にすべてのピースを見るため、元の位置が分からなくなります。そこで各ベクトルに「左上の最初のピースです」といった位置情報（位置埋め込み）を足します。また先頭に全体をまとめる[CLS] トークンを置きます。

数式の習慣: パッチ

i

のピクセルデータを

x_i

、線形変換

E

で

z_i=Ex_i

、位置

PE_i

を足して

h_i=z_i+PE_i

。これがエンコーダへの入力です。

実務: セグメンテーション・検出などはパッチ以外のトークン化（ピクセル・クエリ等）の変形が多いです。

3. CNN との決定的差：拡大鏡 vs 円卓会議

概念: 従来の CNN は局所ピクセルだけを見る畳み込みを積み上げます。一方 ViT は大域的セルフアテンションで離れたパッチ同士の関係を一度に計算します。初期に小さな conv stem を付けるハイブリッドもよくあります。

比喩: CNN が「小さな拡大鏡で写真を動かしながら探す」なら、ViT は「すべてのピースを円卓に並べ同時に話し合う」イメージです。

実務: データが十分か強い事前学習があれば ViT が強く、小データでは増強・事前学習・CNN 的帰納バイアスが役立つこともあります。

4. 学習と推論の現実的な壁

概念: 損失は分類なら通常クロスエントロピー。問題は解像度で、パッチ列の長さに比例して計算・メモリが増えます。

実務: 高解像度ではパッチ数が急増します。トランスフォーマーの計算量はトークン数の二乗（

N^2

）に比例するため、解像度が少し上がるだけで GPU メモリ不足（OOM）になり得ます。Swin Transformer のようにウィンドウで区切る変形や、Chapter 04 の効率的注意・パッチ統合設計とセットで考えます。