Ch.07

ビジョンモデルの進化：CNNは局所、ViTは大域を見る

同じ写真を二つの読み方で示します。 CNN は小さな カーネル（局所窓） を滑らせ 近傍ピクセル から特徴を積み、 ViT は パッチトークン に 大域セルフ注意 を載せ 1ブロックでも 遠い文脈を混ぜられます。 ウィンドウ注意 でそのコストを分割する妥協も並べます。

学習の流れ

虫眼鏡を動かして近所を読む CNN、公民館で一斉に話し合う ViT。

N

数式の読み方（CNN vs ViT）

i

CNNとViT：同じ画像を読む二つの文法

3\times 3

なぜ重要か

N

どう使うか

まとめ

N

問題解説ノート

N

CNNとViT：同じ画像を読む二つの文法

1. CNN：虫眼鏡を滑らせて「近所だけ」丁寧に見る（局所性）

概念： CNN はとても小さいフィルタ（例：

3\times 3

の 虫眼鏡）を画像上に スライド させて走査します。ある位置で今見えているのは 周囲 $k\times k$ だけで、その結果を次の層へ渡すと少し広い文脈が積み上がります。

直感： 層が深いほど 受容野（receptive field） が徐々に広がります。浅い層では 線・角 のような単純パターン、深い層では 目・耳・鼻 のような意味のある部位を認識します。同じカーネルを 複数位置で再利用（重み共有） するためパラメータは少なく、猫が写真の左にいても右にいても似たフィルタで捉えられる 平行移動等変性（translation equivariance） が自然につきます。

式のイメージ： 出力の1点は入力の局所パッチとカーネルの 相互相関（畳み込み） で得られます。深さ

L

が増えるほど受容野は 層ごとに広がり、遠いピクセルも 間接的に 混ざります。

2. ViT：パッチを単語のように並べ「全員が一度に討論」（大域性）

概念： 画像を

P\times P

のパッチに切り（例：

16\times 16

）、各パッチをベクトル（トークン）にします。密なセルフ注意 の1ブロックでは（基本形では）すべてのパッチ対が互いの関連度を計算します。

直感： CNN が 近所の虫眼鏡 なら、ViT は 一度に広く見下ろすドローン に近いです。最初のブロックでも画面 端と端 の関係を直接合わせられる一方、パッチ数

N

が増えると 「誰が誰とどれだけ話すか」 を書き留める スコア行列 がおよそ

N\times N

規模で肥大し メモリと計算 が急速に重くなります。

スケールの記憶： 注意スコアを作る段階は多くの場合 $\mathcal{O}(N^2 d)$ に近いオーダーに感じられます（ヘッド数・実装により定数は変わります）。

3. 「大域」を一飲みしない階層的な妥協

つながり： ウィンドウ（小さな領域） の中だけでまず注意し、シフト（窓をずらす） で隣接ウィンドウと情報を混ぜ、マージ でトークン数を減らします。つまり 「小さな大域」を何度も重ねて 大きな絵を作る 階層的 戦略です。

一行たとえ： CNN は 地域放送、ViT は 全国生討論、ウィンドウ設計は 地方局が連携して全国ニュースを組むネットワーク に近いです。ウィンドウ・シフト・マージ が「CNN と ViT のあいだ」に立つ理由を、本章の CNN・ViT の軸に合わせて理解すれば十分です。

4. なぜ「CNN vs ViT」を同じ章で学ぶのか（実務設計）

モデル選択はリーダーボードの1行ではなく、データに対する「仮定表」を選ぶことに近いです。

* データが少ない／ドメインが難しいとき：画像で 近いピクセル同士が関連する という仮定が強く効く CNN・ハイブリッド が 収束が速く安定 しやすいことが多いです。

* データが非常に多く 強い 事前学習 があるとき：局所仮定に縛られにくい ViT 系 が 上限性能（SOTA） で有利な例が多いです。

* 自動運転の物体検出・セグメンテーション のように ピクセル単位・複数スケール が重要なら：階層ウィンドウ型バックボーン、ConvNeXt、FPN など ダウンサンプルピラミッド に慣れた CNN 的設計 が依然として強いです。

* コスト： ViT は

N

が大きいほど OOM が先に来やすいので、効率的注意 と ウィンドウ型階層設計 は同じ悩みの延長線上にあります。