みんなのAI
機械学習AI論文
読み込み中…

学ぶ

🏅マイ実績

Ch.00

発展ディープラーニング:大規模モデルと生成AIパラダイム

上級ディープラーニング(Ch.00)は「なぜモデルが巨大になったのか」と「生成AIが実際にどう動くのか」を一本につなぐ導入です。データから表現(representation)を学ぶところから一歩進み、大規模Transformerが文脈を作り次トークンを予測する仕組み、さらに整合(Alignment)と制御、そして実運用のためのデプロイまでを扱います。

大規模生成モデルへ向かう上級ロードマップ

以下のロードマップはCh01から順に埋まっていき、各章が全体システムで果たす役割をつなげて理解できるようにします。

Ch01~Ch24で学ぶこと

  • Ch.01
    Transformer 1:セルフアテンションと並列化
  • Ch.02
    Transformer:位置エンコーディングとフィードフォワード
  • Ch.03
    Transformer系譜:エンコーダ(BERT)vs デコーダ(GPT)
  • Ch.04
    アテンション最適化:FlashAttentionとスパースアテンション
  • Ch.05
    Vision Transformer(ViT)と画像パッチ
  • Ch.06
    Swin Transformer:階層型ウィンドウと大域文脈
  • Ch.07
    ビジョンモデルの進化:CNNは局所、ViTは大域を見る
  • Ch.08
    PEFT 1:PEFTとLoRA
  • Ch.09
    QLoRAと量子化:より小さくしてチューニング
  • Ch.10
    価値アライメントとRLHF:人間の好みに合わせる
  • Ch.11
    DPO:強化学習なしに選好でアライメント
  • Ch.12
    RAG:検索で幻覚を減らす
  • Ch.13
    LLMエージェント:ツールを使うモデル
  • Ch.14
    CNN完全攻略:カーネル・ストライド・パディングから骨格の進化まで
  • Ch.15
    物体検出(Object Detection):R-CNN系とYOLOの対決(バウンディングボックスを探す)
  • Ch.16
    画像セグメンテーション:U-NetとDeepLab(ピクセル単位で画像を理解する)
  • Ch.17
    Grad-CAMとXAI:CNNがどこを見たかを見る
  • Ch.18
    グラフニューラルネットワーク(GNN):近傍へメッセージパッシング
  • Ch.19
    オートエンコーダ:圧縮してから復元
  • Ch.20
    VAE:確率で書く生成空間
  • Ch.21
    GAN基礎:生成と識別の対決
  • Ch.22
    条件付きGAN:条件を与えて欲しいものを作る
  • Ch.23
    拡散モデル(Diffusion)1:ノイズを足してから取り除く
  • Ch.24
    拡散モデル(Diffusion)2:潜在空間で拡散する
  • Ch.25
    視覚・言語モデルとCLIP:画像と文を同じ空間に(先行するCNNとLLMの知識の結合)
  • Ch.26
    音声認識とオーディオ:音をテキストに
  • Ch.27
    モデル圧縮と知識蒸留:大きいものを小さく移す
  • Ch.28
    推論最適化とデプロイ:サーバーからWebブラウザランタイムまでサービス可能に
  • Ch.29
    発展ディープラーニング総まとめ:アーキテクチャと未来を一望

上級ディープラーニングとは?(生成AIシステムの視点)

基盤モデル(Foundation / LLM)は次トークン予測という目的で学習します。つまり p(xt∣x<t)p(x_t\mid x_{<t})p(xt​∣x<t​) を最大化し、文法だけでなく「言語の流れ」やパターンを吸収していきます。
生成AIを実用的に理解するには、段階で捉えるのが便利です。事前学習(pretraining)で知識を広く獲得し、指示に従うための微調整(instruction / SFT)で意図に合わせ、最後に整合(alignment)で嗜好や安全性、幻覚を抑えます。
中心となる骨格はほとんどの場合Transformerです。自己注意がトークン同士の文脈を作り、フィードフォワードと正規化がそれを磨きます。長い文脈でも一貫性を保ちやすくなります。
モデルが大きいほど能力は伸びますが、同時に学習の安定性が落ち、コストも大きくなります。そのため上級DLは精度だけでなく、学習安定化、効率(計算/メモリ)、再現性に注目します。
現実の生成AIは信頼が重要です。真実性、安全性、そして信頼性を高めるには、整合・評価・制御の考え方が必要です。
さらにデプロイでは、遅延や費用、サーバの制約が効きます。だから学習で終わらず、推論最適化、圧縮、運用設計までつながります。
本番では、多くの場合 `text/image -> tokenization -> context window -> Transformer -> decoding(greedy/beam/sample)` という流れで応答を生成します。デコード方式とプロンプト設計が出力品質を大きく左右します。
整合と制御は複数の方法で行います。例えば RLHF / DPO は嗜好を使って改善し、RAG は外部知識を検索して根拠のある回答を目指します。
プロダクト視点では、ツール利用、キャッシュ/バッチ化、量子化や知識蒸留などの最適化が一体で入ってきます。同じ基盤モデルでも、動かし方で体感は大きく変わります。
この節では、高度ディープラーニング全体を問題演習の視点から一度に整理します。次トークン予測による事前学習は汎用的な言語能力の土台となり、確率生成や表現学習につながります。ユーザ意図に沿った応答を作る instruction / SFT ではデータ形式とファインチューニングがセットで現れます。
整合(Alignment) は嗜好・安全・真実性を扱い、嗜好学習や報酬モデルと結びつきます。RAG / grounded generation は検索・埋め込み・文脈の組み立てで根拠のない主張を減らす方向です。推論最適化 はレイテンシとコストを下げるため、量子化・キャッシュ・蒸留など実行面の話になります。