Ch.00
中級ディープラーニング:安定学習と非構造データの理解
中級ディープラーニングで何を学ぶか、Ch01〜Ch21で扱う学習の安定化と画像・テキストの扱いを一覧で把握します。
チャプター別 中級ディープラーニング図
チャプターを進めるたびに、下の図が少しずつ埋まります。ここまでの構造です。
Ch01~Ch21で学ぶこと
- 01重み初期化(Weight Initialization):学習の正しい出発点
- 02最適化アルゴリズム:慣性と適応的学習率
- 03学習率スケジューリング
- 04損失関数深化:クラス不均衡と距離学習
- 05過学習防止と正則化
- 06正規化層(Batch & Layer Normalization)
- 07データ拡張とノイズロバスト性
- 08畳み込みニューラルネット(CNN)基礎:空間的特徴抽出
- 09プーリングとマルチチャネル
- 10残差接続(Skip Connection)とResNet
- 11軽量畳み込み:演算効率化アーキテクチャ
- 12ビジョン転移学習
- 13ビジョンタスク1:物体検出(Object Detection)
- 14ビジョンタスク2:画像分割(Image Segmentation)
- 15自然言語処理前処理とトークン化
- 16単語埋め込み(Word Embedding)
- 171D畳み込みによるシーケンス処理
- 18再帰型ニューラルネット(RNN):逐次情報の状態維持
- 19長短期記憶(LSTM)とGRU:長期依存の制御
- 20エンコーダ-デコーダとアテンション
- 21中級ディープラーニング総まとめ:アーキテクチャ設計とパイプライン
中級ディープラーニングとは?
基礎ディープラーニングではニューロン、層、勾配まで学びました。中級では学習を安定させる方法と画像・テキストのような構造化データの扱いを学びます。重みの初期化、オプティマイザ(モーメンタム、Adam)、学習率スケジューリング、正則化・過学習防止、バッチ正規化などで学習がうまく収束するようにし、畳み込みネット(CNN)、ResNet、転移学習、物体検出・セグメンテーション、自然言語の前処理・埋め込み、RNN・LSTM・GRU、エンコーダ・デコーダとアテンションまで扱います。画像はピクセル格子なので畳み込みで空間パターンを捉え、プーリングで要約し、残差接続で深いネットも安定して学習します。テキストは系列なのでトークン化・埋め込みの後、1D畳み込みやRNN・LSTMで文脈を反映し、アテンションで重要な部分に注目する構造を学びます。学習が安定している必要がある理由は、初期化が悪いと学習が進まなかったり、学習率が大きすぎると発散し、小さすぎると遅くなったりするからです。オプティマイザは勾配だけでなく「これまでの更新の勢い(モーメンタム)」や「パラメータごとのステップ幅(Adam)」を使い、より速く安定して最適解に近づきます。学習率スケジュールは最初は大きく、後で小さくしてきれいに収束させ、正則化とバッチ正規化で各層のスケールを揃え、勾配の消失・爆発を抑えます。ビジョン(画像)では、画素周辺の局所パターン(エッジ、テクスチャ)が重要なので畳み込みが適しています。プーリングで位置を少しぼかしながら情報を圧縮し、ResNetの残差接続で層を深くしても前の情報をそのまま足し合わせるため、学習が崩れません。転移学習は大量データで学習済みのモデルを流用し、自分のタスク用に少しだけ再学習するので、データが少なくても実用的な性能が出しやすくなります。自然言語・系列では、単語や文字をトークンに分け埋め込みでベクトルにし、RNNやLSTM・GRUで「これまでの文脈」を表す状態を伝えながら次を予測します。アテンションは「今予測するときに文のどの部分が重要か」を学習し、翻訳・要約・QAなどで必要な部分だけを選んで使えるようにします。このコースを終えると、画像分類・検出・セグメンテーション、そしてテキスト生成・翻訳・要約の基本構造が理解できるようになります。本コースではCh01〜Ch07で学習の安定化(初期化、最適化、スケジュール、損失、正則化、正規化層、データ拡張)、Ch08〜Ch14でビジョン(CNN、プーリング、ResNet、軽量畳み込み、転移学習、検出・セグメンテーション)、Ch15〜Ch21で自然言語・系列(前処理、埋め込み、1D CNN、RNN、LSTM・GRU、エンコーダ・デコーダ・アテンション、総まとめ)を順に扱います。