Ch.01

教師あり・教師なし・自己教師あり学習

機械学習は、データの学び方によって教師あり学習教師なし学習自己教師あり学習に大別されます。教師ありは正解付きの問題集で学ぶようなもの、教師なしは正解なしでデータの特徴を観察し似たタイプをまとめる過程、自己教師ありはデータの一部を隠してその穴を推論で埋めながら学ぶ方式です。本章では三つの学び方の核心と数理、実務での使い方を整理します。

チャプター別 機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

三つの学び方: 教師あり(入力–正解ペア)、教師なし(ラベルなし)、自己教師あり(自己生成ターゲット)。

教師あり: 入力 x と正解 y がペアで与えられます

(x₁,y₁)
(x₂,y₂)
(x₃,y₃)

ペア (x, y) が順に与えられるとモデルが規則を学びます

教師なし: 入力 x のみ(正解 y なし)

x1x2x3x4x5x6

y(正解)はなく x だけ。一部の x が点滅しても → モデルは構造・クラスタだけを求めます

自己教師あり: 一部を隠してその穴を予測します

1
2
4
マスク予測穴埋め

例: 文の空欄を埋める → 表現学習 (BERTなど)

三つの学び方: 教師あり・教師なし・自己教師あり

教師あり学習: 正解を基にした学習入力 x\mathbf{x} とそれに対応する 正解(ラベル) yy をペアでモデルに与えます。モデルは y=f(x)y = f(\mathbf{x}) を近似するように学習し、新しい入力に対しても yy を予測できるようになります。数式では訓練データを D={(x1,y1),(x2,y2),}\mathcal{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), \ldots\} とし、損失(MSEや交差エントロピー)を最小化する ff を求める最適化問題として定式化されます。Ch02 KNN、Ch03 線形回帰、Ch04 ロジスティック回帰はすべて教師ありです。
* 例1 (分類): メール本文(x\mathbf{x})からスパムかどうか(yy)を判定するフィルタ。
* 例2 (回帰): 面積・駅距離(x\mathbf{x})から物件価格(yy)を予測。
* 例3 (医療): 患者の検査値(x\mathbf{x})と診断結果(yy)から診断支援。
教師なし学習: 隠れたパターンの発見 — 正解 yy はなく、入力 x\mathbf{x} だけが与えられます。直感的には「正解付きの答えがなく、問題だけがある状況」です。モデルは x\mathbf{x} 同士の距離・類似度に基づき、近いものをまとめる(クラスタリング)、高次元を圧縮する(次元削減)、通常パターンから外れた異常を検知します。
* 例1 (クラスタリング): 顧客の年齢・購買履歴(x\mathbf{x})から似た顧客群に分ける。
* 例2 (異常検知): 通常の決済パターン(x\mathbf{x})を学習し、それと大きく異なる取引を検知。
* 例3 (次元削減): 多数の特徴を2〜3個の数に減らして可視化やノイズ除去に利用。(具体的な方法は後で学びます。)
自己教師あり学習: データから擬似ラベルを生成 — 人が正解を付ける代わりに、データの構造を使って擬似ラベルを作り学習します。流れは三つ。
(1) マスク: 入力の一部(単語・画像パッチなど)を隠す。
(2) 予測: 残りの文脈から隠した部分を当てるように学習。
(3) 活用: 得た表現をそのまま使い、少ない教師ありデータでQA・分類などダウンストリームに接続。BERT・GPT など大規模モデルの基盤です。
* 例1 (言語): 「私は [MASK] を食べた」の穴を文脈から予測して言語規則を学ぶ LLM。
* 例2 (ビジョン): 画像の一部を隠し、残りのピクセルからその領域を復元。
* 例3 (対比学習): 同じ画像の回転・クロップ版を「同じ」、別画像を「異なる」として表現を近づける。
データの性質とコストに応じた選択 — 全データに正解を付けるには時間とコストがかかります。正解が十分なら教師ありが有効ですが、そうでない場合は教師なしや自己教師ありでラベルなしデータを活用する戦略が必要です。解釈性も異なります。教師ありは損失・経路で「なぜこの答えか」をある程度説明できますが、教師なし・自己教師ありは「どんな構造を捉えたか」を可視化やクラスタ名で別途解釈する必要があります。
事前学習とファインチューニング — 大規模なラベルなしデータで自己教師ありの事前学習を行い、その後少数の正解データで教師ありのファインチューニングを行う構成が、現代のAI開発の標準です。教師なしは前処理・探索段階でよく使われます。例: K-Means で顧客をクラスタに分け、人がクラスタに意味を付与(「ロイヤル」「離脱リスク」など)したうえで、教師ありで離脱予測モデルを構築する。三つの学習方式を区別しておくと設計が明確になり、データ量とラベルコストに合った現実的なパイプラインを立てられます。
教師あり — Ch02 KNN、Ch03 線形回帰、Ch04 ロジスティック回帰は (入力, 正解) ペアで学習します。分類: スパムフィルタ、疾患予測、画像分類。回帰: 家賃・売上・気温の予測。Ch03/Ch04 で数式と最適化を扱います。
教師なし — Ch08 K-Means はラベルなしでデータをクラスタにまとめます。次元削減(多くの特徴を2〜3個に減らすこと)も代表例です。クラスタリング: 顧客セグメント、トピック別文書グループ。異常検知: 正常領域を学習し、外れた点をフラグ。
自己教師あり — BERT(マスク語予測)、GPT(次トークン予測)、ビジョンでの対比学習が広く使われています。事前学習後、少ないラベルでQA・要約・分類などに利用します。
まとめ
(1) 教師あり: (入力, 正解) ペアで y=f(x)y=f(\mathbf{x}) を学習。
(2) 教師なし: ラベルなしで x\mathbf{x} のみから構造・クラスタ・次元削減。
(3) 自己教師あり: マスク等で擬似ラベルを作り表現を学習し、少量の教師ありでダウンストリームに利用。
  • 区分ラベル
  • 教師ありあり (yy)
  • 教師なしなし
  • 自己教師あり自己生成ターゲット
  • 区分目的
  • 教師ありyy の予測 (分類/回帰)
  • 教師なし構造・クラスタ・次元削減
  • 自己教師あり表現学習
  • 区分
  • 教師ありKNN、線形・ロジスティック回帰
  • 教師なしK-Means、次元削減
  • 自己教師ありBERT、コントラスティブ学習
問題タイプ別 — 定義: 教師あり=(x,y)ペア、教師なし=ラベルなし、自己教師あり=自己生成ターゲット。タスク: 人が付けた正解か→教師あり。ラベルがなくグループ化・削減のみ→教師なし。データから派生した擬似ラベルか→自己教師あり。シナリオ: スパム分類(教師あり)、顧客クラスタ(教師なし)、マスク語予測(自己教師あり)。
一行比較 — 教師あり:「(問題, 正解)ペアで学ぶ。」教師なし:「正解なしでデータだけを見てまとめるか次元を削る。」自己教師あり:「データの一部を隠し、その穴を当てて表現を学ぶ。」問題ではラベルの有無と、人が付けたかデータから作ったかを区別するとタイプを素早く判定できます。