Ch.06

決定木（Decision Tree）：二十の質問で答えを探す

決定木は「二十の質問」ゲームと同じ仕組みで動くモデルです。データに質問（条件）を投げ、はい/いいえで枝をたどり、葉（リーフ）で予測を得ます。解釈がしやすく、ランダムフォレストなどのアンサンブルの基盤になります。

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

ルートから質問に「はい/いいえ」で枝をたどると、リーフで予測が得られます。

決定木：二十の質問で答えを探す

x_1 \le 3

二十の質問と同じ — 動物を当てるように「足は4本？」\to「草食？」\to「虎！」と、質問で答えの範囲を狭めます。決定木も同様にデータを二つに分けながら進みます。

G = 1 - \sum p_i^2

情報利得 — 分割前の不純度から分割後の（重み付き）不純度を引いた値が 情報利得 です。その質問でデータがどれだけ「きれい」になったかを表し、木は情報利得が最大の質問を選びます。

リーフでの予測 — 分類 ではそのリーフにいるサンプルの 多数クラス 、 回帰 では 平均値 を出力。新しいデータは経路をたどるだけで予測が得られます。

剪定（Pruning） — 深すぎる木は 過学習 します。 剪定 で枝を切り、汎化性能を高めます。剪定された木がランダムフォレストなどの基盤になります。

説明可能なAI — ブラックボックスではなく、どの質問の経路で結論に至ったかが分かります（例：年収・延滞で融資可否）。金融・医療で重視されます。

非線形な境界 — 線形モデルは一直線で切りますが、木は 階段状 に領域を分割し、複雑なパターンも表現できます。

アンサンブルの基盤 — 1本の木は不安定でも、数百本の ランダムフォレスト にすると強く安定します。Ch07の土台です。

与信・融資 — 「年収\geq5000万？」「1年以内延滞？」などの枝をたどり、可否を判定。

医療診断支援 — 血圧・コレステロール等から医学的な二十の質問でリスクを予測。

マーケ（離脱・購買） — 「会員6ヶ月以上？」「直近ログイン\leq3回？」でリスク顧客を特定。

p_i