Ch.06

决策树（Decision Tree）：用二十个问题找答案

决策树像「二十个问题」游戏一样工作：对数据提问（条件），按是/否沿分支走，在叶节点得到预测。易于解释（能看到每条决策的理由），也是随机森林等集成方法的基础。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

从根节点按每个问题的「是/否」沿分支走，叶节点给出预测。

决策树：用二十个问题找答案

x_1 \le 3

与二十个问题相同 — 像猜动物一样「四条腿吗？」\to「食草吗？」\to「老虎！」用问题逐步缩小答案范围。决策树也一样，用问题把数据分成两组。

G = 1 - \sum p_i^2

信息增益 — 分割前不纯度减去分割后（加权）不纯度即为 信息增益 ，表示该问题让数据变「干净」了多少。树在每个节点选择信息增益最大的问题。

叶节点上的预测 — 在 叶节点 输出： 分类 时取该叶样本的 多数类 ， 回归 时取 目标值平均 。新数据只需沿路径走到底即可得到预测。

剪枝 — 树过深会 过拟合 。 剪枝 通过砍掉部分分支限制深度、提高泛化。剪枝后的树是随机森林等集成的基础。

可解释 AI — 不像黑箱模型，能清楚看到是哪些问题路径导致结论（如「年龄<30 且收入\geq3000万\to批准」）。在金融、医疗中很受重视。

非线性边界 — 线性模型用一条直线划分，决策树可以 阶梯状 多次划分，表达更复杂的模式。

集成的基础 — 单棵树可能不稳定，但几百棵 随机森林 就稳定且强大。Ch06 是 Ch07 的铺垫。

信贷与贷款 — 「年收入\geq5000万？」「一年内是否逾期？」等分支最终给出是否批准。

医疗决策辅助 — 血压、胆固醇等数据经一系列「二十问」预测患病风险、辅助诊断。

营销（流失、购买） — 「注册超6个月？」「近一月登录\leq3次？」等用于识别高风险客户、定向营销。

p_i