Ch.06

决策树(Decision Tree):用二十个问题找答案

决策树像「二十个问题」游戏一样工作:对数据提问(条件),按是/否沿分支走,在叶节点得到预测。易于解释(能看到每条决策的理由),也是随机森林等集成方法的基础。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

从根节点按每个问题的「是/否」沿分支走,叶节点给出预测。

 

是(1)否(0)问题问题叶0叶1

 

决策树:用二十个问题找答案

基本结构 — 想象一棵倒过来的树。顶端是根节点(第一个问题)。从那里根据条件(如「特征 x13x_1 \le 3?」)的「是」「否」进入内部节点。无法再分割时到达叶节点,输出预测(类别或数值)。
与二十个问题相同 — 像猜动物一样「四条腿吗?」→「食草吗?」→「老虎!」用问题逐步缩小答案范围。决策树也一样,用问题把数据分成两组。
好问题的标准:降低不纯度不纯度衡量节点内类别的混杂程度。希望分割后节点更「纯」。常用公式:基尼 G=1pi2G = 1 - \sum p_i^2 H=pilog2piH = -\sum p_i \log_2 p_i。一类占100%时两者为0,各半时不纯度较高。
信息增益 — 分割前不纯度减去分割后(加权)不纯度即为信息增益,表示该问题让数据变「干净」了多少。树在每个节点选择信息增益最大的问题。
叶节点上的预测 — 在叶节点输出:分类时取该叶样本的多数类回归时取目标值平均。新数据只需沿路径走到底即可得到预测。
剪枝 — 树过深会过拟合剪枝通过砍掉部分分支限制深度、提高泛化。剪枝后的树是随机森林等集成的基础。
可解释 AI — 不像黑箱模型,能清楚看到是哪些问题路径导致结论(如「年龄<30 且收入≥3000万→批准」)。在金融、医疗中很受重视。
非线性边界 — 线性模型用一条直线划分,决策树可以阶梯状多次划分,表达更复杂的模式。
集成的基础 — 单棵树可能不稳定,但几百棵随机森林就稳定且强大。Ch06 是 Ch07 的铺垫。
信贷与贷款 — 「年收入≥5000万?」「一年内是否逾期?」等分支最终给出是否批准。
医疗决策辅助 — 血压、胆固醇等数据经一系列「二十问」预测患病风险、辅助诊断。
营销(流失、购买) — 「注册超6个月?」「近一月登录≤3次?」等用于识别高风险客户、定向营销。
决策树解题
(1) 沿路径:从根节点起 0=否/左、1=是/右,叶节点的预测即为答案。

(2) 基尼:由类数求 pip_i,算 G=1ipi2G = 1 - \sum_i p_i^2,再对 100×G100 \times G 四舍五入。

(3) H=ipilog2piH = -\sum_i p_i \log_2 p_i,对 100×H100 \times H 四舍五入。

(4) 叶节点多数决:类0有 aa 个、类1有 bb 个时,aba \ge b 预测0,否则预测1。详见下方解题说明表。