Ch.06
决策树(Decision Tree):用二十个问题找答案
决策树像「二十个问题」游戏一样工作:对数据提问(条件),按是/否沿分支走,在叶节点得到预测。易于解释(能看到每条决策的理由),也是随机森林等集成方法的基础。
按章节的机器学习图示
选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。
从根节点按每个问题的「是/否」沿分支走,叶节点给出预测。
决策树:用二十个问题找答案
基本结构 — 想象一棵倒过来的树。顶端是根节点(第一个问题)。从那里根据条件(如「特征 ?」)的「是」「否」进入内部节点。无法再分割时到达叶节点,输出预测(类别或数值)。
与二十个问题相同 — 像猜动物一样「四条腿吗?」→「食草吗?」→「老虎!」用问题逐步缩小答案范围。决策树也一样,用问题把数据分成两组。
好问题的标准:降低不纯度 — 不纯度衡量节点内类别的混杂程度。希望分割后节点更「纯」。常用公式:基尼 和熵 。一类占100%时两者为0,各半时不纯度较高。
信息增益 — 分割前不纯度减去分割后(加权)不纯度即为信息增益,表示该问题让数据变「干净」了多少。树在每个节点选择信息增益最大的问题。
叶节点上的预测 — 在叶节点输出:分类时取该叶样本的多数类,回归时取目标值平均。新数据只需沿路径走到底即可得到预测。
剪枝 — 树过深会过拟合。剪枝通过砍掉部分分支限制深度、提高泛化。剪枝后的树是随机森林等集成的基础。
可解释 AI — 不像黑箱模型,能清楚看到是哪些问题路径导致结论(如「年龄<30 且收入≥3000万→批准」)。在金融、医疗中很受重视。
非线性边界 — 线性模型用一条直线划分,决策树可以阶梯状多次划分,表达更复杂的模式。
集成的基础 — 单棵树可能不稳定,但几百棵随机森林就稳定且强大。Ch06 是 Ch07 的铺垫。
信贷与贷款 — 「年收入≥5000万?」「一年内是否逾期?」等分支最终给出是否批准。
医疗决策辅助 — 血压、胆固醇等数据经一系列「二十问」预测患病风险、辅助诊断。
营销(流失、购买) — 「注册超6个月?」「近一月登录≤3次?」等用于识别高风险客户、定向营销。
决策树解题 —
(1) 沿路径:从根节点起 0=否/左、1=是/右,叶节点的预测即为答案。
(2) 基尼:由类数求 ,算 ,再对 四舍五入。
(3) 熵:,对 四舍五入。
(4) 叶节点多数决:类0有 个、类1有 个时, 预测0,否则预测1。详见下方解题说明表。