Ch.07

集成与随机森林:群体智慧

集成(Ensemble)将多个模型的预测合并为一个更好的预测。本章介绍装袋、提升、堆叠以及由多棵决策树投票或求平均的随机森林,便于初学者理解“集体智慧”的思路。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

将多棵模型(树)的预测通过投票或平均得到最终预测。

  • ① 从训练数据中抽取 bootstrap 样本,训练多棵树
  • ② 每棵树独立预测
  • ③ 分类:多数决,回归:平均 → 最终预测
  • ④ 最终预测确定
数据树1树2树3投票/平均预测

集成与随机森林:群体智慧

集成的基本思想 — 把多个模型组成「团队」,把各自的预测汇总成最终结论。像陪审团投票一样,比单模型更少出错(方差更小)、预测更稳定。分类用多数决,回归用预测的平均
为什么多数更好(群体智慧) — 让100人目测牛的体重,个人会偏,但平均往往很接近真实值。模型独立判断再汇总,个体误差会相互抵消,共同信号保留下来。
三种代表方法:装袋、提升、堆叠
(1) 装袋(Bagging):各模型用随机抽样的不同数据,再公平投票。
(2) 提升(Boosting):下一个模型重点学上一个错的样本,顺序补足弱点。
(3) 堆叠(Stacking):用基模型的输出作为元模型的输入做最终决策。
随机森林 — 装袋 + 决策树成百上千棵。为保持多样性,每次分裂只随机用部分特征。有的树主要看「年龄」,有的主要看「收入」。
投票与平均的公式 — 分类的多数决就是「得票最多的类别」。回归(如房价)时对所有树的预测求平均:y^=1Bb=1By^b\hat{y} = \frac{1}{B}\sum_{b=1}^B \hat{y}_bBB=树的数量,y^b\hat{y}_b=第 bb 棵的预测)。例:三棵预测100、150、200则最终为150。
OOB(Out-of-Bag)评估 — 装袋/随机森林中每棵树只用部分数据训练。未被抽到的样本(OOB)可用来评估「没看过该样本」的树的性能,无需单独留验证集。
稳如森林 — 单棵决策树数据稍变形状就变,但几百棵森林里几棵错了也不影响整体决策,实战中非常稳定。
Ch06 决策树的直接扩展 — 不纯度、信息增益照用。不是学新规则,而是「怎样把树聚起来投票」,前章知识 100% 用上。
业界与竞赛常用 — 调参不多也能有很好表现,且特征重要性能说明哪些变量重要。
分类与回归通用 — 从「是否垃圾邮件?」到「明天股价?」几乎各种业务问题都会用到。
找主因(特征重要性) — 贷款模型里若树都最依赖「年收入」,就说明年收入是最重要变量,便于筛掉无关特征。
实际应用 — 欺诈检测、推荐(如 Netflix)、设备故障预测等,凡需精度与稳定性的场景都会用到。
集成·随机森林解题
(1) 多数决:比较类0与类1的票数,多的一方为最终预测(0或1)。

(2) 票数:获胜类别得到的票数即为答案。

(3) 回归平均:所有树预测之和÷树数,必要时四舍五入。

(4) OOB:该样本未出现在多少棵树的 bootstrap 中即为 OOB 数。

(5) 公式y^=1Bb=1By^b\hat{y} = \frac{1}{B}\sum_{b=1}^B \hat{y}_bBB 为树数。和除以 BB 得平均。详见下方解题说明表。