Ch.07

集成与随机森林：群体智慧

集成（Ensemble）将多个模型的预测合并为一个更好的预测。本章介绍装袋、提升、堆叠以及由多棵决策树投票或求平均的随机森林，便于初学者理解“集体智慧”的思路。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

将多棵模型（树）的预测通过投票或平均得到最终预测。

集成的基本思想 — 把多个模型组成「团队」，把各自的预测汇总成最终结论。像陪审团投票一样，比单模型更少出错（方差更小）、预测更 稳定 。分类用 多数决 ，回归用 预测的平均 。

为什么多数更好（群体智慧） — 让100人目测牛的体重，个人会偏，但 平均 往往很接近真实值。模型 独立 判断再汇总，个体误差会相互抵消， 共同信号 保留下来。

三种代表方法：装袋、提升、堆叠 — (1) 装袋(Bagging) ：各模型用随机抽样的不同数据，再公平投票。 (2) 提升(Boosting) ：下一个模型重点学上一个错的样本， 顺序 补足弱点。 (3) 堆叠(Stacking) ：用基模型的输出作为元模型的输入做最终决策。

随机森林 — 装袋 + 决策树 成百上千棵。为保持多样性，每次分裂只 随机用部分特征 。有的树主要看「年龄」，有的主要看「收入」。

\hat{y} = \frac{1}{B}\sum_{b=1}^B \hat{y}_b

OOB（Out-of-Bag）评估 — 装袋/随机森林中每棵树只用部分数据训练。 未被抽到的样本（OOB） 可用来评估「没看过该样本」的树的性能，无需单独留验证集。

稳如森林 — 单棵决策树数据稍变形状就变，但几百棵 森林 里几棵错了也不影响整体决策，实战中非常稳定。

Ch06 决策树的直接扩展 — 不纯度、信息增益照用。不是学新规则，而是「怎样把树聚起来投票」，前章知识 100% 用上。

业界与竞赛常用 — 调参不多也能有很好表现，且 特征重要性 能说明哪些变量重要。

分类与回归通用 — 从「是否垃圾邮件？」到「明天股价？」几乎各种业务问题都会用到。

找主因（特征重要性） — 贷款模型里若树都最依赖「年收入」，就说明年收入是最重要变量，便于筛掉无关特征。

实际应用 — 欺诈检测、推荐（如 Netflix）、设备故障预测等，凡需精度与稳定性的场景都会用到。

\hat{y} = \frac{1}{B}\sum_{b=1}^B \hat{y}_b