大家的AI
机器学习AI论文

学习

  • AI论文
  • 理论·数学基础
    • 2026
      • CPAL
        • Kernel von Mises 影响函数公式
  • 模型优化·轻量化
    • PolarQuant:基于极坐标变换的 KV 缓存量化
  • 核心架构·算法
    • 2026
      • CPAL
        • AlphaFormer:使用 Transformer 的端到端阿尔法因子符号回归
  • 预测·表格数据
  • AutoML·ML 流水线
    • 2025
      • ICML
        • AutoML-Agent:面向全流程 AutoML 的多智能体 LLM 框架
      • ICLR
        • SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning
  • 视觉·多模态
  • NLP·大模型
    • 2026
      • CPAL
        • 大语言模型中的深度诅咒
  • 可信·可解释
  • 数据为中心·特征
  • 边缘·网页·服务
  • 领域应用
🏅我的成就
学习/AI论文/理论·数学基础/CPAL2026/Kernel von Mises 影响函数公式

Kernel von Mises 影响函数公式

本文将「每个模型都要手工推导影响函数(IF)」这一瓶颈,替换为基于核与谱展开的数据驱动计算流程。尤其缓解了点质量(point-mass)扰动常见的数值病态(ill-conditioned),并通过正则化估计量在可计算性与理论一致性(Consistency)之间同时取得进展。
PDF查看原论文 PDF↗
[摘要与引言] 三句话概括与问题
① 传统 IF 计算随模型变化要重新推导,难以自动化。
② 用点质量“戳”分布的古典做法会让响应很尖,数值上容易不稳定。
③ 本文把数据拆成多个“光滑模式”,分别算影响再相加,用计算机而非手算更稳定地求 IF。
生活类比: 想知道一片豆腐让一锅汤味道改变多少。老办法像拿针猛戳锅底,读数会剧烈抖动;本文更像用柔和波纹从多个方向轻推,再把响应合成,更接近“稳定味觉仪”的思路。
[背景知识] 必备概念(展开)
按 定义 → 直观 → 本文作用 阅读。
- 影响函数 ψP\psi_PψP​
描述分布 PPP 微扰时泛函 θ(P)\theta(P)θ(P) 的敏感度;ψP(x)\psi_P(x)ψP​(x) 汇总与点 xxx 相关的方向响应。类似 Cook 距离 思路,但 θ\thetaθ 可依赖 整个分布 而非有限维权重。经典点质量扰动易使谱 尖锐、病态;本文改为 光滑模态叠加。
- 泛函参数 θ(P)\theta(P)θ(P)
输入为分布 PPP(均值、ERM 解、风险等)。分布变则目标变,因而研究 分布层面敏感度,并沿光滑路径 PtjP_t^jPtj​ 求导。
- 核 / RKHS
由核诱导的 光滑且范数受控 的函数空间,抑制尖刺扰动带来的震荡。用 核诱导的平滑方向 代替粗暴点质量。
- 谱分解与正交基 eje_jej​
特征值 σj\sigma_jσj​、特征函数 eje_jej​ 将算子分解为模态,用 ∑j(⋯ )ej\sum_j(\cdots)e_j∑j​(⋯)ej​ 重构。类似 频域分解,再按能量加权。Theorem 3.3 的和与 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​ 即其实现。
- 路径导数
沿光滑曲线 PtjP_t^jPtj​ 计算 ddtθ(Ptj)∣t=0\left.\frac{d}{dt}\theta(P_t^j)\right|_{t=0}dtd​θ(Ptj​)​t=0​,衡量 缓慢倾斜 而非瞬时冲击的响应,是谱 von Mises 公式的核心。
[方法要点] 核心想法
不直接用点质量扰动,而沿特征函数方向路径 PtjP_t^jPtj​ 计算 θ\thetaθ 的路径微分来重构 IF。主结果是 Theorem 3.3(谱 von Mises 公式):把各模态贡献相加。并引入正则强度 λ\lambdaλ 抑制小特征值模态的放大,提高稳定性。
[方法要点] 核心公式细读
主公式:
ψP,λ(x)=lim⁡r→∞∑j=1r11+2λ/σj[ddtθ(Ptj)]t=0ej(x)\psi_{P,\lambda}(x)=\lim_{r\to\infty}\sum_{j=1}^{r}\frac{1}{1+2\lambda/\sigma_j}\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)ψP,λ​(x)=limr→∞​∑j=1r​1+2λ/σj​1​[dtd​θ(Ptj​)]t=0​ej​(x)
直观上,不是一次性求输入 xxx 对输出的总影响,而是拆成多个光滑波状模态,分别算贡献再相加。∑j=1r\sum_{j=1}^{r}∑j=1r​ 表示按模态切开再求和;实际无法算无穷项,只用前 rrr 个模态截断,因此 rrr 是在算力与精度之间折中的近似阶数。
式中央的 [ddtθ(Ptj)]t=0\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}[dtd​θ(Ptj​)]t=0​ 表示:沿该模态方向把分布轻轻推一下时,目标量 θ\thetaθ 对扰动的瞬时斜率(敏感度)。数值大说明该模态会强烈牵动模型。再乘以 ej(x)e_j(x)ej​(x),表示输入 xxx 在该模态上占多少分量。因此,模型对该模态敏感且 ej(x)e_j(x)ej​(x) 也大时,该模态贡献会放大。
前面的 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​ 是安全阀(收缩系数)。小特征值 σj\sigma_jσj​ 的模态往往对噪声敏感、易让计算不稳,该系数会自动压低其贡献。λ\lambdaλ 越大收缩越强——曲线更光滑、方差下降,但过大也会把有用信号压掉、偏差上升。一句话:保留有用的模态敏感度,用正则压住不稳定模态,从而稳定重构整体 IF。
符号梳理(仍在同一节)
不另开术语表,将谱公式中的符号集中说明。
- θ(P)\theta(P)θ(P):把数据分布 PPP 喂给模型后得到的泛函目标(如均值、风险、系数等)。关键是输入是分布本身,不是单个样本。
- ψP\psi_PψP​:影响函数(IF),描述 PPP 微变时 θ(P)\theta(P)θ(P) 变多少;可理解为每个数据点的杠杆图。
- ψP,λ(x)=lim⁡r→∞∑j=1r11+2λ/σj[ddtθ(Ptj)]t=0ej(x)\psi_{P,\lambda}(x)=\lim_{r\to\infty}\sum_{j=1}^{r}\frac{1}{1+2\lambda/\sigma_j}\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)ψP,λ​(x)=limr→∞​∑j=1r​1+2λ/σj​1​[dtd​θ(Ptj​)]t=0​ej​(x):论文核心的谱 von Mises 公式,把各特征模态的影响合成最终 IF。
- PtjP_t^jPtj​:沿第 jjj 个特征函数 eje_jej​ 方向、幅度 ttt 光滑地移动 PPP 得到的路径分布;用光滑路径替代尖点质量扰动以提高数值稳定性。
- [ddtθ(Ptj)]t=0\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}[dtd​θ(Ptj​)]t=0​:路径微分,在 t=0t=0t=0 附近沿该方向的瞬时变化率。
- 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​:正则收缩因子;σj\sigma_jσj​ 小(常对噪声敏感)的模态被更强压低,抑制结果发散。
- rrr:低秩截断阶数;实践中用前 rrr 个模态代替无穷和以控制成本。
- λ\lambdaλ:正则强度;过小方差可能增大,过大偏差可能增大,是偏差–方差旋钮。
- σj\sigma_jσj​:第 jjj 个特征值,刻画该模态的能量/信息量,并与收缩因子共同决定权重。
- ej(x)e_j(x)ej​(x):第 jjj 个特征函数在 xxx 处的值,表示 xxx 与该模态的对齐程度。
- [ddtθ(Ptj)]t=0ej(x)\left[\frac{d}{dt}\theta(P_t^j)\right]_{t=0}e_j(x)[dtd​θ(Ptj​)]t=0​ej​(x):可看作增益项;路径微分大且 ej(x)e_j(x)ej​(x) 大时,该模态贡献更大。
- ∑j=1r(⋯ )\sum_{j=1}^{r}(\cdots)∑j=1r​(⋯):把多模态累积相加,而非单一尖扰动,从而更稳定地重构整体影响。
[实验与结果]
论文围绕最简单的泛函目标——均值——搭建玩具蒙特卡洛实验,展示所提谱估计器在真实计算环境下的表现。需要抓住两点。
第一,正则强度 λ\lambdaλ 带来的偏差–方差推移。λ\lambdaλ 过小会把小特征值模态也强烈纳入,估计值容易剧烈波动(方差增大);λ\lambdaλ 过大则可能过度压制重要模态,偏离真值的偏差增大。因此论文中的收缩系数 11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​,实质上是在数值稳定与信息保留之间的调节旋钮。
第二,样本量 nnn 增大时的一致性。样本越多,估计 IF 越接近理论 IF,与文中理论结果(如 Theorem 4.7)同向。通俗说,数据足够多时,“计算机算出的 IF”会向“数学上期望的 IF”收敛,实验侧也印证了这一点。
从工程视角,这还意味着:不只玩具例子拟合得好,通过选择正则化参数,可以让模型敏感度分析更可复现、更稳定——分析哪些数据在撬动模型时,结果不会次次乱跳,且随数据增多更趋可信。
[结论与局限]
本文最大意义,是把 IF 计算从“依赖研究者手工推导”搬到“数据与算法可重复的流程”。以往模型稍变就要重推 IF,成本高;论文用核谱展开与路径微分给出统一计算框架。尤其用 Nyström 型特征分解估计模态 (σj,ej)(\sigma_j,e_j)(σj​,ej​),再以正则加权把各模态敏感度合成 IF,从实现上看管线非常清晰。
实务上有三点价值突出:(1) 找出对预测影响过大的训练点,优先排查标注错误与异常值;(2) 对比模型更新前后样本影响力变化,作为调试指标;(3) 在可解释 AI(XAI)与稳健学习语境下,从“数据影响”角度解释模型决策。
同时论文也明确留下局限:收敛速率(rate) 的精细理论仍开放——一致性(最终会靠近真值)已有,但“多快靠近”还需后续研究。另一条是路径微分的全自动求导(与 autodiff 深度整合):理论上路径微分是核心,但在多种模型上稳定、自动地算出来,工程层仍有很大空间。因此本文更适合视为 IF 实用化的强基准与起点,而非问题的终点。

图解:局限与方案的鲜明对照

左侧整块突出点质量·尖峰脉冲下敏感度剧烈震荡的经典局限;右侧两格展示谱分解与正则加权如何把曲线平滑、可抑制地重构为影响函数,使差距一目了然。
经典局限

点质量 · 尖峰 → 敏感度过冲、病态

1) 点质量扰动
尖峰导致敏感度大幅波动
VS
论文方案

谱分解 → 正则重构 → 稳定 IF

2) 谱分解
按模态用 (σj,ej)(\sigma_j, e_j)(σj​,ej​) 分解
较小的 σj\sigma_jσj​ 模态被权重衰减
→
3) 正则重构
加权和恢复光滑的 IF
11+2λ/σj\frac{1}{1+2\lambda/\sigma_j}1+2λ/σj​1​ 抑制噪声模态

관련 AI논문

  • - AutoML-Agent:面向全流程 AutoML 的多智能体 LLM 框架
  • - AlphaFormer:使用 Transformer 的端到端阿尔法因子符号回归
  • - 大语言模型中的深度诅咒