3:["$","$L1d",null,{"formats":"$undefined","locale":"zh","messages":{"meta":{"title":"大家的AI","description":"免费AI教育：按章学习基础数学、深度学习与机器学习。从内积、神经网络、反向传播到KNN、回归、集成。深度学习入门·机器学习课程·AI学习。","keywords":"深度学习, 机器学习, AI教育, 基础数学, 深度学习入门, 机器学习课程, AI学习, 神经网络, 反向传播, KNN, 线性回归, 免费课程","learnTitle":"学习","learnPageSeoTitle":"基础深度学习 | 学习","learnDescription":"分章深度学习：内积、矩阵乘法、神经网络、反向传播。通过可视化与题目学习概念，并在迷你神经网络乐园中动手实践。","learnKeywords":"深度学习, 内积, 矩阵乘法, 神经网络, 反向传播, 线性层, 激活函数, AI学习, 分章学习","learnMathTitle":"基础数学与AI | 学习","learnMathDescription":"面向AI的基础数学：函数、向量、矩阵、指数对数、均匀与正态分布。为深度学习与机器学习打基础。","learnMathKeywords":"基础数学, 函数, 向量, 矩阵, AI数学, 正态分布, 深度学习数学","learnMlTitle":"机器学习 | 学习","learnMlDescription":"机器学习从入门到实战：KNN、线性与逻辑回归、决策树、集成、K均值、交叉验证、推荐系统。按章学习。","learnMlKeywords":"机器学习, KNN, 线性回归, 逻辑回归, 决策树, 集成, K均值, 交叉验证, 推荐系统, 机器学习课程","learnMidMlTitle":"中级机器学习 | 学习","learnMidMlDescription":"面向实务数据的前处理（缩放、编码、缺失值填补）、PCA、SVM、提升基础、DBSCAN·GMM·异常检测、管道与超参数调优，按章学习。","learnMidMlKeywords":"中级机器学习, 缩放, 编码, 缺失值, PCA, SVM, 提升, AdaBoost, GBM, DBSCAN, GMM, 管道, Optuna","learnAdvDlTitle":"进阶深度学习 | 学习","learnAdvDlDescription":"从Transformer、BERT、GPT、FlashAttention、ViT、自监督学习、提示工程、LoRA、QLoRA、RLHF、DPO、RAG、LLM智能体、GNN、XAI、自编码器、VAE、GAN、扩散、VLM、语音、知识蒸馏到部署，按章学习大模型与生成式AI。","learnAdvDlKeywords":"进阶深度学习, Transformer, BERT, GPT, FlashAttention, ViT, LoRA, QLoRA, RLHF, DPO, RAG, LLM智能体, GNN, Grad-CAM, VAE, GAN, 扩散模型, Stable Diffusion, CLIP, Whisper, 知识蒸馏, TensorRT, vLLM","learnMidDlTitle":"中级深度学习 | 学习","learnMidDlDescription":"从权重初始化、Adam、学习率调度、正则化、批/层归一化、数据增强、CNN、池化、ResNet、轻量CNN、迁移学习、目标检测、图像分割、分词、词嵌入、1D CNN、RNN、LSTM、GRU、编码器-解码器、注意力，按章学习稳定训练与非结构化数据处理。","learnMidDlKeywords":"中级深度学习, 权重初始化, Xavier, He, Adam, RMSprop, 学习率调度, 正则化, Dropout, 批归一化, 层归一化, 数据增强, CNN, 池化, ResNet, MobileNet, 迁移学习, YOLO, SSD, U-Net, 分词, BPE, Word2Vec, GloVe, RNN, LSTM, GRU, 注意力","learnMidMathTitle":"进阶数学 | 学习","learnMidMathDescription":"向量·矩阵·线性变换·特征值·梯度·雅可比·海森·泰勒·凸优化·条件概率·贝叶斯·协方差·多元正态·MLE·熵·交叉熵，按章学习处理多变量与不确定性的进阶数学。","learnMidMathKeywords":"进阶数学, 向量空间, 内积, 矩阵, 线性变换, 逆矩阵, 行列式, 秩, 特征值, 特征向量, 梯度, 雅可比, 海森, 泰勒级数, 凸优化, 条件概率, 贝叶斯定理, 协方差, MLE, 熵, KL散度","learnAdvMathTitle":"高级数学 | 学习","learnAdvMathDescription":"SVD、张量、拉格朗日、马尔可夫、蒙特卡洛、MCMC、EM、MAP、变分推断、Wasserstein、MDP、傅里叶、图拉普拉斯、SDE、朗之万、信息几何等，按章学习支撑生成模型与深度优化的高级数学。","learnAdvMathKeywords":"高级数学, SVD, 伪逆, 张量, 拉格朗日, KKT, 马尔可夫, 蒙特卡洛, MCMC, EM, MAP, 变分推断, Wasserstein, MDP, 贝尔曼, 傅里叶, 图拉普拉斯, SDE, 朗之万, 得分匹配, 信息几何","learnAdvMlTitle":"高级机器学习 | 学习","learnAdvMlDescription":"特征工程、PCA、t-SNE、SVM、核方法、提升、XGBoost、不平衡数据、异常检测、DBSCAN、GMM、超参数调优、交叉验证、XAI、SHAP、时间序列、推荐系统：面向非线性、复杂数据、优化与可解释性的高级机器学习，按章学习。","learnAdvMlKeywords":"高级机器学习, 特征工程, PCA, t-SNE, UMAP, SVM, 核, 提升, XGBoost, LightGBM, SMOTE, 异常检测, DBSCAN, GMM, 超参数, Optuna, XAI, SHAP, LIME, 时间序列, ARIMA, Prophet, 矩阵分解, FM","learnPaperReviewHubTitle":"论文导读 | 学习","learnPaperReviewHubDescription":"按主题整理的 AI 与深度学习论文导读：理论、优化、架构、表格数据、视觉、NLP、XAI、数据为中心、边缘/网页、领域应用等。","learnPaperReviewHubKeywords":"论文导读, AI论文, 深度学习, 机器学习, 学习","playgroundTitle":"AI Playground | 神经网络·CNN·KNN·强化学习","playgroundDescription":"浏览器免费 AI Playground：MLP 分类器、KNN 近邻分类、卷积 CNN、Q-learning 秋千、SGD·Adam 损失地形、注意力 Playground，亲手体验 ML 与深度学习。","playgroundKeywords":"AI Playground, KNN, K近邻, 神经网络, CNN, 优化器, SGD, Adam, Q-learning, 注意力, 免费 AI 实验","playgroundNnClassifierTitle":"神经网络分类器 Playground","playgroundNnClassifierDescription":"在浏览器中亲手训练神经网络分类器的免费实验室。K 文化数据（太极、丹青、韩流、K-Pop）、特征开关、隐藏层与神经元调节、学习率与正则化，实时查看决策边界与损失，体验反向传播与小批量 SGD。","playgroundNnClassifierKeywords":"神经网络分类器, Playground, MLP, 决策边界, 反向传播, 小批量 SGD, 激活函数, ReLU, Tanh, L1 L2 正则化, 深度学习演示","playgroundRlTitle":"秋千强化学习智能体 Playground","playgroundRlDescription":"免费浏览器 Q-learning 实验：机器人学习何时推秋千。摆动物理、六种环境、调节 α·γ·ε、实时奖励曲线与贝尔曼更新公式，入门强化学习。","playgroundRlKeywords":"强化学习, Q-learning, 秋千模拟器, 摆, RL 智能体, RL Playground, ε-greedy, 奖励函数, 回合回报, 贝尔曼, MDP, 免费 RL 模拟器","playgroundRlAbout":"强化学习（Q-learning）","playgroundRlFeature1":"摆秋千物理模拟","playgroundRlFeature2":"六种秋千环境预设","playgroundRlFeature3":"实时 Q-learning 训练与奖励图","playgroundRlFaq1Q":"在这里能学到什么？","playgroundRlFaq1A":"用离散 Q 表把角度与角速度映射到三种动作：左推、惯性、右推。高度奖励与 ε-greedy 探索展示强化学习的基本循环。","playgroundRlFaq2Q":"奖励如何计算？","playgroundRlFaq2A":"每步按秋千高度(1−cos θ)给奖励，荡得够高有加成；推秋千有小代价，速度或角度过激则回合结束。","playgroundRlFaq3Q":"α、γ、ε 是什么？","playgroundRlFaq3A":"α 是学习率，γ 是折扣因子，ε 是随机探索比例。拖动滑块观察回报与策略如何变化。","playgroundCnnTitle":"卷积 CNN Playground | feature map 与核实操","playgroundCnnDescription":"免费 CNN 实验：对 16×16 K 文化图像应用 3×3 卷积滤波器，实时查看 feature map。Sobel·模糊·锐化·边缘等 7 种预设，ReLU、最大池化、逐步滑动动画与 padding，入门卷积与计算机视觉。","playgroundCnnKeywords":"CNN, 卷积, convolution, feature map, 核, 滤波器, ReLU, max pooling, Sobel, 边缘检测, 计算机视觉, Playground, K 文化, 免费 CNN 模拟器","playgroundCnnAbout":"卷积神经网络 (CNN)","playgroundCnnFeature1":"太极、丹青、韩文、K-Pop K 文化输入图案","playgroundCnnFeature2":"Identity·模糊·Sobel 等 7 种 3×3 核预设与点击编辑","playgroundCnnFeature3":"卷积→ReLU→池化流水线实时可视化","playgroundCnnFeature4":"▶ 播放/单步核滑动动画","playgroundCnnFeature5":"Valid·Same padding 切换","playgroundCnnFaq1Q":"卷积做什么？","playgroundCnnFaq1A":"小滤波器（核）在图像上滑动，对每个位置计算邻域像素的加权和，提取边缘、纹理等空间模式——CNN 的核心运算。","playgroundCnnFaq2Q":"为什么用 Sobel 滤波器？","playgroundCnnFaq2A":"Sobel X/Y 强调水平与垂直方向的亮度变化（边缘）。即使未训练，手动滤波也能在 feature map 中看到轮廓。","playgroundCnnFaq3Q":"ReLU 和最大池化是什么？","playgroundCnnFaq3A":"ReLU 将负响应置零，只保留激活特征。2×2 最大池化保留每 2×2 块中的最大值，缩小尺寸并增强对小幅平移的鲁棒性。","playgroundCnnFaq4Q":"有哪些核预设？","playgroundCnnFaq4A":"Identity、Gaussian blur、Sharpen、Sobel X/Y（横纵边缘）、Edge（拉普拉斯型）、Emboss 共 7 种。可对比各预设在 feature map 中强调的模式。","playgroundCnnFaq5Q":"逐步动画如何工作？","playgroundCnnFaq5A":"点击播放或单步，核在输入网格上滑动，逐格填充卷积输出；随后 ReLU 与 2×2 最大池化以同样方式推进，逐步展示 CNN 一层的数据流。","playgroundCnnFaq6Q":"是否免费且无需安装？","playgroundCnnFaq6A":"是的。完全在浏览器中运行的免费教育 Playground，无需 Python 或 TensorFlow，即可直观体验卷积、feature map 与池化。","playgroundTransformerTitle":"注意力 Playground | Self-Attention·QKV 实验","playgroundTransformerDescription":"在短句中选择 query token，实时查看 Q·K 内积→softmax→V 加权和。免费 Self-Attention 实验室：BERT/GPT 因果掩码、√d_k 缩放、注意力矩阵热力图与分步动画，适合 Transformer 入门。","playgroundTransformerKeywords":"注意力, attention, self-attention, 自注意力, transformer, QKV, softmax, causal mask, 因果掩码, scaled dot-product, Playground, 深度学习实验, 免费注意力模拟器, NLP","playgroundTransformerAbout":"Scaled Dot-Product Self-Attention","playgroundTransformerFeature1":"4 种短句预设与 query token 选择","playgroundTransformerFeature2":"Q·K^T 分数与 softmax 权重的 N×N 热力图","playgroundTransformerFeature3":"BERT（全连接）vs GPT（因果）掩码切换","playgroundTransformerFeature4":"√d_k 缩放、公式面板、token 连接 SVG","playgroundTransformerFeature5":"▶ 播放/单步：scores→softmax→output","playgroundTransformerFaq1Q":"Q、K、V 是什么？","playgroundTransformerFaq1A":"Query 表示“找什么”，Key 表示“含有什么”，Value 是“实际取回的信息”。Q 与 K 内积得到相关分数，softmax 变成权重后对 V 加权求和，更新 token 表示。","playgroundTransformerFaq2Q":"为什么用 softmax？","playgroundTransformerFaq2A":"将内积分数变为 0~1 的权重，且每个 query 行之和为 1，把注意力集中在最相关的 token 上，同时保持概率解释。","playgroundTransformerFaq3Q":"因果掩码是什么？","playgroundTransformerFaq3A":"GPT 式从左到右生成时，对未来 token (j>i) 的分数设为 −∞，softmax 后权重为 0。BERT 为双向，可同时看到全部 token。","playgroundTransformerFaq4Q":"为什么要除以 √d_k？","playgroundTransformerFaq4A":"维度 d_k 增大时内积变大，softmax 可能过于尖锐。除以 √d_k 可稳定分数尺度，利于训练与理解。","playgroundTransformerFaq5Q":"是否免费且无需安装？","playgroundTransformerFaq5A":"是的。完全在浏览器中运行的免费教育 Playground，无需 PyTorch 或 TensorFlow，即可直观体验 Self-Attention 的 QKV→softmax→加权和流程。","playgroundAgentTitle":"Claude Code 多智能体 Playground | 子智能体 · tool use","playgroundAgentDescription":"模拟 Claude Code 通过 Task() spawn 子智能体，并用 Read·Write·Bash·Glob 工具处理 ML 任务。开关专家角色，查看会话在何处停止。","playgroundAgentKeywords":"Claude Code, LLM 智能体, multi-agent, 子智能体, Task, Read Write Bash, 编排, tool use, Playground, 免费 AI 实验","playgroundAgentAbout":"Claude Code 多智能体会话","playgroundAgentFeature1":"六个子智能体（Orchestrator·Data·Model·Code·Verify·Deploy）开关","playgroundAgentFeature2":"表格、视觉、部署三种 ML 提示","playgroundAgentFeature3":"8 回合会话日志 · tool use trace · 阻断可视化","playgroundAgentFeature4":"编排公式面板","playgroundAgentFaq1Q":"关闭子智能体会怎样？","playgroundAgentFaq1A":"Claude Code 会话会在该角色负责的回合停止。关闭 Code 会在 Write train_*.py 步骤中断。Deploy 为可选，关闭后仍可能完成原型。","playgroundAgentFaq2Q":"Orchestrator 为何始终开启？","playgroundAgentFaq2A":"orchestrator 编写 .cursor/plan.md，并通过 Task(subagent=...) spawn 专家子智能体。Claude Code 会话需要一名负责委派的协调者。","playgroundAgentFaq3Q":"与 RL Playground 的智能体有何不同？","playgroundAgentFaq3A":"RL Playground 训练 Q-learning 策略。本实验模拟 Claude Code 子智能体、Task() 委派与 Read/Write/Bash 工具调用。","playgroundAgentFaq4Q":"是否免费且无需安装？","playgroundAgentFaq4A":"是的。纯浏览器教育模拟器，不调用 LLM API，可交互体验 Claude Code 会话流程与子智能体依赖。","playgroundOptimizerTitle":"损失地形实验室 | SGD·Momentum·Adam 对比","playgroundOptimizerDescription":"在 2D 损失曲面上对比 SGD、Momentum、Adam 从同一起点如何沿不同路径寻找最小值。可调学习率与动量系数，提供碗形、鞍点、Rosenbrock 峡谷三种地形，实时显示路径与损失。","playgroundOptimizerKeywords":"优化器, SGD, Momentum, Adam, 梯度下降, 损失函数, loss landscape, 学习率, Playground, 深度学习实验","playgroundOptimizerAbout":"梯度下降与自适应优化","playgroundOptimizerFeature1":"碗形·鞍点·Rosenbrock 峡谷三种地形","playgroundOptimizerFeature2":"SGD·Momentum·Adam 路径同步对比","playgroundOptimizerFeature3":"学习率·β·点击设起点·公式面板","playgroundOptimizerFaq1Q":"为什么同时运行三种优化器？","playgroundOptimizerFaq1A":"相同起点和学习率下，各算法的路径与收敛速度差异很大。SGD 简单但在峡谷中易振荡；Momentum 用惯性保持方向；Adam 每步自适应学习率。","playgroundOptimizerFaq2Q":"Rosenbrock 峡谷(valley)是什么？","playgroundOptimizerFaq2A":"f(x,y)=(1−x)²+10(y−x²)² 形成狭窄弯曲的峡谷，类似许多神经网络损失曲面。可观察学习率与优化器选择如何导致发散或极慢收敛。","playgroundOptimizerFaq3Q":"如何更改起点？","playgroundOptimizerFaq3A":"点击损失画布可移动白色起点标记，三条路径将从新位置重绘。切换地形预设会重置为该地形的默认起点。","playgroundOptimizerFaq4Q":"鞍点地形为什么有两个最小值？","playgroundOptimizerFaq4A":"f(x,y)=(x²−1)²+y² 是双势阱：中心 (0,0) 为鞍点，左右 (-1,0) 与 (1,0) 为最小值。可对比不同起点下优化器进入哪个谷、如何穿过鞍点。","playgroundKnnTitle":"KNN 近邻分类 Playground | K 近邻·多数表决","playgroundKnnDescription":"免费 ML 实验室：在 2D K 文化数据上用 K 近邻（KNN）分类。调节 K 与欧氏/曼哈顿距离，点击查询，实时查看近邻连线、决策区域与测试准确率。","playgroundKnnKeywords":"KNN, K近邻, k-nearest neighbors, 机器学习, Playground, 多数表决, 欧氏距离, 曼哈顿距离, 决策边界, 分类, ml03, 免费 ML 模拟器","playgroundKnnAbout":"K 近邻分类","playgroundKnnFeature1":"太极·丹青·韩流·K-Pop K 数据集","playgroundKnnFeature2":"K·距离度量·点击查询·近邻高亮","playgroundKnnFeature3":"决策区域热力图·测试准确率·表决表","playgroundKnnFaq1Q":"KNN 需要训练吗？","playgroundKnnFaq1A":"无需学习权重，直接从训练集（train）中取最近的 K 个邻居标签多数表决。查询位置一变，邻居与预测立即更新。","playgroundKnnFaq2Q":"K 变大后会怎样？","playgroundKnnFaq2A":"K 小则边界锯齿、对噪声敏感；K 大则边界更平滑，但在类别混合区域更容易误分。","playgroundKnnFaq3Q":"与神经网络分类器有何不同？","playgroundKnnFaq3A":"同样 2D 数据，KNN 只用距离与多数表决，神经网络分类器则用反向传播学习权重。并排对比两个 Playground 可感受传统 ML 与深度学习的差异。","communityTitle":"IT新闻","communityDescription":"了解 AI·IT 最新资讯与开发动态。新帖持续更新，可通过搜索发现。","communityKeywords":"IT新闻, AI新闻, 人工智能新闻, 机器学习, 深度学习, LLM, AI开发动态, 科技新闻","studiesTitle":"学习小组","studiesDescription":"深度学习学习小组与学习资源。","curriculumTitle":"读书","curriculumDescription":"创建与分享基于书籍的学习路线与读书。","supportTitle":"支持与联系","supportDescription":"大家的AI使用说明、Chrome扩展、学习与社区相关咨询及支持信息。","privacyTitle":"隐私政策","privacyDescription":"大家的AI（学习、读书、社区、Playground 等）个人信息处理说明。","termsTitle":"服务条款","termsDescription":"大家的AI教育平台服务条款。","refundTitle":"退款政策","refundDescription":"学习 Premium 订阅（每月 4 美元）支付、退款与取消政策。","aboutTitle":"大家的AI是什么？","aboutDescription":"AI研究者打造的基础数学·深度学习教育平台。基于K联赛AI竞赛3名、金融AI挑战赛22名等经历，传递基础理解的重要性。","kimpoPromoTitle":"金浦AI教育提案 | 大家的AI","kimpoPromoDescription":"将金浦市地域数据与数学、深度学习、机器学习教育连接起来的大家的AI提案页面。","kimpoCourseTitle":"金浦AI课程介绍 | 大家的AI","kimpoCourseDescription":"汇总16课时结构、金浦地域问题数据与团队项目流程的课程介绍页面。"},"support":{"title":"支持与联系","intro":"关于大家的AI（mdooai.com）的使用方法、错误反馈与建议，请参考以下内容。","serviceTitle":"服务介绍","serviceContent":"大家的AI是帮助从本质理解深度学习与AI的教育平台。提供学习（分章可视化，部分章节付费订阅）、读书（基于书籍的路线）、社区（学习资料分享）、Chrome扩展（新标签页打开学习页）等服务。","extensionTitle":"Chrome扩展","extensionContent":"点击工具栏图标即可在新标签页中打开学习页面（https://mdooai.com/learn）。安装与使用问题可通过本支持页或Chrome网上应用店扩展页面联系我们。","extensionInstallCta":"在Chrome网上应用店安装","contactTitle":"联系我们","contactContent":"服务相关的咨询、错误反馈与建议，请通过mdooai.com站内联系或公开联系方式发送。我们将尽快回复。","linksTitle":"相关链接","learnLink":"学习","privacyLink":"隐私政策","termsLink":"服务条款","refundLink":"退款政策","supportUrlLabel":"支持URL"},"about":{"title":"大家的AI是什么？","intro1":"您好。这里是大家的AI。我们专注于机器学习和深度学习。","intro2":"我参加过多种AI竞赛，并亲自开发过企业使用的各类模型。在这一过程中得到一个重要体会：技巧固然重要，但决定性能差异的关键在于对基础的理解。如今虽可用vibe coding快速实现模型，但当性能未达预期时，分析原因并改进仍非易事。若缺乏数学基础与对AI原理的理解，便难以从结构上把握瓶颈出在哪里。","intro3":"这个网站正是为减少这类试错而设计，让你把概念与计算一起掌握。","intro4Before":"因此，我根据自己学习整理的内容，独立开发并公开了这套学习平台。如需讲座或培训，欢迎随时通过 ","intro4After":" 联系，我会为您介绍。","profileTitle":"简介","educationTitle":"1. 教育背景","education1":"计算机工程学士","education2":"延世大学人工智能专业硕士课程","education3":"Upstage Certified Trainer","careerTitle":"2. 公司外经历","career1":"Prompt Genie 开发（Chrome 扩展，40 万下载，已出售）","career2":"Travel Writer 开发（Primer 黑客松决赛入围 — 636 人、130 余支队伍中最终 12 强）","career3Before":"大家的AI 开发（全球服务，活跃用户 3300 人，","career3After":"）","papersTitle":"3. 论文","papers1":"Interpretable Automated Machine Learning via Large Language Model Reasoning: Combining Transparency with Performance（2026 人工智能学会秋季大会）","papers2":"FS-DCM: Frequency-Separated Dual-Context Modeling with Dynamic Local Volatility Weighting for Time-Series AutoML（2026 AutoML.CC Oral + Poster）","awardsTitle":"4. 获奖经历","awards1":"2026 K 联赛最终传球预测模型 AI 开发第 3 名（3/947）","awards2":"2026 第 5 届 ETRI 人类理解论文竞赛 Private Leaderboard 第 2 名","approachTitle":"学习方式","approachContent":"不是罗列概念总结，而是按运算流程逐步跟随，理解「为何这样运作」。以可视化与交互为核心，可直接计算并通过AI教练即时反馈纠正误解。","roadmapTitle":"未来计划","roadmapContent":"计划持续扩展包括机器学习在内的各类AI教育内容。感兴趣的朋友欢迎随时通过 ","roadmapContactAfter":" 联系为盼。","feedbackNote":"尚属早期版本，但持续改进中。欢迎反馈，将积极采纳。","ctaLearn":"开始学习","ctaDeveloper":"查看开发者简介","chromeExtensionTitle":"添加到Chrome网上应用店","chromeExtensionDesc":"安装Chrome扩展后，可在新标签页中直接打开学习页面。"},"terms":{"title":"服务条款","effectiveDate":"生效日期：2026年5月21日（修订时将在本页公布）。","intro":"大家的AI（mdooai.com）是帮助您循序渐进学习深度学习、机器学习与数学的教育平台。本条款规范网站及相关服务的使用。","section1Title":"1. 适用范围与服务","section1Content":"本条款适用于 https://mdooai.com 及：（1）学习——基础/中级/高级深度学习、数学、机器学习课程，论文评述，Playground 实验（神经网络、强化学习、CNN 等），徽章与个人资料；（2）读书——基于图书的学习路线图；（3）社区与 IT 资讯——发帖与评论；（4）Chrome 扩展——在新标签页打开学习页；（5）介绍、支持与法务页面。网站支持韩语、英语、日语与简体中文。部分学习章节可能为 Premium（付费订阅），免费与付费范围以页面标注为准。","section2Title":"2. 账户与使用","section2Content":"多数功能需注册/登录（通过 Clerk 等认证服务）。学习提供章节可视化、练习题与 AI 学习教练；部分章节免费、部分为 Premium。读书、社区、Playground、论文评述等原则上免费。Premium 费用、支付、退款与取消见退款政策。若显示“支付准备中”，在开通前不会扣款；开通后适用本条款与退款政策。","section3Title":"3. 内容、用户发布与禁止行为","section3Content":"学习与读书等内容版权归大家的AI或合法权利人所有。仅限个人学习使用；禁止未经授权复制、传播、转售或自动抓取。您对社区发布内容负责，我们可依政策删除或限制。禁止盗号、干扰服务、违法或侵害他人权利，违规可限制使用。","section4Title":"4. 条款变更","section4Content":"条款变更将在本页公布；重大变更将注明生效日期。继续使用即视为接受新条款。","section5Title":"5. 联系我们","section5Content":"咨询请访问 https://mdooai.com/support 或站内支持页面。","termsUrlLabel":"服务条款URL"},"refund":{"title":"退款政策","effectiveDate":"生效日期：2026年5月21日（修订时将在本页公布）。","intro":"本政策适用于学习 Premium 订阅（每月 4 美元、自动续费）的支付、退款与取消。读书、社区、Playground、论文评述等免费。","section1Title":"1. 订阅范围、费用与支付","section1Content":"Premium 适用于部分付费学习章节（如基础深度学习第 04–12 章等，以页面 Premium 标注为准）及 AI 学习教练等功能。费用为每月 4 美元，自首次付款日起每月自动续费。由 Paddle、PayPal 等处理；我们不保存完整卡号。以结账页显示金额、货币与周期为准。显示“支付准备中”期间可能尚未扣款，开通后适用本政策。","section2Title":"2. 退款","section2Content":"首次付款后 7 日内不满意可申请全额退款。超过 7 日或第二次及以后付款，当期计费周期不予退款。请联系 https://mdooai.com/support 或支付服务商客服（Paddle、PayPal 等）。","section3Title":"3. 取消订阅","section3Content":"可随时取消。取消后当期计费周期结束前仍可使用 Premium；下一计费日不再扣款。已扣当期费用不退（符合首次 7 日退款条件的除外）。","section4Title":"4. 适用与联系","section4Content":"流程以付款时政策及支付服务商条款为准。咨询：https://mdooai.com/support","refundUrlLabel":"退款政策URL"},"privacy":{"title":"隐私政策","effectiveDate":"生效日期：2026年5月21日（修订时将在本页公布）。","section1Title":"1. 适用范围","section1Content":"本政策适用于大家的AI（mdooai.com）及学习、读书、社区、Playground、论文评述、Chrome 扩展、支持页面等。部分学习章节或功能可能为 Premium（付费）。","section2Title":"2. 收集的信息","section2Intro":"使用服务时可能收集以下信息。认证、托管与支付由专业服务商处理，亦适用其政策。","section2List1":"账户与认证：邮箱、显示名、资料标识等（通过 Clerk 等；我们可能不直接存储密码）","section2List2":"使用与学习数据：章节进度、徽章、社区发帖/评论/附件、读书（课程）数据、AI 教练问答等","section2List3":"设备与访问：浏览器、IP、时间戳、Cookie/会话等","section2List4":"支付与订阅：由 Paddle、PayPal 等处理；我们不保存完整卡号。订阅状态与支付标识用于 Premium、退款、取消与支持","section2List5":"委托处理：部分社区与课程数据可能存于 Supabase 等；AI 教练可能将问题上下文发送至 AI API（如 Upstage）","section2Extension":"Chrome 扩展不收集或传输用户数据，仅在点击图标时打开 https://mdooai.com/learn","section3Title":"3. 信息使用目的","section3Content":"用于认证、学习/社区/读书服务、Premium 管理、AI 教练与搜索、改进与故障处理、安全防滥用、合规及用户支持。","section4Title":"4. 保存与删除","section4Content":"目的达成或法定保存期满后删除或匿名化。注销/删除请求按程序及受托方政策处理。","section5Title":"5. 第三方与委托","section5Content":"不出售个人信息。运营中可能委托 Clerk（认证）、Supabase（存储）、Paddle/PayPal（支付）、AI API 提供方（学习教练）等；依法可能被要求披露。","section6Title":"6. 政策变更","section6Content":"变更时更新本页；重大变更将注明生效日期。","section7Title":"7. 联系我们","section7Content":"咨询：https://mdooai.com/support","privacyUrlLabel":"隐私政策URL"},"common":{"appName":"大家的AI","headerBrand":"大家的AI","loading":"加载中…","close":"关闭","back":"返回","backToHome":"← 首页","chapterSelect":"选择章节","chapterSearchNoResults":"没有找到结果。","chapterListEmpty":"暂无章节。","chapters":"学习","curriculum":"读书","community":"社区","itNews":"IT新闻","language":"语言","openMenu":"打开菜单","closeMenu":"关闭菜单","menu":"菜单","communityComingSoon":"社区专区正在准备中。","searchPlaceholder":"搜索章节、概念…","globalSearchPlaceholder":"搜索全部章节…","globalSearchNoResults":"没有找到结果。","answer":"答案","wrongAnswerGuideButton":"为什么错了？","mcTfFalse":"错","mcTfTrue":"对","mcCircled1":"①","mcCircled2":"②","mcCircled3":"③","mcCircled4":"④","signIn":"登录","signUp":"注册","myAccount":"我的账户","signOut":"退出登录","aboutLink":"大家的AI是什么？","myAchievements":"我的成就","moreServices":"更多","allServices":"全部服务","saving":"保存中…"},"community":{"title":"IT新闻","subtitle":"了解 AI·IT 最新资讯与开发动态。","allPosts":"全部帖子","viewFullCommunity":"查看全部社区","sortNewest":"最新","sortOldest":"最早","newPost":"新帖","createPost":"发帖","uploadMaterial":"上传资料","uploadTitle":"标题","category":"分类","categoryAll":"全部","categoryPlaceholder":"选择分类","category_ai_news":"AI 新闻","category_ai_basics":"AI 基础","category_machine_learning":"机器学习","category_deep_learning":"深度学习","category_nlp":"自然语言处理","category_computer_vision":"计算机视觉","category_llm":"大语言模型","category_prompt_engineering":"提示工程","category_ai_ethics":"AI 伦理","category_ai_tools":"AI 工具","category_study_material":"学习资料","priceTypeFree":"免费","priceTypePaid":"付费","price":"金额","pricePlaceholder":"例：100元","uploadTitlePlaceholder":"例：内积练习表","uploadDescription":"说明","uploadDescriptionPlaceholder":"请描述资料内容与使用方式。","uploadFile":"附件（选填）","uploadSubmit":"发布","uploading":"发布中…","download":"下载","postedAt":"发布于","noPosts":"暂无帖子。来发第一篇吧！","searchPlaceholder":"搜索标题或说明","prevPage":"上一页","nextPage":"下一页","pageOf":"第 {current} / {total} 页","scrollToTop":"回到顶部","signInToPost":"请先登录后再上传资料。","errorLoad":"加载帖子失败。","errorPublish":"发布失败，请重试。","errorPriceRequired":"付费时请填写金额。","backToFeed":"返回动态","postedAnUpdate":"发布了动态","postLabel":"帖子","inThisPost":"本贴中出现","replyPlaceholder":"回复 {name} 的帖子","replyComingSoon":"回复功能即将推出。","errorPostNotFound":"找不到该帖子。","deletePost":"删除帖子","deleteConfirm":"确定要删除这篇帖子吗？","errorDelete":"删除失败。","editPost":"编辑帖子","comments":"评论","commentPlaceholder":"写评论","commentSubmit":"发送","commentSubmitting":"发送中…","commentEdit":"编辑","commentDelete":"删除","commentDeleteConfirm":"确定要删除这条评论吗？","commentCancel":"取消","commentSave":"保存","noComments":"暂无评论。","errorComment":"评论发送失败。","errorCommentEdit":"更新失败。","errorCommentDelete":"删除失败。","removeFile":"移除","editForbidden":"您没有编辑权限。","backToPost":"返回帖子","currentFile":"当前","removeFileLabel":"移除附件"},"curriculum":{"title":"读书","listTitle":"读书","listSubtitle":"创建与分享基于书籍的学习路线，浏览推荐读书。","createNew":"新建读书","newTitle":"创建读书","subtitle":"搜索教材，按此学习路线即可达成学习目标的读书。","searchBooks":"搜索书籍","autocompleteLabel":"自动完成","searchResults":"从搜索结果中选择","searchResultsEmpty":"搜索书籍后结果会显示在这里。","requiredBookTitle":"请输入书名。（必填）","aiAutoLabel":"AI 自动生成","generateHint":"输入书名后点击按钮，AI 将自动生成学习路线。","generateWithAI":"AI 自动生成读书","fillRequiredToGenerate":"输入书名后即可使用此按钮。","resultEmptyHint":"点击上方「AI 自动生成读书」后，内容会显示在此。可编辑后保存。","requiredToSave":"请同时填写书名和读书内容后再保存。","searchPlaceholder":"按书名、作者、主题搜索…","searchButton":"搜索","searching":"搜索中…","noBooks":"暂无结果，请换其他关键词。","selectBook":"用此书生成读书","editBookInfo":"书籍信息（可编辑）","searchOrManualHint":"可搜索书籍选择，或在下栏直接填写。没有对应书籍时仅填书名也可生成读书。","bookTitle":"书名","bookTitlePlaceholder":"例：深度学习入门","bookImageUrl":"封面图片 URL","isbnPubdate":"ISBN / 出版日期","bookInfo":"书籍信息","bookDescription":"书籍介绍","isbn":"ISBN","pubdate":"出版日期","generating":"正在生成读书…","generateError":"读书生成失败，请重试。","searchError":"书籍搜索失败。","optionalRequest":"附加要求（选填）","optionalRequestPlaceholder":"例：面向初学者、2周课程、侧重理解ML…","resultTitle":"生成的学习路线","shortDescription":"简短说明（在列表中显示）","shortDescriptionPlaceholder":"例：从基础到进阶的阶段性学习路线","shortDescriptionHint":"在列表中作为预览显示。留空则使用正文摘要。","editCurriculum":"可编辑下方内容后保存。","save":"保存","saving":"保存中…","saveSuccess":"已保存。","saveError":"保存失败。","signInToSave":"请先登录后再保存。","author":"作者","publisher":"出版社","sortNewest":"最新","sortOldest":"最早","sortPopular":"推荐","curriculaSearchPlaceholder":"搜索标题或摘要","prevPage":"上一页","nextPage":"下一页","pageOf":"第 {current} / {total} 页","scrollToTop":"回到顶部","noCurricula":"暂无已保存读书。去创建一个吧！","notFound":"找不到该读书。","like":"推荐","likes":"推荐数","createdBy":"开设者","anonymous":"匿名","edit":"编辑","delete":"删除","deleteConfirm":"确定要删除此读书吗？","editCurriculumMenu":"菜单","editTitle":"编辑读书","cancel":"取消","backToCurriculum":"返回读书","backToDetail":"返回详情","editForbidden":"仅作者可编辑。"},"auth":{"loading":"加载中…","signIn":{"title":"登录","subtitle":"请输入邮箱或用户名和密码。","identifierLabel":"邮箱或用户名","identifierPlaceholder":"输入邮箱或用户名","passwordLabel":"密码","passwordPlaceholder":"输入密码","submit":"继续","submitting":"登录中…","noAccount":"还没有账号？","signUpLink":"注册"},"signUp":{"title":"创建账号","subtitle":"请填写以下信息完成注册。","usernameLabel":"用户名","usernamePlaceholder":"4～64 个字符，仅限英文字母与数字","usernameRules":"4～64 个字符，仅支持拉丁字母。不可使用特殊字符 ^ $ ! . ` # + ~。","emailLabel":"邮箱地址","emailPlaceholder":"输入邮箱地址","passwordLabel":"密码","passwordPlaceholder":"输入密码","submit":"继续","submitting":"处理中…","hasAccount":"已有账号？","signInLink":"登录"},"verifyEmail":{"title":"邮箱验证","subtitleSignIn":"请输入发送到您邮箱的验证码。","subtitleSignUp":"请输入发送到您邮箱的验证码。","codeLabel":"验证码","codePlaceholder":"输入验证码","submit":"确认","submitting":"验证中…","verifyButton":"验证","back":"上一步","backSignIn":"其他方式登录"},"errors":{"generic":"请求处理失败，请重试。","username_length":"用户名需为 4～64 个字符。","username_non_number":"用户名需包含至少一个非数字字符（如英文字母）。","username_latin_only":"用户名仅支持英文字母。注册后可在账户中设置中文显示名。","password_length":"请确认密码长度要求。","form_identifier_exists":"该邮箱或用户名已被使用。","form_identifier_not_found":"未找到匹配的账号。","form_password_incorrect":"密码错误。","form_code_incorrect":"验证码错误。","form_password_compromised":"检测到密码安全问题，请使用邮箱验证等其他方式登录。","user_locked":"登录已暂时锁定，请稍后再试。","display_name_min_length":"显示名至少需要4个字符。","second_factor_not_supported":"本服务仅支持账号密码登录。若启用了多因素认证(MFA)，请在 Clerk 控制台调整实例 MFA 策略，或在用户安全设置中关闭 MFA 后重试。"}},"paperReview":{"title":"AI论文","navTitle":"AI论文","hubTitle":"AI论文","hubDescription":"按主题整理论文，请选择下方分类。","hubFlatListTitle":"已公开 AI 论文","hubFlatListLead":"可从分类与会议导流入口进入各篇论文页面。","hubFlatListCount":"共 {count} 篇","hubFlatListPaperLabel":"论文","scopeHeading":"分类范围","keywordsHeading":"关键词","seoTitleSuffix":"CPAL 2026 论文导读 | 大家的AI","categories":{"theoreticalFoundations":{"sidebarTitle":"理论·数学基础","headline":"理论与数学基础","scope":"人工智能算法的数学证明、优化理论、泛函分析、线性代数视角等论文（例如 Influence Function 相关工作）。","keywords":"数学证明、优化、算法基础、统计学习理论"},"modelOptimization":{"sidebarTitle":"模型优化·轻量化","headline":"模型优化与高效 AI","scope":"低秩近似、LoRA、量化、剪枝等模型压缩与加速相关论文。","keywords":"轻量化、参数效率、推理速度、内存优化"},"coreArchitecture":{"sidebarTitle":"核心架构·算法","headline":"核心架构与算法","scope":"新型 Transformer、CNN、GNN 等骨干结构，以及损失函数、优化器等训练方法论文。","keywords":"模型结构、深度学习架构、学习算法"},"predictiveTabular":{"sidebarTitle":"预测·表格数据","headline":"预测建模与表格数据","scope":"树模型、表格分类/回归、流失预测、体育指标等 Kaggle 与商业预测场景论文。","keywords":"机器学习、时间序列、表格数据、预测模型"},"automatedMl":{"sidebarTitle":"AutoML·ML 流水线","headline":"自动化 ML 与端到端 ML 流水线","scope":"AutoML、神经架构搜索、超参/模型搜索、元学习，以及将预处理、训练、评测、部署串联的自动化与自然语言驱动工具相关论文。","keywords":"AutoML、超参优化、NAS、元学习、MLOps、流水线自动化"},"visionMultimodal":{"sidebarTitle":"视觉·多模态","headline":"计算机视觉与多模态","scope":"人脸识别与分析、目标检测、分割，以及图文多模态模型论文。","keywords":"视觉处理、图像分析、多模态深度学习"},"nlpLlm":{"sidebarTitle":"NLP·大模型","headline":"自然语言处理与大模型","scope":"语言建模、文本分类、翻译、多语言、提示工程、RAG 等文本向 AI 论文。","keywords":"LLM、自然语言理解/生成、文本挖掘"},"trustworthyXai":{"sidebarTitle":"可信·可解释","headline":"可信与可解释 AI","scope":"黑盒解释（XAI）、对异常值的鲁棒性、数据归因、AI 伦理与安全。","keywords":"可解释性、鲁棒性、模型诊断、可信 AI"},"dataCentricFeatures":{"sidebarTitle":"数据为中心·特征","headline":"以数据为中心的AI与特征工程","scope":"侧重数据质量、特征设计、数据增强、噪声标签等以提升性能的研究。","keywords":"数据预处理、特征工程、数据增强"},"edgeWebServices":{"sidebarTitle":"边缘·网页·服务","headline":"AI 服务与边缘/网页计算","scope":"TensorFlow.js 浏览器推理、移动端、扩展程序等端侧部署与服务环境论文。","keywords":"端侧 AI、网页 AI、部署优化"},"domainApplications":{"sidebarTitle":"领域应用","headline":"领域专用应用 AI","scope":"教育 AI、教练系统、推荐等面向行业与生活的应用案例论文。","keywords":"教育 AI、推荐系统、医疗、个性化服务"}},"papers":{"sidebarYear2025":"2025","sidebarYear2026":"2026","sidebarVenueCpal":"CPAL","sidebarVenueIcml":"ICML","sidebarVenueIclr":"ICLR","cpal2026":{"sidebarLabel":"CPAL2026","hubTitle":"CPAL2026","hubDescription":"理论与数学基础分类下的 CPAL 2026 相关论文。","metaTitle":"CPAL2026","metaDescription":"CPAL 2026 论文导读（理论与数学基础）。"},"nlpCpal2026":{"hubTitle":"CPAL2026","hubDescription":"NLP 与大语言模型分类下的 CPAL 2026 相关论文。","metaTitle":"CPAL2026","metaDescription":"CPAL 2026 论文导读（NLP 与大语言模型）。"},"influenceKernelVonMises":{"sidebarTitle":"Kernel von Mises 影响函数公式","title":"Kernel von Mises 影响函数公式","placeholder":"导读正文筹备中。","metaTitle":"Kernel von Mises 影响函数公式论文导读 | CPAL2026","metaKeywords":"Influence Function, Kernel von Mises, CPAL 2026, 论文导读, 影响函数, 稳健统计","metaDescription":"CPAL 2026 论文导读：Kernel von Mises Formula of the Influence Function—影响函数与核公式要点梳理。"},"curseDepthLlm":{"sidebarTitle":"大语言模型中的深度诅咒","title":"大语言模型中的深度诅咒","placeholder":"导读正文筹备中。","metaTitle":"大语言模型中的深度诅咒论文导读 | CPAL2026","metaKeywords":"LLM, curse of depth, LayerNorm Scaling, CPAL 2026, 大语言模型, Transformer","metaDescription":"CPAL 2026 导读：The Curse of Depth in Large Language Models—深度诅咒与 LayerNorm Scaling 缓解思路。"},"polarQuant":{"sidebarTitle":"PolarQuant：基于极坐标变换的 KV 缓存量化","title":"PolarQuant：基于极坐标变换的 KV 缓存量化","description":"PolarQuant 通过随机预处理与极坐标变换，只量化 KV 缓存中的角度，从而去掉传统归一化开销。","placeholder":"导读正文筹备中。","viewOriginalPdf":"查看原论文 PDF","metaTitle":"PolarQuant 论文导读 | KV 缓存量化（arXiv 2502.02617）","metaKeywords":"PolarQuant, arXiv 2502.02617, KV cache, KV缓存, 量化, 大语言模型推理, 长上下文, 注意力, 显存, 极坐标, 随机预处理, 角度量化, INT4, FP16","metaDescription":"arXiv 2502.02617 PolarQuant 导读：随机预处理与极坐标将 KV 缓存压缩 4.2 倍以上，兼顾 LLM 推理显存与长上下文质量，含公式与实验要点。"},"coreCpal2026":{"hubTitle":"CPAL2026","hubDescription":"核心架构与算法分类下的 CPAL 2026 相关论文。","metaTitle":"CPAL2026","metaDescription":"CPAL 2026 论文导读入口（核心架构与算法）。"},"alphaFormerEndToEnd":{"sidebarTitle":"AlphaFormer：使用 Transformer 的端到端阿尔法因子符号回归","title":"AlphaFormer：使用 Transformer 的端到端阿尔法因子符号回归","description":"深入导读 AlphaFormer：合成时序预训练、线性阿尔法池、IC 指标与 PPO 稳定化，端到端生成可解释符号因子。","placeholder":"导读正文筹备中。","viewOriginalPdf":"查看原论文 PDF","metaTitle":"AlphaFormer 论文导读 | CPAL2026","metaKeywords":"AlphaFormer, alpha factor, symbolic regression, Transformer, CPAL 2026, 量化, PPO, IC","metaDescription":"CPAL 2026 AlphaFormer 导读：Transformer 端到端符号回归阿尔法因子—池化、IC、PPO 与公式直觉。"},"icml2025":{"sidebarLabel":"ICML 2025"},"iclr2025":{"sidebarLabel":"ICLR 2025","hubTitle":"ICLR 2025","hubDescription":"AutoML 与 ML 流水线类目中的 ICLR 2025 相关论文。","metaTitle":"ICLR 2025","metaDescription":"自动机器学习及 ML 流水线类目下的 ICLR 2025 论文导读汇总。"},"autoMlIcml2025":{"hubTitle":"ICML 2025","hubDescription":"AutoML 与 ML 流水线类目中的 ICML 2025 相关论文。","metaTitle":"ICML 2025","metaDescription":"ICML 2025 论文导读入口（AutoML 与 ML 流水线类目）。"},"automlAgent":{"sidebarTitle":"AutoML-Agent：面向全流程 AutoML 的多智能体 LLM 框架","title":"AutoML-Agent：面向全流程 AutoML 的多智能体 LLM 框架","authors":"Patara Trirat, Wonyong Jeong, Sung Ju Hwang","venue":"ICML 2025","abstractHeading":"摘要","abstract":"自动化机器学习（AutoML）通过自动化开发流水线中的任务（如最优模型搜索与超参数调优）来加速 AI 开发。现有 AutoML 系统往往需要技术专长来搭建复杂工具，这通常耗时且需要大量人力。为此，近来的研究开始利用大语言模型（LLM）来减轻上述负担，并借助自然语言接口提升 AutoML 框架的可用性，使非专家用户能够构建数据驱动的解决方案。然而，这些方法通常只为 AI 开发流水线中的某个特定过程设计，未能高效利用 LLM 固有的能力。本文提出 AutoML-Agent，一种面向全流程 AutoML（从数据检索到模型部署）的新型多智能体框架。AutoML-Agent 接收用户的任务描述，促进专门的 LLM 智能体之间的协作，并交付可部署的模型。不同于现有工作仅提出单一计划，我们引入检索增强规划（retrieval-augmented planning）策略以增强探索，从而搜索到更优的计划。我们还将每个计划分解为子任务（例如数据预处理与神经网络设计），并由通过提示构建的专门智能体以并行方式分别解决，从而提高搜索效率。此外，我们提出多阶段验证：对已执行的结果进行验证，并引导代码生成 LLM 实现成功的解决方案。在使用 14 个数据集的 7 个下游任务上进行的大量实验表明，AutoML-Agent 在自动化完整 AutoML 流程方面取得了更高的成功率，并在多样领域中保持良好的性能。","placeholder":"导读正文筹备中。","metaTitle":"AutoML-Agent 论文导读 | ICML 2025","metaKeywords":"AutoML, 多智能体, 大语言模型, ICML 2025, 全流程, 检索增强规划, AutoML-Agent","metaDescription":"ICML 2025 AutoML-Agent 导读：多智能体大语言模型实现从数据获取到部署的端到端 AutoML 流水线。"},"sela":{"sidebarTitle":"SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning","sidebarLabel":"ICLR 2025","title":"SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning","authors":"Yizhou Chi, Yizhang Lin, Sirui Hong, Duyi Pan, Yaying Fei, Guanghao Mei, Bangbang Liu, Tianqi Pang, Jacky Kwok, Ceyao Zhang, Bang Liu, Chenglin Wu","venue":"ICLR 2025 · arXiv:2410.17238","metaTitle":"SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning","metaKeywords":"SELA, MCTS, AutoML, LLM agent, UCT-DP, tree search, ICLR 2025, arXiv:2410.17238","metaDescription":"SELA 论文导读：基于 MCTS 与 UCT-DP 的 LLM AutoML 树搜索与归一化分数梳理。"}}},"landing":{"heroTitle":"轻松学 AI 的地方","heroSubtext":"一步一步，扎实学习。","heroTagline":"人人学 AI 的地方。","forEveryone":"从概念到计算，动手练、即时反馈，助你成长的 AI 教育平台。","heroCurriculum":"创建并与其他学习者分享基于书籍的学习路线。","heroCommunity":"在社区中分享与下载 AI 学习资料。","ctaAbout":"大家的AI是什么？","ctaExplore":"深度学习","ctaMath":"数学","ctaMl":"机器学习","ctaPaperReview":"AI论文","ctaPlayground":"Playground 试玩","ctaBrowse":"浏览读书","ctaBrowseCommunity":"浏览社区","trendingLabel":"快捷入口","recentChaptersSectionLabel":"新课上线","recentChaptersTitle":"最近新增的学习与实验","recentChaptersSubtitle":"查看最新章节与 Playground 实验，马上开始学习。","recentChaptersCardCta":"进入章节","recentChaptersPlaygroundTrack":"Playground","recentChaptersPlaygroundKind":"交互实验","recentChaptersPlaygroundCta":"打开实验","recentChaptersRecentTooltip":"近 5 日内发布的内容","homeOfTitle":"AI 学习中心","homeOfSubtitle":"循序渐进地发现、动手练习、在 AI 反馈中学习。","featurePlatformTitle":"学习平台","featurePlatformDesc":"按章节学习基础数学、深度学习与机器学习，无限制地一起学习。","featureFasterTitle":"更快成长","featureFasterDesc":"概念梳理、练习题与 AI 即时反馈，助你理解更透彻。","featureExploreTitle":"从基础到进阶","featureExploreDesc":"基础数学、深度学习、机器学习循序渐进。持续根据反馈改进中。","featureBadgeTitle":"成就与证明","featureBadgeDesc":"完成章节即可获得成就并申请修业证明。","featurePortfolioTitle":"一起成长","featurePortfolioDesc":"分享学习、获取最新开发动态，与其他学习者交流。","signUpCta":"注册","problemTitle":"为什么要自己动手算？","problemBody":"只调 API 的话，很难解释模型为什么给出那样的结果。\n\n内积、矩阵乘法、梯度——不亲手算一遍，就很难抓住性能为什么下降、哪里出了错。\n\n多数读书只展示结果和公式，很少让你有机会一步步验算。","solutionSectionLabel":"这样学","solutionTitle":"轻松学概念、做题练习。卡住了可以问 AI","solutionIntro":"从内积、矩阵乘法到梯度，深度学习核心计算，12 章系统掌握。","solutionList":"每章有概念梳理和练习题。做错或卡住时可以向 AI 提问。","solutionBody":"有疑问或做错时，可以向 AI 教练提问。","ctaStartLearning":"开始学习深度学习","globalPlatform":"韩·英·日·中","learnShortDesc":"12章从内积到梯度：概念、习题与即时批改。","heroImageAlt":"AI学习背景","dlCardTitle":"基础深度学习","advMathCardTitle":"高级数学","learnAdvMathShortDesc":"SVD、张量、马尔可夫、MCMC、变分推断、Wasserstein、SDE、信息几何等。按章学习支撑生成模型与深度优化的高级数学。","ctaAdvMath":"高级数学","advMlCardTitle":"高级机器学习","learnAdvMlShortDesc":"特征工程、PCA、SVM、提升、XGBoost、不平衡、异常检测、DBSCAN、XAI、SHAP、时间序列、推荐系统等。按章学习高级机器学习。","ctaAdvMl":"高级机器学习","mlCardTitle":"基础机器学习","learnMlShortDesc":"从数据与特征、KNN、线性与逻辑回归到推荐系统。按章节学习基础机器学习核心。","learnPaperReviewShortDesc":"按主题整理的 AI 与深度学习论文。可在理论、架构、NLP、视觉等分类中阅读论文解读。","midDlCardTitle":"中级深度学习","learnMidDlShortDesc":"从权重初始化、Adam、正则化、CNN、ResNet、迁移学习、目标检测、分词、RNN、LSTM、注意力。按章学习稳定训练与非结构化数据。","ctaMidDl":"中级深度学习","advDlCardTitle":"进阶深度学习","learnAdvDlShortDesc":"从 Transformer、BERT、GPT、LoRA、QLoRA、RLHF、RAG、智能体、GAN、扩散、VLM、知识蒸馏到部署。按章学习大模型与生成式 AI。","ctaAdvDl":"进阶深度学习","learnMathShortDesc":"从函数、向量、矩阵到均匀与正态分布。打好理解 AI 的基础。","mathCardTitle":"基础数学","midMathCardTitle":"进阶数学","learnMidMathShortDesc":"向量·矩阵·线性变换·特征值·梯度·雅可比·海森·凸优化·贝叶斯·MLE·熵。按章学习多变量与不确定性的数学。","ctaMidMath":"进阶数学","quickAccessTitle":"数学 · 深度学习 · 机器学习 · AI论文","curriculumShortDesc":"以书籍为基础设计专属学习路线，与其他学习者一起成长。","communityShortDesc":"分享 AI·深度学习资料，发布最新开发动态，与学习者交流的空间。","itNews":"IT新闻","itNewsShortDesc":"了解 AI·IT 最新资讯与开发动态。","coupangBannerText":"在酷澎发现丰富商品"},"adminPopup":{"title":"活动介绍","languageNote":"活动使用韩语进行。","meetLinkNote":"活动前将通过邮件发送 Google Meet 链接。","freeSeminarNote":"本活动免费参加。","seminarDateLabel":"活动时间","seminarDateTime":"2026年3月27日（周五）晚上8:00～9:00","competitionLinkLabel":"竞赛链接","applyCta":"报名","speakerTitle":"讲者介绍","speakerPara1":"就读于延世大学人工智能专业的社会人士，通过参与人工智能竞赛，积累了基于数据的机器学习问题解决与模型性能提升的实战经验。","speakerPara2":"将围绕竞赛中的问题定义、分析与模型设计过程，分享实际思路与判断标准。","sessionTitle":"活动介绍","sessionPara1":"本场活动将介绍如何基于人工智能竞赛提供的数据解读与定义机器学习问题，以及如何根据分析结果改进模型与策略。","sessionPara2":"不局限于算法或技巧的罗列，重点说明在竞赛环境中当性能未达预期时，如何从数据重新分析入手，并将结果体现在模型结构与推理策略中。","sessionPara3":"希望在人工智能竞赛的限定条件下，与大家分享实际采用的策略与思考过程。","mainContentTitle":"主要内容","mainContent1":"基于竞赛数据的问题定义过程","mainContent2":"将分析结果转化为模型设计的判断标准","mainContent3":"性能改善停滞时的策略调整案例","mainContent4":"竞赛环境下的泛化视角与做法","recommendTitle":"适合对象","recommend1":"对人工智能竞赛解题方式感到模糊的人","recommend2":"想了解竞赛数据分析与模型设计流程的人","recommend3":"在性能改善停滞时需明确方向的人","recommend4":"希望系统整理竞赛中ML运用策略的人","recommend5":"希望通过AI竞赛提升实力的开发者","dismissCheckboxLabel":"3天内不再显示"},"home":{"introButton":"服务介绍","intro":"面向初学者的AI教育平台，帮助你在概念和公式前不卡壳。动手计算，通过AI教练的反馈纠正误解，逐步理解AI如何学习和推理。","problem":"题目","advDlAskProblemContext":"高级深度学习 — {chapterTitle}。当前题目：\n{problem}","problemPrompt":"求下列向量的内积 __DOT_FORMULA__ 。","problemPromptMatrix":"求下列矩阵积 __MATRIX_AB__ 中空格(?)处应填的数。","problemPromptLinearLayer":"求下列线性层 __LINEAR_FORMULA__ 中空格(?)处应填的数。","problemPromptActivation":"根据给定的激活函数（Sigmoid、ReLU、Tanh₃）求 X 对应的 Y，并填入空格(?)处。","problemPromptArtificialNeuron":"人工神经元：根据指定的激活函数（ReLU、Sigmoid、Tanh）得到 Y，并填入空格(?)处。","problemPromptBatch":"在批运算（权重乘加偏置、加、减、乘、减均值、求和、平均等）中填入空格(?)处。","prev":"上一题","next":"下一题","prevChapter":"上一章节","nextChapter":"下一章节","inputSectionTitle":"解题输入","askSectionTitle":"提问","practicePadTitle":"练习本","tabletInkFabAria":"打开手写模式","tabletInkFabLabel":"手写","learnToolsFabAria":"打开学习工具菜单","learnToolsFabLabel":"工具","pageInkModeTitle":"手写模式 — 直接在页面上书写","pageInkClear":"清除笔迹","pageInkModeExit":"退出手写","pageInkCanvasAria":"页面手写画布","pageInkPaletteAria":"手写颜色面板","pageInkPaletteToggleAria":"打开或关闭颜色面板","pageInkScrollMode":"滚动模式","pageInkDrawMode":"手写模式","pageInkColorSwatchAria":"颜色 {color}","fabMenuLabel":"提问菜单","practicePadSeeMain":"请在主界面做题。","drawMode":"手写输入","keyboardMode":"键盘输入","drawHint":"在下方区域手写作答。写完后点击「AI批改」即可获得反馈。","keyboardHint":"在下方输入你的解答或答案。输入后点击「AI批改」即可获得反馈。","askDrawHint":"在下方手写输入你的疑问。写完后点击「提问」即可获得回答。","askKeyboardHint":"在下方输入你的疑问。点击「提问」即可获得回答。","askPlaceholder":"例如：这个公式为什么是这样？","askSubmit":"提问","asking":"发送中…","askResponseTitle":"回答","drawQuestionLabel":"（用图画提问）","askEmptyAlert":"请先画出或输入你的问题，再点击「提问」。","errorAsk":"提交问题时出错，请重试。","errorAskRequest":"提问请求失败","askErrorEmptyQuestion":"请画出或输入您的问题。","solutionErrorNoContent":"无法生成解答。","solutionErrorServer":"生成解答时发生错误。","ariaAskInput":"输入问题","placeholder":"输入解题过程或最终答案。例如：a·b = 3×5 = 15","ariaKeyboardInput":"键盘输入作答","clear":"清除","grade":"AI批改","gradeShort":"批改","grading":"批改中…","correctAnswer":"答对了！","wrongAnswer":"答错了，请再试一次。","wrongAnswerPanelHint":"答错后会自动请求「为什么错了？」提示；不会直接给出数字答案，只给解题方向。","tryAgain":"请再试一次。","checkAnswer":"确认答案","chapterCompleteTitle":"章节完成！","chapterCompleteBadge":"获得 {chapterName} 成就","chapterCompleteLoginHint":"登录后本章将自动记为已完成，无需再次答题。","chapterCompleteSignInCta":"登录并保存完成记录","chapterCompleteTryAgain":"再练一次","chapterCompleteNextChapter":"下一章","badgeSaved":"成就已保存。","certificateTitle":"修业证明","certificateSubtitlePrefix":"兹证明下列人员在大家的AI（https://mdooai.com）学习课程中完成以下项目 ","certificateSubtitleEnd":"。","certificateHolder":"持证人","certificateHolderEditHint":"可直接输入姓名。","certificateHolderModalTitle":"请输入持证人姓名","certificateHolderModalConfirm":"确认","certificateHolderModalPrint":"打印","certificateHolderEdit":"修改","certificateCompleted":"完成项目","certificateIssuer":"签发方","certificateIssuerName":"大家的AI","certificateIssuerUrl":"https://mdooai.com","certificateDate":"签发日期","certificatePrint":"打印证明","certificateNoBadges":"暂无完成章节。完成章节后可申请证明。","certificateSignInRequired":"请登录后申请证明。","certificateIssue":"申请证明","profileTitle":"我的学习","profileBadgesSection":"已获成就","profileNoBadges":"暂无完成章节。","profileCertificateLink":"申请修业证明","profileMyBadges":"我的成就","profileBadgesCta":"查看我的成就 / 申请证明","badgesPageTitle":"我的成就与证明","badgesPageDesc":"查看已完成的章节成就与修业证明。","badgesAdminMode":"(管理员预览)","badgesAdminModeDesc":"显示全部成就，打印时输出完整证明。","mathFunctionsProblemPrompt":"根据函数式和输入值，求出空格中的值。","mathFunctionsProblemPromptInput":"设 f(?) = value，求 x。","mathFunctionsProblemPromptCompare":"分别求出 f(x₁) 与 f(x₂)，输入较大的值。","mlKnnProblemPrompt":"使用 KNN 的距离计算与多数表决规则求出答案。","mlLinearRegressionProblemPrompt":"根据线性回归公式计算预测值与斜率/截距并求出答案。","mlLinearRegressionProblemPromptPredict":"线性回归模型 $\\hat y = w x + b$ 中 $w={w}$、$b={b}$ 时，求 $x={x}$ 对应的预测值 $\\hat y$，以整数作答。","mlLinearRegressionProblemPromptSlope":"求过点 ({x1}, {y1}) 与 ({x2}, {y2}) 的直线斜率 $w = \\frac{y_2-y_1}{x_2-x_1}$，以整数作答。","mlLinearRegressionProblemPromptIntercept":"斜率为 $w={w}$ 的直线过点 ({x}, {y})，求截距 $b = y - w x$，以整数作答。","mlLinearRegressionProblemPromptTwoPointPredict":"过点 ({x1}, {y1}) 与 ({x2}, {y2}) 的直线，求 $x={x}$ 时直线上对应的 $y$ 值，以整数作答。","mlLinearRegressionProblemPromptResidual":"用直线 $\\hat y={w}x+{b}$ 预测时，实际观测点为 ({x}, {y})，求残差 $y - \\hat y$，以整数作答。","mlLinearRegressionProblemPromptResidualSum":"点 {points}，直线 $\\hat y={w}x+{b}$ 预测，求残差之和 $\\sum_i (y_i - \\hat y_i)$，以整数作答。","mlMseProblemPrompt":"计算平方误差、SSE、MSE、RMSE 并求出答案。","mlMseProblemPromptSquaredError":"实际值 $y={y}$、预测值 $\\hat y={yHat}$ 时，求误差平方 $(y - \\hat y)^2$，以整数作答。","mlMseProblemPromptSse":"下列（实际值，预测值）对，求误差平方和 $\\sum_i (y_i - \\hat y_i)^2$。{pairs} 以整数作答。","mlMseProblemPromptMse":"下列（实际值，预测值）对，求均方误差 MSE $= \\frac{1}{n}\\sum_i (y_i - \\hat y_i)^2$。{pairs} 以整数作答。","mlMseProblemPromptMseFromLine":"点 {points}，直线 $\\hat y={w}x+{b}$ 预测，求 MSE，以整数作答。","mlMseProblemPromptMissingSquaredError":"MSE $= {mse}$，$n = {n}$，$n-1$ 个误差平方为 {squaredErrors}，求剩余一个误差平方，以整数作答。","mlMseProblemPromptRmse":"MSE $= {mse}$ 时，求 RMSE $= \\sqrt{\\text{MSE}}$，以整数作答。","mlMseProblemSolvingTable":"$1e","mlLogisticProblemPrompt":"利用逻辑回归的线性分数与决策边界求出预测值。","mlLogisticProblemPromptLinearScore":"逻辑回归的线性分数 $z = wx + b$ 中，当 $w={w}$、$x={x}$、$b={b}$ 时，求 $z$ 的整数值。","mlLogisticProblemPromptMultiScore":"线性分数 $z = w_1 x_1 + w_2 x_2 + b$ 中，权重为 {weights}、特征为 {features}、$b={b}$ 时，求 $z$ 的整数值。","mlLogisticProblemPromptClassifyFromZ":"当线性分数 $z = {z}$ 时，根据决策边界（$z>0 \\Rightarrow \\hat y=1$，$z \\le 0 \\Rightarrow \\hat y=0$）求预测类别 $\\hat y$。","mlLogisticProblemPromptClassifyFromProb":"当概率 $p = {p}$、阈值 $= {threshold}$ 时，若 $p \\ge$ 阈值则 $\\hat y=1$，否则 $\\hat y=0$。求预测类别 $\\hat y$。","mlLogisticProblemPromptCountClassOne":"对下列线性分数，$z>0$ 时判为 class 1。求被分为 class 1 的样本个数（整数）。$z$ 列表：{zList}","mlLogisticProblemPromptCountMisclassified":"真实标签为 {labels}，各样本的线性分数 $z$ 为 {zList} 时，按 $\\hat y_i = 1$（若 $z_i>0$）否则 $0$ 预测。求误分类样本个数。","mlLogisticProblemSolvingTable":"**解题步骤**\n\n- **线性分数** — $z = w x + b$ 或 $z = w_1 x_1 + w_2 x_2 + b$。权重与特征相乘后相加。\n- **Sigmoid** — $\\sigma(z) = \\frac{1}{1+e^{-z}}$。将 $z$ 变为 0～1 的概率。\n- **决策边界** — $z>0 \\Rightarrow \\hat y=1$，$z \\le 0 \\Rightarrow \\hat y=0$。（或 $\\sigma(z)\\ge 0.5$ 时判为 1）\n- **按概率分类** — 给定概率 $p$ 与阈值：$p \\ge$ 阈值则 $\\hat y=1$，否则 0。\n- **误分类数** — 各样本中预测 $\\hat y_i$ 与真实标签 $y_i$ 不同的个数。\n\n---\n\n**例1（线性分数）**\n\n$z = 2 \\times 3 + (-1) = 5$。→ **答案 5**\n\n---\n\n**例2（由 z 分类）**\n\n$z = -2$ 时 $z \\le 0$，故 $\\hat y=0$。→ **答案 0**\n\n---\n\n**例3（按概率分类）**\n\n$p=0.7$，阈值 $0.5$ 时 $0.7 \\ge 0.5$，故 $\\hat y=1$。→ **答案 1**\n\n---\n\n**例4（class 1 个数）**\n\n$z$ 列表为 $-1, 2, 0, 3$ 时，$z>0$ 的为 2 和 3，共两个。→ **答案 2**\n\n---\n\n**例5（误分类数）**\n\n标签 [1, 0, 1]，$z$ [2, -1, -3]。预测：$z>0$ 为 1，故 [1, 0, 0]。与 [1,0,1] 比较仅第三项不同。→ **答案 1**","mlDecisionTreeProblemPrompt":"根据决策树的划分规则与不纯度指标计算答案。","mlDecisionTreeProblemPromptCountNodes":"决策树中内部节点有 {internal} 个、叶节点有 {leaves} 个时，求节点总数。","mlDecisionTreeProblemPromptCountLeaves":"决策树中叶节点有 {leaves} 个时，求叶节点个数。","mlDecisionTreeProblemPromptTreeDepth":"决策树的最大深度（根=0）为 {depth} 时，求深度值。","mlDecisionTreeProblemPromptFollowPath":"决策树中路径为 {path}（0=否/左，1=是/右）时，求到达的叶节点的预测类别。","mlDecisionTreeProblemPromptLeafMajority":"某叶节点中类 0 有 {c0} 个、类 1 有 {c1} 个。按多数决求预测类别。","mlDecisionTreeProblemPromptGini":"类别个数为 {counts} 时，计算基尼不纯度 $G = 1 - \\sum_i p_i^2$，求 $100 \\times G$ 的值（整数）。","mlDecisionTreeProblemPromptEntropy":"类别个数为 {counts} 时，计算熵 $H = -\\sum_i p_i \\log_2 p_i$，求 $100 \\times H$ 的值（整数）。","mlDecisionTreeProblemPromptInformationGain":"父节点类别个数 {parentCounts}、左子 {leftCounts}、右子 {rightCounts} 时，求信息增益(IG)的 $100 \\times \\text{IG}$ 的值（整数）。","mlDecisionTreeProblemPromptWeightedGini":"分割后左子类别个数 {leftCounts}、右子类别个数 {rightCounts} 时，求加权基尼 $(n_L/n)G_L + (n_R/n)G_R$ 的 $100 \\times$ 值的值（整数）。","mlDecisionTreeProblemSolvingLabel":"解题说明","mlEnsembleProblemPrompt":"应用集成学习的投票/平均规则求出最终预测。","mlEnsembleProblemSolvingLabel":"解题说明","mlEnsembleProblemPromptMajorityVote":"随机森林中类 0 得 {votes0} 票、类 1 得 {votes1} 票。按多数决求最终预测类别。","mlEnsembleProblemPromptCountVotes":"共有 {totalTrees} 棵树，类 0 得 {votes0} 票、类 1 得 {votes1} 票。求获胜类别得到的票数。","mlEnsembleProblemPromptRegressionMean":"回归集成中 {B} 棵树的预测分别为 {predictions} 时，计算平均 $\\hat y = \\frac{1}{B}\\sum_{b=1}^B \\hat y_b$ （整数）。","mlEnsembleProblemPromptNumTrees":"随机森林中有 {B} 棵树时，求树的棵数 $B$。","mlEnsembleProblemPromptOobCount":"共有 {nTrees} 棵树，某样本仅出现在其中 {nInBag} 棵的 bootstrap 中。求该样本未被用于训练的树的棵数（OOB 数）。","mlEnsembleProblemPromptFormulaMean":"集成中 {B} 棵树的预测之和为 {sum} 时，计算平均 $\\hat y = \\frac{1}{B}\\sum_{b=1}^B \\hat y_b$ （整数）。","mlEnsembleProblemPromptDefinition":"若下列叙述正确则求 1，否则求 0。{statement}","mlEnsembleProblemPromptFeatureImportance":"各特征重要性为 {importances} 时，求重要性最大的特征编号（从 1 开始）。","mlEnsembleProblemPromptWeightedVote":"有 2 棵树：第一棵对类 {c1} 赋权重 {w1}，第二棵对类 {c2} 赋权重 {w2}。求权重较大一方作为最终预测。","mlEnsembleStatement_0":"装袋中每个基模型独立学习。","mlEnsembleStatement_1":"随机森林是装袋与决策树的结合形成的集成。","mlEnsembleStatement_2":"分类集成中最终预测通常由多数决（投票）决定。","mlEnsembleStatement_3":"提升中对前一个模型判错的样本加重权顺序学习。","mlEnsembleStatement_4":"OOB（Out-of-Bag）指用未参与某样本训练的树对该样本进行预测。","mlEnsembleStatement_5":"堆叠中使用以多个基模型预测为输入的元模型。","mlEnsembleStatement_6":"回归集成的最终预测通常是多棵树预测的平均。","mlEnsembleStatement_7":"随机森林中每次分裂只随机使用部分特征。","mlEnsembleStatement_8":"集成是将多个模型的预测合并为一个预测的方法。","mlEnsembleStatement_9":"随机森林往往比单棵决策树更能降低方差。","mlEnsembleStatement_10":"提升中每个基模型独立学习。","mlEnsembleStatement_11":"回归集成中最终预测由多数决（投票）决定。","mlEnsembleStatement_12":"使用 OOB 评估必须另有验证集。","mlEnsembleStatement_13":"随机森林中每棵树用全部训练数据学习。","mlEnsembleStatement_14":"堆叠的元模型只使用基模型的原始输入特征。","mlEnsembleProblemSolvingTable":"**集成学习 — 要点**\n\n- **多数决** — 比较类0与类1的票数，选择**票数更多的类别**。若平票则取0。\n- **票数** — 统计最终获胜类别得到了多少票。\n- **回归平均** — 把所有树的预测值相加，再除以树数 $B$。\n- **树数** — 直接读取题目给出的 $B$。\n- **OOB 数** — 总树数 $-$ 包含该样本的树数。\n- **公式平均** — 计算和 $\\div B$。\n- **定义** — 叙述正确选1，错误选0。\n- **特征重要性** — 选择重要性最大的特征**编号（从1开始）**。\n- **加权投票** — 权重较大的类别就是最终预测。\n\n---\n\n**例1（多数决）**\n\n如果类0有3票，类1有5票，那么票数更多的是类1。→ **答案 1**\n\n---\n\n**例2（票数）**\n\n共7棵树，类0有2票，类1有5票，则最终类别为1，获胜票数为5。→ **答案 5**\n\n---\n\n**例3（回归平均）**\n\n若3棵树的预测值分别为 6、9、12，则总和为27，平均值为 $27 \\div 3 = 9$。→ **答案 9**\n\n---\n\n**例4（OOB 数）**\n\n若总共有10棵树，其中该样本出现在6棵树的 bootstrap 中，则 OOB 数为 $10-6=4$。→ **答案 4**\n\n---\n\n**例5（公式平均）**\n\n在 $\\hat y = \\frac{1}{B}\\sum_{b=1}^B \\hat y_b$ 中，若 $B=4$，预测值总和为20，则平均值为 $20 \\div 4 = 5$。→ **答案 5**\n\n---\n\n**例6（特征重要性）**\n\n若重要性为 $[12, 30, 18]$，最大值是30，对应 **第2个特征**。→ **答案 2**\n\n---\n\n**例7（加权投票）**\n\n若第一棵树给类0权重2，第二棵树给类1权重5，则更大的权重属于类1。→ **答案 1**","mlKmeansProblemPrompt":"计算 K-Means 的距离、中心更新与 SSE 求出答案。","mlKmeansProblemPromptDistanceSquared":"两点 ({x1}, {y1}) 与 ({x2}, {y2}) 的欧氏距离平方 $(x_2-x_1)^2+(y_2-y_1)^2$ 以整数表示。","mlKmeansProblemPromptAssignCluster":"点 ({px}, {py})，中心分别为 {centers} 时，求最近中心的簇编号（从 1 开始）。","mlKmeansProblemPromptCenterMeanX":"簇内点为 {points} 时，求新中心的 $x$ 坐标（均值，整数）。","mlKmeansProblemPromptCenterMeanY":"簇内点为 {points} 时，求新中心的 $y$ 坐标（均值，整数）。","mlKmeansProblemPromptSse":"簇内点为 {points}、中心为 ({cx}, {cy}) 时，求 SSE $\\sum_i \\|\\mathbf{x}_i - \\boldsymbol{\\mu}\\|^2$（整数）。","mlKmeansProblemPromptNumClusters":"K-Means 中 $K = {K}$ 时，求 $K$ 的值。","mlKmeansProblemPromptDefinition":"若下列叙述正确则求 1，否则求 0。{statement}","mlKmeansStatement_0":"K-Means 是无监督学习。","mlKmeansStatement_1":"K-Means 中簇数 K 由用户指定。","mlKmeansStatement_2":"K-Means 的目标是最小化簇内距离平方和（SSE）。","mlKmeansStatement_3":"分配阶段将每点分配到最近的中心。","mlKmeansStatement_4":"中心更新阶段以各簇内点的坐标均值为新中心。","mlKmeansStatement_5":"K-Means 仅根据数据形成簇，无需标签。","mlKmeansStatement_6":"K-Means 使用欧氏距离（或距离平方）进行比较。","mlKmeansStatement_7":"K-Means 反复进行分配与中心更新直至收敛。","mlKmeansStatement_10":"K-Means 是监督学习。","mlKmeansStatement_11":"K-Means 中 K 由算法自动确定。","mlKmeansStatement_12":"K-Means 的目标是最大化簇数。","mlKmeansStatement_13":"分配阶段将各点随机分配到簇。","mlKmeansStatement_14":"中心更新时以各簇中位数（median）为新中心。","mlDecisionTreeProblemSolvingTable":"**决策树解题指南**\n\n- **节点数** — 把内部节点数与叶节点数相加。\n- **叶数** — 直接读取题目给出的叶节点个数。\n- **深度** — 读取最大深度（根=0）。\n- **沿路径** — 从根开始，0 走左边、1 走右边，到达叶节点后读取该叶的预测。\n- **基尼** — 先由类数求 $p_i$，再算 $G = 1 - \\sum_i p_i^2$，然后计算 $100 \\times G$。\n- **熵** — 计算 $H = -\\sum_i p_i \\log_2 p_i$，然后计算 $100 \\times H$。\n- **加权基尼** — 计算 $(n_L/n)G_L + (n_R/n)G_R$，再求 $100 \\times$ 该值。\n- **叶多数决** — 比较类 0 和类 1 的数量，数量更多的一方就是预测。","mathExponentialProblemPrompt":"求指数式的值。","mathExponentialProblemPromptExponent":"求指数。","mathExponentialProblemPromptCompare":"分别求出两式的值，输入较大的值。","mathExponentialProblemPromptProduct":"同底幂相乘：求指数和。","mathExponentialProblemPromptQuotient":"同底幂相除：求指数差。","mathExponentialProblemPromptPowerOfPower":"求幂的幂的值。","mathLogProblemPrompt":"求对数的值。","mathLogProblemPromptInput":"求真数。","mathLogProblemPromptCompare":"分别求出两个对数值，输入较大的值。","mathLogProblemPromptSum":"对数和：$\\log_a(b) + \\log_a(c) = \\log_a(b \\cdot c)$。","mathLogProblemPromptDiff":"对数差：$\\log_a(b) - \\log_a(c) = \\log_a(b/c)$。","mathLimitProblemPrompt":"求极限。（多项式、常数、x→∞、ε-δ 等）","mathLimitProblemPromptDirect":"求多项式的极限。","mathLimitProblemPromptConstant":"求常数函数的极限。","mathLimitProblemPromptLinear":"求一次式的极限。","mathLimitProblemPromptAtInfinity":"求 x → ∞ 时的极限。","mathLimitProblemPromptEpsilon":"根据 ε-δ 定义选择对应编号。","mathLimitProblemEpsilonQuestion":"ε-δ 中 δ 的含义是？","mathLimitProblemEpsilonQuestionEps":"ε-δ 中 ε 的含义是？","mathLimitProblemEpsilonHint":"(1=距离, 2=误差)","mathContinuityProblemPrompt":"连续性：求极限或是否连续。","mathContinuityProblemPromptLimitPoly":"多项式连续，故极限=函数值。","mathContinuityProblemPromptLimitLinear":"求一次式的极限（等于函数值）。","mathContinuityProblemPromptYesNo":"该点连续选 1，不连续选 0。","mathContinuityProblemPromptLimitAtHole":"求下面式子的极限值。","mathContinuityProblemAtPoint":" 在 ","mathContinuityProblemContinuousQ":" 处连续吗？","mathContinuityProblemLimitAtHoleIntro":"在","mathContinuityProblemLimitAtHoleQ":"处有洞的函数的极限值是？","mathDerivativeProblemPrompt":"导数：求给定点处的导数值（切线斜率）。","mathDerivativeProblemPromptPower":"幂函数求导 $(x^n)' = n x^{n-1}$。求给定点处 $f'(x)$ 的值。","mathDerivativeProblemPromptLinear":"一次函数 $(mx+b)' = m$。求给定点处 $f'(x)$ 的值。","mathDerivativeProblemPromptPoly2":"二次函数求导。求给定点处 $f'(x)$ 的值。","mathDerivativeProblemPromptConstMul":"常数倍·幂函数 $(c \\cdot x^n)' = c \\cdot n \\cdot x^{n-1}$。求给定点处 $f'(x)$ 的值。","mathDerivativeProblemAtPoint":" 时","mathChainRuleProblemPrompt":"链式法则：在给定点求 $f'(x)$ 的值。（类型：幂、指数、三角、根号、对数、二次式等）","mathPartialGradientProblemPrompt":"偏导数与梯度：在给定函数与点处求偏导数或梯度分量。","mlKnnProblemSolvingTable":"**解题步骤**\n\n- **输入** — 新数据的特征向量 $\\mathbf{x}$\n- **已存数据** — (特征, 标签) 对 $(\\mathbf{x}_i, y_i)$\n- **1** — 计算 $\\mathbf{x}$ 与各 $\\mathbf{x}_i$ 的距离 $d(\\mathbf{x}, \\mathbf{x}_i)$\n- **2** — 按距离取最小的 K 个\n- **3（分类）** — 用 K 个标签**多数表决**得到预测\n- **3（回归）** — 用 K 个值的**平均**作为预测\n\n---\n\n**例题（距离平方）**\n\n平面上两点 A(0, 0) 与 B(3, 4)，求距离平方 $(x_2-x_1)^2 + (y_2-y_1)^2$ 的值。\n\n**解答**\n\n$(3-0)^2 + (4-0)^2 = 9 + 16 = 25$，故**答案为 25**。","mlLinearRegressionProblemSolvingTable":"$1f","mathIntegralProblemPrompt":"积分：求定积分或原函数值。","mathIntegralProblemPromptDefiniteConst":"求常数函数的定积分。","mathIntegralProblemPromptDefiniteLinear":"求一次式的定积分。","mathIntegralProblemPromptAntiderivative":"求原函数在给定点处的值。","mathRandomVariableProblemPrompt":"按下列指示计算。","mathRandomVariableProblemPromptProbSumSix":"求空白 c，使三个概率之和为 1。","mathRandomVariableProblemPromptExpectedValueScale6":"求 6×E[X] = Σ(取值×分子)。","mathRandomVariableProblemPromptVarianceShort":"求下列分布的方差的 36 倍。","mathRandomVariableProblemVarianceHowToCalc":"方差 = 取值相对平均的离散程度。方差 = E[X²]−(E[X])²，36×方差 = 6×Σ(nᵢ·xᵢ²) − (Σ nᵢ·xᵢ)²","mathRandomVariableProblemVarianceLabel":"36×方差","mathRandomVariableProblemPromptVarianceScale36":"同一分布中 Var(X)=E[X²]-E[X]²。求 36×Var(X)。（6×Σ(nᵢ·xᵢ²) − (Σ nᵢ·xᵢ)²）","mathRandomVariableProblemPromptVarianceIntro":"同一分布中 ","mathRandomVariableProblemPromptVarianceMid":"。求 ","mathRandomVariableProblemPromptVarianceEnd":"。（6×Σ(nᵢ·xᵢ²) − (Σ nᵢ·xᵢ)²）","mathRandomVariableProblemPromptVarianceAsk":"。","mathRandomVariableProblemPromptVarianceFormula":"（6×Σ(nᵢ·xᵢ²) − (Σ nᵢ·xᵢ)²）","mathRandomVariableProblemProbSumHint":"c","mathRandomVariableProblemExpectationHint":"取值×分子的总和","mathRandomVariableProblemVarianceHint":"36×Var(X)","mathRandomVariableProblemPromptMode":"概率最大的 X 取值（众数）是？","mathRandomVariableProblemPromptExpectedValueInt":"求期望值 E[X]（平均取值）。","mathRandomVariableProblemPromptCumulativeNumerator":"当 X 不超过某值的概率写成分子/6 时，求分子。","mathRandomVariableProblemModeLabel":"概率最大的 X","mathRandomVariableProblemExpectedValueIntLabel":"E[X]","mathRandomVariableProblemCumulativeLabel1":"P(X≤1) = ?/6 → ?","mathRandomVariableProblemCumulativeLabel2":"P(X≤2) = ?/6 → ?","mathMeanVarianceProblemPrompt":"按下列指示计算。","mathMeanVarianceProblemPromptProbSumSix":"求空白 c，使三个概率之和为 1。","mathMeanVarianceProblemPromptMeanScale6":"求 6×E[X] = Σ(取值×分子)。","mathMeanVarianceProblemPromptVarianceShort":"求下列分布的方差的 36 倍。","mathMeanVarianceProblemVarianceHowToCalc":"方差 = 取值相对平均的离散程度。36×方差 = 6×Σ(nᵢ·xᵢ²) − (Σ nᵢ·xᵢ)²","mathMeanVarianceProblemVarianceLabel":"36×方差","mathMeanVarianceProblemPromptVarianceScale36":"同一分布中求 36×Var(X)。","mathMeanVarianceProblemProbSumHint":"c","mathMeanVarianceProblemMeanScale6Label":"6×均值","mathMeanVarianceProblemMeanIntegerLabel":"均值 E[X]","mathMeanVarianceProblemPromptMeanInteger":"求均值（期望）E[X]。","mathMeanVarianceProblemPromptMode":"求概率最大的 X 取值（众数）。","mathMeanVarianceProblemPromptCumulativeNumerator":"当 X 不超过某值的概率写成分子/6 时，求分子。","mathMeanVarianceProblemModeLabel":"概率最大的 X","mathMeanVarianceProblemCumulativeLabel1":"P(X≤1) = ?/6 → ?","mathMeanVarianceProblemCumulativeLabel2":"P(X≤2) = ?/6 → ?","mathUniformNormalProblemPrompt":"请按下列要求计算。","mathUniformNormalProblemPromptUniformMean":"求区间 [a,b] 上均匀分布的均值 (a+b)/2。","mathUniformNormalProblemPromptUniformVar12":"均匀分布 U[a,b] 的 12×方差 = (b−a)²。","mathUniformNormalProblemPromptUniformLength":"求区间 [a,b] 的长度 b−a。","mathUniformNormalProblemPromptNormalPct68":"正态分布中，μ±σ 范围内大约占百分之几？答整数。","mathUniformNormalProblemPromptNormalPct95":"正态分布中，μ±2σ 范围内大约占百分之几？答整数。","mathIntegralProblemAntiderivativeIntro":"已知","mathIntegralProblemAntiderivativeAt":" x = ","mathIntegralProblemAntiderivativeQ":"处的值为？","mathPartialGradientProblemAtPoint":"处","mathPartialGradientProblemGradientFirst":"第一分量","mathPartialGradientProblemGradientSecond":"第二分量","wrongAnswerGuideButton":"为什么错了？","wrongAnswerGuideTitle":"错答引导","wrongAnswerGuideSubmittedAnswer":"您提交的答案：","wrongAnswerGuideHint":"AI 会推断您为何那样解题，并只引导正确方向、不透露答案。","wrongAnswerGuideApiQuestion":"用户做题时提交的答案为「{answer}」，被判为错误。请推断用户可能为何那样解题，并只引导正确方向、不要给出正确答案。","wrongAnswerGuideAsking":"获取引导中…","wrongAnswerQuestionPrompt":"我回答了 {answer}，为什么错了？","getSolution":"查看解题过程","loadingSolution":"加载中…","feedbackTitle":"AI批改反馈","solutionTitle":"解答","alertDrawFirst":"请先手写作答再批改。","alertInputFirst":"请先输入作答再批改。","errorGrade":"批改时出错，请重试。","errorSolution":"加载解答时出错，请重试。","errorGradeRequest":"批改请求失败","errorSolutionRequest":"解答请求失败","errorStream":"无法读取数据流。","errorDefault":"无法生成反馈。","placeholderChapter":"本章节即将上线。","conceptVisualPlaceholder":"该概念的可视化即将上线。","conceptComingSoon":"该概念的学习内容将在后续更新中提供。","conceptMatrixMulIntro":"A的一行 × B的一列（内积）→ 结果矩阵的一个元素","conceptMatrixMulCell":"该元素","conceptLinearLayerIntro":"输入 X 乘以权重矩阵 W 再加偏置 b 得到输出 Y。__LINEAR_FORMULA__","conceptLinearLayerLegendRow0":"W 第1行·X + b[0] → Y[0]","conceptLinearLayerLegendRow1":"W 第2行·X + b[1] → Y[1]","conceptArtificialNeuronIntro":"人工神经元先计算加权和 __WEIGHTED_SUM_FORMULA__ ，再经 ReLU、Sigmoid、Tanh 等激活函数得到输出 Y。","conceptArtificialNeuronCalcCaption":"计算顺序：(W·X) 相乘 + b 相加 = Z → ReLU(Z) = Y","conceptBatchIntro":"将多个样本按列排成矩阵即为批。用同一组 W、b 一次计算 __LINEAR_FORMULA__ 。","conceptBatchCaption":"一列 = 一个样本。同一组 W、b 对所有列一次计算。","conceptBatchExampleTitle":"例：一列（样本）的计算过程","conceptBatchFormulaRow":"Z{n} = (W 第{row}行·该列)+b[{bi}] = ({calc})+({b}) = {result}","conceptConnectionIntro":"连接表示一层中的神经元与下一层神经元如何相连。只有非零权重才有实际连接；下图只画出这些部分连接。","conceptConnectionGraphCaption":"连接结构（权重为0的连接不显示）","conceptConnectionCalcCaption":"每个输出：(W 该行·X) 相乘 + b 相加 = Y","conceptConnectionFormulaRow1":"Y₁ = (W 第1行·X) + b₁ = ({calc}) + {b} = {wx} + {b} = {y}","conceptConnectionFormulaRow2":"Y₂ = (W 第2行·X) + b₂ = ({calc}) + {b} = {wx} + {b} = {y}","conceptActivationTitleSigmoid":"Y = Sigmoid(X)","conceptActivationTitleRelu":"Y = ReLU(X)","conceptActivationTitleTanh":"Y = Tanh₃(X)","conceptActivationTableHeader":"X ~ Y","conceptDotProductIntro":"a = [{a1}, {a2}], b = [{b1}, {b2}] → a·b = {samePositionSum}","conceptDotProductSamePositionSum":"同位置分量乘积之和","problemPromptConnection":"在连接 __LINEAR_FORMULA__ 中，求空白(?)处的值。W 为 0 的输入与该输出无连接。","conceptHiddenIntro":"隐藏层对输入做线性变换(__LINEAR_CORE__)和 ReLU 得到中间表示 H，再做一次线性变换和 ReLU 得到最终输出 Y。","conceptHiddenGraphCaption":"输入 → 隐藏(H) → 输出(Y)","problemPromptHidden":"在带隐藏层的前向传播 X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y 中填入空白(?)处。","conceptDeepIntro":"深度网络由多个隐藏层堆叠而成。每一层做 Linear(W·输入+b) 和 ReLU，得到中间表示再传入下一层。","conceptDeepFormulaCaption":"每层: Linear & ReLU","conceptDeepFormulaWithSymbols":"线性 = W·(前层输出) + b → ReLU","conceptDeepGraphCaption":"输入(X) → 隐藏(A,B,C,D) → 输出(Y)","problemPromptDeep":"在多层连续前向传播（每层 Linear & ReLU）中填入空白(?)处。","conceptWideIntro":"宽度指一层中神经元数量多。层越宽，能同时表达的特征越多；每层用 Linear & ReLU 计算。","conceptWideFormulaCaption":"每层: Linear & ReLU（层变宽）","conceptWideGraphCaption":"输入(X) → 隐藏(A,B) → 输出(Y) — 1→2→4→8 神经元","problemPromptWide":"在层逐渐变宽的前向传播（每层 Linear & ReLU）中填入空白(?)处。","conceptSoftmaxIntro":"Softmax 把数变成 0～1 之间且和为 1。先算 __WEIGHTED_SUM_FORMULA__，再算 __SOFTMAX_EXP__，再除以总和 __SOFTMAX_SUM__ 就得到类似概率的输出。","conceptSoftmaxFormulaCaption":"Z = W·X + b → e^Z (e≈3) → Y = e^Z / Σ","conceptSoftmaxGraphCaption":"多分类最后一层常用。","problemPromptSoftmax":"按 __SOFTMAX_FLOW__ 顺序计算后填入空白(?)处。","conceptSoftmaxEHint":"本题中为便于计算取 e = 3，即 __E_Z_3Z__。（例：Z=1 → 3，Z=2 → 9）","conceptGradientIntro":"梯度是表示函数变化方向和快慢的向量。要减小损失，就沿梯度反方向更新参数。前向 __GRADIENT_FORWARD__，反向 __GRADIENT_BACKWARD__。","conceptGradientForwardLabel":"前向","conceptGradientBackwardLabel":"反向","conceptGradientFormulaCaption":"前向 Z = W·X → 反向 dZ = dW·X","conceptGradientGraphCaption":"线性层、隐藏层等也用同样方式计算梯度。","conceptGradientBlankHint":"题目中空白(?)出现在**X**的一格或**Z**（前向）/ **dZ**（反向）的一格。","conceptGradientForwardDesc":"前向: Z = W·X（W 每行与 X 的内积）","conceptGradientBackwardDesc":"反向: dZ = dW·X（结构相同，值为梯度）","conceptInputX":"输入 X","conceptLinear":"线性","conceptLinearReLULayer1":"Linear & ReLU（第 1 层）","conceptLinearReLULayer2":"Linear & ReLU（第 2 层）","conceptSoftmaxFlowCaption":"分数(__Z__) → __3Z__ → 除以和 → 概率(__Y__)","conceptSoftmaxZLabel":"Z（分数）","conceptSoftmaxExpLabel":"3^Z","conceptSoftmaxSumLabel":"和","conceptSoftmaxProblemFlow":"分数(__Z__) → __3Z__ → 除以和(__SIGMA__) → 概率(__Y__)","conceptSoftmaxProbability":"概率","conceptSoftmaxExampleTitle":"例：一步计算过程","conceptSoftmaxStepZ":"Z{n} = (W第{row}行·X)+b[{bi}] = {calc}+{b} = {result}","conceptSoftmaxStepExp":"3^Z{n} = 3^{z} = {result}","conceptSoftmaxStepSum":"Σ = {items} = {result}","conceptSoftmaxStepY":"Y{n} = 3^Z{n}/Σ = {num}/{den} = {result}","conceptWideLinearReLU1":"Linear & ReLU（第 1 层，宽度 2）","conceptWideLinearReLU2":"Linear & ReLU（第 2 层，宽度 4）","conceptWideLayer1Formula":"第 1 层（宽度 2）: H = ReLU(W₁·X + b₁)","conceptWideLayer2Formula":"第 2 层（宽度 4）: Y = ReLU(W₂·H + b₂)","conceptMatrixMulCellDot":"A 第{row}行 · B 第{col}列（一次内积）","conceptMatrixMulARow":"A 第{row}行","conceptMatrixMulBCol":"B 第{col}列","conceptBatchLinear":"将表中数字乘权重加偏置后填入空白。","conceptBatchLinearRelu":"乘权重加偏置后，负数变为 0，再填入空白。","conceptBatchAdd":"将每行加上右侧数值后填入空白。","conceptBatchSubtract":"将每行减去右侧数值后填入空白。","conceptBatchMultiply":"将每行乘右侧数值后填入空白。","conceptBatchCenter":"从每行减去该行均值后填入空白。","conceptBatchSum":"求每行数字之和后填入空白。","conceptBatchMean":"求每行数字的平均（整数）后填入空白。","conceptBatchRowMeanHint":"（行均值→0）","conceptBatchRowSumHint":"（行和）","conceptBatchRowMeanIntHint":"（行均值，整数）","conceptRowN":"第{n}行","conceptDeepLayer1Title":"第1层: A₁, A₂, A₃ (W₁ 各行·X + b₁)","conceptDeepLayer2Title":"第2层: B₁, B₂, B₃ (W₂ 各行·A + b₂)","conceptDeepFormulaA":"A{n} = (W₁ {row}·X)+b₁[{bi}] = ({calc})+({b}) = {linear} → ReLU = {result}","conceptDeepFormulaAZero":"A{n} = (W₁ {row}·X)+b₁[{bi}] = ({calc})+({b}) = {linear} → ReLU(-1)=0 → {result}","conceptDeepFormulaB":"B{n} = (W₂ {row}·A)+b₂[{bi}] = ({calc})+({b}) = {linear} → ReLU = {result}","conceptHiddenLayer1Title":"第1层: H = ReLU(W₁·X + b₁)","conceptHiddenLayer2Title":"第2层: Y = ReLU(W₂·H + b₂)","conceptHiddenLinear1":"线性₁","conceptHiddenLinear2":"线性₂","conceptHiddenFormulaL1":"{linearLabel} = (W₁ {row}·X)+b₁[{bi}] = ({calc}) + ({b}) = {linear} → ReLU = {result}","conceptHiddenFormulaL2":"{linearLabel} = (W₂ {row}·H)+b₂[{bi}] = ({calc}) + ({b}) = {linear} → ReLU = {result}","conceptWideFormulaH1":"H₁ = (W₁ {row}·X)+b₁[0] = {calc} = {linear} → ReLU = {result}","conceptWideFormulaH2":"H₂ = (W₁ {row}·X)+b₁[1] = {calc} = {linear} → ReLU = {result}","conceptWideFormulaY1":"Y₁ = (W₂ {row}·H)+b₂[0] = {calc} = {linear} → ReLU = {result}","conceptWideFormulaY2":"Y₂ = (W₂ {row}·H)+b₂[1] = {calc} = {linear} → ReLU = {result}","conceptWideFormulaY3":"Y₃ = (W₂ {row}·H)+b₂[2] = {calc} = {linear} → ReLU = {result}","conceptWideFormulaY4":"Y₄ = (W₂ {row}·H)+b₂[3] = {calc} = {linear} → ReLU = {result}","conceptGradientZLine":"Z{n} = (W {row})·X = {calc} = {z}","conceptGradientDZLine":"dZ{n} = (dW {row})·X = {calc} = {dz}","problemPromptGradient":"在 __GRADIENT_FORWARD__ 或 __GRADIENT_BACKWARD__ 中填入空白(?)处。","tinyNNTitle":"按章节的深度学习图示","tinyNNDescription":"每完成一章，下方图示会逐步填满。这是目前的结构。","tinyNNComplete":"到最后一章，你会看到完整流程：前向 → 损失 → 反向 → 更新。","tinyNNAriaLabel":"按章节的深度学习图示进度","mathDiagramTitle":"按章节的数学图示","mathDiagramDescription":"选择章节后，下方图示会切换为该章节内容。可一览基础数学的脉络。","midMathDiagramTitle":"按章节的数学图示","midMathDiagramDescription":"选择章节后，下方图示会切换为该章节内容。可一览中级数学的脉络。","mathDiagramComplete":"看到 Ch01 函数为止，即可看到完整的输入→函数→输出结构。","mathDiagramAriaLabel":"按章节的数学图示","mlDiagramTitle":"按章节的机器学习图示","mlDiagramDescription":"选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。","midMlDiagramTitle":"按章节的中级机器学习图示","midMlDiagramDescription":"选择章节后，下方图示会切换为该章节内容。可一览中级机器学习脉络。","midMlIntroRoadmapHeading":"Ch01～Ch20 所学内容","midMlIntroRoadmapIntro":"中级机器学习将 **现实数据预处理** 与 **模型及超参数调优** 连成一体：缩放、编码、缺失、不平衡，再到 SVM、PCA、提升与聚类，最后用 **流水线** 与网格、随机、贝叶斯(Optuna) 搜索稳定提升性能。","mlDiagramAriaLabel":"按章节的机器学习图示","linkToPlayground":"在神经网络中这样使用该计算","introRoadmapHeading":"Ch01～Ch12 所学内容","mathIntroRoadmapIntro":"理解深度学习与机器学习，需要**函数**、**指数与对数**、**极限·微分·积分**、**概率与分布**等基础数学，Ch01～Ch12 所学的就是这些。**函数**是输入→输出的基础；**微分与梯度**是模型学习时决定参数**改哪里、改多少**的依据；**概率与分布**则用于预测与不确定性。","midMathIntroRoadmapHeading":"Ch01～Ch20 所学内容","midMathIntroRoadmapIntro":"中级数学会让你理解AI所用语言的深度再提升一层。你会学习如何用**向量**和**矩阵**来表示数据，并用**线性变换**描述它们如何被转换。之后通过**点积**与**投影**去量化“相似度”和“方向”。进一步，你会用**雅可比矩阵**与**海森矩阵**来阅读变化量与曲率（损失地形的“弯曲程度”）。最后，你用**泰勒级数**与**凸优化**来设计更稳定的学习策略，并用**贝叶斯**、**协方差**与**多元正态分布**来处理不确定性。","premiumBadge":"高级版","premiumTitle":"这是高级章节","premiumDescription":"此章节为付费会员专属内容。订阅后可无限使用所有章节的概念讲解、习题练习和AI教练辅导。","premiumFeature1":"解锁全部 Chapter 04~12","premiumFeature2":"AI学习教练无限提问","premiumFeature3":"新章节抢先体验","premiumMonthly":"月","premiumCTA":"订阅高级版","premiumComingSoon":"支付即将推出","premiumLogin":"已经订阅了？","premiumLoginLink":"登录","premiumLoginFirst":"登录后即可订阅高级版。","freeChaptersNote":"Chapter 01~03 可免费使用。","mlMseProblemPromptBinaryCrossEntropyLog2Y1":"二分类单样本损失 $\\ell = -\\big( y \\log_2 \\hat p + (1-y) \\log_2(1-\\hat p) \\big)$（底为2）。$y=1$，$\\hat p = {pFrac}$，求整数 $\\ell$。","mlMseProblemPromptBinaryCrossEntropyLog2Y0":"二分类单样本损失 $\\ell = -\\big( y \\log_2 \\hat p + (1-y) \\log_2(1-\\hat p) \\big)$（底为2）。$y=0$，$1-\\hat p = {pFrac}$，求整数 $\\ell$。"},"playground":{"title":"神经网络 Playground","seoFaqTitle":"常见问题","relatedLearnLabel":"相关章节","nav":{"sectionTitle":"游乐场","sectionSubtitle":"动手实验的 AI 实验室","comingSoon":"即将推出","categories":{"dl":"深度学习","ml":"机器学习","rl":"强化学习","vision":"计算机视觉","transformer":"Transformer","agent":"LLM 智能体"},"items":{"nnClassifier":"神经网络分类器","optimizer":"损失地形实验室","knn":"KNN 近邻分类器","rl":"强化学习智能体","cnn":"卷积视觉","transformer":"注意力 Playground","agent":"Claude 智能体"}},"classifier":{"title":"神经网络 Playground","subtitle":"就在浏览器里玩转神经网络吧！","dataTitle":"数据","dataHint":"选哪个 K 文化数据集？","datasets":{"taegeuk":"太极","danjeong":"丹青彩绘","hallyu":"K-浪潮","kpop":"K-Pop ♥"},"trainRatio":"训练/测试比例","noise":"噪声","batchSize":"批次大小","showTest":"显示测试数据","regenerate":"重新生成","featuresTitle":"特征","featuresHint":"选择神经网络的输入","featuresIntro":"特征(feature)是根据每个数据点坐标 (x₁, x₂) 加工后送入神经网络的输入值。除了 X₁、X₂，还可以开启平方、乘积、sin 等，让模型学习更复杂的决策边界。每开启一个特征，输入神经元就增加一个。","featuresIntroToggle":"特征说明","featuresIntroExpand":"展开","featuresIntroCollapse":"收起","features":{"x1":"X₁","x1Desc":"横坐标原值 — 适合竖直分界","x2":"X₂","x2Desc":"纵坐标原值 — 适合水平分界","x1sq":"X₁²","x1sqDesc":"横坐标平方 — 圆、抛物线等曲线边界","x2sq":"X₂²","x2sqDesc":"纵坐标平方 — 左右对称的曲线边界","x1x2":"X₁X₂","x1x2Desc":"两坐标之积 — 对角线、扭曲边界","sinX1":"sin(X₁)","sinX1Desc":"横坐标 sin — 波浪状周期边界","sinX2":"sin(X₂)","sinX2Desc":"纵坐标 sin — 上下重复的边界"},"networkTitle":"隐藏层","networkHint":"线宽=权重大小，颜色=符号（紫=+，橙=−）","addLayer":"添加层","removeLayer":"移除层","outputTitle":"输出","outputHint":"模型的决策边界与数据点","outputLegend":"浅色背景 = 真实数据图案 · 深色 = 神经网络预测","outputLive":"实时","testLoss":"测试损失","trainLoss":"训练损失","epoch":"轮次","colorNegative":"负 (−1)","colorPositive":"正 (+1)","play":"开始","pause":"暂停","step":"单步","reset":"重置","controlsIntro":"每次播放或单步训练都会使用下面的设置。建议先用默认值跑一遍，再改数值观察变化。","controlsIntroToggle":"训练设置说明","learningRate":"学习率","learningRateDesc":"每次把权重调整多大。太大容易震荡，太小学得很慢。可从 0.01～0.03 左右试起。","activation":"激活函数","activationDesc":"把神经元输出变成非线性曲线。Tanh 较平滑（−1～1），ReLU 把负数截为 0。","activationReLU":"ReLU — 负数为 0，正数不变（最常用）","activationTanh":"Tanh — S 形，输出在 −1～1","activationSigmoid":"Sigmoid — 压到 0～1","activationLinear":"Linear — 几乎无线性变换","regularization":"正则化","regularizationDesc":"惩罚过大的权重，减轻过拟合（死记硬背训练集）。","regNone":"无","regL1":"L1 — 权重绝对值之和（更稀疏）","regL2":"L2 — 权重平方和（整体更小）","regRate":"正则强度","regRateDesc":"正则惩罚有多强。选「无」时此项不生效。","regRateDisabledHint":"请先将正则化设为 L1 或 L2。","showFormulas":"显示公式","showFormulasDesc":"在页面下方显示与当前设置对应的公式（反向传播、激活函数等）。","learnChapterTooltip":"学习：{title}","relatedLearn":"相关章节","formulasTitle":"公式"},"rl":{"title":"秋千强化学习","subtitle":"Q-learning 自学何时推、何时靠惯性——像荡秋千一样！","seoIntro":"在浏览器中用 Q-learning 训练摆秋千智能体的免费强化学习 Playground。调节学习率、折扣因子与探索率，通过回合奖励曲线观察策略如何变好。","play":"开始","pause":"暂停","step":"单步","reset":"重置","episode":"回合","alpha":"学习率 α","alphaDesc":"每次 Q 更新幅度。过大可能不稳定。","gamma":"折扣 γ","gammaDesc":"未来奖励的重要程度，越接近 1 越重视远期回报。","epsilon":"探索 ε","epsilonDesc":"随机推或靠惯性的概率。高则多尝试，低则沿用已学节奏。","speed":"速度","showFormulas":"显示公式","controlsIntro":"下落时推、上升时靠惯性——Q 表从奖励中学到这一节奏。","controlsIntroToggle":"训练设置说明","envTitle":"秋千设置","envHint":"绳长、摩擦与风力改变难度","swingGoal":"奖励为高度(1−cos θ)。左右推拉以增大摆幅。","swingTip1":"在最低点朝反方向推可积蓄能量","swingTip2":"接近最高点时滑行通常更有利","presets":{"playground":"游乐场","playgroundDesc":"默认绳长 · 均衡","longRope":"长绳","longRopeDesc":"慢而幅度大","shortRope":"短绳","shortRopeDesc":"快速来回","heavySeat":"重座椅","heavySeatDesc":"摩擦大 · 难推高","breezy":"有风","breezyDesc":"轻微随机风","powerPump":"强力荡","powerPumpDesc":"大推力 · 快速升高"},"presetRope":"绳长","presetDamping":"摩擦","presetPush":"推力","presetWind":"风力","worldTitle":"秋千模拟器","worldHint":"紫色机器人=智能体 · 条=高度","swingAria":"秋千强化学习模拟器","swingHeight":"高度","swingMaxEp":"本回合最高","swingHighCount":"荡高次数","actions":{"left":"向左推","coast":"靠惯性","right":"向右推"},"metricSteps":"本回合步数","metricEpReward":"回合累计奖励","rewardTitle":"回合奖励","rewardHint":"荡得越高，奖励越大","rewardChartEmpty":"开始训练后将显示每回合奖励","lastReward":"最近回合奖励: {value}","rewardChartSummary":"最近完成: {completed} · 进行中累计: {current}","rewardChartCurrent":"进行中累计奖励: {value}","formulasTitle":"摆 · Q-learning","formulaPendulum":"秋千建模为摆：角度 θ、角速度 ω、推力 τ。","formulaBellman":"将 (θ,ω) 离散化，用 Q 表学习何时推。","formulaRewardIntro":"奖励与秋千高度成正比。","formulaRewardOutro":"荡得越高奖励越大。ε-greedy 平衡探索与利用。","relatedLearn":"相关章节"},"cnn":{"title":"卷积视觉 Playground","subtitle":"对 K 文化图案施加滤波器，实时查看 feature map 如何变化！","seoIntro":"浏览器内免费卷积(CNN) Playground。对太极、丹青、韩文、K-Pop 等 16×16 K 文化图案应用 3×3 卷积核，实时查看 feature map、ReLU 与 2×2 最大池化。7 种预设与逐步滑动动画帮助计算机视觉与深度学习入门者直观理解卷积原理。","controlsIntro":"点击 ▶ 让核在输入上滑动，逐格填充卷积→ReLU→池化。也可单步手动推进。","controlsIntroToggle":"设置说明","play":"播放","pause":"暂停","step":"单步","speed":"速度","animPhase":"阶段","animStep":"进度","animReady":"就绪","animDone":"完成","animConvValue":"输出值","animPoolValue":"max","pipelineIntroAnim":"核（紫色）滑过输入时 feature map 逐格填充。池化阶段从 2×2（橙色）区域取最大值。","padding":"Padding","paddingValid":"Valid（输出缩小）","paddingSame":"Same（保持尺寸）","useRelu":"应用 ReLU","usePool":"2×2 最大池化","showFormulas":"显示公式","reset":"重置","imageTitle":"输入图像","imageHint":"选择哪种 K 文化图案？","imageIntro":"16×16 像素图案转为灰度后送入卷积。太极、丹青与神经网络分类器数据集主题一致。","patterns":{"taegeuk":"太极","taegeukDesc":"圆内阴阳 S 形边界","danjeong":"丹青","danjeongDesc":"对角条纹网格","hangeul":"韩文 ㄱ","hangeulDesc":"笔画模式（竖、横、钩）","kpop":"K-Pop ♥","kpopDesc":"比心爱心区域"},"kernelTitle":"3×3 核","kernelHint":"选择预设或点击格子编辑","kernelIntro":"核在输入上滑动，每个输出格是 3×3 邻域的加权和。Sobel 找边缘，模糊平滑，锐化增强轮廓。","kernelPresets":"预设","kernelClickHint":"点击核格子可在 −2 到 2 之间循环。","customKernel":"自定义编辑核","presets":{"identity":"恒等","blur":"模糊","sharpen":"锐化","sobelX":"Sobel X","sobelY":"Sobel Y","edge":"边缘","emboss":"浮雕"},"presetDesc":{"identity":"中心为 1 — 几乎原样通过输入","blur":"9 邻域平均 — 降噪并平滑图像","sharpen":"增强中心、减去周围 — 使轮廓与细节更清晰","sobelX":"水平亮度变化 — 强调竖直边缘","sobelY":"垂直亮度变化 — 强调水平边缘","edge":"中心与周围之差 — 同时强调各方向边界","emboss":"对角亮度坡度 — 产生浮雕式立体质感"},"pipelineTitle":"CNN 流水线","pipelineHint":"输入 → 卷积 → (ReLU) → (池化)","outputTitle":"输出","outputHint":"各阶段 feature map — 播放时卷积、ReLU、池化逐格填充","pipelineIntro":"鼠标悬停输入图像可高亮核覆盖的 3×3 区域。","stageInput":"输入","stageConv":"卷积","stageRelu":"ReLU","stagePool":"池化","stageInputRole":"16×16 原始像素 — K 文化图案转为灰度送入 CNN","stageConvRole":"3×3 滤波滑动 — 邻域加权和提取边缘、纹理等空间特征","stageReluRole":"max(0, x) — 负响应置零，只保留激活特征","stagePoolRole":"2×2 取最大 — 缩小特征图，增强对小幅平移的鲁棒性","heatmapLegend":"热力图：紫=正，橙=负 · 越深越强","formulasTitle":"公式","formulaConv":"卷积","formulaPool":"最大池化","relatedLearn":"相关章节"},"transformer":{"title":"注意力 Playground","subtitle":"发送问题后，模型在问题中寻找答案线索并作答","chatTitle":"提问 → 找答案","chatModelBadge":"从问题中找线索","chatEmptyHint":"在下方输入框中输入问题并发送","chatPlaceholder":"输入问题…","chatCustomAnswer":"与「{query}」最相似的词是「{word}」({pct}%)。","chatSend":"发送问题","chatTokenizing":"正在将问题切分为 token…","chatEmbedding":"正在合并词 + 位置信息…","chatPipelineTitle":"模型在做什么","chatStepTokenize":"切分","chatStepEmbed":"理解","chatStepCompare":"比较","chatStepWeight":"关注%","chatStepAnswer":"回答","chatStepTokenizeDesc":"把句子拆成小块（token）","chatStepEmbedDesc":"给每个词加上「第几个」的位置信息","chatStepCompareDesc":"从回答位置出发，比较与其他词的相关度","chatStepWeightDesc":"把相关度变成 % — 越亮的词和越高的 % 表示越关注","chatStepAnswerDesc":"找出最相似的词 → 混合信息 → 写出回答","chatAnswerSimilarLead":"与「{query}」最相似的词是「{word}」({pct}%)。","chatAnswerSimilarEmpty":"在「{query}」位置未找到相关词。","chatAnswerSimilarExplain":"在回答位置，注意力 % 越高表示关联越深的词。","chatAnswerBriefTitle":"接下来模型会做什么","chatAnswerBriefBody":"按比例混合受关注的词，选择下一个词，然后完成回答。ChatGPT 会重复这一过程。","chatCompareTitle":"比较词间相关度","chatCompareHint":"从「{word}」位置计算与其他词的距离","chatWeightTitle":"计算关注比例","chatWeightHint":"相关度变为 % — 总和为 100%","chatPosition":"第{n}","chatTokenTruncated":"长输入仅显示前 {shown} 个 token（共 {total} 个词）","chatSearching":"正在从问题中寻找答案线索…","chatCluesFound":"已找到线索","chatSearchExplain":"写答案前，用动画显示问题中各词被关注的程度","chatQuestionLabel":"问题","chatConnectTitle":"词语连接 → 关注%","chatConnectIntro":"以下方{query}为基准 · 词块亮度与%表示关注程度","chatConnectAria":"问题词语与答案位置的连接图","chatAnswerFlow":"读完问题后","chatAnswerSlot":"在这里写答案","chatAnswerSlotHint":"ChatGPT 开始回答的位置（问题之后的空位）","chatQueryFromToken":"当前从「{word}」位置关注 · 点击下方可回到答案位置","chatCalcTitle":"为什么是这个比例？","chatCalcIntro":"将 Q({query}) 与各词的 K 比较，再经 softmax 得到比例。","chatCalcQueryLabel":"答案位置","chatCalcStep1":"① Q · K = 相似度分数（越高越相关）","chatCalcStep2":"② softmax — 将分数转为比例（总和 100%）","chatCalcStep2Pending":"② 正在计算 softmax…","chatClueSummary":"关注的关键线索：{words}","chatAnswering":"回答","chatDoneHint":"点击 token 可查看不同的关注方式。","chatPickNext":"问另一个问题","chatReadyHint":"在下方输入框中输入新问题","chatReadyFooter":"在下方输入问题即可开始新对话","chatFooterNote":"ChatGPT 也会在回答前，先从问题中找到相关词","qaQuestions":{"catCafe":"下雨天，坐在咖啡馆窗边的是什么？","robotPaint":"谁在画布前画紫色的天空？","moonRamen":"月夜小巷里飘来的暖香是什么？","snowTrain":"穿越雪原的火车，下一站是哪里？"},"qaAnswers":{"catCafe":"是猫咪。它听着雨声，在咖啡馆窗边休息。","robotPaint":"是机器人。它拿着画笔，在画布上慢慢画出紫色天空。","moonRamen":"是拉面。热汤的香气弥漫在月光下的小巷里。","snowTrain":"是小镇。火车越过雪原，驶入小镇的车站。"},"qaTokens":{"catCafe":["下雨","咖啡馆","窗边","坐着","什么","?"],"robotPaint":["画布","紫色","天空","画","谁","?"],"moonRamen":["月夜","小巷","暖香","什么","拉面","?"],"snowTrain":["雪原","火车","下一","到达","的","哪里"]},"setupTitle":"输入","setupHint":"模式 · query","patterns":{"catCafe":"模式 A","robotPaint":"模式 B","moonRamen":"模式 C","snowTrain":"模式 D"},"metricMaxAttn":"最大关注","outputHint":"按关注比例混合后的新表示","seoIntro":"与分类器相同布局的 Self-Attention Playground：选例句与 query → 连接图（线宽=关注比例）→ 输出管道，即时可见。支持 BERT/GPT 掩码、√d_k 缩放与分步动画。","controlsIntro":"▶ 播放会高亮管道各阶段。点击 token 无需播放也会即时更新。","controlsIntroToggle":"设置说明","play":"播放","pause":"暂停","step":"单步","speed":"速度","reset":"重置","animReady":"就绪","animDone":"完成","animPhase":{"label":"阶段","scores":"Q·K^T 分数","softmax":"softmax","output":"V 加权和"},"maskLabel":"掩码","maskFull":"全连接 (BERT)","maskCausal":"因果 (GPT)","scaleDk":"√d_k 缩放","showFormulas":"显示公式","sentenceTitle":"输入句子","sentenceHint":"选择哪条例句？","sentenceIntro":"选择例句和 query (Q) token。像分类器选数据/特征一样，连接图和输出会立即刷新。","queryHint":"选择 query token (Q)","presets":{"catCafe":"猫与咖啡馆","catCafeDesc":"雨天窗边 — 猫、咖啡馆、窗边彼此关注","robotPaint":"机器人画画","robotPaintDesc":"画布上的紫色天空 — 机器人、画、画布相互连接","moonRamen":"月亮与拉面","moonRamenDesc":"月夜小巷 — 夜、月亮、拉面香气交织","snowTrain":"雪与列车","snowTrainDesc":"穿越雪原的列车 — 雪、小镇、奔驰彼此呼应"},"presetTokens":{"catCafe":["猫咪","在","下雨","天","咖啡馆","窗边","坐着"],"robotPaint":["机器人","在","画布","前","画","紫色","天空"],"moonRamen":["月亮","升起","的","夜晚","拉面","香气","弥漫"],"snowTrain":["列车","穿过","白雪","覆盖","的","小","镇"]},"matrixTitle":"注意力矩阵","matrixHint":"行=Query，列=Key — 颜色越深分数/权重越大","storyTitle":"注意力故事","storyHint":"用柱状图和聚光灯理解「谁在看谁」","storyStep":{"scores":"比较","softmax":"变比例","output":"混合信息"},"storyExplainIdle":"点击 ▶ 后，先看「{query}」与句中其他词有多相似。","storyExplainScores":"① Q（问题）与 K（标签）比较打分——与「{query}」越像，分数越高。","storyExplainSoftmax":"② 分数变成 0–100% 的比例，总和为 1，即关注份额。","storyExplainOutput":"③ 按关注比例混合各词的 V（内容），得到新表示。","storyExplainPause":"一轮结束！会自动换 query，也可点击其他 token。","metaphorQ":"问题","metaphorK":"标签","metaphorV":"内容","metaphorQDesc":"当前关注的词","metaphorKDesc":"与其他词比较","metaphorVDesc":"要取用的信息","storySentenceLabel":"句中聚光灯","distributionScoresTitle":"「{query}」与各词的相似分数","distributionTitle":"「{query}」的关注比例","distributionHint":"柱越长关注越多。不同阶段显示分数或百分比。","storyOutputSummary":"「{query}」的新向量 = 各词 V 按关注比例加权求和。","showMatrixToggle":"高级：查看完整 N×N 矩阵","networkTitle":"注意力连接","networkHint":"线宽 = 关注比例（同分类器权重）","networkIntro":"从 query (Q) 到其他 token 的线表示关注程度。点击 token 即时更新。","networkLegend":"线越粗、% 越大，表示关注越多。","networkAria":"从 query 到 key token 的注意力连接图","outputTitle":"输出","outputIntro":"数据流：输入句子 → 关注（颜色越深越多）→ 输出向量。","outputIntroAnim":"▶ 播放后逐步清晰：模糊连线 → 比例确定 → 输出完成。","outputProgressLabel":"清晰度","outputLive":"实时","outputTop1":"第1关注","outputTop2":"第2关注","outputSelf":"自身","outputLegend":"颜色深浅表示「{query}」对各 token 的关注比例。","pipelineInput":"输入","pipelineInputRole":"句子 token","pipelineAttend":"关注","pipelineAttendRole":"softmax 比例","pipelineOut":"输出","pipelineOutRole":"V 加权和","matrixIntroScores":"softmax 前的 Q·K^T 内积分数。","matrixIntroWeights":"softmax 后的权重 — 每行之和为 1。","matrixAria":"注意力矩阵热力图","flowTitle":"Token 连接","flowHint":"线宽 = softmax 权重","flowIntro":"从所选 query 指向其他 token 的曲线，粗细表示关注程度。","flowQueryLabel":"Query","flowOutputLabel":"加权和输出 (d=4)","formulasTitle":"公式","formulaQkv":"Q / K / V","formulaAttention":"Scaled Dot-Product Attention","formulaMask":"因果掩码","formulaScaleNote":"d_k = {dk}","relatedLearn":"相关章节"},"agent":{"title":"Claude Code 多智能体","subtitle":"跟随 Claude Code 接收用户提示、spawn 子智能体，并用 Read·Write·Bash·Glob 工具逐步完成 ML 任务！","play":"开始","pause":"暂停","step":"单步","reset":"重置","stepLabel":"回合","speed":"速度","showFormulas":"显示公式","controlsIntro":"在子智能体名册中开关专家角色。▶ 播放后 Claude Code 通过 Task() 委派，关闭的角色会使会话中断。","controlsIntroToggle":"设置说明","taskTitle":"用户提示","taskHint":"要让 Claude Code 处理哪种 ML 任务？","taskIntro":"每个场景都是真实 repo 中 Claude Code 会处理的 ML 任务。orchestrator 通过 Task(subagent=...) 委派，各智能体调用工具。","taskBriefLabel":"提示","claudeTaskNote":"所有子智能体均假设在 {model} 会话中运行。","sessionLabel":"~/modudl-ml · Claude Code","scenarioSelectTip":"💡 关闭 Code 子智能体后 ▶ 播放 — 会话会在 Write train_*.py 步骤停止。","rosterTitle":"子智能体名册","rosterHintSelect":"可 spawn 的专家 ON/OFF","rosterIntroSelect":"Claude Code orchestrator 通过 Task() 调用的子智能体。orchestrator 始终启用，其余可切换。","claudeStackTitle":"Claude Code 会话","claudeStackDesc":"orchestrator 编写 plan 并通过 Task(subagent=...) 委派 · 各智能体使用 Read/Write/Bash/Glob 工具","teamActive":"已启用子智能体 {count}/{total}","toggleRole":"切换 {role} 智能体","requiredForTask":"本场景必选角色","boardHintSelect":"点击切换 · 回合进度","boardIntroSelect":"横向轨道是 Claude Code 会话中的子智能体委派顺序。点击角色切换 spawn 对象会重置会话。","clickToAttach":"点击 spawn","clickToDetach":"点击禁用","selectHint":"名册与会话看板均可同样方式选择子智能体。","orchestrationTitle":"子智能体委派","teamSync":"orchestrator","payloadLabel":"会话上下文","handoffReceived":"Task 已接收","toolTraceTitle":"Claude Code · tool use","toolTraceRunning":"工具执行中","toolTraceAria":"Claude Code 工具调用 trace","payload":{"taskPlan":"任务计划","rawDataset":"原始数据集","featureMatrix":"特征矩阵","modelDraft":"模型草案","hpoResult":"HPO 结果","trainScript":"训练脚本","verifiedBundle":"已验证模型包","artifact":"产出物"},"handoff":{"plan":{"orchestrate":"orchestrator 编写 .cursor/plan.md，并通过 Task(subagent=...) 依次 spawn 已启用的子智能体。"},"spawnContext":"将上下文「{payload}」传递到 workspace","delegate":"{from} → {to}：传递「{payload}」上下文并开始下一个 Task。","continue":"{role} 子智能体在「{payload}」上下文下继续同一角色内的工具调用。","retrieve":{"fallback":"data-agent 用 Glob/Read 探索数据集。"},"preprocess":{"fallback":"data-agent 用 Write/Bash 运行预处理脚本。"},"design":{"fallback":"model-agent 使用 Write/Edit 处理配置文件。"},"hpo":{"fallback":"model-agent 用 Bash 运行 HPO 脚本。"},"codegen":{"fallback":"code-agent 使用 Write/Edit 处理 train_*.py。"},"verify":{"fallback":"verify-agent 用 Bash 运行评估与审计。"},"deploy":{"fallback":"deploy-agent 应用 manifest 并执行 health check。"}},"claudeRoles":{"planner":"orchestrator · Task() spawn · .cursor/plan.md","data":"Glob/Read/Grep 探索 · Write/Bash 预处理","model":"Write configs/*.yaml · Bash HPO/调参","code":"Write/Edit train_*.py · serve_*.py","verify":"Bash pytest/bench · Read metrics.json","deploy":"Write deploy/*.yaml · kubectl/curl Bash"},"scenarios":{"tabular":"表格分类","tabularDesc":"检索·预处理·模型·代码·验证 — 部署可选","vision":"图像分类","visionDesc":"图像数据、CNN 设计、训练代码、验证","fullDeploy":"直至部署","fullDeployDesc":"完整流水线且部署为必选"},"consoleTitle":"Claude Code 会话日志","consoleHint":"Task 委派 · tool use · 上下文传递","consoleIntro":"每个回合对应子智能体的 tool use。查看 Glob/Read/Write/Bash 调用与 workspace 上下文传递。","consoleInput":"📥 输入（来自上一步）","consoleOutput":"📤 输出（交给下一步）","consoleWorkingOn":"🔧 处理中","consoleLearn":"💡 要点","workbookTitle":"任务分解工作簿","workbookHint":"8 步 · 各智能体子任务","workbookIntro":"orchestrator 将用户提示拆成 8 个子任务并通过 Task() 委派的路线图。▶ 播放时高亮当前回合。","workbookProblem":"待解问题","workbookAria":"任务分解路线图","workbookInProgress":"进行中","consoleProgress":"会话进度","consoleWaiting":"按 ▶ 播放开始 Claude Code 会话。","consoleWorking":"tool use 中","consoleLogAria":"Claude Code 会话日志","consoleArtifact":"workspace 产出物","metricCompleted":"已完成回合","boardTitle":"会话看板","boardHint":"子智能体 spawn · tool trace","boardHintDrag":"拖到槽位 · 拖回等候区","boardIntro":"上方为子智能体槽位，下方为回合顺序。已关闭的子智能体对应回合会以红色阻断显示。","boardIntroDrag":"横向轨道为 Claude Code 会话。点击角色切换 spawn 对象。","pipelineTrack":"Claude Code 会话","emptySlot":"空槽","dropHere":"放这里！","dragToDock":"↓ 到等候区","dragFromSlot":"{role} — 从槽位拖动","dragFromDock":"{role} — 从等候区拖动","dockTitle":"智能体等候区","dockHint":"已卸载的智能体在此等待","dockEmpty":"🎉 所有子智能体已在会话中启用！","tapFallback":"若拖拽不便，点击也可挂载/卸载。","traceTitle":"阶段 trace","alwaysOn":"始终开启","attached":"已开启","detached":"已关闭","required":"必选","optional":"可选","roles":{"planner":"Orchestrator","plannerDesc":"Task() spawn 子智能体 · 编写 .cursor/plan.md","data":"Data","dataDesc":"Glob/Read/Grep · Write/Bash 预处理","model":"Model","modelDesc":"Write/Edit configs · Bash HPO","code":"Code","codeDesc":"Write/Edit train/serve 脚本","verify":"Verify","verifyDesc":"Bash 评估与审计 · Read metrics","deploy":"Deploy","deployDesc":"Write manifest · kubectl/curl Bash"},"stages":{"plan":"会话规划","retrieve":"数据检索","preprocess":"预处理","design":"模型设计","hpo":"HPO","codegen":"代码生成","verify":"验证","deploy":"部署"},"status":{"pending":"等待","running":"运行中","success":"成功","skipped":"跳过","blocked":"阻断"},"stageMessages":{"plan":{"success":"orchestrator 编写 .cursor/plan.md 并确定 Task() spawn 顺序。","blocked":"没有 orchestrator 无法启动 Claude Code 会话。","skipped":"跳过规划回合。"},"retrieve":{"success":"Data 子智能体用 Glob/Read 探索数据集。","blocked":"Data 子智能体已关闭，无法检索。","skipped":"跳过检索。"},"preprocess":{"success":"Data 子智能体通过 Write/Bash 完成预处理。","blocked":"缺少 Data 子智能体，预处理被阻断。","skipped":"跳过预处理。"},"design":{"success":"Model 子智能体用 Write/Edit 编写配置草案。","blocked":"Model 子智能体已关闭，设计被阻断。","skipped":"跳过设计。"},"hpo":{"success":"Model 子智能体用 Bash 运行 HPO。","blocked":"缺少 Model 子智能体，HPO 被阻断。","skipped":"跳过 HPO。"},"codegen":{"success":"Code 子智能体生成 train/serve 脚本。","blocked":"Code 子智能体已关闭，无法 Write train_*.py。","skipped":"跳过代码生成。"},"verify":{"success":"Verify 子智能体验证指标与日志。","blocked":"缺少 Verify 子智能体，验证被阻断。","skipped":"跳过验证。"},"deploy":{"success":"Deploy 子智能体应用 manifest 并执行 health check。","blocked":"Deploy 子智能体已关闭，无法部署。","skipped":"部署为可选，已跳过该回合。"}},"blockedBecauseDetached":"请重新开启子智能体后按 ▶ 播放。","resultTitle":"会话结果","resultHint":"所有必选回合是否通过","resultIdle":"按 ▶ 播放或单步运行 Claude Code 会话。","resultSuccessTitle":"会话完成","resultSuccessBody":"已启用的子智能体完成了各回合。未开启 Deploy 时仍可视为完成原型。","resultFailTitle":"会话阻断","resultFailBody":"必选子智能体在对应回合仍处于关闭状态。请在名册中开启后重试。","missingRole":"需要 {role} 子智能体","metricAttached":"已启用子智能体","metricStages":"总回合","metricRequired":"必选角色","formulasTitle":"公式","formulaOrchestration":"Claude Code 会话：orchestrator 规划后，已启用的子智能体按序执行 tool use。","formulaAttach":"可切换的子智能体集合 — 仅已启用的角色能执行对应回合。","formulaBlock":"每回合规则：已开启 → tool run，必选但未开启 → block，可选 → skip。","relatedLearn":"相关章节","tasks":{"tabular":{"title":"客户流失预测","request":"请使用 telco_churn.csv 电信客户数据构建 XGBoost 分类器，并在验证集上达到 AUC 0.80 以上。","goal":"交付验证 AUC ≥ 0.80 的流失预测模型","stages":{"plan":{"subtask":"将大问题拆分为 8 个子任务","input":"用户请求 — telco_churn.csv，验证 AUC 0.80 以上","output":"任务计划书 — 按角色划分的 8 步执行顺序与产出定义","learn":"orchestrator 不直接训练模型，只定义「谁做什么、按什么顺序」，并通过 Task() 委派给子智能体。","running":"正在编写 .cursor/plan.md 并通过 Task() spawn 子智能体","success":"会话规划已就绪","detail":"定义 Glob/Read → Write/Bash → HPO → Write train_*.py → Bash 验证流程；Deploy 标记为可选回合。","blocked":"没有 orchestrator 无法启动","blockedDetail":"请按 ▶ 播放。","skipped":"跳过计划阶段"},"retrieve":{"subtask":"查找符合请求的 CSV 数据集","input":"任务计划书 — 所需数据与 schema 要求","output":"telco_churn.csv 元信息 — 7,043 行、21 列、Churn 标签已确认","learn":"Data 智能体用搜索与文件读取工具，先验证数据是否存在及质量如何。","running":"正在搜索电信流失数据集","success":"数据集已定位","detail":"匹配 telco_churn.csv — 7,043 行，含 Churn 标签的 21 列。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以检索和预处理 CSV。","skipped":"跳过数据检索"},"preprocess":{"subtask":"构建可训练的特征矩阵","input":"原始 CSV — 类别与数值混合，含缺失值","output":"特征矩阵 — 50 维，分层划分（训练 5,634 / 验证 1,409）","learn":"同一 Data 智能体连续执行后续步骤。预处理结果成为 Model 智能体的输入。","running":"正在填补缺失值并编码类别特征","success":"预处理完成","detail":"15 个类别字段独热编码，数值特征缩放，分层 80/20 划分。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以执行缺失值填补和特征编码。","skipped":"跳过预处理"},"design":{"subtask":"设计适合表格数据的分类器","input":"特征矩阵 + 27% 流失率的类别不平衡信息","output":"XGBClassifier 设计方案 — class_weight 均衡，树模型处理混合特征","learn":"Model 智能体提出架构候选，此时尚未编写执行代码。","running":"正在设计 XGBoost 架构和特征策略","success":"模型设计已批准","detail":"适用于混合特征的 XGBClassifier；针对 27% 流失率调整 class_weight。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以推进分类器设计。","skipped":"跳过模型设计"},"hpo":{"subtask":"寻找最大化验证 AUC 的超参数","input":"模型设计方案 + 预处理后的训练/验证集","output":"HPO 结果 — max_depth=6, n_estimators=200, lr=0.08（验证 AUC 0.841）","learn":"Model 智能体连续负责设计与搜索。最优配置成为 Code 智能体的输入。","running":"正在搜索 max_depth、learning_rate、n_estimators","success":"最优超参数已确定","detail":"Optuna trial #38: max_depth=6, n_estimators=200, learning_rate=0.08 — 验证 AUC 0.841。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以运行超参数搜索。","skipped":"跳过 HPO"},"codegen":{"subtask":"编写可复现的训练脚本","input":"HPO 结果 + 预处理器与模型规格","output":"train_churn.py — Pipeline（预处理 + XGB）+ ROC-AUC 评估","learn":"Code 智能体将设计转为可运行代码，Verify 智能体负责验证该代码。","running":"正在生成基于 sklearn Pipeline 的 train_churn.py","success":"训练脚本已生成","detail":"Pipeline 整合预处理器 + XGBClassifier；包含留出集 ROC-AUC 评估。","blocked":"Code 智能体已关闭","blockedDetail":"请在名册中开启 Code 智能体以生成训练脚本。","skipped":"跳过代码生成"},"verify":{"subtask":"检查 AUC 目标与数据泄漏","input":"train_churn.py + 留出验证集","output":"已验证模型包 — AUC 0.847，F1 0.762，无泄漏","learn":"Verify 智能体区分「代码能跑」与「目标达成」，充当质量门禁。","running":"正在运行留出集评估和质量门禁","success":"指标通过质量门禁","detail":"AUC 0.847 超过 0.80 阈值；流水线审计未发现数据泄漏。","blocked":"Verify 智能体已关闭","blockedDetail":"请在名册中开启 Verify 智能体以验证指标和日志。","skipped":"跳过验证"},"deploy":{"subtask":"保存模型制品（部署可选）","input":"已验证模型包 + 序列化要求","output":"churn_model.pkl — 本地制品（本场景可跳过部署）","learn":"Deploy 关闭时，原型完成即视为结束；服务部署在另一场景中才是必需。","running":"正在打包模型制品","success":"模型制品已保存","detail":"序列化为 churn_model.pkl — 本场景部署为可选。","blocked":"Deploy 智能体已关闭","blockedDetail":"如需部署到服务，请在名册中开启 Deploy 智能体。","skipped":"部署为可选 — 已跳过"}},"artifacts":{"plan":{"step1":"检索 telco_churn.csv 并分析 schema","step2":"填补缺失、编码、划分训练/验证集","step3":"设计 XGBoost 并运行 HPO","step4":"生成 train_churn.py","step5":"验证 AUC ≥ 0.80 并保存制品"},"retrieve":{"fileLabel":"文件","fileValue":"telco_churn.csv","rowsLabel":"行数","rowsValue":"7,043","colsLabel":"列数","colsValue":"21"},"preprocess":{"line1":"TotalCharges 缺失值以中位数填补；删除 customerID","line2":"15 个类别列独热编码 → 50 个特征","line3":"分层划分：训练 5,634 / 验证 1,409"},"design":{"summary":"XGBClassifier（梯度提升树）+ 均衡 class_weight — 混合表格数据的强基线。"},"hpo":{"summary":"最优 trial: max_depth=6, n_estimators=200, lr=0.08, subsample=0.85 → 验证 AUC 0.841"},"codegen":{},"verify":{"m1Label":"AUC","m1Value":"0.847","m2Label":"F1","m2Value":"0.762","m3Label":"验证样本","m3Value":"1,409"},"deploy":{"url":"churn_model.pkl（本地制品 — 无需部署）"}},"deliverable":{"title":"流失模型已就绪","summary":"基于 telco_churn.csv 的 XGBoost 流水线 — 验证 AUC 0.847，超过 0.80 目标。","auc":"验证 AUC","aucVal":"0.847","f1":"F1 分数","f1Val":"0.762","model":"模型","modelVal":"XGBoost"},"failed":{"title":"流水线被阻断","summary":"必需智能体已关闭。请在名册中开启缺失的智能体后再次运行。"}},"vision":{"title":"K-文化图案分类","request":"请用轻量 CNN 将 16×16 灰度 K-文化图案块分为 4 类（太极、丹青、K-浪潮、K-Pop）。","goal":"轻量 CNN 测试准确率 ≥ 90%","stages":{"plan":{"subtask":"将视觉任务拆分为各智能体阶段","input":"用户请求 — 16×16 四类 K-文化 CNN，准确率 ≥ 90%","output":"视觉流水线计划 — 数据→增强→CNN→代码→验证","learn":"同一 Claude Code 模式适用于表格与图像任务；orchestrator 只按领域调整各回合。","running":"正在规划图像流水线和 CNN 训练步骤","success":"视觉任务计划已就绪","detail":"k_culture_16x16 数据集 → 增强 → 2 层 CNN → 训练 → 验证准确率。","blocked":"没有 orchestrator 无法启动","blockedDetail":"请按 ▶ 播放。","skipped":"跳过计划阶段"},"retrieve":{"subtask":"获取 K-文化图案块图像数据集","input":"视觉任务计划书 — 16×16 灰度、四类要求","output":"k_culture_16x16/ — 训练 3,200、测试 800 张 PNG 已确认","learn":"Data 智能体对图像与 CSV 一样先「查找并确认」，优先验证类别数与分辨率。","running":"正在定位 K-文化 16×16 图案块数据集","success":"图像数据集已加载","detail":"k_culture_16x16/ — 4 类，16×16 灰度 PNG，训练 3,200 / 测试 800。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以加载图像数据集。","skipped":"跳过数据检索"},"preprocess":{"subtask":"构建 CNN 训练用张量与增强流水线","input":"原始 PNG 图案块 — 16×16 灰度","output":"归一化与增强后的批次 — [0,1] 缩放，每类 800 样本","learn":"预处理直接影响模型性能；Data 智能体会融入领域知识（增强类型）。","running":"正在归一化像素并应用数据增强","success":"图像预处理完成","detail":"缩放至 [0,1]；随机翻转 + ±5° 旋转；类别均衡批次（每类 800）。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以执行归一化和增强。","skipped":"跳过预处理"},"design":{"subtask":"设计适用于 16×16 输入的轻量 CNN","input":"预处理后的图像张量 — 1×16×16","output":"2 层 CNN 设计方案 — Conv(16→32)×2，约 8K 参数","learn":"小输入适合小 CNN；Model 智能体在参数量与表达能力之间取平衡。","running":"正在为 16×16 输入设计轻量 CNN","success":"CNN 架构已确定","detail":"Conv2d(16→32)×2 + MaxPool + Linear(512→4)；约 8K 参数 — 适合浏览器演示规模。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以设计 CNN 架构。","skipped":"跳过模型设计"},"hpo":{"subtask":"优化学习率、批次与 epoch","input":"CNN 设计方案 + 增强后的训练批次","output":"训练配置 — Adam lr=1e-3, batch=64, 24 epoch, early stopping","learn":"视觉 HPO 主要调整训练调度；结果由 Code 智能体转为 PyTorch 循环。","running":"正在调优学习率和批次大小","success":"训练配置已选定","detail":"Adam lr=1e-3, batch=64, 24 epoch, early stopping（patience=4）。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以调优训练超参数。","skipped":"跳过 HPO"},"codegen":{"subtask":"生成 PyTorch 训练与评估脚本","input":"CNN 架构 + HPO 训练配置","output":"train_kpattern.py — DataLoader、CNN、准确率/F1 循环","learn":"Code 智能体自动生成框架样板代码，无需逐行手写。","running":"正在生成 PyTorch 版 train_kpattern.py","success":"训练脚本已生成","detail":"包含 DataLoader、CNN 模块以及准确率/F1 评估循环。","blocked":"Code 智能体已关闭","blockedDetail":"请在名册中开启 Code 智能体以生成 PyTorch 训练脚本。","skipped":"跳过代码生成"},"verify":{"subtask":"验证测试集 90% 准确率目标","input":"train_kpattern.py + 800 张留出测试集","output":"验证结果 — 准确率 92.3%，各类 F1 ≥ 0.88","learn":"Verify 以用户目标（90%）而非训练 loss 判定通过或失败。","running":"正在评估留出测试集","success":"准确率目标已达成","detail":"测试准确率 92.3% — 超过 90% 门槛；各类 F1 均高于 0.88。","blocked":"Verify 智能体已关闭","blockedDetail":"请在名册中开启 Verify 智能体以运行测试评估。","skipped":"跳过验证"},"deploy":{"subtask":"导出 TorchScript 模型（可选）","input":"已验证 CNN 权重 + 推理规格","output":"kpattern_cnn.pt — 本地制品","learn":"仅需训练时可不启用 Deploy；移动端/边缘部署时此步骤才成为必需。","running":"正在导出 TorchScript 模型","success":"模型已导出","detail":"已保存 kpattern_cnn.pt — 本场景部署为可选。","blocked":"Deploy 智能体已关闭","blockedDetail":"如需部署 CNN 服务，请在名册中开启 Deploy 智能体。","skipped":"部署为可选 — 已跳过"}},"artifacts":{"plan":{"step1":"加载 k_culture_16x16 四类图案块数据集","step2":"归一化像素并应用轻量增强","step3":"设计 2 层 CNN（约 8K 参数）","step4":"生成 train_kpattern.py","step5":"验证测试准确率 ≥ 90%"},"retrieve":{"fileLabel":"数据集","fileValue":"k_culture_16x16/","rowsLabel":"训练","rowsValue":"3,200","colsLabel":"测试","colsValue":"800"},"preprocess":{"line1":"灰度 16×16 → 张量，缩放至 [0, 1]","line2":"增强：水平翻转、±5° 旋转","line3":"类别均衡批次 — 每类 800 样本"},"design":{"summary":"Conv2d(1→16→32) + MaxPool2d×2 + Flatten + Linear(512→4) — 适用于小图案块的轻量 CNN。"},"hpo":{"summary":"Adam lr=1e-3, batch=64, 24 epoch, early stopping patience=4"},"codegen":{},"verify":{"m1Label":"准确率","m1Value":"92.3%","m2Label":"验证损失","m2Value":"0.284","m3Label":"Epoch","m3Value":"24"},"deploy":{"url":"kpattern_cnn.pt（本地制品 — 无需部署）"}},"deliverable":{"title":"K-文化 CNN 训练完成","summary":"16×16 四类图案 CNN 达到测试准确率 92.3% — 超过 90% 目标。","accuracy":"测试准确率","accVal":"92.3%","params":"参数量","paramsVal":"8,288","model":"模型","modelVal":"2 层 CNN"},"failed":{"title":"流水线被阻断","summary":"必需智能体已关闭。请在名册中开启缺失的智能体后再次运行。"}},"fullDeploy":{"title":"流失 API 部署","request":"请将已验证的流失 XGBoost 模型部署为 FastAPI 推理服务，p99 延迟低于 50 ms。","goal":"p99 ≤ 50 ms 的 /predict 端点上线运行","stages":{"plan":{"subtask":"将训练、验证、部署整体规划为一项任务","input":"用户请求 — FastAPI 部署，p99 ≤ 50 ms","output":"端到端计划 — 加载制品→服务设计→部署→冒烟测试","learn":"部署场景中 Deploy 不是可选而是必需；orchestrator 一次性规划完整 Task() 链路。","running":"正在规划包含部署的 Claude Code 会话","success":"端到端计划已就绪","detail":"训练 → 验证 → 容器化 → FastAPI 部署，含健康检查和冒烟测试。","blocked":"没有 orchestrator 无法启动","blockedDetail":"请按 ▶ 播放。","skipped":"跳过计划阶段"},"retrieve":{"subtask":"加载已训练模型与 schema 制品","input":"部署计划书 — 所需 pkl 与 schema 路径","output":"churn_model.pkl + feature_schema.json 已确认","learn":"部署流水线从「已验证制品」而非重新训练开始；由 Data 智能体加载。","running":"正在加载流失模型和特征 schema","success":"模型制品已检索","detail":"来自上次训练运行的 churn_model.pkl + feature_schema.json。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以加载模型制品和 schema。","skipped":"跳过数据检索"},"preprocess":{"subtask":"重建推理预处理流水线","input":"已保存的 sklearn Pipeline 预处理器","output":"50 维特征验证 — ChurnRequest Pydantic schema","learn":"服务端须与训练时使用相同预处理；不一致会悄然降低性能。","running":"正在从已保存流水线构建推理预处理器","success":"推理流水线已就绪","detail":"提取 sklearn ColumnTransformer；验证 50 维特征向量输入。","blocked":"Data 智能体已关闭","blockedDetail":"请在名册中开启 Data 智能体以准备推理预处理器。","skipped":"跳过预处理"},"design":{"subtask":"设计 FastAPI 推理 API","input":"模型 + 预处理器 + SLA（p99 ≤ 50 ms）","output":"API 规格 — POST /predict、GET /health、启动时加载模型","learn":"部署时 Model 智能体不仅设计模型结构，也设计服务架构。","running":"正在设计 FastAPI 服务架构","success":"API 设计已批准","detail":"POST /predict（Pydantic body）；GET /health；启动时加载模型。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以设计服务架构。","skipped":"跳过模型设计"},"hpo":{"subtask":"为延迟目标调优服务配置","input":"API 设计 + 预发环境","output":"服务配置 — workers=1, batch=1，预发 p99 45 ms","learn":"推理 HPO 优化延迟与吞吐而非准确率，由 Model 智能体负责。","running":"正在调优批次大小和 worker 数以优化延迟","success":"服务配置已优化","detail":"单 worker、batch=1、sklearn 路径 — 预发环境 p99 45 ms。","blocked":"Model 智能体已关闭","blockedDetail":"请在名册中开启 Model 智能体以优化服务配置。","skipped":"跳过 HPO"},"codegen":{"subtask":"生成 FastAPI 服务代码","input":"API 规格 + 模型加载路径 + 服务配置","output":"serve_churn.py — /predict、/health、日志、请求验证","learn":"Code 智能体分别生成训练代码与服务代码，保持职责分离。","running":"正在生成 serve_churn.py FastAPI 应用","success":"服务代码已生成","detail":"FastAPI 应用含 /predict、/health、结构化日志和请求验证。","blocked":"Code 智能体已关闭","blockedDetail":"请在名册中开启 Code 智能体以生成 FastAPI 服务代码。","skipped":"跳过代码生成"},"verify":{"subtask":"同时验证冒烟测试、延迟与准确率","input":"serve_churn.py + 预发端点","output":"验证报告 — 12/12 冒烟通过，p99 45 ms，AUC 0.847 保持","learn":"部署前 Verify 一次性检查功能、性能与质量；任一失败则不会进入 Deploy。","running":"正在运行冒烟测试和延迟基准","success":"所有检查通过","detail":"冒烟测试 12/12 通过；p99 延迟 45 ms；影子流量 AUC 0.847 保持不变。","blocked":"Verify 智能体已关闭","blockedDetail":"请在名册中开启 Verify 智能体以运行冒烟测试和基准测试。","skipped":"跳过验证"},"deploy":{"subtask":"上线生产 /predict 端点","input":"已验证 serve_churn.py + 容器镜像","output":"https://churn-api.modudl.example/predict — 200 OK，p99 45 ms","learn":"Deploy 关闭时停在原型阶段；本场景中部署完成即任务完成。","running":"正在部署到生产端点","success":"服务已上线","detail":"滚动部署完成 — https://churn-api.modudl.example/predict 返回 200 OK。","blocked":"Deploy 智能体已关闭","blockedDetail":"请在名册中开启 Deploy 智能体 — 本场景部署为必需。","skipped":"跳过部署"}},"artifacts":{"plan":{"step1":"加载 churn_model.pkl 和特征 schema","step2":"构建推理预处理器","step3":"设计 FastAPI /predict + /health","step4":"生成 serve_churn.py","step5":"验证延迟并部署到生产环境"},"retrieve":{"fileLabel":"模型","fileValue":"churn_model.pkl","rowsLabel":"特征","rowsValue":"50","colsLabel":"Schema","colsValue":"feature_schema.json"},"preprocess":{"line1":"从制品加载 sklearn Pipeline 预处理器","line2":"Pydantic ChurnRequest 验证 50 个数值特征","line3":"预热推理 — 冷启动 12 ms，热启动 8 ms"},"design":{"summary":"FastAPI 单 worker 服务：POST /predict 返回 churn_risk + label；GET /health 供探针。"},"hpo":{"summary":"workers=1, batch=1, uvicorn --workers 1 — 预发 p99 45 ms（1 vCPU）"},"codegen":{},"verify":{"m1Label":"AUC","m1Value":"0.847","m2Label":"p99 延迟","m2Value":"45 ms","m3Label":"冒烟测试","m3Value":"12/12 通过"},"deploy":{"url":"https://churn-api.modudl.example/predict"}},"deliverable":{"title":"流失 API 已部署","summary":"FastAPI 流失服务已上线 — AUC 0.847，p99 延迟 45 ms。","auc":"生产 AUC","aucVal":"0.847","latency":"p99 延迟","latencyVal":"45 ms","endpoint":"端点","endpointVal":"https://churn-api.modudl.example/predict"},"failed":{"title":"部署被阻断","summary":"必需智能体已关闭。请在名册中开启所有智能体（含 Deploy）后再次运行。"}}}},"optimizer":{"title":"损失地形实验室","subtitle":"在同一起点上，对比 SGD、Momentum、Adam 如何在 2D 损失曲面上走出不同路径！","play":"开始","pause":"暂停","step":"单步","reset":"重置","stepLabel":"步数","learningRate":"学习率 η","learningRateDesc":"每步参数更新幅度。过大易发散，过小则收敛慢。","momentumBeta":"动量 β","momentumBetaDesc":"Momentum 保留上一梯度方向的比例。","speed":"速度","showFormulas":"显示公式","controlsIntro":"▶ 播放时三种优化器同步每步下降。调高学习率可先看 SGD 振荡。","controlsIntroToggle":"设置说明","landscapeTitle":"损失地形","landscapeHint":"选择哪种曲面来优化？","landscapes":{"bowl":"凸碗形","bowlDesc":"x²+y² — 最简单的凸曲面","saddle":"鞍点","saddleDesc":"(x²−1)²+y² — 中央鞍点，左右两个最小值","valley":"Rosenbrock 峡谷","valleyDesc":"狭窄弯曲峡谷 — 接近实战"},"worldTitle":"优化路径","worldHint":"紫=SGD · 蓝=Momentum · 橙=Adam · 点击画布改起点","canvasAria":"2D 损失曲面与优化器路径","legendStart":"起点","legendMin":"最小值","legendSaddle":"鞍点","clickHint":"点击画布可更改起点并重置路径","optimizers":{"sgd":"SGD","momentum":"Momentum","adam":"Adam"},"converged":"已收敛","diverged":"已发散","running":"进行中","formulasTitle":"公式","formulaSgdIntro":"最基本的梯度下降 — 沿当前梯度方向走一步：","formulaMomentumIntro":"累积历史梯度作为惯性 — 减少峡谷中的振荡：","formulaAdamIntro":"用指数移动平均估计一、二阶矩 — 自适应步长：","relatedLearn":"相关章节"},"knn":{"title":"KNN 近邻分类器","subtitle":"无需训练，用最近 K 个邻居的多数表决来分类！与神经网络分类器共用 K 数据集，对比传统 ML。","dataTitle":"数据","dataHint":"选择哪个 K 数据集？","trainRatio":"训练/测试比例","noise":"噪声","showTest":"显示测试数据","regenerate":"重新生成","kLabel":"邻居 K","kDesc":"使用多少个最近训练点。K 小则边界锯齿，K 大则更平滑。","metric":"距离","metricEuclidean":"欧氏（直线）","metricManhattan":"曼哈顿（网格）","metricDesc":"两点间距离的度量方式，与 ml03 章的 L1·L2 距离相同。","showFormulas":"显示公式","controlsIntro":"点击画布移动查询点（紫色环），虚线连接最近的 K 个邻居。","controlsIntroToggle":"设置说明","outputTitle":"分类结果","outputHint":"背景=KNN 决策区域 · 虚线=邻居连线 · 点击=查询位置","canvasAria":"KNN 分类画布","clickHint":"点击画布更改查询位置并查看邻居","testAccuracy":"测试准确率","queryPrediction":"查询预测","neighborVotes":"K 票明细","labelPos":"正类 (+1)","labelNeg":"负类 (−1)","neighborRank":"#{rank} · d={dist}","formulasTitle":"公式","formulaDistIntro":"距离 — 欧氏（L2）与曼哈顿（L1）：","formulaVoteIntro":"多数表决 — K 个邻居标签之和的符号作为预测：","relatedLearn":"相关章节"},"configTitle":"模型设置","inputNodes":"输入节点数","hiddenNeurons":"隐藏层神经元数","activation":"激活函数","createModel":"生成模型","inputTarget":"输入与目标","runForward":"执行前向","forwardSteps":"前向步骤","training":"训练","oneStep":"单步","epochs50":"50 轮","weightsAndGradients":"权重与梯度","linkFromProblem":"在神经网络中这样使用该计算","fromDotBanner":"已与点积练习关联。下方模型的第一个神经元计算输入与权重的点积。请运行「前向」查看。","inputXLabel":"输入 X（逗号分隔）","targetLabel":"目标（逗号分隔）","trainingInProgress":"训练中…","weightsW1":"W₁（隐藏层权重）","weightsW2":"W₂（输出层权重）","gradientsDW1":"dW₁（梯度）","gradientsDW2":"dW₂（梯度）","createModelHint":"请在上方选择设置后点击「生成模型」。","lossGraphEmpty":"运行训练后将显示每轮损失曲线。","lossGraphTitle":"每轮损失 (Loss)","epochLabel":"轮次","lastLossLabel":"最后损失: {value}（共 {count} 轮）"},"tinyNN":{"batchPhase0":"样本 1、2、3 各自独立。","batchPhase1":"合并成一张表 → 用相同的 W、b 一次算完。","batchPhase2":"相同的 W、b 一次作用到每一列（样本）。","batchPhase3":"所以 输出 Y 也以一张表一次得出。","batchInputSeparate":"输入（样本分开）","batchInputTable":"输入表 X","batchSample1":"样本 1","batchSample2":"样本 2","batchSample3":"样本 3","batchOneColOneSample":"一列 = 一样本","batchMergeHint":"合并成一张表","batchSameWb":"相同 W, b","batchComputeOnce":"一次计算","batchResultY":"输出 Y","batchResultCaption":"← 由相同 W、b 一次得到的结果","batchFooter1":"把样本拼成一张矩阵，就能用相同的 W、b 一次计算。","batchFooter2":"所以把输入合并成一张表，输出 Y 也会以一张表一次得出。","batchFooter3":"整张表经过同一组 W、b。每列不同的只有输入，计算规则(W、b)都相同。","connDescription":"层与层之间的每条线都是权重(w)。输入乘权重相加，再加上偏置(b)得到下一层 Y。","connWeightLabel":"权重(w)","connBiasLabel":"+偏置(b)","connFooter":"圆是值，线是权重(w)。加权和加上偏置(b)得到下一层 Y。","hiddenDescription":"我们只看到输入(X)和输出(Y)。中间那层只在网络内部使用，所以是隐藏层。","hiddenVisibleInput":"可见: 输入","hiddenHiddenH":"不可见: 隐藏(H)","hiddenVisibleOutput":"可见: 输出","hiddenBoxLabel":"隐藏层（从外不可见）","hiddenFooter":"数值沿输入→隐藏层→输出流动。隐藏层是我们看不到的内部表示。","deepDescription":"深＝隐藏层（中间步骤）多。深度学习里的「深」就是指这个深度。","deepLayerN":"第{n}层","deepFooter":"步骤越多网络越深。越深越能学习更精细的模式。","wideWidthN":"宽度 {count}","wideNeuronsN":"{count} 个神经元","wideFooter":"一层的神经元个数就是宽度。越宽该层能同时表示的特征越多。","softmaxScoreToProb":"分数→概率","softmaxExample":"（例：e≈3）","softmaxScore":"分数","softmaxMid":"中间","softmaxPowerOf3":"3的幂","softmaxProb":"概率","softmaxDivideBySum":"除以和","softmaxRaise":"做幂得","softmaxPowerLabel":"（3的{n}次方）","activationDescription":"输出 Y 随输入 X 非线性变化的典型激活函数。（3 级量化版）","activationSigmoid":"Sigmoid(X)","activationRelu":"ReLU(X)","activationTanh":"Tanh₃(X)","hiddenLayer1Formula":"W₁·X+b₁ → ReLU","hiddenLayer2Formula":"W₂·H+b₂ → ReLU","captionDotProduct":"左侧 X1,X2,X3 与右侧 Y1,Y2,Y3 用线相连。右侧每个节点是左侧与权重的内积。","captionMatrixMul":"左侧是矩阵 A 的一行，右侧 Y1～Y3 是与矩阵 B 各列的内积结果，合起来就是 A·B 矩阵积。","captionLinearLayer":"这一段是线性层。用 Y=W·X+b 把输入一次算到下一层。","captionActivation":"节点值经过 ReLU 或 σ 后非线性变化。最后一层 Y1,Y2,Y3 就是这样得到的。","captionArtificialNeuron":"虚线圆内是一个人工神经元。输入(X)乘权重加偏置(w·x+b)，经 ReLU 得到输出(Y)。","captionBatch":"表中一列＝一样本。同一 W、b 一次作用到所有列，计算 Y=W·X+b。","captionConnection":"层与层之间的线是权重(w)。值沿这些线传到下一层。","captionHidden":"我们只看到输入(X)和输出(Y)，中间层 H 只在网络内部使用，所以是隐藏层。数据按输入→隐藏→输出流动。","captionDeep":"深即隐藏层（中间步骤）多。像 X→A→B→C→…→Y 这样步骤越多越深，越深越能学更精细的模式。","captionWide":"一层的神经元个数是宽度。1 个表示 1 个特征，256 个可同时表示 256 个。每层可以不同(如 1→2→4→8 或 256→128→64)。","captionSoftmax":"最后一层 Y1,Y2,Y3 除以某数使和为 1，就是 softmax。可以当概率用。","captionGradient":"梯度(∇)从右向左流动，为减小损失逐层微调。","captionSummary":"Ch01～Ch12 内容汇总成一张网络图：前向、反向、权重、激活、梯度都在其中。","labelWeightedSum":"加权和","labelWeightBias":"权重·输入+偏置","labelWeight":"权重","labelProbSum":"（概率，和=1）","labelResult":"结果","labelMatrixResult":"矩阵积结果","labelNeuron":"神经元"},"categories":{"math":{"title":"基础数学","navTitle":"数学"},"midMath":{"title":"进阶数学"},"advMath":{"title":"高级数学"},"dl":{"title":"基础深度学习","navTitle":"深度学习"},"midDl":{"title":"中级深度学习"},"advDl":{"title":"进阶深度学习"},"ml":{"title":"基础机器学习","navTitle":"机器学习"},"midMl":{"title":"中级机器学习"},"advMl":{"title":"高级机器学习"},"comingSoon":"敬请期待","completed":"已完成","preparing":"（敬请期待）"},"concepts":{"sectionLabels":{"whatIs":"是什么概念","whyImportant":"在深度学习中为何重要","howUsed":"如何被使用","problemSolving":"解题说明"},"dl00":{"sectionTitle":"什么是深度学习？","whatIs":["**深度学习就像会自己学习的聪明计算器** — 不是由人一条条定规则，而是让计算机通过大量数据自己发现规则。从人脑**神经元**彼此传递信号获得灵感，把小型计算单元堆叠成**多层（Layer）**，所以叫**深（Deep）学习**。","**深度学习遍布我们的生活** — 从你每天用的**ChatGPT**、**Gemini**等对话式AI，到用摄像头读路的**自动驾驶汽车**，到比你还懂你口味的**Netflix、YouTube推荐系统**，都是深度学习的产物。把复杂图像和声音变成**数字**，再对这些数字做加减乘除找出答案，是其中的核心原理。","**掌握基础才能做出更强大的AI** — 若不止于使用现成模型，而要按自己的目的修改、活用模型，就需要了解其内部发生的**基础数学**。理解数字如何被组织与计算，就能清楚把握AI为何做出某种判断，并加以调优以提升性能。","**深度学习的一层在做什么** — 每一层对输入数字乘上**权重**（重要度）并相加，再传给下一层。层数越深，AI会从数据中的点、线，逐步分辨出眼睛、鼻子、嘴巴，最终分辨**高层特征**如狗与猫。此时用于精细调整权重、逼近正确答案的指南就是**梯度**。","**本课程的学习路线图** — 深度学习本质上是高效的乘法与加法的重复。通过**Ch01 内积**与**Ch02 矩阵乘法**学习数据如何流动，经过**Ch03～05 人工神经元与激活函数**，掌握**Ch06～10 又深又宽的神经网络结构**，最后在**Ch11～12**中一步步掌握AI自学核心——梯度。","请按下方**路线图**查看各章目标。一步步跟下来，你就能具备解读顶尖AI系统内部所用数学语言的能力。"],"whyImportant":[],"howUsed":[],"problemSolving":[]},"dl01":{"sectionTitle":"深度学习中的内积","whatIs":["**内积**是两个向量**同位置分量**相乘后全部相加，得到一个数。例如 [2, 3] · [4, 1] = 2×4 + 3×1 = 11。","内积还能衡量两个向量的**方向是否一致**：内积越大说明**方向越相似**，为零说明**完全无关（垂直）**，为负说明**方向相反**。所以它很适合用来度量「相似度」。","公式：**a · b = a₁×b₁ + a₂×b₂ + … + aₙ×bₙ**。两个向量的**元素个数必须相同**，内积才有意义。","在真实 AI 系统中，常在**数百到数千维**的向量之间做内积；计算机瞬间完成，因此能用**一个数**比较「两段文字有多像」或「图像与描述是否匹配」。"],"whyImportant":["在深度学习中，**一个神经元的输出就是权重与输入的内积**。把同位置的值相乘再求和，得到的就是该神经元对输入的「响应分数」。","内积是深度学习中**最基础的运算**，因为**矩阵乘法不过是把许多次内积打包在一起**。线性层、注意力、嵌入比较等操作的核心都是内积。","内积还是**相似度**的衡量方式：例如 Netflix 将用户向量与电影向量做内积得到「匹配分数」。这就是**余弦相似度**的基本原理。"],"howUsed":["**推荐系统（Netflix、YouTube）**：将用户向量与内容向量做内积，得到「该用户有多喜欢该内容」的分数。分数越高推荐越靠前。","**搜索引擎和聊天机器人**：把查询和文档都转成向量，按内积（相似度）排序。ChatGPT 找到与你问题最相关的信息用的也是同一原理。","**注意力机制**：在翻译和聊天机器人中，词向量之间做内积算出「相关度分数」，模型会把更多注意力分配给分数高的词。","**翻译与摘要**：用当前词与其他词的内积得到相关度，从而决定**在上下文中关注哪些词**。"],"problemSolving":["**计算方法**：把**同位置的元素**相乘，再把乘积全部相加。例如：[1, 2, 3] · [4, 5, 6] = 1×4 + 2×5 + 3×6 = 4 + 10 + 18 = 32。","**填空策略**：如果已知内积总值和其他乘积，先把已知乘积求和，用总值减去该和即可得到缺失的乘积，再除以已知元素就能求出空白值。","**注意事项**：两个向量的**元素个数必须相同**。确保每一对元素都计算到了——逐对打勾可以有效避免遗漏。","**复核**：漏掉一对乘积，和就会错。求完各乘积后**再算一遍加法**或按固定顺序相加，更易发现笔误。"],"paragraphs":["**内积**是两个向量**同位置分量**相乘后全部相加的结果，记为 a·b = a₁b₁ + a₂b₂ + … 。","在深度学习中，线性变换的一步就是**权重向量**与**输入向量**的内积，得到**一个神经元**的输出。多个神经元时，用**权重矩阵**与输入的乘积（**矩阵乘法**）一次算完，其中每个元素就是一次内积。","两向量内积越大可以理解为**方向越接近**，因此常用于**注意力**、**相似度**、**嵌入比较**等「有多像」用一个数衡量的场景。"]},"dl02":{"sectionTitle":"深度学习中的矩阵乘法","whatIs":["**矩阵乘法**把两个数表（矩阵）合并成一个新数表。取前矩阵的**某一行**与后矩阵的**某一列**做**内积**，得到的数填入结果矩阵对应位置。","对**所有「行×列」的组合**重复上述过程，结果矩阵就填满了。例如 2×3 矩阵乘以 3×2 矩阵，得到 2×2 的结果。","能做矩阵乘法的条件：前矩阵的**列数**必须等于后矩阵的**行数**。记住这一点，就能判断任意两个矩阵能否相乘。","**为何用矩阵**：把许多样本排成矩阵，一次矩阵乘可由 **GPU** 同时处理——批处理图像、句子或用户的常用方式。"],"whyImportant":["深度学习中的**线性层**用权重矩阵乘输入——这就是矩阵乘法。假设有 10 个神经元，本需做 10 次内积，矩阵乘法一次就能**全部算完**。","**GPU** 专门为**大规模并行矩阵乘法**而设计。正因如此，数百万次乘法能在瞬间完成，才有了实时图像识别和聊天机器人。","深度学习中**几乎所有操作**都可以归结为矩阵乘法——注意力、卷积、循环网络无一例外。理解矩阵乘法就是理解深度学习的骨架。"],"howUsed":["**图像识别**：像素值排成矩阵，与权重矩阵相乘来提取「是狗还是猫？」等特征。这个过程在多层中反复进行。","**聊天机器人与翻译**：ChatGPT 和 Google 翻译将句子转为数值矩阵，再与庞大的权重矩阵相乘数十到数百次来生成回答。计算量中大部分就是矩阵乘法。","**推荐系统与自动驾驶**：Netflix 一次性为数千用户算推荐分数，自动驾驶汽车从摄像头画面识别障碍物——背后都是大规模矩阵乘法。","**批量打分**：将用户–物品或查询–文档向量堆叠，**一次矩阵乘**即可得到大量配对分数。"],"problemSolving":["**求某个元素**：结果的 **(i, j)** 元素 = **A 的第 i 行**与 **B 的第 j 列**的内积。逐元素相乘再求和即可。","**填空策略**：如果空白在结果中，只需算对应行与列的内积。如果空白在 A 或 B 中，利用已知的结果值和其他元素反推即可。","**检查维度**：相乘前确认 A 的**列数**等于 B 的**行数**。结果矩阵大小为 (A 的行数) × (B 的列数)。","**复核**：错一个元素会影响整行/列。可先完整算出**一行或一列**再对照其余。"],"paragraphs":["**矩阵乘法**用前矩阵的**每一行**与后矩阵的**每一列**做**内积**，将结果填入新矩阵的对应位置。","深度学习中的**线性层**对输入乘**权重矩阵**再加**偏置**，其中的乘法就是**矩阵乘法**。（m 个神经元、n 维输入即 m×n 矩阵乘 n 维输入得到 m 个输出。）","**GPU**针对大规模**并行**矩阵乘法做了优化，深度学习中的大部分计算都是**矩阵乘法**。"]},"dl03":{"sectionTitle":"深度学习中的线性层","whatIs":["**线性层**对输入乘**权重 (W)** 再加**偏置 (b)** 得到输出：**Y = W·X + b**。其中 W·X 是矩阵乘法，b 用来上下平移基线。","可以类比为成绩计算公式：「数学×0.3 + 理科×0.5 + 英语×0.2 + 10」。其中 0.3、0.5、0.2 是**权重 (W)**，10 是**偏置 (b)**，各科成绩是**输入 (X)**。","一个线性层决定「**各输入缩放多少、整体偏移多少**」。如果有多个输出，每个输出用不同的权重和偏置，一次算出多个分数。","**为何叫线性**：在激活之前，输入加倍大致输出也加倍；仅靠线性堆叠画不出任意曲线，因此**必须配合非线性激活**。"],"whyImportant":["**几乎所有深度学习模型**都把线性层当基本组件。ChatGPT、翻译器、图像分类器都在反复执行数百到数千次「W·X + b」。线性层是深度学习的**砖块**。","**模型大小（参数量）** 取决于每个线性层「多少个输入 → 多少个输出」。参数量决定了模型能学到多复杂的东西（**容量**），也影响**过拟合**（只记住训练数据而非真正学会）的风险。","但是，只堆叠线性层等于做了**一次线性运算**（只能画直线）。所以每个线性层后面总要加**激活函数**（弯折函数），才能表达**曲线和复杂模式**。"],"howUsed":["**ChatGPT 与翻译器**：句子转成数值向量后，经过数十到上百个线性层，每层都做 W·X + b 再接激活函数，从而理解语境并生成回答。","**图像识别**：图片的特征向量送入线性层，同时算出「狗分数」「猫分数」「鸟分数」。最后一个线性层的输出就是各类别的分数。","**推荐系统**：将用户信息和商品信息拼成一个向量，经过线性层得到「该用户有多喜欢该商品」的分数。层数越多推荐越精准。","**端侧设备**：移动模型可能使用**更窄**的线性层以减少参数，但仍是 W·X + b 形式。"],"problemSolving":["**公式**：输入 **X** 乘**权重矩阵 W**、加**偏置 b** 得到**输出 Y**，即 **Y = W·X + b**。线性层题目会给出 **X、W、b**，让你求 **Y**，如下方紫色框中的示例。","**数值例子**：X = [2, 1]，W = [[1,0],[1,1]]，b = [1, -1] 时，W·X = (2, 3)，加上偏置 b 得 **Y = (2+1, 3-1) = [3, 2]**。偏置会**抬高或压低**各输出的基准。**Y 的每一格**等于 **W 的对应行**与 **X** 的内积再加 **b 的对应格**。","**填空策略**：空白在 **Y** 中就用该行算 W·X + b；空白在 **W 或 b** 中就用已知的 Y 和 X 列方程反推。算完后**代回 Y = W·X + b 验算**即可。"],"paragraphs":["**线性层**对输入向量 x 乘**权重矩阵** W、加**偏置**向量 b，得到 y = Wx + b。","每个输出**神经元**就是其权重行与整个输入的一次**内积**。因此**内积**与**矩阵乘法**是线性层的基本单元。","仅靠线性无法很好表达**非线性**函数，所以线性层后通常会接**激活函数**引入非线性。"]},"dl04":{"sectionTitle":"深度学习中的激活函数","whatIs":["**激活函数**把神经元的原始输出（加权和）转换到**特定范围或形状**。最常见的有 **ReLU**（负值变 0，正值不变）、**Sigmoid**（压缩到 0～1）和 **Tanh**（压缩到 −1～1）。","可以类比为**水龙头**：水（信号）流入后，要么「只放过超过阈值的部分（ReLU）」，要么「流量太大时自动减弱（Sigmoid、Tanh）」。这种转换使输出更适合传给下一层。","**ReLU** 最流行，因为计算简单（正值保留、负值归零），训练速度快。**Sigmoid** 用于需要类似概率输出的场景，**Tanh** 用于需要以零为中心的场景。","**GELU / SiLU** 是比 ReLU 更平滑的变体，常见于现代 Transformer 与生成模型；激活的选择会影响**训练动态**与效果。"],"whyImportant":["**无论堆叠多少次「乘加」（线性）运算，结果都等于做了一次「乘加」。** 正如把直线接直线还是直线，仅靠线性运算**永远无法表达曲线和复杂模式**。","激活函数加入了**弯折（非线性）**。有了弯折，多层堆叠才能组合出**曲线和复杂边界**，模型才能学习图像、语音、文本中的规律。","没有激活函数的话，网络再深也**只能做一条直线能做的事**。激活函数是让深度学习真正「深」起来的**关键成分**。"],"howUsed":["**图像识别**：每层做完 W·X + b 后，**ReLU** 把无关特征（负值）清零，保留有用特征（正值）传给下一层，逐步提取「眼睛」「耳朵」「轮子」等。","**聊天机器人与翻译**：隐藏层用 **ReLU** 或 **GELU**（更平滑的变体）引入非线性，最后一层用 **Sigmoid**（是/否判断）或 **Softmax**（多选一）来生成答案。","**语音识别与自动驾驶**：声波或摄像头图像转为数值后，经过多层「线性 + 激活」来判断「这是什么词」或「这是什么物体」。没有激活函数就无法做出如此复杂的判断。","**图像生成**：去噪网络中每层在线性层后使用 **ReLU / SiLU** 等激活，预测像素更新。"],"problemSolving":["表里先看 X 在哪个区间，Y 就定了。","函数 | 规则","ReLU | 小于等于 0 就是 0，大于 0 就是 X","Sigmoid | 小→0，中间→0.5，大→1","Tanh₃ | 小→-1，中间→0，大→1","注意 | 区间边界以题目表格为准"],"paragraphs":["**激活函数**将神经元的线性输出（**加权和**）变为**非线性**。**ReLU**、**sigmoid**、**tanh** 等常见。","只堆**线性层**等价于一个大的线性变换，需要在层间加入**非线性**激活，**深度网络**才能学习复杂模式。","「在哪里用哪种**激活**」是**模型设计**中的重要选择。"],"problemDiagramCaption":"节点值经 ReLU 或 σ 后会非线性变化。最终层 Y1、Y2、Y3 就是这样得到的。","solutionIntro":"激活函数题目中，Y 由 X 落在哪个区间决定。下面是 ReLU、Sigmoid、Tanh₃ 各自的解题方法。","solutionRelu":"**ReLU**：X ≤ 0 → Y = 0，X > 0 → Y = X。Y 为空白时看 X 正负即可。","solutionSigmoid":"**Sigmoid**：X < -1.5 → 0，-1.5～1.5 → 0.5，X > 1.5 → 1。从表/图找 X 所在区间，填对应 Y。边界以题目表格为准。","solutionTanh":"**Tanh₃**：X ≤ -1 → -1，-1 < X < 1 → 0，X ≥ 1 → 1。从表找 X 区间，填 Y（-1、0、1）。边界值看题目归哪一侧。","solutionCaption":"不同题目的区间边界可能不同，请务必先看题目给出的表格（或图形）。"},"dl05":{"sectionTitle":"深度学习中的人工神经元","whatIs":["**人工神经元**是深度学习的**最小计算单元**。它只做两件事：① 计算**加权和** Z = W·X + b，② 经过**激活函数** Y = ReLU(Z) 或 Sigmoid(Z)。","它的灵感来自生物神经元：真正的神经元接收多个信号，给每个信号不同的权重，求和后如果超过阈值就发放脉冲。人工神经元是这一过程的**数学简化版**。","总结：**输入 (X)** → **权重与偏置 (Z = W·X + b)** → **激活 (Y = f(Z))** → **输出 (Y)**。这就是人工神经元做的全部事情。","**一个神经元的输出**会成为下一层**多个神经元**的输入；大规模视觉与语言模型中有**数十亿**这样的单元。"],"whyImportant":["ChatGPT、图像分类器、推荐系统等 AI 模型，都是由**数千到数十亿个这样的神经元**串联而成。理解一个神经元，就能**读懂整个模型的行为**。","**训练**就是逐步调整每个神经元的**权重 (W) 和偏置 (b)**，让输出越来越接近正确答案。理解 W 和 b 如何影响输出，是理解学习过程的关键。","一个神经元把**内积 + 偏置 + 激活**合为一体，串联了前面学过的所有知识：**内积、矩阵乘法、线性层、激活函数**在这里融汇贯通。"],"howUsed":["**生活类比——考试通过预测**：算出「数学×0.4 + 理科×0.4 + 英语×0.2 + 5 = 75」（加权和），再判断「≥ 60 → 通过(1)，否则不通过(0)」（激活）。这就是一个神经元的操作。","**图像识别中的一个神经元**：它读取一小块像素区域，算出加权和再加偏置，经 ReLU 得到「这里是否有一条横线？」的分数。成千上万个这样的神经元配合起来才能判断「是狗还是猫」。","**聊天机器人、翻译、语音识别**：句子或声音的每个部分被转为数值，神经元算出「有哪些模式存在」的分数，分数传给下一层的神经元，逐层理解越来越复杂的含义。"],"problemSolving":["**第一步——加权和 (Z)**：计算 Z = W·X + b。用 W 的该行与 X 做内积再加 b。如果空白在 Z 中，在这一步填入。","**第二步——激活 (Y)**：对 Z 应用题目给定的激活函数。**ReLU**：Z > 0 则 Y = Z，Z ≤ 0 则 Y = 0。**Sigmoid**：查表看 Z 落在哪个区间。","**空白在 W 或 b 中**：如果 Y 和 X 已知，先反推激活得到 Z，再从 Z = W·X + b 解出空白。关键是**一步一步倒推**。"],"paragraphs":["**人工神经元**对输入做**加权**和（**加权和**），再经**激活函数**得到单一输出。","加权和阶段就是输入向量与权重向量的**内积**，再接**非线性**激活。","**深度学习模型**由大量这样的**神经元**连接而成，分多步将输入变换为输出。"]},"dl06":{"sectionTitle":"深度学习中的批","whatIs":["**批**是指把**多个输入（样本）组成一张表（矩阵），用同一组权重一次算完**。表中每一**列 = 一个样本**。","想象一下老师批改试卷：**一张一张地改** vs. **把 30 张试卷同时送进批改机**——机器快得多。批处理也一样：GPU 同时处理多个输入，**速度成倍提升**。","关键点：对所有样本使用的 **W（权重）和 b（偏置）完全相同**，唯一不同的是每个样本的**输入 X**。正因如此，一次矩阵乘法就能同时算出所有样本的结果。","**小批量**：训练时常将数据分成 32～128 条等小块依次前向与反向传播并更新权重，以平衡**内存、速度与梯度噪声**。"],"whyImportant":["**速度**：GPU 擅长**同时处理成千上万个数**，而不是逐个计算。批处理能发挥 GPU 的全部性能，速度比逐样本计算快**几十到几百倍**。","**训练稳定性**：只看 1 个样本就更新权重，噪声很大。用**小批量（mini-batch）**（如 32 或 64 个样本）来平均梯度，学习更加**稳定**。批大小是训练的关键参数。","**内存管理**：假设有 100 万条数据，一次全部装入 GPU 显存会爆。所以分成**小批**（如每次 64 条），处理完一批、更新权重后再处理下一批。"],"howUsed":["**Netflix 和 YouTube 推荐**：不再逐用户计算，而是把**数千用户的数据打包**同时打分。这样才能实现实时推荐服务。","**ChatGPT 与翻译器**：当多个用户同时提问时，多条查询会被**打包成一个批**送入 GPU 一次处理。这就是数百万用户都能快速得到回复的秘密。","**图像训练**：用 10 万张图片训练时，分成每批 32 张，共 3,125 次迭代。每一批都做 Z = W·X + b、算误差（损失）、微调权重。","**并行推理**：将多张图像、多个 token 或多个用户打包成批一并推理，提高吞吐。"],"problemSolving":["**X 有多列**：每一列是一个样本。对每列使用**同样的 W 和 b**。找到空白所在的行和列，只用**那一列的数**来计算即可。","**加减乘和求均值操作**：这些运算作用于**相同位置（同行同列）**。求均值（如零中心化）时，按**每列**计算平均值。填空白只需用该列的数。","**验算技巧**：每列之间相互独立，一列的结果不会影响另一列。**逐列检查**能轻松发现错误。"],"paragraphs":["**批**是指将多个**样本**一起组成**矩阵**，用同一组**权重**一次前向计算的方式。","一次**矩阵运算**处理多个样本比逐样本计算更能利用**GPU**，速度更快。","训练时通常按**小批量**计算**梯度**并**更新**权重。"]},"dl07":{"sectionTitle":"深度学习中的连接","whatIs":["**连接**描述**前一层的神经元如何连到下一层的神经元**。每条连接有一个**权重（数值）**，决定「这个输入对这个输出的影响有多大」。","**全连接**：前一层**每个**神经元都连到后一层**每个**神经元。我们学过的线性层（Y = W·X + b）就是全连接层——W 的每个位置都有值。","**部分连接**：W 中有些位置为**零**，表示「没有连接」。该输入对该输出**毫无影响**。CNN 只连接相邻像素，就是部分连接的经典例子。","**连接越多**容量越大，但**计算与显存**也越多；移动端模型常通过**剪枝与量化**减少连接。"],"whyImportant":["**连接结构决定了模型的特性。** 全连接考虑所有输入（信息更全但参数更多），部分连接只看需要的部分（高效快速但可能遗漏信息）。","**AI 训练就是调整连接强度（权重）的过程。** 「把这条连接调强、那条调弱」——反复微调使输出越来越接近正确答案。大模型拥有数十亿条这样的连接。","**看 W 中哪里是零**就能知道模型忽略了什么。训练后权重接近零的连接说明「这条信息不重要」。利用这一点可以做**剪枝**来让模型更轻量。"],"howUsed":["**图像识别（CNN）**：使用**部分连接**，只连接相邻像素。远处的像素关系不大，这样减少参数，又快又高效。","**聊天机器人与翻译（Transformer）**：**注意力机制**决定「哪些词与哪些词相关」——它从数据中**动态学习**哪些连接要加强。","**推荐与语音识别**：将用户特征与商品特征之间的连接权重直接作为推荐分数。语音识别中，模型学习每个频率特征如何连接到下一层的特征。"],"problemSolving":["**W = 0 表示无连接**：例如 W(2,1) = 0，则第 1 个输入对第 2 个输出的影响为**零**。计算时可以**直接跳过**。","**求某个输出**：找出与该输出**有连接**（W ≠ 0）的输入，只对这些位置做 W × X 并求和，再加 b 即可。零的位置乘出来也是零，跳过结果一样。","**填空策略**：先**找出 W 中的零**，再只用非零连接列方程。空白在 W 中就用 Y 和 X 反推；空白在 Y 中就从 W 和 X 正算。"],"paragraphs":["**连接**表示一层（Layer）中的**神经元**与下一层神经元**如何相连**的结构。","常分为**全连接**（Fully connected）、**部分连接**（Partially connected）、**循环/递归连接**（Recurrent）。全连接时该层所有神经元与下一层所有神经元相连，通常表示为 **Linear layer**；部分连接时只有部分神经元与下一层相连（如 CNN 中按滤波器只将部分输入连到下一层）；循环连接指输出再作为自身或前一时刻的输入。","每条连接都有**权重（Weight）**，用来调节输入信号的**影响**。权重矩阵 W 的 (i,j) 元素表示第 j 个输入到第 i 个输出神经元的连接强度，由**学习**得到。","深度学习中连接权重可达数百万至数十亿。在 Y = W·X + b 中，W 为 0 的位置表示该输入对该输出无贡献的**部分连接**。"]},"dl08":{"sectionTitle":"深度学习中的隐藏层","whatIs":["**隐藏层**是**输入与输出之间的中间阶段**。用户只看到输入（如照片）和输出（如「狗」），但在中间，隐藏层创造出**「隐藏特征」**。","流程：**X → Linear(W₁·X+b₁) → ReLU → H（隐藏表示）→ Linear(W₂·H+b₂) → ReLU → Y（输出）**。H 是隐藏层的结果，包含压缩后的输入「关键特征」。","**类比**：你看到一张照片说出「狗」，大脑经历了「颜色 → 边缘 → 眼睛/鼻子/耳朵 → 狗！」这些**中间思考过程**就是隐藏层。隐藏层的神经元数（宽度）决定了能捕捉多少种不同特征。","隐藏层**越宽**，该阶段能容纳的**特征种类**越多；**越深**，越能学到**更抽象**的概念。"],"whyImportant":["隐藏层**逐步汇总和变换**输入数据。**浅层**捕捉简单特征（亮度、边缘），**深层**捕捉复杂特征（眼睛、轮子、字母）。","**没有隐藏层**，模型只能从输入直接映射到输出，只能表达非常简单的（线性）关系。**有了隐藏层**，就能学习复杂关系（曲线、多条件组合）。","隐藏层的**神经元数（宽度）** 和**层数（深度）** 决定模型的**表达能力**。太小 = 信息瓶颈、效果差；太大 = 过拟合（死记硬背而非真正学会）。"],"howUsed":["**图像识别**：「像素 → 边缘 → 纹理 → 物体部件（眼睛、轮子）→ 整体物体（狗、汽车）」这些阶段全是隐藏层。越深的层提取越抽象的特征。","**聊天机器人与翻译**：文本转为数值后，经过多个隐藏层逐步精炼「词义 → 句意 → 回答方向」。ChatGPT 经过数十个隐藏层（Transformer 块）来生成回答。","**语音识别**：「声波 → 频率特征 → 音素 → 词 → 句子」每个阶段的转换都经过隐藏层。"],"problemSolving":["**按顺序计算**：X → (W₁·X+b₁) → ReLU → H → (W₂·H+b₂) → ReLU → Y。**逐步**计算每一步。如果空白在 H 中，只需算完第一段「线性+ReLU」。如果在 Y 中，先算 H 再算第二段。","**ReLU 注意点**：当线性结果（W·输入+b）为**负数时，ReLU 会将其变为 0**。到下一层时该值为 0，对应项**完全不起作用**——可以直接忽略。这是隐藏层题目的常见关键点。","**空白在 W 或 b 中**：隐藏层题目有**两段**（两次线性+激活）。先确认空白属于哪一段，如果已知那一段的输入和输出，就可以只用那一段的方程来求解。"],"paragraphs":["**隐藏层**位于**输入层**与**输出层**之间，学习不直接可见的「隐藏」**表示**。","隐藏层的作用是将输入逐步变为**更高层次的特征**；**低层**承载简单模式，**高层**更抽象。","隐藏层的**神经元数**与**层数**是决定模型**容量**与**表达能力**的关键因素。"]},"dl09":{"sectionTitle":"深度学习中的深度","whatIs":["**深**意味着有**很多隐藏层（中间阶段）**。**「深度学习」中的「深度」指的就是这个！** 每层做 Linear（W·输入+b）+ 激活（ReLU），再把结果传给下一层。","**X → A → B → C → … → Y**——阶段越多，网络越深。类比：**1 层**只能「画一条线」，**10 层**能「画简单图形」，**100 层**能「画一张人脸」。深度越大 = **越能表达精细、复杂的模式**。","但并非越深越好。层数太多会导致**梯度消失**（学习信号传不到浅层）或**过拟合**（死记训练数据而非学到通用规律）。","**图像生成**模型随去噪步数增加也会变**深**；**翻译与聊天**模型堆叠许多块，同样是**深**结构。"],"whyImportant":["**更多层能表达更复杂的函数。** 每层的激活加入「弯折」，层层叠加就能**组合出非常复杂的曲线和决策边界**。","在图像识别中：**第 1～2 层**学到「线条、边缘」，**第 3～5 层**学到「眼睛、鼻子、轮子」，**第 6 层以上**学到「狗、汽车」。这一切都有赖于**深度**。","**ResNet** 和 **Transformer** 等著名架构可以深达**数十到数百层**且依然训练得好。秘诀是**跳跃连接（残差连接）**：梯度可以跳过若干层直达浅层。这些技巧克服了「深度的极限」。"],"howUsed":["**ChatGPT**：GPT-4 由**数十到上百个** Transformer 块组成。每个块更深入地理解上下文，最后一层生成答案。","**自动驾驶**：摄像头图像经过**深度网络**（如 ResNet-152，152 层！）来精准区分障碍物、车道线和交通标志。深度使其能应对复杂路况。","**语音识别与翻译**：语音转文字、中文转英文也要经过**深度网络**，每层逐步捕捉「音素 → 词 → 语境 → 语义」。","**语音与翻译（补充）**：深度网络将低层信号逐层堆成**语义**，是深度的典型用法。"],"problemSolving":["**例题**：输入 X = [3, 1, 2]。第 1 层：W₁·X+b₁ = [4, -1, 2]（线性），ReLU 后 A = [4, 0, 2]。第 2 层：W₂·A+b₂ = [2, 1, 5]，ReLU 后 B = [2, 1, 5]。若 **A₂ 为空白**？","**解法**：第 1 层线性输出的第二项为 -1，故 ReLU(-1) = 0。因此 **A₂ = 0**。中间层空白时，先算该层 **线性（W·输入+b）**，再应用 **ReLU（负→0）** 即可。","**一般步骤**：无论空白在哪一层的第几个神经元，先**按顺序算到该层输入**，再用该层 **W 的对应行**与输入做内积并加上 **b 的对应项**得线性值，最后 ReLU 即得答案。"],"paragraphs":["**深**指**隐藏层**多、**层数**多的**网络**。「**深度学习**」的「深度」即此意。","越深越能经过多段**非线性变换**表达**复杂函数**，但**训练难度**、**过拟合**与**计算成本**也会增加。","**ResNet**、**Transformer** 等结构旨在让很深的网络也能**稳定训练**。"]},"dl10":{"sectionTitle":"深度学习中的宽度","whatIs":["**宽度**指**一层中有多少个神经元**。神经元越多（越宽）= 该层能**同时表达更多特征**。例如 1 个神经元 = 1 个特征；256 个神经元 = 一次捕捉 256 个特征。","类比：**考试只有 1 题**只能考查一项能力，**100 题**就能同时考查多种能力。同样地，更宽的层在一步内能**处理更多样的信息**。","不同层可以有不同宽度。例如「1 → 2 → 4 → 8」（逐渐变宽）或「256 → 128 → 64」（逐渐变窄）都是常见的设计，取决于具体用途。","**大型服务器**上的翻译与聊天模型，单层隐藏维度可达**数千**；**移动端**为省算力与内存会收窄宽度。"],"whyImportant":["**深度（层数）** 和**宽度（每层神经元数）** 共同决定模型的**总规模（参数量）**。同样的参数量，可以选择「**又深又窄**」或「**又浅又宽**」——这一选择对性能影响很大。","宽度越大意味着每层**同时处理更多特征**，但也增加**计算量和显存开销**。过宽则有**过拟合**（死记训练数据）的风险。","实际中常用**瓶颈**设计：输入和输出保持窄，中间变宽。这样**宽层提取关键特征**，其余部分保持压缩。ResNet 和 Transformer 都用了这种技巧。"],"howUsed":["**图像识别（CNN）**：每层的**通道数**（特征图数量）就是宽度。从 3 通道（RGB）开始，逐层增宽到 64 → 128 → 256 → 512 通道，提取**越来越多样的特征**。","**聊天机器人与翻译（Transformer）**：**隐藏维度**（如 768、1024、4096）是每层同时处理的数的个数（即宽度）。GPT-4 等大模型的维度达数千——非常宽。","**推荐系统**：「用户向量 256 维」意味着宽度 256，包含 256 个特征（年龄、偏好、观看记录等转为数值），维度越高推荐越精准。"],"problemSolving":["**逐渐变宽时每层公式不变**：Linear（W·输入+b）→ ReLU。确定空白所属的层和神经元，用**该层的输入**和 **W 的对应行、b 的对应项**来计算。","**注意 W 的维度**：层间宽度变化时，**W 的大小也会变**。W 为（当前层宽度 × 上一层宽度），找到空白对应神经元的那一**行**，与上一层输出做内积再加 b。","**逐层计算**：和深度题一样，**先把前面层的输出算完**再算下一层。别忘了每层的 ReLU（负值变 0）。"],"paragraphs":["**宽度**指一层中**神经元**（或**通道**）的数量。**更宽的层**能在同一阶段表达更多**特征**。","**深度**（层数）与**宽度**（每层神经元数）的搭配决定模型**容量**与**效率**。相同**参数**数也可选择更深或更宽。","实际模型中常按层调整**宽度**，在需要处增加**表达能力**。"]},"dl11":{"sectionTitle":"深度学习中的 Softmax","whatIs":["**Softmax** 是一个把**多个分数（数值）转换成概率**的函数。所有值变为 **0 到 1 之间**，且**加起来恰好等于 1**。因此可以当概率来读。","公式为 __SOFTMAX_FORMULA__。由于用了 **e 的幂次（e ≈ 2.718）**，最大的分数会被**显著放大**，其余的相对缩小。第一名和第二名的差距会更加悬殊。","例如：分数 [3, 1, 0] → e³≈20，e¹≈2.7，e⁰=1 → 总和 ≈ 23.7 → 概率 ≈ [0.84, 0.11, 0.04]。分数 3 本来只是 1 的 3 倍，概率却变成了约 8 倍！","**为何先取指数再归一化**：为了**拉开**分数差距，让最可能的类别更突出。"],"whyImportant":["Softmax 用在**几乎所有分类模型的最后一层**。「这张照片 70% 是狗、25% 是猫、5% 是鸟」——让你看到**各类别的概率**以及模型有**多确信**。","与**交叉熵损失**搭配训练时，梯度推导**干净又稳定**。模型自然会学到「提高正确类别的概率、降低其余类别的概率」。","Softmax「所有值为正且和为 1」的性质恰好符合**概率分布**的定义。从统计学和理论上看，它都是把分数转为概率的**最自然的方式**。"],"howUsed":["**图像分类**：模型最后一层输出分数（logits），如 [5.2, 2.1, 0.8, ...]。Softmax 将其转为 [0.70, 0.25, 0.05, ...]——**各类别的概率**。概率最高的类别就是最终答案。","**聊天机器人与翻译**：ChatGPT 选择下一个词时，对词表中所有词（数万个！）打分，经 Softmax 转为概率后按概率采样。高概率的词常被选中，但偶尔也会选低概率的词增加多样性。","**注意力机制**：在翻译中，「关注哪些输入词」的相关度分数经 Softmax 变为概率（权重）。这些权重用来做**加权平均**，突出最相关的部分。","**垃圾邮件过滤**：用 Softmax 得到「垃圾 / 正常」概率，取较大者分类。"],"problemSolving":["**计算顺序**：① 算 __WEIGHTED_SUM_FORMULA__（logits）→ ② 算 __SOFTMAX_EXP__（题目用 __E_APPROX_3__）→ ③ 算 __SOFTMAX_SUM__（总和）= 所有 __SOFTMAX_EXP__ 相加 → ④ __SOFTMAX_Y_DIV__（各项除以总和）。按此顺序来。","**填空策略**：空白在 Y 中就算「该 __SOFTMAX_EXP_DIV_SUM__」。空白在 __SOFTMAX_EXP__ 中就算「__Y_TIMES_SUM__」。空白在 Z 中就从 __SOFTMAX_EXP__ 反推。空白在 __SOFTMAX_SUM__ 中就把所有 __SOFTMAX_EXP__ 加起来。","**验算**：算完后检查所有 Y 值是否在 **0 到 1 之间**且**和为 1**。如果不是，说明计算有误。另外确认题目用的是 __E_APPROX_3__ 还是 __E_APPROX_2718__。"],"paragraphs":{"0":"**Softmax**将实数向量变为 **(0,1) 之间且和为 1** 的值，可解释为**概率分布**。","1":"**分类**任务中在最后一层输出上做 softmax 得到各**类**的**概率**，常与**交叉熵损失**一起使用。","2":"公式为 __SOFTMAX_FORMULA__，**指数**会**放大**最大值。"}},"dl12":{"sectionTitle":"深度学习中的梯度","whatIs":["**梯度**告诉你**「如果稍微调整一个权重（参数），损失（误差）会怎样变化、朝哪个方向变」**。可以把它想象成一个**指南针**，指向「往哪走能减小误差」。","**类比**：想象你蒙着眼睛下山。你用脚感受**地面的坡度（梯度）**，然后朝下坡方向迈步。**沿着梯度的反方向走**就能到达谷底（最小损失）。这就是**梯度下降**。","**反向传播**把梯度**从输出一层一层向输入传递回去**。利用微积分的**链式法则**，一次遍历就能高效地计算出每一层每个权重的梯度。","**前向传播**从输入算到输出；**反向传播**把损失处的梯度传回输入方向。训练就是二者交替重复。"],"whyImportant":["**AI 的训练 = 看梯度来更新权重。** 没有梯度就不知道「该往哪个方向调」，**学习就不可能进行**。梯度是深度学习训练的**心脏**。","**学习率**控制「每次走多远」。太大 → 越过谷底（发散）；太小 → 走得太慢。**Adam** 等优化器会根据梯度大小**自动调节步幅**。","如果梯度**过大（梯度爆炸）**，训练不稳定；如果**过小（梯度消失）**，浅层几乎学不到东西。**梯度裁剪**、**批归一化**、**跳跃连接**等技术就是为了防止这些问题。"],"howUsed":["**所有经过训练的 AI 模型**：ChatGPT、图像识别、推荐系统——**每个模型**都靠计算梯度来更新权重。前向传播 → 算损失 → 反向传播求梯度 → 更新权重。重复这 4 步数百万次就是训练。","**前向与反向**：前向计算 Z = W·X 是**从左到右**；反向传播 dW、dX 是**从右到左**。两者总是成对出现。","**微调**：把 ChatGPT 适配到特定用途时，用新数据计算梯度并微调权重。有了梯度，**预训练模型**就能快速适应新任务。"],"problemSolving":["**题目形式**：式为**前向 Z = W·X**或**反向 dZ = dW·X**之一。空白(?)只出现在**X 的一个分量**或**Z（或 dZ）的一个分量**。W 与 dW 均全部给出。","**前向(Z = W·X)**：Z 的每一格 = **W 的该行**与**X**的内积。空白在**Z**时，用该行 W 与 X 做内积；空白在**X**时，用其他 Z 与 W 的行列出方程求该 X 分量。","**反向(dZ = dW·X)**：与**前向计算结构相同**。dZ 的每一格 = **dW 的该行**与**X**的内积。空白在**dZ**时做该行与 X 的内积，空白在**X**时由方程解出该分量。"],"paragraphs":["**梯度**是**损失**对各**参数**的**偏导数**组成的向量，表示「参数微调时损失如何变化、朝哪**方向**变」。","**训练**通常沿梯度**反方向**小幅更新参数（**梯度下降**），梯度由**反向传播**高效计算。","**学习率**、**优化器**、**梯度裁剪**等是决定如何使用梯度的**关键设置**。"]},"dl13":{"sectionTitle":"整体小结","whatIs":["下图将**Ch01～Ch12**所学汇总为**一个网络**：输入 X → 隐藏层(A,B,C,D) → 输出 Y，以及**权重(W)**、**激活(ReLU 等)**、**批**、**梯度(∇)**如何参与。","实际训练反复进行**前向**（计算）→**损失**→**反向**（梯度）→**更新权重**。学完本读书即可在计算上跟上这一流程。"],"whyImportant":[],"howUsed":[],"problemSolving":[]}},"kimpoMdooai":{"layoutEyebrow":"金浦市·延世大学 AI·SW 教育课程创意大赛","layoutTitle":"金浦「用AI读懂金浦」教育页面","layoutLearnCta":"前往大家的AI","layoutNavAria":"切换金浦课程页面","navPromo":"平台介绍","navCourse":"课程介绍","promoMetaTitle":"金浦AI教育提案","promoMetaDescription":"使用大家的AI，把金浦市地域数据连接到数学、深度学习与机器学习教育的介绍页面。","promoPosterAlt":"金浦市与延世大学 AI·SW 教育课程创意大赛海报","promoBadge":"基于大家的AI的教育提案","promoTitle":"让学生用数据读懂金浦真实问题，并用AI尝试解决的课程","promoDescription":"大家的AI把基础数学、深度学习、机器学习连接成一条完整的学习路径。这份提案围绕金浦的人口、交通、环境、商圈数据，帮助学生亲自定义地域问题，并用AI进行分析。","promoFormulaTitle":"全球AI学习平台介绍","promoFormulaDescription":"大家的AI是一个全球化学习平台，已被来自多个国家的AI研究者与开发者使用。","promoPlatformGeneralDescription":"活跃用户超过500人，形成了从基础学习到实战应用都很活跃的AI学习社区。","promoPrimaryCta":"查看16课时课程","promoSecondaryCta":"打开大家的AI","overviewAudienceLabel":"对象","overviewSessionsLabel":"课程规模","overviewFormatLabel":"授课形式","overviewRegionLabel":"地域连接","overviewPlatformLabel":"核心平台","overviewEnrollmentLabel":"建议人数","strengthsEyebrow":"Why Everyone's AI","strengthsTitle":"为什么选择大家的AI作为核心平台","strengthsDescription":"目标不是一次性的体验工具，而是一套能够同时培养数学理解和数据驱动问题解决能力的完整课程。","bestChoiceEyebrow":"Best Choice Evidence","bestChoiceTitle":"为什么大家的AI是 AI·SW 教育的最佳选择","bestChoiceDescription":"从教学效果与学校现场可实施性两个维度，整理了选择 mdooai 的核心理由。","bestWhyLabel":"选择理由","bestSchoolFitLabel":"学校场景适配","bestQuoteLabel":"原文关键词句","flowEyebrow":"Learning Flow","flowTitle":"学生将经历的学习路径","outcomesEyebrow":"Learning Outcomes","outcomesTitle":"这门课将带来的变化","toolsEyebrow":"Platform Stack","toolsTitle":"可直接用于学校现场的工具组合","toolsDescription":"结合浏览器学习、公共数据和 Colab 实作，无需安装即可从讲授一路推进到项目。","toolsCta":"查看课程详情","courseMetaTitle":"金浦AI课程介绍","courseMetaDescription":"汇总基于大家的AI的16课时课程流程及其与金浦地域数据连接方式的页面。","courseBadge":"Course Overview","courseTitle":"用金浦数据完成的16课时 AI·SW 教育课程","courseDescription":"本课程把基础数学、基础深度学习、基础机器学习与团队项目连接起来，让学生能够把城市问题转化为数据问题并用AI解释。下方详细课程内容保留原始韩文版本。","coursePosterAlt":"金浦AI教育大赛海报","coursePosterEyebrow":"Contest Context","coursePosterDescription":"该网页作为参赛提交用教学内容制作，并沿用海报视觉语气，使其像一份可以直接展示的网页教案。","goalsTitle":"课程目标","materialsTitle":"教学准备与使用工具","materialsLabel":"准备物","toolsLabel":"主要平台","quickStartEyebrow":"Quick Start","quickStartTitle":"立即开始学习","quickStartDescription":"已准备好大家的AI主要章节直达链接，便于课堂立即开始。","quickMath":"开始基础数学","quickDl":"开始基础深度学习","quickMl":"开始基础机器学习","quickMidMath":"中级数学","quickMidDl":"中级深度学习","quickMidMl":"中级机器学习","quickAdvMath":"高级数学","quickAdvDl":"高级深度学习","quickAdvMl":"高级机器学习","phaseEyebrow":"4 Learning Stages","phaseTitle":"16课时实施路线图","phaseDescription":"课程按照基础理解、深度学习结构化、机器学习应用、地域问题解决四个阶段逐步推进。","phaseOutputLabel":"产出","assessmentEyebrow":"Assessment Design","assessmentTitle":"评价计划与方式","assessmentDescription":"评价不仅看正确率，也看过程质量、解释能力、伦理意识与协作表现。","curriculumEyebrow":"16 Sessions","curriculumTitle":"分课时课程结构","curriculumDescription":"每个课时都整理了学习主题、工具、学习目标与金浦地域连接方式。","tableSession":"课时","tableTopic":"主题","tableSummary":"主要内容","tableMaterials":"资料·工具","tableAchievement":"学习目标","tableKimpoConnection":"金浦连接","courseChapterCta":"跳转到对应章节","track":{"math":"基础数学","dl":"基础深度学习","ml":"基础机器学习","project":"项目"},"issueEyebrow":"Kimpo Issues","issueTitle":"金浦地域问题与数据连接","issueDescription":"这不是抽象的AI体验课，而是一门围绕金浦真实问题与公开数据设计的课程。","issueTableArea":"问题领域","issueTableDetail":"具体内容","issueTableDataSource":"数据来源","issueTableLinkedSessions":"关联课时","finalOutcomeTitle":"最终产出与预期效果","courseBackCta":"返回平台介绍","courseLearnCta":"打开大家的AI"},"locale":{"ko":"韩语","ja":"日语","en":"英语","zh":"中文"},"chapters":{"dl00":{"chapter":"Chapter 00","title":"深度学习第一步：AI 如何思考？","description":"一览了解深度学习是什么，以及 Ch01～Ch12 将学到的内容。"},"dl01":{"chapter":"Chapter 01","title":"向量内积：在数据间找相似","description":"将两个向量的方向与大小相乘得到一个值的最基本运算。"},"dl02":{"chapter":"Chapter 02","title":"矩阵乘法：一次算完的魔法","description":"两矩阵的积由前行矩阵的行与后矩阵的列做内积填满新矩阵。"},"dl03":{"chapter":"Chapter 03","title":"线性层：决定重要性的权重","description":"线性层（线性变换层）。对输入乘以权重矩阵并加上偏置的层。"},"dl04":{"chapter":"Chapter 04","title":"激活函数：为 AI 增添判断力","description":"激活函数。使神经元输出变为非线性的函数。"},"dl05":{"chapter":"Chapter 05","title":"人工神经元：汇集信息、发出信号的单元","description":"人工神经元。接收输入、计算加权和并施加激活函数的单元。"},"dl06":{"chapter":"Chapter 06","title":"批处理：打包一次学","description":"批。将多个样本打包在一起一次计算的单位。"},"dl07":{"chapter":"Chapter 07","title":"权重连接：构成智能的无数链条","description":"连接。层与层、神经元与神经元之间的权重连接。"},"dl08":{"chapter":"Chapter 08","title":"隐藏层：看不见的思维深度","description":"隐藏。位于输入层与输出层之间的层。"},"dl09":{"chapter":"Chapter 09","title":"深层网络：解决更复杂问题的能力","description":"深度。隐藏层多的网络称为深层网络。"},"dl10":{"chapter":"Chapter 10","title":"宽度与神经元：一次找出更多特征","description":"宽度。单层神经元数量多称为宽层。"},"dl11":{"chapter":"Chapter 11","title":"Softmax：把结果变成确信","description":"Softmax（概率分布化）。将输出变为 0～1 且和为 1。"},"dl12":{"chapter":"Chapter 12","title":"梯度与反向传播：从错误中学习","description":"梯度。指示为减少损失应沿哪个方向调整参数。"},"dl13":{"chapter":"Chapter 13","title":"总整理：一览 AI 地图","description":"将 Ch01～Ch12 所学内容在一张神经网络图中一览。"}},"midMathChapters":{"midMath00":{"chapter":"Chapter 00","title":"进阶数学与人工智能：多变量空间与不确定性的扩展"},"midMath01":{"chapter":"Chapter 01","title":"向量与向量空间：超越标量的大小与方向"},"midMath02":{"chapter":"Chapter 02","title":"向量的内积与投影：数据间的角度与相似度"},"midMath03":{"chapter":"Chapter 03","title":"矩阵与数据捆：多向量的结构性表示"},"midMath04":{"chapter":"Chapter 04","title":"矩阵乘法与线性变换：操纵空间的数学"},"midMath05":{"chapter":"Chapter 05","title":"逆矩阵与行列式：变换的逆运算与空间体积变化"},"midMath06":{"chapter":"Chapter 06","title":"线性独立与秩：数据的冗余与实质维度"},"midMath07":{"chapter":"Chapter 07","title":"特征值与特征向量：变换中不变的主轴"},"midMath08":{"chapter":"Chapter 08","title":"方向导数与梯度：多维空间中的最陡上升"},"midMath09":{"chapter":"Chapter 09","title":"雅可比矩阵：多变量向量函数的一阶微分"},"midMath10":{"chapter":"Chapter 10","title":"海森矩阵：二阶微分与曲面的曲率"},"midMath11":{"chapter":"Chapter 11","title":"泰勒级数：用多项式近似复杂函数"},"midMath12":{"chapter":"Chapter 12","title":"凸优化：求最小值的条件"},"midMath13":{"chapter":"Chapter 13","title":"条件概率与依赖性：变量间的概率关系"},"midMath14":{"chapter":"Chapter 14","title":"贝叶斯定理：用观测数据更新概率"},"midMath15":{"chapter":"Chapter 15","title":"协方差与相关系数：两变量线性相关性的度量"},"midMath16":{"chapter":"Chapter 16","title":"多元正态分布：多变量联合概率模型"},"midMath17":{"chapter":"Chapter 17","title":"最大似然估计（MLE）：由观测反推模型参数"},"midMath18":{"chapter":"Chapter 18","title":"熵：基于信息论的不确定性量化"},"midMath19":{"chapter":"Chapter 19","title":"交叉熵与KL散度：两概率分布之差的度量"},"midMath20":{"chapter":"Chapter 20","title":"进阶数学总整理：线性代数与概率论的结合"}},"midMathCh00":{"chapter":"Chapter 00","title":"中级数学与AI：再往前一步","description":"中级数学是在让AI的“语言”变得更精确的阶段。本课程会把数据不再只当作普通数字，而是用**向量**与**矩阵**来理解，并学习把它们连接起来的**线性变换**规则。此外，你还会用**雅可比矩阵**（多变量下输出对输入的变化敏感度）与**海森矩阵**（曲率信息）来解读学习为何会快、慢甚至不稳定。","sectionTitle":"向量、矩阵与敏感度：中级数学如何解释AI","sectionLabels":{"whatIs":"是什么","whyImportant":"为什么重要","howUsed":"如何使用","problemSolving":"问题讲解"},"whatIs":{"0":"**向量空间**提供了用“方向与大小”来描述数据的框架。例如图像可以被表示为学习到的特征坐标。","1":"**矩阵**是把向量一起变换的工具，尤其是**线性变换**能用一致的规则描述坐标如何改变，因此神经网络每一层都能用数学方式解释。","2":"**雅可比矩阵**与**海森矩阵**是“敏感度地图”。雅可比回答“输入变化时输出变化多少”，而海森描述损失地形的曲率。"},"whyImportant":{"0":"学习本质上是反复计算来减少误差。要理解误差为何能下降，需要处理多变量变化（梯度与敏感度）——这正是中级数学的核心。","1":"线性代数帮助你解释表示（representation）。很多概念最终都会归结为“向量如何被重排与变换”，因此你会更能解释结果。","2":"理解**海森矩阵**后，你能看到学习为何在某些区域变慢，在另一些区域变快。二阶信息也支持牛顿法、信赖域等优化方法。"},"howUsed":{"0":"在**前向传播**中，输入向量通过矩阵乘法与线性规则被转换，从而决定哪些特征被强调、哪些被抑制。","1":"在**反向传播**中，你需要跟踪“变化如何传递”，雅可比矩阵承担这个角色；链式法则就是用来整理这条传递路径的语言。","2":"在优化阶段，利用曲率信息（海森）可以提升更新的稳定性。海森能告诉你损失曲面是“平坦”还是“陡峭”。"},"problemSolving":{"0":"| 分类 | 在AI中的作用 | 中级数学概念 |\n| --- | --- | --- |\n| **相似度与方向** | 让相似特征更靠近、不同特征更远 | 内积、投影 |\n| **层如何运作** | 一层如何把向量变成新的表示 | 矩阵、线性变换 |\n| **敏感度（变化量）** | 输入微小变化时输出如何变 | 雅可比矩阵、梯度 |\n| **学习的曲率** | 决定优化进行得快还是慢 | 海森矩阵、特征值 |\n| **不确定性的语言** | 多变量如何一起变化 | 协方差、多元正态 |"}},"midMathCh01":{"chapter":"Chapter 01","title":"向量与向量空间：大小与方向一次掌握","description":"向量既是“按顺序排列的一组数”，也是同时承载**大小与方向**的对象。机器学习中每个样本是特征向量 $\\mathbf x$，深度学习中嵌入与权重也都是向量。本章在 $\\mathbb R^n$ 中建立共同语言，为下一章**内积**做好准备。","sectionTitle":"向量与向量空间：大小与方向一次掌握","sectionLabels":{"whatIs":"概念是什么","whyImportant":"为何重要","howUsed":"如何应用","problemSolving":"解题说明"},"visualShort":"向量：分量 · 模长 · 方向 · $\\mathbb R^n$","visualIntro":"输入为分量 $(v_x,v_y)$；数乘 $k\\mathbf v$ 与和 $\\mathbf u+\\mathbf v$ 都按**分量**运算。$\\mathbb R^n$ 是所有含 $n$ 个实分量的向量构成的空间，其维数为 $n$。","visualStep1":"数据·参数 → 向量 $\\mathbf v\\in\\mathbb R^n$","visualStep2":"数乘 $k\\mathbf v$，和 $\\mathbf u+\\mathbf v$（按分量）","visualStep3":"空间 $\\mathbb R^n$：维数 $n$，分量 $n$ 个","visualStepsLabel":"观看顺序","whatIs":{"intro":"**什么是向量？** 有序数组 $\\mathbf v=(v_1,\\ldots,v_n)$，几何上可画成带长度与方向的箭头。当函数有多个实输入时，把它们写成一个向量更简洁。","plain":"“向东3公里、向北4公里”同时给出方向与路程。放到坐标平面就是一根箭头——二维向量的直觉。分量写作 $(3,4)$，长度用 $\\sqrt{3^2+4^2}$。","definition":"更准确地说，**实向量空间** $\\mathbb R^n$ 中的元素是含 $n$ 个实分量的向量。**加法**按分量进行，**数乘**把每个分量乘以实数。**零向量** $\\mathbf 0$ 全为0。**欧氏范数**通常为 $\\|\\mathbf v\\|=\\sqrt{\\sum_i v_i^2}$；练习中常出现整数形式的 $\\|\\mathbf v\\|^2$。","inAI":"监督学习中特征为 $\\mathbf x\\in\\mathbb R^d$，线性模型权重也是 $\\mathbf w\\in\\mathbb R^d$。深度网络层层堆叠内积与矩阵；本章是第一步。到**第10章 Hessian** 会在同一向量空间上读**二阶导（曲率）**。"},"whyImportant":{"bridge":"基础课里的“函数与连续”在这里延续为**把多输入写成一个向量**的习惯。机器学习中的特征、距离、分类，深度学习中的内积、矩阵乘法，都建立在**向量语言**之上。","language":"“同维才能相加”“数乘对每个分量一视同仁”——这就是**向量空间的结构**。熟练之后，线性无关、基、秩、特征值都会更轻松。"},"howUsed":{"features":"**特征向量**：表格的一行写成 $\\mathbf x$，预处理、归一化、距离都是向量运算。**kNN、聚类**常用差向量的范数。","dlWeights":"**深度学习**：单个神经元对输入向量与权重向量做内积（下一章）再加偏置与激活。嵌入向量也可看作“语义空间”中的点。**向量 = AI 读世界时的最小数字束**。"},"summary":"**总之**，向量同时给出几何（方向、大小）与代数（分量）；$\\mathbb R^n$ 是所有 $n$ 维实向量的空间。加法与数乘按分量定义，内积、矩阵、求导都建立在此之上。**第02章**将把“有多相似”变成数。","problemSolving":{"focus":"下表为**公式与符号**提要，**分项说明**解释定义；**例题**给出各代表题型的步骤。","examplesHeading":"例题","examplesTable":"$20"},"problemSolvingLabel":"解题说明","problemSolvingTable":"$21","visualFlowTitle":"学习流程","visualFlowStep0":"概念：向量·分量·$\\mathbb R^n$","visualFlowStep1":"直观：箭头（方向·长度）","visualFlowStep2":"公式：和·数乘·范数·内积","visualFlowStep3":"应用：特征·嵌入·权重","visualArrowTitle":"向量 = 方向 + 大小","visualComponentTitle":"同向 · 长度为 k 倍","visualAriaLabel":"向量加法与数乘示意图。左为 u、v 与和 u+v；右为同一直线上的基准 u 与 k 倍 u。","visualLegendGray":"基准 u","visualLegendBlue":"k·u","visualRnLabel":"在 $\\mathbb R^2$ 内封闭","problemPromptIntro":"阅读题目并输入向量运算结果（整数）。","promptDefinition":"若叙述为**真**选**1**，为**假**选**0**。","promptDefinitionChoice":"下列（甲）（乙）（丙）中正确的一项是？请选择。","promptMagnitudeSquared2D":"设 $\\mathbf v=({vx},{vy})$，求 $\\|\\mathbf v\\|^2$（整数）。","promptDotProduct2D":"设 $\\mathbf u=({ux},{uy})$，$\\mathbf v=({vx},{vy})$，求 $\\mathbf u\\cdot\\mathbf v$（整数）。","promptSumComponent2D":"设 $\\mathbf u=({ux},{uy})$，$\\mathbf v=({vx},{vy})$，求 $(\\mathbf u+\\mathbf v)_{axis}$ 的值（整数）。（分量：{axis}）","promptScalarMultComponent2D":"设 $\\mathbf u=({ux},{uy})$，求 $({k}\\mathbf u)_{axis}$ 的值（整数）。（分量：{axis}）","promptDimensionRn":"向量 $\\mathbf v=({components})$ 属于 $\\mathbb R^n$。维数 $n$（整数）？","promptNumComponentsRn":"向量 $\\mathbf v=({components})$ 有多少个分量（整数）？","promptCrossZ2D":"设 $\\mathbf u=({ux},{uy})$，$\\mathbf v=({vx},{vy})$，求 $u_x v_y - u_y v_x$（整数）。","promptNormMinusSquared2D":"设 $\\mathbf u=({ux},{uy})$，$\\mathbf v=({vx},{vy})$，求 $\\|\\mathbf u\\|^2-\\|\\mathbf v\\|^2$（整数）。","promptDefault":"在下方选项中选择正确答案。","mcDefChoice1":"（甲）","mcDefChoice2":"（乙）","mcDefChoice3":"（丙）","mcDefChoice4":"（丁）(甲)〜(丙)均不正确","definitionStatements":{"0":"向量具有大小和方向，可用分量表示。","1":"$$\\mathbb R^n$ 中的向量有 $n$ 个实分量。","2":"同维两向量的和按分量相加定义。","3":"数乘 $k\\mathbf v$ 等于把 $\\mathbf v$ 的每个分量乘以 $k$。","4":"零向量是所有分量为 0 的向量。","5":"向量空间对加法与数乘必须封闭。","6":"$$\\mathbb R^2$ 是实数域上 2 维向量空间。","7":"若一向量是另一向量的实数倍，则二者共线（过原点）。","10":"欧氏范数 $\\|\\mathbf v\\|$ 可以为负。","11":"$$\\mathbb R^3$ 的维数是 2。","12":"不同维的两个向量可以定义和 $\\mathbf u+\\mathbf v$。","13":"向量加法不满足结合律 $(\\mathbf u+\\mathbf v)+\\mathbf w=\\mathbf u+(\\mathbf v+\\mathbf w)$。","14":"实向量内积 $\\mathbf u\\cdot\\mathbf v$ 的结果总是一个向量。"},"definitionChoiceQuestions":{"0":"（甲）$4$\n（乙）$5$\n（丙）$6$\n\n问：$\\mathbb R^5$ 的维数是？","1":"（甲）$2$\n（乙）$3$\n（丙）$1$\n\n问：$\\mathbb R^2$ 的维数是？","2":"（甲）$16$\n（乙）$25$\n（丙）$9$\n\n问：$\\mathbf v=(3,4)$ 时 $\\|\\mathbf v\\|^2$ 是？","3":"（甲）$3$\n（乙）$2$\n（丙）$5$\n\n问：$2\\mathbf e_1+3\\mathbf e_2$ 的 $y$ 分量？ ($\\mathbf e_1=(1,0),\\mathbf e_2=(0,1)$)","4":"（甲）恒为 $\\mathbf v$\n（乙）恒为零向量\n（丙）无法定义\n\n问：$k=0$ 时 $k\\mathbf v$ 是？","5":"（甲）平行\n（乙）垂直(正交)\n（丙）相等\n\n问：若 $\\mathbf u\\cdot\\mathbf v=0$，两向量常被称为？","6":"（甲）$n-1$\n（乙）$n$\n（丙）$2n$\n\n问：$\\mathbb R^n$ 向量有多少个分量？","7":"（甲）$5$\n（乙）$4$\n（丙）$3$\n\n问：$(1,2)+(3,4)$ 的 $x$ 分量？"}},"midMathCh02":{"chapter":"Chapter 02","title":"向量的内积与正交投影：用数字衡量有多相似","description":"**内积（点积）**把两个向量“在多大程度上同向”压缩成**一个数**。**正交投影**是把一个向量投到另一个向量张成的直线（或子空间）上，像**影子**一样。基于 Ch.01 的 $\\mathbb{R}^n$，本章用内积语言阅读**相似性、角度与距离**，并自然衔接到机器学习与深度学习中的**相似度、注意力与线性层**。","sectionTitle":"向量的内积与正交投影：用数字衡量有多相似","sectionLabels":{"whatIs":"概念说明","whyImportant":"为什么重要","howUsed":"如何应用","problemSolving":"解题说明"},"visualShort":"内积 · 角度 · 正交投影 · 余弦相似度","visualIntro":"对箭头 $\\mathbf{u},\\mathbf{v}$，内积 $\\mathbf{u}\\cdot\\mathbf{v}$ 同时反映长度与夹角。把 $\\mathbf{v}$ “落到” $\\mathbf{u}$ 上得到正射影 $\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$，残差 $\\mathbf{v}-\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$ 与 $\\mathbf{u}$ **正交**。","visualStep1":"概念：$\\mathbf{u}\\cdot\\mathbf{v}=\\sum_i u_i v_i=\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|\\cos\\theta$","visualStep2":"直觉：同向为正，垂直为0，反向为负","visualStep3":"正交投影：$\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}=\\frac{\\mathbf{u}\\cdot\\mathbf{v}}{\\mathbf{u}\\cdot\\mathbf{u}}\\mathbf{u}$","visualStep4":"应用：嵌入相似度、线性层、最小二乘的投影解释","visualStepsLabel":"建议阅读顺序","visualFlowTitle":"学习流程","visualFlowStep0":"概念：内积·夹角·正交","visualFlowStep1":"直觉：影子（投影）·残差","visualFlowStep2":"公式：投影·余弦·勾股","visualFlowStep3":"应用：推荐·深层网络·降维","dotVisualAriaLabel":"内积、正交投影、余弦相似度：旋转向量与实时读数","dotVisualMainTitle":"随 v 旋转的相似度","dotVisualPlotTitle":"坐标平面：u、v、正交投影","dotVisualMetricsTitle":"方向·相似度·数值","dotVisualHudDot":"内积 u·v","dotVisualHudCos":"cos θ（方向）","dotVisualHudProj":"|proj| / |v|","dotVisualLegendU":"基准 u","dotVisualLegendV":"旋转 v","dotVisualLegendProj":"影子","dotVisualLegendRes":"残差 ⊥ u","dotVisualInsetLabel":"方向","dotVisualCaption":"**绿色向量** $v$ 旋转时 **$\\theta$** 改变，**琥珀色影子（正交投影）**的长度与 **内积**、$\\cos\\theta$ 同步变化。越接近**同向** **内积**越大，**垂直**为 $0$，**反向**为**负**。右侧小圆单独显示 $v$ 的**方向**。","whatIs":{"intro":"**内积**把 Ch.01 里“对应分量相乘再相加”一次性收成**一个数**。几何上它是 $\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|\\cos\\theta$；**正交投影**是用内积除以基准方向长度得到的**影子向量**。","plain":"通俗说，内积就是**两个箭头有多同向**的得分。完全同向时大正，垂直为0，反向为负。正交投影可想成手电筒照在墙上的**影子**。","definition":"下面这些是要记住的核心公式。\n\n1. **内积**：$\\mathbf{u} \\cdot \\mathbf{v} = \\|\\mathbf{u}\\|\\|\\mathbf{v}\\|\\cos\\theta$（用两个向量的长度和夹角 $\\theta$）\n2. **余弦相似度**：$\\cos\\theta = \\frac{\\mathbf{u} \\cdot \\mathbf{v}}{\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|}$（长度不同也只比**方向有多像**）\n3. **正交投影**：$\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$（把 $\\mathbf{v}$ 沿基准向量 $\\mathbf{u}$ 的方向“落到直线上”的**影子**）\n4. **单位向量**：$\\mathbf{\\hat{u}}$ 上的**“帽子”（^）**常表示更关心**方向**。**单位向量**就是**长度为 1** 的箭头（$\\|\\mathbf{\\hat{u}}\\|=1$），**多长已经定好**，只剩**指向哪边**。因此 $\\mathbf{v}$ 投到 $\\mathbf{\\hat{u}}$ 上的影子可以一步写成 $(\\mathbf{v}\\cdot\\mathbf{\\hat{u}})\\,\\mathbf{\\hat{u}}$。$\\mathbf{v}\\cdot\\mathbf{\\hat{u}}$ 这一个数表示 $\\mathbf{v}$ 与该方向**有多同向**；影子的**实际长度**是这个数的大小 $|\\mathbf{v}\\cdot\\mathbf{\\hat{u}}|$。（若为负，说明影子在该直线反方向；只看长度用绝对值。）\n\n其中 $\\|\\mathbf{u}\\|$、$\\|\\mathbf{v}\\|$ 是向量的**范数**（长度）。余弦相似度除以二者长度之积，**消掉大小影响，只留下方向**。\n\n式子看起来密，其实只是计算机给“相似程度”打分的规则。","inAI":"**深度学习**里每层线性变换都是权重行与输入的内积堆叠。**注意力**用查询–键内积（或等价分数）决定关注哪里。**推荐**里用户/物品嵌入的内积/余弦表示偏好匹配。"},"whyImportant":{"bridge":"在 Ch.01 把向量看成“数字盒子”之后，本章规定如何把盒子**配对成一个分数**。这个分数成为**距离·角度·相似度**的共同语言，并通向矩阵、特征值与优化。","similarity":"要让计算机理解“相似”，需要**度量**。内积与余弦能在高维里分离**方向与长度**，并与归一化等预处理密切相关。"},"howUsed":{"ml":"**机器学习**：kNN 的相似度、核方法的起点、线性/逻辑回归的线性项 $\\mathbf{w}\\cdot\\mathbf{x}$ 等都用到内积。","geometry":"**几何视角**：最小二乘解可看作向列空间的**投影**；PCA 主成分、Gram–Schmidt 的“减去投影”都是同一套图景。"},"summary":"**一句话：**内积是分量乘积之和，把长度与夹角绑在一起；正交投影是沿某方向的**影子向量**；余弦偏重方向；投影与正交分解相配。下一章 **Ch.03 矩阵**一次打包许多内积。","problemSolving":{"focus":"下表汇总解题所需的**公式与符号含义**，紧随其后的**分项说明**阐明定义意图。**例题**给出各代表题型的步骤。","examplesHeading":"例题","examplesTable":"$22"},"problemSolvingLabel":"解题说明","problemSolvingTable":"$23","practiceProblemsTitle":"练习题","practiceProblemsIntro":"以下从 **60 题题库**中随机抽取 **10 题**（易 4·中 3·难 3，顺序易→中→难）。每题为**选择题**，请选编号。","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","problems":{"definition_0":"在 $\\mathbb{R}^n$ 中，把内积 $\\mathbf{u}\\cdot\\mathbf{v}$ 写成分量形式，最恰当的是哪一项？\n\n① $\\sum_i u_i v_i$（相同下标分量相乘再求和）\n② $\\sum_i u_i + v_i$\n③ $\\max_i u_i v_i$\n④ $\\prod_i u_i v_i$","definition_1":"两向量**正交**时，内积 $\\mathbf{u}\\cdot\\mathbf{v}$ 等于？\n\n① 恒为 $0$\n② 恒为 $1$\n③ 恒为正\n④ 恒为向量","definition_2":"在 $\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|\\cos\\theta$ 中，$\\theta$ 表示？\n\n① 两向量**夹角**（取较小者）\n② 向量维数\n③ 只有范数\n④ 矩阵的秩","definition_3":"$$\\mathbf{u}\\neq\\mathbf{0}$ 时，$\\mathbf{v}$ 在 $\\mathbf{u}$ 上的**正交投影向量**是？\n\n① $\\dfrac{\\mathbf{u}\\cdot\\mathbf{v}}{\\mathbf{u}\\cdot\\mathbf{u}}\\,\\mathbf{u}$\n② $\\mathbf{v}-\\mathbf{u}$\n③ $\\dfrac{\\mathbf{v}}{\\|\\mathbf{u}\\|}$\n④ $\\mathbf{u}\\times\\mathbf{v}$","definition_4":"**余弦相似度** $\\dfrac{\\mathbf{u}\\cdot\\mathbf{v}}{\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|}$ 的取值范围通常是？（实向量，一般情形）\n\n① $[-1,1]$\n② $[0,\\infty)$\n③ 仅 $(-\\infty,\\infty)$\n④ 仅 $0$ 或 $1$","definition_5":"内积 $\\mathbf{u}\\cdot\\mathbf{v}$ 的结果类型是？\n\n① **标量**（一个实数）\n② 恒为向量\n③ 恒为矩阵\n④ 恒为布尔","definition_6":"$$\\|\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}\\|$ 与 $\\|\\mathbf{v}\\|$ 之间恒成立的关系是？\n\n① $\\|\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}\\|\\le \\|\\mathbf{v}\\|$\n② 恒有 $\\|\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}\\|> \\|\\mathbf{v}\\|$\n③ 恒相等\n④ 无法比较","definition_7":"逻辑回归中 $z=\\mathbf{w}\\cdot\\mathbf{x}+b$，$\\mathbf{w}\\cdot\\mathbf{x}$ 主要表示？\n\n① 权重与特征向量**对齐程度**的数值化\n② 叉积\n③ 行列式\n④ 概率本身","definition_8":"下列哪项是**内积的性质**？（$\\mathbf{a},\\mathbf{b},\\mathbf{c}$ 同维，$c$ 为标量）\n\n① $(c\\mathbf{a})\\cdot\\mathbf{b}=c(\\mathbf{a}\\cdot\\mathbf{b})$\n② $(\\mathbf{a}\\cdot\\mathbf{b})\\cdot\\mathbf{c}$ 总有定义\n③ $\\mathbf{a}\\cdot\\mathbf{b}=\\mathbf{a}+\\mathbf{b}$\n④ 内积不满足交换律","definition_9":"结合 Ch.01 的 $\\mathbb{R}^n$，内积要有定义需要 $\\mathbf{u}$ 与 $\\mathbf{v}$？\n\n① 同一 $n$，**同维**\n② 维数不同也可\n③ 必须都是单位向量\n④ 必有一为零向量","trueFalse_0":"若下列命题**为真**选 ①，**为假**选 ②。\n\n$\\mathbf{u}\\cdot\\mathbf{v}=0$ 则两向量必为零向量。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_1":"若下列命题**为真**选 ①，**为假**选 ②。\n\n对任意 $\\mathbf{v}$，有 $\\mathbf{0}\\cdot\\mathbf{v}=0$。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_2":"若下列命题**为真**选 ①，**为假**选 ②。\n\n（在定义下）恒有 $\\mathbf{u}\\cdot\\mathbf{v}=\\mathbf{v}\\cdot\\mathbf{u}$。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_3":"若下列命题**为真**选 ①，**为假**选 ②。\n\n投影 $\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$ 恒与 $\\mathbf{u}$ 平行（$\\mathbf{u}\\neq\\mathbf{0}$）。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_4":"若下列命题**为真**选 ①，**为假**选 ②。\n\n余弦相似度恒为非负。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_5":"若下列命题**为真**选 ①，**为假**选 ②。\n\n恒有 $\\|\\mathbf{u}+\\mathbf{v}\\|^2=\\|\\mathbf{u}\\|^2+\\|\\mathbf{v}\\|^2$。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_6":"若下列命题**为真**选 ①，**为假**选 ②。\n\n内积线性：$\\mathbf{u}\\cdot(\\mathbf{v}+\\mathbf{w})=\\mathbf{u}\\cdot\\mathbf{v}+\\mathbf{u}\\cdot\\mathbf{w}$。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_7":"若下列命题**为真**选 ①，**为假**选 ②。\n\n$\\mathbf{u}\\cdot\\mathbf{u}=\\|\\mathbf{u}\\|^2$。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_8":"若下列命题**为真**选 ①，**为假**选 ②。\n\n推荐系统中可用点积/余弦衡量用户与物品嵌入的相似度。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","trueFalse_9":"若下列命题**为真**选 ①，**为假**选 ②。\n\n残差 $\\mathbf{v}-\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$ 与 $\\mathbf{u}$ 正交（$\\mathbf{u}\\neq\\mathbf{0}$）。\n\n① 真\n② 假\n③ 皆非\n④ 命题为空","calc_0":"$$\\mathbf{u}=(2,3)$, $\\mathbf{v}=(4,-1)$，求 $\\mathbf{u}\\cdot\\mathbf{v}$。\n\n① $5$\n② $11$\n③ $-5$\n④ $14$","calc_1":"$$\\mathbf{a}=(1,1,1)$, $\\mathbf{b}=(2,-3,1)$，求 $\\mathbf{a}\\cdot\\mathbf{b}$。\n\n① $0$\n② $3$\n③ $6$\n④ $-1$","calc_2":"$$\\|\\mathbf{u}\\|=5$, $\\|\\mathbf{v}\\|=4$ 且同向，求 $\\mathbf{u}\\cdot\\mathbf{v}$。\n\n① $20$\n② $9$\n③ $1$\n④ $0$","calc_3":"$$\\mathbf{u}=(3,4)$，求 $\\mathbf{u}\\cdot\\mathbf{u}$。\n\n① $25$\n② $5$\n③ $12$\n④ $7$","calc_4":"$$\\mathbf{u}=(2,0)$, $\\mathbf{v}=(1,\\sqrt{3})$，求余弦相似度 $\\dfrac{\\mathbf{u}\\cdot\\mathbf{v}}{\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|}$。\n\n① $\\dfrac{1}{2}$\n② $1$\n③ $0$\n④ $\\dfrac{\\sqrt{3}}{2}$","calc_5":"$$\\mathbf{u}=(1,2)$, $\\mathbf{v}=(2,4)$，且 $\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}=\\alpha\\mathbf{u}$，求 $\\alpha$。\n\n① $2$\n② $1$\n③ $0$\n④ $4$","calc_6":"$$\\mathbf{e}_1=(1,0,0)$, $\\mathbf{v}=(3,-2,6)$，求 $\\mathrm{proj}_{\\mathbf{e}_1}\\mathbf{v}$ 的第一分量（$x$ 坐标）。\n\n① $3$\n② $6$\n③ $-2$\n④ $0$","calc_7":"$$\\mathbf{u}=(1,0)$, $\\mathbf{v}=(0,5)$，求 $\\|\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}\\|$。\n\n① $0$\n② $1$\n③ $5$\n④ $25$","calc_8":"$$\\mathbf{a}=(1,2,2)$，求范数 $\\|\\mathbf{a}\\|$。\n\n① $3$\n② $9$\n③ $\\sqrt{5}$\n④ $5$","calc_9":"$$\\mathbf{u}=(-1,2)$, $\\mathbf{v}=(4,2)$，求 $\\mathbf{u}\\cdot\\mathbf{v}$。\n\n① $0$\n② $10$\n③ $-4$\n④ $6$","concept_0":"深度学习中把注意力分数写成点积，下列哪项最贴切？\n\n① 用查询与键向量的**对齐度**打分\n② 只看范数\n③ 关闭反向传播\n④ 只看激活","concept_1":"最小二乘中设计矩阵列正交（正交归一基）时，什么更容易？\n\n① **独立**解释各系数\n② 总发散\n③ 学习率为 0\n④ 点积恒为 0","concept_2":"特征尺度差异大时，余弦相似度常优于欧氏距离，因为？\n\n① 更关心**方向**而非**大小**\n② 想放大长度\n③ 不可导\n④ 总是更慢","concept_3":"Gram–Schmidt 的核心操作最接近？\n\n① **减去**在其他方向上的投影以正交化\n② 行列式\n③ 只求特征值\n④ 概率积分","concept_4":"PCA 主方向出现协方差矩阵特征向量，与下列哪项基础概念相连？\n\n① 二次型与**正交**轴上最大化方差\n② 点积恒为 0\n③ 只有叉积\n④ 只有概率","concept_5":"损失 $L(\\mathbf{w})=\\|\\mathbf{y}-X\\mathbf{w}\\|^2$ 中，$X\\mathbf{w}$ 表示？\n\n① 在最小二乘意义下把 $\\mathbf{y}$ **投影**到 $X$ 的列空间\n② 随机噪声\n③ 恒为零向量\n④ 激活函数","concept_6":"ReLU 前线性层 $\\mathbf{z}=W\\mathbf{x}$ 的一行 $\\mathbf{w}_i^{\\mathsf T}\\mathbf{x}$ 是？\n\n① **权重行**与输入的一个点积\n② 叉积\n③ Softmax\n④ 仅批归一化","concept_7":"$$\\|\\mathbf{u}\\|$ 很小时余弦相似度为何不稳定？\n\n① 分母 $\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|$ **接近 0** 导致尺度爆炸\n② 点积恒为 0\n③ 余弦恒为 1\n④ 正交","concept_8":"词嵌入先**单位化**再用余弦比较时？\n\n① 余弦 $\\approx$ 纯**点积**，只看方向\n② 总错\n③ 点积无定义\n④ 维数改变","concept_9":"哪句话最能体现**正交投影**是**线性映射**？\n\n① 保持加法和数乘（可用矩阵 $P$ 表示）\n② 总非线性\n③ 只有旋转\n④ 只改概率","projection_0":"$$\\mathbf{u}=(1,1)$, $\\mathbf{v}=(3,0)$，若 $\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}=(a,a)$，求 $a$。\n\n① $\\dfrac{3}{2}$\n② $3$\n③ $\\dfrac{1}{2}$\n④ $0$","projection_1":"$$\\mathbf{u}=(2,1)$, $\\mathbf{v}=(1,2)$，求 $\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$ 的 $x$ 分量。\n\n① $\\dfrac{8}{5}$\n② $2$\n③ $1$\n④ $0$","projection_2":"将 $\\mathbf{v}=(6,8)$ 投影到 $\\mathbf{e}_1=(1,0)$，求投影向量范数。\n\n① $6$\n② $8$\n③ $10$\n④ $0$","projection_3":"若 $\\mathbf{\\hat{u}}$ 为单位向量，投影到 $\\mathbf{\\hat{u}}$ 上可化简为？\n\n① $(\\mathbf{v}\\cdot\\mathbf{\\hat{u}})\\,\\mathbf{\\hat{u}}$\n② $\\mathbf{v}-\\mathbf{\\hat{u}}$\n③ 只有 $\\|\\mathbf{v}\\|\\mathbf{\\hat{u}}$\n④ $\\mathbf{\\hat{u}}/\\|\\mathbf{v}\\|$","projection_4":"$$\\mathbf{a}=(1,1,1)$, $\\mathbf{b}=(1,0,0)$，求 $\\mathrm{proj}_{\\mathbf{a}}\\mathbf{b}$ 三分量之和。\n\n① $1$\n② $3$\n③ $0$\n④ $\\dfrac{1}{3}$","projection_5":"设 $\\mathbf{r}=\\mathbf{v}-\\mathrm{proj}_{\\mathbf{u}}\\mathbf{v}$，求 $\\mathbf{r}\\cdot\\mathbf{u}$（$\\mathbf{u}\\neq\\mathbf{0}$）。\n\n① $0$\n② $\\|\\mathbf{u}\\|^2$\n③ $\\|\\mathbf{v}\\|^2$\n④ $1$","projection_6":"设 $\\mathbf{u}=(4,3)$ 方向的单位向量为 $\\mathbf{\\hat{u}}$，$\\mathbf{v}=(1,0)$ 时 $\\|\\mathrm{proj}_{\\mathbf{\\hat{u}}}\\mathbf{v}\\|$？（仅用点积）\n\n① $\\dfrac{4}{5}$\n② $1$\n③ $\\dfrac{3}{5}$\n④ $5$","projection_7":"两向量张成平行四边形面积 $\\|\\mathbf{u}\\|\\|\\mathbf{v}\\||\\sin\\theta|$，三维中等于 $\\|\\mathbf{u}\\times\\mathbf{v}\\|$。与点积的联系？\n\n① $\\sin^2\\theta=1-\\cos^2\\theta$ 对应**正交分量**\n② 与点积无关\n③ 恒为 0\n④ 范数恒为 1","projection_8":"设 $\\mathbf{v}=\\mathbf{p}+\\mathbf{r}$ 为 $\\mathbf{u}$ 上投影与残差的正交分解，$\\|\\mathbf{v}\\|^2$ 与 $\\|\\mathbf{p}\\|^2+\\|\\mathbf{r}\\|^2$ 满足？\n\n① 恒有 $\\|\\mathbf{v}\\|^2=\\|\\mathbf{p}\\|^2+\\|\\mathbf{r}\\|^2$\n② 恒有 $\\|\\mathbf{v}\\|^2=\\|\\mathbf{p}\\|^2-\\|\\mathbf{r}\\|^2$\n③ 不成立\n④ $\\|\\mathbf{p}\\|=\\|\\mathbf{r}\\|$","projection_9":"矩阵 $A$ 每行 $\\mathbf{a}_i^{\\mathsf T}$ 与 $y_i=\\mathbf{a}_i\\cdot\\mathbf{x}$ 是什么视角？\n\n① $A\\mathbf{x}$ 的各坐标是行与 $\\mathbf{x}$ 的**点积**\n② 叉积大小\n③ 行列式\n④ 方差","scenario_0":"两文档嵌入余弦相似度 0.92，推荐场景直观解释？\n\n① 主题方向**较一致**（尺度归一后）\n② 概率 92%\n③ 文档等长\n④ 必用相同词","scenario_1":"图像与文本特征维数不同，要直接用余弦相似度应？\n\n① 先映射到**同一维数**的嵌入空间\n② 维数不同也可\n③ 点积与维数无关\n④ 只对齐概率","scenario_2":"小批量 SGD 损失波动大，关于梯度 $\\mathbf{g}$ 的更新哪项更贴切？\n\n① 一步主要沿 $-\\mathbf{g}$（**最速下降**）\n② 总与 $\\mathbf{g}$ 同向\n③ 与 $\\mathbf{g}$ 无关\n④ 点积恒 0","scenario_3":"协同过滤设 $\\hat{r}=\\mathbf{u}\\cdot\\mathbf{v}$，点积大通常意味？\n\n① 用户与物品因子**更契合**（模型假设下）\n② 总不喜欢\n③ 不能学习\n④ 概率为 1","scenario_4":"Transformer 缩放点积注意为何除以 $\\sqrt{d_k}$？\n\n① 降低方差，减轻 softmax **饱和**\n② 消去点积\n③ 关反向传播\n④ 强制正交","scenario_5":"特征标准化后，线性 SVM 间隔自然联系到？\n\n① 在**内积空间**用距离/角度分离（核方法）\n② 只看概率\n③ 只聚类\n④ 只无监督","scenario_6":"自编码器潜向量间何时余弦优于欧氏距离？\n\n① **方向（模式）**比**长度**更重要\n② 仅当距离更准\n③ 仅无图像\n④ 从不","scenario_7":"ML 流程中**投影**最接近哪例？\n\n① 高维特征**投影**到低维子空间可视化（如 PCA）\n② 只估概率\n③ 总删数据\n④ 只调批量","scenario_8":"归一化后点积变大也未必语义相似，因为？\n\n① 嵌入依赖**训练数据与目标函数**\n② 点积总错\n③ 余弦恒 0\n④ 正交","scenario_9":"矩阵向量积 $A\\mathbf{x}$ 从点积角度看？\n\n① $A$ **各行**与 $\\mathbf{x}$ 的点积排成向量\n② 只有行列式\n③ 恒为标量\n④ 只有叉积"},"problemAnswers":{"definition_0":1,"definition_1":1,"definition_2":1,"definition_3":1,"definition_4":1,"definition_5":1,"definition_6":1,"definition_7":1,"definition_8":1,"definition_9":1,"trueFalse_0":2,"trueFalse_1":1,"trueFalse_2":1,"trueFalse_3":1,"trueFalse_4":2,"trueFalse_5":2,"trueFalse_6":1,"trueFalse_7":1,"trueFalse_8":1,"trueFalse_9":1,"calc_0":1,"calc_1":1,"calc_2":1,"calc_3":1,"calc_4":1,"calc_5":1,"calc_6":1,"calc_7":1,"calc_8":1,"calc_9":1,"concept_0":1,"concept_1":1,"concept_2":1,"concept_3":1,"concept_4":1,"concept_5":1,"concept_6":1,"concept_7":1,"concept_8":1,"concept_9":1,"projection_0":1,"projection_1":1,"projection_2":1,"projection_3":1,"projection_4":1,"projection_5":1,"projection_6":1,"projection_7":1,"projection_8":1,"projection_9":1,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1},"problemSolutions":{"definition_0":"**(1) 要点：** 同下标分量相乘再相加。 **(2) 例：** $\\mathbf{u}=(1,2)$, $\\mathbf{v}=(3,-1)$ 得 $1\\cdot3+2\\cdot(-1)=1$。 **(3) 答案 ①**","definition_1":"**(1) 要点：** 正交则角 $90^\\circ$，$\\cos\\theta=0$，内积为 $0$。 **(2) 例：** $(1,0)\\cdot(0,1)=0$。 **(3) 答案 ①**","definition_2":"**(1) 要点：** $\\mathbf{u}\\cdot\\mathbf{v}=\\|\\mathbf{u}\\|\\|\\mathbf{v}\\|\\cos\\theta$ 中 $\\theta$ 为夹角。 **(2) 例：** 同向 $\\theta=0$。 **(3) 答案 ①**","definition_3":"**(1) 要点：** 保留 $\\mathbf{u}$ 方向需投影；系数 $\\dfrac{\\mathbf{u}\\cdot\\mathbf{v}}{\\|\\mathbf{u}\\|^2}$。 **(2) 例：** $\\mathbf{u}=(1,0)$, $\\mathbf{v}=(3,4)$ 得 $(3,0)$。 **(3) 答案 ①**","definition_4":"**(1) 要点：** 余弦取值 $[-1,1]$。 **(2) 例：** 同向 $\\approx1$，反向 $\\approx-1$，正交 $0$。 **(3) 答案 ①**","definition_5":"**(1) 要点：** 内积是一个实**标量**。 **(2) 例：** $(1,2)\\cdot(3,1)=5$。 **(3) 答案 ①**","definition_6":"**(1) 要点：** 投影长度不超过原向量（直角三角形）。 **(2) 例：** 已平行则取等号。 **(3) 答案 ①**","definition_7":"**(1) 要点：** 线性模型用点积衡量特征对齐。 **(2) 例：** 文本相似亦类似。 **(3) 答案 ①**","definition_8":"**(1) 要点：** 数乘可提到一侧外。 **(2) 例：** $(2\\mathbf{a})\\cdot\\mathbf{b}=2(\\mathbf{a}\\cdot\\mathbf{b})$。 **(3) 答案 ①**","definition_9":"**(1) 要点：** 分量乘加需同维。 **(2) 例：** $\\mathbb{R}^2$ 与 $\\mathbb{R}^3$ 不能配对。 **(3) 答案 ①**","trueFalse_0":"**(1) 反例：** $(1,0)\\cdot(0,1)=0$ 但均非零（正交）。 **(2) 答案 ②**","trueFalse_1":"**(1) 要点：** 零向量分量全为 0。 **(2) 答案 ①**","trueFalse_2":"**(1) 要点：** 交换律。 **(2) 答案 ①**","trueFalse_3":"**(1) 要点：** 投影落在 $\\mathbf{u}$ 张成的直线上。 **(2) 答案 ①**","trueFalse_4":"**(1) 反例：** 反向可使余弦为负。 **(2) 答案 ②**","trueFalse_5":"**(1) 要点：** $\\|\\mathbf{u}+\\mathbf{v}\\|^2=\\|\\mathbf{u}\\|^2+\\|\\mathbf{v}\\|^2+2\\mathbf{u}\\cdot\\mathbf{v}$。 **(2) 答案 ②**","trueFalse_6":"**(1) 要点：** 分配律（线性）。 **(2) 答案 ①**","trueFalse_7":"**(1) 例：** $(3,4)\\cdot(3,4)=25=\\|\\mathbf{u}\\|^2$。 **(2) 答案 ①**","trueFalse_8":"**(1) 实践：** 推荐里用相似度打分。 **(2) 答案 ①**","trueFalse_9":"**(1) 要点：** 残差与 $\\mathbf{u}$ 正交。 **(2) 答案 ①**","calc_0":"**(1) 计算：** $2\\cdot4+3\\cdot(-1)=5$。 **(2) 答案 ①**","calc_1":"**(1) 计算：** $2-3+1=0$。 **(2) 答案 ①**","calc_2":"**(1) 要点：** 同向 $\\cos\\theta=1$，点积 $=20$。 **(2) 答案 ①**","calc_3":"**(1) 计算：** $9+16=25=\\|\\mathbf{u}\\|^2$。 **(2) 答案 ①**","calc_4":"**(1) 计算：** 点积 $2$，范数 $2,2$ $\\Rightarrow$ $1/2$。 **(2) 答案 ①**","calc_5":"**(1) 计算：** $\\mathbf{u}\\cdot\\mathbf{v}=10$, $\\mathbf{u}\\cdot\\mathbf{u}=5$ $\\Rightarrow$ $\\alpha=2$。 **(2) 答案 ①**","calc_6":"**(1) 要点：** 投影到 $\\mathbf{e}_1$ 保留 $x$ 分量 $3$。 **(2) 答案 ①**","calc_7":"**(1) 计算：** $\\mathbf{v}$ 与 $\\mathbf{u}$ 正交，投影长 $0$。 **(2) 答案 ①**","calc_8":"**(1) 计算：** $\\sqrt{1+4+4}=3$。 **(2) 答案 ①**","calc_9":"**(1) 计算：** $-4+4=0$（正交）。 **(2) 答案 ①**","concept_0":"**(1) 实践：** 点积大则注意力多。 **(2) 答案 ①**","concept_1":"**(1) 要点：** 正交列使系数易解耦。 **(2) 答案 ①**","concept_2":"**(1) 直观：** 余弦看方向而非文档长度。 **(2) 答案 ①**","concept_3":"**(1) 要点：** 减去投影以正交化。 **(2) 答案 ①**","concept_4":"**(1) 衔接：** PCA 用语即点积、正交、投影。 **(2) 答案 ①**","concept_5":"**(1) 实践：** 最小二乘即投影到列空间。 **(2) 答案 ①**","concept_6":"**(1) 实践：** 深层即点积堆叠。 **(2) 答案 ①**","concept_7":"**(1) 实践：** 范数过小时用正则/裁剪稳定。 **(2) 答案 ①**","concept_8":"**(1) 要点：** 单位球上 $\\mathbf{u}\\cdot\\mathbf{v}=\\cos\\theta$。 **(2) 答案 ①**","concept_9":"**(1) 要点：** 投影矩阵 $P=\\dfrac{\\mathbf{u}\\mathbf{u}^{\\mathsf T}}{\\mathbf{u}^{\\mathsf T}\\mathbf{u}}$。 **(2) 答案 ①**","projection_0":"**(1) 计算：** $\\mathbf{u}\\cdot\\mathbf{v}=3$, $\\mathbf{u}\\cdot\\mathbf{u}=2$ $\\Rightarrow$ 系数 $3/2$。 **(2) 答案 ①**","projection_1":"**(1) 计算：** 点积 $4$, $\\|\\mathbf{u}\\|^2=5$ $\\Rightarrow$ $x=8/5$。 **(2) 答案 ①**","projection_2":"**(1) 要点：** 投到 $x$ 轴得 $(6,0)$，范数 $6$。 **(2) 答案 ①**","projection_3":"**(1) 要点：** $\\|\\mathbf{\\hat{u}}\\|=1$ 则系数为 $\\mathbf{v}\\cdot\\mathbf{\\hat{u}}$。 **(2) 答案 ①**","projection_4":"**(1) 计算：** $\\mathbf{a}\\cdot\\mathbf{b}=1$, $\\mathbf{a}\\cdot\\mathbf{a}=3$ $\\Rightarrow$ $\\dfrac{1}{3}(1,1,1)$，和为 $1$。 **(2) 答案 ①**","projection_5":"**(1) 要点：** 残差与 $\\mathbf{u}$ 正交。 **(2) 答案 ①**","projection_6":"**(1) 计算：** $\\mathbf{\\hat{u}}=(4/5,3/5)$，点积 $4/5$，长度 $=|\\mathbf{v}\\cdot\\mathbf{\\hat{u}}|=4/5$。 **(2) 答案 ①**","projection_7":"**(1) 衔接：** $\\cos$ 来自点积，$\\sin$ 来自叉积/面积。 **(2) 答案 ①**","projection_8":"**(1) 要点：** $\\mathbf{p}\\perp\\mathbf{r}$ 则用勾股。 **(2) 答案 ①**","projection_9":"**(1) 实践：** $A\\mathbf{x}$ 是各行点积（Ch.03 预告）。 **(2) 答案 ①**","scenario_0":"**(1) 实践：** 嵌入只是近似相似度。 **(2) 答案 ①**","scenario_1":"**(1) 实践：** 点积需同 $\\mathbb{R}^n$。 **(2) 答案 ①**","scenario_2":"**(1) 衔接：** 梯度下降与优化。 **(2) 答案 ①**","scenario_3":"**(1) 实践：** 矩阵分解类模型常用点积分。 **(2) 答案 ①**","scenario_4":"**(1) 实践：** 缩放以稳定 softmax。 **(2) 答案 ①**","scenario_5":"**(1) 衔接：** 向量内积走向核方法。 **(2) 答案 ①**","scenario_6":"**(1) 实践：** 幅度任意时常用余弦。 **(2) 答案 ①**","scenario_7":"**(1) 实践：** PCA 即子空间投影。 **(2) 答案 ①**","scenario_8":"**(1) 实践：** 数学工具依赖训练设定。 **(2) 答案 ①**","scenario_9":"**(1) 预告：** 行与点积构成深层线性块。 **(2) 答案 ①**"},"problemTestCodes":{"definition_0":"answer = 1\nassert answer == 1","definition_1":"answer = 1\nassert answer == 1","definition_2":"answer = 1\nassert answer == 1","definition_3":"answer = 1\nassert answer == 1","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 1\nassert answer == 1","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 1\nassert answer == 1","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 1\nassert answer == 1","trueFalse_0":"answer = 2\nassert answer == 2","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 2\nassert answer == 2","trueFalse_5":"answer = 2\nassert answer == 2","trueFalse_6":"answer = 1\nassert answer == 1","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 1\nassert answer == 1","trueFalse_9":"answer = 1\nassert answer == 1","calc_0":"answer = 1\nassert answer == 1","calc_1":"answer = 1\nassert answer == 1","calc_2":"answer = 1\nassert answer == 1","calc_3":"answer = 1\nassert answer == 1","calc_4":"answer = 1\nassert answer == 1","calc_5":"answer = 1\nassert answer == 1","calc_6":"answer = 1\nassert answer == 1","calc_7":"answer = 1\nassert answer == 1","calc_8":"answer = 1\nassert answer == 1","calc_9":"answer = 1\nassert answer == 1","concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 1\nassert answer == 1","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 1\nassert answer == 1","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 1\nassert answer == 1","concept_9":"answer = 1\nassert answer == 1","projection_0":"answer = 1\nassert answer == 1","projection_1":"answer = 1\nassert answer == 1","projection_2":"answer = 1\nassert answer == 1","projection_3":"answer = 1\nassert answer == 1","projection_4":"answer = 1\nassert answer == 1","projection_5":"answer = 1\nassert answer == 1","projection_6":"answer = 1\nassert answer == 1","projection_7":"answer = 1\nassert answer == 1","projection_8":"answer = 1\nassert answer == 1","projection_9":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1"}},"midMathCh03":{"chapter":"第03章","title":"矩阵与数据批次：把多个向量放在一张表里","description":"**矩阵**是按行按列排列数字的**一张表**。在机器学习中，**一行**常常对应一个**样本（一个人、一张图）**，**一列**对应一个**特征**。本章将向量（第01章）与点积（第02章）连接到矩阵中**同时多次出现**的计算，并为**矩阵乘法与线性层（第04章）**做准备。","sectionTitle":"矩阵与数据批次：把多个向量放在一张表里","sectionLabels":{"whatIs":"概念是什么","whyImportant":"为什么重要","howUsed":"如何应用","problemSolving":"解题提示"},"visualShort":"矩阵 · 行/列 · 转置 · 数据矩阵","visualIntro":"$$m\\times n$ 矩阵 $A$ 具有 **$m$ 行** 和 **$n$ 列**。把多个**列**并排放置，就是“把多个向量放在同一张表上”；每一**行**可以看作一个方程行或一个样本记录。**转置** $A^{\\mathsf T}$ 会交换行与列。","visualStep1":"概念：$A\\in\\mathbb{R}^{m\\times n}$，元素为 $a_{ij}$","visualStep2":"直觉：列 = 堆叠的向量 / 行 = 单个样本行","visualStep3":"运算：加法、数乘、转置（乘法在下一章）","visualStep4":"应用：设计矩阵、小批量、权重表","visualStepsLabel":"推荐观看顺序","visualFlowTitle":"学习流程","visualFlowStep0":"概念：把矩阵看作网格表","visualFlowStep1":"直觉：按列读与按行读","visualFlowStep2":"数学：维度匹配与转置","visualFlowStep3":"连接：行点积与 $A\\mathbf{u}$","visualFlowStep4":"应用：数据矩阵与批量张量","dotVisualAriaLabel":"带列高亮的矩阵：动画强调与维度面板","dotVisualMainTitle":"列变化时会发生什么","dotVisualPlotTitle":"网格：在 $3\\times 3$ 中高亮列","dotVisualMetricsTitle":"形状 · 高亮 · 概要","dotVisualHudDot":"行数 $m$","dotVisualHudCos":"列数 $n$","dotVisualHudProj":"高亮列","dotVisualLegendU":"网格","dotVisualLegendV":"高亮列","dotVisualLegendProj":"坐标轴","dotVisualLegendRes":"标签","dotVisualInsetLabel":"列索引","dotVisualCaption":"**紫色列**会依次高亮。每一列都是**相同长度的向量**；将三列并排后形成**一个矩阵**。右侧面板显示 **$m\\times n$** 以及当前高亮的是**哪一列**。若按**行**读取，就是**每行一个样本**（常见数据约定）。","whatIs":{"intro":"如果说**向量**是把数字排成一列，那么**矩阵**就是把多列（或多行）数字组成一个长方形表格。尺寸 $m\\times n$ 表示 **$m$ 行** 和 **$n$ 列**。记号会因场景而不同（有时行是样本，有时列是样本），因此要**先确认形状**。","plain":"把矩阵理解成**一张电子表格**很直观：每个单元格是一个数；**整列**可以看成一个**特征向量**；**整行**可以看成一条**记录**。同一张表按**不同方向读取**，语义会不同。","definition":"核心事实：\n\n1. **形状**：$m\\times n$ 表示含实数元素的 $m$ 行 $n$ 列。\n2. **元素**：第 $i$ 行第 $j$ 列写作 $a_{ij}$。\n3. **转置**：$A^{\\mathsf T}$ 的形状为 $n\\times m$，且 $(A^{\\mathsf T})_{ji}=a_{ij}$。\n4. **按列看作向量**：若列向量 $\\mathbf{a}_j\\in\\mathbb{R}^m$，可写作 $A=[\\mathbf{a}_1\\ \\cdots\\ \\mathbf{a}_n]$。\n5. **加法/数乘**：同形状时，$(A+B)_{ij}=a_{ij}+b_{ij}$，$(cA)_{ij}=c\\,a_{ij}$。\n\n本章重点是在完整进入**矩阵乘法**前，先掌握**向量成束的读取方式**与**维度匹配**。","inAI":"在**深度学习**中，权重常表示为**矩阵**（或张量的二维切片）。一层线性变换可视为“同时进行多个点积”；**批处理**会沿行或列堆叠样本。在**机器学习**里，**设计矩阵**也会把特征向量组织到同一张数据表中。"},"whyImportant":{"bridge":"第01章学向量，第02章学点积。第03章把这些计算扩展到**整张表**。矩阵是描述**损失、梯度、权重更新**的共同语言。","similarity":"真实数据通常是**多样本 × 多特征**。明确写出**形状 $m\\times n$** 能清晰表达结构，减少因维度错误导致的隐蔽问题。"},"howUsed":{"ml":"训练数据常以**设计矩阵**表示；线性模型可写成矩阵-向量乘法。逻辑回归/归一化分类函数、线性支持向量机、矩阵分解推荐等都依赖**批量向量运算**。","geometry":"列向量会**张成**一个子空间（列空间）；把高维数据拟合到低维，可理解为向子空间做**投影**（后续章节展开）。"},"summary":"**一句话总结：** 矩阵是把**多个向量放在同一张表**的工具；**行或列作为样本**取决于约定。通过**转置**可交换轴并**匹配维度**。第02章的行点积排列起来就是 $A\\mathbf{u}$ 的各个分量。下一章进入矩阵乘法与线性映射。","problemSolving":{"focus":"下表汇总了解题所需的**符号与维度规则**。后续**例题**展示了常见解题步骤。","examplesHeading":"解题示例","examplesTable":"**示例 1 — 计算元素个数**\n\n题目：若 $A$ 为 $4\\times 7$，共有多少个元素？\n\n解法：$4\\times 7=28$。\n\n→ 选择对应 **$28$** 的选项。\n\n---\n\n**示例 2 — 转置形状**\n\n题目：若 $A$ 为 $3\\times 5$，则 $A^{\\mathsf T}$ 的形状是什么？\n\n解法：$5\\times 3$。\n\n---\n\n**示例 3 — 矩阵加法**\n\n题目：若 $A,B$ 都是 $2\\times 2$，则 $(A+B)_{11}$ 是什么？\n\n解法：$a_{11}+b_{11}$。\n\n---\n\n**示例 4 — 列向量视角**\n\n题目：若 $A=[\\mathbf{a}_1\\ \\mathbf{a}_2]$ 且 $\\mathbf{a}_1\\in\\mathbb{R}^m$，$A$ 有多少行？\n\n解法：每列长度都是 $m$，所以有 **$m$ 行**。\n\n---\n\n**示例 5 — 与第02章的连接**\n\n题目：$A\\mathbf{u}$ 的第 $i$ 个分量是什么？\n\n解法：$A$ 的**第 $i$ 行**与 $\\mathbf{u}$ 的**点积**。"},"problemSolvingLabel":"解题说明","problemSolvingTable":"| 记号 | 含义 |\n| :--- | :--- |\n| $m\\times n$ | $m$ 行 $n$ 列 |\n| $a_{ij}$ | 第 $i$ 行第 $j$ 列元素 |\n| $A^{\\mathsf T}$ | 转置：$(A^{\\mathsf T})_{ji}=a_{ij}$ |\n| 列向量 $\\mathbf{a}_j$ | 把 $A$ 的第 $j$ 列看作向量 |\n| 同形状 | 只有维度一致时才可做 $A+B$ |\n| $A\\mathbf{u}$（预告） | 由每一行与 $\\mathbf{u}$ 的点积组成的向量 |\n\n**分项说明**\n\n**① 形状** 做加法/乘法前先核对维度。\n\n**② 转置** 需要时交换样本轴与特征轴。\n\n**③ 行/列视角** 同一个 $A$ 在不同问题中语义可能不同。\n\n**④ 与第02章的连接** 每行与 $\\mathbf{u}$ 的点积对应 $A\\mathbf{u}$ 的一个分量。","practiceProblemsTitle":"练习题","practiceProblemsIntro":"以下为从**60题题库**中随机抽取的**10题**（易4·中3·难3，顺序为易→中→难）。每题为**选择题**，请选择选项编号。","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","problems":{"definition_0":"$$m\\times n$ 矩阵共有多少个**元素**？\n\n① $m+n$\n② $m\\times n$\n③ $\\max(m,n)$\n④ $m-n$","definition_1":"矩阵 $A$ 的 $(i,j)$ 元素通常记作什么？\n\n① $a_{ij}$\n② 只能写成 $a_{ji}$\n③ $A_i$\n④ $\\det(A)$","definition_2":"若 $A$ 是 $m\\times n$，每个**列向量**的长度（维度）是多少？\n\n① $m$\n② $n$\n③ $m+n$\n④ $mn$","definition_3":"若 $A$ 是 $m\\times n$，则 $A^{\\mathsf T}$ 的形状是什么？\n\n① $n\\times m$\n② $m\\times n$\n③ $m\\times m$\n④ $n\\times n$","definition_4":"**方阵**指的是哪一种？\n\n① 行数与列数相等\n② 所有元素都为 1\n③ 一定可逆\n④ 一定是零矩阵","definition_5":"**零矩阵**的正确性质是哪一个？\n\n① 所有元素都为 0\n② 只有对角元素为 0\n③ 行列式恒为 1\n④ 不能转置","definition_6":"单位矩阵 $I_n$ 的尺寸是？\n\n① $n\\times n$\n② $n\\times 1$\n③ $1\\times n$\n④ $2n\\times 2n$","definition_7":"$$\\mathbb{R}^{m\\times n}$ 表示什么？\n\n① 所有实数 $m\\times n$ 矩阵的集合\n② 仅表示 $(m+n)$ 维向量空间\n③ 行列式的集合\n④ 仅表示方阵","definition_8":"若 $A=[\\mathbf{a}_1\\ \\cdots\\ \\mathbf{a}_n]$ 且 $\\mathbf{a}_j\\in\\mathbb{R}^m$，则 $A$ 的形状是？\n\n① $m\\times n$\n② $n\\times m$\n③ $m\\times 1$\n④ $1\\times n$","definition_9":"形状为 $1\\times n$ 的**行向量**有多少个元素？\n\n① $n$\n② $1$\n③ $n+1$\n④ $0$","trueFalse_0":"若命题为**真**选 ①，**假**选 ②。\n\n矩阵加法 $A+B$ 仅在 $A$ 与 $B$ 形状相同时有定义。\n\n① 真\n② 假","trueFalse_1":"若命题为**真**选 ①，**假**选 ②。\n\n$(A^{\\mathsf T})^{\\mathsf T}=A$。\n\n① 真\n② 假","trueFalse_2":"若命题为**真**选 ①，**假**选 ②。\n\n$2\\times 3$ 矩阵与 $3\\times 2$ 矩阵可能有相同的元素个数。\n\n① 真\n② 假","trueFalse_3":"若命题为**真**选 ①，**假**选 ②。\n\n所有方阵都可逆。\n\n① 真\n② 假","trueFalse_4":"若命题为**真**选 ①，**假**选 ②。\n\n若 $A$ 是 $m\\times n$，则 $A^{\\mathsf T}$ 是 $n\\times m$。\n\n① 真\n② 假","trueFalse_5":"若命题为**真**选 ①，**假**选 ②。\n\n常见数据约定是“每一行 = 一个样本”。\n\n① 真\n② 假","trueFalse_6":"若命题为**真**选 ①，**假**选 ②。\n\n只要加法有定义，就有 $A+B=B+A$。\n\n① 真\n② 假","trueFalse_7":"若命题为**真**选 ①，**假**选 ②。\n\n$(cA)^{\\mathsf T}=cA^{\\mathsf T}$。\n\n① 真\n② 假","trueFalse_8":"若命题为**真**选 ①，**假**选 ②。\n\n要使 $I_nA=A$ 成立，$A$ 必须是 $n\\times n$。\n\n① 真\n② 假","trueFalse_9":"若命题为**真**选 ①，**假**选 ②。\n\n第02章的点积与矩阵-向量乘法中的某一行有关联。\n\n① 真\n② 假","calc_0":"已知 $A=\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}$，$\\mathrm{tr}(A)=a_{11}+a_{22}$ 等于多少？\n\n① $5$\n② $4$\n③ $6$\n④ $7$","calc_1":"设 $A=\\begin{pmatrix}1&0\\\\2&-1\\end{pmatrix}$，$B=\\begin{pmatrix}0&1\\\\1&1\\end{pmatrix}$。$(A+B)_{12}$ 是多少？\n\n① $1$\n② $0$\n③ $2$\n④ $-1$","calc_2":"设 $A=\\begin{pmatrix}2&-1\\end{pmatrix}$，$c=3$。$(cA)_{11}$ 是多少？\n\n① $6$\n② $2$\n③ $-3$\n④ $9$","calc_3":"若 $A$ 是 $2\\times 3$，则 $A^{\\mathsf T}$ 有多少个元素？\n\n① $5$\n② $6$\n③ $8$\n④ $9$","calc_4":"已知 $A=\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}$，则 $A^{\\mathsf T}$ 的 $(2,1)$ 元素是？\n\n① $2$\n② $3$\n③ $4$\n④ $1$","calc_5":"设 $A=\\begin{pmatrix}0&1\\\\2&3\\end{pmatrix}$，$B=\\begin{pmatrix}1&-1\\\\0&2\\end{pmatrix}$。$(A+B)_{21}$ 是多少？\n\n① $2$\n② $3$\n③ $1$\n④ $0$","calc_6":"$$A=\\begin{pmatrix}1&2&3\\end{pmatrix}$ 是 $1\\times 3$。$A^{\\mathsf T}$ 的形状是？\n\n① $3\\times 1$\n② $1\\times 3$\n③ $3\\times 3$\n④ $1\\times 1$","calc_7":"已知 $A=\\begin{pmatrix}5\\end{pmatrix}$，则 $A^{\\mathsf T}$ 的形状是什么？（不考虑行列式）\n\n① $1\\times 1$\n② $0\\times 0$\n③ $1\\times 0$\n④ 未定义","calc_8":"矩阵 $A=\\begin{pmatrix}1&2\\\\3&4\\\\5&6\\end{pmatrix}$ 的形状是什么？\n\n① $3\\times 2$\n② $2\\times 3$\n③ $6\\times 1$\n④ $1\\times 6$","calc_9":"设 $\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}$ 的第一列为 $\\mathbf{a}_1$，则 $\\mathbf{a}_1$ 的**第二个分量**是？\n\n① $3$\n② $1$\n③ $2$\n④ $4$","concept_0":"在线性回归中，常见约定把**样本放在行上**，这表示什么？\n\n① 每一行是一个观测（样本）\n② 每一列是一个观测\n③ 只能使用 $1\\times n$\n④ 不使用矩阵","concept_1":"在深度学习中，常见的**二维批量**形状通常如何表示？\n\n① 常写为（批量大小）$\\times$（特征维度）\n② 只能是标量\n③ 批量大小总是 0\n④ 不使用矩阵","concept_2":"与第02章连接时，$A\\mathbf{u}$ 的第 $i$ 个分量是什么？\n\n① $A$ 第 $i$ 行与 $\\mathbf{u}$ 的点积\n② 只与第 $i$ 列做点积\n③ 恒为 0\n④ 迹（对角和）","concept_3":"把矩阵看作**列向量的束**，在什么情况下最合适？\n\n① 每一列表示同类型的特征向量\n② 仅当列是样本时\n③ 仅当行是特征时\n④ 无法转置时","concept_4":"在线性层前把图像**展平**成向量的主要原因是？\n\n① 匹配全连接层期望的向量输入维度\n② 因为图像总是 1 个像素\n③ 因为矩阵被禁止使用\n④ 仅仅为了归一化分类函数","concept_5":"表格数据按**列标准化**通常是什么意思？\n\n① 在同一特征（同一列）内统一尺度\n② 只在行方向处理\n③ 总是加一个常数\n④ 改变矩阵大小","concept_6":"在协同过滤中，用户-物品**评分矩阵**通常意味着什么？\n\n① 行为用户、列为物品（或相反），是轴语义约定\n② 总是 $1\\times 1$\n③ 总是零矩阵\n④ 与点积无关","concept_7":"直觉上，**秩**与什么相关？（细节后续章节讲）\n\n① 独立列方向（或行方向）的数量\n② 总是等于行列式\n③ 总是 0\n④ 转置后总会增大","concept_8":"为什么在矩阵中容易误用**广播机制**？\n\n① 不检查形状就相加，可能悄悄出错\n② 从不需要检查形状\n③ 矩阵总是 $1\\times 1$\n④ 转置恒等于自身","concept_9":"对于矩阵乘法 $AB$（第04章预告），必要条件是什么？\n\n① $A$ 的列数 = $B$ 的行数\n② $A,B$ 必须都是方阵\n③ 总有 $AB=BA$\n④ 乘积总是标量","projection_0":"设 $A\\in\\mathbb{R}^{m\\times n}$，$\\mathbf{u}\\in\\mathbb{R}^n$，则 $A\\mathbf{u}$ 的维度是？\n\n① $m$\n② $n$\n③ $m+n$\n④ $mn$","projection_1":"若 $A$ 的第 $i$ 行为 $\\mathbf{r}_i^{\\mathsf T}$，则 $(A\\mathbf{u})_i$ 等于？\n\n① $\\mathbf{r}_i\\cdot\\mathbf{u}$\n② $\\mathbf{r}_i+\\mathbf{u}$\n③ $\\|\\mathbf{r}_i\\|$\n④ $\\det(A)$","projection_2":"若对**所有** $\\mathbf{u}$ 都有 $A\\mathbf{u}=\\mathbf{0}$，则对 $A$ 的列最合理的推测是？\n\n① 列可能线性相关\n② 恒有 $A=I$\n③ 恒可逆\n④ 所有列范数都为 1","projection_3":"$$\\mathbf{u}\\mathbf{v}^{\\mathsf T}$（外积形式）的秩直觉是什么？\n\n① 对非零向量至多为 1\n② 总是 $n$\n③ 总是 0\n④ 总是可逆","projection_4":"列空间 $\\mathrm{Col}(A)$ 最恰当的描述是？\n\n① 由 $A$ 的列向量线性组合得到的所有向量\n② 总是整个空间\n③ 只包含 $\\{\\mathbf{0}\\}$\n④ 行列式的集合","projection_5":"若方程 $A\\mathbf{x}=\\mathbf{b}$ 有解，则 $\\mathbf{b}$ 必须属于哪里？\n\n① $\\mathrm{Col}(A)$\n② 仅单位球\n③ 仅零向量\n④ $\\mathbb{R}$","projection_6":"按行看矩阵 $A$ 时，每个行向量属于哪个空间？（按元素个数）\n\n① $\\mathbb{R}^n$\n② $\\mathbb{R}^m$\n③ $\\mathbb{R}^{mn}$\n④ $\\mathbb{R}$","projection_7":"设 $A\\in\\mathbb{R}^{m\\times n}$，标准基 $\\mathbf{e}_j\\in\\mathbb{R}^n$，则 $A\\mathbf{e}_j$ 是什么？\n\n① $A$ 的第 $j$ 列\n② $A$ 的第 $j$ 行\n③ 恒为 0\n④ 只有 $(j,j)$ 元素","projection_8":"若数据矩阵 $X$ 把**样本放在行上**，则 $X^{\\mathsf T}$ 交换了什么？\n\n① 样本轴与特征轴\n② 什么都不变\n③ 总会变成方阵\n④ 总会变成零矩阵","projection_9":"从线性映射角度看，$A\\mathbf{u}$ 表示什么？\n\n① 映射 $\\mathbb{R}^n\\to\\mathbb{R}^m$ 下 $\\mathbf{u}$ 的像\n② 总是保持长度\n③ 总是纯旋转\n④ 总是概率向量","scenario_0":"在常见机器学习工具中，若特征矩阵 **X** 采用“样本在行”约定，常见形状是？\n\n① (样本数)$\\times$(特征数)\n② 只能是 (特征数)$\\times$(样本数)\n③ 总是 $1\\times 1$\n④ (类别数)$\\times$(批量)","scenario_1":"批量大小为 32、特征维度为 128 的二维张量，通常按矩阵读作哪种形状？\n\n① $32\\times 128$\n② 只能是 $128\\times 32$\n③ $32\\times 32$\n④ $128\\times 128$","scenario_2":"卷积后接全连接层之前，为什么要**展平**？\n\n① 全连接层需要向量输入\n② 只是因为归一化分类函数\n③ 图像总是一维\n④ 为了关闭反向传播","scenario_3":"用**列均值**填补缺失值时，均值通常沿哪个方向计算？\n\n① 同一列（同一特征）\n② 仅按行\n③ 仅对角线\n④ 用一个全局标量","scenario_4":"在协同过滤中，评分矩阵 $R$ 非常**稀疏**意味着什么？\n\n① 大多数元素未被观测\n② 所有元素都为 1\n③ 总是可逆\n④ 不使用矩阵","scenario_5":"把**句向量按行堆叠**通常意味着什么？\n\n① 每一行对应一个句子（或池化后向量）\n② 列总是句子\n③ 总是 $1\\times 1$\n④ 只与归一化分类函数有关","scenario_6":"在图形处理器上，性能通常与什么密切相关？\n\n① 内存布局/步幅与张量形状\n② 矩阵总是标量\n③ 转置总是零成本\n④ 秩总是 0","scenario_7":"仅根据第03章，哪种说法最容易被夸大？\n\n① “有矩阵就代表深度学习一定最优”\n② 数据常是表格形式\n③ 维度匹配很重要\n④ 转置会交换轴","scenario_8":"将 $H\\times W$ 的灰度图展平后，向量长度是多少？\n\n① $H\\times W$\n② $H+W$\n③ $\\max(H,W)$\n④ $1$","scenario_9":"第04章预告：在 $\\mathbf{y}=W\\mathbf{x}+\\mathbf{b}$ 中，$W$ 表示什么？\n\n① 混合特征的线性变换\n② 总是一次标量乘法\n③ 总是归一化分类函数\n④ 总是损失函数"},"problemAnswers":{"definition_0":2,"definition_1":1,"definition_2":1,"definition_3":1,"definition_4":1,"definition_5":1,"definition_6":1,"definition_7":1,"definition_8":1,"definition_9":1,"trueFalse_0":1,"trueFalse_1":1,"trueFalse_2":1,"trueFalse_3":2,"trueFalse_4":1,"trueFalse_5":1,"trueFalse_6":1,"trueFalse_7":1,"trueFalse_8":2,"trueFalse_9":1,"calc_0":1,"calc_1":1,"calc_2":1,"calc_3":2,"calc_4":1,"calc_5":1,"calc_6":1,"calc_7":1,"calc_8":1,"calc_9":1,"concept_0":1,"concept_1":1,"concept_2":1,"concept_3":1,"concept_4":1,"concept_5":1,"concept_6":1,"concept_7":1,"concept_8":1,"concept_9":1,"projection_0":1,"projection_1":1,"projection_2":1,"projection_3":1,"projection_4":1,"projection_5":1,"projection_6":1,"projection_7":1,"projection_8":1,"projection_9":1,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1},"problemSolutions":{"definition_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ②**","definition_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","definition_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ②**","trueFalse_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","trueFalse_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ②**","trueFalse_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ②**","calc_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","calc_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","concept_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","projection_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_0":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_1":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_2":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_3":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_4":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_5":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_6":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_7":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_8":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**","scenario_9":"**1) 步骤：** 先判断题型是定义、计算还是应用。 **2) 示例：** 可用一个小的 $2\\times 2$ 数值例子来避免维度错误。 **3) 正确答案 ①**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 1\nassert answer == 1","definition_2":"answer = 1\nassert answer == 1","definition_3":"answer = 1\nassert answer == 1","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 1\nassert answer == 1","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 1\nassert answer == 1","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 1\nassert answer == 1","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 2\nassert answer == 2","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 1\nassert answer == 1","trueFalse_6":"answer = 1\nassert answer == 1","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 2\nassert answer == 2","trueFalse_9":"answer = 1\nassert answer == 1","calc_0":"answer = 1\nassert answer == 1","calc_1":"answer = 1\nassert answer == 1","calc_2":"answer = 1\nassert answer == 1","calc_3":"answer = 2\nassert answer == 2","calc_4":"answer = 1\nassert answer == 1","calc_5":"answer = 1\nassert answer == 1","calc_6":"answer = 1\nassert answer == 1","calc_7":"answer = 1\nassert answer == 1","calc_8":"answer = 1\nassert answer == 1","calc_9":"answer = 1\nassert answer == 1","concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 1\nassert answer == 1","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 1\nassert answer == 1","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 1\nassert answer == 1","concept_9":"answer = 1\nassert answer == 1","projection_0":"answer = 1\nassert answer == 1","projection_1":"answer = 1\nassert answer == 1","projection_2":"answer = 1\nassert answer == 1","projection_3":"answer = 1\nassert answer == 1","projection_4":"answer = 1\nassert answer == 1","projection_5":"answer = 1\nassert answer == 1","projection_6":"answer = 1\nassert answer == 1","projection_7":"answer = 1\nassert answer == 1","projection_8":"answer = 1\nassert answer == 1","projection_9":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1"}},"midMathCh04":{"chapter":"Chapter 04","title":"矩阵乘法与线性变换：设计数据的智能滤镜","description":"矩阵乘法不只是把许多数字加减乘除的枯燥运算。矩阵与**数码照片编辑器里的智能滤镜**一样，负责旋转、扭曲、压缩原始数据。本章将深入**线性变换（Linear Transformation）**：把一份数据（向量）放进编辑器（矩阵），映射到截然不同的“空间”。我们还会拆解深度学习最根本的骨架 $\\mathbf{y} = W\\mathbf{x} + \\mathbf{b}$ 具有怎样的数学含义、如何运作。","sectionTitle":"矩阵乘法与线性变换：自如编辑空间","sectionLabels":{"whatIs":"概念是什么","whyImportant":"为何重要","howUsed":"如何应用","problemSolving":"解题提示"},"visualShort":"矩阵×向量 = 一次挪动坐标 · 矩阵乘 = 串联变换","visualIntro":"矩阵 $A$ 乘向量，就是**把各分量按规则混成新向量**。**$AB$** 表示“先 $B$ 再 $A$”，**写成一个乘积**。想到格子被倾斜，就够用。","visualStep1":"概念：$A\\in\\mathbb{R}^{m\\times n}$ 是 $\\mathbb{R}^n\\to\\mathbb{R}^m$ 的线性映射","visualStep2":"直观：格子与向量倾斜、拉伸（原点不动）","visualStep3":"公式：$(AB)_{ij}$ 为第 $i$ 行与第 $j$ 列的内积，$(AB)\\mathbf{x}=A(B\\mathbf{x})$","visualStep4":"应用：全连接层、批量矩阵乘、注意力分数","visualStepsLabel":"阅读顺序","visualFlowTitle":"学习脉络","visualFlowStep0":"概念：线性变换 = 矩阵 × 向量","visualFlowStep1":"直观：平面格子变形与复合","visualFlowStep2":"公式：乘法规则 · 转置 · 复合","visualFlowStep3":"衔接：Ch.02 内积 = 矩阵乘的一行","visualFlowStep4":"应用：FC 层 · 批量 · 分数矩阵","mapVisualStep1":"① 输入 x","mapVisualStep2":"② 乘上 A","mapVisualStep3":"③ 得 Ax · 在蓝面上","mapVisualPanelLeft":"输入区","mapVisualPanelRight":"输出区","dotVisualAnimateHint":"同一平面上方格经 A 变为平行四边形，点 x 变为 Ax。","dotVisualPhaseHint0":"**1/4** 只动 $x_1$，$x_2$ 固定。输出只沿**第一列**方向滑动（橙段）。","dotVisualPhaseHint1":"**2/4** 只动 $x_2$，$x_1$ 固定。输出只沿**第二列**方向移动（青绿段）。","dotVisualPhaseHint2":"**3/4** $x_1=x_2$ 同步变化。输出沿**两列之和**的方向。","dotVisualPhaseHint3":"**4/4** $(x_1,x_2)$ 画圆，输出在**蓝面**上绕行。","dotVisualHudCoeffLine":"$$x_1={x1}$, $x_2={x2}$","dotVisualDecompKey":"","dotVisualEasyHook":"**一句话：** $A\\mathbf{x}$ 把 **输入 $\\mathbf{x}$ 一下子挪到新位置**。右边**大绿框**是“答案允许待的大范围”，**蓝面**是“**真的**能落到的底”（$A$ 的列张成的空间）。","dotVisualAriaLabel":"单位正方形格子经矩阵 A 变为平行四边形，点 x 变为 Ax","dotVisualMainTitle":"方格 → $A$ → 拉歪的格","dotVisualPlotTitle":"左边**同一坐标**的点，右边**一步**到位；整片格子一起被拉长。","dotVisualMetricsTitle":"记住这张图就够","dotVisualHudDot":"","dotVisualHudCos":"$$T(\\mathbf{x})=A\\mathbf{x}$。**$T$** 表示“用矩阵 $A$ 做**线性变换**”的**名字（函数记号）**。**$T(\\mathbf{x})$** 即“把 $\\mathbf{x}$ 经过 $T$ 变换后的结果”，与 **$A\\mathbf{x}$** 同一含义。","dotVisualHudPlain":"**蓝区** = 由 $A$ 的**两列向量**张成的平行四边形。**$T(\\mathbf{x})=A\\mathbf{x}$** 总落在**其内**（两列线性组合可达的范围）。","dotVisualHudProj":"列空间","dotVisualLegendU":"输入 / 框","dotVisualLegendV":"$$A$","dotVisualLegendProj":"能到的面","dotVisualLegendRes":"$$\\mathbf{x} \\mapsto A\\mathbf{x}$","dotVisualInsetLabel":"t","mapVisualDomainCaption":"输入","mapVisualCodomainCaption":"允许的范围","mapVisualRangeCaption":"实际能到的面","mapVisualRnLabel":"ℝ²","mapVisualRnSubLabel":"实数坐标平面 · 输入","mapVisualRnSvgTitle":"ℝ²：输入所在的二维实数空间（坐标对）。与回归里的 R² 不是同一记号。","mapVisualRnA11y":"ℝ²：输入所在的二维实数空间（坐标对）。与回归里的 R² 不是同一记号。","mapVisualRmLabel":"ℝ²","mapVisualRmSubLabel":"实数坐标平面 · 输出","mapVisualRmSvgTitle":"ℝ²：绘制变换后点的二维实数空间；本图中与输入同维。","mapVisualRmA11y":"ℝ²：绘制变换后点的二维实数空间；本图中与输入同维。","mapVisualLabelX":"x","mapVisualLabelTx":"Ax","mapVisualLabelMap":"A","mapVisualMapHint":"**橙色 A 标记：** 本图使用的 **矩阵 $A$**（线性变换）。用它左乘左侧坐标 $\\mathbf{x}$，得到右侧的点 $A\\mathbf{x}$。","mapVisualCol1Tag":"a₁","mapVisualCol2Tag":"a₂","mapVisualGhostHint":"灰虚线 = A=I 时的正方形","dotVisualCaption":"**$A\\mathbf{x}$** 就是“按 $A$ 的规则混合 $\\mathbf{x}$ 的分量”。左边 **输入** 动，右边答案只在 **蓝面** 上。**$AB$** 想成 **串联**：先 $B$ 再 $A$。","whatIs":{"0":"**1. 线性变换（Linear Transformation）：图像编辑里的「自由变换」工具**\n\n**概念：** 想象透明网格上画好的图被放进 Photoshop：拖动角点斜向拉伸、旋转 45°、剪切压扁——几何里说的**线性变换**就是这类操作。\n\n**严格规则：** 有两条绝不能破坏的程序规则。第一，图像正中央的**原点 $(0,0)$ 变换后仍在原处**。第二，**原本是直线的仍保持笔直**，彼此平行的线变换后仍平行。","1":"**2. 矩阵×向量 ($A\\mathbf{x}$)：给原图加滤镜**\n\n**概念：** **向量 $\\mathbf{x}$** 是尚未加效果的「原始数据（点的位置）」，**矩阵 $A$** 是按特定角度与比例扭曲的**智能滤镜（变换规则）**。把滤镜套在原图上的操作记为 $A\\mathbf{x}$（矩阵 $A$ 作用于 $\\mathbf{x}$）。\n\n**深度学习中的用法：** 神经网络的一层用同一技巧写出 **$\\mathbf{y} = W\\mathbf{x} + \\mathbf{b}$**。\n* $W$（权重矩阵）：把数据扭成更易分析的角度与比例（线性变换）。\n* $\\mathbf{b}$（偏置向量）：像拖动图层那样整体平移。\n经过「变形 + 平移」得到的结果 $\\mathbf{y}$ 会传到下一层。","2":"**3. 矩阵×矩阵 ($AB$)：多个滤镜按顺序叠上去**\n\n**概念：** 矩阵 $A$ 与 $B$ 相乘表示**连续应用**两种编辑滤镜。注意 $AB$ 的式子**从右向左**读，所以是**先应用 $B$，再把结果套上 $A$**。\n\n**核心（$AB \\neq BA$）：**「横向拉伸 2 倍再旋转 90°」会得到**又高又窄**的图；「先旋转 90° 再横向拉伸 2 倍」会得到**又宽又扁**的图。顺序改变结果就变，因此**$AB \\neq BA$（交换律一般不成立）**非常重要。","3":"**4. 矩阵乘法的维度匹配：接对口一致的线缆**\n\n**概念：** 叠多个滤镜时，前后接口规格要对上：左矩阵的**列数**与右矩阵的**行数**必须完全一致，运算才能咬合。\n\n**核心公式：** $(m\\times n)$ 与 $(n\\times p)$ 相乘时，相接的 $n$ 在计算中被吸收，输出 **$(m\\times p)$**。实务里常对 $W$ 做**转置**，把数据 $X$ 与权重规格对齐，写成 **$Y = XW^{\\mathsf{T}}$** 再计算。","4":"**5. 变换示例：把三维“压”到平面上**\n\n**示例 1** 把三维点 $(x_1,x_2,x_3)$ 映到 $z=0$ 的 $xy$ 平面（丢掉第三个坐标）的线性变换可写成：\n\n$$A=\\begin{pmatrix}1&0&0\\\\0&1&0\\\\0&0&0\\end{pmatrix}$$\n\n**规则：** $\\mathbf{x}\\mapsto A\\mathbf{x}$。下面把同一乘积按 **逐行内积** 展开。\n\n**第 1 步 — 写出乘积** 设 $\\mathbf{x}=(x_1,x_2,x_3)^{\\mathsf T}$，则\n\n$$A\\mathbf{x}=\\begin{pmatrix}1&0&0\\\\0&1&0\\\\0&0&0\\end{pmatrix}\\begin{pmatrix}x_1\\\\x_2\\\\x_3\\end{pmatrix}$$\n\n**第 2 步 — 每一行与 $\\mathbf{x}$ 内积**（第 $i$ 个分量 = $A$ 的第 $i$ 行 · $\\mathbf{x}$）\n\n$$\\begin{aligned}\ny_1 &= 1\\cdot x_1+0\\cdot x_2+0\\cdot x_3 = x_1,\\\\\ny_2 &= 0\\cdot x_1+1\\cdot x_2+0\\cdot x_3 = x_2,\\\\\ny_3 &= 0\\cdot x_1+0\\cdot x_2+0\\cdot x_3 = 0.\n\\end{aligned}$$\n\n**第 3 步 — 结果向量**\n\n$$A\\mathbf{x}=\\begin{pmatrix}y_1\\\\y_2\\\\y_3\\end{pmatrix}=\\begin{pmatrix}x_1\\\\x_2\\\\0\\end{pmatrix}$$\n\n也就是 **保留 $x_1,x_2$，把 $x_3$ 变为 0。** 几何上这是过原点的 $xy$ 平面的**正交投影**；用**一次矩阵乘法**就表达了“去掉一维信息”的滤镜，并与 Ch.02 的内积、投影直觉相连。"},"whyImportant":{"bridge":"**一次处理数十万像素的并行魔法**\n\n编辑高分辨率照片时，若逐像素手写计算，一天都不够。矩阵乘法把无数点收进**一张大表（矩阵）**，变换规则也用**另一张矩阵**表达，于是「加滤镜」的直觉就落成**一次矩阵乘**。\n\nGPU 为这种乘法做了**成千上万核心并行**的设计。TensorFlow、PyTorch 里常见的**批量 GEMM**，把多样本堆成 $X$，再乘以 $W$，用 **$Y = XW^{\\mathsf{T}}$** 一口气推过整个小批量。深度学习能高速吞吐数据，归根结底是因为**矩阵这一通用格式**能把硬件并行性吃满。","similarity":"**贯穿所有人工智能模型的共同语言**\n\n无论是 Netflix 推荐、特斯拉车道线，还是 ChatGPT 对话，最底层都在跑 **$Y = XW^{\\mathsf{T}}$** 这种矩阵乘。全连接层、嵌入、注意力分数——名字不同，根子都是**矩阵×矩阵**。\n\n有了这份感觉，遇到 **Shape mismatch** 时能更快判断**哪一块尺寸没对上**。左矩阵列数必须等于右矩阵行数，就像**线缆规格要对口**。习惯这套「共同语言」后，不同领域的论文、代码、日志都能用**同一张地图**来读。"},"howUsed":{"ml":"**1）Transformer 与注意力：用词与词之间的「关注地图」**\n\nChatGPT 类模型的核心是**注意力**：计算句子中词与词该多互相关注。**$QK^{\\mathsf{T}}$** 快速填满「这个词看那个词有多用力」的原始分数；再经 softmax 与 $V$ 的加权和，得到**缩放点积注意力**。一句话：**先用矩阵乘画关系图，再用同一套代数做加权混合**。\n\n**2）线性层与批量学习：整批一次算**\n\n全连接层重复 $\\mathbf{y} = W\\mathbf{x} + \\mathbf{b}$。训练时把 $N$ 个样本排成 $X$，常写成 **$Y = XW^{\\mathsf{T}} + \\mathbf{1}\\mathbf{b}^{\\mathsf{T}}$** 一次处理。卷积在展开后也可看成**大矩阵乘**，所以框架底层大量用 **GEMM**。\n\n**3）嵌入与推荐：语义向量互相对照**\n\n词、用户、物品变成向量后，用**内积或矩阵乘**得到相似度与分数，驱动推荐、搜索、排序——等于用**一张矩阵**概括「谁离谁近」。","geometry":"**1）PCA 与降维：把千维压成「影子」**\n\n人很难直观想象三维以上，但数据常是成百上千维。**PCA** 把协方差写成矩阵，选**特征向量方向**（方差大的轴），再把数据**投影**上去。写成线性变换，就是「压掉无用方向、只留关键轴」。你看到的二维散点图，其实是高维云被矩阵**压扁后的影子**。\n\n**2）几何直觉：为后面的特征值、行列式预习**\n\n同一线性变换在不同方向上**伸缩不同**；特殊方向是**特征向量**，伸缩比是**特征值**。本章掌握的「列张成的平行四边形」与合成 $AB$，会让 Ch.05 之后的**可逆性、行列式、谱**更好理解。\n\n**3）计算机图形学：上到屏幕仍是矩阵**\n\n游戏、CAD 里旋转、平移、透视用**齐次坐标**和**矩阵乘**。「把 3D 场景投到 2D 屏」同样是**用矩阵一次搬坐标**。深度学习和 CG 看似不同，在**用矩阵处理空间**上共用同一套工具箱。"},"summary":"**给实务者的要点：** 矩阵乘法不是把数据看成一堆一维数字，而是在多维空间里扭、转、压的**动态空间变换工具（$\\mathbf{y} = W\\mathbf{x} + \\mathbf{b}$）**。堆多层时，**规格（$(m \\times n) \\times (n \\times p)$）**先对齐最重要；还要牢记变换顺序（$AB \\neq BA$）会彻底改变结果。","problemSolving":{"focus":"下表汇总了**维度规则**与**常用公式**。例题按典型类型分步说明。","examplesHeading":"例题","examplesTable":"**例 1 — 乘积形状**\n\n问：$A$ 为 $4\\times 7$，$B$ 为 $7\\times 3$，则 $AB$ 是？\n\n答：$4\\times 3$。\n\n---\n\n**例 2 — 合成顺序**\n\n问：对 $\\mathbf{x}$ 先 $B$ 再 $A$ 对应的矩阵是？\n\n答：$AB$。\n\n---\n\n**例 3 — 转置**\n\n问：$(AB)^{\\mathsf T}$ 是？\n\n答：$B^{\\mathsf T}A^{\\mathsf T}$。\n\n---\n\n**例 4 — 列视角**\n\n问：$A\\mathbf{e}_2$ 是？\n\n答：$A$ 的第 2 **列**。\n\n---\n\n**例 5 — 批量**\n\n问：行是样本的 $X$ 上如何一次做线性层？\n\n答：常用 $XW^{\\mathsf T}$ 形式。"},"problemSolvingLabel":"解题说明","problemSolvingTable":"| 符号 | 含义 |\n| :--- | :--- |\n| $AB$ | 当 $A$ 的列数 = $B$ 的行数时有定义 |\n| $(AB)_{ij}$ | $A$ 的第 $i$ 行与 $B$ 的第 $j$ 列的内积 |\n| $A\\mathbf{x}$ | 由 $A$ 的各行与 $\\mathbf{x}$ 的内积组成的向量 |\n| $(AB)^{\\mathsf T}$ | $B^{\\mathsf T}A^{\\mathsf T}$ |\n| 合成 | $\\mathbf{x}\\mapsto A(B\\mathbf{x})=(AB)\\mathbf{x}$ |\n| 线性层 | $\\mathbf{y}=W\\mathbf{x}+\\mathbf{b}$（权重 $W$，偏置 $\\mathbf{b}$） |\n\n**① 维度** 相乘前**内侧两个数**必须一致。\n\n**② 批量** 行是样本时，对每行用同一个 $W$，用 `GEMM` 处理。","practiceProblemsTitle":"练习题","practiceProblemsIntro":"","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","problems":{"definition_0":"设 $A\\in\\mathbb{R}^{m\\times n}$, $B\\in\\mathbb{R}^{p\\times q}$，要使乘积 $AB$ **有定义**，必要条件是？\n\n① $m=p$\n② $n=p$\n③ $m=q$\n④ $n=m$","definition_1":"$$(AB)_{ij}$ 的正确定义是？（$A$ 的第 $i$ **行**，$B$ 的第 $j$ **列**）\n\n① $a_{ij}b_{ij}$\n② $A$ 的第 $i$ 行与 $B$ 的第 $j$ 列的**点积**\n③ $a_{ij}+b_{ij}$\n④ $a_{ji}b_{ji}$","definition_2":"设 $A\\in\\mathbb{R}^{m\\times n}$, $B\\in\\mathbb{R}^{n\\times p}$，则 $AB$ 的形状是？\n\n① $m\\times p$\n② $n\\times n$\n③ $m\\times n$\n④ $p\\times m$","definition_3":"设 $A\\in\\mathbb{R}^{m\\times n}$，要使 $AI_n=A$，单位矩阵 $I_n$ 的尺寸应是？\n\n① $n\\times n$\n② $m\\times m$\n③ $m\\times n$\n④ $n\\times m$","definition_4":"设 $A\\in\\mathbb{R}^{m\\times n}$，要使 $I_m A=A$，$I_m$ 的尺寸应是？\n\n① $m\\times m$\n② $n\\times n$\n③ $m\\times n$\n④ $n\\times m$","definition_5":"关于 $(AB)^{\\mathsf T}$ 的转置规则，正确的是？\n\n① $A^{\\mathsf T}B^{\\mathsf T}$\n② $B^{\\mathsf T}A^{\\mathsf T}$\n③ $(A^{\\mathsf T})^{\\mathsf T}B$\n④ $AB^{\\mathsf T}$","definition_6":"设 $A\\in\\mathbb{R}^{m\\times n}$，列向量 $\\mathbf{u}\\in\\mathbb{R}^n$，则 $A\\mathbf{u}$ 属于哪个空间？\n\n① $\\mathbb{R}^m$\n② $\\mathbb{R}^n$\n③ $\\mathbb{R}^{mn}$\n④ $\\mathbb{R}^{m+n}$","definition_7":"对线性映射 $T(\\mathbf{x})=A\\mathbf{x}$，下列哪一项**恒**成立？\n\n① $T(\\mathbf{0})=\\mathbf{0}$\n② $T(\\mathbf{x})=\\mathbf{x}$\n③ $\\|T(\\mathbf{x})\\|=\\|\\mathbf{x}\\|$\n④ $T(\\mathbf{x}+\\mathbf{y})=T(\\mathbf{x})T(\\mathbf{y})$","definition_8":"关于 $\\mathrm{rank}(AB)$ 与 $\\mathrm{rank}(A)$、$\\mathrm{rank}(B)$，**恒**成立的不等式是？\n\n① $\\mathrm{rank}(AB)\\ge \\mathrm{rank}(A)$\n② $\\mathrm{rank}(AB)\\le \\min(\\mathrm{rank}(A),\\mathrm{rank}(B))$\n③ $\\mathrm{rank}(AB)=\\mathrm{rank}(A)+\\mathrm{rank}(B)$\n④ $\\mathrm{rank}(AB)=mn$","definition_9":"在欧氏空间中，“先 $B$ 再 $A$”的合成变换的矩阵（列向量约定）是？\n\n① $AB$\n② $BA$\n③ $A+B$\n④ $A^{\\mathsf T}B^{\\mathsf T}$","trueFalse_0":"若命题为**真**选 ①，为**假**选 ②。\n\n对任意方阵 $A,B$，都有 $AB=BA$。\n\n① 真\n② 假","trueFalse_1":"只要乘法有定义，$(AB)C=A(BC)$。\n\n① 真\n② 假","trueFalse_2":"只要加法与乘法有定义，$A(B+C)=AB+AC$。\n\n① 真\n② 假","trueFalse_3":"若 $AB=O$，是否必有 $A=O$ 或 $B=O$？\n\n① 真\n② 假","trueFalse_4":"对方阵是否总有 $(A+B)^2=A^2+2AB+B^2$？\n\n① 真\n② 假","trueFalse_5":"同阶方阵 $A,B$ 是否总有 $\\det(AB)=\\det(A)\\det(B)$？\n\n① 真\n② 假","trueFalse_6":"线性映射 $T(\\mathbf{x})=A\\mathbf{x}$ 是否总有 $T(\\mathbf{0})=\\mathbf{0}$？\n\n① 真\n② 假","trueFalse_7":"正交矩阵 $Q$ 是否满足 $Q^{\\mathsf T}Q=I$？\n\n① 真\n② 假","trueFalse_8":"给所有向量乘以标量 $c$ 的变换是否可用矩阵 $cI$ 表示？\n\n① 真\n② 假","trueFalse_9":"若批矩阵 $X$ 的**每一行**是一个样本，逐行应用 $\\mathbf{y}^{\\mathsf T}=\\mathbf{x}^{\\mathsf T}W^{\\mathsf T}$ 是否等价于对每个样本乘**同一个** $W^{\\mathsf T}$？\n\n① 真\n② 假","calc_0":"设 $A=\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}$, $B=\\begin{pmatrix}0&1\\\\1&0\\end{pmatrix}$，则 $(AB)_{11}$ 为？\n\n① $2$\n② $1$\n③ $3$\n④ $0$","calc_1":"设 $A=\\begin{pmatrix}1&0\\\\0&2\\end{pmatrix}$, $\\mathbf{x}=\\begin{pmatrix}3\\\\4\\end{pmatrix}$，则 $A\\mathbf{x}$ 的第一个分量为？\n\n① $3$\n② $4$\n③ $7$\n④ $12$","calc_2":"设 $R=\\begin{pmatrix}0&-1\\\\1&0\\end{pmatrix}$（逆时针 $90^\\circ$ 旋转），则 $R\\begin{pmatrix}1\\\\0\\end{pmatrix}$ 为？\n\n① $\\begin{pmatrix}0\\\\1\\end{pmatrix}$\n② $\\begin{pmatrix}1\\\\0\\end{pmatrix}$\n③ $\\begin{pmatrix}-1\\\\0\\end{pmatrix}$\n④ $\\begin{pmatrix}0\\\\-1\\end{pmatrix}$","calc_3":"$$\\begin{pmatrix}2&1\\\\0&3\\end{pmatrix}\\begin{pmatrix}1&1\\\\0&1\\end{pmatrix}$ 的 $(2,2)$ 元素为？\n\n① $3$\n② $4$\n③ $6$\n④ $0$","calc_4":"$$\\begin{pmatrix}1&2&3\\end{pmatrix}\\begin{pmatrix}4\\\\5\\\\6\\end{pmatrix}$ 的值为？\n\n① $32$\n② $21$\n③ $18$\n④ $720$","calc_5":"设 $A=\\begin{pmatrix}1&1\\\\0&1\\end{pmatrix}^2$，则 $A$ 的 $(1,2)$ 元素为？\n\n① $2$\n② $1$\n③ $0$\n④ $3$","calc_6":"$$\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}\\begin{pmatrix}1&0\\\\0&0\\end{pmatrix}$ 的 $(2,1)$ 元素为？\n\n① $3$\n② $1$\n③ $0$\n④ $4$","calc_7":"设 $B=\\begin{pmatrix}1&2\\\\3&4\\end{pmatrix}$，则 $B\\mathbf{e}_1$（第一标准基）为？\n\n① $B$ 的第**一列**\n② $B$ 的第**一行**\n③ 零向量\n④ $(1,0)^{\\mathsf T}$","calc_8":"设 $A=\\begin{pmatrix}1&0\\\\0&0\\end{pmatrix}$, $B=\\begin{pmatrix}0&0\\\\0&1\\end{pmatrix}$，则 $AB$ 为？\n\n① 零矩阵\n② $I_2$\n③ $\\begin{pmatrix}1&0\\\\0&1\\end{pmatrix}$\n④ $\\begin{pmatrix}0&1\\\\1&0\\end{pmatrix}$","calc_9":"$$\\begin{pmatrix}3\\end{pmatrix}\\begin{pmatrix}2\\end{pmatrix}$（均为 $1\\times 1$）的乘积为？\n\n① $\\begin{pmatrix}6\\end{pmatrix}$\n② $5$\n③ 无定义\n④ $13$","concept_0":"全连接层中 $\\mathbf{y}=W\\mathbf{x}+\\mathbf{b}$ 的 $W$ 的作用最接近？\n\n① 用**线性组合**混合输入特征得到新特征\n② 总是输出概率\n③ 总是旋转图像\n④ 直接最小化损失","concept_1":"批大小 $B$、输入维 $d_{in}$、输出维 $d_{out}$ 时，线性层参数 $W\\in\\mathbb{R}^{d_{out}\\times d_{in}}$ 的**元素个数**为？\n\n① $d_{out}\\times d_{in}$\n② $B\\times d_{in}$\n③ $d_{in}+d_{out}$\n④ $B\\times d_{out}$","concept_2":"矩阵向量积 $A\\mathbf{u}$ 的第 $i$ 个坐标对应 Ch.02 的哪种运算？\n\n① $A$ 的第 $i$ 行与 $\\mathbf{u}$ 的点积\n② 仅外积\n③ $\\mathbf{u}$ 的范数\n④ 行列式","concept_3":"若深层网络只有线性层，从数学上看“加深”主要是？\n\n① 矩阵乘积（及偏置）的合成\n② 总是加同一矩阵\n③ 只算行列式\n④ 只重复转置","concept_4":"小批量输入 $X\\in\\mathbb{R}^{B\\times d_{in}}$ 与权重 $W\\in\\mathbb{R}^{d_{out}\\times d_{in}}$，一次性写出逐行同一线性变换的式子是？\n\n① $XW^{\\mathsf T}$\n② $WX$（总有定义）\n③ $X+X$\n④ 只能 $W^{\\mathsf T}X^{\\mathsf T}$","concept_5":"只看激活 $\\sigma$ **之前**的线性部分，一层对应？\n\n① 线性映射（矩阵）\n② 总是纯非线性\n③ 总是 softmax\n④ 损失函数","concept_6":"对 Ch.03 中“样本为行”的数据矩阵 $X$ 应用线性层时，**维度**上首先要做的是？\n\n① 使 $X$ 与 $W$ 形状匹配以便乘法有定义\n② 禁止转置\n③ 把矩阵压成标量\n④ 把样本数设为 1","concept_7":"矩阵乘法通常不满足**交换律**的直观原因是？\n\n① “后施加的变换”与“先施加的变换”顺序互换可能改变结果\n② 矩阵总对称\n③ 没有点积\n④ 没有逆矩阵","concept_8":"线性回归预测 $\\hat{\\mathbf{y}}=X\\boldsymbol{\\beta}$ 中，从线性代数看 $X\\boldsymbol{\\beta}$ 是？\n\n① 设计矩阵各列以 $\\boldsymbol{\\beta}$ 为系数的线性组合\n② 总是向量范数\n③ 行列式\n④ 只能特征分解","concept_9":"矩阵 $A$ 表示的线性变换的“输出能到达的范围”直观上最接近？\n\n① 列空间（Column space）\n② 单位球\n③ 单个标量\n④ 总是全空间","projection_0":"标准基 $\\mathbf{e}_j\\in\\mathbb{R}^n$，$A\\mathbf{e}_j$ 等于？\n\n① $A$ 的第 $j$ **列**\n② $A$ 的第 $j$ **行**\n③ 总是零向量\n④ 只剩 $j$ 行 $j$ 列的向量","projection_1":"若对所有 $\\mathbf{x}$ 有 $A\\mathbf{x}=\\mathbf{0}$，则 $\\mathrm{rank}(A)$ 为？\n\n① $0$\n② 总是 $n$\n③ 总是 $m$\n④ 总是 $\\min(m,n)$","projection_2":"设 $A\\in\\mathbb{R}^{m\\times n}$，集合 $\\{A\\mathbf{x}: \\mathbf{x}\\in\\mathbb{R}^n\\}$ 是？\n\n① $A$ 的**列空间**\n② 总是 $\\mathbb{R}^m$\n③ 总是 $\\{\\mathbf{0}\\}$\n④ 总等于行空间","projection_3":"合成 $A(B\\mathbf{x})=(AB)\\mathbf{x}$ 说明？\n\n① 线性变换的**合成**对应矩阵乘法\n② 总有 $AB=BA$\n③ 矩阵乘法可交换\n④ 与点积无关","projection_4":"若 $P$ 为投影矩阵（$P^2=P$），$P\\mathbf{x}$ 直观上是？\n\n① 投影到某个子空间\n② 总是只旋转\n③ 总是全局可逆\n④ 总是标量倍","projection_5":"设 $A\\in\\mathbb{R}^{m\\times n}$, $m0$ 的 $2\\times2$ 实矩阵 $A$，其线性映射的定向(orientation)如何？\n\n① 保持（不镜像翻转）\n② 必对称\n③ 只有旋转\n④ 必可对角化","concept_9":"在 $\\mathbb{R}^3$ 中，由 $A$ 的三列张成的平行六面体体积为？\n\n① $\\lvert\\det([\\mathbf{a}_1\\ \\mathbf{a}_2\\ \\mathbf{a}_3])\\rvert$\n② 各列范数之和\n③ $\\mathrm{tr}(A)$\n④ 恒为 $1$","projection_0":"沿某一行/列对 $\\det(A)$ 做拉普拉斯（代数余子式）展开是？\n\n① 标准且恒成立的方法之一\n② 仅对 $3\\times3$ 有定义\n③ 仅对称矩阵成立\n④ 转置后恒为 $0$","projection_1":"伴随矩阵满足：\n\n① $A\\,\\mathrm{adj}(A)=\\det(A)\\,I$\n② $A\\,\\mathrm{adj}(A)=I$\n③ $\\mathrm{adj}(A)=A^{-1}$\n④ $\\det(\\mathrm{adj}(A))=0$","projection_2":"对可逆 $A$，$\\det(A^{-1}BA)$ 等于？\n\n① $\\det(B)$\n② $\\det(A)$\n③ $\\det(A^{-1})$\n④ $\\det(A)+\\det(B)$","projection_3":"若 $\\lambda$ 是 $A$ 的特征值，则必有？\n\n① $\\det(A-\\lambda I)=0$\n② $\\det(A-\\lambda I)=1$\n③ $\\det(A)=\\lambda$\n④ $A=\\lambda I$","projection_4":"用克拉默法则求 $3\\times3$ 方程组三个坐标，一般需要多少个行列式？\n\n① $4$\n② $1$\n③ $9$\n④ 仅 $3$","projection_5":"对方块分块对角 $\\begin{pmatrix}A&0\\\\0&D\\end{pmatrix}$，$\\det$ 等于？\n\n① $\\det(A)\\det(D)$\n② $\\det(A)+\\det(D)$\n③ $\\det(AD)$\n④ $0$","projection_6":"交换矩阵的两行：\n\n① $\\det$ 变号\n② $\\det$ 不变\n③ 必有 $\\det=0$\n④ $\\det$ 加倍","projection_7":"把一行的倍数加到另一行：\n\n① $\\det$ 不变\n② 仅变号\n③ 必有 $\\det=0$\n④ $\\det$ 加倍","projection_8":"对 $n\\times n$ 实矩阵，若 $AB$ 可逆，则？\n\n① $A$ 与 $B$ 都可逆\n② 只需 $A$ 可逆\n③ 只需 $B$ 可逆\n④ 必有一个为零矩阵","projection_9":"在 $\\mathbb{R}^n$ 中，可逆线性映射 $A$ 把体积为 $V$ 的区域变为体积？\n\n① $\\lvert\\det(A)\\rvert\\cdot V$\n② $V/\\lvert\\det(A)\\rvert$\n③ 恒为 $V$\n④ $\\mathrm{tr}(A)\\cdot V$","scenario_0":"PyTorch 中 `torch.linalg.det(A)` 保留批维，并对最后两轴返回行列式。这意味着？\n\n① 可一次处理许多小矩阵\n② 总返回单个标量\n③ 同时返回逆矩阵\n④ 仅在 GPU 上定义","scenario_1":"为何常用 `torch.linalg.solve(A, b)` 而非先算 `inv(A)` 再乘 `b`？\n\n① 更稳定且常用更快的直接解法\n② 行列式无法计算\n③ 逆从不存在\n④ `b` 不能为向量","scenario_2":"训练中 Hessian（或 GN 近似）接近奇异时，常见现象是？\n\n① 步长方向爆炸/不稳定\n② 必立即收敛\n③ 损失恰为 $0$\n④ 梯度完全消失","scenario_3":"岭回归用 $X^{\\mathsf T}X+\\lambda I$（$\\lambda>0$）的主要原因之一是？\n\n① 改善条件数/使矩阵更易逆（正定）\n② 强制行列式为 $0$\n③ 禁止求逆\n④ 缩小批大小","scenario_4":"多元正态密度中的 $\\det(\\Sigma)^{-1/2}$ 因子最直接对应？\n\n① 线性变换下的体积缩放（雅可比思想）\n② softmax 温度\n③ ReLU 斜率\n④ dropout 比例","scenario_5":"对超定 $A\\mathbf{x}=\\mathbf{b}$，Moore–Penrose `pinv` 最接近？\n\n① 不可逆时给出有意义的最小范数最小二乘解等\n② 强制 $\\det(A)=1$\n③ 总返回精确解\n④ 计算 softmax","scenario_6":"损失曲面上 Hessian 在多个方向近奇异，常表示？\n\n① 平坦谷/曲率含糊的区域较常见\n② 仅有唯一全局极小\n③ 梯度恒为 $0$\n④ 学习率无意义","scenario_7":"若 `det(A)` 极接近 $0$，可稳妥断定？\n\n① 求逆在数值上可能不稳定\n② 训练必不可能\n③ 参数已最优\n④ softmax 发散","scenario_8":"若 $A=Q\\Lambda Q^{-1}$ 可对角化，则 $\\det(A)$ 等于？\n\n① 特征值之积\n② 特征值之和\n③ $\\mathrm{tr}(Q)$\n④ 恒为 $0$","scenario_9":"小批协方差 $S$ 近奇异时，在对数似然中稳定 $\\log\\det S$ 的常用做法是？\n\n① Cholesky / 加小 $\\varepsilon I$ 正则\n② 强制行列式为 $0$\n③ 把 $S$ 换为零矩阵\n④ 对 $S$ 做 softmax"},"problemAnswers":{"definition_0":2,"definition_1":1,"definition_2":2,"definition_3":3,"definition_4":1,"definition_5":1,"definition_6":2,"definition_7":1,"definition_8":1,"definition_9":2,"trueFalse_0":2,"trueFalse_1":1,"trueFalse_2":2,"trueFalse_3":1,"trueFalse_4":1,"trueFalse_5":1,"trueFalse_6":2,"trueFalse_7":1,"trueFalse_8":2,"trueFalse_9":1,"calc_0":1,"calc_1":1,"calc_2":3,"calc_3":1,"calc_4":1,"calc_5":1,"calc_6":1,"calc_7":1,"calc_8":1,"calc_9":1,"concept_0":1,"concept_1":1,"concept_2":2,"concept_3":2,"concept_4":1,"concept_5":1,"concept_6":1,"concept_7":1,"concept_8":1,"concept_9":1,"projection_0":1,"projection_1":1,"projection_2":1,"projection_3":1,"projection_4":1,"projection_5":1,"projection_6":1,"projection_7":1,"projection_8":1,"projection_9":1,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1},"problemSolutions":{"definition_0":"**1) 定义：** $\\det(A)=ad-bc$。**2) 例：** $\\begin{pmatrix}2&1\\\\0&3\\end{pmatrix}$ 得 $2\\cdot3-1\\cdot0=6$。**3) 答案 ②**","definition_1":"**1) 结论：** 方阵可逆当且仅当 $\\det(A)\\neq0$。**2) 例：** $\\det\\begin{pmatrix}1&1\\\\0&1\\end{pmatrix}=1$。**3) 答案 ①**","definition_2":"**1) 规则：** 撤销复合须逆序：$(AB)^{-1}=B^{-1}A^{-1}$。**2) 例：** 想两次旋转的撤销顺序。**3) 答案 ②**","definition_3":"**1) 定义：** 单位阵不改变体积，故 $\\det(I_n)=1$。**2) 例：** $I_2$ 对角积 $1\\cdot1=1$。**3) 答案 ③**","definition_4":"**1) 性质：** 转置不改变行列式。**2) 例：** 在 $2\\times2$ 上直接验证。**3) 答案 ①**","definition_5":"**1) 计算：** 对角阵的逆为对角元取倒数。**2) 例：** $\\det A=6\\neq0$。**3) 答案 ①**","definition_6":"**1) 规则：** 每行提出因子 $2$，行列式乘 $2\\cdot2=4$，得 $4\\det(A)$。**2) 例：** $A=I_2$ 时 $\\det(2I_2)=4$。**3) 答案 ②**","definition_7":"**1) 几何：** 单位正方形像的面积为 $\\lvert\\det(A)\\rvert$。**2) 例：** $2I_2$ 面积变为 $4$ 倍。**3) 答案 ①**","definition_8":"**1) 联系：** 可逆则列线性无关，秩为 $n$。**2) 例：** $\\det(A)\\neq0$ 即满秩。**3) 答案 ①**","definition_9":"**1) 定理：** $\\det(AB)=\\det(A)\\det(B)$。**2) 例：** 在 $2\\times2$ 上直接相乘验证。**3) 答案 ②**","trueFalse_0":"**1) 术语：** 奇异指 $\\det(A)=0$。**2) 例：** $\\begin{pmatrix}1&2\\\\2&4\\end{pmatrix}$ 有 $\\det=0$。**3) 答案 ②**","trueFalse_1":"**1) 定理：** 乘积的行列式等于行列式之积。**2) 例：** 在 $2\\times2$ 上验算。**3) 答案 ①**","trueFalse_2":"**1) 反例：** 零矩阵 $\\det=0$。**2) 结论：** 假。**3) 答案 ②**","trueFalse_3":"**1) 推导：** 由 $AA^{-1}=I$ 得 $\\det(A)\\det(A^{-1})=1$。**2) 例：** $\\det(A)=2$ 则 $\\det(A^{-1})=1/2$。**3) 答案 ①**","trueFalse_4":"**1) 例：** $A=\\begin{pmatrix}1&0\\\\0&0\\end{pmatrix}$, $B=\\begin{pmatrix}0&0\\\\0&1\\end{pmatrix}$ 则 $A+B=I_2$。**2) 结论：** 真。**3) 答案 ①**","trueFalse_5":"**1) 定理：** 由 $Q^{\\mathsf T}Q=I$ 得 $\\det(Q)^2=1$。**2) 例：** 旋转矩阵。**3) 答案 ①**","trueFalse_6":"**1) 反例：** $A=B=I$ 时左右不同。**2) 结论：** 假。**3) 答案 ②**","trueFalse_7":"**1) 定理：** 三角阵行列式为对角元之积。**2) 例：** $\\begin{pmatrix}2&5\\\\0&3\\end{pmatrix}$ 得 $6$。**3) 答案 ①**","trueFalse_8":"**1) 联系：** $\\det=0$ 则列相关。**2) 例：** 一列为另一列倍数。**3) 答案 ②**","trueFalse_9":"**1) 推导：** $\\det(A^2)=\\det(AA)=\\det(A)^2$。**2) 例：** $\\det(A)=-1$ 则 $\\det(A^2)=1$。**3) 答案 ①**","calc_0":"**1) 计算：** $1\\cdot4-2\\cdot3=-2$。**2) 例：** 负号表示定向翻转。**3) 答案 ①**","calc_1":"**1) 计算：** 对角积 $2\\cdot3=6$。**3) 答案 ①**","calc_2":"**1) 计算：** 两列相同 $\\Rightarrow\\det=0$。**3) 答案 ③**","calc_3":"**1) 计算：** $A^{-1}=\\mathrm{diag}(1,1/2)$。**3) 答案 ①**","calc_4":"**1) 计算：** $3\\cdot1-1\\cdot2=1$。**3) 答案 ①**","calc_5":"**1) 计算：** $0\\cdot0-1\\cdot(-1)=1$。**3) 答案 ①**","calc_6":"**1) 计算：** $A^{-1}=\\frac12 I$，迹 $1/2+1/2=1$。**3) 答案 ①**","calc_7":"**1) 计算：** 第二行是第一行的 $2$ 倍 $\\Rightarrow\\det=0$。**3) 答案 ①**","calc_8":"**1) 计算：** 逆为 $\\begin{pmatrix}1&-1\\\\0&1\\end{pmatrix}$。**3) 答案 ①**","calc_9":"**1) 计算：** $\\cos^2 t+\\sin^2 t=1$（旋转保面积）。**3) 答案 ①**","concept_0":"**1) 联系：** 可逆时方向 $\\mathbf{s}$ 才稳定。**2) 例：** $H$ 奇异则数值不稳。**3) 答案 ①**","concept_1":"**1) 实务：** `solve` 类比 `inv` 往往更稳。**3) 答案 ①**","concept_2":"**1) 顺序：** 先撤销 $B$ 再撤销 $A$，故 $B^{-1}A^{-1}$。**3) 答案 ②**","concept_3":"**1) 直观：** 列共线，维数塌缩。**3) 答案 ②**","concept_4":"**1) 联系：** $X^{\\mathsf T}X$ 可逆 $\\Leftrightarrow$ 列满秩。**3) 答案 ①**","concept_5":"**1) 数值：** 近奇异则逆放大误差。**3) 答案 ①**","concept_6":"**1) 联系：** SVD 观点下体积倍率为奇异值之积。**3) 答案 ①**","concept_7":"**1) 公式：** 分母为 $\\det(A)$。**3) 答案 ①**","concept_8":"**1) 几何：** $\\det>0$ 保持定向。**3) 答案 ①**","concept_9":"**1) 几何：** 行列式绝对值为体积。**3) 答案 ①**","projection_0":"**1) 定理：** 拉普拉斯展开普遍成立。**3) 答案 ①**","projection_1":"**1) 定义：** 经典伴随恒等式。**3) 答案 ①**","projection_2":"**1) 计算：** $\\det(A^{-1})\\det(B)\\det(A)=\\det(B)$。**3) 答案 ①**","projection_3":"**1) 联系：** 特征值为特征多项式之根。**3) 答案 ①**","projection_4":"**1) 说明：** $\\det(A)$ 与三列替换为 $\\mathbf{b}$ 的行列式共 $4$ 个。**3) 答案 ①**","projection_5":"**1) 定理：** 分块对角行列式为乘积。**3) 答案 ①**","projection_6":"**1) 性质：** 换行 $\\det\\mapsto-\\det$。**3) 答案 ①**","projection_7":"**1) 性质：** 行倍加不改变 $\\det$。**3) 答案 ①**","projection_8":"**1) 定理：** $(AB)^{-1}$ 存在 $\\Rightarrow\\det(A)\\det(B)\\neq0$，故皆可逆。**3) 答案 ①**","projection_9":"**1) 几何：** $\\lvert\\det(A)\\rvert$ 为体积倍率。**3) 答案 ①**","scenario_0":"**1) 实务：** 批行列式用于小批协方差等。**3) 答案 ①**","scenario_1":"**1) 实务：** 显式逆易恶化条件数。**3) 答案 ①**","scenario_2":"**1) 联系：** 逆（伪逆）敏感。**3) 答案 ①**","scenario_3":"**1) 统计/ML：** 缓解多重共线性，稳定求逆。**3) 答案 ①**","scenario_4":"**1) 联系：** 协方差 $\\Sigma$ 的“尺度”改变体积。**3) 答案 ①**","scenario_5":"**1) 实务：** SVD 伪逆。**3) 答案 ①**","scenario_6":"**1) 优化：** 曲面条件差。**3) 答案 ①**","scenario_7":"**1) 注意：** 浮点与条件数。**3) 答案 ①**","scenario_8":"**1) 定理：** $\\det(A)=\\prod\\lambda_i$。**3) 答案 ①**","scenario_9":"**1) 实务：** 对称半正定阵常用 Cholesky 或加小 $\\varepsilon I$。**3) 答案 ①**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 1\nassert answer == 1","definition_2":"answer = 2\nassert answer == 2","definition_3":"answer = 3\nassert answer == 3","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 1\nassert answer == 1","definition_6":"answer = 2\nassert answer == 2","definition_7":"answer = 1\nassert answer == 1","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 2\nassert answer == 2","trueFalse_0":"answer = 2\nassert answer == 2","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 2\nassert answer == 2","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 1\nassert answer == 1","trueFalse_6":"answer = 2\nassert answer == 2","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 2\nassert answer == 2","trueFalse_9":"answer = 1\nassert answer == 1","calc_0":"answer = 1\nassert answer == 1","calc_1":"answer = 1\nassert answer == 1","calc_2":"answer = 3\nassert answer == 3","calc_3":"answer = 1\nassert answer == 1","calc_4":"answer = 1\nassert answer == 1","calc_5":"answer = 1\nassert answer == 1","calc_6":"answer = 1\nassert answer == 1","calc_7":"answer = 1\nassert answer == 1","calc_8":"answer = 1\nassert answer == 1","calc_9":"answer = 1\nassert answer == 1","concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 2\nassert answer == 2","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 1\nassert answer == 1","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 1\nassert answer == 1","concept_9":"answer = 1\nassert answer == 1","projection_0":"answer = 1\nassert answer == 1","projection_1":"answer = 1\nassert answer == 1","projection_2":"answer = 1\nassert answer == 1","projection_3":"answer = 1\nassert answer == 1","projection_4":"answer = 1\nassert answer == 1","projection_5":"answer = 1\nassert answer == 1","projection_6":"answer = 1\nassert answer == 1","projection_7":"answer = 1\nassert answer == 1","projection_8":"answer = 1\nassert answer == 1","projection_9":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1"}},"midMathCh06":{"chapter":"Chapter 06","title":"线性独立与秩：真正的维度有多少?","description":"想象一家名册上写着100人的创业公司：真正推动工作的也许只有20人，其余80人只是在复制同一份审批。**真实的业务“维度”**是100还是20？\n\n上一章：矩阵会揉捏空间。本章在成堆的数据箭头里分辨**真信息与冗余**：**线性独立**（别人无法替代的方向）与**线性相关**（只是线性组合的“搭车”）。剥掉重叠的“影子”之后，**秩**统计的是**真正的信息骨架**，别被列数唬住。","sectionTitle":"线性独立与秩：真正的维度有多少？","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"应用","problemSolving":"解题提示"},"visualShort":"共线 vs 偏离 · 秩1↔2","visualIntro":"**虚线**是第一个方向。**橙色**先在虚线上，再**偏离**——角标**秩**在 **1** 与 **2** 之间切换。","visualStep1":"定义: $\\sum c_i\\mathbf{v}_i=\\mathbf{0}$ 迫使所有 $c_i=0$ ⇔ 线性独立","visualStep2":"直觉：**共线**时接近线性相关，**偏离**该直线则线性独立，秩随之体现","visualStep3":"公式: $\\mathrm{rank}(A)$ = 列空间维数 = 主元个数","visualStep4":"应用: 多重共线性、岭回归、层的**信息瓶颈**","visualStepsLabel":"阅读顺序","visualFlowTitle":"学习流程","visualFlowStep0":"概念: 独立·相关·基·秩","visualFlowStep1":"直觉: 共线·独立·秩","visualFlowStep2":"几何↔代数","visualFlowStep3":"衔接: Ch.05 可逆与 $\\det$","visualFlowStep4":"应用: 回归与深度网络","rankVisualAriaLabel":"虚线表示第一个方向（张成的一维子空间），从原点出发的两根向量；橙色向量移动时，角标在秩1与秩2之间平滑切换。","rankVisualMainTitle":"线性独立与秩：真正的维度有多少?","rankVisualSubtitle":"**独立**就是两个方向**不塌成一条线**。**秩**表示去掉冗余后**还剩几个方向**（此图示例为1或2）。","rankVisualCaption":"**橙**色向量落在**虚线（第一个张成方向）**上、不增加新的轴向时，为**线性相关**情形；本图演示中读作**秩1**。\n\n**离开**该直线后两方向不同 → **线性独立**，本图演示中读作**秩2**。","whatIs":{"0":"**1. 线性独立——“RGB 原色”**\n\n在光或颜料里，**红、绿、蓝**是**基底级**的：单靠另两色造不出第三色。向量**线性独立**指：没有任何向量是其余向量的组合，且 $c_1\\mathbf{v}_1+\\cdots+c_k\\mathbf{v}_k=\\mathbf{0}$ 时**必须**全 $c_i=0$。每多一个独立向量，就多开一扇**新维度的门**。","1":"**2. 线性相关——回声与“搭车”**\n\n已有红、绿灯，再加一盏“**黄**(红+绿)”并不会扩大色域——它是**冗余**。若 $\\mathbf{v}_3=2\\mathbf{v}_1+3\\mathbf{v}_2$，第三支是**线性组合**即**相关**。看起来像更多数据，其实只是**回声**。","2":"**3. 秩——撇掉泡沫后的“信息纯度”**\n\n$\\mathrm{rank}(A)$ 是**独立列的最大个数**，不论你有100列还是1000列。若100支箭头都落在同一**平面**上，秩仍只有**2**：秩是数据的**真实有效维度**。","3":"**4. 基——最小钢架**\n\n**基**是仍能**张成**整个子空间的**最小独立集**。砖墙再多，决定形状的是**钢架**根数，那就是**维度**。","4":"**5. 与 Ch.05 的衔接——行列式 $\\det$ 是什么，以及秩**\n\n**行列式 $\\det(A)$** 是 $n\\times n$ 线性变换把**单位体积**（二维时是单位正方形**面积**）变成**多少倍**的那个**数**。$\\det(A)=0$ 表示空间被压扁、体积塌成零，**没有逆矩阵**；$\\det(A)\\neq 0$ 才能用 **$A^{-1}$** 一步还原（Ch.05）。\n\n若 $\\mathrm{rank}(A)=n$（**满秩**），列独立，空间不会完全压扁，故 **$\\det(A)\\neq 0$**，**$A^{-1}$** 存在。秩不足则空间被压平，**$\\det(A)=0$**，“倒带”失效。"},"whyImportant":{"bridge":"五个证人都从**同一扇窗**看案发现场（相关），等于把**一条线索听了五遍**（秩1）。街面、天台、监控三个角度（独立，秩3）才更有价值。\n\n机器学习里同时喂“平方米”和“坪”会指向**同一方向**：**多重共线性**，权重可能变得不稳定或荒谬。","similarity":"**秩**在问：这堆数据里**真正有营养的独立方向**有几个？剥掉冗余混合，是稳定训练与高效计算的前提。"},"howUsed":{"ml":"**1. 挽救线性回归（岭回归）**\n最小二乘需要 $(X^{\\mathsf T}X)^{-1}$。列几乎重复时矩阵奇异。**岭回归**在对角上加微小“垫片”，像给压扁的三明治塞一根牙签，恢复数值上的“体积”以便求逆。","geometry":"**2. 深度网络的信息瓶颈**\n把线性层想成100车道高速；若某层**有效秩只有10**，就像突然收窄——**信息瓶颈**，大量细节被永久抹掉。设计宽度时常关注秩类行为。"},"summary":"**一句话：** 独立=**不可替代**的方向；相关=**混合**；秩=撇沫后的**真实维度**。","problemSolving":{"focus":"下表汇总**符号与要点**；**示例**按练习题常见类型（**定义**、**对错**、**算秩**、**维数**、**秩性质**、**短情境**）用**问题 / 解答**简短写出。","examplesHeading":"示例","examplesTable":"**示例1 — 定义·概念选择**\n\n问题：下列哪一项是 $\\mathrm{rank}(A)$ 的定义？\n\n解答：选与**列空间维数**一致的表述。\n\n---\n\n**示例2 — 对错**\n\n问题：$\\mathbb{R}^2$ 中两个不同向量是否总线性无关？\n\n解答：不总成立；**共线**则线性相关。\n\n---\n\n**示例3 — 算秩**\n\n问题：$\\begin{pmatrix}1&2\\\\2&4\\end{pmatrix}$ 的秩？\n\n解答：两列成比例 → **秩1**；不清楚则**行化简数主元**。\n\n---\n\n**示例4 — 维数·核**\n\n问题：若 $A\\mathbf{x}=\\mathbf{0}$ 的解空间维数为 $k$，且 $A$ 有 $n$ 列，则 $\\mathrm{rank}(A)$？\n\n解答：$\\mathrm{rank}(A)=n-k$。\n\n---\n\n**示例5 — 秩性质**\n\n问题：可逆矩阵 $P,Q$ 下 $\\mathrm{rank}(PAQ)$？\n\n解答：$\\mathrm{rank}(PAQ)=\\mathrm{rank}(A)$。\n\n---\n\n**示例6 — 短情境**\n\n问题：若 $\\mathbf{a}_3=2\\mathbf{a}_1-\\mathbf{a}_2$，三列的秩如何？\n\n解答：三列**线性相关**，故 $\\mathrm{rank}\\le 2$。"},"problemSolvingLabel":"解题说明","problemSolvingTable":"| 符号 | 含义 |\n| :--- | :--- |\n| 线性独立 | $\\sum c_i\\mathbf{v}_i=\\mathbf{0}\\Rightarrow c_i=0$ |\n| 线性相关 | 至少一列是其余列的线性组合 |\n| $\\mathrm{rank}(A)$ | 列空间维数（=行化简主元个数） |\n| 基 | 独立且张成的最小集合 |\n| $\\mathrm{rank}(AB)$ | $\\le\\min\\{\\mathrm{rank}A,\\mathrm{rank}B\\}$ |\n| $\\det(A)$ | 单位体积/面积被变换放缩的倍数（Ch.05）；$\\det(A)=0$ 则无逆 |","practiceProblemsTitle":"练习题","practiceProblemsIntro":"从60题中**随机抽10题**。","practiceProblemsInstruction":"请阅读题干，选择最合适的选项。","problems":{"definition_0":"哪一条最接近$\\mathbf{v}_1,\\mathbf{v}_2$线性独立?\n\n① 范数总相等\n② $c_1\\mathbf{v}_1+c_2\\mathbf{v}_2=\\mathbf{0}\\Rightarrow c_1=c_2=0$\n③ 内积为0\n④ 都是单位向量","definition_1":"$$\\mathrm{rank}(A)$的定义是?\n\n① 行数\n② 列空间维数\n③ 元素和\n④ 迹","definition_2":"同一子空间基的个数?\n\n① 会变\n② 不变\n③ 总等于行数\n④ 总为1","definition_3":"$$\\mathbb{R}^3$中最多几个向量可独立?\n\n① 2\n② 3\n③ 4\n④ 无限","definition_4":"列线性相关则?\n\n① 秩=列数\n② 秩<列数\n③ det=1\n④ 必为正方","definition_5":"$$A\\in\\mathbb{R}^{m\\times n}$时 $\\mathrm{rank}(A)\\le$?\n\n① $\\min(m,n)$\n② $m+n$\n③ $\\max(m,n)$\n④ $mn$","definition_6":"仅含$\\{\\mathbf{0}\\}$的集合?\n\n① 总独立\n② 不独立\n③ $n\\ge2$时独立\n④ 是基","definition_7":"$$\\mathrm{rank}(A^{\\mathsf T})$与$\\mathrm{rank}(A)$?\n\n① 总相等\n② 总不同\n③ 转置减1\n④ 总为0","definition_8":"$$\\dim(W)$等于?\n\n① 基向量个数\n② 子空间向量总数\n③ 总为0\n④ 总为全空间维数","definition_9":"若$k$个向量独立，则矩阵$[\\mathbf{v}_1\\ \\cdots\\ \\mathbf{v}_k]$的秩?\n\n① 小于$k$\n② 等于$k$\n③ 0\n④ 无关","trueFalse_0":"向量越多越独立。\n\n① 对\n② 错","trueFalse_1":"$$\\mathrm{rank}(A+B)\\le \\mathrm{rank}(A)+\\mathrm{rank}(B)$。\n\n① 对\n② 错","trueFalse_2":"可逆$n\\times n$则$\\mathrm{rank}(A)=n$。\n\n① 对\n② 错","trueFalse_3":"列独立则必为正方矩阵。\n\n① 对\n② 错","trueFalse_4":"实数上$\\mathrm{rank}(A^{\\mathsf T}A)=\\mathrm{rank}(A)$。\n\n① 对\n② 错","trueFalse_5":"$$\\mathbb{R}^2$中两个不同向量总独立。\n\n① 对\n② 错","trueFalse_6":"秩不超过列数。\n\n① 对\n② 错","trueFalse_7":"秩等于主元个数。\n\n① 对\n② 错","trueFalse_8":"行秩等于列秩。\n\n① 对\n② 错","trueFalse_9":"独立集的任何子集仍独立。\n\n① 对\n② 错","calc_0":"$$\\mathrm{rank}\\begin{pmatrix}1&2\\\\2&4\\end{pmatrix}$?\n\n① 0\n② 1\n③ 2\n④ 3","calc_1":"$$\\mathrm{rank}\\begin{pmatrix}2&1\\\\4&2\\end{pmatrix}$?\n\n① 0\n② 1\n③ 2\n④ 3","calc_2":"$$\\mathrm{rank}\\begin{pmatrix}1&1&0\\\\0&1&1\\end{pmatrix}$?\n\n① 1\n② 2\n③ 3\n④ 0","calc_3":"$$\\mathbb{R}^4$中最多几个独立向量?\n\n① 3\n② 4\n③ 5\n④ 2","calc_4":"$$\\mathrm{rank}\\begin{pmatrix}1&3\\\\2&6\\end{pmatrix}$?\n\n① 2\n② 1\n③ 0\n④ 3","calc_5":"$$\\mathrm{rank}\\begin{pmatrix}1&2&3\\\\2&4&6\\end{pmatrix}$?\n\n① 0\n② 1\n③ 2\n④ 3","calc_6":"$$\\mathrm{rank}\\begin{pmatrix}1&2&3\\\\0&1&1\\end{pmatrix}$?\n\n① 0\n② 1\n③ 2\n④ 3","calc_7":"$$3\\times5$矩阵秩的最大值?\n\n① 5\n② 4\n③ 3\n④ 8","calc_8":"$$\\mathrm{rank}\\begin{pmatrix}1&0&1\\\\0&1&1\\end{pmatrix}$? (第三列=前两列和)\n\n① 3\n② 2\n③ 1\n④ 0","calc_9":"$$\\mathrm{rank}\\begin{pmatrix}1&1&2\\\\0&1&1\\\\1&2&3\\end{pmatrix}$? (第三行=第一行+第二行)\n\n① 0\n② 1\n③ 2\n④ 3","concept_0":"$$m\\times n$矩阵$A$有3列且列线性独立，则$\\mathrm{rank}(A)$?\n\n① 3\n② 至多2\n③ 0\n④ 与列数无关","concept_1":"向量组线性相关时，总成立的是?\n\n① 全是零向量\n② 至少有一个是其余向量的线性组合\n③ 全是单位向量\n④ 两两正交","concept_2":"RREF后主元个数与列秩?\n\n① 相等\n② 总不同\n③ 总等于行数\n④ 总为0","concept_3":"设$W\\subseteq\\mathbb{R}^5$为子空间且$\\dim(W)=3$，$W$中线性无关向量最多?\n\n① 2\n② 3\n③ 5\n④ 无穷","concept_4":"若$\\mathbf{v}_1,\\mathbf{v}_2,\\mathbf{v}_3$线性无关，则$\\mathbf{v}_1,\\mathbf{v}_2$?\n\n① 必相关\n② 必无关\n③ 必正交\n④ 无法判断","concept_5":"实矩阵$A\\in\\mathbb{R}^{m\\times n}$的列要线性无关，必要条件之一是?\n\n① $m\\ge n$\n② $m\\le n$\n③ 仅$m=n$\n④ $n>m$","concept_6":"若$A\\mathbf{x}=\\mathbf{0}$的解空间维数为$k$，则$\\mathrm{rank}(A)$?\n\n① $n-k$\n② $m-k$\n③ $k$\n④ $m+n$","concept_7":"若某一列是其余列的线性组合，则列秩?\n\n① 等于列数\n② 小于列数\n③ 总为0\n④ 无穷","concept_8":"实$2\\times2$矩阵可逆当且仅当?\n\n① 秩0\n② 秩1\n③ 秩2\n④ 与秩无关","concept_9":"下列恒成立的是?\n\n① $\\mathrm{rank}(AB)\\ge \\mathrm{rank}(A)$\n② $\\mathrm{rank}(AB)\\le \\mathrm{rank}(A)$\n③ $\\mathrm{rank}(AB)=\\mathrm{rank}(A)$\n④ $AB$总满秩","projection_0":"$$\\mathrm{rank}(A^{\\mathsf T})$等于?\n\n① $\\mathrm{rank}(A)$\n② $\\mathrm{rank}(A)+1$\n③ $0$\n④ $\\det(A)$","projection_1":"$$\\mathrm{rank}(AB)$上界?\n\n① $\\min\\{\\mathrm{rank}A,\\mathrm{rank}B\\}$\n② 和\n③ $mn$\n④ 总为$\\mathrm{rank}A$","projection_2":"可逆$P,Q$时$\\mathrm{rank}(PAQ)$?\n\n① $\\mathrm{rank}(A)$\n② 0\n③ $\\mathrm{rank}(P)$\n④ $\\det(A)$","projection_3":"零矩阵的秩?\n\n① 0\n② 1\n③ 列数\n④ 行数","projection_4":"对角非零三角阵的秩?\n\n① 0\n② 非零对角元个数\n③ 总为1\n④ 总满秩","projection_5":"$$5\\times3$矩阵秩的最大值?\n\n① 5\n② 4\n③ 3\n④ 15","projection_6":"交换列改变秩吗?\n\n① 不变\n② 总+1\n③ 总为0\n④ 翻倍","projection_7":"列倍加变换?\n\n① 保持秩\n② 总-1\n③ 总变0\n④ 翻倍","projection_8":"$$P=\\begin{pmatrix}1&0\\\\0&0\\end{pmatrix}$的秩?\n\n① 0\n② 1\n③ 2\n④ 3","projection_9":"实数上$\\mathrm{rank}(A)$与$\\mathrm{rank}(A^{\\mathsf T}A)$?\n\n① 相等\n② 总不同\n③ A更大\n④ 总为0","scenario_0":"矩阵中两列完全相同则?\n\n① 列线性相关，列秩可小于列数\n② 总满列秩\n③ 秩总为0\n④ 列秩总等于列数","scenario_1":"若$\\mathbf{a}_3=2\\mathbf{a}_1-\\mathbf{a}_2$，则$[\\mathbf{a}_1\\ \\mathbf{a}_2\\ \\mathbf{a}_3]$的秩?\n\n① 总为3\n② 至多2\n③ 总为0\n④ 总为4","scenario_2":"若$4\\times4$矩阵$A$满足$\\mathrm{rank}(A)=3$，则$\\dim(\\mathrm{Col}(A))$?\n\n① 4\n② 3\n③ 2\n④ 0","scenario_3":"设$A\\in\\mathbb{R}^{m\\times n}$，若各行作为$\\mathbb{R}^n$中向量线性无关，则行秩?\n\n① $m$\n② 总为0\n③ $n$\n④ 总为1","scenario_4":"对任意实$m\\times n$矩阵$A$，$\\mathrm{rank}(A)$与$\\mathrm{rank}(A^{\\mathsf T})$?\n\n① 总相等\n② 总不同\n③ 总有$\\mathrm{rank}(A) > \\mathrm{rank}(A^{\\mathsf T})$\n④ 总为0","scenario_5":"若$m\\times n$矩阵的$n$列都线性无关，则必有?\n\n① $m\\ge n$\n② $m\\le n$\n③ 仅$m=n$\n④ $n>m$","scenario_6":"若$\\mathrm{rank}(A)=r$，则$\\dim(\\mathrm{Col}(A))$?\n\n① $r$\n② $mn$\n③ $n-r$\n④ $m$","scenario_7":"若两行成比例（一行是另一行的数倍），这两行对行秩的贡献至多为?\n\n① 1\n② 总为2\n③ 总为0\n④ 等于行数","scenario_8":"对$T(\\mathbf{x})=A\\mathbf{x}$（$A\\in\\mathbb{R}^{m\\times n}$），像空间维数?\n\n① $\\mathrm{rank}(A)$\n② 总为$n$\n③ 总为$m$\n④ 总为0","scenario_9":"实$n\\times n$矩阵若$\\mathrm{rank}(A)0$，$S+\\mu I$ 的特征值（计重数）为？\n\n① 与 $S$ 相同多重集\n② **$S$ 的每个特征值加 $\\mu$**\n③ 全为 $\\mu$\n④ 全为 $0$","hscn_5":"若 $A=Q\\Lambda Q^{\\mathsf T}$（$Q$ 正交、$\\Lambda$ 对角），则 $A^5=Q\\Lambda_1 Q^{\\mathsf T}$，其中 $\\Lambda_1$ 为？\n\n① **将 $\\Lambda$ 各对角元取 5 次幂所得对角阵**\n② $5\\Lambda$\n③ $\\Lambda^{-1}$\n④ $I$"},"problemAnswers":{"edef_0":2,"edef_1":2,"edef_2":2,"edef_3":2,"edef_4":1,"edef_5":2,"etf_0":2,"etf_1":1,"etf_2":2,"etf_3":1,"etf_4":1,"etf_5":1,"ecalc_0":1,"ecalc_1":1,"ecalc_2":1,"ecalc_3":1,"ecalc_4":3,"ecalc_5":2,"eprop_0":1,"eprop_1":1,"eprop_2":1,"eprop_3":1,"eprop_4":2,"eprop_5":1,"mcon_0":1,"mcon_1":2,"mcon_2":2,"mcon_3":2,"mcon_4":1,"mcon_5":1,"mcmp_0":2,"mcmp_1":2,"mcmp_2":1,"mcmp_3":2,"mcmp_4":1,"mcmp_5":2,"mdiag_0":1,"mdiag_1":3,"mdiag_2":1,"mdiag_3":1,"mdiag_4":1,"mdiag_5":1,"hproj_0":1,"hproj_1":1,"hproj_2":3,"hproj_3":3,"hproj_4":1,"hproj_5":1,"hpca_0":1,"hpca_1":2,"hpca_2":2,"hpca_3":2,"hpca_4":1,"hpca_5":1,"hscn_0":2,"hscn_1":2,"hscn_2":2,"hscn_3":2,"hscn_4":2,"hscn_5":1},"problemSolutions":{"edef_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","edef_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","edef_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","edef_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","edef_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","edef_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","etf_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","etf_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","etf_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","etf_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","etf_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","etf_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","ecalc_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","ecalc_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","ecalc_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","ecalc_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","ecalc_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ③","ecalc_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","eprop_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","eprop_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","eprop_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","eprop_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","eprop_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","eprop_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcon_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcon_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcon_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcon_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcon_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcon_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcmp_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcmp_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcmp_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcmp_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mcmp_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mcmp_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","mdiag_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mdiag_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ③","mdiag_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mdiag_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mdiag_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","mdiag_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hproj_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hproj_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hproj_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ③","hproj_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ③","hproj_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hproj_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hpca_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hpca_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hpca_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hpca_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hpca_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hpca_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①","hscn_0":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hscn_1":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hscn_2":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hscn_3":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hscn_4":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ②","hscn_5":"**1)** 回到特征值与特征向量的定义，并用小矩阵演算核对。 **2)** 用与题目同阶的小矩阵做一次代入验算。 **3)** 答案 ①"},"problemTestCodes":{"edef_0":"answer = 2\nassert answer == 2","edef_1":"answer = 2\nassert answer == 2","edef_2":"answer = 2\nassert answer == 2","edef_3":"answer = 2\nassert answer == 2","edef_4":"answer = 1\nassert answer == 1","edef_5":"answer = 2\nassert answer == 2","etf_0":"answer = 2\nassert answer == 2","etf_1":"answer = 1\nassert answer == 1","etf_2":"answer = 2\nassert answer == 2","etf_3":"answer = 1\nassert answer == 1","etf_4":"answer = 1\nassert answer == 1","etf_5":"answer = 1\nassert answer == 1","ecalc_0":"answer = 1\nassert answer == 1","ecalc_1":"answer = 1\nassert answer == 1","ecalc_2":"answer = 1\nassert answer == 1","ecalc_3":"answer = 1\nassert answer == 1","ecalc_4":"answer = 3\nassert answer == 3","ecalc_5":"answer = 2\nassert answer == 2","eprop_0":"answer = 1\nassert answer == 1","eprop_1":"answer = 1\nassert answer == 1","eprop_2":"answer = 1\nassert answer == 1","eprop_3":"answer = 1\nassert answer == 1","eprop_4":"answer = 2\nassert answer == 2","eprop_5":"answer = 1\nassert answer == 1","mcon_0":"answer = 1\nassert answer == 1","mcon_1":"answer = 2\nassert answer == 2","mcon_2":"answer = 2\nassert answer == 2","mcon_3":"answer = 2\nassert answer == 2","mcon_4":"answer = 1\nassert answer == 1","mcon_5":"answer = 1\nassert answer == 1","mcmp_0":"answer = 2\nassert answer == 2","mcmp_1":"answer = 2\nassert answer == 2","mcmp_2":"answer = 1\nassert answer == 1","mcmp_3":"answer = 2\nassert answer == 2","mcmp_4":"answer = 1\nassert answer == 1","mcmp_5":"answer = 2\nassert answer == 2","mdiag_0":"answer = 1\nassert answer == 1","mdiag_1":"answer = 3\nassert answer == 3","mdiag_2":"answer = 1\nassert answer == 1","mdiag_3":"answer = 1\nassert answer == 1","mdiag_4":"answer = 1\nassert answer == 1","mdiag_5":"answer = 1\nassert answer == 1","hproj_0":"answer = 1\nassert answer == 1","hproj_1":"answer = 1\nassert answer == 1","hproj_2":"answer = 3\nassert answer == 3","hproj_3":"answer = 3\nassert answer == 3","hproj_4":"answer = 1\nassert answer == 1","hproj_5":"answer = 1\nassert answer == 1","hpca_0":"answer = 1\nassert answer == 1","hpca_1":"answer = 2\nassert answer == 2","hpca_2":"answer = 2\nassert answer == 2","hpca_3":"answer = 2\nassert answer == 2","hpca_4":"answer = 1\nassert answer == 1","hpca_5":"answer = 1\nassert answer == 1","hscn_0":"answer = 2\nassert answer == 2","hscn_1":"answer = 2\nassert answer == 2","hscn_2":"answer = 2\nassert answer == 2","hscn_3":"answer = 2\nassert answer == 2","hscn_4":"answer = 2\nassert answer == 2","hscn_5":"answer = 1\nassert answer == 1"}},"midMathCh08":{"chapter":"Chapter 08","title":"方向导数与梯度: 找到该走的路","description":"想象浓雾中一步也看不清的探险者，必须找到险峻山脉中最深的谷底——误差最小的最佳位置。看不见地形，只能依靠脚底感到的**坡度**下山。人工智能靠大量数据变聪明的学习过程，与这次惊险登山完全一样。每次预测出错产生的误差（损失）都会形成巨大的三维山脉。\n\n此时回答“你站的位置向东走有多陡？”的指标是**方向导数**；在周围360度方向中，毫不偏差地指出“哪边是最陡的上坡”的奇迹指南针，就是**梯度** $\\nabla f$。本章用生动的地形比喻，深入说明被称为微积分之花的梯度如何成为人工智能的向导，让人工智能安全地走下复杂的误差之山。","sectionTitle":"方向导数与梯度: 找到该走的路","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"应用","problemSolving":"解题提示"},"visualShort":"3D 损失曲面 + 等高线 + 梯度下降路径","visualIntro":"颜色越亮误差越大（峰），越暗越小（谷）。黑线是往下减小误差的路。","visualStep1":"曲面：参数不同，损失高低不同","visualStep2":"等高线：同高；$\\nabla f$ 与等高线成直角","visualStep3":"朝所看方向的坡度","visualStep4":"紫箭头=上坡($\\nabla f$)，黑线=下坡","visualStepsLabel":"阅读顺序","visualFlowTitle":"学习流程","visualFlowStep0":"概念：偏导数 → 方向导数 → 梯度","visualFlowStep1":"直觉：等高线地图·损失曲面","visualFlowStep2":"代数：$D_{\\mathbf{u}} f = \\nabla f \\cdot \\mathbf{u}$","visualFlowStep3":"衔接：Ch.02 内积、基础数学偏导数","visualFlowStep4":"应用：梯度下降 → Ch.09 雅可比、Ch.10 海森","gradVisualAriaLabel":"三维损失曲面、底部等高线、下降路径、某一点处的梯度箭头分步出现。","gradVisualMainTitle":"方向导数与梯度: 找到该走的路","gradVisualSubtitle":"看等高线地图时，**梯度** $\\nabla f$ 与等高线**成直角**，指向**最陡的上坡**。**方向导数** $D_{\\mathbf{u}} f$ 表示“沿 $\\mathbf{u}$ 方向走一步，升高或降低多少”，用 $\\nabla f$ 与 $\\mathbf{u}$ 的**内积** $\\nabla f \\cdot \\mathbf{u}$ 一行就算出。","gradVisualCaption":"看图说明：**红/黄**=误差大的**山峰**，**蓝/紫**=误差小的**山谷**。**黑线**=为了减小误差而**往下走**的路（梯度下降），**紫箭头**=该处**最陡的上坡**方向($\\nabla f$)。","gradDiagramLabelSurface":"损失曲面 / Loss surface","gradDiagramLabelContour":"等高线 / Contour","gradDiagramLabelPath":"梯度下降路径 / Descent path","gradDiagramLabelGradient":"梯度 / Gradient","whatIs":{"0":"**1. 多元函数与等高线：把三维地形读成二维**\n\n常见的二维地图是平面，但上面蜿蜒的**等高线**能告诉我们哪里是峰、哪里是凹谷。线挤在一起表示要流汗攀登的陡坡，线散开表示好走的缓坡。人工智能学习时计算的误差（损失）也因变量极多，形成同样巨大险峻的多维山脉。借助数学这面透镜，我们能读出看不见的山脉等高线，直观判断当前误差是在陡升还是在稳定下降。","1":"**2. 偏导数：东西南北里只挖一口井测坡度**\n\n假设你停在险峻山腰。可以问：“若忽略其他方向，只向正东（$x$ 轴方向）迈一步，坡度如何？”或“只向北（$y$ 轴方向）走，是上坡还是下坡？”从众多方向中只选一个轴方向、单独量该方向的斜率，就叫**偏导数**，用 $\\frac{\\partial f}{\\partial x}$ 这类圆符号表示。它只测一个方向，很局限，却是所有计算的基础。","2":"**3. 方向导数：你转头正看的那条路的坡度**\n\n探险家不必只走东西南北。可按目的地选东北30度、或斜向西南——360度任意方向。在选定方向轻轻迈一小步时，地形高低变化的瞬时速率，就是**方向导数** $D_{\\mathbf{u}} f$：此刻你自由转头所看的那条小路的体感坡度。","3":"**4. 梯度：指向最可怕上坡的奇迹指南针**\n\n周围360度中，朝向山顶最可怕、最陡的上坡方向只有一个。把 $x$ 方向与 $y$ 方向的斜率合并成一支箭头（向量），就是**梯度** $\\nabla f$。这支魔法箭头总是垂直于等高线——以最短路径穿过等高线。箭头**方向**指向附近最陡上坡，**长度**告诉你那条坡到底有多陡（最大坡度）。","4":"**5. 内积与梯度的奇妙关系**\n\n不必每次为任意方向重新做繁重计算。把最好的指南针“梯度”与要走的“方向向量”做**内积**，该方向的坡度就会出来。核心是 **$D_{\\mathbf{u}} f = \\nabla f \\cdot \\mathbf{u}$**。若你朝梯度所指完全相同的方向走，就等于正面迎接世上最陡的上坡。"},"whyImportant":{"bridge":"让人工智能变聪明的训练（优化），实质是寻找误差最小之处——巨大山脉最深、最平静的谷底——的艰难旅程。数据与权重增至数十万，这座山会变成数百万维、难以想象的地形。在浓雾中蒙眼乱走，可能一辈子也找不到谷底。","similarity":"此时**梯度** $\\nabla L$ 像一束光的奇迹导航：它准确指出探险者当前站立之处、误差会最猛烈增加的那条可怕上坡。人工智能只需朝那根手指所指的**正相反**方向转身，一步步默默下山即可。没有这枚数学指南针，深度学习根本无法训练；无数权重不知道该怎样改变，会永远迷失、永远徘徊。"},"howUsed":{"ml":"**1. 深度学习不停跳动的心脏：梯度下降**\n\n所有方向与坡度的概念，最终汇聚成完成人工智能的唯一伟大算法——梯度下降。核心式 $\\mathbf{w}_{k+1} = \\mathbf{w}_k - \\eta \\nabla L(\\mathbf{w}_k)$ 展现人工智能如何迈步。其中 $\\nabla L$ 表示“最陡的上坡”；前面的减号表示“我要谨慎地朝上坡的正相反方向下山”。\n\n**学习率** $\\eta$ 是探险者的**步幅**。步幅太大，会蹦跳着越过目标谷底，摔到对面山峰；步幅小如蚂蚁，还没到底训练时间就结束。实战中精细调节步幅往往决定模型成败。","geometry":"**2. 用损失曲面可视化检查模型健康状况**\n\n最新数据科学论文里常见五彩三维山图、浓淡变化的等高线热图。为检查学习是否顺畅，把数以亿计的未知权重压缩成肉眼可见的2～3维，画出误差曲面。研究者用眼睛观察沿梯度指南针下山的路径，是在热图上zigzag不安地抖动，还是像坐雪橇一样顺滑下降，从而诊断模型健康与学习结构。"},"summary":"**一句总结：** 像等高线地图一样读损失山脉；任意方向坡度 **$D_{\\mathbf{u}} f = \\nabla f \\cdot \\mathbf{u}$**；最陡上坡 **$\\nabla f$**；下山一步 **$\\mathbf{w}_{k+1}=\\mathbf{w}_k-\\eta\\nabla L$**。","problemSolving":{"focus":"记住**三个式子**：① $D_{\\mathbf{u}} f = \\nabla f \\cdot \\mathbf{u}$（$\\mathbf{u}$ 为单位向量）。② $\\nabla f$ 与等高线垂直、最陡上坡。③ $\\mathbf{w}_{k+1}=\\mathbf{w}_k-\\eta\\nabla L$（检查负号与 $\\eta$）。步骤：**$\\nabla f$ → 单位化 $\\mathbf{u}$ → 内积**。","examplesHeading":"解题示例","examplesTable":"**示例1 — 定义** $f=x^2+y^2$，在 $(1,1)$ 的**梯度**与**长度**? → $(2,2)$，$2\\sqrt{2}$。\n\n---\n\n**示例2 — 方向** 单位 $\\mathbf{u}=(1/\\sqrt{2},0)$ 的 $D_{\\mathbf{u}} f$? → $\\sqrt{2}$（内积公式）。\n\n---\n\n**示例3 — 最大** 单位 $\\mathbf{u}$ 时 $D_{\\mathbf{u}} f$ 最大? → 方向为 $\\nabla f$，值为 $\\|\\nabla f\\|$。\n\n---\n\n**示例4 — 等高线** 沿等高线**切线**走 $D_{\\mathbf{u}} f$? $\\nabla f$? → 切线为 **0**；$\\nabla f$ **垂直**等高线。\n\n---\n\n**示例5 — 梯度下降** $L=w_1^2+w_2^2$，$\\mathbf{w}=(2,1)$，$\\eta=0.25$ 下一步 $\\mathbf{w}$? → $(1,0.5)$。\n\n---\n\n**示例6 — 训练停滞** 损失不再下降? → 可能靠近 **$\\nabla L\\approx\\mathbf{0}$** 的平坦区（极值/鞍点**候选**）。"},"problemSolvingLabel":"解题提示","problemSolvingTable":"| 用语 | 含义 |\n| :--- | :--- |\n| **方向导数** | 沿 $\\mathbf{u}$ 方向的坡度 |\n| **梯度** | 最陡**上坡** $\\nabla f$ |\n| **核心式** | $D_{\\mathbf{u}} f = \\nabla f \\cdot \\mathbf{u}$ |\n| **等高线** | $\\nabla f$ 与等高线垂直；沿等高线坡度为 0 |\n| **梯度下降** | $\\mathbf{w}_{k+1}=\\mathbf{w}_k-\\eta\\nabla L$ |\n| **平坦处** | $\\nabla f\\approx\\mathbf{0}$ → 候选点 |\n\n**①** 先求 $\\nabla f$。**②** $\\mathbf{u}$ 是否为单位向量。**③** $D_{\\mathbf{u}} f>0$ 为上坡。**④** $\\eta$ 过大易跳、过小太慢。","practiceProblemsTitle":"练习题","practiceProblemsIntro":"","practiceProblemsInstruction":"请阅读题目并选择最合适的选项。","problems":{"gdef_0":"沿单位向量 $\\mathbf{u}$ 方向微小移动时，$f$ 的变化率称为？\n\n① 偏导数\n② 方向导数 $D_{\\mathbf{u}} f$\n③ 雅可比\n④ 海森矩阵","gdef_1":"$$\\nabla f$（梯度）最接近的含义是？\n\n① 总指向最小值\n② 各偏导组成的向量，指向最陡上升方向\n③ 沿等高线切向\n④ 恒为零向量","gdef_2":"当 $\\|\\mathbf{u}\\|=1$ 时，$D_{\\mathbf{u}} f$ 与 $\\nabla f$ 的正确关系是？\n\n① 恒为 $0$\n② $D_{\\mathbf{u}} f=\\nabla f\\cdot\\mathbf{u}$\n③ $D_{\\mathbf{u}} f=\\|\\nabla f\\|^2$\n④ 无关","gdef_3":"单位向量 $\\mathbf{u}$ 使 $D_{\\mathbf{u}} f$ 最大时，通常？\n\n① $\\mathbf{u}$ 与 $\\nabla f$ 垂直\n② $\\mathbf{u}$ 与 $\\nabla f$ 同向\n③ 仅当 $\\nabla f=\\mathbf{0}$\n④ 恒向东","gdef_4":"在 $\\nabla f(\\mathbf{x})=\\mathbf{0}$ 的点，正确的是？\n\n① 必是鞍点\n② 各方向变化率为 $0$（临界点）\n③ 必是极大\n④ 梯度无穷","gdef_5":"$$\\partial f/\\partial x$ 是哪个方向导数的特例？\n\n① $\\mathbf{u}=(0,1)$\n② $\\mathbf{u}=(1,0)$（沿 $x$ 轴）\n③ 对角方向\n④ 都不是","gtf_0":"梯度 $\\nabla f$ 与等高线垂直。\n\n① 对\n② 错","gtf_1":"若 $\\|\\mathbf{u}\\|=1$，总有 $D_{\\mathbf{u}} f\\le \\|\\nabla f\\|$。\n\n① 对\n② 错","gtf_2":"梯度总指向函数最小值方向。\n\n① 对\n② 错","gtf_3":"若 $\\nabla f=\\mathbf{0}$，则对任意单位 $\\mathbf{u}$ 有 $D_{\\mathbf{u}} f=0$。\n\n① 对\n② 错","gtf_4":"当 $\\|\\mathbf{u}\\|=1$ 时，可能出现 $D_{\\mathbf{u}} f>\\|\\nabla f\\|$。\n\n① 对\n② 错","gtf_5":"偏导数是特定坐标方向的方向导数。\n\n① 对\n② 错","gcalc_0":"$$f(x,y)=x^2+y^2$ 在 $(1,1)$ 的 $\\nabla f$ 是？\n\n① $(0,0)$\n② $(2,2)$\n③ $(1,1)$\n④ $(-2,-2)$","gcalc_1":"$$f(x,y)=x^2+xy+y^2$ 在原点的 $\\nabla f$ 是？\n\n① $(0,0)$\n② $(1,1)$\n③ $(2,2)$\n④ 不存在","gcalc_2":"$$f(x,y)=3x+2y$ 的 $\\nabla f$ 是？\n\n① $(2,3)$\n② $(3,2)$\n③ $(0,0)$\n④ $(5,5)$","gcalc_3":"$$f=x^2+y^2$，$(1,1)$，$\\mathbf{u}=\\frac{1}{\\sqrt{2}}(1,0)$ 的 $D_{\\mathbf{u}} f$ 是？\n\n① $2$\n② $\\sqrt{2}$\n③ $2\\sqrt{2}$\n④ $0$","gcalc_4":"$$f(x,y)=xy$ 在 $(2,3)$ 的 $\\nabla f$ 是？\n\n① $(2,3)$\n② $(3,2)$\n③ $(0,0)$\n④ $(6,6)$","gcalc_5":"$$f(x,y)=x^2-y^2$ 在 $(1,0)$ 的 $\\nabla f$ 是？\n\n① $(2,0)$\n② $(0,2)$\n③ $(2,2)$\n④ $(0,0)$","gprop_0":"当 $\\|\\mathbf{u}\\|=1$ 时，$D_{\\mathbf{u}} f$ 的最大值是？\n\n① $0$\n② $\\|\\nabla f\\|$\n③ $\\|\\nabla f\\|^2$\n④ 恒为 $1$","gprop_1":"$$\\nabla f\\neq\\mathbf{0}$ 且 $\\|\\mathbf{u}\\|=1$、$D_{\\mathbf{u}} f=0$，则 $\\mathbf{u}$？\n\n① 与 $\\nabla f$ 平行\n② 与 $\\nabla f$ 垂直（沿等高线）\n③ 零向量\n④ 任意","gprop_2":"最陡上升方向是？\n\n① 任意 $\\mathbf{u}$\n② $\\nabla f$ 方向\n③ $-\\nabla f$\n④ 等高线切向","gprop_3":"梯度下降 $\\mathbf{w}_{k+1}=\\mathbf{w}_k-\\eta\\nabla L$，$\\eta>0$ 时移动方向？\n\n① 与 $\\nabla L$ 同向\n② 沿 $-\\nabla L$（下降）\n③ 随机\n④ 零","gprop_4":"若某点 $\\nabla f$ 为常向量，则 $f$ 在该附近？\n\n① 只能是二次\n② 近似一次（平面）\n③ 恒为 $0$\n④ 周期","gprop_5":"在等高线 $f=c$ 上，$\\nabla f$ 相对等高线？\n\n① 切向\n② 法向（垂直）\n③ 永不平行\n④ 恒为零","mcon_0":"偏导与方向导数的关系，正确的是？\n\n① 无关\n② 偏导是特定方向的方向导数\n③ 方向导数恒为 $0$\n④ 梯度是标量","mcon_1":"$$\\nabla f=\\mathbf{0}$ 的点常称为？\n\n① 特征值\n② 临界点\n③ 秩亏\n④ 仅奇异点","mcon_2":"$$f(x,y)=x^2+y^2$ 在原点的 $\\nabla f$？\n\n① $(2,2)$\n② $(0,0)$\n③ 未定义\n④ $(1,1)$","mcon_3":"二元函数 $\\nabla f=\\mathbf{0}$ 则必为？\n\n① 极大\n② 极值候选（极大/极小/鞍点可能）\n③ 仅极小\n④ 线性","mcon_4":"$$D_{\\mathbf{u}} f=\\nabla f\\cdot\\mathbf{u}$（$\\|\\mathbf{u}\\|=1$）因为？\n\n① 内积定义\n② 方向导数是梯度在该方向的投影\n③ 泰勒级数\n④ 行列式","mcon_5":"损失 $L(\\mathbf{w})$ 学习中梯度符号表示？\n\n① 样本数\n② 使 $L$ 增加的方向（下降用负梯度）\n③ 学习率\n④ 批大小","mgeo_0":"沿等高线移动时 $f$ 通常？\n\n① 最大增加\n② （在该线上）高度不变\n③ 必为 $0$\n④ 与梯度同向","mgeo_1":"梯度垂直等高线的几何原因？\n\n① 偶然\n② 垂直方向高度变化最快\n③ 梯度沿切线\n④ 恒水平","mgeo_2":"平坦区（$\\nabla f\\approx\\mathbf{0}$）则？\n\n① 只有陡升\n② 各方向变化都很小\n③ 必是谷\n④ 梯度无穷","mgeo_3":"$$f(x,y)=x^2+y^2$ 的等高线形状？\n\n① 直线\n② 同心圆\n③ 双曲线\n④ 仅点","mgeo_4":"热图中红色区域通常表示？\n\n① 低值\n② 高值（山）\n③ 仅零梯度\n④ 随机","mgeo_5":"鞍点附近 $\\nabla f$？\n\n① 恒为零\n② 方向不同有升有降（为零但曲率混合）\n③ 恒为极大\n④ 不可定义","mcmp_0":"$$(1,1)$，$\\mathbf{u}_1=(1,0)$、单位 $\\mathbf{u}_2=(1/\\sqrt{2},1/\\sqrt{2})$，$f=x^2+y^2$。更陡上升？\n\n① $\\mathbf{u}_1$\n② $\\mathbf{u}_2$（$\\nabla f$ 方向）\n③ 相同\n④ 不可比","mcmp_1":"$$\\nabla f=(4,0)$，单位 $\\mathbf{u}=(0,1)$ 的 $D_{\\mathbf{u}} f$？\n\n① $4$\n② $0$\n③ $-4$\n④ $16$","mcmp_2":"$$\\nabla f=(3,4)$ 的模长？\n\n① $7$\n② $5$\n③ $12$\n④ $1$","mcmp_3":"同点 $D_{\\mathbf{u}_1} f=2$、$D_{\\mathbf{u}_2} f=5$（皆单位），则？\n\n① $\\mathbf{u}_1$ 沿 $\\nabla f$\n② $\\mathbf{u}_2$ 更接近 $\\nabla f$ 方向\n③ 皆垂直\n④ 梯度为零","mcmp_4":"$$f=x+y$，$\\nabla f$？\n\n① $(0,0)$\n② $(1,1)$（处处相同）\n③ $(1,-1)$\n④ 随点变","mcmp_5":"$$\\nabla f=(2,-1)$，单位 $\\mathbf{u}=(1,0)$ 的 $D_{\\mathbf{u}} f$？\n\n① $-1$\n② $2$\n③ $0$\n④ $\\sqrt{5}$","hopt_0":"$$\\mathbf{w}=(2,1)$，$L=w_1^2+w_2^2$，$\\eta=0.25$ 一步梯度下降后？\n\n① $(0,0)$\n② $(1,0.5)$\n③ $(3,1.5)$\n④ $(2,1)$","hopt_1":"$$\\eta<0$ 沿 $-\\eta\\nabla L$ 走会？\n\n① 必到最小\n② 沿上升（变差）方向\n③ 不变\n④ 仅零梯度","hopt_2":"$$\\nabla L=\\mathbf{0}$ 时一步更新？\n\n① 必发散\n② 位置不变\n③ 随机\n④ 必到最小","hopt_3":"$$L(w)=(w-3)^2$，$w=1$，$\\eta=0.125$ 的下一个 $w$？\n\n① $1$\n② $1.5$\n③ $3$\n④ $0$","hopt_4":"学习率过大通常？\n\n① 必收敛\n② 可能振荡或发散\n③ 仅梯度消失\n④ 损失为零","hopt_5":"小批量梯度相对全梯度？\n\n① 总相同\n② 有噪声（期望仍沿梯度）\n③ 总为零\n④ 不可用","hloss_0":"一元 $L(w)=w^2$ 的 $\\frac{dL}{dw}$？\n\n① $w$\n② $2w$\n③ $w^2$\n④ $0$","hloss_1":"MSE $L=\\frac{1}{n}\\sum(y_i-\\hat{y}_i)^2$，$\\hat{y}_i=wx_i$，$\\partial L/\\partial w$ 与误差？\n\n① 无关\n② 出现乘 $x_i$ 的形式（链式法则）\n③ 恒为 $0$\n④ 仅行列式","hloss_2":"沿损失曲面走向谷底应？\n\n① $\\nabla L$\n② $-\\nabla L$\n③ 随机\n④ 等高线切向","hloss_3":"$$L(\\mathbf{w})=\\|\\mathbf{w}\\|^2$ 的 $\\nabla L$？\n\n① $\\mathbf{0}$\n② $2\\mathbf{w}$\n③ $-\\mathbf{w}$\n④ 仅单位向量","hloss_4":"损失 $L(w_1,w_2)=w_1^2+4w_2^2$ 在 $(1,1)$ 的 $\\nabla L$？\n\n① $(1,4)$\n② $(2,8)$\n③ $(0,0)$\n④ $(8,2)$","hloss_5":"平坦长谷（等高线缠结）时梯度？\n\n① 总很大\n② 很小，难以前进\n③ 无穷\n④ 恒为零","hscn_0":"神经网络训练更新权重主要靠？\n\n① 行列式\n② 损失梯度\n③ 仅特征值\n④ 仅随机","hscn_1":"分类损失不降（梯度近零）一因？\n\n① 学习率大\n② 已在平坦区/饱和附近\n③ 仅梯度爆炸\n④ 无数据","hscn_2":"3D 损失曲面上等高线密集的区域通常？\n\n① $\\|\\nabla L\\|$ 较大（陡）\n② $\\|\\nabla L\\|$ 恒为 $0$\n③ 学习率 $\\eta=0$\n④ 与梯度无关","hscn_3":"多元 $f(x_1,\\ldots,x_n)$ 中只让坐标 $x_i$ 略变时的变化率由什么表示？\n\n① 行列式\n② 偏导数 $\\frac{\\partial f}{\\partial x_i}$（沿该轴的方向导数）\n③ 所有特征值\n④ 仅海森矩阵","hscn_4":"梯度下降停在局部最小因？\n\n① 梯度增大\n② 因 $\\nabla L\\approx\\mathbf{0}$\n③ 学习率无穷\n④ 损失只增","hscn_5":"正则 $L+\\lambda\\|\\mathbf{w}\\|^2$ 之一？\n\n① 梯度变零\n② 加入把参数压小的梯度项\n③ 消去等高线\n④ 禁止学习"},"problemAnswers":{"gdef_0":2,"gdef_1":2,"gdef_2":2,"gdef_3":2,"gdef_4":2,"gdef_5":2,"gtf_0":1,"gtf_1":1,"gtf_2":2,"gtf_3":1,"gtf_4":2,"gtf_5":1,"gcalc_0":2,"gcalc_1":1,"gcalc_2":2,"gcalc_3":2,"gcalc_4":2,"gcalc_5":1,"gprop_0":2,"gprop_1":2,"gprop_2":2,"gprop_3":2,"gprop_4":2,"gprop_5":2,"mcon_0":2,"mcon_1":2,"mcon_2":2,"mcon_3":2,"mcon_4":2,"mcon_5":2,"mgeo_0":2,"mgeo_1":2,"mgeo_2":2,"mgeo_3":2,"mgeo_4":2,"mgeo_5":2,"mcmp_0":2,"mcmp_1":2,"mcmp_2":2,"mcmp_3":2,"mcmp_4":2,"mcmp_5":2,"hopt_0":2,"hopt_1":2,"hopt_2":2,"hopt_3":2,"hopt_4":2,"hopt_5":2,"hloss_0":2,"hloss_1":2,"hloss_2":2,"hloss_3":2,"hloss_4":2,"hloss_5":2,"hscn_0":2,"hscn_1":2,"hscn_2":1,"hscn_3":2,"hscn_4":2,"hscn_5":2},"problemSolutions":{"gdef_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gdef_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gdef_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gdef_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gdef_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gdef_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gtf_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gtf_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gtf_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gtf_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gtf_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gtf_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gcalc_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gcalc_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gcalc_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gcalc_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gcalc_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gcalc_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","gprop_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gprop_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gprop_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gprop_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gprop_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","gprop_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcon_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mgeo_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","mcmp_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hopt_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hloss_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hscn_0":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hscn_1":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hscn_2":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","hscn_3":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hscn_4":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","hscn_5":"**1)** 用梯度与方向导数定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②"},"problemTestCodes":{"gdef_0":"answer = 2\nassert answer == 2","gdef_1":"answer = 2\nassert answer == 2","gdef_2":"answer = 2\nassert answer == 2","gdef_3":"answer = 2\nassert answer == 2","gdef_4":"answer = 2\nassert answer == 2","gdef_5":"answer = 2\nassert answer == 2","gtf_0":"answer = 1\nassert answer == 1","gtf_1":"answer = 1\nassert answer == 1","gtf_2":"answer = 2\nassert answer == 2","gtf_3":"answer = 1\nassert answer == 1","gtf_4":"answer = 2\nassert answer == 2","gtf_5":"answer = 1\nassert answer == 1","gcalc_0":"answer = 2\nassert answer == 2","gcalc_1":"answer = 1\nassert answer == 1","gcalc_2":"answer = 2\nassert answer == 2","gcalc_3":"answer = 2\nassert answer == 2","gcalc_4":"answer = 2\nassert answer == 2","gcalc_5":"answer = 1\nassert answer == 1","gprop_0":"answer = 2\nassert answer == 2","gprop_1":"answer = 2\nassert answer == 2","gprop_2":"answer = 2\nassert answer == 2","gprop_3":"answer = 2\nassert answer == 2","gprop_4":"answer = 2\nassert answer == 2","gprop_5":"answer = 2\nassert answer == 2","mcon_0":"answer = 2\nassert answer == 2","mcon_1":"answer = 2\nassert answer == 2","mcon_2":"answer = 2\nassert answer == 2","mcon_3":"answer = 2\nassert answer == 2","mcon_4":"answer = 2\nassert answer == 2","mcon_5":"answer = 2\nassert answer == 2","mgeo_0":"answer = 2\nassert answer == 2","mgeo_1":"answer = 2\nassert answer == 2","mgeo_2":"answer = 2\nassert answer == 2","mgeo_3":"answer = 2\nassert answer == 2","mgeo_4":"answer = 2\nassert answer == 2","mgeo_5":"answer = 2\nassert answer == 2","mcmp_0":"answer = 2\nassert answer == 2","mcmp_1":"answer = 2\nassert answer == 2","mcmp_2":"answer = 2\nassert answer == 2","mcmp_3":"answer = 2\nassert answer == 2","mcmp_4":"answer = 2\nassert answer == 2","mcmp_5":"answer = 2\nassert answer == 2","hopt_0":"answer = 2\nassert answer == 2","hopt_1":"answer = 2\nassert answer == 2","hopt_2":"answer = 2\nassert answer == 2","hopt_3":"answer = 2\nassert answer == 2","hopt_4":"answer = 2\nassert answer == 2","hopt_5":"answer = 2\nassert answer == 2","hloss_0":"answer = 2\nassert answer == 2","hloss_1":"answer = 2\nassert answer == 2","hloss_2":"answer = 2\nassert answer == 2","hloss_3":"answer = 2\nassert answer == 2","hloss_4":"answer = 2\nassert answer == 2","hloss_5":"answer = 2\nassert answer == 2","hscn_0":"answer = 2\nassert answer == 2","hscn_1":"answer = 2\nassert answer == 2","hscn_2":"answer = 1\nassert answer == 1","hscn_3":"answer = 2\nassert answer == 2","hscn_4":"answer = 2\nassert answer == 2","hscn_5":"answer = 2\nassert answer == 2"}},"midMathCh09":{"chapter":"Chapter 09","title":"雅可比矩阵: 多个输入变动时输出如何变?","description":"想象一座巨大工厂里的机器：多个旋钮(输入)和多个仪表(输出)。同时把1号、2号旋钮微微转动，3号、4号仪表的指针各会移动多少?\n\n上一章的 **梯度(Gradient)** 在结果(误差)只有1个时，是指出最陡上坡的 **单一指南针**；而本章的 **雅可比矩阵(Jacobian Matrix, $J$)** 在结果有多个时，把所有输入与所有输出之间的细微相互作用汇总成一张大表的 **「终极敏感度综合仪表盘」**。\n\n我们面对的世界和深度学习模型，远看是曲折难测的非线性曲面($\\mathbf{f}$)。但无论多复杂，在某一点附近用放大镜放大观察，都会像直线和平面一样。雅可比矩阵用平行四边形格子(局部线性近似)再现这一瞬间，是让巨大神经网络追踪误差并自我调参的 **奇迹般的数学工具**。","sectionTitle":"雅可比矩阵: 多个输入变动时输出如何变?","sectionLabels":{"easyExplain":"用通俗话再讲一遍","whatIs":"概念","whyImportant":"重要性","howUsed":"应用","problemSolving":"解题提示"},"visualShort":"输入→输出: f(弯曲) vs J(直线近似)","visualIntro":"左 **输入** 格变右 **输出**。远看 **弯曲**($f$)，近看 **像直线倾斜**($J$)。橙·紫 **▱** 相似则近似成立。","visualStep1":"输入格","visualStep2":"f: 弯曲","visualStep3":"小 ▱","visualStep4":"J: 直线","visualStepsLabel":"阅读顺序","visualFlowTitle":"学习流程","visualFlowStep0":"概念：向量值 $\\mathbf{f}(\\mathbf{x})$","visualFlowStep1":"直觉：输入格→输出扭曲(上 f)","visualFlowStep2":"代数：$J_{ij}$，$\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$","visualFlowStep3":"衔接：Ch.08 梯度，Ch.05 det J","visualFlowStep4":"应用：反向传播，Ch.10 海森","jacVisualAriaLabel":"输入格变为输出，非线性 f 的弯曲与线性 J 的倾斜分步出现。","jacVisualMainTitle":"雅可比：多输入变动时输出如何变?","jacVisualSubtitle":"Ch.08 **梯度**用于 **1个** 结果，Ch.09 **雅可比 $J$** 用于 **多个**。左输入→右输出。先 **弯曲**($f$)，再 **直线近似**($J$)。","jacVisualCaption":"**红格**=坐标，**绿箭头**=变换，**橙 ▱**=$f$ 小区域，**紫 ▱**=$J$ 近似。▱ 相似即 $f\\approx J\\Delta\\mathbf{x}$。","jacVisualHintFar":"→ 远看: 格子弯曲 (非线性 f)","jacVisualHintNear":"→ 近看: 像直线倾斜 (线性 J)","jacDiagramLabelInput":"输入 / Input","jacDiagramLabelOutput":"输出 / Output","jacDiagramLabelNonlinear":"非线性 f","jacDiagramLabelLinear":"局部线性 J","whatIs":{"0":"**1. 向量值函数：多根输入杆与多块输出屏**\n\n此前函数往往是：旋钮转很多，结果(误差)却只有1个(标量函数)。但像素坐标、中间层数百个神经元值等，结果本身常以 **向量** 形式出现。$n$ 个输入同时产生 $m$ 个输出的机器叫 **向量值函数** $\\mathbf{f}:\\mathbb{R}^n\\to\\mathbb{R}^m$。动一下输入杆，数十块输出屏会一起晃动。","1":"**2. 局部线性化：放大镜下圆地球也平坦**\n\n如上方可视化，真实变化会让格子弯曲成复杂曲线(非线性)。但在某点附近放大数万倍，曲线像短直线，曲面像平面。微积分的核心就在这个狭窄的 **局部** 区域；雅可比是该摊平写像的 **斜率总表**。","2":"**3. 雅可比矩阵的定义：终极变化摘要**\n\n$J_{ij}=\\frac{\\partial f_i}{\\partial x_j}$ 看似复杂，含义很简单：**「第 $j$ 个旋钮转一格，第 $i$ 个指针动几格?」** 写在第 $i$ 行第 $j$ 列。许多旋钮同时微动 $\\Delta\\mathbf{x}$ 时，输出变化 $\\Delta\\mathbf{y}$ 用一行式 **$\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$** 即可预测。","3":"**4. 与 Ch.08 梯度：指南针叠成塔**\n\n输出1个⇒一行 **梯度** 指南针；输出3个⇒三行梯度叠成表。雅可比就是 **各输出梯度的集合，一行一行排成的大指南针库**。","4":"**5. 几何魔法：面积缩放 ($\\det J$)**\n\n小正方形输入经雅可比变换变成倾斜平行四边形。面积变为原来的几倍(或缩小)，由行列式 **$\\det J$** 表示。$|\\det J|=6$ 表示像黏土拉伸一样，单位面积变为 **6倍**(Ch.05)。"},"easyExplain":{"0":"**① 梯度 vs 雅可比 — 1个答案与多个答案**\n\nCh.08 **梯度**用于答案 **1个** 时：“多学10分钟，分数涨多少？” **雅可比**用于答案 **多个** 时：例如机械臂肩、肘微动，手的 **X** 和 **Y** **各自** 变多少——记在一张 **表** 里。Ch.08=一个指南针，Ch.09=连接多个旋钮与多个仪表的 **大表**。","1":"**② 读一格 $J_{ij}$ — “旋钮 j → 指针 i”**\n\n$J_{ij}$ 看着难，只需读成：**“第 $j$ 个输入微动，第 $i$ 个输出动多少？”** **行=输出，列=输入**。2×2 时第一行就是“第一个结果对 x、y 各反应多少”。","2":"**③ $\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$ — “微动输入，输出大约如此”**\n\n输入 **微动**($\\Delta\\mathbf{x}$)，输出也 **微变**($\\Delta\\mathbf{y}$)。近似：**输出变化 ≈ 雅可比 × 输入变化**。远看是弯的路，**某点附近** 像 **短直线**——上图(弯)与下图(直)的差别即此。","3":"**④ 反向传播 — 误差逆流时连乘各层表**\n\n网络层数很多。末层说“错了”，需 **逆流** 到前面层才知道改哪里。每层有小 **雅可比表**，**相乘**($J_{\\text{total}}=J_L\\cdots J_1$)。记住 **表×表×表** 即可。","4":"**⑤ $\\det J$ — 面积变几倍 · 机械臂警告灯**\n\n小 **正方形** 变 **平行四边形** 时，**面积几倍** 由 $\\det J$ 表示(Ch.05)。$|\\det J|=6$ → **6倍**。臂 **完全伸直** 时 $\\det J=0$ — 某方向 **连1毫米都动不了** 的 **奇异点(瘫痪)** **警告**。"},"whyImportant":{"bridge":"**深度学习是由无数雅可比矩阵像蛛网一样交织的巨大工厂**。ReLU、Sigmoid 等让数据弯曲，但反向传播(Backpropagation)用 **局部线性化** 求各层 **雅可比矩阵**。Ch.08 梯度只针对最终误差；层与层之间则需要表达数千神经元相互影响的巨大雅可比。","similarity":"归根结底，神经网络学习就是按链式法则(Chain Rule)不断相乘雅可比矩阵的数学过程。生成逼真人脸的 GAN 生成器、压缩数据的自编码器都会问：「我把输入的潜在噪声微微扭一下，眼前的图像会怎样变形变化?」——通过雅可比 $J$ 读出答案，再决定学习方向。"},"howUsed":{"ml":"**1. 反向传播(Backpropagation)：误差逆流而上**\n\n要减小误差，需把末层误差传回输入层。即使堆了数十层，**像踏脚石一样连乘各层局部雅可比** ($J_{\\text{total}}=J_L\\cdots J_1$) 即可一次算完全局敏感度并更新权重。\n\n**2. 概率密度的伸缩(归一化流 / Normalizing Flows)**\n\n生成式 AI 可把简单黏土(正态分布)揉捏拉伸成精细雕塑(复杂数据分布)。空间拉宽2倍则密度减半。体积变化引起的概率密度扭曲，用 **$\\log|\\det J|$** 精确校正(Ch.05 行列式)。","geometry":"**3. 机械臂精细控制与奇异点(瘫痪状态)**\n\n想象有肩、肘关节的机械臂。雅可比回答：「关节电机转1°，手端 X、Y 各移动多少?」若臂完全伸直，**$\\det J=0$** — 某些方向 **连1毫米都动不了** 的 **奇异点(瘫痪)** 警告，在机器人学中极为重要。"},"summary":"**一句：** 雅可比 $J$ 是多个旋钮与多个仪表如何一起变化的 **终极敏感度表**；局部用 $\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$ 把复杂变化直线化，是深度学习跨越巨大层数逆流追踪误差(反向传播)的 **最重要数学心脏**。","problemSolving":{"focus":"**解题时按这个顺序来**\n\n**① 表的大小 — 几个输出? 几个输入?**\n输出 $m$ 个、输入 $n$ 个时，$J$ 是 **$m$ 行 × $n$ 列** 的表。**行=输出，列=输入** (仪表编号 / 旋钮编号)。\n\n**② 填格子 — \"旋钮 j → 指针 i\"**\n$(i,j)$ 格子里写 **\"第 $j$ 个输入微动，第 $i$ 个输出变多少?\"** 正式叫偏导($J_{ij}$)，但只需想成 **一个反应大小**。\n\n**③ 小变动 — 输入动一点 → 输出动一点**\n输入 **只动一点点**($\\Delta\\mathbf{x}$)时，输出变化($\\Delta\\mathbf{y}$)大约等于 **$J$ × 输入变化**: $\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$。\n\n**④ 只有1个输出? 就是 Ch.08 梯度**\n结果只有1个($m=1$)时，$J$ 等于 Ch.08 **梯度** $\\nabla f$ 横过来放($\\nabla f^\\mathsf{T}$)。\n\n**三步流程:** ① 确认大小 → ② 填偏导 → ③ 函数嵌套则乘 $J_g J_f$","examplesHeading":"解题示例","examplesTable":"**例1 — 2×2 J**\n\n题：$\\mathbf{f}(x,y)=(x+y,\\;x-y)$ 的 $J$?\n\n解：$f_1=x+y\\Rightarrow(1,1)$, $f_2=x-y\\Rightarrow(1,-1)$. $J=\\begin{pmatrix}1&1\\\\1&-1\\end{pmatrix}$.\n\n---\n\n**例2 — 一点处**\n\n题：$\\mathbf{f}(x,y)=(x^2,\\;y)$, $(1,0)$ 的 $J$?\n\n解：$\\partial f_1/\\partial x=2x=2$, 其余0; $\\partial f_2/\\partial y=1$. $J=\\begin{pmatrix}2&0\\\\0&1\\end{pmatrix}$.\n\n---\n\n**例3 — 线性**\n\n题：$\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}$ 的 $J$?\n\n解：**$A$** (处处相同).\n\n---\n\n**例4 — 链式**\n\n题：$f(x)=x$, $g(u)=2u$ 时 $J_{g\\circ f}$ (1×1)?\n\n解：$J_f=1$, $J_g=2$, $J_{g\\circ f}=J_g J_f=2$.\n\n---\n\n**例5 — det J**\n\n题：$J=\\begin{pmatrix}2&0\\\\0&3\\end{pmatrix}$ 时单位正方形面积?\n\n解：$|\\det J|=|6|=6$ → **6倍**.\n\n---\n\n**例6 — 线性层**\n\n题：$\\mathbf{z}=W\\mathbf{x}+\\mathbf{b}$ 的 $J$?\n\n解：线性变换故 **$W$**. "},"problemSolvingLabel":"解题提示","problemSolvingTable":"| 用语 | 含义 |\n| :--- | :--- |\n| **雅可比** | $J_{ij}=\\partial f_i/\\partial x_j$, $m\\times n$ |\n| **局部近似** | $\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$ |\n| **梯度** | $m=1$ 时 $J=\\nabla f^\\mathsf{T}$ |\n| **链式** | $J_{g\\circ f}=J_g J_f$ |\n| **det J** | 面积/体积倍率 (Ch.05) |\n| **反向传播** | $\\partial L/\\partial\\mathbf{x}=J^\\mathsf{T}(\\partial L/\\partial\\mathbf{f})$ |\n\n**①** 行=输出，列=输入. **②** 线性 $f=Ax$ 则 $J=A$. **③** 小 $\\Delta\\mathbf{x}$. **④** 奇异(det$=0$)则某方向塌缩.","practiceProblemsTitle":"练习题","practiceProblemsIntro":"","practiceProblemsInstruction":"请阅读题目并选择最合适的选项。","problems":{"jdef_0":"输入 $\\mathbf{x}$ 稍微变动时，把向量输出 $\\mathbf{f}(\\mathbf{x})$ 的变化汇总成一张表(矩阵)的是?\n\n① 梯度\n② 雅可比矩阵 $J$\n③ 海森矩阵\n④ 行列式","jdef_1":"$$J_{ij}=\\dfrac{\\partial f_i}{\\partial x_j}$ 中 $J_{ij}$ 的含义是?\n\n① 第 $j$ 个输出 / 第 $i$ 个输入\n② 第 $i$ 个输出 / 第 $j$ 个输入的偏导\n③ 仅当 $i=j$ 时有定义\n④ 恒为 $0$","jdef_2":"$$f:\\mathbb{R}^2\\to\\mathbb{R}^3$ 时雅可比 $J$ 的大小(行×列)是?\n\n① $2\\times 2$\n② $2\\times 3$\n③ $3\\times 2$\n④ $3\\times 3$","jdef_3":"标量函数 $f:\\mathbb{R}^n\\to\\mathbb{R}$ 的雅可比通常是?\n\n① $n\\times n$ 矩阵\n② $1\\times n$ (梯度作为一行)\n③ 仅 $n\\times 1$\n④ 无定义","jdef_4":"局部线性近似 $\\Delta\\mathbf{y}\\approx J\\,\\Delta\\mathbf{x}$ 中的 $J$ 是?\n\n① 总是对称\n② 该点处的雅可比\n③ 海森矩阵\n④ 仅单位矩阵","jdef_5":"线性变换 $\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}$ 的雅可比 $J$ 是?\n\n① $A^{-1}$\n② $A$ (处处相同)\n③ $A^\\mathsf{T}A$\n④ 零矩阵","jtf_0":"输入变化很小时，$\\Delta\\mathbf{y}\\approx J\\,\\Delta\\mathbf{x}$ 可作为一阶近似。\n\n① 真\n② 假","jtf_1":"雅可比总是方阵($n\\times n$)。\n\n① 真\n② 假","jtf_2":"$$m=1$ 时雅可比 $J$ 等于把梯度 $\\nabla f$ 作为行向量。\n\n① 真\n② 假","jtf_3":"$$\\det J$ 与 (2D中) 小区域变换后面积变为几倍有关。\n\n① 真\n② 假","jtf_4":"雅可比的每一行是一个输出对所有输入的偏导。\n\n① 真\n② 假","jtf_5":"复合 $h=g\\circ f$ 的雅可比为 $J_h=J_g\\,J_f$ (链式法则)。\n\n① 真\n② 假","jcalc_0":"$$\\mathbf{f}(x,y)=(x+y,\\; x-y)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}1&-1\\\\1&1\\end{pmatrix}$\n② $\\begin{pmatrix}1&1\\\\1&-1\\end{pmatrix}$\n③ $\\begin{pmatrix}0&1\\\\1&0\\end{pmatrix}$\n④ $\\begin{pmatrix}2&0\\\\0&2\\end{pmatrix}$","jcalc_1":"$$\\mathbf{f}(x,y)=(2x,\\; 3y)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}2&3\\\\0&0\\end{pmatrix}$\n② $\\begin{pmatrix}2&0\\\\0&3\\end{pmatrix}$\n③ $\\begin{pmatrix}3&2\\\\0&0\\end{pmatrix}$\n④ $\\begin{pmatrix}1&1\\\\1&1\\end{pmatrix}$","jcalc_2":"$$\\mathbf{f}(x,y)=(x,\\; y)$ 的 $J$ 是?\n\n① 零矩阵\n② 单位矩阵 $I$\n③ $\\begin{pmatrix}0&1\\\\1&0\\end{pmatrix}$\n④ $\\begin{pmatrix}2&0\\\\0&2\\end{pmatrix}$","jcalc_3":"$$\\mathbf{f}(x,y)=(3x,\\; y)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}1&0\\\\0&3\\end{pmatrix}$\n② $\\begin{pmatrix}3&0\\\\0&1\\end{pmatrix}$\n③ $\\begin{pmatrix}3&1\\\\0&0\\end{pmatrix}$\n④ $\\begin{pmatrix}0&3\\\\1&0\\end{pmatrix}$","jcalc_4":"$$\\mathbf{f}(x,y)=(x,\\; 2y)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}2&0\\\\0&1\\end{pmatrix}$\n② $\\begin{pmatrix}1&0\\\\0&2\\end{pmatrix}$\n③ $\\begin{pmatrix}1&2\\\\0&1\\end{pmatrix}$\n④ $\\begin{pmatrix}0&1\\\\2&0\\end{pmatrix}$","jcalc_5":"$$\\mathbf{f}(x,y)=(x^2,\\; y)$ 在 $(1,0)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}1&0\\\\0&1\\end{pmatrix}$\n② $\\begin{pmatrix}2&0\\\\0&1\\end{pmatrix}$\n③ $\\begin{pmatrix}2&0\\\\0&0\\end{pmatrix}$\n④ $\\begin{pmatrix}0&2\\\\1&0\\end{pmatrix}$","jprop_0":"$$f:\\mathbb{R}^n\\to\\mathbb{R}^m$ 时 $J$ 的行数是?\n\n① $n$\n② $m$ (输出个数)\n③ $m+n$\n④ 恒为 $1$","jprop_1":"$$f:\\mathbb{R}^n\\to\\mathbb{R}^m$ 时 $J$ 的列数是?\n\n① $m$\n② $n$ (输入个数)\n③ $m-n$\n④ $1$","jprop_2":"$$J$ 所有元素为 $0$ 时，该点附近 $\\mathbf{f}$ 是?\n\n① 必为非线性\n② 几乎为常数(无变化)\n③ 必发散\n④ 无定义","jprop_3":"$$\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}+\\mathbf{b}$ 时 $J$ 是?\n\n① $\\mathbf{b}$\n② $A$\n③ $A\\mathbf{b}$\n④ $A^{-1}$","jprop_4":"$$\\Delta\\mathbf{x}$ 越小，近似 $\\Delta\\mathbf{y}\\approx J\\Delta\\mathbf{x}$ 越?\n\n① 越差\n② 越准确\n③ 不变\n④ 恒错","jprop_5":"2 输入 2 输出时 $J$ 的总元素个数是?\n\n① $2$\n② $4$\n③ $8$\n④ $1$","jcon_0":"Ch.08 梯度与 Ch.09 雅可比的关系?\n\n① 无关\n② 标量 $f$ 的 $J$ 为 $\\nabla f^\\mathsf{T}$; 向量 $f$ 每行一个输出\n③ 雅可比恒为标量\n④ 梯度矩阵更大","jcon_1":"向量值 $\\mathbf{f}:\\mathbb{R}^2\\to\\mathbb{R}^2$ 中 $J$ 的一行是?\n\n① 一个输入的偏导\n② 一个输出对 $(x,y)$ 的偏导\n③ 海森一行\n④ 行列式","jcon_2":"$$\\mathbf{f}(x,y)=(x^2,\\; y^2)$ 是?\n\n① 线性\n② 非线性 (乘积·平方)\n③ 常数\n④ 仅 $1\\to 1$","jcon_3":"局部线性化 $\\mathbf{f}(\\mathbf{x}_0+\\Delta\\mathbf{x})\\approx\\mathbf{f}(\\mathbf{x}_0)+J\\Delta\\mathbf{x}$ 中 $J$ 是?\n\n① 在 $\\mathbf{x}_0$ 无定义\n② 在 $\\mathbf{x}_0$ 计算的雅可比\n③ 海森\n④ 任意矩阵","jcon_4":"层 $\\mathbf{z}=W\\mathbf{x}+\\mathbf{b}$ 的 $J$ 是?\n\n① $W\\mathbf{b}$\n② $W$\n③ $W^\\mathsf{T}W$\n④ 仅 $\\mathbf{b}$","jcon_5":"输出 1 个($m=1$) 时雅可比大小是?\n\n① $n\\times n$\n② $1\\times n$\n③ 仅 $n\\times 1$\n④ 仅 $1\\times 1$","jgeo_0":"2D 中小正方形经 $J$ 变换通常变成?\n\n① 恒为圆\n② 平行四边形\n③ 点\n④ 直线","jgeo_1":"$$\\det J>0$ 时 (小区域) 通常表示?\n\n① 仅缩小\n② 面积倍数 $|\\det J|$ (Ch.05 行列式)\n③ 与面积无关\n④ det 无关","jgeo_2":"$$J=\\begin{pmatrix}2&0\\\\0&3\\end{pmatrix}$ 时单位正方形面积变为?\n\n① $1$\n② $6$ ($2\\times 3$)\n③ $5$\n④ $0$","jgeo_3":"非线性 $f$ 远处复杂，但在一点附近?\n\n① 恒为常数\n② 用 $J$ 像直线·平面一样近似\n③ 仅需海森\n④ 不需雅可比","jgeo_4":"$$J$ 奇异(det$=0$) 时小区域?\n\n① 面积不变\n② 压成一条线 (面积0)\n③ 必放大\n④ 仅旋转","jgeo_5":"机器人关节 $(\\theta_1,\\theta_2)\\mapsto 手 $(x,y)$ 的 $J$ 表示?\n\n① 仅手的位置\n② 关节微动时手如何移动\n③ 质量\n④ 电池","jcmp_0":"$$f:\\mathbb{R}^2\\to\\mathbb{R}$ 的 $\\nabla f$ 与 $J$ 大小?\n\n① $\\nabla f$ 为 $2\\times 2$\n② $\\nabla f$ 为2分量向量，$J$ 为 $1\\times 2$\n③ 相同\n④ $J$ 为 $2\\times 2$","jcmp_1":"$$f:\\mathbb{R}^2\\to\\mathbb{R}^2$ 的 $J$ vs Ch.10 海森 $H$?\n\n① $H$ 为一阶\n② $J$ 为一阶，$H$ 为二阶\n③ 相同\n④ 仅 $J$ 对称","jcmp_2":"$$\\mathbf{f}(x,y)=(x,y)$ 的 $J$ 是?\n\n① 零矩阵\n② $I$ (单位)\n③ $\\begin{pmatrix}0&1\\\\1&0\\end{pmatrix}$\n④ $\\begin{pmatrix}2&0\\\\0&2\\end{pmatrix}$","jcmp_3":"$$\\mathbf{f}(x,y)=(x+y,\\;0)$ 的 $J$ 是?\n\n① $\\begin{pmatrix}1&1\\\\1&1\\end{pmatrix}$\n② $\\begin{pmatrix}1&1\\\\0&0\\end{pmatrix}$\n③ $\\begin{pmatrix}0&0\\\\1&1\\end{pmatrix}$\n④ $\\begin{pmatrix}1&0\\\\1&0\\end{pmatrix}$","jcmp_4":"Ch.08 方向导数与 $J$ 的一行?\n\n① 无关\n② 把该输出当标量，其梯度即该行\n③ 恒为0\n④ 海森","jcmp_5":"$$f:\\mathbb{R}^2\\to\\mathbb{R}^2$, $g:\\mathbb{R}^2\\to\\mathbb{R}^2$ 时 $J_{g\\circ f}$ 大小是?\n\n① $1\\times 2$\n② $2\\times 2$\n③ $4\\times 4$\n④ $1\\times 1$","jchain_0":"$$f(x)=3x$ 的 $J$ (1×1) 是?\n\n① $1$\n② $3$\n③ $0$\n④ $9$","jchain_1":"$$f(x)=x$, $g(u)=2u$ 时 $J_{g\\circ f}$ (1×1) 是?\n\n① $3$\n② $2$ ($J_g=2$, $J_f=1$)\n③ $1$\n④ $0$","jchain_2":"复合 $h=g\\circ f$ 的雅可比是?\n\n① $J_f+J_g$\n② $J_g\\,J_f$ (矩阵乘)\n③ $J_f-J_g$\n④ 恒为单位矩阵","jchain_3":"线性 $\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}$, $\\mathbf{g}(\\mathbf{u})=B\\mathbf{u}$. $J_{g\\circ f}$ 是?\n\n① $A+B$\n② $BA$\n③ $AB$\n④ $A^{-1}$","jchain_4":"两层 $\\mathbf{z}=W_1\\mathbf{x}$, $\\mathbf{y}=W_2\\mathbf{z}$. $\\partial\\mathbf{y}/\\partial\\mathbf{x}$ 是?\n\n① $W_1+W_2$\n② $W_2 W_1$\n③ $W_1 W_2$\n④ $W_2^\\mathsf{T}$","jchain_5":"反向传播将各层雅可比 ___ 起来。\n\n① 仅相加\n② 链式(相乘)\n③ 相除\n④ 忽略","jloss_0":"层 $\\mathbf{z}=W\\mathbf{x}+\\mathbf{b}$ 的 $J$ 是?\n\n① $\\mathbf{b}$\n② $W$\n③ $W\\mathbf{x}$\n④ $W^\\mathsf{T}W$","jloss_1":"标量 $L=f(\\mathbf{x})$, $\\mathbf{x}\\in\\mathbb{R}^n$. $J_L$ 大小是?\n\n① $n\\times n$\n② $1\\times n$\n③ 仅 $1\\times 1$\n④ 仅 $n\\times 1$","jloss_2":"线性 $\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}$ 的 $J$ 是?\n\n① 每点不同\n② 处处为 $A$\n③ 恒为 $I$\n④ $\\mathbf{0}$","jloss_3":"$$f:\\mathbb{R}^2\\to\\mathbb{R}$ (输出1个) 的 $J$ 大小是?\n\n① $2\\times 2$\n② $1\\times 2$\n③ 仅 $2\\times 1$\n④ $1\\times 1$","jloss_4":"$$\\Delta\\mathbf{y}\\approx J\\,\\Delta\\mathbf{x}$ 中 $J$ 的作用是?\n\n① 固定输出\n② 输入变化→输出变化的表\n③ 海森\n④ 学习率","jloss_5":"神经网络中多层 $J$ 相乘得到?\n\n① 只剩一层\n② 输入→最终输出的变化率\n③ 恒为 $I$\n④ 仅 det","jscn_0":"机器人关节微动时手的位置变化?\n\n① 随机\n② $J\\,\\Delta\\boldsymbol{\\theta}$ 近似\n③ 仅海森\n④ 常数","jscn_1":"输入 $\\mathbf{x}$ 微变时输出变化?\n\n① 恒为0\n② $J\\,\\Delta\\mathbf{x}$ 近似\n③ 仅 det\n④ 仅二阶导","jscn_2":"Ch.08 梯度 vs 向量 $\\mathbf{f}$ 的 $J$?\n\n① $f$ 无导数\n② Ch.08是单输出; $J$是每输出一行\n③ 完全相同\n④ $J$ 为二阶","jscn_3":"小正方形经 $J$ 变换通常变成?\n\n① 圆\n② 平行四边形\n③ 点\n④ 直线","jscn_4":"层 $\\mathbf{z}=W\\mathbf{x}$ 的 $J$ 是?\n\n① $\\mathbf{x}$\n② $W$\n③ $W\\mathbf{x}$\n④ det $W$","jscn_5":"线性 $\\mathbf{f}(\\mathbf{x})=A\\mathbf{x}$ 的 $J$ 是?\n\n① $A^{-1}$\n② $A$\n③ $A^\\mathsf{T}A$\n④ 零矩阵"},"problemAnswers":{"jdef_0":2,"jdef_1":2,"jdef_2":3,"jdef_3":2,"jdef_4":2,"jdef_5":2,"jtf_0":1,"jtf_1":2,"jtf_2":1,"jtf_3":1,"jtf_4":1,"jtf_5":1,"jcalc_0":2,"jcalc_1":2,"jcalc_2":2,"jcalc_3":2,"jcalc_4":2,"jcalc_5":2,"jprop_0":2,"jprop_1":2,"jprop_2":2,"jprop_3":2,"jprop_4":2,"jprop_5":2,"jcon_0":2,"jcon_1":2,"jcon_2":2,"jcon_3":2,"jcon_4":2,"jcon_5":2,"jgeo_0":2,"jgeo_1":2,"jgeo_2":2,"jgeo_3":2,"jgeo_4":2,"jgeo_5":2,"jcmp_0":2,"jcmp_1":2,"jcmp_2":2,"jcmp_3":2,"jcmp_4":2,"jcmp_5":2,"jchain_0":2,"jchain_1":2,"jchain_2":2,"jchain_3":2,"jchain_4":2,"jchain_5":2,"jloss_0":2,"jloss_1":2,"jloss_2":2,"jloss_3":2,"jloss_4":2,"jloss_5":2,"jscn_0":2,"jscn_1":2,"jscn_2":2,"jscn_3":2,"jscn_4":2,"jscn_5":2},"problemSolutions":{"jdef_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jdef_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jdef_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ③","jdef_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jdef_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jdef_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jtf_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","jtf_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jtf_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","jtf_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","jtf_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","jtf_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ①","jcalc_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcalc_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcalc_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcalc_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcalc_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcalc_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jprop_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcon_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jgeo_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jcmp_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jchain_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jloss_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_0":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_1":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_2":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_3":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_4":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②","jscn_5":"**1)** 用雅可比定义，并用数值点验算。 **2)** 用具体数字验算。 **3)** 答案 ②"},"problemTestCodes":{"jdef_0":"answer = 2\nassert answer == 2","jdef_1":"answer = 2\nassert answer == 2","jdef_2":"answer = 3\nassert answer == 3","jdef_3":"answer = 2\nassert answer == 2","jdef_4":"answer = 2\nassert answer == 2","jdef_5":"answer = 2\nassert answer == 2","jtf_0":"answer = 1\nassert answer == 1","jtf_1":"answer = 2\nassert answer == 2","jtf_2":"answer = 1\nassert answer == 1","jtf_3":"answer = 1\nassert answer == 1","jtf_4":"answer = 1\nassert answer == 1","jtf_5":"answer = 1\nassert answer == 1","jcalc_0":"answer = 2\nassert answer == 2","jcalc_1":"answer = 2\nassert answer == 2","jcalc_2":"answer = 2\nassert answer == 2","jcalc_3":"answer = 2\nassert answer == 2","jcalc_4":"answer = 2\nassert answer == 2","jcalc_5":"answer = 2\nassert answer == 2","jprop_0":"answer = 2\nassert answer == 2","jprop_1":"answer = 2\nassert answer == 2","jprop_2":"answer = 2\nassert answer == 2","jprop_3":"answer = 2\nassert answer == 2","jprop_4":"answer = 2\nassert answer == 2","jprop_5":"answer = 2\nassert answer == 2","jcon_0":"answer = 2\nassert answer == 2","jcon_1":"answer = 2\nassert answer == 2","jcon_2":"answer = 2\nassert answer == 2","jcon_3":"answer = 2\nassert answer == 2","jcon_4":"answer = 2\nassert answer == 2","jcon_5":"answer = 2\nassert answer == 2","jgeo_0":"answer = 2\nassert answer == 2","jgeo_1":"answer = 2\nassert answer == 2","jgeo_2":"answer = 2\nassert answer == 2","jgeo_3":"answer = 2\nassert answer == 2","jgeo_4":"answer = 2\nassert answer == 2","jgeo_5":"answer = 2\nassert answer == 2","jcmp_0":"answer = 2\nassert answer == 2","jcmp_1":"answer = 2\nassert answer == 2","jcmp_2":"answer = 2\nassert answer == 2","jcmp_3":"answer = 2\nassert answer == 2","jcmp_4":"answer = 2\nassert answer == 2","jcmp_5":"answer = 2\nassert answer == 2","jchain_0":"answer = 2\nassert answer == 2","jchain_1":"answer = 2\nassert answer == 2","jchain_2":"answer = 2\nassert answer == 2","jchain_3":"answer = 2\nassert answer == 2","jchain_4":"answer = 2\nassert answer == 2","jchain_5":"answer = 2\nassert answer == 2","jloss_0":"answer = 2\nassert answer == 2","jloss_1":"answer = 2\nassert answer == 2","jloss_2":"answer = 2\nassert answer == 2","jloss_3":"answer = 2\nassert answer == 2","jloss_4":"answer = 2\nassert answer == 2","jloss_5":"answer = 2\nassert answer == 2","jscn_0":"answer = 2\nassert answer == 2","jscn_1":"answer = 2\nassert answer == 2","jscn_2":"answer = 2\nassert answer == 2","jscn_3":"answer = 2\nassert answer == 2","jscn_4":"answer = 2\nassert answer == 2","jscn_5":"answer = 2\nassert answer == 2"}},"midMathCh10":{"chapter":"Chapter 10","title":"黑塞矩阵：读曲面的弯曲程度","description":"黑塞矩阵是由标量函数的二阶偏导数构成的方阵，表示某点处曲面的曲率，用于判断极小、极大与鞍点，也是牛顿法、置信域方法的基础。","sectionTitle":"黑塞矩阵：读曲面的弯曲程度","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"怎么用","problemSolving":"解题说明"},"whatIs":{"intro":"**黑塞矩阵是什么？** — 可以理解为：在你所站的点上，用数字写出「各个方向曲面弯了多少」的一张表。由函数二阶微分得到的值排成的方阵，且沿对角线左右对称，即**对称矩阵**。","plain":"想象闭着眼下山。脚底感觉到的「这边更陡」是一阶微分（梯度）。而「再迈一步，地面会凹下去还是平坦？」这种预感就是二阶微分，也就是黑塞。有了它就能避开悬崖，找到像碗底那样的真正最低点。","definition":"更准确地说，把函数 $f$ 在 $x_i$、$x_j$ 两个方向各微分两次得到的 $\\frac{\\partial^2 f}{\\partial x_i \\partial x_j}$ 填进表里，就是黑塞 $\\mathbf{H}$。这张表的**特征值**是关键：全正→该点是碗底一样的**极小点**，全负→像山顶的**极大点**，有正有负→一边升一边降的**鞍点**。","inAI":"机器学习里，训练就是在找「误差最小的谷」。只靠梯度一点点往下走很慢。用黑塞知道曲率后，可以用**牛顿法**朝谷底大步跳，学习会快很多。"},"whyImportant":{"fakeBottom":"往下走时会遇到梯度为 0 的平坦处。那不一定就是真正的谷底，可能是鞍点——暂时平坦，但一边升一边降。这时看黑塞的**特征值**就能区分：是真最小点还是鞍点。变量很多（如 AI）时，不踩进这种「假谷底」非常重要。","smartStep":"窄路小步、平地大步才又快又稳。黑塞告诉你「各方向有多陡」，所以能自动调好步长（学习率），少走冤枉路、高效下降。"},"howUsed":{"newton":"牛顿法用下面公式一步走很多：$\\mathbf{x}_{k+1} = \\mathbf{x}_k - \\mathbf{H}^{-1} \\nabla f(\\mathbf{x}_k)$。其中 $\\mathbf{x}_k$ 是当前位置，$\\nabla f(\\mathbf{x}_k)$ 是该点梯度，$\\mathbf{H}$ 是该点黑塞矩阵，$\\mathbf{H}^{-1}$ 是其逆矩阵。也就是「同时看梯度和曲率（黑塞），朝谷底大步跳到 $\\mathbf{x}_{k+1}$」。比只靠梯度小步走能更快接近答案。","quasiNewton":"变量一多，精确算黑塞成本太大。实务中更多用**拟牛顿法**（如 BFGS）：不完整算黑塞，只用至今的梯度信息去「猜个大概形状」来用。"},"summary":"黑塞矩阵是由标量函数二阶偏导构成的对称矩阵，承载某点的曲率与极值性质。在梯度为零的点，特征值全正则为极小，全负则为极大，有正有负则为鞍点。在机器学习中，它是损失最小点搜索与验证、牛顿法、置信域、拟牛顿等二阶优化的基础。","problemSolving":{"focus":"下表只整理解题所需的 **公式与符号含义**。表下方的 **解题示例** 中有完整解题过程，请对照参考。","examplesHeading":"解题示例","examplesTable":"**例1 — 元素个数**\n\n问题：$f(x_1, x_2)$ 的黑塞有多少个元素？\n\n解：变量为 2 个时，黑塞为 $2 \\times 2$ 矩阵，故共有 **4** 个元素。对称故 $H_{12}=H_{21}$，彼此不同的元素只有 $H_{11}$、$H_{12}$、$H_{22}$ 共 **3** 个。\n\n→ 问总数则答 **4**，问独立元素数则答 **3**。\n\n---\n\n**例2 — 极小判定**\n\n问题：黑塞特征值为 2 和 5 时，该点是极小、极大还是鞍点？\n\n解：特征值**均为正**时，该点处曲面各方向向下弯，呈碗形，故为**极小点**。\n\n→ 在 ①极小 ②极大 ③鞍点中选 **1（极小）**。\n\n---\n\n**例3 — 极大判定**\n\n问题：黑塞特征值为 $-1$ 与 $-3$ 时，该点是？\n\n解：**均为负**时，该点处曲面各方向向上弯，呈倒扣的碗，为**极大点**。\n\n→ 选 **2（极大）**。\n\n---\n\n**例4 — 鞍点判定**\n\n问题：黑塞特征值为 $2$ 与 $-1$ 时，该点是？\n\n解：特征值**有正有负**时，一方上升、一方下降，为**鞍点**。\n\n→ 选 **3（鞍点）**。\n\n---\n\n**例5 — 二阶导数值**\n\n问题：$f(x)=3x^2+2x+1$ 时，$f''(x)$ 为多少？\n\n解：二次式 $ax^2+bx+c$ 中 $x^2$ 的系数为 $a=3$。二阶导数为 $f''(x)=2a=2 \\times 3 = 6$，与 $x$ 无关的常数。\n\n→ 答案 **6**。\n\n---\n\n**例6 — 牛顿法（一维）**\n\n问题：$f(x)=x^2$，$x_0=4$ 时，一步牛顿迭代后的 $x_1$ 为？\n\n解：一维牛顿步为 $x_1 = x_0 - f'(x_0)/f''(x_0)$。$f'(x)=2x$，$f''(x)=2$，故 $f'(4)=8$，$f''(4)=2$，得 $x_1 = 4 - 8/2 = 0$。\n\n→ 答案 **0**。\n\n---\n\n**例7 — 定义（对/错）**\n\n问题：「黑塞特征值全为正时，该点为极小点。」对则 1，错则 0。\n\n解：说法正确。特征值全为正时，曲面各方向向下弯，故为极小点。\n\n→ 答案 **1**。"},"problemSolvingLabel":"解题说明","problemSolvingTable":"$24","problemSolvingExample1":"**例（元素个数）**\n\n$f(x_1,x_2)$ 的黑塞为 $2\\times2$，故共 4 个元素；独立 3 个。→ **答案 4**（总数）或 **3**（独立，依题意）","problemSolvingExample2":"**例（极值判定）**\n\n某点黑塞特征值为 2 和 5（均为正），则该点为极小点。→ **答案 1**（极小）或题目要求的数","problemSolvingExample3":"**例（牛顿法）**\n\n$f(x)=x^2$ 时 $f'(x)=2x$，$f''(x)=2$。在 $x_0=4$ 处一步：$x_1 = x_0 - f'(x_0)/f''(x_0) = 4 - 8/2 = 0$。→ **答案 0**","visualShort":"黑塞：二阶偏导→曲率与极值","visualIntroShort":"一阶导告诉你「哪边是下坡」，二阶（黑塞）告诉你「接下来会凹下去，还是一边升一边降（鞍点）」。请跟着下方动画理解。","visualWhyHessian":"黑塞是 **二阶导数** 构成的矩阵，所以下图中的「弯曲程度」就是黑塞所描述的内容。","visualIntro":"黑塞矩阵是函数 $f$ 在点 $\\mathbf{x}$ 处的二阶偏导排成的矩阵，用于读曲率并判断极小、极大与鞍点。","visualConceptTitle":"概念结构","visualConceptStep0":"输入：标量函数 $f(\\mathbf{x})$，点 $\\mathbf{x}$","visualConceptStep1":"计算 $\\frac{\\partial^2 f}{\\partial x_i \\partial x_j}$","visualConceptStep2":"构成黑塞矩阵 $\\mathbf{H}$（对称）","visualConceptStep3":"特征值→极小（全正）、极大（全负）、鞍（混合）","visualFlowTitle":"学习流程","visualFlowStep0":"概念：二阶偏导矩阵","visualFlowStep1":"直观：曲面的弯曲程度（曲率）","visualFlowStep2":"数学：$H_{ij}$、对称性、特征值","visualFlowStep3":"应用：牛顿法、极值、置信域","visualCaption":"左：碗形（只向下弯）→极小。倒扣的碗（只向上弯）→极大。鞍点：一方上升一方下降→既非极小也非极大。","visualStep1":"输入：标量函数 $f(\\mathbf{x})$，点 $\\mathbf{x}$","visualStep2":"计算二阶偏导 $\\frac{\\partial^2 f}{\\partial x_i \\partial x_j}$","visualStep3":"构成黑塞矩阵 $\\mathbf{H}$（对称）","visualStepsLabel":"阅读顺序","visualBowlTitle":"碗形：只向下弯→极小点","visualSaddleTitle":"鞍点：这边值↑上升，那边值↓下降","visualCurveDown":"↓ 弯曲","visualFppMin":"f″=2>0→极小","visualMinPoint":"极小点","visualValueUp":"值↑","visualValueDown":"值↓","visualSaddleOrangeGreen":"橙方向值上升 · 绿方向值下降","visualSaddleNeither":"鞍点：既非极小也非极大","visualSummary1":"碗形只向下弯→此处为极小","visualSummary2":"倒扣的碗只向上弯→此处为极大","visualSummary3":"鞍点一方上升一方下降→既非极小也非极大","problemPromptIntro":"阅读题目并输入与Hessian/极值相关的数值。","promptDefinition":"若下列叙述为**真**选**1**，为**假**选**0**。","promptDefinitionChoice":"下列（甲）（乙）（丙）中正确的一项是？请选择。","promptElementCount":"设标量函数 $f$ 有 {n} 个自变量，黑塞矩阵的元素总个数为？","promptIndependentCount":"$$n={n}$ 元对称黑塞矩阵的独立元素个数为？","promptMatrixSize":"$$n={n}$ 元函数的黑塞矩阵的行数（或列数）为？","promptEigenvalueType":"黑塞特征值为 $\\lambda_1={ev1}$、$\\lambda_2={ev2}$ 时，临界点属于哪一类？","promptNewton1D":"在 $f(x)={a}x^2{bVal}x+{c}$ 中，当 $x_0={x0}$ 时，牛顿法一步后的 $x_1$ 为？","promptScalarSecondDeriv":"对 $f(x)={a}x^2+bx+c$，二阶导数 $f''(x)$ 的值为？","promptDefault":"在下方选项中选择正确答案。","mcDefChoice1":"（甲）","mcDefChoice2":"（乙）","mcDefChoice3":"（丙）","mcDefChoice4":"（丁）(甲)〜(丙)均不正确","mcEigenChoice1":"极小","mcEigenChoice2":"极大","mcEigenChoice3":"鞍点","mcEigenChoice4":"以上三者都不符合","definitionStatements":{"0":"$$C^2$ 标量函数的黑塞矩阵是对称矩阵。","1":"在临界点处，若黑塞特征值均为正，则该点为局部极小点。","2":"在临界点处，若黑塞特征值均为负，则该点为局部极大点。","3":"黑塞的 $(i,j)$ 元为 $\\partial^2 f/\\partial x_i\\partial x_j$。","4":"若 $f$ 为 $C^2$，则 $\\partial^2 f/\\partial x_i\\partial x_j = \\partial^2 f/\\partial x_j\\partial x_i$。","5":"$$n$ 元标量函数的黑塞是 $n\\times n$ 方阵。","6":"若黑塞正定，则所有特征值为正。","7":"若黑塞负定，则所有特征值为负。","10":"若黑塞特征值互不相同，则临界点必为鞍点。","11":"任意标量函数的黑塞都是单位矩阵。","12":"一元函数 $f(x)$ 的黑塞总是 $2\\times 2$ 矩阵。","13":"若有一个特征值为 0，则临界点必为局部极小点。","14":"若黑塞为零矩阵，则临界点必为局部极值点。"},"definitionChoiceQuestions":{"0":"（甲）二元函数黑塞的元素总个数为 $4$。\n（乙）为 $9$。\n（丙）为 $6$。","1":"（甲）三元对称黑塞的独立元素个数为 $9$。\n（乙）为 $6$。\n（丙）为 $3$。","2":"（甲）局部极小\n（乙）局部极大\n（丙）鞍点\n\n（提示）特征值为 $\\lambda_1=2$，$\\lambda_2=-1$。","3":"（甲）局部极小\n（乙）局部极大\n（丙）鞍点\n\n（提示）特征值为 $\\lambda_1=3$，$\\lambda_2=5$。","4":"（甲）局部极小\n（乙）局部极大\n（丙）鞍点\n\n（提示）特征值为 $\\lambda_1=-2$，$\\lambda_2=-4$。","5":"（甲）$f''(x)=2$\n（乙）$f''(x)=0$\n（丙）$f''(x)=1$\n\n（提示）$f(x)=x^2+1$。","6":"（甲）行（列）数 $4$\n（乙）$3$\n（丙）$2$\n\n（提示）黑塞为 $2\\times 2$ 时。","7":"（甲）$9$\n（乙）$3$\n（丙）$6$\n\n（提示）变量个数为 $3$ 时黑塞的行数？"}},"midMathCh11":{"chapter":"Chapter 11","title":"泰勒级数：用多项式追随复杂函数","description":"泰勒级数是在“当前所在点”附近，把复杂函数改写成多项式的方法。一阶近似像切线一样用直线追随，二阶、三阶则越来越贴合曲线。在人工智能中，它用于近似损失函数或激活函数，也是理解牛顿法和二阶优化的核心。","sectionTitle":"泰勒级数：用多项式追随复杂函数","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"如何使用","problemSolving":"解题说明"},"visualShort":"泰勒：点附近的多项式近似","visualIntroShort":"复杂曲线在一点附近放大后，也会像直线（一阶）或抛物线（二阶）一样。请看下方动画：次数越高，越贴近原函数。","visualWhyTaylor":"泰勒级数把该点处函数如何变化写入微分值，并在附近区间用多项式代替原曲线。","visualIntro":"在中心 $a$ 收集 $f(a), f'(a), f''(a), \\ldots$，构造 $T_n(x)=\\sum_{k=0}^{n}\\frac{f^{(k)}(a)}{k!}(x-a)^k$。$a=0$ 时称为麦克劳林级数。","visualCaption":"紫色为原函数，橙、绿、蓝为一、二、三阶泰勒近似。离中心越远误差越大。","visualStep1":"读取中心 $a$ 处的函数值与微分值","visualStep2":"叠加一阶（切线）→二阶（抛物线）→三阶多项式","visualStep3":"检查近似曲线是否贴近原函数","visualStepsLabel":"观看顺序","whatIs":{"intro":"**泰勒级数是什么？** 它是在单点 $a$ 附近，把难函数 $f(x)$ 换成**多项式**的公式。组合该点的值、斜率、曲率，使附近的 $x$ 与原函数几乎相同。","plain":"放大地图时，弯曲线段也会像直线。泰勒级数同理：**在 $a$ 附近放大**，复杂函数就像 $1 + x + x^2/2 + \\cdots$ 这样的简单多项式。","definition":"正式写法：$T_n(x)=f(a)+f'(a)(x-a)+\\frac{f''(a)}{2!}(x-a)^2+\\cdots+\\frac{f^{(n)}(a)}{n!}(x-a)^n$。$f^{(k)}(a)$ 是 $a$ 处 $k$ 阶导数，$k!$ 是阶乘。**麦克劳林级数**是 $a=0$ 的特例。","inAI":"机器学习中，在参数附近把**损失函数**二次近似，就连接到牛顿法与 Hessian（第10章）。**激活函数**在小区间也可线性或二次近似，帮助理解学习率与误差。"},"whyImportant":{"localView":"仅有微分只知道当前斜率，难知整段曲线。泰勒级数用**同一点的高阶导数**把局部形状汇总为一个多项式。","bridgeToNewton":"第10章 Hessian 把二次项 $\\frac{f''(a)}{2}(x-a)^2$ 推广到矩阵。理解二阶泰勒，就自然理解二阶导数为何决定曲率与牛顿步长。"},"howUsed":{"gradientDescent":"**1. 在梯度下降里怎么用？（一阶近似）**\n\n梯度下降的核心是：在当前点朝“损失下降最快”的方向小步移动。这正是一阶泰勒近似的思想。也就是在当前点附近，把损失函数看成切线（线性）来决定下一步。\n\n实战流程通常是：\n- 在当前参数处计算损失和梯度；\n- 用一阶近似判断下降方向；\n- 乘学习率执行一步更新。\n\n这个视角很重要，因为更新公式不是机械记忆，而是“基于一阶近似的决策”。因此也更容易理解：学习率过大为何会震荡，过小为何会很慢。","newtonAndHessian":"**2. 在牛顿法与 Hessian 里怎么用？（二阶近似）**\n\n牛顿类方法不仅看一阶信息（斜率），还使用二阶信息（曲率）。从二阶泰勒角度看，就是把局部损失面近似为抛物面，再根据这个形状决定更高效的步长。\n\n可直观比较为：\n- 一阶近似（梯度下降）：擅长找方向；\n- 二阶近似（牛顿法）：方向和步长都更聪明。\n\nHessian 是承载曲率信息的核心工具。它告诉你哪些方向更陡、哪些方向更平，从而按方向调整移动尺度。条件合适时，牛顿系方法往往收敛更快。","numericalAndDL":"**3. 在数值计算与深度学习实现里怎么用？**\n\n工程中我们常常不会每次都精确计算复杂函数，而是在需要的区间里做近似来降低计算量。泰勒级数正是这类方法的代表。\n\n常见场景包括：\n- 在小区间用多项式近似 $e^x$、$\\sin x$、$\\log(1+x)$ 等函数以加速计算；\n- 将激活函数或损失函数在特定工作区间内简化，便于分析；\n- 在优化算法设计中，用“当前附近地形”的近似来选择更稳定的更新步。\n\n在深度学习里，很多时候比起全局精确解析，更关键的是读懂“当前参数附近”的行为。泰勒视角既能减轻计算，也能提升对更新原因的可解释性。它不是只在课堂里使用的理论，而是训练流水线中的实用判断工具。"},"summary":"泰勒级数在特定点附近用多项式近似复杂函数。一阶连梯度，二阶连 Hessian 与牛顿；次数越高通常越准。与第08章梯度、第10章 Hessian 共同构成优化数学的主线。","problemSolving":{"focus":"下表仅整理解题所需的**公式与符号**。请参见表下**例题**的步骤。","examplesHeading":"例题","examplesTable":"$25"},"problemSolvingLabel":"解题说明","problemSolvingTable":"| 公式 | 符号含义 |\n| :--- | :--- |\n| $T_n(x)=\\sum_{k=0}^{n}\\frac{f^{(k)}(a)}{k!}(x-a)^k$ | $n$ 阶泰勒多项式。$f^{(k)}(a)$ = $k$ 阶导数。 |\n| $T_1(x)=f(a)+f'(a)(x-a)$ | **一阶（线性）近似** = 切线。对应梯度一步。 |\n| $T_2(x)=f(a)+f'(a)(x-a)+\\frac{f''(a)}{2}(x-a)^2$ | **二阶近似**。牛顿法·Hessian。 |\n| $a=0$（麦克劳林） | 中心在原点。 |\n| $n$ 阶项数 | **$n+1$** 个。 |\n| $x^n$ 系数 | 低次多项式的麦克劳林系数。 |\n| 余项 | 约为 $(x-a)^{n+1}$ 阶。 |\n| ML | 一阶→SGD；二阶→牛顿·Hessian。 |","problemSolvingExample1":"**例（一阶）** $T_1(2)=7$ → **7**","problemSolvingExample2":"**例（二阶）** $T_2(2)=4$ → **4**","problemSolvingExample3":"**例（项数）** 三阶→4项 → **4**","visualConceptTitle":"概念结构","visualConceptStep0":"输入：函数 $f$，中心 $a$","visualConceptStep1":"收集微分值 $f^{(k)}(a)$","visualConceptStep2":"组装多项式 $T_n(x)$","visualConceptStep3":"$$|x-a|$ 越小越接近","visualFlowTitle":"学习流程","visualFlowStep0":"概念：局部多项式近似","visualFlowStep1":"直觉：放大地图·切线·抛物线","visualFlowStep2":"数学：泰勒·麦克劳林·阶数","visualFlowStep3":"应用：梯度·牛顿·数值计算","visualOriginalTitle":"原函数（示意）","visualOrder1Title":"一阶：沿切线追随","visualOrder2Title":"二阶：像抛物线一样弯曲贴合","visualOrder3Title":"三阶：更远也相似","visualCenterLabel":"中心 $a$","visualErrorGrow":"越远误差越大","visualMatchGood":"附近拟合很好","visualSummary1":"一阶 = 切线 = 梯度方向","visualSummary2":"二阶 = 曲率 = Hessian·牛顿","visualSummary3":"阶数↑ → 更准，式子更复杂","problemPromptIntro":"阅读题目并输入泰勒级数相关数值。","promptDefinition":"若陈述为**真**选 **1**，**假**选 **0**。","promptDefinitionChoice":"在（甲）（乙）（丙）中选正确的一项。","promptLinearApprox":"对 $f(x)={b}x+{c}$，中心 $a={center}$，求一阶泰勒 $T_1({x})$。","promptQuadraticApprox":"对 $f(x)={a}x^2{bVal}x+{c}$，中心 $a={center}$，求二阶泰勒 $T_2({x})$。","promptMaclaurinCoeff":"$$f(x)={coef}x^{power}$ 的麦克劳林级数中 $x^{askPower}$ 的系数是？","promptDerivativeAtCenter":"对 $f(x)=x^{power}$，求 $x=0$ 处 ${order}$ 阶导数 $f^{({order})}(0)$。","promptTermCount":"$${order}$ 阶泰勒多项式 $T_{order}(x)$ 有多少项？","promptRemainderOrder":"$$n={order}$ 阶泰勒近似后，余项的典型阶数是？","promptMlConcept":"泰勒级数与机器学习 — 选正确的（甲）（乙）（丙）。","promptDefault":"请选择正确答案。","mcDefChoice1":"(甲)","mcDefChoice2":"(乙)","mcDefChoice3":"(丙)","mcDefChoice4":"(丁) (甲)～(丙)均不正确","mcRemainderChoice1":"$$(x-a)^{n}$","mcRemainderChoice2":"$$(x-a)^{n+1}$","mcRemainderChoice3":"$$(x-a)^{n+2}$","mcRemainderChoice4":"以上均不对","definitionStatements":{"0":"泰勒多项式在中心 $a$ 处与原函数有相同的值 $f(a)$。","1":"一阶泰勒多项式在 $a$ 处等于切线。","2":"麦克劳林级数是中心 $a=0$ 的泰勒级数。","3":"$$n$ 阶泰勒多项式最多有 $n+1$ 项。","4":"泰勒级数中 $(x-a)^k$ 的系数为 $\\frac{f^{(k)}(a)}{k!}$。","5":"提高阶数 $n$ 通常会在 $a$ 附近提高近似精度。","10":"泰勒多项式在整个实数轴上总与原函数完全相同。","11":"一阶近似总是比二阶更精确。","12":"麦克劳林级数只在 $a=1$ 处定义。","13":"泰勒级数总可用于不可微函数。","14":"$$f^{(k)}(a)$ 表示在 $a$ 处 $k$ 次积分值。"},"definitionChoiceQuestions":{"0":"(甲) $T_1(x)=f(a)+f'(a)(x-a)$。\n(乙) $T_1(x)=f(a)+\\frac{f''(a)}{2}(x-a)^2$。\n(丙) $T_1(x)$ 总等于 $f(x)$。","1":"(甲) 麦克劳林级数是 $a=0$ 的泰勒级数。\n(乙) 只在 $a=1$ 定义。\n(丙) 仅指一阶近似。","2":"(甲) 三阶泰勒有4项。\n(乙) 只有3项。\n(丙) 项数与阶数无关。","3":"(甲) 一阶泰勒与梯度下降相关。\n(乙) 一阶泰勒等于 Hessian 特征值。\n(丙) 泰勒级数与 ML 无关。","4":"(甲) $f(x)=x^2$ 的二阶麦克劳林为 $x^2$。\n(乙) 一阶麦克劳林为整个 $x^2$。\n(丙) 无法泰勒近似。","5":"(甲) $n$ 阶后余项约为 $(x-a)^{n+1}$ 阶。\n(乙) 余项恒为0。\n(丙) 余项等于 $(x-a)^n$。","6":"(甲) 二阶泰勒与牛顿法相关。\n(乙) 只描述前向传播。\n(丙) 二阶泰勒等于内积。","7":"(甲) $f(x)=5x^2$ 中 $x^2$ 系数为5。\n(乙) 为10。\n(丙) 为0。"},"mlConceptQuestions":{"0":"(甲) 一阶泰勒对应梯度一步的思想。\n(乙) 一阶泰勒总等于 Hessian 逆。\n(丙) 一阶泰勒定义批归一化。","1":"(甲) 二阶泰勒包含损失的曲率（Hessian）。\n(乙) 只描述数据增强。\n(丙) 总等于线性回归。","2":"(甲) 可在小区间简化激活函数。\n(乙) 只减少 GPU 内存。\n(丙) 取代反向传播。","3":"(甲) 提高阶数常提高局部精度。\n(乙) 提高阶数总使全局完美。\n(丙) 阶数与精度无关。","4":"(甲) 第10章牛顿法与二阶泰勒相关。\n(乙) 牛顿法与泰勒无关。\n(丙) 牛顿法只用零阶近似。"}},"advMathChapters":{"advMath00":{"chapter":"Chapter 00","title":"高级数学与人工智能：生成理论与复杂系统建模的骨架","description":"面向AI的高级数学：多维分析、复杂概率分布与深度学习。生成模型与强化学习课程介绍。"},"advMath01":{"chapter":"Chapter 01","title":"奇异值分解（SVD）与伪逆：数据潜在模式提取","description":"SVD与伪逆用于潜在模式提取。PCA、推荐系统基础。高级数学 Ch.01。"},"advMath02":{"chapter":"Chapter 02","title":"张量代数与爱因斯坦记号","description":"张量代数、Einsum、缩并。神经网络与注意力记法。高级数学 Ch.02。"},"advMath03":{"chapter":"Chapter 03","title":"拉格朗日乘子与KKT条件：约束优化","description":"拉格朗日乘子与KKT用于约束优化。SVM与约束强化学习的数学基础。高级数学 Ch.03。"},"advMath04":{"chapter":"Chapter 04","title":"马尔可夫链：状态转移与概率过程","description":"马尔可夫链、转移矩阵、平稳分布与收敛性。MCMC与强化学习基础。高级数学 Ch.04。"},"advMath05":{"chapter":"Chapter 05","title":"蒙特卡洛积分：数值近似法","description":"蒙特卡洛积分用于高维期望与概率近似。用于强化学习与贝叶斯推断。高级数学 Ch.05。"},"advMath06":{"chapter":"Chapter 06","title":"MCMC：复杂概率分布采样","description":"MCMC、Gibbs与Metropolis-Hastings。从复杂后验分布采样。高级数学 Ch.06。"},"advMath07":{"chapter":"Chapter 07","title":"EM算法：含潜在变量的推断","description":"EM算法：E步与M步、潜在变量模型的最大似然估计。GMM、HMM基础。高级数学 Ch.07。"},"advMath08":{"chapter":"Chapter 08","title":"MAP估计：贝叶斯优化与正则化","description":"MAP估计、先验与L1/L2正则化的数学依据。贝叶斯深度学习基础。高级数学 Ch.08。"},"advMath09":{"chapter":"Chapter 09","title":"共轭先验：解析贝叶斯推断","description":"共轭先验使后验分布可解析计算。贝叶斯定理、Beta与Dirichlet分布。高级数学 Ch.09。"},"advMath10":{"chapter":"Chapter 10","title":"JS散度与互信息","description":"JS散度与互信息。分布距离与信息共享的量化。GAN与信息论。高级数学 Ch.10。"},"advMath11":{"chapter":"Chapter 11","title":"变分推断：难处理概率的近似","description":"变分推断、KL最小化与近似后验。VAE与生成模型的核心。高级数学 Ch.11。"},"advMath12":{"chapter":"Chapter 12","title":"重参数化技巧：随机性的微分","description":"重参数化技巧使采样运算可微。VAE训练与梯度估计。高级数学 Ch.12。"},"advMath13":{"chapter":"Chapter 13","title":"最优传输与Wasserstein距离","description":"Wasserstein距离与Earth Mover。支撑不重叠时也有有限距离、WGAN。高级数学 Ch.13。"},"advMath14":{"chapter":"Chapter 14","title":"MDP与贝尔曼方程：强化学习的数学骨架","description":"MDP与贝尔曼方程。状态、动作、奖励、价值函数。强化学习数学基础。高级数学 Ch.14。"},"advMath15":{"chapter":"Chapter 15","title":"傅里叶变换与频谱分析","description":"傅里叶变换与频域分析。时序与图像信号处理、CNN与注意力。高级数学 Ch.15。"},"advMath16":{"chapter":"Chapter 16","title":"图拉普拉斯：网络结构的数学化","description":"图拉普拉斯、邻接与度矩阵。GNN、信息扩散与平滑性。高级数学 Ch.16。"},"advMath17":{"chapter":"Chapter 17","title":"随机微分方程（SDE）入门：噪声的连续注入","description":"SDE与布朗运动。扩散模型前向过程与噪声调度公式化。高级数学 Ch.17。"},"advMath18":{"chapter":"Chapter 18","title":"朗之万动力学与得分匹配","description":"朗之万动力学与得分匹配。扩散模型逆过程与数据复原。高级数学 Ch.18。"},"advMath19":{"chapter":"Chapter 19","title":"信息几何与自然梯度","description":"信息几何、Fisher信息矩阵与自然梯度。流形上的优化。高级数学 Ch.19。"},"advMath20":{"chapter":"Chapter 20","title":"高级数学总整理：生成模型与深度优化的数学结合","description":"VAE、GAN、Diffusion、LLM中SDE、变分推断、最优传输、信息几何的运用方式总整理。高级数学 Ch.20。"}},"midDlChapters":{"midDl00":{"chapter":"Chapter 00","title":"中级深度学习：稳定学习与非结构化数据理解"},"midDl01":{"chapter":"Chapter 01","title":"权重初始化（Weight Initialization）：学习的正确起点"},"midDl02":{"chapter":"Chapter 02","title":"优化算法：惯性与自适应学习率"},"midDl03":{"chapter":"Chapter 03","title":"学习率调度：适时放慢脚步"},"midDl04":{"chapter":"Chapter 04","title":"损失函数深化：类别不平衡与度量学习"},"midDl05":{"chapter":"Chapter 05","title":"过拟合防止与正则化（Regularization）"},"midDl06":{"chapter":"Chapter 06","title":"归一化层（Batch & Layer Normalization）"},"midDl07":{"chapter":"Chapter 07","title":"数据增强（Data Augmentation）与噪声鲁棒性"},"midDl08":{"chapter":"Chapter 08","title":"卷积神经网络（CNN）基础：空间特征提取"},"midDl09":{"chapter":"Chapter 09","title":"池化（Pooling）与多通道（Multi-Channel）"},"midDl10":{"chapter":"Chapter 10","title":"残差连接（Skip Connection）与 ResNet"},"midDl11":{"chapter":"Chapter 11","title":"轻量卷积：运算效率化架构"},"midDl12":{"chapter":"Chapter 12","title":"视觉迁移学习（Transfer Learning）"},"midDl13":{"chapter":"Chapter 13","title":"视觉任务1：目标检测（Object Detection）"},"midDl14":{"chapter":"Chapter 14","title":"视觉任务2：图像分割（Image Segmentation）"},"midDl15":{"chapter":"Chapter 15","title":"自然语言处理预处理与分词（Tokenization）"},"midDl16":{"chapter":"Chapter 16","title":"词嵌入（Word Embedding）"},"midDl17":{"chapter":"Chapter 17","title":"1D 卷积（1D CNN）用于序列处理"},"midDl18":{"chapter":"Chapter 18","title":"循环神经网络（RNN）：顺序信息的状态保持"},"midDl19":{"chapter":"Chapter 19","title":"长短期记忆（LSTM）与 GRU：长期依赖控制"},"midDl20":{"chapter":"Chapter 20","title":"编码器-解码器与注意力（Attention）机制"},"midDl21":{"chapter":"Chapter 21","title":"中级深度学习总整理：架构设计与管道"}},"midDlCh00":{"description":"了解中级深度学习学什么，以及 Ch01～Ch21 中涉及的训练稳定化与图像、文本处理概览。","roadmapTitle":"按章节的中级深度学习图示","roadmapDescription":"每完成一章，下方图示会逐步填满。这是目前的结构。","roadmapListHeading":"Ch01～Ch21 所学内容","sectionTitle":"什么是中级深度学习？","paragraphs":{"0":"**基础深度学习**涵盖了神经元、层与梯度。**中级深度学习**则学习**如何稳定训练**以及如何应对**图像与文本**等结构化数据。你将学习**权重初始化**、**优化器**（动量、Adam）、**学习率调度**、**正则化与防止过拟合**、**批归一化**等，使训练更好收敛；进而学习**卷积网络（CNN）**、**ResNet**、**迁移学习**、**目标检测与分割**、**自然语言预处理与嵌入**、**RNN、LSTM、GRU**以及**编码器-解码器与注意力**。","1":"**图像**是像素网格，因此用**卷积**提取空间模式、用**池化**做摘要、用**残差连接**稳定训练深层网络。**文本**是序列，因此先做**分词与嵌入**，再用**一维卷积**或**RNN/LSTM**建模上下文，用**注意力**关注重要部分。","2":"**训练为什么要稳定**：初始化不当会导致几乎学不动；学习率过大容易发散，过小则收敛太慢。**优化器**不仅看当前梯度，还会利用「过去的更新惯性（动量）」或「每个参数不同的步长（Adam）」更快、更稳地接近最优点。**学习率调度**先大步后小步，便于精细收敛；**正则化**与**批归一化**把各层尺度控制在合理范围，减轻梯度消失或爆炸。","3":"在**视觉**里，像素邻域的**局部模式**（边缘、纹理）很重要，所以**卷积**很合适。**池化**在压缩信息的同时让表示对小幅位移更不敏感。**ResNet**的残差连接把前面层的输出直接加回去，即使网络很深也不会让信号消失。**迁移学习**复用在大规模数据上预训练好的模型，再针对你的任务微调，在数据不多时尤其有用。","4":"**语言与序列**中，先把文本切成**词元**、用**嵌入**变成向量，再用**RNN**或**LSTM/GRU**在时间上传递「上下文」状态并预测下一个词。**注意力**让模型学习「当前预测时输入的哪一段更重要」，是翻译、摘要、问答等的核心。学完本课程，你将对图像分类、检测、分割以及文本生成、翻译、摘要的基本结构有清晰理解。","5":"本课程安排如下：Ch01～Ch07 为**训练稳定化**（初始化、优化、调度、损失、正则化、归一化层、数据增强）；Ch08～Ch14 为**视觉**（CNN、池化、ResNet、轻量卷积、迁移学习、检测与分割）；Ch15～Ch21 为**语言与序列**（预处理、嵌入、1D CNN、RNN、LSTM/GRU、编码器-解码器与注意力、总复习）。"}},"midDlCh01":{"chapter":"Chapter 01","title":"权重初始化：好的开始是成功的一半","description":"在模型开始训练前，确定各层权重与偏置的初始值即为**权重初始化**。坏的起点会导致梯度消失或爆炸、训练几乎无法进行；好的起点则带来更快收敛与稳定训练。本章介绍初始化的概念、Xavier 与 He 初始化的直观与公式，以及实际应用。","sectionTitle":"权重初始化：好的开始是成功的一半","whatIs":{"0":"**什么是权重初始化？** — 每一层都有**权重 $W$**和**偏置 $b$**。训练前这些值未定，需要决定**最初用哪些数填充**，这一过程称为**权重初始化**。直观上如同马拉松起跑线设在哪里：起跑太靠后（权重过小）则步幅小、学习慢；太靠前（权重过大）则一开始就失控、发散。","1":"**数学上** — 一层的线性组合写成 $z = W \\mathbf{x} + b$，其中 $\\mathbf{x}$ 为输入向量，$W$ 为权重矩阵，$b$ 为偏置。若 $W$ 全为 0，则同层所有神经元输出相同，**对称性**不被打破，反向传播时梯度无法合理分配。因此通常用**小随机数**初始化，且随机数的**分布（尺度）**很重要，需根据层的输入维度 $n_{in}$ 与输出维度 $n_{out}$ 调节方差，使通过各层时激活的尺度不会过大或过小。","2":"**实际应用** — 垃圾邮件分类模型中初始化不当会导致损失几乎不降或出现 NaN。在医疗 CNN、欺诈检测等深层网络中，不用 Xavier 或 He 时前几层梯度会接近 0（**梯度消失**），看起来像训练停滞；尺度过大则梯度爆炸、数值不稳定。实践中多以 **Xavier**（tanh·sigmoid 系）或 **He**（ReLU 系）为默认初始化。"},"whyImportant":{"0":"**梯度消失与梯度爆炸** — 层越深，反向传播的梯度在链式法则下成为多个数的乘积。权重过小则乘积趋近 0（**梯度消失**），前层几乎不更新；过大则乘积爆炸（**梯度爆炸**），出现 NaN·Inf。好的初始化使**方差**在层间保持稳定，从而在深层网络中梯度仍以合理尺度传递。","1":"**收敛速度与最优点** — 使用适当初始化相当于在损失曲面上站在**较好的起点**。起点不好会陷入局部最小或收敛极慢。实践中常与学习率一起调整初始化，并观察验证损失进行调参。"},"howUsed":{"0":"**Xavier（Glorot）初始化** — 为使线性组合 $z$ 的方差不依赖输入·输出大小，从**均匀分布** $U(-\\sqrt{6/(n_{in}+n_{out})},\\ \\sqrt{6/(n_{in}+n_{out})})$ 或**正态分布** $\\mathcal{N}(0,\\ \\sigma^2)$（$\\sigma^2 = 2/(n_{in}+n_{out})$）中采样 $W$。适用于 tanh·sigmoid 等对称激活。","1":"**He 初始化** — ReLU 将负值置 0，输出方差约为输入的一半。**He** 用 $\\sigma^2 = 2/n_{in}$ 补偿。使用 ReLU·Leaky ReLU 的现代 CNN·MLP 中常以 He 为默认。","2":"**实际选择** — 激活为 ReLU 系时优先用 He，tanh·sigmoid 时用 Xavier。PyTorch、TensorFlow 的默认初始化也大多按层类型选用二者之一。"},"problemSolving":{"0":"**小结** — 权重初始化是在训练前为各层设定 $W$、$b$ 的步骤。全 0 会因对称性导致学习失效，故通常用小随机数并调节**方差（尺度）**。Xavier 以 $\\sigma^2 = 2/(n_{in}+n_{out})$ 适配 tanh·sigmoid，He 以 $\\sigma^2 = 2/n_{in}$ 适配 ReLU 系。好的初始化可减轻梯度消失·爆炸并加快收敛。","2":"**示例（定义）**\n\n「权重初始化的主要目的是？①训练前调整层的尺度 ②提高学习率 ③数据增强」\n\n目的是使经过各层时激活与梯度的尺度保持稳定。→ **答案 1**\n\n---\n\n**示例（Xavier vs He）**\n\n「ReLU 层常用哪种初始化？① Xavier ② He ③ 0」\n\nReLU 系常用 He 初始化。→ **答案 2**\n\n---\n\n**示例（计算）**\n\n若 $n_{in}+n_{out}=6$，均匀 Xavier 比例 $6/(n_{in}+n_{out})$ 的值（整数）为？\n\n$6/6=1$。→ **答案 1**","3":"**定义例** — 「权重初始化的主要目的是？①训练前调整层的尺度 ②提高学习率 ③数据增强」→目的是使经过各层时尺度保持稳定。**答案 1**\n\n**正误例** — 「权重初始化是训练前设定各层 $W$、$b$ 的过程。」→正确。**答案 1**\n\n**场景例** — 「垃圾邮件分类模型损失几乎不下降时，首先应怀疑？①初始化·学习率 ②仅数据量 ③仅批大小」→先检查初始化·学习率。**答案 1**\n\n**选择题例** — 「He 初始化中 $\\sigma^2$ 为？① $2/n_{in}$ ② $2/(n_{in}+n_{out})$ ③ $1/n_{in}$」→He 为 $\\sigma^2=2/n_{in}$。**答案 1**\n\n**概念例** — 「Xavier 中若 $n_{in}+n_{out}=6$，则 $6/(n_{in}+n_{out})$ 的值（整数）为？① 1 ② 2 ③ 3」→$6/6=1$。**答案 1**\n\n**计算例** — 「若 $n_{in}+n_{out}=6$，$6/(n_{in}+n_{out})$ 的值（整数）为？」→$6/6=1$。**答案 1**"},"summary":"权重初始化是训练开始前为各层权重与偏置设定初始值的过程。全 0 会使神经元输出相同、对称性不破、学习无法进行；随机值过大或过小则会在层间造成激活或梯度的爆炸与消失。因此按层输入·输出大小调节方差的 Xavier 与 He 初始化被广泛使用：Xavier 适用于 tanh·sigmoid 等对称激活，He 适用于 ReLU 系，二者都能减轻梯度消失与爆炸、使收敛更快更稳。","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何应用","summary":"小结"},"formulaGuide":{"title":"公式导读","linear":"**式 $z = W\\mathbf{x}+b$（单层的线性组合）**\n\n这是激活前的层输出。**$z$** 为激活前的原始向量；**$W$** 决定各输入对各输出的影响大小（初始化调节的是 $W$ 的方差）；**$\\mathbf{x}$** 为层输入（特征或上一层输出）；**$b$** 为平移，初始化时常为 0。$W$ 过大会使激活爆炸，过小则会消失。","xavierVariance":"**Xavier 方差 $\\sigma^2 = \\frac{2}{n_{in}+n_{out}}$**\n\nXavier 从该方差的正态分布中采样权重。**$n_{in}$** 为输入维数，**$n_{out}$** 为输出（神经元）数。**$n_{in}+n_{out}$** 越大，$\\sigma^2$ **越小**，宽层用更小的权重使和稳定。分子 **2** 与 tanh/sigmoid 系下匹配方差有关。","heVariance":"**He 方差 $\\sigma^2 = \\frac{2}{n_{in}}$**\n\nHe 针对 ReLU：负输入置 0 使输出方差约为输入的一半。He **只用 $n_{in}$**（不用 $n_{out}$）。因子 **2** 用于补偿这一减半。","xavierUniform":"**Xavier 均匀分布 $[-a,\\ a]$, $a = \\sqrt{\\frac{6}{n_{in}+n_{out}}}$**\n\n权重也可从 $[-a,a]$ 的均匀分布采样。给定 $n_{in}+n_{out}$ 时可算 $6/(n_{in}+n_{out})$；整数练习中例如 $n_{in}+n_{out}=6$ 则 $6/6=1$。"},"visual":"展示权重初始化如何影响梯度传播的可视化。","problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题目","practiceProblemsIntro":"以下为本章内容检查示例题。请在下方选项按钮中选择答案。","practiceProblemsInstruction":"阅读题目并在选项中选择正确答案。","midDlCh01VisualIntro":"权重初始化是训练的第一步：为每层设定 $W$ 与 $b$ 的合适尺度，使前向与反向传播时方差得以保持。","midDlCh01VisualStep0":"① 初始化：按（Xavier/He 等）规则设定各层 $W$、$b$","midDlCh01VisualStep1":"② 前向：输入→线性和 $z$→激活 $a$→下一层","midDlCh01VisualStep2":"③ 计算损失后反向传播：梯度沿层传递","midDlCh01VisualStep3":"④ 更新：按梯度更新 $W$、$b$。好的初始化使梯度尺度适中保持","midDlCh01VisualConceptTitle":"概念：初始化→前向→损失→反向传播→更新","midDlCh01VisualFlowTitle":"训练流程：逐层使输入·权重·输出尺度匹配而初始化","midDlCh01VisualModelTitle":"模型运作：在一层中使 $z=Wx+b$ 的方差与输入方差相近地维持，从而确定 $W$ 的方差","midDlCh01VisualScaleTitle":"初始化尺度的影响","midDlCh01VisualScaleSmall":"W 过小 → 梯度消失","midDlCh01VisualScaleLarge":"W 过大 → 梯度爆炸","midDlCh01VisualScaleGood":"合适的 W → 方差保持","midDlCh01VisualSegInput":"输入","midDlCh01VisualSegLayer1":"层1","midDlCh01VisualSegLayer2":"层2","midDlCh01VisualSegLayer3":"层3","midDlCh01VisualSegOutput":"输出","midDlCh01VisualRowLabelVanishing":"消失","midDlCh01VisualRowLabelStable":"保持","midDlCh01VisualRowLabelExploding":"爆炸","midDlCh01VisualScaleCaption":"好的初始化是设定 W、b 的尺度，使层间**方差得以保持**。","midDlCh01VisualBannerShort":"好的开始是成功的一半","midDlCh01VisualBannerSub":"适当初始化 → 快速收敛 · 稳定训练","problems":{"definition_0":"权重初始化的主要目的是？①训练前调整层的尺度 ②提高学习率 ③数据增强","definition_1":"训练开始前设定各层 $W$、$b$ 的过程称为？①权重初始化 ②梯度下降 ③正则化","definition_2":"ReLU 系激活常用哪种初始化？① Xavier ② He ③ 0 初始化","definition_3":"tanh·sigmoid 常用哪种初始化？① Xavier ② He ③ 0 初始化","definition_4":"梯度趋近 0、前层几乎不更新的现象称为？①梯度消失 ②梯度爆炸 ③过拟合","definition_5":"权重过大时梯度爆炸的现象称为？①梯度消失 ②梯度爆炸 ③欠拟合","definition_6":"Xavier 初始化中方差如何用 $n_{in}$、$n_{out}$ 确定？① $2/(n_{in}+n_{out})$ ② $2/n_{in}$ ③ $1/n_{in}$","definition_7":"He 初始化中方差为？① $2/(n_{in}+n_{out})$ ② $2/n_{in}$ ③ $1/(n_{in}+n_{out})$","definition_8":"权重不能全设为 0 的主要原因是？①对称性导致神经元输出相同、学习失效 ②计算慢 ③内存不足","definition_9":"在一层 $z = W\\mathbf{x}+b$ 中 $W$ 过小时？①趋于梯度消失 ②梯度爆炸 ③无影响","trueFalse_0":"权重初始化是训练前设定 $W$、$b$ 的过程。对 1，错 0。","trueFalse_1":"Xavier 初始化仅用于 ReLU。对 1，错 0。","trueFalse_2":"He 初始化适用于 ReLU 系激活。对 1，错 0。","trueFalse_3":"好的初始化使层间方差得以保持。对 1，错 0。","trueFalse_4":"建议将所有权重初始化为 0。对 1，错 0。","trueFalse_5":"梯度消失在权重过大时发生。对 1，错 0。","trueFalse_6":"梯度爆炸可在权重过大时发生。对 1，错 0。","trueFalse_7":"初始化影响收敛速度。对 1，错 0。","trueFalse_8":"Xavier 中 $\\sigma^2 = 2/(n_{in}+n_{out})$。对 1，错 0。","trueFalse_9":"He 中 $\\sigma^2 = 2/n_{in}$。对 1，错 0。","scenario_0":"垃圾邮件分类模型损失几乎不降时，首先怀疑？①初始化·学习率 ②仅数据量 ③仅批大小","scenario_1":"深层 CNN 前层几乎不更新时，最常见原因是？①梯度消失 ②过拟合 ③数据不足","scenario_2":"首次实现使用 ReLU 的 MLP 时，较好的默认初始化是？① Xavier ② He ③ 0","scenario_3":"使用 tanh 的层、方差取 $2/(n_{in}+n_{out})$ 的初始化是？① Xavier ② He ③都不是","scenario_4":"训练中出现 NaN 时，从初始化角度应怀疑？①梯度爆炸（尺度过大）②仅数据 ③仅批大小","scenario_5":"医疗图像分类模型收敛很慢时，尝试改初始化的原因是？①起点不好可能导致收敛变慢 ②仅因数据不足 ③只调学习率即可","scenario_6":"PyTorch 默认 Linear 层的初始化最接近哪种方式? ① Xavier/He 系 ②恒为 0 ③仅随机","scenario_7":"使层间激活方差得以保持的初始化目标称为？①方差保持（尺度匹配）②正则化 ③ Dropout","scenario_8":"欺诈检测模型较深时重视初始化的原因是？①防止梯度消失·爆炸 ②仅数据重要 ③仅批大小重要","scenario_9":"$$n_{in}=8$、$n_{out}=8$ 的层使用 Xavier 时 $n_{in}+n_{out}$ 为？① 16 ② 8 ③ 64","choice_0":"权重不能设为 0 的原因是？①对称性导致学习无法进行 ②省内存 ③速度慢","choice_1":"He 初始化中 $\\sigma^2$ 为？① $2/n_{in}$ ② $2/(n_{in}+n_{out})$ ③ $1/n_{in}$","choice_2":"缓解梯度消失的合适方法是？①适当初始化（如 Xavier/He）②仅提高学习率 ③仅增大批大小","choice_3":"适合 Xavier 初始化的激活是？① tanh·sigmoid ②仅 ReLU ③无","choice_4":"一层中 $z=W\\mathbf{x}+b$ 时 $W$ 尺度过大会？①可能梯度爆炸 ②仅梯度消失 ③无影响","choice_5":"初始化对学习的影响是？①收敛速度·稳定性 ②仅数据量 ③仅损失函数形式","choice_6":"ReLU 层的 He 初始化中，方差与输入维度 $n_{in}$？①反比（$2/n_{in}$）②正比 ③无关","choice_7":"反向传播时梯度趋近 0 的现象是？①梯度消失 ②梯度爆炸 ③正则化","choice_8":"Xavier 中 $n_{in}=4$、$n_{out}=6$ 则 $n_{in}+n_{out}$ 为？① 10 ② 24 ③ 2","choice_9":"最接近好的初始化目标的是？①层间保持方差 ②权重为 0 ③仅提高学习率","concept_0":"$$z=W\\mathbf{x}+b$ 中 $W$ 的方差过大时，反向传播中梯度？①可能爆炸 ②恒为 0 ③不变","concept_1":"Xavier 均匀分布范围为 $[-a,a]$ 时 $a=\\sqrt{6/(n_{in}+n_{out})}$。$n_{in}+n_{out}=12$ 时 $6/(n_{in}+n_{out})$ 的整数值为？① 0 ② 1 ③ 2","concept_2":"使用 He 初始化的主要原因是？① ReLU 将负值置 0、方差减小 ②比 Xavier 快 ③总是更好","concept_3":"深层网络中初始化更重要的原因是？①梯度在多层中相乘 ②仅数据重要 ③仅第一层重要","concept_4":"偏置 $b$ 通常如何初始化？①设为 0 ②设为 1 ③随机","concept_5":"使用 Leaky ReLU 时也常用 He 类初始化的原因是？① ReLU 系、方差特性相似 ②仅用 Xavier ③0 初始化","concept_6":"学习率合适但损失几乎不降时？①怀疑初始化或结构（梯度消失）②仅数据 ③仅批大小","concept_7":"Xavier 与 He 的共同点是？①按层大小设定方差 ②均为 0 初始化 ③仅 ReLU","concept_8":"反向传播中按链式法则连乘梯度时，0.5 连乘 10 次约 0.001。类似现象是？①梯度消失 ②梯度爆炸 ③正则化","concept_9":"实践中 ReLU CNN 的默认初始化是？① He 系 ② 0 ③仅 Xavier","calc_0":"若 $n_{in}+n_{out}=6$，均匀 Xavier 比例 $6/(n_{in}+n_{out})$ 的值（整数）为？","calc_1":"He 初始化 $\\sigma^2=2/n_{in}$，当 $n_{in}=8$ 时，分母 $n_{in}$（整数）为？","calc_2":"Xavier 方差 $\\sigma^2=2/(n_{in}+n_{out})$，当 $n_{in}=2$、$n_{out}=8$ 时，分母 $n_{in}+n_{out}$（整数）为？","calc_3":"He 中 $\\sigma^2=2/n_{in}$，当 $n_{in}=32$ 时，分母（整数）为？","calc_4":"当 $n_{in}=5$、$n_{out}=5$ 时，Xavier 分母 $n_{in}+n_{out}$（整数）为？","calc_5":"若 $n_{in}+n_{out}=3$，$6/(n_{in}+n_{out})$ 的值（整数）为？","calc_6":"当 $n_{in}=1$、$n_{out}=7$ 时，Xavier 分母 $n_{in}+n_{out}$（整数）为？","calc_7":"He 初始化 $\\sigma^2=2/n_{in}$，当 $n_{in}=20$ 时，分母（整数）为？","calc_8":"当 $n_{in}=4$、$n_{out}=12$ 时，$n_{in}+n_{out}$（整数）为？","calc_9":"若 $n_{in}+n_{out}=2$，$6/(n_{in}+n_{out})$ 的值（整数）为？"},"problemAnswers":{"definition_0":1,"definition_1":1,"definition_2":2,"definition_3":1,"definition_4":1,"definition_5":2,"definition_6":1,"definition_7":2,"definition_8":1,"definition_9":1,"trueFalse_0":1,"trueFalse_1":0,"trueFalse_2":1,"trueFalse_3":1,"trueFalse_4":0,"trueFalse_5":0,"trueFalse_6":1,"trueFalse_7":1,"trueFalse_8":1,"trueFalse_9":1,"scenario_0":1,"scenario_1":1,"scenario_2":2,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"choice_0":1,"choice_1":1,"choice_2":1,"choice_3":1,"choice_4":1,"choice_5":1,"choice_6":1,"choice_7":1,"choice_8":1,"choice_9":1,"concept_0":1,"concept_1":1,"concept_2":1,"concept_3":1,"concept_4":1,"concept_5":1,"concept_6":1,"concept_7":1,"concept_8":1,"concept_9":1,"calc_0":1,"calc_1":8,"calc_2":10,"calc_3":32,"calc_4":10,"calc_5":2,"calc_6":8,"calc_7":20,"calc_8":16,"calc_9":3},"problemSolutions":{"definition_0":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_1":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_2":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：2**。","definition_3":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_4":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_5":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：2**。","definition_6":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_7":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：2**。","definition_8":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","definition_9":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","trueFalse_0":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_1":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：0**。","trueFalse_2":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_3":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_4":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：0**。","trueFalse_5":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：0**。","trueFalse_6":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_7":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_8":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","trueFalse_9":"解题说明：判断陈述是否正确，正确填1，错误填0。**答案：1**。","scenario_0":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_1":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_2":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：2**。","scenario_3":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_4":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_5":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_6":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_7":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_8":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","scenario_9":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_0":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_1":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_2":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_3":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_4":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_5":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_6":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_7":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_8":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","choice_9":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_0":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_1":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_2":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_3":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_4":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_5":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_6":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_7":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_8":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","concept_9":"解题说明：根据题目定义与条件，选择最合适的选项。**答案：1**。","calc_0":"解题说明：$6/6=1$。**答案：1**。","calc_1":"解题说明：分母为 $n_{in}=8$。**答案：8**。","calc_2":"解题说明：$2+8=10$。**答案：10**。","calc_3":"解题说明：分母为 $n_{in}=32$。**答案：32**。","calc_4":"解题说明：$5+5=10$。**答案：10**。","calc_5":"解题说明：$6/3=2$。**答案：2**。","calc_6":"解题说明：$1+7=8$。**答案：8**。","calc_7":"解题说明：分母为 $n_{in}=20$。**答案：20**。","calc_8":"解题说明：$4+12=16$。**答案：16**。","calc_9":"解题说明：$6/2=3$。**答案：3**。"},"problemTestCodes":{"definition_0":"answer = 1\nassert answer == 1","definition_1":"answer = 1\nassert answer == 1","definition_2":"answer = 2\nassert answer == 2","definition_3":"answer = 1\nassert answer == 1","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 2\nassert answer == 2","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 2\nassert answer == 2","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 1\nassert answer == 1","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 0\nassert answer == 0","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 0\nassert answer == 0","trueFalse_5":"answer = 0\nassert answer == 0","trueFalse_6":"answer = 1\nassert answer == 1","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 1\nassert answer == 1","trueFalse_9":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 2\nassert answer == 2","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","choice_0":"answer = 1\nassert answer == 1","choice_1":"answer = 1\nassert answer == 1","choice_2":"answer = 1\nassert answer == 1","choice_3":"answer = 1\nassert answer == 1","choice_4":"answer = 1\nassert answer == 1","choice_5":"answer = 1\nassert answer == 1","choice_6":"answer = 1\nassert answer == 1","choice_7":"answer = 1\nassert answer == 1","choice_8":"answer = 1\nassert answer == 1","choice_9":"answer = 1\nassert answer == 1","concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 1\nassert answer == 1","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 1\nassert answer == 1","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 1\nassert answer == 1","concept_9":"answer = 1\nassert answer == 1","calc_0":"s = 6\nanswer = 6 // s\nassert answer == 1","calc_1":"n_in = 8\nanswer = n_in\nassert answer == 8","calc_2":"n_in, n_out = 2, 8\nanswer = n_in + n_out\nassert answer == 10","calc_3":"n_in = 32\nanswer = n_in\nassert answer == 32","calc_4":"n_in, n_out = 5, 5\nanswer = n_in + n_out\nassert answer == 10","calc_5":"s = 3\nanswer = 6 // s\nassert answer == 2","calc_6":"n_in, n_out = 1, 7\nanswer = n_in + n_out\nassert answer == 8","calc_7":"n_in = 20\nanswer = n_in\nassert answer == 20","calc_8":"n_in, n_out = 4, 12\nanswer = n_in + n_out\nassert answer == 16","calc_9":"s = 2\nanswer = 6 // s\nassert answer == 3"},"problemDifficulty":{"definition_0":"easy","definition_1":"easy","definition_2":"easy","definition_3":"easy","definition_4":"easy","definition_5":"easy","definition_6":"easy","definition_7":"easy","definition_8":"easy","definition_9":"easy","trueFalse_0":"easy","trueFalse_1":"easy","trueFalse_2":"easy","trueFalse_3":"easy","trueFalse_4":"easy","trueFalse_5":"easy","trueFalse_6":"easy","trueFalse_7":"easy","trueFalse_8":"easy","trueFalse_9":"easy","scenario_0":"medium","scenario_1":"medium","scenario_2":"medium","scenario_3":"medium","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","choice_0":"medium","choice_1":"medium","choice_2":"medium","choice_3":"medium","choice_4":"medium","choice_5":"medium","choice_6":"medium","choice_7":"medium","choice_8":"medium","choice_9":"medium","concept_0":"hard","concept_1":"hard","concept_2":"hard","concept_3":"hard","concept_4":"hard","concept_5":"hard","concept_6":"hard","concept_7":"hard","concept_8":"hard","concept_9":"hard","calc_0":"hard","calc_1":"hard","calc_2":"hard","calc_3":"hard","calc_4":"hard","calc_5":"hard","calc_6":"hard","calc_7":"hard","calc_8":"hard","calc_9":"hard"},"problemOrder":["definition_0","definition_1","definition_2","definition_3","definition_4","definition_5","definition_6","definition_7","definition_8","definition_9","trueFalse_0","trueFalse_1","trueFalse_2","trueFalse_3","trueFalse_4","trueFalse_5","trueFalse_6","trueFalse_7","trueFalse_8","trueFalse_9","scenario_0","scenario_1","scenario_2","scenario_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","choice_0","choice_1","choice_2","choice_3","choice_4","choice_5","choice_6","choice_7","choice_8","choice_9","concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","concept_6","concept_7","concept_8","concept_9","calc_0","calc_1","calc_2","calc_3","calc_4","calc_5","calc_6","calc_7","calc_8","calc_9"]},"midDlCh02":{"chapter":"Chapter 02","title":"优化算法：聪明地调节速度与方向","description":"训练 AI 模型就像**蒙着眼在巨大山脉里寻找最深的谷（误差最小）**。**优化（Optimization）**决定站在当前位置时，**朝哪个方向、迈多大步**下山。\n\nCh.01 定好起点后，本章学习如何顺着梯度安全、快速地下去：一步一步的 **SGD**、借惯性滑行的 **动量**，以及像自动驾驶一样调节步长的 **Adam**。把日常最常用的优化原理讲得直观好懂。","sectionTitle":"优化算法：聪明地调节速度与方向","whatIs":{"0":"**1. 梯度下降与 SGD：朝最陡的下坡走**\n\n**概念:** 下山最稳的办法是脚踩地面，沿着**最陡的下坡方向**一步一步走，这就是梯度下降的核心。\n\n**直觉:** 想象浓雾里的汉拿山：步幅（**学习率**）太大可能坠崖或弹到对面山脊；太小则可能天黑还到不了谷底。\n\n**核心式:**\n$\\theta \\leftarrow \\theta - \\eta \\nabla L(\\theta)$\n- **$\\theta$**：当前位置（权重）\n- **$\\eta$**：步幅，即**学习率**（常用 0.01、0.001 等）\n- **$\\nabla L$**：当前坡度（梯度）\n\n**实务提示:** 看整张地图太慢，所以默认用**随机梯度下降（SGD）**：只看一块**小批量**，用 $\\hat{g}$ 快速定方向。","1":"**2. 动量：冰面上的保龄球**\n\n**概念:** SGD 只看眼前坡度，在窄谷里会**之字形**浪费时间。**过去运动方向的惯性**就是动量。\n\n**直觉:** 纸杯会被小石子带偏；**沉重的保龄球**会碾过小障碍，沿原方向滚。动量给优化器这种“分量”。\n\n**核心式:**\n$v \\leftarrow \\beta v + (1-\\beta)g$\n$\\theta \\leftarrow \\theta - \\eta v$\n- **$v$**：速度（惯性向量）\n- **$\\beta$**：保留多少过去（常取 **0.9**）\n- **$g$**：当前梯度\n\n**补充:** **Nesterov** 在沿动量**向前挪一点**的位置算梯度。","2":"**3. 自适应（AdaGrad, RMSProp, Adam）：每个轮子单独刹车**\n\n**概念:** 有的参数快到终点，有的还远。不用同一个 $\\eta$，而是**按参数自适应**调节步长。\n\n**发展脉络:**\n- **AdaGrad:** “走得多的方向，步长再小些！”— 累积平方梯度。\n- **RMSProp:** 缓解 AdaGrad 后期步长趋零的问题，用**指数滑动**慢慢忘掉远古历史。\n- **Adam:** 把**动量（方向）**和 **RMSProp 式缩放**合在一起，是当今最常用的之一。\n\n**实务提示:** 论文里常写 **AdamW**，把**权重衰减**与损失项分离以提升表现。","3":"**4. 三大目标：稳定性、速度、泛化**\n\n**概念:** 选优化器不只是“快下到谷底”。**落在哪个谷**，会影响**测试集表现**。\n\n**直觉:** 坐**高铁（Adam）**可能先到；坐**慢车（SGD+动量）**也许能发现**泛化更好**的风景。\n\n**实务提示:** 初期视野窄时用 **warmup** 慢慢加大步幅，接近终点时用**学习率调度**缩小步幅，与优化器**配套使用**。"},"whyImportant":{"0":"**决定项目时间与成本**\n\n学习率太大模型会发散；太小则一小时能跑完的训练拖成一周。合适的优化设置能省下**昂贵的 GPU 与加班**。","1":"**改变“考试成绩”（泛化）**\n\n同一数据，不同优化器**结果质量可以不同**——落在哪个极小值，会改变测试预测力。","2":"**模型不舒服时先量的“体温”**\n\n损失不降或突然 NaN，第一嫌疑人往往是**学习率与优化器**。懂原理就能冷静排查。"},"howUsed":{"0":"**① 记录实验，一次只改一个旋钮**\n\n各库 API 不同，但习惯相通：记下**学习率、批量、优化器、随机种子**。出问题时**一次只改一项**以定位原因。损失剧烈波动→先看批量、学习率、动量；长时间训练后更新几乎停滞→可考虑从 AdaGrad 类思路转向 **RMSProp / Adam**。练习把**现象和调节手段**对应起来。","1":"**② 实务速查表**\n\n| 场景 | 推荐 | 理由 |\n| :--- | :--- | :--- |\n| **先要快速 baseline** | `Adam` 或 `AdamW` | 自适应步长，对初始 lr 不那么敏感 |\n| **NLP、Transformer** | `AdamW` | 稀疏结构与复杂目标上往往更稳 |\n| **CNN 冲极限精度** | `SGD + Momentum` | 调参难，但调好常**泛化更强** |","2":"**③ 监控：别移开眼睛**\n\n起飞不等于落地。用 TensorBoard、W&B 看**损失曲线**是否顺滑下滑；若像锯齿狂抖，该考虑**降低学习率**。"},"problemSolving":{"0":"优化是用反向传播得到的梯度决定如何更新参数 $\\theta$、从而降低损失 $L(\\theta)$ 的过程。基础 **SGD** 用小批量梯度 $\\hat{g}$ 做一步 $\\theta \\leftarrow \\theta - \\eta \\hat{g}$，**学习率 $\\eta$** 直接决定步长。**动量** 累积速度 $v$ 以减轻窄谷里的之字震荡，**Adam/AdamW** 用一阶/二阶矩对各坐标自适应步长。损失剧烈波动或发散时，不要只换优化器名字，应同时检查 **学习率、批量大小、学习率调度器**。","2":"**示例（定义）**\n\n“动量（Momentum）的核心作用是？① 把学习率设为 0 ② 累积历史方向以减少振荡 ③ 跳过反向传播”\n\n动量通过速度 $v$ 保留方向惯性。→ **答案 2**\n\n---\n\n**示例（场景）**\n\n“训练损失剧烈振荡时，优先检查哪组项？① 学习率、动量、批量大小 ② 训练数据为 0 ③ 删除全部层”\n\n振荡与步长和梯度噪声相关，应先看 ①。→ **答案 1**\n\n---\n\n**示例（计算）**\n\n若 $\\eta=0.001$, $g=20$，SGD 更新量 $\\eta g$ 为？\n\n$0.001 \\times 20 = 0.02$。→ **答案 0.02**","3":"**定义例** — “Adam 同时使用的关键信息是？① 一阶与二阶矩 ② 仅批次索引 ③ 仅 dropout 掩码” → Adam 使用一阶和二阶矩。**答案 1**\n\n---\n\n**判断例** — “RMSProp 使用梯度平方的指数移动平均（EMA）。” → 正确。**答案 1**\n\n---\n\n**场景例** — “训练早期不稳定时，先看什么？① warmup + 学习率调度 ② 关闭反向传播 ③ 删除数据” → 先检查 warmup 与调度。**答案 1**\n\n---\n\n**选择例** — “Nesterov 的特征是？① 前瞻点梯度 ② 只看当前点 ③ 不使用梯度” → 使用前瞻点。**答案 1**\n\n---\n\n**概念例** — “在 AdaGrad 中，频繁更新坐标的有效步长趋势是？① 变小 ② 不变 ③ 变大” → 因累积效应通常变小。**答案 1**\n\n---\n\n**计算例** — “样本数 64、批量大小 16 时，每个 epoch 的步数是多少？” → $64/16=4$。**答案 4**"},"summary":"**优化**是把梯度信息转换为更新步长，从而持续降低损失 $L(\\theta)$ 的过程。\n\n**SGD** 用小批量梯度 $\\hat{g}$ 更新，**动量** 用速度 $v$ 抑制之字震荡，**Adam/AdamW** 用一阶/二阶矩按坐标自适应步长。\n\n**实务排查摘要（症状 → 优先检查）**\n- 损失振荡：`lr`、动量、批量大小\n- 初期发散/NaN：初始化、`lr`、`grad_norm`、clipping\n- 学习停滞：调度器（含 warmup）、优化器切换（SGD↔AdamW）\n- 验证停滞：weight decay、数据增强、early stopping\n\n**调参顺序（快速决策）**\n1) 先确认日志正常 → 2) 先调 `lr` → 3) 再选优化器 → 4) 结合调度策略 → 5) 追加稳定化手段 → 6) 按平均性能+方差+可复现性做最终选择\n\n**操作原则**：一次只改一个变量，并记录 `optimizer/lr/batch_size/weight_decay/seed/scheduler` 以便对比。","sectionLabels":{"whatIs":"概念是什么","whyImportant":"为何重要","howUsed":"如何使用","summary":"小结"},"formulaGuide":{"title":"公式导读","sgd":"**SGD 一步** $\\theta \\leftarrow \\theta - \\eta \\hat{g}$ — $\\hat{g}$ 为小批量估计，$\\eta$ 为步长。","momentum":"**动量** $v \\leftarrow \\beta v + (1-\\beta)g$, $\\theta \\leftarrow \\theta - \\eta v$ — 历史方向积存在 $v$ 中，减轻之字形。","adam":"**Adam（概念）** — 对梯度及其平方做坐标级 EMA，并对初始步长做偏差校正。","adaptive":"**自适应直觉** — 历史梯度大的坐标，有效步长相对更小。"},"visual":"在损失**山脉**上对比 SGD、动量、Adam 的轨迹动画，展示同一坡度下**路径如何不同**。","problemSolvingLabel":"解题提示","practiceProblemsTitle":"练习题","practiceProblemsIntro":"以下从**60 题题库**中随机抽取**10 题**（易 4·中 3·难 3，顺序易→中→难）。**①②③** 对应 **1、2、3**；**主观题**按说明填 **对/错（1/0）** 或 **计算结果整数**。","practiceProblemsInstruction":"阅读题目并选择正确的选项编号。","midDlCh02VisualIntro":"蒙眼爬同一座**损失山**，SGD、动量、Adam 会选**不同路线**（简化的谷底对比）。","midDlCh02VisualStep0":"① **SGD**：每步沿梯度反方向（小批量噪声导致之字形）","midDlCh02VisualStep1":"② **动量**：累积速度 $v$，转弯更平滑","midDlCh02VisualStep2":"③ **Adam**：按坐标自适应步长","midDlCh02VisualStep3":"④ **实务**：与日志、调度、Ch.01 初始化一起调参","midDlCh02VisualConceptTitle":"概念：梯度 →（加工）→ 更新","midDlCh02VisualFlowTitle":"流程：前向 → 损失 → 反向 → optimizer.step","midDlCh02VisualModelTitle":"更新：$\\theta \\leftarrow \\theta - \\eta \\cdot(\\text{Adam 等生成的步长})$","midDlCh02VisualLegendSgd":"SGD","midDlCh02VisualLegendMom":"动量","midDlCh02VisualLegendAdam":"Adam","midDlCh02VisualCaption":"**红（SGD）**在下降过程中左右摆动更明显，之字形感更强；到最后仍保留较多横向晃动。**绿（动量）**会减小摆动，但终盘停在**略偏离谷底中心**的位置；**蓝（Adam）**最先贴近**谷底正中**（示意）。","problems":{"definition_0":"在一次梯度下降（GD）更新中，为了降低损失，$\\theta$ 通常应朝哪个方向移动？\n1) 与 $\\nabla L$ 同方向\n2) 与 $\\nabla L$ **反方向**\n3) 与 $\\nabla L$ 垂直","definition_1":"在 PyTorch 中执行 `loss.backward()` 后，哪项最符合典型的小批量 SGD 训练？ ① 每步都用全量训练集精确梯度 ② 用**小批量估计**得到的 $\\hat{g}$ 更新 ③ 跳过反向传播","definition_2":"在狭长谷底中，若想通过速度 $v$ 累积历史梯度来减少来回震荡，应使用哪种方式？\n1) 只增大 dropout\n2) 使用**动量（momentum）**\n3) 永久把 batch 固定为 1","definition_3":"Nesterov 动量与普通动量的关键区别是梯度在哪个位置计算？\n1) 仅在当前 $\\theta$ 处计算 $g$\n2) 沿动量先前瞻（lookahead）后再计算 $g$\n3) 只看验证损失","definition_4":"AdaGrad 为了让各坐标步长变小，会累积什么量？ ① 权重绝对值 ② 梯度**平方** ③ epoch 索引","definition_5":"与无界累加的 AdaGrad 相比，RMSProp 的核心是：① 只存梯度符号 ② 对梯度平方做 **EMA** ③ 只用固定 $\\eta$","definition_6":"下列哪一项最符合 Adam 维护的统计量？\n1) **一阶与二阶矩**（动量 + 自适应缩放）\n2) 仅 dropout 掩码\n3) 仅池化尺寸","definition_7":"当学习率 $\\eta$ 过大时，哪一项**不是**典型现象？ ① 损失震荡 ② **只会更快收敛** ③ 出现 NaN","definition_8":"Adam 的一阶矩 $m$ 最接近下列哪项？ ① 最近梯度的 **EMA** ② 恒为 0 ③ 验证准确率","definition_9":"在数据/模型/日志约束下选择优化器时，优先关注什么？\n1) 监视器分辨率\n2) **稳定性、速度、泛化**\n3) 文件扩展名","trueFalse_0":"[判断] 典型的 `optimizer.step()` 会让 $\\theta$ 朝梯度**反方向**移动以降低损失。对=1，错=0。","trueFalse_1":"[判断] 动量会强制学习率超参数始终为 0。对=1，错=0。","trueFalse_2":"[判断] Adam 常把自适应分母与类似动量的一阶矩结合使用。对=1，错=0。","trueFalse_3":"[判断] AdaGrad 在长时间训练后，某些坐标的有效更新会变得很小。对=1，错=0。","trueFalse_4":"[判断] RMSProp 的核心是对梯度平方做指数滑动平均（EMA）。对=1，错=0。","trueFalse_5":"[判断] 更大的 mini-batch **总是**会增大梯度估计方差。对=1，错=0。","trueFalse_6":"[判断] 余弦学习率调度会随时间改变 $\\eta$。对=1，错=0。","trueFalse_7":"[判断] Nesterov 会在动量前瞻一步之后计算梯度。对=1，错=0。","trueFalse_8":"[判断] Adam 中的 $\\varepsilon$ 用于稳定接近 $\\sqrt{\\hat{v}}$ 的分母。对=1，错=0。","trueFalse_9":"[判断] Adam 在所有数据集上都一定优于 SGD+momentum。对=1，错=0。","scenario_0":"[场景] ResNet 训练时损失大幅震荡。第一优先应检查？ ① 先联调 **学习率·动量·batch** ② 把图像数改成 0 ③ 删除全部 BatchNorm","scenario_1":"稀疏 BoW 文本分类，快速起步常用哪类优化器？\n1) **Adam/AdamW** 类自适应方法\n2) 只能用全批量 GD\n3) k-means","scenario_2":"图像 CNN 在兼顾验证表现时常见做法：① **SGD+momentum（配调度）** 或 Adam ② 关闭反向传播 ③ 不用优化器","scenario_3":"AdaGrad 训练多轮后几乎不再更新，下一步更自然的是？\n1) 切到 **RMSProp/Adam** 并重新调学习率\n2) 永久 batch=1\n3) 删除全部输入","scenario_4":"想要前期学习率大、后期变小，主要需要：① **scheduler / warmup** 设计 ② 无限大学习率 ③ 跳过 `step()`","scenario_5":"`grad_norm` 爆炸时，结合 Ch.01 初始化应优先检查：① **学习率·梯度裁剪·初始化尺度** ② 日志文件名 ③ 主题颜色","scenario_6":"动量参数 $\\beta=0.99$ 通常意味着：\n1) 对历史方向的**记忆更长**\n2) 立刻到达全局最优\n3) 无法训练","scenario_7":"在 Adam 中配 L2 正则时，常见的**解耦**变体是：① **AdamW** ② 只能 SGD ③ 只能 AdaGrad","scenario_8":"小数据过拟合，能否**只靠换优化器**解决？\n1) **通常不行**，应先看正则与数据\n2) Adam 一定能解决\n3) 把学习率设成无穷大","scenario_9":"多 GPU 训练怀疑按 epoch 的打乱有偏，应先检查：① **shuffle 与同步机制** ② 图标样式 ③ 移除 GPU","choice_0":"与纯全批量 GD 相比，小批量 SGD 的典型特征是？\n1) 没区别\n2) $\\hat{g}$ 的**采样噪声**有时能帮助跳出尖锐区域\n3) 不需要反向传播","choice_1":"当动量中的 $\\beta\\to 0$ 时，更新更接近：① **普通 SGD** ② 必然发散 ③ 学习率恒为 0","choice_2":"教程中常见的 Adam 参数 $(\\beta_1,\\beta_2)$ 最接近：\n1) **$(0.9,\\,0.999)$**\n2) $(0,0)$\n3) $(1,1)$","choice_3":"Transformer 微调初期使用 warmup 缓慢升高学习率，主要是为了降低：① **早期不稳定** ② 让 LR 始终为 0 ③ 删除数据","choice_4":"Adam 的二阶矩最接近追踪哪项？ ① **梯度平方的 EMA** ② 权重绝对值 ③ batch 索引","choice_5":"Adam 常见的“解耦权重衰减”变体是：\n1) **AdamW**\n2) 移除 softmax\n3) batch 设为 0","choice_6":"在狭长谷底减少之字形震荡，最直接的手段是：① **动量** ② 学习率设 0 ③ 仅推理模式","choice_7":"Adam 中 $\\varepsilon$ 的常见默认量级：\n1) **约 $10^{-8}$**\n2) $10^{2}$\n3) 精确为 0","choice_8":"若只增大 batch（模型不变），梯度方差通常会：① **减小** ② 保持不变 ③ 总是增大","choice_9":"RNN 语言模型梯度爆炸时，常见修复是：① **梯度裁剪** ② 一定有害 ③ 只做推理","concept_0":"损失面狭窄且陡峭时，最直接相关的组合是：① 只做数据增强 ② **动量·学习率·调度/条件数** ③ 固定 batch=1","concept_1":"Adam 中 bias correction 主要修正：\n1) 初期 $m,\\hat{v}$ **偏小** 的偏差\n2) 学习率恒为 0\n3) 池化尺寸","concept_2":"在稀疏特征场景下，AdaGrad 往往会使高频坐标的步长：① **更小** ② 不变 ③ 无穷大","concept_3":"训练损失相同但验证结果不同，是否可能？\n1) **可能**（轨迹不同/隐式正则不同）\n2) 优化器会改变损失定义\n3) 一定完全相同","concept_4":"Nesterov 与标准动量的差异在于梯度计算位置：① 完全相同 ② **不同** ③ 不需要反向传播","concept_5":"RMSProp 主要针对 AdaGrad 的哪类问题？ ① 梯度平方累积**无界增长** ② 学习率总会变大 ③ softmax","concept_6":"切换到超大 batch 后，团队通常会重新检查：\n1) **学习率缩放规则**（如线性缩放）\n2) 学习率锁死为 0\n3) 删除数据","concept_7":"每次新的 `backward()` 前常见约定是：① **`optimizer.zero_grad()`** ② 删除权重 ③ 冻结损失","concept_8":"除以 $\\sqrt{\\hat{v}}+\\epsilon$ 后，梯度较大的坐标其有效步长通常：① **相对更小** ② 一样大 ③ 一定更大","concept_9":"ImageNet 风格 CNN 训练中常见配置：\n1) **SGD+momentum + 学习率调度**\n2) 永远只用 Adam\n3) 不用优化器","calc_0":"[计算] 训练样本 **48**，batch **16**，每个 epoch 共有多少个 minibatch step？填整数。","calc_1":"[计算] 训练 **4** 个 epoch，每个 epoch **25** 步，总参数更新次数是多少？","calc_2":"[计算] $\\eta=3$，$g=2$，$\\eta g$ 的整数结果是多少？","calc_3":"[计算] $\\beta=0.9$，$v=10$，$g=10$，计算整数 $v \\leftarrow \\beta v + (1-\\beta)g$。","calc_4":"[计算] $m=0$，$\\beta_1=0.9$，$g=20$，计算整数 $m \\leftarrow \\beta_1 m + (1-\\beta_1)g$。","calc_5":"[计算] $\\beta=0.5$，$v=6$，$g=2$，计算整数 $v \\leftarrow \\beta v + (1-\\beta)g$。","calc_6":"[计算] $\\beta_1=0.9$，$m=10$，$g=0$，计算整数 $m \\leftarrow \\beta_1 m + (1-\\beta_1)g$。","calc_7":"[计算] $t=1$，$\\beta_1=0.9$，$1/(1-\\beta_1^t)$ 的整数结果是多少？","calc_8":"[计算] 样本 **2048**，batch **256**，每个 epoch 的 step 数是多少？","calc_9":"[计算] 学习率 **0.002** 乘以缩放系数 **500**，结果整数是多少？"},"problemAnswers":{"definition_0":2,"definition_1":2,"definition_2":2,"definition_3":2,"definition_4":2,"definition_5":2,"definition_6":1,"definition_7":2,"definition_8":1,"definition_9":2,"trueFalse_0":1,"trueFalse_1":0,"trueFalse_2":1,"trueFalse_3":1,"trueFalse_4":1,"trueFalse_5":0,"trueFalse_6":1,"trueFalse_7":1,"trueFalse_8":1,"trueFalse_9":0,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"choice_0":2,"choice_1":1,"choice_2":1,"choice_3":1,"choice_4":1,"choice_5":1,"choice_6":1,"choice_7":1,"choice_8":1,"choice_9":1,"concept_0":2,"concept_1":1,"concept_2":2,"concept_3":1,"concept_4":2,"concept_5":1,"concept_6":2,"concept_7":1,"concept_8":2,"concept_9":1,"calc_0":3,"calc_1":100,"calc_2":6,"calc_3":10,"calc_4":2,"calc_5":4,"calc_6":9,"calc_7":10,"calc_8":8,"calc_9":1},"problemSolutions":{"definition_0":"**1) 概念：** 梯度下降要降低损失，参数应沿 $\\nabla L$ 的反方向更新。**2) 例子：** 逻辑回归一步为 $\\theta\\leftarrow\\theta-\\eta\\nabla L$。**3) 答案 2**","definition_1":"**1) 概念：** 小批量 SGD 用样本子集估计 $\\hat{g}$。**2) 例子：** batch=64 时，每步由 64 个样本计算梯度。**3) 答案 2**","definition_2":"**1) 概念：** 动量通过累积速度项减少来回摆动。**2) 例子：** 在狭长谷底里轨迹更平滑。**3) 答案 2**","definition_3":"**1) 概念：** Nesterov 在前瞻位置计算梯度。**2) 例子：** 常见实现如 `SGD(..., nesterov=True)`。**3) 答案 2**","definition_4":"**1) 概念：** AdaGrad 累积梯度平方来缩小高频坐标步长。**2) 答案 2**","definition_5":"**1) 概念：** RMSProp 对梯度平方做 EMA，避免无界累加。**2) 答案 2**","definition_6":"**1) 概念：** Adam 同时维护一阶矩和二阶矩。**2) 答案 1**","definition_7":"**1)** 大 $\\eta$ 可致振荡/NaN，但不保证“只会更快收敛”。 **2)** ② 属此误解。 **3) 答 2**","definition_8":"**1) 概念：** 一阶矩可看作近期梯度的 EMA。**2) 答案 1**","definition_9":"**1) 概念：** 选优化器要综合数据特性、模型规模、稳定性与速度。**2) 答案 2**","trueFalse_0":"梯度下降朝梯度反方向更新这一说法正确。**答案 1**","trueFalse_1":"动量并不会让学习率恒为 0。**答案 0**","trueFalse_2":"Adam 结合了自适应分母与动量式一阶矩。**答案 1**","trueFalse_3":"AdaGrad 在长期训练后步长可能变得很小。**答案 1**","trueFalse_4":"RMSProp 的核心是梯度平方的 EMA。**答案 1**","trueFalse_5":"更大 batch 通常会降低估计方差，因此该说法错误。**答案 0**","trueFalse_6":"学习率调度会随训练过程改变 LR。**答案 1**","trueFalse_7":"Nesterov 在前瞻位置计算梯度。**答案 1**","trueFalse_8":"$$\\varepsilon$ 主要用于数值稳定。**答案 1**","trueFalse_9":"Adam 并非在所有任务上都绝对优于 SGD+momentum。**答案 0**","scenario_0":"**1) 思路：** 先把震荡归因到步长与惯性。**2) 例子：** CNN 损失尖峰时先降学习率并联动看动量。**3) 答案 1**","scenario_1":"**1) 思路：** 稀疏文本任务常先用 Adam/AdamW 做快速基线。**2) 答案 1**","scenario_2":"**1) 思路：** 视觉任务常比较 SGD+momentum 与 Adam。**2) 答案 1**","scenario_3":"**1) 思路：** AdaGrad 过度衰减时可切换 RMSProp/Adam 并重调 LR。**2) 答案 1**","scenario_4":"**1) 思路：** 前高后低学习率需要调度器（含 warmup）设计。**2) 答案 1**","scenario_5":"**1) 思路：** `grad_norm` 爆炸先查学习率、裁剪和初始化尺度。**2) 答案 1**","scenario_6":"**1) 思路：** 更高 $\\beta$ 表示更长历史记忆与更强惯性。**2) 答案 1**","scenario_7":"**1) 思路：** Adam 的解耦权重衰减变体是 AdamW。**2) 答案 1**","scenario_8":"**1) 思路：** 过拟合优先看正则与数据策略，不是只换优化器。**2) 答案 1**","scenario_9":"**1) 思路：** 分布式训练先查打乱与同步是否一致。**2) 答案 1**","choice_0":"**1) 关键点：** 小批量噪声有时能帮助探索并跳出尖锐区域。**2) 答案 2**","choice_1":"**1) 关键点：** 当 $\\beta\\approx0$ 时，动量法退化为接近 SGD。**2) 答案 1**","choice_2":"**1) 关键点：** Adam 的常见默认参数接近 $(0.9,0.999)$。**2) 答案 1**","choice_3":"**1) 关键点：** warmup 主要用于降低训练初期不稳定。**2) 答案 1**","choice_4":"**1) 关键点：** 二阶矩对应梯度平方的 EMA。**2) 答案 1**","choice_5":"**1) 关键点：** AdamW 是解耦权重衰减的常见做法。**2) 答案 1**","choice_6":"**1) 关键点：** 动量可直接缓解狭长谷底中的之字震荡。**2) 答案 1**","choice_7":"**1) 关键点：** Adam 的 $\\varepsilon$ 常见量级约为 $10^{-8}$。**2) 答案 1**","choice_8":"**1) 关键点：** 在其他条件不变下，增大 batch 常使方差下降。**2) 答案 1**","choice_9":"**1) 关键点：** 梯度爆炸的常规修复是梯度裁剪。**2) 答案 1**","concept_0":"**1) 概念：** 狭窄谷底的震荡通常与动量和学习率设置相关。**2) 例子：** Transformer 微调常配 Adam + warmup。**3) 答案 2**","concept_1":"**1) 概念：** bias correction 修正一阶/二阶矩在初期偏小的问题。**2) 答案 1**","concept_2":"**1) 概念：** AdaGrad 会让高频坐标的步长逐渐变小。**2) 答案 2**","concept_3":"**1) 概念：** 不同优化器会带来不同训练轨迹与隐式正则。**2) 答案 1**","concept_4":"**1) 概念：** Nesterov 在前瞻点计算梯度。**2) 答案 1**","concept_5":"**1) 概念：** RMSProp 用 EMA 控制 AdaGrad 累积量无界增长。**2) 答案 1**","concept_6":"**1) 概念：** 大 batch 常需同步调整学习率缩放策略。**2) 答案 2**","concept_7":"**1) 概念：** 每次反向传播前需先清空旧梯度。**2) 答案 1**","concept_8":"**1) 概念：** 经过 $\\sqrt{\\hat{v}}+\\epsilon$ 归一化后，大梯度坐标步长相对更小。**2) 答案 2**","concept_9":"**1) 概念：** CNN 常见实践是 SGD+momentum 搭配学习率调度。**2) 答案 1**","calc_0":"**1) 计算：** $48/16=3$。**2) 答案 3**","calc_1":"**1) 计算：** 总更新次数 $=4\\times25=100$。**2) 答案 100**","calc_2":"**1) 计算：** $\\eta g=3\\times2=6$。**2) 答案 6**","calc_3":"**1) 计算：** $0.9\\cdot10+0.1\\cdot10=10$。**2) 答案 10**","calc_4":"**1) 计算：** $0.9\\cdot0+0.1\\cdot20=2$。**2) 答案 2**","calc_5":"**1) 计算：** $0.5\\cdot6+0.5\\cdot2=4$。**2) 答案 4**","calc_6":"**1) 计算：** $0.9\\cdot10+0.1\\cdot0=9$。**2) 答案 9**","calc_7":"**1) 计算：** $1/(1-0.9)=10$。**2) 答案 10**","calc_8":"**1) 计算：** $2048/256=8$。**2) 答案 8**","calc_9":"**1) 计算：** $0.002\\cdot500=1$。**2) 答案 1**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 2\nassert answer == 2","definition_2":"answer = 2\nassert answer == 2","definition_3":"answer = 2\nassert answer == 2","definition_4":"answer = 2\nassert answer == 2","definition_5":"answer = 2\nassert answer == 2","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 2\nassert answer == 2","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 2\nassert answer == 2","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 0\nassert answer == 0","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 0\nassert answer == 0","trueFalse_6":"answer = 1\nassert answer == 1","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 1\nassert answer == 1","trueFalse_9":"answer = 0\nassert answer == 0","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","choice_0":"answer = 2\nassert answer == 2","choice_1":"answer = 1\nassert answer == 1","choice_2":"answer = 1\nassert answer == 1","choice_3":"answer = 1\nassert answer == 1","choice_4":"answer = 1\nassert answer == 1","choice_5":"answer = 1\nassert answer == 1","choice_6":"answer = 1\nassert answer == 1","choice_7":"answer = 1\nassert answer == 1","choice_8":"answer = 1\nassert answer == 1","choice_9":"answer = 1\nassert answer == 1","concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 2\nassert answer == 2","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 2\nassert answer == 2","concept_9":"answer = 1\nassert answer == 1","calc_0":"n, b = 48, 16\nanswer = n // b\nassert answer == 3","calc_1":"answer = 5 * 20\nassert answer == 100","calc_2":"eta, g = 2, 3\nanswer = eta * g\nassert answer == 6","calc_3":"beta, v, g = 0.9, 10, 10\nanswer = int(beta * v + (1 - beta) * g)\nassert answer == 10","calc_4":"beta1, m, g = 0.9, 0, 20\nanswer = int((1 - beta1) * g)\nassert answer == 2","calc_5":"beta, v, g = 0.5, 6, 2\nanswer = int(beta * v + (1 - beta) * g)\nassert answer == 4","calc_6":"beta1, m, g = 0.9, 10, 0\nanswer = int(beta1 * m + (1 - beta1) * g)\nassert answer == 9","calc_7":"beta1, t = 0.9, 1\nanswer = int(1 / (1 - beta1 ** t))\nassert answer == 10","calc_8":"n, b = 2048, 256\nanswer = n // b\nassert answer == 8","calc_9":"lr, k = 0.001, 1000\nanswer = int(round(lr * k))\nassert answer == 1"},"problemDifficulty":{"definition_0":"easy","definition_1":"easy","definition_2":"easy","definition_3":"easy","definition_4":"easy","definition_5":"easy","definition_6":"easy","definition_7":"easy","definition_8":"easy","definition_9":"easy","trueFalse_0":"easy","trueFalse_1":"easy","trueFalse_2":"easy","trueFalse_3":"easy","trueFalse_4":"easy","trueFalse_5":"easy","trueFalse_6":"easy","trueFalse_7":"easy","trueFalse_8":"easy","trueFalse_9":"easy","scenario_0":"medium","scenario_1":"medium","scenario_2":"medium","scenario_3":"medium","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","choice_0":"medium","choice_1":"medium","choice_2":"medium","choice_3":"medium","choice_4":"medium","choice_5":"medium","choice_6":"medium","choice_7":"medium","choice_8":"medium","choice_9":"medium","concept_0":"hard","concept_1":"hard","concept_2":"hard","concept_3":"hard","concept_4":"hard","concept_5":"hard","concept_6":"hard","concept_7":"hard","concept_8":"hard","concept_9":"hard","calc_0":"hard","calc_1":"hard","calc_2":"hard","calc_3":"hard","calc_4":"hard","calc_5":"hard","calc_6":"hard","calc_7":"hard","calc_8":"hard","calc_9":"hard"},"problemOrder":["definition_0","definition_1","definition_2","definition_3","definition_4","definition_5","definition_6","definition_7","definition_8","definition_9","trueFalse_0","trueFalse_1","trueFalse_2","trueFalse_3","trueFalse_4","trueFalse_5","trueFalse_6","trueFalse_7","trueFalse_8","trueFalse_9","scenario_0","scenario_1","scenario_2","scenario_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","choice_0","choice_1","choice_2","choice_3","choice_4","choice_5","choice_6","choice_7","choice_8","choice_9","concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","concept_6","concept_7","concept_8","concept_9","calc_0","calc_1","calc_2","calc_3","calc_4","calc_5","calc_6","calc_7","calc_8","calc_9"]},"midDlCh03":{"chapter":"Chapter 03","title":"学习率调度：适时放慢脚步","description":"想象蒙眼从山顶走向谷底。起初大步快走很高效；但接近谷底时，若仍迈大步，会**越过最低点**，在对岸坡面来回震荡。\n\nCh.02 的**优化器**像指南针决定**往哪走**；Ch.03 的**学习率调度器**是**刹车与油门**，决定**何时缩小步幅**。先宽步探索，接近目标时小步精准落地，释放模型全部潜力。","sectionTitle":"学习率调度：适时放慢脚步","whatIs":{"0":"**1. 什么是学习率调度？（固定步幅的陷阱）**\n\n**概念：** Ch.02 **优化器**定**方向**，调度则按时间调整**步幅（学习率 $\\eta$）**。每步的 $\\eta_t$ 不同，**一步的大小**也会变。\n\n**比喻：** 下山先走大路大步，接近谷底再小步精准落地。全程固定 $\\eta$ 则前期慢、后期易**越过最小值**并持续振荡。\n\n**实践：** Ch.02 定方向后，Ch.03 是**时间维度的步幅设计**。**在笔记里同时记下“步幅·误差”**，可一眼看出减速时机与成绩反应。","1":"**2. 阶梯衰减：咔嗒踩刹车**\n\n**概念：** 在指定区间将 $\\eta$ **大幅**降低，常为 **×0.1（$\\gamma$）**。可在 30·60·90 等**多个时点**分别衰减。\n\n**比喻：** 电梯到固定楼层就减速。“何时”减速定好，其余交给调度器。\n\n**实践：** 像**图像分类**那样**长时间**训练时常用。$\\gamma$ 过小或过早 → **学不够**。请记录衰减次数与时机。","2":"**3. 平滑减速与 Warmup：预热**\n\n**概念：** **余弦**平滑降低 $\\eta$，利于后期微调。**Warmup** 仅在**初期**从 0 缓升到目标，避免初期过大 $\\eta$ 的冲击。\n\n**比喻：** 余弦像过山车平稳停下；Warmup 像冷天**预热引擎**。\n\n**实践：** **文字 AI·图像 AI** 等大模型常用 **预热 + 平滑减速**。Warmup 常为总训练的 **5~10%**，与 Ch.02 优化器搭配可抑制初期**误差乱跳**。","3":"**4. Plateau 与 OneCycle**\n\n**概念：** **Plateau** 看**考试成绩（验证损失/准确率）**。**patience** 个区间无改善则 $\\eta \\leftarrow \\text{factor}\\cdot\\eta$（如 0.1）。**OneCycle** 在短训中**先升后降** $\\eta$。\n\n**比喻：** Plateau 只在堵车时导航减速；OneCycle 像短跑冲刺后平滑停止。\n\n**实践：** 数据/模型规模不确定时 **Plateau** 较稳妥。**OneCycle** 适合**短练习**。与 Ch.02 优化器搭配，方向与速度齐备。"},"whyImportant":{"0":"**1. 相同训练时间，更好结果**\n\n好调度常在**相同时间**内得到更低误差、更高精度。后程减速可**精准落地**，节省训练时间与实验轮次。","1":"**2. 补全 Ch.02 优化器的“另一半”**\n\n优化器定方向与各处步幅，**随时间缩小整体步幅**是调度器职责。无 Warmup + 大初期 $\\eta$ → **误差爆炸**；无后期减速 → 在最小值附近**永远绕圈**。","2":"**3. 成绩不涨时先看这张图**\n\n**步幅(LR)曲线** **完全平坦(━)** → **调度未更新或时机错误**；**过早急降** → 学不够；**一直偏高** → 后期振荡。与 Ch.02 的 lr、优化器**优先**联查。"},"howUsed":{"0":"**① 开头·中间·结尾 — 步幅要变**\n\n逛陌生城镇：大街→小巷→门口一步步。训练分 **探索→收敛→落地** 三幕。前期大 $\\eta$ 广撒网，中期刹车，后期小 $\\eta$ 精修。调度器是**当前第几幕**的计时器。","1":"**② 各调度器性格不同 — 按场景选**\n\n**Step**＝固定时点猛减速（**长训**）。**Cosine**＝**平滑**后期（文字 AI 等）。**Warmup**＝**初期预热**（大模型）。**Plateau**＝**成绩停滞**才介入。**OneCycle**＝**短**练习。","2":"**③ 一步的黄金顺序 — 顺序错了调度就不生效**\n\n**① 看误差/损失有多陡** → **② Ch.02 优化器迈一步** → **③ 调度器定下一步幅**。**Plateau** 看验证成绩，卡住才刹车。","3":"**④ 学习率与损失曲线一起看**\n\n损失停滞后**刚缩小步幅**就“瀑布式”下降，说明调度有效。**过早**减速可能学不够。\n\n**症状应对：** 初期误差乱跳 → Warmup；后期锯齿 → Cosine/Step/Plateau；LR 平坦(━) → 查**调度是否更新**。**做笔记**。"},"problemSolving":{"0":"学习率调度在 Ch.02 **优化器**定方向的前提下，按时间或验证成绩调整**步幅**。**Step** 阶梯衰减、**Cosine** 平滑减速、**Warmup** 初期抬高步幅、**Plateau** 仅在停滞时介入。一步循环：**查误差 → 移动 → 定下一步幅**；**Plateau** 需看验证成绩。初期误差乱跳 → **Warmup**；后期锯齿 → **Cosine/Step/Plateau**；步幅曲线平坦 → **调度未更新**。","2":"**例（定义）**\n\n\"阶梯衰减中每 N 个区间乘以 $\\eta$ 的系数叫什么? ① patience ② gamma ③ beta\"\n\n衰减系数是 **$\\gamma$(gamma)**。 → **答案 2**\n\n---\n\n**例（应用）**\n\n\"文字 AI 训练初期误差不稳定。与 Ch.02 优化器一起应优先检查哪种组合? ① 预热 + 平滑减速 ② $\\eta$ 无限增大 ③ 仅移除调度器\"\n\n初期不稳定 → 优先尝试 **预热 + 平滑减速**。 → **答案 1**\n\n---\n\n**例（计算）**\n\n$\\eta_0=0.1$, $\\gamma=0.1$, Step 衰减 **2 次** 后 $\\eta$(×1000, 整数)是?\n\n$0.1 \\times 0.1^2 = 0.001$ → ×1000 = **1**。 → **答案 1**","3":"**定义例** — \"Warmup 的主要目的是? ① 数据增强 ② 缓解初期大学习率导致的不稳定 ③ 权重置零\" → Warmup 在初期缓慢提高 $\\eta$ 以减轻冲击。 **答案 2**\n\n---\n\n**判断例** — \"ReduceLROnPlateau 使用验证指标。\" → 正确。 **答案 1**\n\n---\n\n**应用例** — \"验证损失连续 5 个 epoch 未改善\" → Plateau 在验证停滞时介入。 **答案 1**\n\n---\n\n**选择例** — \"哪种更接近后期平滑减速? ① 仅 StepLR ② CosineAnnealing\" → Cosine 沿 cos 曲线平滑减速。 **答案 2**\n\n---\n\n**概念例** — \"Ch.02 优化器 + Ch.03 调度组合常见的原因? ① 方向选择与时间步长调节互补 ② 替代反向传播\" → 优化器与调度器互补。 **答案 1**\n\n---\n\n**计算例** — \"128 样本、batch 32 时每个 epoch 步数(整数)?\" → $128/32=4$。 **答案 4**"},"summary":"**一句话：** 学习率调度按进度调整**步幅($\\eta$)**，兼顾前期**探索**与后期**精准落地**。\n\n**主要调度器：** **Step**、**Cosine**、**Warmup**、**Plateau**、**OneCycle** — 按场景选用。\n\n**点检（症状→优先检查）**\n- 初期误差乱跳：降低步幅、**Warmup**\n- 后期锯齿/不收敛：**Cosine/Step/Plateau**、$\\gamma$、patience\n- 步幅曲线平坦(━)：**调度未更新**、区间混淆\n- 仅成绩停滞：**Plateau**、数据·模型设置\n\n**调参顺序：** 1) 误差·步幅**笔记** → 2) 基本步幅+Warmup → 3) Ch.02 优化器 → 4) 调度 → 5) 一次只改一项\n\nCh.02 **优化器（指南针）** + Ch.03 **调度器（刹车·油门）** = 日常标配。","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"如何使用","summary":"总结"},"formulaGuide":{"title":"调度器速览","step":"**Step / MultiStep** — 每 N 个区间（时点）：$\\eta \\leftarrow \\gamma \\cdot \\eta$。$\\gamma$ 常为 **0.1**。**长时间**训练常用的阶梯衰减。","cosine":"**Cosine Annealing** — $\\eta_t = \\eta_{\\min} + \\frac{1}{2}(\\eta_{\\max}-\\eta_{\\min})(1+\\cos\\frac{\\pi t}{T})$。平滑后期微调。","warmup":"**Warmup** — 初期 $s$ 步：$\\eta \\approx \\frac{s}{S}\\eta_{\\text{target}}$ **缓慢上升**。缓解大模型初期**误差乱跳**。","plateau":"**ReduceLROnPlateau** — **patience** 个 epoch 验证无改善：$\\eta \\leftarrow \\text{factor}\\cdot\\eta$。“卡住时才”刹车。"},"visual":"在 epoch 轴上动画对比 **固定·Step·Cosine·Warmup+Cosine** 四条曲线。优化器定方向，调度器定步幅。","problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"从 **60 题题库**随机 **5 题**(易2·中2·难1，顺序易→中→难)。请选择选项编号。","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","midDlCh03VisualIntro":"Ch.02 **优化器**＝指南针（方向），Ch.03 **调度器**＝刹车·油门（步幅）。**学习率曲线**对比。","midDlCh03VisualStep0":"① **固定学习率** — 全程同一步幅，后期可能越过最小值","midDlCh03VisualStep1":"② **Step decay** — 在 30/60/90 等 epoch 大幅减速","midDlCh03VisualStep2":"③ **Cosine** — 平滑减速，长训·文字 AI 常用","midDlCh03VisualStep3":"④ **Warmup+Cosine** — 预热后平滑下降，与 Ch.02 优化器绝配","midDlCh03VisualConceptTitle":"概念：优化器（方向）+ 调度器（步幅）→ 一步训练","midDlCh03VisualFlowTitle":"一步顺序：查误差 → 迈步 → 定下一步幅","midDlCh03VisualModelTitle":"调度器每 epoch/步设定**下一步幅**","midDlCh03VisualLegendFixed":"固定","midDlCh03VisualLegendStep":"Step","midDlCh03VisualLegendCosine":"Cosine","midDlCh03VisualLegendWarmup":"Warmup+Cosine","midDlCh03VisualCaption":"循环展示 **固定→Step→Cosine→Warmup+Cosine**，圆点表示**当前步幅**。","problems":{"definition_0":"学习率调度最核心的目的是?\n1) 永远固定 Adam\n2) **随时间(或指标)调节 $\\eta$**，平衡探索与收敛\n3) 跳过反向传播","definition_1":"StepLR 每 N 个 epoch 将 $\\eta$ 乘以的系数叫?\n1) patience\n2) **$\\gamma$**\n3) $\\beta$","definition_2":"Cosine annealing 在 $t=0$ 时 $\\eta$ 最接近的是?\n1) **$\\eta_{\\max}$**\n2) $\\eta_{\\min}$\n3) 恒为 0","definition_3":"Warmup 的主要目的是?\n1) 数据增强\n2) **缓解初期过大 $\\eta$ 的不稳定**\n3) 权重置零","definition_4":"ReduceLROnPlateau 主要观察?\n1) **验证损失/准确率等**\n2) GPU 温度\n3) 文件大小","definition_5":"按 epoch 的 Step 衰减，**最自然**的减步幅时机?\n1) 看任何 batch **之前**\n2) **一个 epoch(全数据一轮)训练结束后**\n3) 仅保存模型时","definition_6":"有调度器时的更新关系?\n1) **$\\theta \\leftarrow \\theta - \\eta_t g$**\n2) $\\eta_t$ 改变损失函数\n3) 调度器替代反向传播","definition_7":"关于学习率调度**不正确**的是?\n1) Cosine 可平滑衰减\n2) **核心是永远只增大 $\\eta$**\n3) Plateau 在指标停滞时衰减","definition_8":"MultiStepLR 的特点?\n1) 每 mini-batch 随机 $\\eta$\n2) **在指定 epoch(里程碑)衰减**\n3) 从不需要验证","definition_9":"OneCycleLR 最接近的描述是?\n1) **一个周期内 $\\eta$ 先升后降**\n2) $\\eta$ 永远为 0\n3) 只改 batch size","trueFalse_0":"[判断] 调度可在训练中改变 $\\eta$。对=1, 错=0","trueFalse_1":"[判断] StepLR 每 step_size 个 epoch 乘 $\\gamma$。对=1, 错=0","trueFalse_2":"[判断] Cosine 可在第 $T$ 个 epoch 接近 $\\eta_{\\min}$。对=1, 错=0","trueFalse_3":"[判断] Warmup 在初期逐步增大 $\\eta$。对=1, 错=0","trueFalse_4":"[判断] ReduceLROnPlateau 会看验证损失/准确率等**成绩指标**。对=1, 错=0","trueFalse_5":"[判断] 下一步幅(学习率)通常在**迈出当前这一步之前**就定好。对=1, 错=0","trueFalse_6":"[判断] 固定 $\\eta$ 永远优于任何调度。对=1, 错=0","trueFalse_7":"[判断] CosineAnnealingWarmRestarts 可周期重启。对=1, 错=0","trueFalse_8":"[判断] ExponentialLR 常做 $\\eta \\leftarrow \\gamma \\eta$。对=1, 错=0","trueFalse_9":"[判断] 仅有调度器、无优化器也能更新参数。对=1, 错=0","scenario_0":"[应用] 文本 AI 训练初期误差不稳定，与 Ch.02 优化器一起**首先**尝试? ① **预热(Warmup)+平滑衰减(Cosine)** ② $\\eta$ 无限增大 ③ 只删调度器","scenario_1":"[应用] 图像分类**长时间**训练，阶梯衰减时机接近? ① **30/60/90 等固定节点** ② 仅首个 batch ③ 无验证时每步 ×10","scenario_2":"[应用] 验证损失 5 个 epoch 无改善，自动降低 $\\eta$? ① **ReduceLROnPlateau** ② 仅固定 $\\eta$ ③ 删除数据","scenario_3":"[应用] 想要比阶梯**更平滑**的后期衰减? ① 仅 StepLR ② **CosineAnnealingLR** ③ batch=0","scenario_4":"[应用] 训练记录里 LR 曲线**完全水平**，首先怀疑? ① **调度未更新或时机不对** ② GPU 颜色 ③ 优化器名称","scenario_5":"[应用] batch 扩大 4 倍，与 Ch.02 一起看? ① **base $\\eta$、warmup、线性缩放** ② $\\eta$=0 固定 ③ 关闭反向传播","scenario_6":"[应用] 小数据微调避免过激衰减? ① **较小 base $\\eta$ + Plateau/短 Cosine** ② 每步 $\\eta$×10 ③ 无调度且 $\\eta$ 无限大","scenario_7":"[应用] 训练时间短、想快速试跑? ① **OneCycle** ② 始终 $\\eta$=0 ③ 仅跳过验证","scenario_8":"[应用] 初期误差暴涨，与调度**一起**降低? ① **基本步长(学习率)** ② 仅改层数 ③ 只增大 batch","scenario_9":"[应用] 文本 AI 无 warmup 用大 $\\eta$，下一步? ① **增加预热(Warmup)区间** ② $\\eta$ 增大 100 倍 ③ 移除优化器","choice_0":"后期**更平滑**的 $\\eta$ 下降? ① StepLR ② **CosineAnnealing** ③ 固定 $\\eta$","choice_1":"Plateau 的 **patience**? ① **无改善等待的 epoch 数** ② batch 大小 ③ $\\gamma$","choice_2":"factor=0.1 则 $\\eta$? ① **乘以 0.1** ② 增大 10 倍 ③ 不变","choice_3":"LinearLR 特点? ① **线性变化** ② 仅 cos ③ 跳过反向传播","choice_4":"Cosine 设 $\\eta_{\\min}>0$ 的原因? ① **保持微小更新而非完全停止** ② $\\eta$ 发散 ③ 数据增强","choice_5":"CyclicLR 直觉? ① **周期性升降** ② 仅降一次 ③ 必须看验证指标","choice_6":"Warmup 占训练 5–10%? ① **保证初期稳定** ② 总是欠拟合 ③ 给电脑降温","choice_7":"LambdaLR 特点? ① **自定义倍率函数** ② 仅特定优化器 ③ 只改 batch","choice_8":"阶梯衰减的**减速节点列表**指? ① **在哪个区间(epoch)缩小步长** ② 损失函数名 ③ dropout 比例","choice_9":"Ch.02 优化器+调度常见原因? ① **方向选择与时间步长互补** ② 调度替代反向传播 ③ 只能固定步长","concept_0":"Warmup 对 Ch.02 优化器初期有帮助因为? ① **缓解大步长导致的不稳定** ② 去掉数据 ③ 必须 batch=1","concept_1":"batch 翻倍时的线性 LR 缩放? ① **base $\\eta$ 约翻倍** ② 仅减半 $\\eta$ ③ 无需调度","concept_2":"Cosine $T=20,t=10,\\eta_{\\max}=0.2,\\eta_{\\min}=0$ 时 $\\eta$×1000(整数)是? ① 200 ② **100** ③ 0","concept_3":"Plateau `mode='min'` 用于? ① **最小化损失** ② 不能最大化准确率 ③ 最大化学习率","concept_4":"OneCycle vs Step 正确的是? ① 相同 ② **OneCycle 先升后降，Step 为阶梯** ③ 仅 Step 看指标","concept_5":"WarmRestarts 有时有用因为? ① **周期性提高 $\\eta$ 尝试逃离浅最小值** ② 总是发散 ③ 仅推理","concept_6":"过早/过大 $\\gamma$ 衰减风险? ① **欠拟合** ② 总是更快收敛 ③ 只会 NaN","concept_7":"恢复训练传 `last_epoch` 因为? ① **延续调度状态** ② 删除优化器 ③ 禁止 shuffle","concept_8":"Polynomial decay 的 power 越大? ① **后期衰减越陡** ② $\\eta$ 增大 ③ 不能 warmup","concept_9":"同时记录误差与步长因为? ① **关联衰减时机与成绩** ② 统一文件名 ③ 界面颜色","calc_0":"[计算] $\\eta_0=0.1,\\gamma=0.1$，decay **2 次**后 $\\eta$×1000 整数?","calc_1":"[计算] **60** epoch，step_size=**20**，decay 次数?","calc_2":"[计算] Warmup **10**，step=**5**，$\\eta_{target}=0.002$，$\\eta$×1000 整数?","calc_3":"[计算] $\\eta$×1000=**1000**，factor=**0.5**，**2 次**后×1000 整数?","calc_4":"[计算] Cosine $T=10,t=5,\\eta_{\\max}=0.1,\\eta_{\\min}=0$，$\\eta$×1000 整数?","calc_5":"[计算] 样本 **128**，batch **32**，每 epoch 步数?","calc_6":"[计算] $\\eta=0.01$ 乘 **0.1**，$\\eta$×1000 整数?","calc_7":"[计算] $\\eta$×1000=**100**，factor=**0.5** 一次后整数?","calc_8":"[计算] $\\eta_0$×1000=**100**，$\\gamma=0.9$，**3** epoch 后(四舍五入)?","calc_9":"[计算] Warmup **500**，step **250**，peak×1000=**10**，当前×1000 整数?"},"problemAnswers":{"definition_0":2,"definition_1":2,"definition_2":1,"definition_3":2,"definition_4":1,"definition_5":2,"definition_6":1,"definition_7":2,"definition_8":2,"definition_9":1,"trueFalse_0":1,"trueFalse_1":1,"trueFalse_2":1,"trueFalse_3":1,"trueFalse_4":1,"trueFalse_5":0,"trueFalse_6":0,"trueFalse_7":1,"trueFalse_8":1,"trueFalse_9":0,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":2,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"choice_0":2,"choice_1":1,"choice_2":1,"choice_3":1,"choice_4":1,"choice_5":1,"choice_6":1,"choice_7":1,"choice_8":1,"choice_9":1,"concept_0":1,"concept_1":1,"concept_2":2,"concept_3":1,"concept_4":2,"concept_5":1,"concept_6":1,"concept_7":1,"concept_8":1,"concept_9":1,"calc_0":1,"calc_1":3,"calc_2":1,"calc_3":250,"calc_4":50,"calc_5":4,"calc_6":1,"calc_7":50,"calc_8":73,"calc_9":5},"problemSolutions":{"definition_0":"**1) 调节 $\\eta_t$。**2) 答案 2**","definition_1":"**1) 系数为 $\\gamma$。**2) 答案 2**","definition_2":"**1) $t=0$ 为 $\\eta_{\\max}$。**2) 答案 1**","definition_3":"**1) 初期稳定。**2) 答案 2**","definition_4":"**1) 看验证指标。**2) 答案 1**","definition_5":"**1) epoch 结束后 step。**2) 答案 2**","definition_6":"**1) $\\eta_t$ 定步长。**2) 答案 1**","definition_7":"**1) 只增不减错误。**2) 答案 2**","definition_8":"**1) 里程碑衰减。**2) 答案 2**","definition_9":"**1) 先升后降。**2) 答案 1**","trueFalse_0":"对。**1**","trueFalse_1":"对。**1**","trueFalse_2":"对。**1**","trueFalse_3":"对。**1**","trueFalse_4":"对。**1**","trueFalse_5":"下一步幅在**迈步之后**。错。**0**","trueFalse_6":"错。**0**","trueFalse_7":"对。**1**","trueFalse_8":"对。**1**","trueFalse_9":"错。**0**","scenario_0":"**Warmup+Cosine。答案 1**","scenario_1":"**30/60/90。答案 1**","scenario_2":"**Plateau。答案 1**","scenario_3":"**Cosine。答案 2**","scenario_4":"**查调度更新。答案 1**","scenario_5":"**LR 缩放。答案 1**","scenario_6":"**温和衰减。答案 1**","scenario_7":"**OneCycle。答案 1**","scenario_8":"**降 base lr。答案 1**","scenario_9":"**加 warmup。答案 1**","choice_0":"**Cosine。答案 2**","choice_1":"**patience。答案 1**","choice_2":"**×0.1。答案 1**","choice_3":"**线性。答案 1**","choice_4":"**微小更新。答案 1**","choice_5":"**周期。答案 1**","choice_6":"**初期稳定。答案 1**","choice_7":"**Lambda。答案 1**","choice_8":"**milestones。答案 1**","choice_9":"**互补。答案 1**","concept_0":"**Adam 初期。答案 1**","concept_1":"**2 倍缩放。答案 1**","concept_2":"**100。答案 2**","concept_3":"**min。答案 1**","concept_4":"**区别。答案 2**","concept_5":"**重启。答案 1**","concept_6":"**欠拟合。答案 1**","concept_7":"**last_epoch。答案 1**","concept_8":"**更陡。答案 1**","concept_9":"**联合日志。答案 1**","calc_0":"**1。答案 1**","calc_1":"**3。答案 3**","calc_2":"**1。答案 1**","calc_3":"**250。答案 250**","calc_4":"**50。答案 50**","calc_5":"**4。答案 4**","calc_6":"**1。答案 1**","calc_7":"**50。答案 50**","calc_8":"**73。答案 73**","calc_9":"**5。答案 5**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 2\nassert answer == 2","definition_2":"answer = 1\nassert answer == 1","definition_3":"answer = 2\nassert answer == 2","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 2\nassert answer == 2","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 2\nassert answer == 2","definition_8":"answer = 2\nassert answer == 2","definition_9":"answer = 1\nassert answer == 1","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 0\nassert answer == 0","trueFalse_6":"answer = 0\nassert answer == 0","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 1\nassert answer == 1","trueFalse_9":"answer = 0\nassert answer == 0","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 2\nassert answer == 2","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","choice_0":"answer = 2\nassert answer == 2","choice_1":"answer = 1\nassert answer == 1","choice_2":"answer = 1\nassert answer == 1","choice_3":"answer = 1\nassert answer == 1","choice_4":"answer = 1\nassert answer == 1","choice_5":"answer = 1\nassert answer == 1","choice_6":"answer = 1\nassert answer == 1","choice_7":"answer = 1\nassert answer == 1","choice_8":"answer = 1\nassert answer == 1","choice_9":"answer = 1\nassert answer == 1","concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 1\nassert answer == 1","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 1\nassert answer == 1","concept_9":"answer = 1\nassert answer == 1","calc_0":"eta0, gamma, decays = 0.1, 0.1, 2\nanswer = int(round(eta0 * (gamma ** decays) * 1000))\nassert answer == 1","calc_1":"epochs, step_size = 60, 20\nanswer = epochs // step_size\nassert answer == 3","calc_2":"warmup, step, target = 10, 5, 0.002\nanswer = int(round(target * step / warmup * 1000))\nassert answer == 1","calc_3":"eta0, factor, times = 1000, 0.5, 2\nanswer = int(eta0 * (factor ** times))\nassert answer == 250","calc_4":"import math\nt, T, eta_max, eta_min = 5, 10, 0.1, 0\neta = eta_min + 0.5 * (eta_max - eta_min) * (1 + math.cos(math.pi * t / T))\nanswer = int(round(eta * 1000))\nassert answer == 50","calc_5":"n, b = 128, 32\nanswer = n // b\nassert answer == 4","calc_6":"eta, scale = 0.01, 0.1\nanswer = int(round(eta * scale * 1000))\nassert answer == 1","calc_7":"eta, factor = 100, 0.5\nanswer = int(eta * factor)\nassert answer == 50","calc_8":"eta0, gamma, epochs = 100, 0.9, 3\nanswer = int(round(eta0 * (gamma ** epochs)))\nassert answer == 73","calc_9":"warmup, step, peak = 500, 250, 10\nanswer = int(peak * step / warmup)\nassert answer == 5"},"problemDifficulty":{"definition_0":"easy","definition_1":"easy","definition_2":"easy","definition_3":"easy","definition_4":"easy","definition_5":"easy","definition_6":"easy","definition_7":"easy","definition_8":"easy","definition_9":"easy","trueFalse_0":"easy","trueFalse_1":"easy","trueFalse_2":"easy","trueFalse_3":"easy","trueFalse_4":"easy","trueFalse_5":"easy","trueFalse_6":"easy","trueFalse_7":"easy","trueFalse_8":"easy","trueFalse_9":"easy","scenario_0":"medium","scenario_1":"medium","scenario_2":"medium","scenario_3":"medium","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","choice_0":"medium","choice_1":"medium","choice_2":"medium","choice_3":"medium","choice_4":"medium","choice_5":"medium","choice_6":"medium","choice_7":"medium","choice_8":"medium","choice_9":"medium","concept_0":"hard","concept_1":"hard","concept_2":"hard","concept_3":"hard","concept_4":"hard","concept_5":"hard","concept_6":"hard","concept_7":"hard","concept_8":"hard","concept_9":"hard","calc_0":"hard","calc_1":"hard","calc_2":"hard","calc_3":"hard","calc_4":"hard","calc_5":"hard","calc_6":"hard","calc_7":"hard","calc_8":"hard","calc_9":"hard"},"problemOrder":["definition_0","definition_1","definition_2","definition_3","definition_4","definition_5","definition_6","definition_7","definition_8","definition_9","trueFalse_0","trueFalse_1","trueFalse_2","trueFalse_3","trueFalse_4","trueFalse_5","trueFalse_6","trueFalse_7","trueFalse_8","trueFalse_9","scenario_0","scenario_1","scenario_2","scenario_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","choice_0","choice_1","choice_2","choice_3","choice_4","choice_5","choice_6","choice_7","choice_8","choice_9","concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","concept_6","concept_7","concept_8","concept_9","calc_0","calc_1","calc_2","calc_3","calc_4","calc_5","calc_6","calc_7","calc_8","calc_9"]},"midDlCh04":{"chapter":"Chapter 04","title":"损失函数进阶：从不平衡与距离中学习","description":"想象一场考试：100 道题里 99 道是简单加法，只有 1 道是很难的论述题。加法全对就能拿 99 分，很容易误以为“学得很好”。AI 里这叫**类别不平衡(Class Imbalance)**：只靠多数票，就会漏掉所有关键的少数类（罕见病、不良品、欺诈等）。\n\n本章要**重新设计损失函数**处理不平衡，并进一步超越“选对标签”，用数据之间的**距离**学习相似度——走进**度量学习(Metric Learning)**的世界。\n\n按**概念→直观比喻→公式→实践提示**掌握**加权 CE**、**Focal loss**、**Triplet/Contrastive loss**，避免“分数高、重点全错”的实务陷阱。","sectionTitle":"损失函数进阶：从不平衡与距离中学习","whatIs":{"0":"**1. 什么是类别不平衡？（掉进多数决陷阱的 AI）**\n\n**概念：** 某些类别的样本数量远远多于或少于其他类别。普通训练会让模型只关注好猜的**多数类**。\n\n**直观比喻：** 工厂检测中 99% 为正常品时，模型全预测“正常”也能有 99% 准确率。但真正要抓的是隐藏的 1% **不良品（少数类）**。\n\n**实践提示：** 在损失中加入**类权重**，或使用聚焦难样本的 **Focal loss**。","1":"**2. 加权交叉熵 (Weighted CE)**\n\n**概念：** 每个类别 $c$ 乘以权重 $w_c$，**少数类**错分时罚得更重。核心公式：$L = - w_c \\log(p_c)$。\n\n**直观比喻：** 改评分表：99 道简单题各 1 分，1 道稀有论述题 100 分——学生(AI)就不敢忽略论述题。\n\n**实践提示：** 权重**过大**会死记少数类噪声，要慢慢调并查看各类指标。","2":"**3. Focal loss — 会的跳过，不会的猛攻**\n\n**概念：** 对已很有把握的**简单样本**（预测概率 $p_t$ 高）大幅减小损失，让**难样本**主导训练。核心公式：$L_{\\text{focal}} = - (1-p_t)^\\gamma \\log(p_t)$，$\\gamma$ 控制专注程度。\n\n**直观比喻：** 复习时跳过已掌握的章节，把时间全砸在总错的薄弱单元上。\n\n**实践提示：** 在目标检测等背景(多数)与物体(少数)差距极大时特别有效。","3":"**4. 度量学习 — 同类靠近，异类拉开**\n\n**概念：** 不只背答案，而是学**距离**——猫图彼此近、离狗图远。**Triplet loss** 用锚点、正例、负例三点，核心公式：$L = \\max(0, d(a,p) - d(a,n) + \\alpha)$。\n\n**直观比喻：** 婚礼座位：**好友(Positive)** 同桌，**关系差的人(Negative)** 至少隔开安全距离 $\\alpha$。\n\n**实践提示：** 人脸识别、相似商品推荐等需要比较“有多像”的任务广泛使用。"},"whyImportant":{"0":"**1. 识破虚假的 100 分成绩单**\n\n不平衡数据上的“99% 准确率”可能是错觉。要确认模型是否在做真正重要的事，不能只看准确率，而要用**加权 CE**或 **Focal loss** 在损失里写明什么更重要。","1":"**2. 损失决定优先级**\n\n模型最该重视什么，写在**损失的形状**里。目标错了，练得再多也解决不了真正的问题。处理不平衡与距离学习时，关键是让损失告诉模型惩罚该落在哪里。","2":"**3. 搜索与推荐服务的脊梁**\n\n购物 App 的“找相似衣服”、手机的“人脸解锁”时，AI 不是在选客观题答案，而是计算**两张图有多像（距离）**。度量学习支撑着这些现代 AI 服务。"},"howUsed":{"0":"**① 解决不平衡 — 按顺序诊断**\n\n**症状：** 常见类全对，稀有类全错。\n**步骤：**\n1. **看分布** — 各类数量差多少？\n2. **换损失** — 试 **加权 CE** 或 **Focal loss**。\n3. **复查训练设置** — 损失变了，学习率、batch 等也要一起看。","1":"**② 度量学习 — 凑对训练**\n\n度量学习需要把数据准备成“组合”。\n- **Triplet：** (基准照、同一人、不同人) 三个一组。\n- **Contrastive：** (原图、增强原图) 作 positive 拉近，其余推远。\n让模型学距离，使相似样本聚在一起。","2":"**③ 扔掉太简单的题 (Hard Negative Mining)**\n\n只学苹果 vs 汽车太容易，模型会自满。故意加入**很像但标签不同**的 **Hard Negative**，像做难模考一样提升实战力。","3":"**④ 选尺子 — L2 距离 vs 余弦相似度**\n\n- **L2：** 直线距离，大小和位置都重要。\n- **余弦：** 箭头方向是否一致，适合语义或“气质”。\n\n**实务：** 忽视少数→**权重/Focal**；只做简单题→提高 **Focal $\\gamma$**；检索差→加 **Hard negative**。"},"problemSolving":{"0":"本章题目可分为两条线：**类别不平衡分类**与**基于距离的相似度学习**。不平衡时，只猜多数类也能得到很高的准确率，仅用普通交叉熵容易漏掉稀有类。**加权 CE** 为每类设置 $w_c$，加大对少数类误分的惩罚；**Focal loss** 用 $(1-p_t)^\\gamma$ 降低简单样本的影响，让难样本主导训练。度量学习则不在标签上“选对答案”，而在嵌入空间里用**距离**学“有多像”。**Triplet loss** 用 anchor·positive·negative 三点最小化 $L=\\max(0,d(a,p)-d(a,n)+\\alpha)$；**Contrastive loss** 拉近正样本对、推远负样本对。题干若写“只有少数类总错”，先想**权重/Focal**；若写“negative 太简单”，先想 **hard mining**；若是人脸验证、相似检索，先想**度量嵌入**。","2":"**定义题**要先想损失在“更重地惩罚什么”。例如“加权 CE 为何给少数类更大的 $w_c$？”① 跳过反传与机制无关，③ 固定 batch 也不是加权目的。核心是提高少数类误分代价，选**②**，**答案 2**。\n\n---\n\n**应用题**先读数据设定。“欺诈 1%、正常 99%”这类极端不平衡下，只保留 CE(①)或删除少数类(③)都不合理，应优先尝试**加权 CE 或 Focal loss**(②)。→ **答案 2**\n\n---\n\n**计算题**按公式逐步代入。$w_B=N/(K\\cdot n_B)$，$N=1000$, $K=2$, $n_B=100$ 时得 $1000/(2\\cdot100)=5$，**答案 ②**。","3":"**定义例** — “Focal 中 $(1-p_t)^\\gamma$ 的作用？”它降低**简单样本**的损失权重，让训练聚焦难样本，不是 ① 相同损失或 ③ 提高学习率。→ **答案 2**\n\n---\n\n**判断例** — “Triplet 需要 anchor、positive、negative。”正确，因为靠三点距离关系学习。→ **答案 1**\n\n---\n\n**应用例** — “做人脸验证嵌入”更适合用 **Triplet/Contrastive** 学距离，而非普通分类。→ **答案 1**\n\n---\n\n**选择例** — **极端不平衡**（如检测背景极多）常优先 **Focal**(②) 而非仅 CE(①)。→ **答案 2**\n\n---\n\n**概念例** — $d(a,p)=1$, $d(a,n)=4$, $\\alpha=0.5$ 时 $\\max(0,1-4+0.5)=0$，已满足 margin，无额外惩罚。→ **答案 3**\n\n---\n\n**计算例** — L2 距离 $(0,0)$–$(3,4)$ 为 $\\sqrt{9+16}=5$。→ **答案 ②**"},"summary":"**一句话：** 本章学习了如何通过**设计损失函数**处理类别不平衡，以及如何用**嵌入距离**学习相似度。\n\n**四种核心损失**各有分工。**加权 CE** 用逆频率 $w_c$ 重罚少数类误分；**Focal loss** 结合 $\\alpha$ 与 $(1-p_t)^\\gamma$ 削弱简单样本的贡献；**Triplet loss** 用 margin $\\alpha$ 让正样本靠近锚点、负样本远离；**Contrastive loss** 通过拉近/推远正负对整理嵌入空间。\n\n**实务上**，若模型只预测多数类，应改用加权 CE 或 Focal，并查看各类 F1。若总在简单样本上打转，可调 Focal 的 $\\gamma$，但过大可能不稳定。若 Triplet 损失接近 0，往往说明 negative 太简单，需要 **hard negative mining**。人脸认证、相似检索则要关注**度量嵌入**以及 L2 与余弦距离的选择。\n\n**调参时**先确认类别分布与指标，再选损失并调整学习率等设置。不要一次改多项，**逐项**对比效果更稳妥。","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"如何使用","summary":"总结"},"formulaGuide":{"title":"损失函数速览","weightedCE":"**加权 CE** — 样本少的类错分罚得更重。\n\n**核心公式:** $L = -w_c \\log(p_c)$\n\n**符号说明** — $p_c$ 是模型对**真实类别 $c$** 的预测概率(0~1)。$w_c$ 是类别 $c$ 的**配分**，少数类权重更大。$\\log(p_c)$ 在概率低(错得多)时变大，前面的**负号**让训练朝**提高** $p_c$ 的方向进行。\n\n**权重规则:** 总样本 $N$、类别 $K$ 时 $w_c \\propto N/(K n_c)$ — 类别 $c$ 的样本数 $n_c$ 越小，$w_c$ 越大。\n\n**数值例:** $p_c=0.2$, $w_c=5$ 时损失 $\\approx -5\\log(0.2) \\approx 8$ — 同样错分，加权后罚得更重。\n\n**比喻:** 普通**交叉熵**加上**按类配分**。","focal":"**Focal loss** — 已会做的样本损失变小，聚焦难样本。\n\n**核心公式:** $L_{\\text{focal}} = -(1-p_t)^\\gamma \\log(p_t)$\n\n**符号说明** — $p_t$ 是模型对该样本的**预测把握度**(正确概率)。$(1-p_t)$ 表示**还不确定的程度**；$(1-p_t)^\\gamma$ 在 $\\gamma$ 较大时更强烈地削弱简单样本($p_t$ 高)的贡献。$\\log(p_t)$ 与 CE 相同的基础损失骨架。\n\n**数值例:** $p_t=0.9$, $\\gamma=2$ 时 $(1-0.9)^2=0.01$ — 损失缩到**约 1%**，已掌握的题几乎被忽略。$p_t=0.3$ 时 $(0.7)^2=0.49$，仍有较大惩罚。\n\n**比喻:** 复习时**跳过已掌握的章节**，专攻总错的薄弱单元。","triplet":"**Triplet loss** — 朋友拉近、陌生人推远。\n\n**核心公式:** $L = \\max(0,\\, d(a,p) - d(a,n) + \\alpha)$\n\n**符号说明** — $a$ 是**锚点(anchor)**，$p$ 是**同身份(positive)**，$n$ 是**不同身份(negative)**。$d(\\cdot,\\cdot)$ 是两点间的**距离**(如 L2)。$\\alpha$ 是 negative 距 anchor **至少要保持的间隔(margin)**。$\\max(0,\\cdot)$ 表示条件已满足时损失为 **0**，无需再推。\n\n**数值例:** $d(a,p)=1$, $d(a,n)=4$, $\\alpha=0.5$ → $1-4+0.5=-2.5$ → $\\max(0,-2.5)=0$(已足够远)。若 $d(a,n)=1.2$ → 仍有 **0.3** 的惩罚。\n\n**比喻:** 婚礼座位 — 好友($p$)坐 anchor 旁，不合的人($n$)至少隔开 $\\alpha$。","contrastive":"**Contrastive loss** — 同身份(或增强)拉近，不同身份推远。\n\n**核心公式** — positive: $L_+ = 0.5\\,d^2$ · negative: $L_- = 0.5\\,\\max(0,\\, m-d)^2$\n\n**符号说明** — $d$ 是两个嵌入之间的**距离**。positive 对 $d$ 越接近 0 损失越小(**拉近**)。negative 的 $m$ 是**最小间隔**；当 $d \\ge m$ 时 $\\max(0,m-d)=0$，无需再推。$0.5$ 是缩放常数。\n\n**数值例:** positive 中 $d=0.4$ → $0.5\\times0.16=0.08$(近则罚轻)。negative 中 $d=0.6$, $m=1$ → $0.5\\times(0.4)^2=0.08$ — 仍太近，继续推远。\n\n**比喻:** 同一人的照片**聚到一起**，不同人的照片至少隔开 $m$。"},"visual":"","problemSolvingLabel":"解题方法说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"从 **60 题题库**随机 **5 题**(易2·中2·难1，顺序易→中→难)。请选择选项编号。","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","midDlCh04VisualIntro":"下方 2×2 图展示**四种损失**如何改变嵌入空间：**训练前 → 训练后**。","midDlCh04VisualConceptTitle":"损失函数 2×2：Contrastive · Triplet · 加权 CE · Focal","midDlCh04VisualFlowTitle":"相似的拉近、不同的推远 — 用距离学习","midDlCh04VisualModelTitle":"不平衡用权重与 Focal，相似度用 Contrastive 与 Triplet","midDlCh04VisualPanelContrastive":"Contrastive Loss","midDlCh04VisualPanelTriplet":"Triplet Loss","midDlCh04VisualPanelWeightedCE":"Weighted CE","midDlCh04VisualPanelFocal":"Focal Loss","midDlCh04VisualLabelBefore":"训练前","midDlCh04VisualLabelAfter":"训练后","midDlCh04VisualLabelHard":"难样本","midDlCh04VisualCaption":"每格展示**训练前(左)→训练后(右)**。**Contrastive** 拉近正样本对、推远负样本对；**Triplet** 让 anchor–positive 靠近、negative 超出 margin。**加权 CE** 对少数类 **w↑**；**Focal** 让**易样本缩小、难样本放大**聚焦。","problems":{"definition_0":"在**类别不平衡**中，最常见的问题是?\n1) 各类样本数相同\n2) **少数类在训练/评估中被忽视或低估**\n3) 仅 GPU 内存不足","definition_1":"在**加权交叉熵**中，给少数类较大 $w_c$ 的主要原因是?\n1) 跳过反向传播\n2) **提高该类误分类在损失中的代价**\n3) 固定 batch 大小","definition_2":"**Focal loss** 中 $(1-p_t)^\\gamma$ 的作用最接近的是?\n1) 使所有样本损失相等\n2) **降低易样本损失，聚焦难样本**\n3) 自动增大学习率","definition_3":"**度量学习**的核心目标是?\n1) 仅最大化类别数\n2) **嵌入空间中相似更近、不同更远**\n3) 权重恒为 0","definition_4":"**Triplet loss** 的 $(a,p,n)$ 中，正确关系是?\n1) 拉近 anchor 与 negative\n2) **anchor–positive 近，anchor–negative 远**\n3) 三者距离随机","definition_5":"**Contrastive loss** 中 **positive pair** 最接近的是?\n1) 总是不同类\n2) **同类/同一身份（或增强对）**\n3) 总是远离的对","definition_6":"嵌入 $a,b$ 的**欧氏(L2)距离**定义最接近的是?\n1) **$\\|a-b\\|_2=\\sqrt{\\sum_i (a_i-b_i)^2}$**\n2) 仅 $\\sum_i |a_i-b_i|$\n3) 恒为 0","definition_7":"Focal loss 中 $\\gamma$ **较大**时?\n1) 易样本权重更大\n2) **易样本的 $(1-p_t)^\\gamma$ 更小**\n3) 所有样本损失相同","definition_8":"Triplet loss 的 **margin** $\\alpha$ 作用最接近的是?\n1) **正负样本距离差的最小间隔**\n2) 类别数\n3) 批归一化 momentum","definition_9":"**Hard negative** 是?\n1) 距 anchor 最远的 negative\n2) **距 anchor 近、难区分的 negative**\n3) 与 positive 相同","trueFalse_0":"[判断] 类别不平衡指各类样本数差异很大。对=1，错=0。","trueFalse_1":"[判断] 加权 CE 可给少数类更大 $w_c$。对=1，错=0。","trueFalse_2":"[判断] Focal loss 为缓解不平衡与过多易样本而提出。对=1，错=0。","trueFalse_3":"[判断] 度量学习通过嵌入**距离**学习相似度。对=1，错=0。","trueFalse_4":"[判断] Triplet loss 需要 anchor、positive、negative。对=1，错=0。","trueFalse_5":"[判断] Contrastive loss 拉近 positive、推远 negative。对=1，错=0。","trueFalse_6":"[判断] L2 距离可以为负。对=1，错=0。","trueFalse_7":"[判断] Focal loss 中 $\\gamma=0$ 时 $(1-p_t)^0=1$，重加权消失。对=1，错=0。","trueFalse_8":"[判断] Hard negative 总是距 anchor 最远。对=1，错=0。","trueFalse_9":"[判断] Focal loss 中 $\\gamma$ 较大时，易样本对损失的贡献会更大。对=1，错=0。","scenario_0":"[应用] 欺诈检测：正常 99%、欺诈 1%。仅用普通 CE 容易漏掉少数类。首先尝试的损失? ① 仅普通 CE ② **加权 CE 或 Focal loss** ③ 删除少数类","scenario_1":"[应用] 人脸验证：同一人更近、不同人更远。适合的方法? ① **Triplet/Contrastive 度量学习** ② 仅 softmax 分类 ③ 去掉嵌入层","scenario_2":"[应用] 罕见病：模型几乎不预测罕见类。应对方法? ① **类权重/Focal** ② 仅 batch×2 ③ 只保留多数类","scenario_3":"[应用] Triplet 训练只选易 negative→损失≈0。下一步? ① **Hard negative mining** ② 仅用 positive ③ 学习率=0","scenario_4":"[应用] 嵌入簇重叠、检索差。解决方案? ① **带 margin 的 Triplet/Contrastive** ② 嵌入置零 ③ 去掉损失","scenario_5":"[应用] 调整训练设置后罕见类 F1 仍低。还应检查? ① **损失重加权(加权 CE/Focal)** ② GPU 颜色 ③ 仅 batch=1","scenario_6":"[应用] 自监督对比(SimCLR 类)：同一图两增强应如何对待? ① **positive pair 拉近** ② 总是 negative ③ 无编码器训练","scenario_7":"[应用] Focal $\\gamma$ 过大导致不稳定。最可能的原因是? ① **难样本过度主导** ② 总是更好 ③ 停止反向传播","scenario_8":"[应用] 商品图相似搜索。需要的做法? ① **学习度量嵌入** ② 随机特征 ③ 去掉损失函数","scenario_9":"[应用] **逆频率**权重下，少数类 $w_c$ 如何变化? ① 随频率增大而变小 ② **随频率增大而变大（反比）** ③ 不变","choice_0":"极端不平衡且易样本很多时? ① 仅普通 CE ② **Focal loss** ③ 仅 MSE","choice_1":"加权 CE 中少数类权重通常是什么? ① 与频率成正比 ② **逆频率（或平衡权重）** ③ 恒为 0","choice_2":"最接近 Triplet loss 的式子是? ① **$\\max(0, d(a,p)-d(a,n)+\\alpha)$** ② $d(a,p)+d(a,n)$ ③ 仅 CE","choice_3":"Contrastive 的 positive 对? ① 随机不同图 ② **同一身份/增强对** ③ 总是远离","choice_4":"检索/验证常用嵌入距离? ① **L2 或余弦距离** ② epoch 数 ③ dropout 率","choice_5":"Focal loss 的 $\\alpha$ 主要平衡什么? ① 学习率 ② **类/正例比例** ③ weight decay","choice_6":"相比普通交叉熵分类，度量学习优化的是? ① 仅 logits ② **嵌入空间的相对距离** ③ 仅初始化","choice_7":"Hard negative mining 的目的? ① 仅让训练更易 ② **有信息量的难 negative** ③ 去掉 anchor","choice_8":"Siamese 网络特点? ① **权重共享的 twin encoder** ② 两个无关网络 ③ 无损失","choice_9":"加权 CE 与 Focal loss 共同有助于缓解? ① 从数据中删除少数类 ② **不平衡与过多易样本问题** ③ 使 Triplet margin 不再必要","concept_0":"Focal 有时优于加权 CE 的原因? ① 绝不可能 ② **进一步 down-weight 易多数样本** ③ 删除少数类","concept_1":"Triplet margin $\\alpha$ 要保证? ① negative 更近 ② **$d(a,n)-d(a,p)$ 至少为 $\\alpha$** ③ 损失无穷","concept_2":"$$d(a,p)=1$, $d(a,n)=4$, $\\alpha=0.5$ 时 Triplet loss$\\times 10$(整数)是? ① 35 ② 15 ③ **0**","concept_3":"类 A 800、B 200；$w_B=N/(K\\cdot n_B)$, $N=1000$, $K=2$ 时 $w_B\\times 10$(整数)是? ① 20 ② **25** ③ 40","concept_4":"Focal $(1-p_t)^\\gamma$, $p_t=0.9$, $\\gamma=2$ 时值$\\times 1000$(整数)是? ① **10** ② 100 ③ 900","concept_5":"人脸验证用度量学习的原因? ① **未注册身份也可比距离** ② 仅固定类 ③ 不需嵌入","concept_6":"对 $p_t$ 高的易样本，增大 $\\gamma$ 使 $(1-p_t)^\\gamma$? ① 变大 ② **变小** ③ 不变","concept_7":"归一化嵌入上用余弦距离的原因? ① **方向(角度)相似度** ② 与 L2 总无关 ③ batch 大小","concept_8":"少数类权重**过大**时? ① 仅多数 underfit ② **少数过拟合/噪声放大** ③ 总是更快","concept_9":"Triplet loss 追求的嵌入布局是? ① anchor–negative 靠近 ② **anchor–positive 靠近，anchor–negative 超出 margin** ③ 三点距离随机","calc_0":"[计算] 类 A **900**、B **100**；$w_B=N/(K\\cdot n_B)$, $N=1000$, $K=2$ 时 $w_B$(整数)是?\n① 2\n② **5**\n③ 10\n④ 50","calc_1":"[计算] Focal $(1-p_t)^\\gamma$, $p_t=0.8$, $\\gamma=2$ 的值$\\times 1000$(整数)是?\n① 20\n② **40**\n③ 80\n④ 160","calc_2":"[计算] 加权 CE：$w=3$，基础 CE$=0.2$ 时加权损失$\\times 10$(整数)是?\n① 3\n② **6**\n③ 9\n④ 12","calc_3":"[计算] Triplet：$d(a,p)=2$, $d(a,n)=5$, $\\alpha=1$ 时 loss(整数)是?\n① **0**\n② 1\n③ 2\n④ 4","calc_4":"[计算] L2 距离：$(0,0)$ 到 $(3,4)$(整数)是?\n① 4\n② **5**\n③ 7\n④ 25","calc_5":"[计算] A **950**、B **50** 时逆频率比 $w_B/w_A$(整数)是?\n① 9\n② 10\n③ **19**\n④ 95","calc_6":"[计算] Triplet：$d(a,p)=1.2$, $d(a,n)=1.5$, $\\alpha=0.2$ 时 loss$\\times 100$(整数)是?\n① **0**\n② 10\n③ 20\n④ 50","calc_7":"[计算] Focal $\\gamma=0$, $p_t=0.7$ 时 $(1-p_t)^\\gamma\\times 100$(整数)是?\n① 30\n② 70\n③ **100**\n④ 0","calc_8":"[计算] Contrastive positive：$d=0.4$，loss$=0.5\\,d^2\\times 100$(整数)是?\n① 4\n② **8**\n③ 16\n④ 40","calc_9":"[计算] A **600**、B **400**；$w_B=N/(K\\cdot n_B)$, $N=1000$, $K=2$ 时 $w_B\\times 100$(整数)是?\n① 100\n② **125**\n③ 150\n④ 250"},"problemAnswers":{"definition_0":2,"definition_1":2,"definition_2":2,"definition_3":2,"definition_4":2,"definition_5":2,"definition_6":1,"definition_7":2,"definition_8":1,"definition_9":2,"trueFalse_0":1,"trueFalse_1":1,"trueFalse_2":1,"trueFalse_3":1,"trueFalse_4":1,"trueFalse_5":1,"trueFalse_6":0,"trueFalse_7":1,"trueFalse_8":0,"trueFalse_9":0,"scenario_0":2,"scenario_1":1,"scenario_2":1,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":2,"choice_0":2,"choice_1":2,"choice_2":1,"choice_3":2,"choice_4":1,"choice_5":2,"choice_6":2,"choice_7":2,"choice_8":1,"choice_9":2,"concept_0":2,"concept_1":2,"concept_2":3,"concept_3":2,"concept_4":1,"concept_5":1,"concept_6":2,"concept_7":1,"concept_8":2,"concept_9":2,"calc_0":2,"calc_1":2,"calc_2":2,"calc_3":1,"calc_4":2,"calc_5":3,"calc_6":1,"calc_7":3,"calc_8":2,"calc_9":2},"problemSolutions":{"definition_0":"**1) 概念：** 少数类易被忽视。 **2) 例：** 欺诈 1%。 **3) 答案 2**","definition_1":"**1) 加权 CE 提高少数误分类代价。 **2) 答案 2**","definition_2":"**1) Focal down-weight 易样本。 **2) 答案 2**","definition_3":"**1) 度量学习用距离。 **2) 答案 2**","definition_4":"**1) anchor–pos 近、anchor–neg 远。 **2) 答案 2**","definition_5":"**1) positive=同身份/增强。 **2) 答案 2**","definition_6":"**1) L2=平方和开方。 **2) 答案 1**","definition_7":"**1) $\\gamma$↑→易样本权重↓。 **2) 答案 2**","definition_8":"**1) margin=距离差间隔。 **2) 答案 1**","definition_9":"**1) hard negative 是近的 negative。 **2) 答案 2**","trueFalse_0":"不平衡=各类样本数差异。 **答案 1**","trueFalse_1":"加权 CE 可加大少数权重。 **答案 1**","trueFalse_2":"Focal 针对不平衡/易样本。 **答案 1**","trueFalse_3":"度量学习用距离。 **答案 1**","trueFalse_4":"Triplet 需 a,p,n。 **答案 1**","trueFalse_5":"Contrastive 拉近 pos、推远 neg。 **答案 1**","trueFalse_6":"L2 不能为负。 **答案 0**","trueFalse_7":"$$\\gamma=0$→$(1-p_t)^0=1$。 **答案 1**","trueFalse_8":"hard negative 是近的而非最远。 **答案 0**","trueFalse_9":"$$\\gamma$ 增大 → 易样本贡献减小。 **答案 0**","scenario_0":"**1) 不平衡→加权 CE/Focal。 **2) 答案 2**","scenario_1":"**1) 验证→度量学习。 **2) 答案 1**","scenario_2":"**1) 罕见类→权重/Focal。 **2) 答案 1**","scenario_3":"**1) 易 neg→hard mining。 **2) 答案 1**","scenario_4":"**1) 重叠→margin 损失。 **2) 答案 1**","scenario_5":"**1) F1 低→重加权损失。 **2) 答案 1**","scenario_6":"**1) 增强=positive。 **2) 答案 1**","scenario_7":"**1) $\\gamma$ 过大→不稳定。 **2) 答案 1**","scenario_8":"**1) 搜索→度量嵌入。 **2) 答案 1**","scenario_9":"**1) 逆频率→少数权重↑。 **2) 答案 2**","choice_0":"**1) 极端不平衡→Focal。 **2) 答案 2**","choice_1":"**1) 逆频率权重。 **2) 答案 2**","choice_2":"**1) Triplet max(0,·)。 **2) 答案 1**","choice_3":"**1) positive=同身份。 **2) 答案 2**","choice_4":"**1) L2/余弦。 **2) 答案 1**","choice_5":"**1) $\\alpha$ 平衡类。 **2) 答案 2**","choice_6":"**1) 优化距离。 **2) 答案 2**","choice_7":"**1) 有信息 negative。 **2) 答案 2**","choice_8":"**1) 共享权重。 **2) 答案 1**","choice_9":"**1) 加权 CE·Focal 缓解不平衡。 **2) 答案 2**","concept_0":"**1) down-weight 易多数。 **2) 答案 2**","concept_1":"**1) margin 保证间隔。 **2) 答案 2**","concept_2":"**1) $\\max(0,1-4+0.5)=0$。 **2) 答案 3**","concept_3":"**1) $1000/(2\\cdot200)=2.5$→×10=25。 **2) 答案 2**","concept_4":"**1) $0.1^2=0.01$→×1000=10。 **2) 答案 1**","concept_5":"**1) 未注册 ID 比距离。 **2) 答案 1**","concept_6":"**1) $p$ 高→$(1-p)^\\gamma$ 小。 **2) 答案 2**","concept_7":"**1) 余弦=方向。 **2) 答案 1**","concept_8":"**1) 过大→少数过拟合。 **2) 答案 2**","concept_9":"**1) Triplet: a–p 近、a–n 超 margin。 **2) 答案 2**","calc_0":"**1) $1000/(2\\cdot100)=5$。 **2) 答案 ②**","calc_1":"**1) $0.2^2=0.04$→×1000=40。 **2) 答案 ②**","calc_2":"**1) $3\\times0.2=0.6$→×10=6。 **2) 答案 ②**","calc_3":"**1) $\\max(0,2-5+1)=0$。 **2) 答案 ①**","calc_4":"**1) $\\sqrt{9+16}=5$。 **2) 答案 ②**","calc_5":"**1) $950/50=19$。 **2) 答案 ③**","calc_6":"**1) $\\max(0,1.2-1.5+0.2)=0$。 **2) 答案 ①**","calc_7":"**1) $(1-p)^0=1$→×100=100。 **2) 答案 ③**","calc_8":"**1) $0.5\\times0.16\\times100=8$。 **2) 答案 ②**","calc_9":"**1) $1000/(2\\cdot400)=1.25$→×100=125。 **2) 答案 ②**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 2\nassert answer == 2","definition_2":"answer = 2\nassert answer == 2","definition_3":"answer = 2\nassert answer == 2","definition_4":"answer = 2\nassert answer == 2","definition_5":"answer = 2\nassert answer == 2","definition_6":"answer = 1\nassert answer == 1","definition_7":"answer = 2\nassert answer == 2","definition_8":"answer = 1\nassert answer == 1","definition_9":"answer = 2\nassert answer == 2","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 1\nassert answer == 1","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 1\nassert answer == 1","trueFalse_6":"answer = 0\nassert answer == 0","trueFalse_7":"answer = 1\nassert answer == 1","trueFalse_8":"answer = 0\nassert answer == 0","trueFalse_9":"answer = 0\nassert answer == 0","scenario_0":"answer = 2\nassert answer == 2","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 2\nassert answer == 2","choice_0":"answer = 2\nassert answer == 2","choice_1":"answer = 2\nassert answer == 2","choice_2":"answer = 1\nassert answer == 1","choice_3":"answer = 2\nassert answer == 2","choice_4":"answer = 1\nassert answer == 1","choice_5":"answer = 2\nassert answer == 2","choice_6":"answer = 2\nassert answer == 2","choice_7":"answer = 2\nassert answer == 2","choice_8":"answer = 1\nassert answer == 1","choice_9":"answer = 2\nassert answer == 2","concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 3\nassert answer == 3","concept_3":"answer = 2\nassert answer == 2","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","concept_6":"answer = 2\nassert answer == 2","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 2\nassert answer == 2","concept_9":"answer = 2\nassert answer == 2","calc_0":"n_a, n_b, N, K = 900, 100, 1000, 2\nw_b = N // (K * n_b)\nanswer = 2 if w_b == 5 else 0\nassert answer == 2","calc_1":"p, gamma = 0.8, 2\nval = int(round(((1 - p) ** gamma) * 1000))\nanswer = 2 if val == 40 else 0\nassert answer == 2","calc_2":"w, ce = 3, 0.2\nval = int(round(w * ce * 10))\nanswer = 2 if val == 6 else 0\nassert answer == 2","calc_3":"dap, dan, alpha = 2, 5, 1\nloss = max(0, dap - dan + alpha)\nanswer = 1 if loss == 0 else 0\nassert answer == 1","calc_4":"import math\nanswer = 2 if int(round(math.sqrt(3**2 + 4**2))) == 5 else 0\nassert answer == 2","calc_5":"n_a, n_b = 950, 50\nratio = n_a // n_b\nanswer = 3 if ratio == 19 else 0\nassert answer == 3","calc_6":"dap, dan, alpha = 1.2, 1.5, 0.2\nloss = int(round(max(0, dap - dan + alpha) * 100))\nanswer = 1 if loss == 0 else 0\nassert answer == 1","calc_7":"p, gamma = 0.7, 0\nval = int(round(((1 - p) ** gamma) * 100))\nanswer = 3 if val == 100 else 0\nassert answer == 3","calc_8":"d = 0.4\nval = int(round(0.5 * d * d * 100))\nanswer = 2 if val == 8 else 0\nassert answer == 2","calc_9":"n_b, N, K = 400, 1000, 2\nw_b = N / (K * n_b)\nval = int(round(w_b * 100))\nanswer = 2 if val == 125 else 0\nassert answer == 2"},"problemDifficulty":{"definition_0":"easy","definition_1":"easy","definition_2":"easy","definition_3":"easy","definition_4":"easy","definition_5":"easy","definition_6":"easy","definition_7":"easy","definition_8":"easy","definition_9":"easy","trueFalse_0":"easy","trueFalse_1":"easy","trueFalse_2":"easy","trueFalse_3":"easy","trueFalse_4":"easy","trueFalse_5":"easy","trueFalse_6":"easy","trueFalse_7":"easy","trueFalse_8":"easy","trueFalse_9":"easy","scenario_0":"medium","scenario_1":"medium","scenario_2":"medium","scenario_3":"medium","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","choice_0":"medium","choice_1":"medium","choice_2":"medium","choice_3":"medium","choice_4":"medium","choice_5":"medium","choice_6":"medium","choice_7":"medium","choice_8":"medium","choice_9":"medium","concept_0":"hard","concept_1":"hard","concept_2":"hard","concept_3":"hard","concept_4":"hard","concept_5":"hard","concept_6":"hard","concept_7":"hard","concept_8":"hard","concept_9":"hard","calc_0":"hard","calc_1":"hard","calc_2":"hard","calc_3":"hard","calc_4":"hard","calc_5":"hard","calc_6":"hard","calc_7":"hard","calc_8":"hard","calc_9":"hard"},"problemOrder":["definition_0","definition_1","definition_2","definition_3","definition_4","definition_5","definition_6","definition_7","definition_8","definition_9","trueFalse_0","trueFalse_1","trueFalse_2","trueFalse_3","trueFalse_4","trueFalse_5","trueFalse_6","trueFalse_7","trueFalse_8","trueFalse_9","scenario_0","scenario_1","scenario_2","scenario_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","choice_0","choice_1","choice_2","choice_3","choice_4","choice_5","choice_6","choice_7","choice_8","choice_9","concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","concept_6","concept_7","concept_8","concept_9","calc_0","calc_1","calc_2","calc_3","calc_4","calc_5","calc_6","calc_7","calc_8","calc_9"]},"midDlCh05":{"chapter":"Chapter 05","title":"防止过拟合与正则化：学会理解，而非死记","description":"想象一个学生**背下所有旧题**得 100 分，但换一张数字稍变的卷子就 0 分。AI 也会陷入同样的**过拟合(overfitting)**陷阱：train 上完美，未见过的 val/test 上骤降。\n\n若前几章学了优化与训练，本章则教模型灵活**泛化(generalization)**——而非死记。按步骤学习 **L2 正则化**、**Dropout**、**早停**、**数据增强**。\n\n**※注意：** 其他章的 Batch Normalization（缩放激活）与本章 Regularization（防过拟合）中文都叫「正则化」，但**角色完全不同**！","sectionTitle":"防止过拟合与正则化：学会理解，而非死记","whatIs":{"0":"**1. 什么是过拟合？（练习题满分，实战不及格）**\n\n**概念：** 模型不仅学到模式，还把**噪声和琐碎细节整段背下**。面对全新数据时无法灵活应对，性能急降。\n\n**直观比喻：** 驾照考试只背「第二棵树右转」的人，上真路会出事——背的是情境，不是原理。\n\n**实践提示：** train loss 一直降而 val loss 开始升，就是过拟合。两者差距叫**泛化差距**，缩小它是本章目标。","1":"**2. L2 正则化 / Weight decay — 超重行李罚款**\n\n**概念：** 权重过大时对小噪声过敏而过拟合。在损失中加入与权重大小成比例的**罚金**。\n\n**核心公式：** $Loss + \\frac{\\lambda}{2}\\|w\\|^2$\n\n**公式说明：** 在原有误差后加上权重($w$)大小的罚分。$\\lambda$ 控制罚金力度——越大越倾向小权重。\n\n**直观比喻：** 航空行李限重——越重附加费（罚分）越高，只带必需品。\n\n**实践提示：** $\\lambda$ **过大**会**欠拟合**。边看 val 边慢慢调。","2":"**3. Dropout — 随机缺员训练**\n\n**概念：** 训练时以概率 $p$ **暂时关闭**神经元，避免过度依赖少数神经元，让全网均衡学特征。\n\n**直观比喻：** 国家队训练随机让王牌休息，逼全队协作得分。\n\n**实践提示：** $p$ 常用 $0.2$~$0.5$。训练时剩余输出按 $1/(1-p)$ 缩放。**推理时必须 100% 启用神经元**。","3":"**4. 早停与数据增强 — 适时停下，多看花样**\n\n**概念与比喻：**\n\n- **早停：** 配方写 30 分钟但闻到焦味就关烤箱。val 不再改善就停训，**保存最佳状态**。\n\n- **数据增强：** 翻转、旋转、裁剪猫图仍是猫。略作变形增加有效训练量——像换数字练数学题。\n\n**实践提示：** 数据少时优先用**增强**增多样性。不要把 val 并入 train。"},"whyImportant":{"0":"**1. 筛掉「井底之蛙」模型**\n\ntrain 99% 但 val/test 仅 60% 在实务中无用。真本事是**泛化**，本章技法能放大它。","1":"**2. 奥卡姆剃刀：越简单越稳**\n\nL2 与 Dropout 阻止模型自造**不必要的复杂规则**。正则化后的简单模型更稳、更可信。","2":"**3. 实务 AI 的必备安全带**\n\n**划分 train/val**、**早停**、**weight decay** 不是可选项——没有它们就像没刹车开车。"},"howUsed":{"0":"**① 诊断：是否过拟合？**\n\n实务中最常见的情况是：train 上准确率很高、loss 也在降，但 val 偏偏很差。就像练习题满分、模考却不及格的学生。在急着把模型做大或加 epoch 之前，应先**确认是不是过拟合**。\n\n把 train 和 val 的 loss 画在同一张图上。若 train 一直变好而 val 从某一刻起开始变差，那就是**泛化差距**拉开的起点。确认后加上 L2 或 Dropout 抑制过度复杂，并设置早停，在 val 进一步恶化前结束训练。","1":"**② 调 L2 与 Dropout**\n\n打开正则化只是第一步，**力度**才是关键。L2 的罚金 $\\lambda$ 宜从 $0.0001$ 这类很小的值起步，边看 val 边慢慢加大。一开始罚太重，模型可能还没学到有用规律就萎缩成**欠拟合**。\n\nDropout 通常在训练时关掉约 20%~50% 的神经元来试。**推理和线上评估时必须关闭 dropout**，启用全部神经元。记住训练与推理行为不同，能避免很多部署失误。","2":"**③ 聪明的早停**\n\n早停让 **val 来决定何时停训**。每个 epoch 记录 val loss，并**保存迄今 val 最好的权重**。val 不再改善就停止，部署时用的应是**val 最佳那次**的模型，而不一定是最后一个 epoch。\n\n**patience**（常见 5~20）表示「val 暂时变差也不马上停，再多观察几个 epoch」。曲线会有波动，patience 能避免被偶然低谷骗到过早停训。","3":"**④ 数据为王**\n\nL2、Dropout、早停都有用，但减轻过拟合最稳妥的办法仍是**拿到更多好数据**。样本够多、够多样，模型就没那么容易把噪声也背下来。\n\n若一时无法增采，就用旋转、裁剪、翻转等**数据增强**，从现有样本造出略有不同的版本。就像从不同角度看同一只猫，有助于更广的泛化。实务里，在改复杂结构之前，往往先**扩数据或做增强**更有效。"},"problemSolving":{"0":"本章题目可分为两条线：**过拟合诊断**与**正则化方法选择**。怀疑过拟合时，先看 train 与 val（或 test）之间的**性能差距**。train 精度或损失很好而 val 很差，说明模型可能在**死背**训练数据。此时应优先尝试 **L2/weight decay、Dropout、早停、数据增强**，而不是一味加大模型。\n\n若 train·val **都差**，多半是**欠拟合**——模型太小、训练不足，或正则化**过强**。可考虑加大模型、增加 epoch、调学习率，并**降低** $\\lambda$ 与 dropout 比例。\n\n**L2 / weight decay** 在损失中加入 $\\frac{\\lambda}{2}\\|w\\|^2$ 罚项，防止权重过大。**Dropout** 在训练时随机关闭部分神经元，减轻对少数路径的依赖（co-adaptation），但**推理与评估时必须使用全部神经元**。**早停** 在 val 连续 **patience** 个 epoch 无改善时停止，并保存 val 最佳权重。**数据增强** 增加训练样本多样性，减轻记忆。\n\n请区分 **批归一化(Batch Normalization)** 与 **防过拟合正则化（L2、Dropout 等）**。批归一化按层稳定激活的均值/方差；L2 与 Dropout 旨在**抑制过拟合与大权重**。题干若出现 train–val 差距、patience、weight decay、dropout $p$、推理阶段等关键词，多半在本章范围内。","2":"**定义题**要先想“这组指标代表什么”。“过拟合**最常见**的模式？”① 都差→欠拟合；③ 都完美→不现实。**② train 好、val/test 差** 是典型过拟合→**答案 2**。\n\n“早停**最合适**的判据？”① 只看 train loss 会继续记忆；③ 无限 epoch 违背早停目的。**val loss 或 val 指标不再改善时停止**（②）→**答案 2**。\n\n“**诊断**过拟合时先看什么？”→ 仅看 GPU(①) 或 epoch 数(③) 不够。**train–validation 性能差**(②) 最直接→**答案 2**。\n\n---\n\n**应用题**先读数字与情境。“train 准确率 99%，val 55%”几乎可判定过拟合。加大模型(①) 往往更糟；删 val set(③) 只是掩盖问题。应优先 **正则化·早停·增强**(②)→**答案 2**。\n\n“train loss 持续↓但 val loss 从 epoch 20 起↑”→ **早停并保存最佳 val 权重**(①) 优于学习率×10(②) 或关 dropout 继续训(③)→**答案 1**。\n\n“已用 L2 与 dropout 但 val 仍差”→ 与其把 $\\lambda$ 放大 100 倍，不如尝试 **数据增强 + 带 patience 的早停**(①)→**答案 1**。\n\n---\n\n**计算题**按公式逐步代入。$\\frac{\\lambda}{2}(w_1^2+w_2^2)$，$\\lambda=2$, $w_1=3$, $w_2=4$ 得 $\\frac{2}{2}(9+16)=25$→**答案 ②**","3":"**判断题** — “Dropout **在推理时**也以同样比例关闭神经元”是常见误解。随机 mask 仅用于**训练**；推理时用**全部神经元**→**错(0)**。\n\n“Weight decay 与 L2 正则密切相关”→ 都用于抑制权重大小→**对(1)**。\n\n“$\\lambda$ 越大 test 一定越好”→ 过大会**欠拟合**→**错(0)**。\n\n---\n\n**选择题** — “L2 加入损失的形式？”→ 标准形为 $L_{\\text{data}}+\\frac{\\lambda}{2}\\|w\\|^2$→**答案 1**。\n\n“L2 与 weight decay 的关系？”→ 实务中目的一致（抑制权重）→ **L2 ≈ weight decay**，**答案 2**。\n\n---\n\n**概念题** — dropout $p=0.5$ 时训练尺度 $1/(1-p)=2$→**答案 2**。\n\n“patience=5”表示 val 连续 5 epoch 无改善则**考虑停止**，并非立即删除模型→**答案 2**。\n\n“**批归一化** vs **防过拟合正则化(L2·Dropout)**”→ 后者针对**过拟合与权重**；批归一化规范**激活尺度**，二者不同(①) 也非无关(③)→**答案 2**。\n\n“weight decay 的直接作用？”→ **抑制权重大小**(①)。\n\n---\n\n**计算题** — $p=0.2$ 时尺度 $1/(1-0.2)=1.25$；输出 100→$100\\times1.25=125$→**答案 ②**。\n\n$\\lambda=2$, $w_1=1$, $w_2=2$ 时 $\\frac{\\lambda}{2}(w_1^2+w_2^2)=\\frac{2}{2}(1+4)=5$→**答案 ②**"},"summary":"本章核心可以概括为：别让模型**死背 train 数据**，而要提升**面对新数据时的泛化能力**。因此我们学习了 L2 正则化、Dropout、早停和数据增强。\n\n怀疑过拟合时，先看 train 与 val 之间的**性能差距**。L2 对大权重罚分，让模型保持简单；Dropout 只在训练时随机关闭神经元，减轻对少数路径的依赖，而推理时要**全开神经元**来评估。早停在 val 不再变好时停训，并保留 val 最佳那一刻的权重。\n\n实务上，在改模型结构或一口气调很多超参之前，应优先考虑**增数据或做增强**。调整 $\\lambda$、dropout 比例、patience 时，最好**一次只动一项**，观察 val 如何变化，才能清楚知道究竟是哪一步起了作用。","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"如何使用","summary":"总结"},"formulaGuide":{"title":"正则化速览","overfitGap":"**过拟合差距** — train 好但 val/test 差时怀疑过拟合。\n\n**通俗说明：** 练习题(train)满分、新题(val)突然崩——**死记**信号。train loss↓ 而 val loss↑ 更要怀疑过拟合。\n\n**核心信号:** train loss↓, val loss↑\n\n**符号** — **泛化差距**=train 与 val 性能之差。大→死记；小且 val 好→泛化佳。\n\n**数值例:** train 99%, val 60% → 差距 39%p。\n\n**比喻:** 只背考场口诀——同一路线满分，新路不及格。","l2WeightDecay":"**L2 / Weight decay** — 惩罚大权重。\n\n**通俗说明：** 权重「行李」太重会对噪声过敏。损失里加**越重罚越多**，逼模型轻装。\n\n**核心公式:** $L = L_{\\text{data}} + \\frac{\\lambda}{2}\\sum_i w_i^2$\n\n**公式说明** — $L_{\\text{data}}$ 是原误差。$\\lambda$ 是罚金强度。$w_i^2$ 随权重大小增长——**越大罚越多**。\n\n**数值例:** $\\lambda=2$, $w_1=3$, $w_2=4$ → L2 项=25。\n\n**比喻:** 行李超重费。","dropout":"**Dropout** — 训练时随机关闭神经元。\n\n**通俗说明：** 每次换不同队员休息，不让单个神经元包办一切。**推理时全员上场**——不能像训练时那样关。\n\n**核心:** 训练 $p$ 关闭 · 缩放 $1/(1-p)$ · 推理无 mask\n\n**公式说明** — $p$ 为关闭率(0.2~0.5)。$1/(1-p)$ 放大剩余激活以匹配期望。\n\n**数值例:** $p=0.5$ → 缩放 2。\n\n**比喻:** 没有王牌也能进球的国家队训练。","earlyStop":"**早停** — val 不再改善则停止。\n\n**通俗说明：** 饼干焦前关烤箱；保存**val 最佳**模型，不必跑满 epoch。\n\n**核心:** 保存**最佳 val** checkpoint · **patience** epoch 无改善则停\n\n**公式说明** — **patience**=「再等 N 个 epoch」——避免被偶然波动骗早停。\n\n**数值例:** val 最低在 epoch 12 → 用该附近权重部署。\n\n**比喻:** 保留最好成绩再停马拉松。"},"visual":"","problemSolvingLabel":"解题方法说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"从 **60 题题库**随机抽取 **5 题**(易 2·中 2·难 1，顺序易→中→难)。请选择选项编号。","practiceProblemsInstruction":"阅读题目并选择最合适的选项。","midDlCh05VisualIntro":"下方 2×2 图展示**四种正则化**如何改变**应用前→应用后**。","midDlCh05VisualConceptTitle":"正则化 2×2：Train/Val · Dropout · L2 · 增强","midDlCh05VisualFlowTitle":"泛化而非死记 — 曲线、权重、神经元、数据","midDlCh05VisualModelTitle":"止过拟合：停、缩、多样","midDlCh05VisualPanelTrainVal":"Train / Val & Early Stop","midDlCh05VisualPanelDropout":"Dropout","midDlCh05VisualPanelL2":"L2 Weight Decay","midDlCh05VisualPanelAug":"Data Augmentation","midDlCh05VisualLabelBefore":"应用前","midDlCh05VisualLabelAfter":"应用后","midDlCh05VisualLabelStop":"停止","midDlCh05VisualCaption":"每格 **应用前(左)→应用后(右)**。**Train/Val**：val 上升时早停；**Dropout**：训练关神经元、推理全开；**L2**：权重收缩；**增强**：边界更平滑。","problems":{"definition_0":"过拟合(overfitting)中**最**常见的模式是?\n1) train·val 都很差\n2) **train 好但 val/test 差**\n3) train·val 都完美","definition_1":"L2 正则化(weight decay)的核心目的是?\n1) 学习率设为 0\n2) **对大权重施加惩罚，引导更简单、稳定的模型**\n3) 只增大 batch size","definition_2":"最接近 Dropout 核心思想的是?\n1) 推理时随机关闭神经元\n2) **训练时关闭部分神经元以减轻共适应(co-adaptation)**\n3) 始终将权重固定为 0","definition_3":"Early stopping(早停)的**最**合适标准是?\n1) 仅 train loss\n2) **validation loss（或 val 指标）不再改善时**\n3) 无限 epoch","definition_4":"最接近 weight decay(权重衰减)作用的是?\n1) **每步缩小、抑制权重**\n2) 跳过反向传播\n3) 删除数据","definition_5":"数据增强(data augmentation)的主要效果是?\n1) 仅提升 GPU 速度\n2) **增加有效训练数据多样性以减轻记忆**\n3) 将 val set 并入 train","definition_6":"泛化(generalization)差距(generalization gap)是指?\n1) GPU 内存差异\n2) **train 与 val/test 性能之差**\n3) batch size 差异","definition_7":"最接近欠拟合(underfitting)的情况是?\n1) train 99%, val 98%\n2) **train·val 性能都低**\n3) train 50%, val 99%","definition_8":"**诊断**过拟合时最先应看什么?\n1) 仅 GPU 利用率\n2) **train 与 validation 的性能差距**\n3) 仅 epoch 数","definition_9":"**推理(inference)** 时 Dropout 的正确处理是?\n1) 像训练一样随机关闭\n2) **使用全部神经元（无随机 mask）**\n3) 保持网络为训练模式","trueFalse_0":"[正误] 过拟合是 train 拟合好但新数据(val)拟合差的现象。对则 1，错则 0。","trueFalse_1":"[正误] L2 正则化可在损失中加入 $\\frac{\\lambda}{2}\\|w\\|^2$ 项。对则 1，错则 0。","trueFalse_2":"[正误] Dropout **在训练时**随机停用部分神经元。对则 1，错则 0。","trueFalse_3":"[正误] Dropout **在推理时**也以相同比例关闭神经元。对则 1，错则 0。","trueFalse_4":"[正误] Early stopping 可监控 validation 性能来停止训练。对则 1，错则 0。","trueFalse_5":"[正误] 增加训练数据或增强有助于缓解过拟合。对则 1，错则 0。","trueFalse_6":"[正误] Weight decay 与 L2 正则化密切相关。对则 1，错则 0。","trueFalse_7":"[正误] 无条件增大 $\\lambda$ 总会提升 test 性能。对则 1，错则 0。","trueFalse_8":"[正误] 数据增强有助于减少只记忆 train 样本。对则 1，错则 0。","trueFalse_9":"[正误] 欠拟合可能出现在模型过简或训练不足时。对则 1，错则 0。","scenario_0":"[应用] train 准确率 99%, val 55%。**首先**尝试? ① 加大模型/层 ② **正则化、early stopping、数据增强** ③ 删除 val set","scenario_1":"[应用] train loss 持续↓但 val loss 从 epoch 20 起↑。最合理措施? ① **Early stopping（保存最优 val 时点）** ② 学习率 ×10 ③ 关闭 dropout 继续训练","scenario_2":"[应用] 500 张图像、深 CNN 严重过拟合。优先组合? ① dropout 0 + 更大模型 ② **数据增强 + dropout/L2** ③ 合并 train=val","scenario_3":"[应用] 已用 L2(λ=0.001)和 dropout(p=0.3)但 val 仍差。**下一步**最合理? ① **加数据增强与带 patience 的早停** ② λ 放大 100 倍 ③ 关 dropout、只加 10 倍 epoch","scenario_4":"[应用] 权重 norm 爆炸性增大。适当应对? ① **加强 L2/weight decay** ② 去掉正则化 ③ 忽略 val","scenario_5":"[应用] 连 train 样本标签噪声都记住了。可能有效的是? ① **正则化、增强、缩小模型** ② 只在 train 上更久 ③ dropout 0","scenario_6":"[应用] 与**批归一化(Batch Normalization)** 混淆。**防过拟合正则化(regularization)** 的目的是? ① **防过拟合、抑制权重** ② 每层均值 0 方差 1 ③ 省 GPU 内存","scenario_7":"[应用] dropout $p=0.5$ 训练时输出尺度校正? ① 只乘 $1-p$ ② **对活性神经元乘 $1/(1-p)$** ③ 无尺度","scenario_8":"[应用] train 98%、val 52% 却只想改学习率。**应优先**? ① **检查数据、正则化、早停** ② 关 dropout 继续训 ③ 删 val 集","scenario_9":"[应用] 少量医学图像分类。缓解数据不足? ① **旋转、翻转等增强** ② val 并入 train ③ 仅模型 ×10","choice_0":"怀疑过拟合时**优先**检查? ① 仅 train accuracy ② **train–val 差距、正则化、数据** ③ GPU 温度","choice_1":"Dropout 率 $p$ 常用值? ① 0.01 ② **约 0.5** ③ 0.99","choice_2":"最接近 L2 正则化损失形式的是? ① **$L_{\\text{data}}+\\frac{\\lambda}{2}\\|w\\|^2$** ② $L_{\\text{data}}-\\|w\\|^2$ ③ 仅 CE","choice_3":"Early stopping 保存的模型是? ① 最后 epoch ② **val 指标最优时点** ③ train loss 最小","choice_4":"L2 正则化与 weight decay 的关系? ① 完全无关 ② **密切相关(抑制权重大小)** ③ 与 dropout 相同","choice_5":"欠拟合时尝试? ① 只增大 $\\lambda$ ② **增大容量、训练、数据** ③ 立即 early stop","choice_6":"合适的图像数据增强例子? ① **旋转、水平翻转、裁剪** ② 改 val 标签 ③ 权重固定为 0","choice_7":"$$\\lambda$ **过**大时? ① 总是更好 ② **欠拟合、性能下降** ③ 忽略 val","choice_8":"泛化性能是指? ① 仅 train loss ② **未见数据上的性能** ③ epoch 数","choice_9":"Dropout 集成直觉? ① 一个固定子网 ② **每步训练不同子网络** ③ 推理时随机关闭","concept_0":"train loss 0.05, val loss 0.8 则? ① 欠拟合 ② **怀疑过拟合** ③ 完美泛化","concept_1":"增大 $\\lambda$ 使 L2 项? ① 变小 ② **变大、加强权重抑制** ③ 不变","concept_2":"dropout $p=0.5$ 时训练尺度 $1/(1-p)$(整数)是? ① 1 ② **2** ③ 4","concept_3":"$$\\lambda=2$, $w_1=1$, $w_2=2$ 时 L2 项 $\\frac{\\lambda}{2}(w_1^2+w_2^2)$(整数)是? ① 3 ② **5** ③ 8","concept_4":"patience=5 表示 val 连续 5 epoch 无改善则? ① 立即停止 ② **考虑停止** ③ 只看 train","concept_5":"推理时 dropout? ① 保持随机 mask ② **使用全部神经元** ③ 学习率 0","concept_6":"train·val accuracy 均为 55%? ① 过拟合 ② **欠拟合** ③ 完美","concept_7":"weight decay 的直接效果是? ① **抑制权重大小** ② batch norm ③ 去掉损失","concept_8":"**批归一化**与**防过拟合正则化(L2·dropout 等)** 的区别? ① 相同 ② **后者针对过拟合/权重，前者调激活尺度** ③ 无关","concept_9":"val loss 开始上升时? ① 无条件继续 ② **审查 early stop、正则化** ③ 删除 val","calc_0":"[计算] $\\lambda=2$, $w_1=3$, $w_2=4$ 时 $\\frac{\\lambda}{2}(w_1^2+w_2^2)$(整数)是?\n① 15\n② **25**\n③ 35\n④ 50","calc_1":"[计算] dropout $p=0.5$ 时 $1/(1-p)\\times 10$(整数)是?\n① 10\n② **20**\n③ 30\n④ 40","calc_2":"[计算] $\\lambda=4$, $w=3$ 时 $\\frac{\\lambda}{2}w^2$(整数)是?\n① 9\n② **18**\n③ 27\n④ 36","calc_3":"[计算] dropout $p=0.2$ 时 $1/(1-p)\\times 100$(整数)是?\n① 100\n② **125**\n③ 150\n④ 200","calc_4":"[计算] $\\lambda=2$, $w_1=2$, $w_2=1$ 时 L2 项(整数)是?\n① **5**\n② 6\n③ 8\n④ 10","calc_5":"[计算] $\\lambda=0.01$, $\\|w\\|^2=100$ 时 L2 项$\\times 100$(整数)是?\n① 25\n② 40\n③ **50**\n④ 100","calc_6":"[计算] dropout $p=0.8$ 时 $1/(1-p)$(整数)是?\n① 2\n② 3\n③ 4\n④ **5**","calc_7":"[计算] $\\lambda=2$, $w_1=1$, $w_2=2$, $w_3=2$ 时 L2 项(整数)是?\n① **9**\n② 10\n③ 12\n④ 16","calc_8":"[计算] train acc 99%, val 60% vs train 70%, val 68%。更接近过拟合的是?\n① 后者 ② **前者** ③ 都欠拟合","calc_9":"[计算] val loss 最小在 epoch 12，early stopping 保存?\n① epoch 50 ② **epoch 12 附近最优** ③ train 最小 ④ 随机"},"problemAnswers":{"definition_0":2,"definition_1":2,"definition_2":2,"definition_3":2,"definition_4":1,"definition_5":2,"definition_6":2,"definition_7":2,"definition_8":2,"definition_9":2,"trueFalse_0":1,"trueFalse_1":1,"trueFalse_2":1,"trueFalse_3":0,"trueFalse_4":1,"trueFalse_5":1,"trueFalse_6":1,"trueFalse_7":0,"trueFalse_8":1,"trueFalse_9":1,"scenario_0":2,"scenario_1":1,"scenario_2":2,"scenario_3":1,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":2,"scenario_8":1,"scenario_9":1,"choice_0":2,"choice_1":2,"choice_2":1,"choice_3":2,"choice_4":2,"choice_5":2,"choice_6":1,"choice_7":2,"choice_8":2,"choice_9":2,"concept_0":2,"concept_1":2,"concept_2":2,"concept_3":2,"concept_4":2,"concept_5":2,"concept_6":2,"concept_7":1,"concept_8":2,"concept_9":2,"calc_0":2,"calc_1":2,"calc_2":2,"calc_3":2,"calc_4":1,"calc_5":3,"calc_6":4,"calc_7":1,"calc_8":2,"calc_9":2},"problemSolutions":{"definition_0":"**1) 概念：** 过拟合是 train 好但 val/test 差。 **2) 例：** train 99%, val 55%。 **3) 答案 2**","definition_1":"**1) L2 惩罚大权重。 **2) 答案 2**","definition_2":"**1) Dropout 训练时随机关闭神经元。 **2) 答案 2**","definition_3":"**1) Early stop 以 val 指标为准。 **2) 答案 2**","definition_4":"**1) Weight decay 缩小权重。 **2) 答案 1**","definition_5":"**1) 增强提高数据多样性。 **2) 答案 2**","definition_6":"**1) 差距=train–val 性能差。 **2) 答案 2**","definition_7":"**1) 两者都低→欠拟合。 **2) 答案 2**","definition_8":"**1) 用 train–val 差距诊断过拟合。 **2) 答案 2**","definition_9":"**1) 推理使用全部神经元。 **2) 答案 2**","trueFalse_0":"过拟合=train 好、val 差。 **答案 1**","trueFalse_1":"L2 项 $\\frac{\\lambda}{2}\\|w\\|^2$。 **答案 1**","trueFalse_2":"Dropout 在训练时应用。 **答案 1**","trueFalse_3":"推理时关闭 dropout。 **答案 0**","trueFalse_4":"Early stop 监控 val。 **答案 1**","trueFalse_5":"更多数据/增强有帮助。 **答案 1**","trueFalse_6":"Weight decay≈L2。 **答案 1**","trueFalse_7":"$$\\lambda$ 过大可致欠拟合。 **答案 0**","trueFalse_8":"增强减轻记忆。 **答案 1**","trueFalse_9":"欠拟合=过简/训练不足。 **答案 1**","scenario_0":"**1) 差距大→正则化、early stop。 **2) 答案 2**","scenario_1":"**1) val↑→early stopping。 **2) 答案 1**","scenario_2":"**1) 少量数据→增强+dropout/L2。 **2) 答案 2**","scenario_3":"**1) 正则化后仍差→增强·早停。 **2) 答案 1**","scenario_4":"**1) norm 爆炸→加强 L2。 **2) 答案 1**","scenario_5":"**1) 噪声记忆→正则化、缩小。 **2) 答案 1**","scenario_6":"**1) 防过拟合正则化=权重与过拟合。 **2) 答案 1**","scenario_7":"**1) 尺度 $1/(1-p)$。 **2) 答案 2**","scenario_8":"**1) 过拟合优先数据·正则·早停。 **2) 答案 1**","scenario_9":"**1) 少量医学数据→增强。 **2) 答案 1**","choice_0":"**1) 检查 train–val 差距。 **2) 答案 2**","choice_1":"**1) p≈0.5。 **2) 答案 2**","choice_2":"**1) L_data+λ/2||w||²。 **2) 答案 1**","choice_3":"**1) 保存 val 最优时点。 **2) 答案 2**","choice_4":"**1) L2≈weight decay。 **2) 答案 2**","choice_5":"**1) 欠拟合→容量、训练↑。 **2) 答案 2**","choice_6":"**1) 旋转、翻转、裁剪。 **2) 答案 1**","choice_7":"**1) λ 过大→欠拟合。 **2) 答案 2**","choice_8":"**1) 未见数据性能。 **2) 答案 2**","choice_9":"**1) 子网络集成。 **2) 答案 2**","concept_0":"**1) val loss 大→过拟合。 **2) 答案 2**","concept_1":"**1) λ↑→L2 项↑。 **2) 答案 2**","concept_2":"**1) $1/0.5=2$。 **2) 答案 2**","concept_3":"**1) $0.5\\cdot2\\cdot(1+4)=5$。 **2) 答案 2**","concept_4":"**1) patience=无改善 epoch 数。 **2) 答案 2**","concept_5":"**1) 推理=全部激活。 **2) 答案 2**","concept_6":"**1) 两者都低→欠拟合。 **2) 答案 2**","concept_7":"**1) 权重抑制。 **2) 答案 1**","concept_8":"**1) 正则化 vs norm 层区分。 **2) 答案 2**","concept_9":"**1) val↑→审查 stop。 **2) 答案 2**","calc_0":"**1) $0.5\\cdot2\\cdot(9+16)=25$。 **2) 答案 ②**","calc_1":"**1) $1/0.5\\times10=20$。 **2) 答案 ②**","calc_2":"**1) $0.5\\cdot4\\cdot9=18$。 **2) 答案 ②**","calc_3":"**1) $1/0.8\\times100=125$。 **2) 答案 ②**","calc_4":"**1) $0.5\\cdot2\\cdot(4+1)=5$。 **2) 答案 ①**","calc_5":"**1) $0.5\\cdot0.01\\cdot100\\times100=50$。 **2) 答案 ③**","calc_6":"**1) $1/0.2=5$。 **2) 答案 ④**","calc_7":"**1) $0.5\\cdot2\\cdot(1+4+4)=9$。 **2) 答案 ①**","calc_8":"**1) train 99% val 60% 差距更大。 **2) 答案 ②**","calc_9":"**1) 保存 val 最小 epoch。 **2) 答案 ②**"},"problemTestCodes":{"definition_0":"answer = 2\nassert answer == 2","definition_1":"answer = 2\nassert answer == 2","definition_2":"answer = 2\nassert answer == 2","definition_3":"answer = 2\nassert answer == 2","definition_4":"answer = 1\nassert answer == 1","definition_5":"answer = 2\nassert answer == 2","definition_6":"answer = 2\nassert answer == 2","definition_7":"answer = 2\nassert answer == 2","definition_8":"answer = 2\nassert answer == 2","definition_9":"answer = 2\nassert answer == 2","trueFalse_0":"answer = 1\nassert answer == 1","trueFalse_1":"answer = 1\nassert answer == 1","trueFalse_2":"answer = 1\nassert answer == 1","trueFalse_3":"answer = 0\nassert answer == 0","trueFalse_4":"answer = 1\nassert answer == 1","trueFalse_5":"answer = 1\nassert answer == 1","trueFalse_6":"answer = 1\nassert answer == 1","trueFalse_7":"answer = 0\nassert answer == 0","trueFalse_8":"answer = 1\nassert answer == 1","trueFalse_9":"answer = 1\nassert answer == 1","scenario_0":"answer = 2\nassert answer == 2","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 2\nassert answer == 2","scenario_3":"answer = 1\nassert answer == 1","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 2\nassert answer == 2","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","choice_0":"answer = 2\nassert answer == 2","choice_1":"answer = 2\nassert answer == 2","choice_2":"answer = 1\nassert answer == 1","choice_3":"answer = 2\nassert answer == 2","choice_4":"answer = 2\nassert answer == 2","choice_5":"answer = 2\nassert answer == 2","choice_6":"answer = 1\nassert answer == 1","choice_7":"answer = 2\nassert answer == 2","choice_8":"answer = 2\nassert answer == 2","choice_9":"answer = 2\nassert answer == 2","concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 2\nassert answer == 2","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 2\nassert answer == 2","concept_6":"answer = 2\nassert answer == 2","concept_7":"answer = 1\nassert answer == 1","concept_8":"answer = 2\nassert answer == 2","concept_9":"answer = 2\nassert answer == 2","calc_0":"lam, w1, w2 = 2, 3, 4\nval = int(0.5 * lam * (w1**2 + w2**2))\nanswer = 2 if val == 25 else 0\nassert answer == 2","calc_1":"p = 0.5\nval = int(1 / (1 - p) * 10)\nanswer = 2 if val == 20 else 0\nassert answer == 2","calc_2":"lam, w = 4, 3\nval = int(0.5 * lam * w**2)\nanswer = 2 if val == 18 else 0\nassert answer == 2","calc_3":"p = 0.2\nval = int(1 / (1 - p) * 100)\nanswer = 2 if val == 125 else 0\nassert answer == 2","calc_4":"lam, w1, w2 = 2, 2, 1\nval = int(0.5 * lam * (w1**2 + w2**2))\nanswer = 1 if val == 5 else 0\nassert answer == 1","calc_5":"lam, w2 = 0.01, 100\nval = int(0.5 * lam * w2 * 100)\nanswer = 3 if val == 50 else 0\nassert answer == 3","calc_6":"p = 0.8\nval = int(1 / (1 - p))\nanswer = 4 if val == 5 else 0\nassert answer == 4","calc_7":"lam = 2\nval = int(0.5 * lam * (1 + 4 + 4))\nanswer = 1 if val == 9 else 0\nassert answer == 1","calc_8":"answer = 2\nassert answer == 2","calc_9":"answer = 2\nassert answer == 2"},"problemDifficulty":{"definition_0":"easy","definition_1":"easy","definition_2":"easy","definition_3":"easy","definition_4":"easy","definition_5":"easy","definition_6":"easy","definition_7":"easy","definition_8":"easy","definition_9":"easy","trueFalse_0":"easy","trueFalse_1":"easy","trueFalse_2":"easy","trueFalse_3":"easy","trueFalse_4":"easy","trueFalse_5":"easy","trueFalse_6":"easy","trueFalse_7":"easy","trueFalse_8":"easy","trueFalse_9":"easy","scenario_0":"medium","scenario_1":"medium","scenario_2":"medium","scenario_3":"medium","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","choice_0":"medium","choice_1":"medium","choice_2":"medium","choice_3":"medium","choice_4":"medium","choice_5":"medium","choice_6":"medium","choice_7":"medium","choice_8":"medium","choice_9":"medium","concept_0":"hard","concept_1":"hard","concept_2":"hard","concept_3":"hard","concept_4":"hard","concept_5":"hard","concept_6":"hard","concept_7":"hard","concept_8":"hard","concept_9":"hard","calc_0":"hard","calc_1":"hard","calc_2":"hard","calc_3":"hard","calc_4":"hard","calc_5":"hard","calc_6":"hard","calc_7":"hard","calc_8":"hard","calc_9":"hard"},"problemOrder":["definition_0","definition_1","definition_2","definition_3","definition_4","definition_5","definition_6","definition_7","definition_8","definition_9","trueFalse_0","trueFalse_1","trueFalse_2","trueFalse_3","trueFalse_4","trueFalse_5","trueFalse_6","trueFalse_7","trueFalse_8","trueFalse_9","scenario_0","scenario_1","scenario_2","scenario_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","choice_0","choice_1","choice_2","choice_3","choice_4","choice_5","choice_6","choice_7","choice_8","choice_9","concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","concept_6","concept_7","concept_8","concept_9","calc_0","calc_1","calc_2","calc_3","calc_4","calc_5","calc_6","calc_7","calc_8","calc_9"]},"midMlChapters":{"midMl00":{"chapter":"Chapter 00","title":"中级机器学习：现实数据的局限与模型优化","description":"在基础机器学习之上，概览现实数据预处理与模型调优的思路。"},"midMl01":{"chapter":"Chapter 01","title":"数据缩放与分布变换","description":"学习标准化、Min-Max 缩放与鲁棒缩放，使不同量纲的特征对模型的影响一致并应对异常值。"},"midMl02":{"chapter":"Chapter 02","title":"类别变量编码","description":"说明独热编码、序数编码与目标编码，将类别数据转为可计算的数值。"},"midMl03":{"chapter":"Chapter 03","title":"缺失值处理与插补","description":"在简单删除之外，介绍均值/中位数填补、KNN 插补与回归插补等统计填补方法。"},"midMl04":{"chapter":"Chapter 04","title":"不平衡数据处理基础","description":"在欺诈检测、疾病诊断等多数类占优场景下，学习 SMOTE 与类别权重以减轻对多数类的偏向。"},"midMl05":{"chapter":"Chapter 05","title":"高级交叉验证","description":"介绍保持类别比例的分层交叉验证与保持时间顺序的时序划分的区别。"},"midMl06":{"chapter":"Chapter 06","title":"多分类评估与ROC-AUC","description":"将二分类的精确率、召回率扩展到多类（Micro/Macro），并分析 ROC 曲线评估分类性能。"},"midMl07":{"chapter":"Chapter 07","title":"SVM基础：决策边界与间隔","description":"寻找使与最近支持向量之间的间隔最大化的最优分离超平面的分类方法。"},"midMl08":{"chapter":"Chapter 08","title":"核技巧：非线性SVM","description":"通过内积（核）将数据映射到高维空间，在不显式变换特征的情况下实现非线性分离。"},"midMl09":{"chapter":"Chapter 09","title":"降维1（PCA）","description":"用少数保留大部分方差的正交主成分轴对高维数据进行线性压缩的原理。"},"midMl10":{"chapter":"Chapter 10","title":"集成学习：Bagging与Pasting","description":"Bagging（有放回）与 Pasting（无放回）构造多个模型并投票结合，说明偏差-方差权衡。"},"midMl11":{"chapter":"Chapter 11","title":"提升基础：AdaBoost","description":"对错分样本加大权重，顺序组合弱学习器以降低误差的算法。"},"midMl12":{"chapter":"Chapter 12","title":"梯度提升机（GBM）","description":"每棵新树拟合前一集成体的残差，将梯度下降与集成学习结合。"},"midMl13":{"chapter":"Chapter 13","title":"密度聚类（DBSCAN）","description":"按密度形成簇并剔除噪声，克服 K-means 仅能形成球形簇的局限。"},"midMl14":{"chapter":"Chapter 14","title":"层次聚类与树状图","description":"不事先指定簇数，从最相似样本起逐层合并或分裂，用树状图表示层次的无监督学习。"},"midMl15":{"chapter":"Chapter 15","title":"高斯混合模型（GMM）","description":"假设数据来自多个高斯分布的混合，用 EM 估计各样本属于各分布概率的软聚类。"},"midMl16":{"chapter":"Chapter 16","title":"异常检测基础","description":"在标签稀缺时，利用分布或距离找出偏离正常模式的异常的无监督/半监督方法。"},"midMl17":{"chapter":"Chapter 17","title":"管道构建","description":"将缩放、编码、降维与模型训练串联为单一工作流，提高复用并防止数据泄露。"},"midMl18":{"chapter":"Chapter 18","title":"超参数调优1：网格与随机搜索","description":"比较网格搜索（全组合）与随机搜索在寻找树深度、学习率等超参数时的差异。"},"midMl19":{"chapter":"Chapter 19","title":"超参数调优2：贝叶斯优化（Optuna）","description":"用过去试验的后验模型推荐下一组超参数，实现更高效的最优搜索。"},"midMl20":{"chapter":"Chapter 20","title":"中级机器学习总整理","description":"从缺失处理、缩放、PCA 到 SVM 与提升模型及超参数调优的实务管道总结。"}},"midMlCh00":{"description":"在基础机器学习所学的数据、特征、训练与评估之上，介绍如何面对现实中不整洁的表格，以及如何打磨模型。","sectionTitle":"现实数据与预处理·调优：中级机器学习学什么","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为什么重要","howUsed":"如何应用"},"whatIs":{"0":"**现实数据不是练习用的表** — 基础课里的表往往很干净。实务中会有缺失，混有地区、性别等文字类别，收入和年龄等数值尺度也不同。欺诈检测这类正例极少的情况也很常见。模型最终只接收 $\\mathbf{X}$ 与 $\\mathbf{y}$，因此先要整理成 **特征向量**。","1":"**预处理是让模型读得懂的整理** — 用缩放统一量纲，用编码把文字变成数字，用填补处理空缺；类别极不均衡时还会重采样。基础 Ch.00 说的“选好特征”，在实务里就变成一套可重复执行的步骤。","2":"**调优与流水线让实验更稳** — 训练中变化的量（权重、树的分裂）与事先设定的量（树深度、SVM 的 $C$ 等）不是同一类。后者叫 **超参数**。**流水线** 把预处理和学习串成同一流程，新数据也按相同顺序处理。"},"whyImportant":{"0":"**数据与尺度决定表现** — 数据偏倚或某一特征数值过大时，验证上 $y \\approx f(\\mathbf{x})$ 可能很好看，上线却不行。KNN、SVM 等依赖距离或间隔的模型，尺度稍变就会改变“远近”的含义。基础 KNN 里提过的归一化，在中级会成为日常习惯。","1":"**数据泄露会抬高分数** — 测试信息若混入训练或预处理，验证好看、上线变差。在全量数据上拟合缩放器再做交叉验证，也是同一种陷阱。应先划分，只在训练集上拟合统计量，再对验证、测试做变换。","2":"**不平衡要与指标一起看** — 只看准确率时，模型若总预测多数类，分数仍可能很高。要关注少数类，需连同精确率、召回率、ROC-AUC。超参数调优也是在过拟合与欠拟合之间寻找更好的泛化。"},"howUsed":{"0":"**实务里顺序就是可信度** — 先观察数据，再划分训练、验证、测试；预处理只在训练集上拟合，再应用到其余数据；然后训练模型，根据验证调超参数，最后用留出的测试集报告。守住这个顺序，评估才更接近真实泛化。","1":"**本课程的安排** — 前半讲缩放、编码、缺失，以及不平衡、交叉验证、多分类指标；中段拓展 SVM、PCA、集成、聚类与异常检测；后段讲流水线与网格、随机、贝叶斯搜索。可在下方路线图先浏览各章标题。","2":"**与基础 ML 衔接** — 若已学过数据与特征、缺失与交叉验证，中级课会把同一套想法用到一张现实表上。目标不是堆公式，而是弄清为何要清洗、指标在何处误导、实验该怎样进行。"}},"midMlCh01":{"chapter":"Chapter 01","title":"数据缩放：大象与老鼠的公平体重级","description":"年龄多在 20–70，年薪却从 2000 万到 2 亿。机器学习不懂“岁”或“元”，只看**数字有多大**。原样喂给模型，它可能觉得“年薪五千万，年龄 30 可以忽略”。\n\n**数据缩放**把大象级和老鼠级的特征换算到同一百分比或分数尺上，在**公平擂台**上比较。本章用**标准化**（类似标准分）、**Min-Max**（塞进小盒子）、**鲁棒缩放**（忽略卡拉 OK 里突然出现的歌剧名家）讲清原理。","sectionTitle":"数据缩放：统一单位并处理分布","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何被使用","summary":"实战应用","problemSolving":"习题讲解"},"whatIs":{"0":"**1. 什么是缩放？（统一尺码的鞋）**\n\n想象相亲 App 比较年龄差和收入差。年龄差 5 岁、收入差 100 万韩元，人觉得差不多，电脑却觉得“100 万 vs 5，年龄可忽略”。为防止单位不同带来的**数字大小独裁**，缩放把所有特征放到 0~1 或均值 0 附近的**公平刻度**上。","1":"**2. 标准化：标准分原理**\n\n公式：$z = \\frac{x - \\mu}{\\sigma}$\n\n简单科目 90 分、难科目 80 分——看原始分不公平；用均值($\\mu$)与标准差($\\sigma$)校正后，难题高分者 $z$ 更高。标准化是把数据聚到均值 0、方差 1 附近的**公平正态场**中央。","2":"**3. Min-Max：塞进迷你盒子**\n\n公式：$x' = \\frac{x - x_{\\min}}{x_{\\max} - x_{\\min}}$\n\n最小变 $0$，最大变 $1$，其余落在 0.2、0.5、0.8 等位置。再大的原始值也压进 $[0,1]$ 小盒子，适合像素等固定输入范围。","3":"**4. 鲁棒缩放：忽略 K 歌里的帕瓦罗蒂**\n\n公式：$x' = \\frac{x - \\mathrm{median}}{\\mathrm{IQR}}$\n\n世界级歌手突然出现在社区 K 歌，平均分被拉垮，大家像跑调。鲁棒缩放只用**中位数**和**IQR**（正常中间 50%）画刻度，帕瓦罗蒂级异常值拉不动尺子。","4":"**5. 缩放 vs「归一化」一词**\n\n同一个词在不同语境里意思不同，容易混淆。**归一化**有时指 Min-Max 缩放，在深度学习中又指 L2 **权重正则**。本章的缩放是**对齐特征单位与范围的前处理**，与基础 ML Ch.13 的**正则化**不是一回事。\n\n距离扭曲用数字看更直观：年龄差 5、收入差 100 万（韩元）时，欧氏距离约 $\\sqrt{5^2 + 1{,}000{,}000^2} \\approx 1{,}000{,}000$，几乎全来自收入轴。标准化后两轴权重接近，SVM 等距离/间隔模型才能更公平地同时看年龄和收入。"},"whyImportant":{"0":"**1. 距离/间隔模型(SVM 等)的氧气**\n\n这类模型直接依赖距离或间隔。不缩放就像横轴用厘米、纵轴用公里画图，一定乱。\n\n想象只有年龄(约 30–40)和收入(约 4,500–6,100，万韩元)两列的表，收入条形会占满画面。下图左侧是**范围失衡**，右侧是 **z-score 后**两轴权重接近的样子。","1":"**2. 训练加速器（热狗山 vs 饭碗谷）**\n\n未缩放损失面像细长热狗，梯度下降乱 zigzag；缩放后像圆碗，更快滑到谷底。","2":"**3. 严禁作弊（数据泄露）**\n\n考试前用明天考卷算今天模考均分就是作弊。把训练(Train)和测试(Test)合在一起定缩放标准，等于偷看未来的**数据泄露**。练习满分、上线崩盘。"},"howUsed":{"0":"**按情况选缩放器**\n\n没有一种缩放器适合所有数据，先看数据长什么样。\n\n若异常值把均值拉偏，依赖均值和标准差的标准化往往不如**鲁棒(Robust)**。用中位数和 IQR 画刻度，避免「一个帕瓦罗蒂」毁掉整把尺子。\n\n若像像素那样范围固定在 0–255，且需要 $[0,1]$ 这类固定输入，**Min-Max** 很自然：最小变 $0$，最大变 $1$，其余按顺序落在中间。\n\n深度学习或一般数值拿不准时，常先试**标准化**。三种方法的公式与特点见下方对比表。","1":"**训练、验证、测试用同一套标准**\n\n实务上先把数据分成训练、验证、测试。**缩放标准**（均值、最小、最大等）只在**训练集**上确定，再原样用到验证和测试。若把验证或测试混进去重新定标准，就像用模考分数偷看明天试卷，会造成**数据泄露**。\n\n交叉验证也一样：每一折只在**该折训练部分**定标准，验证行只套用已定标准。就算多次模考估分，采分标准也必须每次只来自训练数据，否则上线分数会失真。","2":"**长尾分布先 log 再缩放**\n\n播放量、GDP 等右偏长尾数据，不要直接上缩放器；先用 $x \\rightarrow \\log(1+x)$ 拉平分布，再标准化是常见组合。","3":"**按模型记例外**\n\n有的模型几乎必须缩放，有的可以省略。像 SVM 这样直接用**距离**或**间隔**的算法，若各特征刻度不一，会被数值大的那一轴牵着走，不做缩放时性能常会明显下滑。\n\n决策树和随机森林只问「30 是否大于 3」，看的是**排序**而不是年薪写成 4,500 万还是 4,500（万）这类绝对大小，因此多半可以不缩放。\n\n神经网络和梯度下降等**一点点调权重**的模型，输入范围参差时优化容易 zigzag、变慢。用 Min-Max 或标准化把范围对齐，损失面会更平缓，训练也更稳。"},"summary":"**一句话：** 把大象级与老鼠级特征放到**公平刻度**上，避免距离/梯度模型被单轴牵着走。\n\n实战可以简短选型：异常值多或长尾分布→**鲁棒**或 log 后标准化；像素或固定 $[0,1]$ 输入→**Min-Max**；SVM、神经网络等一般数值→优先**标准化**；树和随机森林看排序，缩放通常可省略。\n\n务必遵守一条：不要在测试/验证上重新定标准，**只在训练（或 CV 的训练 fold）定标准，其余原样套用**。","problemSolving":{"0":"**数据缩放题** — 题库 60 道，每次会话抽 5 道(易2·中2·难1)。题干再长，也只需分成四类：「为什么要缩放(概念)」「哪条公式(Min-Max·标准化·Robust)」「什么模型与数据(场景)」「定标准的顺序是否泄露」。\n\n**概念·定义(scalingBasics)** 问单位不一时 SVM 等距离/间隔计算为何偏于一轴，**直接原因**是尺度不一致。$z=\\frac{x-\\mu}{\\sigma}$ 对应**标准化**；$x'=\\frac{x-x_{\\min}}{x_{\\max}-x_{\\min}}$ 是 **Min-Max**；$x'=\\frac{x-\\mathrm{median}}{\\mathrm{IQR}}$ 是 **Robust**。树/随机森林看排序，缩放非必须。\n\n**Min-Max、标准化、Robust 计算**题代入数字即可：Min-Max 多在 $[0,1]$，标准化求 $z$，Robust 用 median 与 IQR。\n\n**模型·场景(modelScenario)** 看情境：距离/间隔模型要缩放；收入长尾用 **Robust** 或 log+标准化；像素 0~255 用 **Min-Max** 较稳妥。\n\n**泄露·流水线(leakagePipeline)** 检查缩放标准是否**只在训练集**上确定。全数据定标准后再 K-Fold 会把验证统计渗进缩放器，属于**泄露**；CV 应每折只在训练部分定标准。","1":"**示例（概念·定义）**\n\n年龄与收入单位不同，距离偏于一轴，最直接办法？ ①缩放对齐 ②删标签 ③只删特征 ④仅用均值填缺失\n\n**尺度不一致**是直接原因。→ **答案 ①**\n\n---\n\n**示例（Min-Max 计算）**\n\n$x_{\\min}=0$，$x_{\\max}=100$，$x=25$，求 $x'=\\frac{x-x_{\\min}}{x_{\\max}-x_{\\min}}$。\n\n$x'=(25-0)/(100-0)=0.25$。→ **答案 0.25**\n\n---\n\n**示例（标准化计算）**\n\n$\\mu=10$，$\\sigma=2$，$x=14$，求 $z=\\frac{x-\\mu}{\\sigma}$。\n\n$z=(14-10)/2=2$。→ **答案 2**\n\n---\n\n**示例（Robust 计算）**\n\n$\\mathrm{median}=50$，$\\mathrm{IQR}=20$，$x=70$，求 $x'=\\frac{x-\\mathrm{median}}{\\mathrm{IQR}}$。\n\n$x'=(70-50)/20=1$。→ **答案 1**\n\n---\n\n**示例（模型·场景）**\n\n收入异常值多，用距离/间隔型 SVM 分类，较稳妥选择？ ①仅 Min-Max ②Robust 或 log+标准化 ③不缩放 ④只做 one-hot\n\n→ **答案 ②**\n\n---\n\n**示例（泄露·流水线）**\n\n在全数据上定好缩放标准再做 K-Fold CV，最大问题？ ①验证折统计渗入缩放器(泄露) ②仅更慢 ③与树不兼容 ④与 Min-Max 命名冲突\n\n**标准仅限训练集**。→ **答案 ①**"},"problemSolvingLabel":"习题讲解说明","problemSolvingFallback":"缩放题分概念、公式计算、模型/数据场景、定标准的顺序(泄露)四类。依次核对公式名称、数值代入、是距离模型还是树模型、是否只在训练集上定标准。","scalingTable":{"title":"缩放方法对比","caption":"用叙述说明三种方法为何如此运作，以及各自适合的数据。","headers":{"method":"方法","definition":"为何如此"},"rows":{"0":{"method":"标准化 (Standardization)","definition":"$$z=\\frac{x-\\mu}{\\sigma}$ 问的是「离均值有几个标准差」。因此多数值会聚在 0 附近、散布约 1，便于 SVM 等**距离/间隔**模型用相近权重比较各特征。但 $\\mu,\\sigma$ 来自**全部点**的均值与散布，一个异常值就能拉偏均值、放大 $\\sigma$，把大多数点挤到奇怪的 $z$ 上。"},"1":{"method":"Min-Max 缩放","definition":"$$x'=\\frac{x-x_{\\min}}{x_{\\max}-x_{\\min}}$ 把最小定为 $0$、最大定为 $1$，其余按名次比例落在中间。结果**总在 $[0,1]$**，适合像素(0~255)或期望固定输入区间的神经网络。但刻度两端只依赖**最小与最大两点**，一个极值抬高 $x_{\\max}$ 就会把其余值压成 0.01~0.02 一团。"},"2":{"method":"鲁棒缩放 (Robust)","definition":"$$x'=\\frac{x-\\mathrm{median}}{\\mathrm{IQR}}$ 用**中位数**和 **IQR（中间 50% 的宽度）**代替均值与标准差。极端值很难拉动中位数和 IQR，因此在收入、支付等**长尾、异常值多**的数据里，仍能保住「大多数正常点」的刻度。"}}},"dataScalingVisualIntro":"年龄与收入等单位不同时，距离会偏向一侧。下图展示缩放前后条形对比与预处理顺序。","dataScalingVisualStep0":"① 缩放前 — 收入轴主导距离","dataScalingVisualStep1":"② 标准化后 — 两轴达到均衡","dataScalingVisualStep2":"③ Min-Max — 值压缩到 [0,1]","dataScalingVisualStep3":"④ 出现异常值 — 鲁棒保持中心，Min-Max 范围被拉长","dataScalingVisualStep4":"⑤ 仅在训练集上定标准 → 验证/测试套用同一标准","dataScalingVisualCaption":"缩放是把数据移到模型易读的坐标系；刻度标准始终以训练数据统计为准。","dataScalingVisualAriaLabel":"数据缩放：缩放前后距离与流水线","dataScalingVisualLabelAge":"年龄","dataScalingVisualLabelIncome":"收入(万韩元)","dataScalingVisualLabelQuery":"新点 ?","dataScalingVisualLabelNeighbor":"样本","dataScalingVisualLabelOutlier":"异常值","dataScalingVisualLabelTrain":"训练集定标准","dataScalingVisualLabelTransform":"验证集套用","visualIntro":"大特征 B(收入)会像大象压住小特征 A(年龄)。下图一览缩放前后条形对比与预处理顺序。","visualAriaLabel":"数据缩放：特征范围、标准化、预处理顺序","visualDiagram":{"hintStep0":"① 各特征数值范围不同","hintStep1":"② 标准化后可比较","hintStep2":"③ 只在训练集定标准，验证集套用","panelGuide":"左=缩放前(范围失衡) · 右=标准化后(z-score) · 下=训练集定标准 → 验证集套用","problemPhase0":"条形出现","problemPhase1":"范围差异","problemPhase2":"特征 B 强调","scalePhase0":"缩放前","scalePhase1":"转换中","scalePhase2":"对齐范围","scalePhase3":"z-score","pipelinePhase0":"等待","pipelinePhase1":"训练集定标准","pipelinePhase2":"验证集套用","pipelinePhase3":"模型训练","panelProblemTitle":"各特征数值范围不同","badgeRaw":"缩放前","problemFootLabel":"范围失衡","problemFoot":"像特征 B 这样的大数值会在模型与距离计算中占主导。","panelScaleTitle":"标准化后可比较","badgeStd":"已标准化","scaleFootLabel":"标准化效果","scaleFoot":"z-score 对齐后，特征 A、B 权重相近。","featureA":"特征 A","featureB":"特征 B","s1":"样本 1","s2":"样本 2","s3":"样本 3","axisRaw":"原始值","axisZ":"z-score","panelPipelineTitle":"训练集定标准 → 验证集套用","pipelineFootLabel":"实务注意","pipelineFoot":"在全数据上定标准会把验证信息泄漏进缩放器。只用训练集统计量。","pipelineModelBadge":"模型训练","methodStd":"标准化","methodMinmax":"Min-Max","methodRobust":"Robust"}},"advMlChapters":{"advMl00":{"chapter":"Chapter 00","title":"高级机器学习：最优性能模型与可解释性","description":"Kaggle 等场景中使用的优化提升集成原理，以及用 XAI 解释黑箱预测的重要性。"},"advMl01":{"chapter":"Chapter 01","title":"XGBoost算法","description":"在 GBM 基础上提速并加入正则化以控制树复杂度、防止过拟合的算法。"},"advMl02":{"chapter":"Chapter 02","title":"LightGBM算法","description":"按叶生长以兼顾速度与精度；与按层生长方式的对比。"},"advMl03":{"chapter":"Chapter 03","title":"CatBoost：类别型数据提升","description":"有序提升避免目标泄露；在类别多的表格数据上表现优异。"},"advMl04":{"chapter":"Chapter 04","title":"t-SNE流形可视化","description":"保持局部结构的非线性降维，用于 2D/3D 可视化。"},"advMl05":{"chapter":"Chapter 05","title":"UMAP：拓扑几何","description":"保持局部与全局结构的快速流形学习；可替代 t-SNE。"},"advMl06":{"chapter":"Chapter 06","title":"Isolation Forest","description":"基于随机划分的无监督异常检测；异常点更易被孤立。"},"advMl07":{"chapter":"Chapter 07","title":"One-Class SVM","description":"在正常数据周围学习边界的核方法；边界外判为异常。"},"advMl08":{"chapter":"Chapter 08","title":"特征选择与重要性","description":"排列重要性等方法识别关键变量。"},"advMl09":{"chapter":"Chapter 09","title":"XAI 1：部分依赖图（PDP）","description":"特征对模型预测的边际效应；全局可解释性。"},"advMl10":{"chapter":"Chapter 10","title":"XAI 2：LIME","description":"用局部线性近似解释单个预测。"},"advMl11":{"chapter":"Chapter 11","title":"XAI 3：SHAP","description":"用 Shapley 值公平分配特征对预测的贡献。"},"advMl12":{"chapter":"Chapter 12","title":"时间序列预处理与平稳性","description":"ADF 检验与差分以得到平稳性。"},"advMl13":{"chapter":"Chapter 13","title":"ARIMA与SARIMA","description":"AR、MA、I 与季节性的经典统计预测。"},"advMl14":{"chapter":"Chapter 14","title":"Prophet：结构时间序列","description":"趋势、季节与节假日效应的可解释预测。"},"advMl15":{"chapter":"Chapter 15","title":"推荐1：基于内容过滤","description":"基于物品属性与相似度（如余弦）的推荐。"},"advMl16":{"chapter":"Chapter 16","title":"推荐2：矩阵分解","description":"用户-物品评分预测的潜在因子。"},"advMl17":{"chapter":"Chapter 17","title":"推荐3：因子分解机","description":"高维稀疏数据中特征交互的高效建模。"},"advMl18":{"chapter":"Chapter 18","title":"关联规则与Apriori","description":"支持度、置信度、提升度；传统购物篮分析。"},"advMl19":{"chapter":"Chapter 19","title":"AutoML基础：PyCaret与FLAML","description":"前处理、模型选择与超参数调优的自动化。"},"advMl20":{"chapter":"Chapter 20","title":"高级机器学习总整理：SOTA管道与XAI","description":"从 XGBoost/LightGBM 管道到 SHAP、时间序列与推荐系统。"}},"advDlChapters":{"advDl00":{"chapter":"Chapter 00","title":"进阶深度学习：大模型与生成式AI范式"},"advDl01":{"chapter":"Chapter 01","title":"Transformer 1：自注意力与并行化"},"advDl02":{"chapter":"Chapter 02","title":"Transformer：位置编码与前馈"},"advDl03":{"chapter":"Chapter 03","title":"Transformer 谱系：编码器（BERT）vs 解码器（GPT）"},"advDl04":{"chapter":"Chapter 04","title":"注意力优化：FlashAttention 与稀疏注意力"},"advDl05":{"chapter":"Chapter 05","title":"视觉 Transformer（ViT）与图像块"},"advDl30":{"chapter":"Chapter 06","title":"Swin Transformer：从全局注意力到分层窗口结构"},"advDl31":{"chapter":"Chapter 07","title":"视觉模型演进：CNN 看局部，ViT 看全局"},"advDl08":{"chapter":"Chapter 08","title":"参数高效微调 1：PEFT 与 LoRA"},"advDl09":{"chapter":"Chapter 09","title":"QLoRA 与量化：缩得更小再微调"},"advDl10":{"chapter":"Chapter 10","title":"价值对齐与 RLHF：贴合人类偏好"},"advDl11":{"chapter":"Chapter 11","title":"DPO：不用强化学习，用偏好对齐"},"advDl12":{"chapter":"Chapter 12","title":"RAG：用检索减轻幻觉"},"advDl13":{"chapter":"Chapter 13","title":"LLM 智能体：会使用工具的模型"},"advDl27":{"chapter":"Chapter 14","title":"CNN 完全攻略：从卷积核、步幅、填充到骨干演进"},"advDl28":{"chapter":"Chapter 15","title":"目标检测（Object Detection）：R-CNN 家族与 YOLO 的对决（寻找边界框）"},"advDl29":{"chapter":"Chapter 16","title":"图像分割：U-Net 与 DeepLab（逐像素理解图像）"},"advDl15":{"chapter":"Chapter 17","title":"Grad-CAM 与可解释 AI：看 CNN 在看哪里"},"advDl14":{"chapter":"Chapter 18","title":"图神经网络（GNN）：向邻居传递消息"},"advDl16":{"chapter":"Chapter 19","title":"自编码器：压缩后再重建"},"advDl17":{"chapter":"Chapter 20","title":"VAE：用概率书写的生成空间"},"advDl18":{"chapter":"Chapter 21","title":"GAN 基础：生成与判别的对抗"},"advDl19":{"chapter":"Chapter 22","title":"条件 GAN：给定条件生成想要的内容"},"advDl20":{"chapter":"Chapter 23","title":"扩散模型（Diffusion）1：加噪再去噪"},"advDl21":{"chapter":"Chapter 24","title":"扩散模型（Diffusion）2：在潜在空间扩散"},"advDl22":{"chapter":"Chapter 25","title":"视觉-语言模型与 CLIP：图像与句子同一空间（衔接 CNN 与 LLM）"},"advDl23":{"chapter":"Chapter 26","title":"语音识别与音频：声音转文字"},"advDl24":{"chapter":"Chapter 27","title":"模型压缩与知识蒸馏：把大模型装进小模型"},"advDl25":{"chapter":"Chapter 28","title":"推理优化与部署：从服务器到浏览器运行时"},"advDl26":{"chapter":"Chapter 29","title":"进阶深度学习总览：架构与未来一览"}},"advDlCh00":{"chapter":"Chapter 00","title":"高级深度学习：大模型与生成式AI的世界","description":"高级深度学习（Ch.00）把“为什么模型会变得这么大”与“生成式AI系统到底怎么运作”连在一起的入门章节。我们不仅学习如何从数据中获得表征（Representation），还会看大规模Transformer如何建立上下文、预测下一个token；并进一步理解如何通过对齐（Alignment）与控制，把这些能力变成可用、可部署的系统。","roadmapTitle":"通往大规模生成模型的高级路线图","roadmapDescription":"随着你从Ch01开始推进，下面的路线图会逐步填充，帮助你把每一章的贡献串成一个完整系统。","roadmapListHeading":"你将在 Ch01~Ch24 学到什么","sectionTitle":"什么是高级深度学习？（从生成式AI系统看）","sectionLabels":{"whatIs":"这是什么","whyImportant":"为什么重要","howUsed":"如何使用","problemSolving":"问题讲解"},"whatIs":{"0":"**基础模型（Foundation / LLM）**以“预测下一个token”为目标进行训练。也就是说，它会最大化 $p(x_t\\mid x_{ tokenization -> context window -> Transformer -> decoding（greedy/beam/sample）` 的流水线。解码策略与提示词设计会显著影响输出质量。","1":"对齐与控制也可以用多种方式实现。例如 **RLHF / DPO** 使用偏好来更新模型；而 **RAG** 通过检索外部知识，让回答更有依据。","2":"从产品角度看，**工具调用**、缓存/批处理以及量化与蒸馏等优化，都会成为整体栈的一部分。就算是同一个底座模型，不同的运行方式也会带来完全不同的体验。"},"problemSolving":{"0":"本段用叙述方式把“高级深度学习”各条线与应试式理解串起来。**下一个 token 预测**驱动的预训练，是通用语言能力的基础，并与概率生成、表征学习相连。要让模型遵循指令，**instruction / SFT**会涉及数据格式与微调策略。\n\n**对齐（Alignment）**关心偏好、安全与事实性，自然连到偏好学习与奖励建模。**RAG 与有依据生成**依赖检索、嵌入与上下文拼装，用来压低无依据输出。**推理优化**则从延迟与成本出发，涵盖量化、缓存、蒸馏等部署侧手段。"}},"advDlCh01":{"chapter":"Chapter 01","title":"Transformer 1：一眼看懂自注意力","description":"Transformer 的核心是 **自注意力（Self-Attention）**。它不再像 RNN 那样按顺序逐个处理 token，而是让句子中的所有 token 同时相互参考，从而汇聚重要信息。本章将用初学者友好的方式讲解自注意力：从 Query / Key / Value、缩放点积注意力，到多头的数学意义，并把这些内容与翻译、摘要、搜索以及医疗文本分析等真实应用串联起来学习。","sectionTitle":"Transformer 1：一眼看懂自注意力","whatIs":{"0":"**概念说明**\n\n自注意力会让句子里的每个单词（token）同时关注所有其他单词，并为理解当前 token 决定“该参考哪些词、参考多少”的权重。比如在“去了银行”里判断“银行”到底是金融机构还是河岸时，自注意力的作用就是把周围词的整体信息一起纳入判断。","1":"**直观理解**\n\n把它想象成会议：当有人发言时，所有参与者都同时举手投票——“我的发言在当前语境里有多重要”。发言者会根据这些投票结果放大重要意见、压缩不重要意见，最终得到判断。自注意力也用同样的思路工作：用权重来决定哪些信息更关键。","2":"**数学说明**\n\n把输入嵌入矩阵记为 $X$，并变换得到 $Q=XW_Q$, $K=XW_K$, $V=XW_V$。其中 $W_Q, W_K, W_V$ 是可学习的权重矩阵。注意力分数由 $QK^T$ 计算，并为了维度校正除以 $\\sqrt{d_k}$，再经过 softmax 得到概率权重 $A=\\mathrm{softmax}(QK^T/\\sqrt{d_k})$。最终输出是 $AV$。各符号含义如下：$d_k$ 是 Key 向量维度，$A$ 是表示“该参考哪些 token、参考多少”的比例权重矩阵。","3":"**实际机器学习应用示例**\n\n在垃圾邮件分类中，往往需要看句子整体模式，而不是只看某一个词。自注意力可以同时捕捉“免费”和“点击”这种词之间的关系，从而更准确地判断是否为垃圾邮件。在医疗诊断文本分类中，它能同时建模症状、检查结果以及否定表达（如“不是”）之间的交互，从而降低误诊风险。"},"whyImportant":{"0":"**概念说明**\n\n自注意力之所以重要，是因为它能很好地捕捉长距离依赖（long-range dependency）。即使句子前面的词决定了后面的含义，信息也能有效地传递到远处。","1":"**直观理解**\n\nRNN 像接力赛一样把“棒子”一步步传下去，因此中间可能会逐渐丢失信息。而自注意力更像群聊：所有参与者能同时看到所有消息，所以远处的信息也能立刻被参考。","2":"**数学说明**\n\nRNN 的信息传递路径长度与 token 距离 $n$ 成正比；但自注意力在同一层里直接连接所有 token，因此路径长度约为 1。路径越短，梯度传播越稳定，也就更不容易丢掉关键依赖。","3":"**实际机器学习应用示例**\n\n在处理长上下文的任务中，自注意力通常贡献很大：例如法律文档摘要、客服咨询日志分类、诈骗交易检测与解释生成等。"},"howUsed":{"0":"**概念说明**\n\n在实际开发中，先用分词器把文本切成 token，再把 token 转成向量（嵌入）。之后把自注意力模块（多头 + 前馈网络 + 残差连接 + 正则化）堆叠成多层，构建模型。","1":"**直观理解**\n\n如果只有一位“专家”来判断，很容易偏科。因此多头注意力会让多个头从不同视角（语法、语义、实体等）分别“投票”，再把结果合并起来。","2":"**数学说明**\n\n第 $h$ 个头的输出为 $\\mathrm{head}_h=\\mathrm{softmax}(Q_hK_h^T/\\sqrt{d_k})V_h$。将各头输出拼接（concat），再乘以 $W_O$ 得到最终输出；也就是 $\\mathrm{MultiHead}(X)=\\mathrm{Concat}(\\mathrm{head}_1,\\dots,\\mathrm{head}_H)W_O$。","3":"**实际机器学习应用示例**\n\n在翻译模型中，一个头可能更擅长主语-动词关系，另一个头更擅长数值/日期一致性。在客户评论情感分析中，自注意力还能捕捉否定词与关键形容词之间的关系，从而提高准确率。"},"problemSolving":{"0":"自注意力题目可先抓住“所有 token 互相关注并得到 $A=\\mathrm{softmax}(QK^T/\\sqrt{d_k})$”。用 $W_Q,W_K,W_V$ 得到 Q/K/V，经 $\\sqrt{d_k}$ 缩放后做 softmax，使每行和为 1。多头并行不同子空间，配置题常考 $d_{model}=n_{head}\\times d_{head}$。","2":"**例子（投票结果计算）**\n题目\n\n5 个头投票为 [1, 1, 0, 1, 0]。1 的总数是多少？\n简要计算\n\n$1+1+0+1+0=3$\n→ 正答\n\n3\n\n**例子（模型配置计算）**\n题目\n\n头数为 8、每个头的维度为 16 时，总的注意力维度是多少？\n简要计算\n\n$8\\times16=128$\n→ 正答\n\n128","3":"**简例（定义）** — “$\\mathrm{Attention}(Q,K,V)$ 中 softmax 沿哪一维？ ①每个 query 对 keys ②只沿列” → ①。**答案 1**\n\n---\n\n**简例（判断）** — “$\\sqrt{d_k}$ 缩放有助于避免点积过大时 softmax 过于尖锐。” → 对。**答案 1**\n\n---\n\n**简例（计算）** — “序列长度 20 的稠密分数矩阵约多少格？” → $400$。**答案 400**"},"summary":"自注意力的结构是：每个 token 会同时参考句子中的所有 token 来理解上下文，因此它是 Transformer 性能的重要基础。它通过 Query、Key、Value 将信息拆开计算相似度，并用 softmax 把重要性像概率一样正则化后进行加权求和，把需要的信息汇聚起来。由于这种机制，远距离的词关系也能一次性被反映出来，所以在长上下文问题上尤其强。多头会降低单一视角带来的局限，并通过融合多个视角提升预测稳定性。最终，理解自注意力就是理解“如何有选择地收集信息”，而这会直接连接到翻译、摘要、分类、搜索以及医疗文本分析等广泛的机器学习任务中。","sectionLabels":{"whatIs":"它是什么","whyImportant":"为什么重要","howUsed":"如何使用","summary":"总结"},"formulaGuideDiagramCaption":"下图展示从生成 Q/K/V 到缩放、softmax 与加权求和的 self-attention 计算流程。","formulaGuide":{"title":"轻松理解公式","formulaGuideDiagramCaption":"下图展示从生成 Q/K/V 到缩放、softmax 与加权求和的 self-attention 计算流程。","linear":"$$Q=XW_Q$, $K=XW_K$, $V=XW_V$ 中，$X$ 是输入嵌入，$W_Q/W_K/W_V$ 是可学习的变换矩阵。这个步骤把同一句话拆成“像提问的表示”“像匹配的表示”“像内容的表示”。","xavierVariance":"$$S=QK^T$ 是 token 之间的相关性分数矩阵。分数越大，两者关系越强。但当维度变大时数值可能过大，所以用 $\\sqrt{d_k}$ 进行稳定化处理。","heVariance":"$$A=\\mathrm{softmax}(S/\\sqrt{d_k})$ 是一个概率权重矩阵：每一行的和为 1。也就是说，它用比例表示一个 token 应该参考其他 token 的程度。","xavierUniform":"$$O=AV$ 是用权重 $A$ 去混合 Value 得到的最终上下文表示。关键点是它不是简单平均，而是基于重要性的加权平均。"},"visual":"概念结构图按 `输入 token → 嵌入 → Q/K/V 分支 → 相似度矩阵（QK^T）→ 缩放（√d_k）→ softmax → 加权求和（AV）→ 多头合并` 的顺序绘制。学习流程图用纵向步骤表示 `分词 → 位置信息注入 → 自注意力 → 前馈网络 → 预测`。模型运作示意图采用从一个 token 指向所有其他 token 的箭头结构，箭头粗细表示注意力权重强度。前端容器使用 `min-w-0`, `max-w-full`, `overflow-visible`, `minHeight: \"320px\"`，并通过 `viewBox` 让 SVG 在移动端也不会被裁切。","problemSolvingLabel":"解题提示","practiceProblemsTitle":"练习题","practiceProblemsIntro":"下面从 60 题题库中随机抽取了 10 道题。难度比例为：简单 4 题、一般 3 题、困难 3 题；答案仅填写整数。","practiceProblemsInstruction":"请阅读题目与问题，并在空格(?)中填写正确的整数答案。","practiceProblemsInstructionConcept":"阅读题干与 ①②③，只填一个选项序号。","practiceProblemsInstructionOx":"判断句为真填 1，为假填 0。","practiceProblemsInstructionScenario":"阅读题干与 ①②③，只填一个选项序号。","practiceProblemsInstructionVote":"给定 0/1 向量，只填一个整数：1 的个数（和）。","practiceProblemsInstructionAggregate":"将所给数值求和，只填一个整数。","practiceProblemsInstructionConfig":"阅读网格/构成类题干，只填一个整数（例如边长为 $n$ 的方格数为 $n^2$）。","practiceProblemsInstructionEnsemble":"阅读题干与 ①②③，选出最贴切权衡/表述，只填一个选项序号。","advDlCh01VisualIntro":"自注意力是一种操作：每个 token 关注所有 token，并重建上下文。","advDlCh01VisualStep0":"① 生成 token 向量后，将其线性变换为 Q、K、V","advDlCh01VisualStep1":"② 使用 QK^T 计算关系分数","advDlCh01VisualStep2":"③ 用 √d_k 进行缩放，并用 softmax 归一化权重","advDlCh01VisualStep3":"④ 将权重乘以 V 得到上下文向量，并合并多头结果","advDlCh01VisualConceptTitle":"概念结构：Q/K/V → 分数 → 归一化 → 加权求和","advDlCh01VisualFlowTitle":"学习流程：分词 → 注意力 → 更新表示 → 预测","advDlCh01VisualModelTitle":"模型运作：每个 token 同时参考所有 token","advDlCh01VisualInputTokenLabel":"输入 token","advDlCh01VisualTokenRelationLabel":"token 关系（self-attention）","advDlCh01VisualContextVectorOutputLabel":"上下文向量输出","advDlCh01VisualContextVectorExplainLine1":"上下文向量是","advDlCh01VisualContextVectorExplainLine2":"token 所看到信息的摘要","advDlCh01VisualCoreFormulaLabel":"核心公式","advDlCh01VisualLegendWeak":"弱引用","advDlCh01VisualLegendMedium":"中等引用","advDlCh01VisualLegendStrong":"强引用","advDlCh01VisualCurrentSuffix":"（当前）","problems":{"concept_0":"哪种机制让每个 token 同时参考整句话来计算重要性？ ① 自注意力 ② 最大池化 ③ Dropout","concept_1":"最接近 Query 的描述是？ ① 表示你想要找到什么信息的向量 ② 正确答案标签 ③ 损失值","concept_2":"在 $A=softmax(QK^T/\\sqrt{d_k})$ 中，$d_k$ 是什么？ ① 批大小 ② Key 向量维度 ③ 类别数","concept_3":"使用多头最合适的理由是？ ① 同时从不同视角看关系 ② 把参数变成 0 ③ 删除 token","concept_4":"为什么能在长句中更好地捕捉相距很远的词关系？ ① 能在同一层中直接引用任意 token ② 句子总是变短 ③ 损失函数消失","concept_5":"在垃圾邮件分类中，自注意力尤其有用的原因是？ ① 一起看单词之间的交互 ② 自动生成训练数据 ③ 移除 GPU","ox_0":"自注意力允许每个 token 同时参考所有其他 token。正确填 1，错误填 0。","ox_1":"Query、Key、Value 都有相同含义，因此不需要区分。正确填 1，错误填 0。","ox_2":"在缩放点积注意力中，用 $\\sqrt{d_k}$ 去除以缓解分数爆炸的目的。正确填 1，错误填 0。","ox_3":"多头的表示总比单头更简单。正确填 1，错误填 0。","ox_4":"softmax 之后，一个 token 的注意力权重之和通常是 1。正确填 1，错误填 0。","ox_5":"自注意力被用于翻译、摘要、分类等 NLP 任务。正确填 1，错误填 0。","scenario_0":"在长客户咨询日志里，当前半部分的否定表达会“推翻”后面的句子时，哪个模型要素更有利？ ① 自注意力 ② 只用平均池化 ③ 只用简单规则","scenario_1":"在医疗文本中，要稳定地理解类似“不是癌症”的表述，应优先使用？ ① 自注意力（把上下文词一起看） ② 只用词频 ③ 只用最后一个词","scenario_2":"在翻译模型中，要更好地捕捉主语-动词一致性，首先应检查哪个要素？ ① 注意力头的设置 ② 图像增强 ③ 像素归一化","scenario_3":"在生成诈骗交易解释时，要反映交易记录之间的关联，应做什么？ ① 计算 token 间的权重 ② 删除样本 ③ 只减少类别数","vote_0":"题干：加权集成。\n\n各头可靠度权重 [3,2,1,2,1]，二值投票 [1,1,0,1,0] 时，对阳性(1)的加权和是多少？","vote_1":"题干：阈值计数。\n\n层概率 [0.92,0.63,0.71,0.48,0.83,0.69]，≥0.7 计为阳性，阳性个数？","vote_2":"题干：类别出现次数。\n\n三分类预测标签 [2,0,1,2,1,0,2,2]，类别 2 出现几次？","vote_3":"题干：集成差分。\n\n类 A 得票 7，类 B 得票 4，A−B 是多少？","scenario_4":"在法律摘要中，为了捕捉相距很远的条款之间的联系，首先应采用哪种结构？ ① 自注意力 ② 1-gram 频率表 ③ 随机选择","scenario_5":"如果新闻摘要模型遗漏了关键句子，首先应检查什么？ ① 注意力权重的分布 ② 文件扩展名 ③ 文件夹名称","scenario_6":"在多语言翻译中，为了减少单词对齐错误，最自然要调参的是什么？ ① 头数与维度 ② 显示器亮度 ③ 鼠标速度","scenario_7":"在长文分类中，如果丢失了前句信息，最相关的解决方向是什么？ ① 强化全局上下文参照 ② 删除所有 token ③ 移除标签","scenario_8":"在客户投诉检测中，要保留“尚未退款”的语境，可以？ ① 用注意力反映否定词与关键词的关系 ② 只使用词长 ③ 只使用数字","scenario_9":"实验中，多头比单头更稳定。最合理的原因是？ ① 结合多个视角 ② 自动扩增数据 ③ 忽略损失","vote_4":"题干：可靠度加权和。\n\n可靠度 [4,3,2,1,2,3,1,2]，投票 [1,1,1,0,1,0,1,1]，投票为 1 的位置的可靠度之和？","vote_5":"题干：阈值计数。\n\n层概率 [0.4,0.7,0.2,0.8,0.1,0.6,0.3,0.9,0.55,0.65]，≥0.6 计为阳性，阳性个数？","vote_6":"题干：两层比较。\n\nA=[1,0,1,0,1,0,1,0,1,0,1,0]，B=[1,1,1,0,0,0,1,1,1,0,1,1]，不同位置个数？","vote_7":"题干：两层比较。\n\nA=[1,1,0,0,1,1,0,0,1,1,0,0]，B=[1,0,0,1,1,0,0,1,1,0,0,1]，同为 1 的位置个数？","vote_8":"题干：符号平衡。\n\n投票向量 [0,0,0,1,1,1,1,1,0,1]，(1 的个数)−(0 的个数)？","vote_9":"题干：前后段比较。\n\n前段 [1,1,1,1,1,0]，后段 [0,0,1,0,1,0]，(前段阳性数−后段阳性数)？","aggregate_0":"三个头对类别1的预测数量为 [2,1,2] 时，总和是多少？","aggregate_1":"四个头的垃圾邮件预测数为 [3,2,1,2] 时，总垃圾邮件预测数是多少？","aggregate_2":"五个头对类别2给出的分数为 [4,4,3,5,4] 时，合计是多少？","aggregate_3":"各头的正常交易“表”数为 [6,5,7,6] 时，总表数是多少？","ensemble_0":"多头合并的核心优点是？ ① 结合多样化的表示可提升泛化 ② 它会移除参数 ③ 它会停止训练","ensemble_1":"当不同的头看到不同关系时，期望的效果是？ ① 错误相互抵消的可能性增加 ② 永远发生同样的错误 ③ 只会增加信息损失","ensemble_2":"相对于单头，多头更强的最合理原因是？ ① 将特征空间分割后可并行学习 ② 强制把 token 数变成 1 ③ 移除 softmax","ensemble_3":"从集成角度看，增加头的数量时正确的注意点是？ ① 检查性能与计算量的平衡 ② 计算量一定会减少 ③ 在未验证情况下无条件增加","aggregate_4":"六个头的分数 [5,4,6,5,4,6] 的合计是多少？","aggregate_5":"类别0的“表”为 [7,8,6,9] 时，总和是多少？","aggregate_6":"各头的关键词匹配数 [10,12,11,9,8] 的合计是多少？","aggregate_7":"按批次的肯定预测数 [14,16,15] 的合计是多少？","aggregate_8":"八个头的错误数 [1,2,1,2,1,2,1,2] 的合计是多少？","aggregate_9":"各头的关注 token 数 [3,5,7,9,11] 的合计是多少？","config_0":"当头数为4、每个头的维度为16时，模型维度 $d_{model}$ 是多少？","config_1":"当头数为8、每个头的维度为8时，模型维度 $d_{model}$ 是多少？","config_2":"当 token 数为10 时，注意力分数矩阵的大小（元素数）为 $10\\times10$。元素数是多少？","config_3":"当 token 数为12 时，分数矩阵的元素数为 $12\\times12$。值是多少？","config_4":"当头数为6、每个头的维度为12时，$d_{model}$ 是多少？","config_5":"当头数为3、每个头的维度为24时，$d_{model}$ 是多少？","config_6":"当序列长度为14时，self-attention 的分数元素数为 $14\\times14$。值是多少？","config_7":"当序列长度为16时，分数元素数为 $16\\times16$。值是多少？","config_8":"当头数为12、每个头的维度为10时，$d_{model}$ 是多少？","config_9":"当 token 数为20时，分数矩阵的元素数为 $20\\times20$。值是多少？","ensemble_4":"为什么可以期待多头合并带来“方差降低”的效果？① 不同头的误差会在一定程度上相互抵消 ② 所有头永远完美 ③ 学习数据会变得不必要","ensemble_5":"从集成角度看，提高头的多样性的目的是什么？① 让同一输入展现出不同特征 ② 把所有头复制得完全一样 ③ 固定权重","ensemble_6":"在真实服务中决定多头数量时，最重要的是？① 在精度提升与延迟之间取得平衡 ② 一定选择最大头数 ③ 一定选择最小头数","ensemble_7":"即使组合多个头后性能也没有提升时，首先应检查什么？① 头是否只看到非常相似的模式 ② token 名称的长度 ③ 文件的颜色"},"problemAnswers":{"concept_0":1,"concept_1":1,"concept_2":2,"concept_3":1,"concept_4":1,"concept_5":1,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":0,"ox_4":1,"ox_5":1,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"vote_0":7,"vote_1":3,"vote_2":4,"vote_3":3,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"vote_4":14,"vote_5":5,"vote_6":4,"vote_7":3,"vote_8":2,"vote_9":3,"aggregate_0":5,"aggregate_1":8,"aggregate_2":20,"aggregate_3":24,"ensemble_0":1,"ensemble_1":1,"ensemble_2":1,"ensemble_3":1,"aggregate_4":30,"aggregate_5":30,"aggregate_6":50,"aggregate_7":45,"aggregate_8":12,"aggregate_9":35,"config_0":64,"config_1":64,"config_2":100,"config_3":144,"config_4":72,"config_5":72,"config_6":196,"config_7":256,"config_8":120,"config_9":400,"ensemble_4":1,"ensemble_5":1,"ensemble_6":1,"ensemble_7":1},"problemSolutions":{"concept_0":"这道题在考察自注意力的定义：关键在于“每个 token 是否同时参考整组 token”。只有选项 ① 符合这个定义。实践中，垃圾邮件分类需要考虑相邻词之间的关系（例如“免费 + 点击”），而不是只看单个词，从而减少误报。因此正确答案是 1。","concept_1":"Query 是表示你想要找到什么信息的“问题向量”。Key 是匹配标准，Value 是实际需要取回的内容。在医疗诊断文档分类中，Query 帮助当前 token 找到所需的上下文线索，并与 Key 比较后取回重要的 Value。因此正确答案是 1。","concept_2":"$$d_k$ 是 Key 向量的维度。当维度变大时，点积的分散会增大，softmax 可能会更偏向某一侧，因此需要除以 $\\sqrt{d_k}$ 进行缩放。这一步对训练稳定性非常重要，也用于降低翻译模型训练时的爆炸风险。因此正确答案是 2。","concept_3":"多头注意力通过让你同时从多个视角观察关系来增强表达能力。例如，一个头可以捕捉语法，另一个头可以捕捉实体名之间的连接。在客户评论情感分析中，如果某个头专门捕捉否定相关关系，准确率就会提升。因此正确答案是 1。","concept_4":"自注意力之所以适合长距离依赖，是因为它能在同一层中直接引用任意距离的 token。像法律文档那样，前面的条款会影响后面含义的数据中尤其有优势。因此正确答案是 1。","concept_5":"垃圾邮件分类的关键在于词与词之间的交互。自注意力会把上下文关系映射为注意力权重，从而提升分类性能。步骤：（1）分词（2）计算关系分数（3）整合重要上下文（4）分类。因此正确答案是 1。","ox_0":"这句话正确，因为它与自注意力的定义一致。实战中，每个 token 同时看“整组 token”正是翻译和摘要性能的核心。因此正确答案是 1。","ox_1":"这句话错误：Q、K、V 的角色不同。如果不区分它们，关系计算就无法成立。即便在诈骗交易检测日志里，区分“问题/匹配/内容”也很重要。因此正确答案是 0。","ox_2":"正确。用 $\\sqrt{d_k}$ 进行缩放能避免点积过大导致 softmax 饱和，从而帮助稳定学习。因此正确答案是 1。","ox_3":"错误。多头注意力通常会让表示更丰富，而不是更简单，因为它学习到多样的模式。因此正确答案是 0。","ox_4":"正确。softmax 会把分数归一化为概率，因此同一行的权重之和为 1。因此这句话为真，正确答案是 1。","ox_5":"正确。自注意力广泛用于翻译、摘要、分类以及问答等任务。因此正确答案是 1。","scenario_0":"要在长日志里看到相距很远的词关系，具备“全局参考能力”的自注意力最合适。只用平均池化很容易丢掉关系的方向。在客服投诉检测里，当前半部分是否定语改变后面含义时尤其有效。因此正确答案是 1。","scenario_1":"“不是癌症”需要同时看否定词与疾病名之间的关系。自注意力能直接反映这两个 token 的交互，从而降低误诊风险。步骤：（1）计算 token 关系分数（2）反映否定词权重（3）做最终分类。因此正确答案是 1。","scenario_2":"主语-动词一致性是 token 间的长距离关系问题，所以注意力头的设计是最关键的排查点。图像增强/像素归一化并不是文本翻译问题的第一优先。因此正确答案是 1。","scenario_3":"要反映交易记录之间的关联，需要计算 token 间的权重。这正是自注意力的本质。在生成诈骗交易解释时，也可以把“证据 token”组合起来以提高可解释性。因此正确答案是 1。","vote_0":"权重 [3,2,1,2,1] 与投票 [1,1,0,1,0] 对应相乘再求和：$3\\times1+2\\times1+1\\times0+2\\times1+1\\times0=7$。答案 7。","vote_1":"≥0.7 的有 0.92、0.71、0.83，共 3 个。答案 3。","vote_2":"标签 [2,0,1,2,1,0,2,2] 中类别 2 出现 4 次。答案 4。","vote_3":"差为 $7-4=3$。答案 3。","scenario_4":"在法律摘要中，把远处的从句联系起来是典型的长距离依赖问题，因此自注意力是最佳选择。答案是 1。","scenario_5":"遗漏关键句往往发生在注意力分布偏向一侧时。先检查权重分布是更实用的做法。答案是 1。","scenario_6":"多语言翻译中的单词对齐错误与注意力的组成要素直接相关，例如头数与头维度。答案是 1。","scenario_7":"当前半句信息丢失时，可以通过加强全局参照来应对（使用自注意力并调整层/头）。答案是 1。","scenario_8":"正确的关键是把否定词与重要词的关系一起看。在情感分析/不满检测中尤其重要。答案是 1。","scenario_9":"多头注意力提升稳定性的核心原因是“多视角结合”。通过并行学习不同模式，一般化性能会更好。答案是 1。","vote_4":"仅在投票为 1 处累加可靠度：$4+3+2+2+1+2=14$。答案 14。","vote_5":"≥0.6 的有 0.7、0.8、0.6、0.9、0.65，共 5 个。答案 5。","vote_6":"A 与 B 不同位置共 4 处。答案 4。","vote_7":"同为 1 的位置共 3 处。答案 3。","vote_8":"6 个 1、4 个 0，差为 $6-4=2$。答案 2。","vote_9":"前段阳性 5、后段阳性 2，$5-2=3$。答案 3。","aggregate_0":"集计合计：$2+1+2=5$。预测集成是把各头的输出用简单求和或加权求和结合起来的第一步。因此答案是 5。","aggregate_1":"总和计算：$3+2+1+2=8$。即便在垃圾邮件检测的运维中，你也会对每个批次的各头输出求和并与阈值比较。因此答案是 8。","aggregate_2":"分数合计：$4+4+3+5+4=20$。步骤：(1) 检查每个头的分数 (2) 求和 (3) 选择分数最高的类别。因此答案是 20。","aggregate_3":"合计：$6+5+7+6=24$。类似的表格型集成也会用于金融异常检测。因此答案是 24。","ensemble_0":"多头通过结合多样化的表示来提升泛化能力。降低单一视角偏差是关键。因此答案是 1。","ensemble_1":"当不同的头看到不同模式时，某些错误可能会相互抵消。这正是集成的基本原理。因此答案是 1。","ensemble_2":"将特征空间分割并并行观察是多头的强项。把 token 数强行变成 1 或移除 softmax 并不是本质。因此答案是 1。","ensemble_3":"增加头的数量可能提升性能，同时也会增加计算量。因此需要检查权衡并保持平衡。因此答案是 1。","aggregate_4":"合计：$5+4+6+5+4+6=30$。因此答案是 30。","aggregate_5":"合计：$7+8+6+9=30$。因此答案是 30。","aggregate_6":"合计：$10+12+11+9+8=50$。因此答案是 50。","aggregate_7":"合计：$14+16+15=45$。因此答案是 45。","aggregate_8":"合计：$1+2+1+2+1+2+1+2=12$。因此答案是 12。","aggregate_9":"合计：$3+5+7+9+11=35$。因此答案是 35。","config_0":"模型维度通常为 $d_{model}=head\\_count \\times head\\_dim$。计算：$4\\times16=64$。因此答案是 64。","config_1":"计算：$8\\times8=64$。这是轻量翻译模型里常用的整数设置。因此答案是 64。","config_2":"注意力分数矩阵的元素数是 token 数的平方。计算：$10\\times10=100$。因此答案是 100。","config_3":"计算：$12\\times12=144$。它表明随着长度增加，计算量会按平方增长。因此答案是 144。","config_4":"计算：$6\\times12=72$。因此答案是 72。","config_5":"计算：$3\\times24=72$。你也可以用不同的头配置得到相同的 $d_{model}$。因此答案是 72。","config_6":"计算：$14\\times14=196$。它说明为什么序列越长计算负担会越大。因此答案是 196。","config_7":"计算：$16\\times16=256$。因此答案是 256。","config_8":"计算：$12\\times10=120$。因此答案是 120。","config_9":"计算：$20\\times20=400$。这解释了在检索/文档摘要中，序列长度越大成本越高。因此答案是 400。","ensemble_4":"如果不同头的误差并不完全相同，那么把它们结合起来通常可以期待分散度（方差）降低。因此答案是 1。","ensemble_5":"提高头多样性的目的，是让模型看到不同特征，从而获得组合带来的收益。因此答案是 1。","ensemble_6":"在真实服务中，你需要同时兼顾准确度与延迟（SLA），因此平衡是关键。因此答案是 1。","ensemble_7":"如果性能没有提升，首先应检查头的多样性是否不足。如果各头只学到相似模式，集成带来的收益会变小。因此答案是 1。"},"problemTestCodes":{"concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 1\nassert answer == 1","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 0\nassert answer == 0","ox_4":"answer = 1\nassert answer == 1","ox_5":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","vote_0":"weights = [3,2,1,2,1]\nvotes = [1,1,0,1,0]\nassert sum(w*v for w, v in zip(weights, votes)) == 7","vote_1":"probs = [0.92,0.63,0.71,0.48,0.83,0.69]\nassert sum(1 for p in probs if p >= 0.7) == 3","vote_2":"labels = [2,0,1,2,1,0,2,2]\nassert sum(1 for y in labels if y == 2) == 4","vote_3":"a_votes = 7\nb_votes = 4\nassert a_votes - b_votes == 3","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","vote_4":"weights = [4,3,2,1,2,3,1,2]\nvotes = [1,1,1,0,1,0,1,1]\nassert sum(w*v for w, v in zip(weights, votes)) == 14","vote_5":"probs = [0.4,0.7,0.2,0.8,0.1,0.6,0.3,0.9,0.55,0.65]\nassert sum(1 for p in probs if p >= 0.6) == 5","vote_6":"a = [1,0,1,0,1,0,1,0,1,0,1,0]\nb = [1,1,1,0,0,0,1,1,1,0,1,1]\nassert sum(1 for x, y in zip(a, b) if x != y) == 4","vote_7":"a = [1,1,0,0,1,1,0,0,1,1,0,0]\nb = [1,0,0,1,1,0,0,1,1,0,0,1]\nassert sum(1 for x, y in zip(a, b) if x == 1 and y == 1) == 3","vote_8":"votes = [0,0,0,1,1,1,1,1,0,1]\nones = sum(votes)\nzeros = len(votes) - ones\nassert ones - zeros == 2","vote_9":"early = [1,1,1,1,1,0]\nlate = [0,0,1,0,1,0]\nassert sum(early) - sum(late) == 3","aggregate_0":"values = [2,1,2]\ntotal = sum(values)\nassert total == 5","aggregate_1":"values = [3,2,1,2]\nassert sum(values) == 8","aggregate_2":"values = [4,4,3,5,4]\nassert sum(values) == 20","aggregate_3":"values = [6,5,7,6]\nassert sum(values) == 24","ensemble_0":"answer = 1\nassert answer == 1","ensemble_1":"answer = 1\nassert answer == 1","ensemble_2":"answer = 1\nassert answer == 1","ensemble_3":"answer = 1\nassert answer == 1","aggregate_4":"values = [5,4,6,5,4,6]\nassert sum(values) == 30","aggregate_5":"values = [7,8,6,9]\nassert sum(values) == 30","aggregate_6":"values = [10,12,11,9,8]\nassert sum(values) == 50","aggregate_7":"values = [14,16,15]\nassert sum(values) == 45","aggregate_8":"values = [1,2,1,2,1,2,1,2]\nassert sum(values) == 12","aggregate_9":"values = [3,5,7,9,11]\nassert sum(values) == 35","config_0":"head_count, head_dim = 4, 16\nd_model = head_count * head_dim\nassert d_model == 64","config_1":"head_count, head_dim = 8, 8\nd_model = head_count * head_dim\nassert d_model == 64","config_2":"tokens = 10\ncells = tokens * tokens\nassert cells == 100","config_3":"tokens = 12\ncells = tokens * tokens\nassert cells == 144","config_4":"head_count, head_dim = 6, 12\nassert head_count * head_dim == 72","config_5":"head_count, head_dim = 3, 24\nassert head_count * head_dim == 72","config_6":"tokens = 14\nassert tokens * tokens == 196","config_7":"tokens = 16\nassert tokens * tokens == 256","config_8":"head_count, head_dim = 12, 10\nassert head_count * head_dim == 120","config_9":"tokens = 20\nassert tokens * tokens == 400","ensemble_4":"answer = 1\nassert answer == 1","ensemble_5":"answer = 1\nassert answer == 1","ensemble_6":"answer = 1\nassert answer == 1","ensemble_7":"answer = 1\nassert answer == 1"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"hard","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh02":{"chapter":"Chapter 02","title":"Transformer：位置编码与前馈层","description":"自注意力擅长捕捉**词与词之间的关系**，但对**词在句中的位置**未必充分显式。因此 Transformer 在词嵌入上**加上位置编码（PE）**，让模型知道**第几个词**。在块内混合关系之后，**前馈（FFN）**层再对每个词的表示做深层变换。本章用易懂的方式说明正弦–余弦 PE、与可学习位置嵌入的差异，以及 FFN 作为**逐词 MLP**的作用。","sectionTitle":"Transformer：位置编码与前馈层","whatIs":{"0":"**1. 概念：为何需要位置编码**\n\n自注意力会看全句，但若只有词嵌入的排列，**首尾**等顺序信息可能不足。**位置编码**为每个位置 $p$ 构造长度 $d_{model}$ 的向量 $PE(p)$，通过**相加**告诉模型顺序。\n\n**直觉：** 像影院座位需要行列号；PE 给每个词元贴上**位置标签**。\n\n**数学：** 常写 $h_t^{(0)} = x_t + PE(t)$。\n\n**应用：** 翻译、摘要、问答中语序改变意义，BERT/GPT 类模型都会加入位置信息。","1":"**2. 概念：正弦–余弦位置编码（用钟表来想）**\n\n**先建立直觉：** 想象一块指针表。秒针转得快，分针中等，时针很慢。**三根针指向的组合**能告诉你「现在几点几分」——就像给**第几个词**贴上可区分的信号。每根针**转速不同**，两个时刻**离得近还是远（相对距离）**也更好分辨。正弦–余弦 PE 类似：**把几种慢波、快波叠在一起**，让每个位置有一组不同的数字模式。\n\n**再多一句：** 经典 Transformer 在向量不同维度上放 **$\\sin$ 与成对的 $\\cos$** 这种**周期性重复**的值，并用多组频率，让模型更容易区分**相邻位置**与**相隔较远的位置**。\n\n**公式（不必背，供查阅）：** $PE(t,2i)=\\sin(t/10000^{2i/d_{model}})$，$PE(t,2i+1)=\\cos(t/10000^{2i/d_{model}})$。$t$ 是**第几个词元**，$i$ 是**维度下标**，$d_{model}$ 是**向量长度**。\n\n**白话拆解：** 可以把整个式子理解成：给**每个位置 $t$**造一串数字，当作**位置指纹**。向量有 $d_{model}$ 个分量，**两两一对**就像**转速不同的波**叠在一起。**$t$**表示**句子中第几个词**；**$i$**更像在选**哪一档频率（慢波到快波）**。**$d_{model}$**是向量总长，出现在指数里是为了**别把频率调得太极端**。**相邻位置**数值**变化小**，**相距更远**更容易**差别大**，有助于模型感知**相对远近**。**$\\sin$ 配 $\\cos$**类似用两个坐标描述**指针角度**，比单靠一种波更稳（细节不必死记）。\n\n**应用：** 长上下文编码器等，后续有 RoPE 等发展。","2":"**3. 概念：前馈层（FFN）——逐词“深度面谈”**\n\n**一句话：** **注意力**让词与词**互相混合**；**FFN**则在下一步**保持每一路分开**，对**每一路用同一套**小网络各算**一次**（接近上图绿色**计算块**）。\n\n**比喻：** 开完集体会（注意力）后，每个人**单独进小隔间**再聊一轮（FFN）。向量宽度 $d_{model}$ 常先**扩宽**中间再**压回**，像沙漏。\n\n**为什么需要？** 注意力多是线性变换与混合；FFN 里加 **ReLU**（$\\max(0,\\cdot)$）等**非线性**，才能学到**弯弯曲曲**的规则，而不只是直线关系。\n\n**公式（查阅即可）：** $\\mathrm{FFN}(x)=\\max(0,xW_1+b_1)W_2+b_2$。$W_1,W_2$ 通常**各位置共享**。\n\n**应用：** 情感、NER 等——注意力收上下文，FFN 精修每个词。","3":"**4. 概念：块内流程——传送带的一站**\n\n**一句话：** 编码器**一个块**像流水线**一站**，步骤顺序**固定不变**。\n\n**好记顺序：**\n1. **准备：** 在嵌入上加 **PE**，让词元带上“第几个”的信息。\n2. **混合：** **注意力**交换词间上下文。\n3. **稳住：** **Add & Norm** — **残差相加**防信号消失，再**层归一化**把尺度拉齐。\n4. **分路加工：** **FFN**对**每一路**做非线性更新。\n5. 再来一次 **Add & Norm** 收尾。\n\n**公式（查阅即可）：** 先 $h'=\\mathrm{LayerNorm}(h+\\mathrm{Attn}(h))$，再 $h''=\\mathrm{LayerNorm}(h'+\\mathrm{FFN}(h'))$。把这一**整块**叠很多层。\n\n**应用：** 搜索、聊天、代码生成等。"},"whyImportant":{"0":"**顺序改变语义**\n\n“我吃了饭”与词序打乱后语法语义不同。没有 PE，模型更难稳定保持这种差别。金融日志里**时间顺序**也至关重要。","1":"**FFN 负责强非线性**\n\n注意力多是线性映射加 softmax 混合；FFN 通过升维与非线性学习**复杂规则**。","2":"**算力权衡**\n\n增大 $d_{ff}$ 与层数会提升表达力，也会增加 GPU 开销与延迟。","3":"**通向新模型的台阶**\n\n绝对位置嵌入、正弦 PE、RoPE、ALiBi 等不断演进，但“把顺序写进张量”的思想一致。"},"howUsed":{"0":"**工程流程：分词 → 嵌入 → +PE**\n\n分词后乘嵌入矩阵，再加位置向量。可学习 PE 表用 max_position_embeddings 等限定长度。长文档问答需同时设计**上下文长度**。","1":"**FFN 超参数**\n\nintermediate_size（$d_{ff}$）、激活（GELU）、Dropout 等。例如 $d_{model}=768$ 时常取 $d_{ff}=3072$。","2":"**解码器注意**\n\n掩码注意力遮住未来词元，但 PE 仍传递**从左到右**的顺序。","3":"**调试提示**\n\n若顺序敏感，检查 PE/RoPE/上下文长度；若表示单调，检查 FFN 宽度、深度与激活。"},"problemSolving":{"0":"位置编码与 FFN 题可把职责拆开：**顺序靠 PE，token 之间关系靠注意力，逐 token 非线性靠 FFN**。常见 $h=x+PE(pos)$；同层 FFN 多在位置上**共享**权重。$d_{ff}$、深度、上下文长度与算力成本联动。","2":"**示例（概念理解题）**\n\n「仅靠自注意力就能完全暴露顺序。」① 对 ② 只是部分 ③ 顺序不重要 \n并不完全，需要 PE 等补顺序。→ **2**\n\n---\n\n「典型的正弦·余弦 PE 中，偶数维 $2i$ 上常用哪个函数？」① 仅 cos ② sin ③ 恒等 \n常见形式为 $PE(t,2i)=\\sin(\\cdots)$。→ **2**\n\n---\n\n「把词嵌入 $x$ 与位置向量 $PE$ 合在一起，最常见的方式是？」① 相加 $x+PE(pos)$ ② 只拼接 ③ 只逐元素相乘 \n加性（相加）PE 最常见。→ **1**\n\n---\n\n「FFN（前馈）块的作用最接近？」① 做注意力那种词间关系 ② 对每个词元做非线性变换（扩宽再压回） ③ 只做 dropout \n更接近逐词 MLP。→ **2**\n\n---\n\n「同一层里各位置使用 FFN 的常见方式是？」① 每个位置一套不同的 $W_1,W_2$ ② 所有位置共享同一套 FFN 权重 ③ 只共享 PE 矩阵 \n参数共享更常见。→ **2**\n\n---\n\n「增大中间维 $d_{ff}$ 或层数时，通常要一起考虑的代价是？」① 速度一定变快 ② 算力·内存·延迟 ③ 标签数量 \n表达能力与成本的权衡。→ **2**\n\n---\n\n**示例（判断题）**\n\n「FFN 必须在每个词元上用不同权重。」对=1，错=0。 \n通常共享权重。→ **0**\n\n---\n\n**示例（应用题）**\n\n「病历里用药前后顺序很重要，优先要补强的输入是？」① 嵌入+PE ② 只要像素 ③ 只要文件名 \n需要顺序信息。→ **1**\n\n---\n\n**示例（投票计数）**\n\n「指示向量 [1,1,0,1,0] 中 1 的个数？」 \n$1+1+0+1+0=3$。→ **3**\n\n---\n\n**示例（模型预测聚合）**\n\n「三个块的分数 [2,1,2] 之和？」 \n$2+1+2=5$。→ **5**\n\n---\n\n**示例（结构/计算题）**\n\n「10 个词元时，自注意力分数矩阵有多少个元素？」 \n$10\\times10=100$。→ **100**\n\n---\n\n**示例（堆叠层／集成原理）**\n\n「堆很多层的目的最接近？」① 逐步抽象 ② 删除数据 ③ 禁止输入 \n逐层加深表示。→ **1**","3":"**简例（判断）** — “仅靠自注意力就能完整给出绝对顺序。” → 错。**答案 0**\n\n---\n\n**简例（判断）** — “正弦位置编码用多种频率区分位置。” → 对。**答案 1**\n\n---\n\n**简例（计算）** — “$N=50$ 时稠密自注意力分数矩阵元素数？” → $2500$。**答案 2500**"},"summary":"自注意力再强，也需要把**每个词在序列中的位置**可靠地告诉模型。正弦–余弦位置编码用多种频率叠加，在嵌入上形成可区分的位置模式；随后注意力调节词间关系，FFN 则在每个位置上重复同一非线性变换以细化表示。先扩后缩的 FFN 结构，是翻译、摘要、分类与生成等任务里在质量与算力之间的常用旋钮。","sectionLabels":{"whatIs":"概念是什么","whyImportant":"为何重要","howUsed":"如何使用","summary":"小结"},"formulaGuide":{"title":"公式怎么读","linear":"在 $h_t^{(0)} = x_t + PE(t)$ 中，$x_t$ 是词嵌入，$PE(t)$ 是位置 $t$ 的向量。**内容**与**顺序（第几个编成数的信息）**相加形成输入。","xavierVariance":"正弦–余弦 PE 用 $PE(t,2i)=\\sin(t/10000^{2i/d})$ 与 $PE(t,2i+1)=\\cos(t/10000^{2i/d})$，用多个频率 $i$ 编码位置。$d$ 即 $d_{model}$，$t$ 为词元下标。","heVariance":"$$\\mathrm{FFN}(h)=W_2\\,\\sigma(W_1 h+b_1)+b_2$ 中，$\\sigma$ 为非线性，$W_1$ 为 $d_{model}\\to d_{ff}$，$W_2$ 为 $d_{ff}\\to d_{model}$。","xavierUniform":"**权重共享**（各位置用同一套 FFN）有助于泛化并简化实现。"},"visual":"用于展示位置编码与FFN流程的交互式可视化。","problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"以下是从 60 题题库中随机抽取的 10 题。难度比例为易 4、中 3、难 3；答案请填**整数**。","practiceProblemsInstruction":"阅读题干与问题，在空白处输入整数答案。","practiceProblemsInstructionConcept":"阅读题干与 ①②③，只填一个选项序号。","practiceProblemsInstructionOx":"判断句为真填 1，为假填 0。","practiceProblemsInstructionScenario":"阅读题干与 ①②③，只填一个选项序号。","practiceProblemsInstructionVote":"给定 0/1 向量，只填一个整数：1 的个数（和）。","practiceProblemsInstructionAggregate":"将所给数值求和，只填一个整数。","practiceProblemsInstructionConfig":"阅读网格/构成类题干，只填一个整数（例如边长为 $n$ 的方格数为 $n^2$）。","practiceProblemsInstructionEnsemble":"阅读题干与 ①②③，选出最贴切权衡/表述，只填一个选项序号。","advDlCh02VisualZoneLabelTop":"上","advDlCh02VisualZoneLabelBottom":"下","advDlCh02VisualIntroTop":"从左往右读，每格把**意思**和**第几个编成数的信息（PE）**加在一起。","advDlCh02VisualIntroBottom":"路之间**不混合**，四路各走**同一个计算块**（同一套权重、同一套运算）一次。","advDlCh02VisualIntroNote":"论文里把这种计算块称为 **FFN**。","advDlCh02VisualStep0":"① **意思** + **第几个** 相加（就等于加 PE）","advDlCh02VisualStep1":"② 然后（如需）用注意力与周围词元混合","advDlCh02VisualStep2":"③ FFN：较宽的中间层 → 非线性(弯一下) → 再压回输出宽度","advDlCh02VisualStep3":"④ 加一点(+)、归一化后，到下一层或输出","advDlCh02VisualConceptTitle":"① 做输入 →（中间省略）→ ② 每路同一 FFN","advDlCh02VisualBridgeLead":"同一块里先 **①** 再 **②**，按顺序进行。","advDlCh02VisualBridgeBlock1":"**①** 先把 **意思 + 顺序(PE)** 加成 **输入**。（中间的注意力等本图省略）","advDlCh02VisualBridgeBlock2":"**②** 再用 **同一 FFN** 每路各走一次。**路之间不混合**。","advDlCh02VisualBridgeMicroCaption":"同一块内的顺序","advDlCh02VisualAnimHint":"图示会按阶段缓慢高亮（每段约 7 秒）。","advDlCh02VisualAnimStepPe":"① 输入","advDlCh02VisualAnimStepBridge":"衔接","advDlCh02VisualAnimStepFfn":"② FFN","advDlCh02VisualFlowTitle":"整体流程：切分 → 加顺序信息 → 重复层 → 预测","advDlCh02VisualModelTitle":"一句话：意思和顺序合在一起的向量往下走","advDlCh02VisualInputTokenLabel":"输入词元 + 位置","advDlCh02VisualTokenRelationLabel":"词嵌入与 PE 相加","advDlCh02VisualContextVectorOutputLabel":"逐词更新后的表示","advDlCh02VisualContextVectorExplainLine1":"FFN 在每个位置","advDlCh02VisualContextVectorExplainLine2":"用同一 MLP 做非线性变换","advDlCh02VisualCoreFormulaLabel":"式子：**意思+顺序(PE)** 写成 $h{+}PE$，再每路用 $\\mathrm{FFN}(h)$ **打磨**","advDlCh02VisualLegendWeak":"较低中间激活","advDlCh02VisualLegendMedium":"中等","advDlCh02VisualLegendStrong":"较高中间激活","advDlCh02VisualCurrentSuffix":"（当前）","advDlCh02VisualPanelPeTitle":"① 把意思和顺序数（PE）合在一起","advDlCh02VisualPanelFfnTitle":"② 同一计算块、每路打磨一遍（FFN）","advDlCh02VisualTrainCaption":"类似把**句子里第几个词**用数字记下来。","advDlCh02VisualSameMachineHint":"三路不互通，各走同一个计算块","advDlCh02VisualMachineIn":"输入","advDlCh02VisualMachineMid":"变宽层","advDlCh02VisualMachineOut":"输出","advDlCh02VisualMachineAct":"非线性","advDlCh02VisualEmbShort":"意思","advDlCh02VisualPosShort":"位置","advDlCh02VisualPosSlotShort":"号","advDlCh02VisualPeShort":"顺序值","advDlCh02VisualSumPrimary":"{slot} 合并值","advDlCh02VisualSumSub":"意思+顺序值","advDlCh02VisualFfnSameNote":"四路都是 **同一计算块**（W₁、W₂ 共享）","advDlCh02VisualFfnPerToken":"路","advDlCh02VisualFfnInLabel":"一格宽度","advDlCh02VisualLegendExpand":"变宽","advDlCh02VisualLegendNonlin":"非线性","advDlCh02VisualLegendProject":"变窄","advDlCh02VisualLegendFfnLabel":"计算块(FFN)","problems":{"concept_0":"仅靠自注意力时顺序信息偏弱，用向量注入顺序的模块是？① 位置编码 ② 仅 Dropout ③ 仅批归一化","concept_1":"原始正弦式 PE 中，偶数维索引 $2i$ 通常放？① $\\sin$ ② $\\cos$ ③ ReLU","concept_2":"Transformer 块中的 FFN 对每个词元做什么？① 混合词与词 ② 对每个词元用同一 MLP 加深表示 ③ 缩短序列","concept_3":"常见 $d_{ff}=4d_{model}$。若 $d_{model}=128$，较自然的 $d_{ff}$ 是？① 256 ② 512 ③ 64","concept_4":"哪种描述接近可学习位置嵌入？① 为每个位置加上可训练向量 ② 只用 $\\sin$ ③ 不用位置","concept_5":"长文档中顺序影响标签时，与注意力一起必须保留的输入是？① 词嵌入+位置 ② 仅像素 ③ 仅文件名","ox_0":"加性位置编码通常加到词嵌入上。对=1，错=0。","ox_1":"FFN 对整个序列长度做一次 softmax。对=1，错=0。","ox_2":"同一套 FFN 权重通常在各个位置共享。对=1，错=0。","ox_3":"正弦位置编码用周期模式帮助表达相对距离。对=1，错=0。","ox_4":"通常 $d_{ff}$ 只比 $d_{model}$ 小。对=1，错=0。","ox_5":"编码器里注意力后的 FFN 广泛用于 NLP。对=1，错=0。","scenario_0":"病历摘要中「给药前/后」顺序影响诊断，应优先加强？① 含 PE 的顺序信息 ② 图像旋转角 ③ 仅 batch 大小","scenario_1":"垃圾邮件中「免费」与「立即点击」相距远但相关，在注意力之外如何加入顺序？① 嵌入+PE ② 色彩空间 ③ 仅音频采样","scenario_2":"欺诈描述中金额与时间顺序影响标签，哪层扩展表达力？① 逐词 FFN ② 仅池化 ③ 仅正则","scenario_3":"长法律文档中条款相对距离重要，哪种经典 PE 适合周期模式？① 正弦 PE ② 随机删除 ③ 扩展名","scenario_4":"模型混淆「今天」「明天」，先检查？① PE+嵌入 ② 显示器分辨率 ③ 字体","scenario_5":"增大 FFN 中间维会增加算力，调参时权衡？① $d_{ff}$ 与延迟 ② 鼠标 DPI ③ 主题色","scenario_6":"跨语言语序不同，预处理方向？① 子词嵌入+PE ② 仅像素归一化 ③ 仅压缩","scenario_7":"长日志中否定词改变后文，如何保持顺序？① 含 PE 的输入 ② 仅词长 ③ 仅 UUID","scenario_8":"情感分析中看过「不」「好」后需要逐词非线性？① FFN ② 仅平均 ③ 停止","scenario_9":"去掉 FFN 后性能大降，最合理原因是？① 失去深层非线性变换 ② batch 变 1 ③ GPU 消失","vote_0":"投票 [1,1,0,1,0] 中 1 的个数？","vote_1":"投票 [1,0,1,1,1,0] 中 1 的个数？","vote_2":"投票 [0,0,1,0,1,1,1,0] 中 1 的个数？","vote_3":"投票 [1,1,1,1,0,0,1,0,1,1] 中 1 的个数？","vote_4":"投票 [1,1,1,0,1,0,1,1] 中 1 的个数？","vote_5":"投票 [0,1,0,1,0,1,0,1,1,1] 中 1 的个数？","vote_6":"投票 [1,0,1,0,1,0,1,0,1,0,1,0] 中 1 的个数？","vote_7":"投票 [1,1,0,0,1,1,0,0,1,1,0,0] 中 1 的个数？","vote_8":"投票 [0,0,0,1,1,1,1,1,0,1] 中 1 的个数？","vote_9":"投票 [1,1,1,1,1,0,0,0,1,0,1,0] 中 1 的个数？","aggregate_0":"三头阳性预测数 [2,1,2] 的和？","aggregate_1":"四块垃圾分数 [3,2,1,2] 的和？","aggregate_2":"五段 FFN 活跃数 [4,4,3,5,4] 的和？","aggregate_3":"四位置 PE 匹配数 [6,5,7,6] 的和？","aggregate_4":"六层分数 [5,4,6,5,4,6] 的和？","aggregate_5":"类别 0 计数 [7,8,6,9] 的和？","aggregate_6":"关键词匹配 [10,12,11,9,8] 的和？","aggregate_7":"批次阳性 [14,16,15] 的和？","aggregate_8":"八头错误数 [1,2,1,2,1,2,1,2] 的和？","aggregate_9":"位置关注词数 [3,5,7,9,11] 的和？","ensemble_0":"堆叠块最接近期望的效果是？① 分阶段抽象学复杂模式 ② 参数全零 ③ 不可训练","ensemble_1":"深度上误差可能相消的原因？① 每层变换不同 ② 输出总相同 ③ 删数据","ensemble_2":"单层 FFN 不如多层，常见原因是？① 重复非线性增强表达 ② 强制长度 1 ③ 去掉 softmax","ensemble_3":"增加块时要注意？① 性能·算力·过拟合 ② 无限加深 ③ 不需验证","ensemble_4":"若层功能重复？① 冗余收益小 ② 必涨分 ③ 不能训练","ensemble_5":"加深的目的？① 分阶段抽象 ② 同复制 ③ 冻结","ensemble_6":"线上定层数时看重？① 精度与延迟 ② 刷新率 ③ 图标大小","ensemble_7":"停滞时先看？① 层是否学同一模式 ② 文件名 ③ 主题","config_0":"4 头、头维 16 时 $d_{model}$？","config_1":"8 头、头维 8 时 $d_{model}$？","config_2":"10 个词元，注意力分数矩阵为 $10\\times10$，元素个数？","config_3":"12 个词元，$12\\times12$，元素个数？","config_4":"6 头、头维 12 时 $d_{model}$？","config_5":"3 头、头维 24 时 $d_{model}$？","config_6":"长度 14，$14\\times14$ 元素个数？","config_7":"长度 16，$16\\times16$ 元素个数？","config_8":"12 头、头维 10 时 $d_{model}$？","config_9":"20 个词元，$20\\times20$ 元素个数？"},"problemAnswers":{"concept_0":1,"concept_1":1,"concept_2":2,"concept_3":2,"concept_4":1,"concept_5":1,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":1,"ox_4":0,"ox_5":1,"scenario_0":1,"scenario_1":1,"scenario_2":1,"scenario_3":1,"vote_0":3,"vote_1":4,"vote_2":4,"vote_3":7,"scenario_4":1,"scenario_5":1,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"vote_4":6,"vote_5":6,"vote_6":6,"vote_7":6,"vote_8":6,"vote_9":7,"aggregate_0":5,"aggregate_1":8,"aggregate_2":20,"aggregate_3":24,"ensemble_0":1,"ensemble_1":1,"ensemble_2":1,"ensemble_3":1,"aggregate_4":30,"aggregate_5":30,"aggregate_6":50,"aggregate_7":45,"aggregate_8":12,"aggregate_9":35,"config_0":64,"config_1":64,"config_2":100,"config_3":144,"config_4":72,"config_5":72,"config_6":196,"config_7":256,"config_8":120,"config_9":400,"ensemble_4":1,"ensemble_5":1,"ensemble_6":1,"ensemble_7":1},"problemSolutions":{"concept_0":"仅靠自注意力时顺序线索容易不足，需要用 PE 补上语序信息。答案 1.","concept_1":"经典正弦 PE 配置里，偶数维 $2i$ 常用 $\\sin$。答案 1.","concept_2":"FFN 对每个词元应用同一套 MLP（不做词间混合）。答案 2.","concept_3":"$$4\\times128=512$. 答案 2.","concept_4":"可学习绝对位置嵌入会给每个位置加上可训练向量。答案 1.","concept_5":"当语序影响标签时，需要同时保留词嵌入与位置信息。答案 1.","ox_0":"加性 PE 是加到词嵌入上的。答案 1.","ox_1":"FFN 是逐位置变换，不是沿序列做一次 softmax。答案 0.","ox_2":"同一套 FFN 权重通常在各位置共享。答案 1.","ox_3":"周期性设计有助于表达相对距离线索。答案 1.","ox_4":"通常 $d_{ff} \\ge d_{model}$，所以该说法为假。答案 0.","ox_5":"标准 NLP 模块里 FFN 广泛存在。答案 1.","scenario_0":"临床文本顺序敏感，优先使用带 PE 的输入。答案 1.","scenario_1":"注意力外仍需嵌入+PE 才能稳定表达语序。答案 1.","scenario_2":"逐词 FFN 用于扩展非线性表达。答案 1.","scenario_3":"周期模式下经典正弦 PE 更契合。答案 1.","scenario_4":"先检查 PE 与嵌入是否正确接入。答案 1.","scenario_5":"需要在 FFN 宽度与延迟之间做平衡。答案 1.","scenario_6":"常见做法是子词嵌入配合 PE。答案 1.","scenario_7":"通过 PE 维持前后顺序信息。答案 1.","scenario_8":"逐词非线性主要由 FFN 承担。答案 1.","scenario_9":"去掉 FFN 会丢失深层非线性变换能力。答案 1.","vote_0":"总和是 3。答案 3.","vote_1":"总和是 4。答案 4.","vote_2":"总和是 4。答案 4.","vote_3":"总和是 7。答案 7.","vote_4":"总和是 6。答案 6.","vote_5":"总和是 6。答案 6.","vote_6":"总和是 6。答案 6.","vote_7":"总和是 6。答案 6.","vote_8":"总和是 6。答案 6.","vote_9":"总和是 7。答案 7.","aggregate_0":"$$2+1+2=5$. 答案 5.","aggregate_1":"$$3+2+1+2=8$. 答案 8.","aggregate_2":"$$4+4+3+5+4=20$. 答案 20.","aggregate_3":"$$6+5+7+6=24$. 答案 24.","ensemble_0":"加深堆叠有助于形成分阶段抽象表示。答案 1.","ensemble_1":"不同层执行不同变换，可能产生互补。答案 1.","ensemble_2":"重复叠加非线性能提升表达能力。答案 1.","ensemble_3":"需要同时关注过拟合风险与算力成本。答案 1.","aggregate_4":"总和是 30。答案 30.","aggregate_5":"总和是 30。答案 30.","aggregate_6":"总和是 50。答案 50.","aggregate_7":"总和是 45。答案 45.","aggregate_8":"总和是 12。答案 12.","aggregate_9":"总和是 35。答案 35.","config_0":"$$4\\times16=64$. 答案 64.","config_1":"$$8\\times8=64$. 答案 64.","config_2":"$$10\\times10=100$. 答案 100.","config_3":"$$12\\times12=144$. 答案 144.","config_4":"$$6\\times12=72$. 答案 72.","config_5":"$$3\\times24=72$. 答案 72.","config_6":"$$14\\times14=196$. 答案 196.","config_7":"$$16\\times16=256$. 答案 256.","config_8":"$$12\\times10=120$. 答案 120.","config_9":"$$20\\times20=400$. 答案 400.","ensemble_4":"层功能冗余时，增益会变小。答案 1.","ensemble_5":"深度可以支持分阶段抽象。答案 1.","ensemble_6":"上线时要平衡精度与延迟。答案 1.","ensemble_7":"先检查各层表示是否足够多样。答案 1."},"problemTestCodes":{"concept_0":"answer = 1\nassert answer == 1","concept_1":"answer = 1\nassert answer == 1","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 2\nassert answer == 2","concept_4":"answer = 1\nassert answer == 1","concept_5":"answer = 1\nassert answer == 1","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 1\nassert answer == 1","ox_4":"answer = 0\nassert answer == 0","ox_5":"answer = 1\nassert answer == 1","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 1\nassert answer == 1","scenario_3":"answer = 1\nassert answer == 1","vote_0":"votes = [1,1,0,1,0]\nassert sum(votes) == 3","vote_1":"votes = [1,0,1,1,1,0]\nassert sum(votes) == 4","vote_2":"votes = [0,0,1,0,1,1,1,0]\nassert sum(votes) == 4","vote_3":"votes = [1,1,1,1,0,0,1,0,1,1]\nassert sum(votes) == 7","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","vote_4":"votes = [1,1,1,0,1,0,1,1]\nassert sum(votes) == 6","vote_5":"votes = [0,1,0,1,0,1,0,1,1,1]\nassert sum(votes) == 6","vote_6":"votes = [1,0,1,0,1,0,1,0,1,0,1,0]\nassert sum(votes) == 6","vote_7":"votes = [1,1,0,0,1,1,0,0,1,1,0,0]\nassert sum(votes) == 6","vote_8":"votes = [0,0,0,1,1,1,1,1,0,1]\nassert sum(votes) == 6","vote_9":"votes = [1,1,1,1,1,0,0,0,1,0,1,0]\nassert sum(votes) == 7","aggregate_0":"values = [2,1,2]\nassert sum(values) == 5","aggregate_1":"values = [3,2,1,2]\nassert sum(values) == 8","aggregate_2":"values = [4,4,3,5,4]\nassert sum(values) == 20","aggregate_3":"values = [6,5,7,6]\nassert sum(values) == 24","ensemble_0":"answer = 1\nassert answer == 1","ensemble_1":"answer = 1\nassert answer == 1","ensemble_2":"answer = 1\nassert answer == 1","ensemble_3":"answer = 1\nassert answer == 1","aggregate_4":"values = [5,4,6,5,4,6]\nassert sum(values) == 30","aggregate_5":"values = [7,8,6,9]\nassert sum(values) == 30","aggregate_6":"values = [10,12,11,9,8]\nassert sum(values) == 50","aggregate_7":"values = [14,16,15]\nassert sum(values) == 45","aggregate_8":"values = [1,2,1,2,1,2,1,2]\nassert sum(values) == 12","aggregate_9":"values = [3,5,7,9,11]\nassert sum(values) == 35","config_0":"assert 4 * 16 == 64","config_1":"assert 8 * 8 == 64","config_2":"assert 10 * 10 == 100","config_3":"assert 12 * 12 == 144","config_4":"assert 6 * 12 == 72","config_5":"assert 3 * 24 == 72","config_6":"assert 14 * 14 == 196","config_7":"assert 16 * 16 == 256","config_8":"assert 12 * 10 == 120","config_9":"assert 20 * 20 == 400","ensemble_4":"answer = 1\nassert answer == 1","ensemble_5":"answer = 1\nassert answer == 1","ensemble_6":"answer = 1\nassert answer == 1","ensemble_7":"answer = 1\nassert answer == 1"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"hard","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh03":{"chapter":"Chapter 03","title":"Transformer 谱系：BERT 理解，GPT 生成","description":"Transformer 这一伟大发明大体分成两支家族。一眼读完整句的 **编码器家族 BERT（理解型）** ，以及由前面词不断接龙下一个词的 **解码器家族 GPT（生成型）** 。若说 BERT 擅长“高考语文填空推理”，GPT 就是“接龙与写小说”的天才。本章说明两种模型如何训练，以及为何在实务中用途截然不同，并用初学者能懂的类比加以整理。","sectionTitle":"Transformer 谱系：BERT 理解，GPT 生成","whatIs":{"0":"**1. BERT：双向阅读、重在“理解”的编码器**\n\n**概念：** BERT（Bidirectional Encoder Representations from Transformers）只发展 Transformer 的 **编码器**。核心是 **双向（Bidirectional）上下文**：同时参考左右词，把当前词在句中最准确的含义压进 **表示向量**。\n\n**直觉：** 像名医问诊时把既往（左）与今日检查（右）**同时**摊开综合判断——一次看清全局，上下文把握更强。\n\n**数学：** 代表训练法是 **MLM（掩码语言建模）** ：在句中挖洞（`[MASK]`），用周围上下文去拟合正确 token $w_t$ 的分布 $p(w_t \\mid \\text{全文上下文})$。\n\n**应用：** “这条评论正还是负？”“从文里找人名和日期？”等文本分类、命名实体识别、文档检索等场景大量使用。","1":"**2. GPT：不断“生成”下一个词（解码器）**\n\n**概念：** GPT（Generative Pre-trained Transformer）发展的是 **解码器**。模型不能一眼看完整句：用 **掩码** 遮住未来词，只能看 **已出现的词（$1\\ldots t-1$）** 来预测第 $t$ 个词——**自回归（Autoregressive）**。\n\n**直觉：** 像打字机写小说——**还没写下的下一句不能先看**，只能根据已写内容想象下一个词。\n\n**数学：** 为防止未来信息泄漏，用 **因果掩码（Causal Masking）** 把注意力矩阵上三角置为 $-\\infty$。训练最大化 $-\\log p(x_t\\mid x_{> 3\nassert answer == 32","ensemble_1":"answer = 96 // 4\nassert answer == 24","ensemble_2":"answer = 80 // 2\nassert answer == 40","ensemble_3":"answer = 512 // 4\nassert answer == 128","ensemble_4":"answer = 14 * 14\nassert answer == 196","ensemble_5":"answer = 10 * 10\nassert answer == 100","ensemble_6":"answer = 8 * 8\nassert answer == 64","ensemble_7":"answer = 32 // 2\nassert answer == 16","config_0":"assert 8 * 8 == 64","config_1":"assert 9 * 9 == 81","config_2":"assert 10 * 10 == 100","config_3":"assert 11 * 11 == 121","config_4":"assert 12 * 12 == 144","config_5":"assert 6 * 6 == 36","config_6":"assert 7 * 7 == 49","config_7":"assert 16 * 16 == 256","config_8":"assert 20 * 20 == 400","config_9":"assert 25 * 25 == 625"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"medium","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh13":{"chapter":"Chapter 15","title":"目标检测：R-CNN 家族 vs YOLO（找边界框）","description":"**分类**问「照片里有猫吗？」**目标检测**再进一步：**「猫在哪个位置(X,Y)、多大(W,H)？」** —— 画出 **边界框**。它是自动驾驶、质检机器人、机器人视觉的核心。\n\n本章介绍分裂该领域的两种思路：**谨慎的两阶段 R-CNN**（先找可疑区域再确认）与 **闪电般的一阶段 YOLO**（把图像切成格子一次扫完）。并比较设计差异与衡量框质量的易懂指标。","sectionTitle":"目标检测：R-CNN vs YOLO","whatIs":{"0":"**1. 分类 vs 检测：从「是什么」到「在哪里的什么」**\n\n**图像分类**问「房间里有猫吗？」**目标检测**问「猫**在哪里**？」要给多个物体画框并说出名字，任务更丰富。","1":"**2. R-CNN 系（两阶段）：谨慎的侦探**\n\n① 先提出很多「这里可能有东西」的**候选区域** → ② 逐个细看：「是猫！框应该这么大！」**准确**但两阶段**较慢**。","2":"**3. YOLO（一阶段）：一眼看穿的保安**\n\n**YOLO** 名副其实 —— 图像**只看一次**。切成 **S×S 网格**，每个格子同时喊「我这格有狗！」并画框，**实时**场景极快。","3":"**4. 质量工具：IoU · NMS · mAP**\n\n- **IoU：** 预测框与真值框重叠多少(0~1)，核心是**交集÷并集**，完整式见**公式导读**。\n- **NMS（Non-Maximum Suppression）：** 同一只狗上框太多时，**打扫**后只留**最确信的一个**。\n- **mAP（mean Average Precision）：** 找得准不准、框画得好的**总成绩单**。"},"whyImportant":{"0":"**能在现实世界行动的 AI「眼睛」**\n\n自动驾驶要知道行人、车辆的**精确位置**才能刹车；机器人要知道**抓哪里**。检测给 AI **空间理解**，不止整图一个标签。","1":"**要速度还是精度？按场景选**\n\nCCTV、自动驾驶用 **YOLO（一阶段）**；医疗影像找微小病灶用 **R-CNN（两阶段）**。了解两者才能选对工具。","2":"**没有指标就说不出好坏**\n\n类名对了但框偏了也没用。**IoU** 和 **mAP** 是客观证据和改进方向。","3":"**通向分割的垫脚石**\n\n框只是粗略外接矩形。掌握检测后自然延伸到像素级 **分割**。"},"howUsed":{"0":"**第1步：准备数据与框坐标**\n\n标注每个物体位置，统一用 **(x_min, y_min, x_max, y_max)** 或 **(cx, cy, w, h)**。","1":"**第2步：按需求选网络**\n\n要**实时**选 **YOLO 类网格**模型；要小目标高精度选带 **RPN** 的 **Faster R-CNN**。","2":"**第3步：训练 — 匹配与损失**\n\n用 **IoU** 对齐预测与真值，同时减小**分类误差**和**回归误差**。","3":"**第4步：去重(NMS)与成绩单(mAP)**\n\n去掉低分框，用 **NMS（Non-Maximum Suppression，打扫重叠框）** 整理重复，用验证集 **mAP（mean Average Precision，综合分数）** 看模型好不好。"},"problemSolving":{"0":"**先这样读题再动手**\n\n- 先分清考点: **分类 vs 检测 / R-CNN 两阶段 vs YOLO 一阶段 / IoU·NMS·mAP**\n- 计算题固定套路: YOLO 网格 **S×S** → 总格数 **S²** (例: S=7 → **7×7=49**)\n- IoU·并集: **并集 = A + B − 交集**, 重叠 **4×4** → 面积 **16**\n\n---\n\n**示例 (概念型)**\n「目标检测的目标最接近?」\n① 整图一个类 ② **每个物体的框+类别** ③ 只做像素分割 ④ 只调学习率\n**答案 2**\n\n**为什么?** 检测要同时找 **是什么 + 在哪里**; 分类只给整图一个标签。\n\n---\n\n**示例 (判断型)**\n「YOLO 总是只用两阶段」\n**答案 0** (错)\n\n**为什么?** YOLO 在 **S×S 网格上一阶段** 一次预测框和类别。\n\n---\n\n**示例 (计算型)**\n「YOLO 网格 S=7, 总格数?」 → **7×7=49**","1":"**按题型示例 + 正解理由**\n\n**示例 (情景型)**\n「推理后同一人周围重叠 5 个框, 先做?」\n① **NMS 去重** ② 打乱标签 ③ 骨干 0 层 ④ 去掉 mAP\n**答案 1**\n\n**为什么?** 重叠重复框用 **NMS** 整理。\n\n---\n\n**示例 (选择计算型)**\n「框 A·B 各面积 32, 交集 16, 并集面积?」\n**答案 48** (32+32-16)\n\n**为什么?** **并集 = A + B − 交集** 的固定模式。\n\n---\n\n**示例 (网格型)**\n「YOLO 网格 S=9, 总格数?」\n**答案 81** (9×9)\n\n**为什么?** **S×S 网格**是一边格数的平方。\n\n---\n\n**示例 (综合推理型)**\n「CCTV 需要实时推理, 选哪种结构?」\n① 只用 Selective Search ② 只用原版 R-CNN ③ **YOLO 类一阶段** ④ 停止增强\n**答案 3**\n\n**为什么?** **速度**优先时先考虑 **一阶段 YOLO**。"},"summary":"**一句话：** 目标检测同时找每个物体的**类别和框**，分为仔细的 **两阶段 R-CNN** 与快速的 **一阶段 YOLO**。\n\n**要点：** **IoU** 量重叠，**NMS（去重）** 整理重复框，**mAP（总成绩）** 衡量整体表现。\n\n**下一章：** 从框到 **分割** —— 像素级轮廓。","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"如何使用","summary":"小结","problemSolving":"解题说明"},"formulaGuide":{"title":"如何读公式（目标检测）","linear":"**1. IoU — 核心公式**\n\n$\\text{IoU}=|A\\cap B|/|A\\cup B|$\n\n- **交：** 重叠\n- **并：** 合并区域","xavierVariance":"**2. 边界框坐标 — 照片上的框怎么写?**\n\n围绕物体的 **矩形框** 常用两种写法:\n\n- **角点式:** 左上、右下 **(x_min, y_min, x_max, y_max)** — 标 **两个角**\n- **中心式:** 中心 **(cx, cy)** 加 **宽和高 (w, h)** — **中心 + 大小**\n\n**w, h** 是框的 **宽和高**, 面积大约 **w×h**。\n\n**YOLO** 常按图片或网格格大小缩到 **0~1**。(例: 宽为图片一半 → **0.5**)","heVariance":"**3. NMS（Non-Maximum Suppression）— 同一个人上5个框? 只留1个**\n\n检测器在同一人周围画 **5个框** 会很乱。**NMS** 是清理重叠框的 **打扫** 步骤。\n\n1. 按 **置信度从高到低** 排队\n2. **保留第一名** 的框\n3. 与第一名 **重叠太多** 的框(IoU超阈值) **删掉**, 对剩余框重复\n\n**要点:** 同一物体只留 **最确信的那一个框**。","xavierUniform":"**4. mAP（mean Average Precision）— 检测器的成绩单**\n\n**mAP** 是看模型 **找得多准** 的 **综合分数**。\n\n- **每类** 算 PR 曲线下 **AP**\n- 各类 **AP 的平均** 就是 **mAP**\n- 预测框与真值 **至少一半重叠**(IoU **≥0.5**) 才算 **答对**\n\n**分数越高** 误检越少, **漏检也越少**。"},"formulaGuideDiagramCaption":"**要点：** 预测框 A 与真值框 B 的**重叠(交集)**除以**合并面积(并集)**就是 IoU。","formulaGuideDiagramAria":"IoU 示意图：两边界框的交集与并集","formulaGuideDiagramFrozenHint":"交集","advDlCh13FormulaGuideLossHint":"IoU · 框重叠","advDlCh13VisualInputLabel":"输入","visual":"动画：输入→骨干→(R-CNN: 候选/RoI | YOLO: 网格)→分类回归→NMS→mAP。","problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"题库 **60** 题中，每轮**随机**抽取 **10** 题，难度 **易4→中3→难3**。**同一轮内题型(前缀+难度)不重复**。计算题以**小整数乘除与求和**为主；概念、判断、情景题只考**目标检测核心**。","practiceProblemsInstruction":"选择最合适的选项。","practiceProblemsInstructionCalc":"计算后选择最合适的选项。","practiceProblemsInstructionConcept":"概念题，选择最合适的选项。","practiceProblemsInstructionOx":"对填 1，错填 0。","practiceProblemsInstructionScenario":"选择最合适的应对。","practiceProblemsInstructionVote":"选择与你计算结果一致的选项。","practiceProblemsInstructionAggregate":"选择与 IoU、网格或框面积计算结果一致的选项。","practiceProblemsInstructionConfig":"选择符合 S×S 网格设置的值。","practiceProblemsInstructionEnsemble":"选择符合检测流水线/网格/锚框计算的值。","advDlCh13VisualIntro":"在同一张照片里找 **「狗在哪里？」** 时，**R-CNN** 会先提出 **很多可疑区域(候选框)**，再逐个确认。**YOLO** 把照片切成 **网格**，每个格子 **同时** 报告位置和类别。最后用 **去重 NMS**(Non-Maximum Suppression，**打扫**重叠框)整理结果，用 **成绩单 mAP**(mean Average Precision，**综合分数**)评估找得准不准。","advDlCh13VisualConceptTitle":"R-CNN：先选候选再确认 · YOLO：每格一次搞定","advDlCh13VisualSectionTitle":"目标检测一览","advDlCh13VisualMetaphor":"**R-CNN** 像 **逐个打开** 候选箱子验货；**YOLO** 像 **各区域负责人同时汇报** 的现场巡检。","advDlCh13VisualRcnnLaneTitle":"R-CNN — 先出候选，后做确认","advDlCh13VisualYoloLaneTitle":"YOLO — 每格一次预测","advDlCh13VisualTwoStageHint":"先画很多 **虚线候选框**（「这里可能有东西」），确认后只留 **一条实线框**。","advDlCh13VisualOneStageHint":"把照片分成 **网格**，每个格子 **一次** 同时说出自己区域的 **位置和类别**。","advDlCh13VisualTopInputLabel":"输入图像","advDlCh13VisualTopFeatureLabel":"特征图 / 网格","advDlCh13VisualTopOutputLabel":"检测结果(框+类)","advDlCh13VisualBackboneLabel":"骨干(CNN)","advDlCh13VisualProposalLabel":"Region Proposal / RPN","advDlCh13VisualProposalHint":"物体候选区域","advDlCh13VisualRoILabel":"RoI Pooling/Align","advDlCh13VisualRoIHint":"候选区固定尺寸特征","advDlCh13VisualHeadLabel":"分类·回归头","advDlCh13VisualBboxLabel":"边界框","advDlCh13VisualGridCellLabel":"网格单元 S×S","advDlCh13VisualGridHint":"YOLO：每格负责一块区域","advDlCh13VisualAnchorHint":"锚框：多尺度多比例","advDlCh13VisualNmsLabel":"NMS","advDlCh13VisualNmsHint":"去除重叠重复框","advDlCh13VisualMapLabel":"mAP","advDlCh13VisualMapHint":"各类 AP 的平均","advDlCh13VisualLossLabel":"检测损失","advDlCh13VisualFlowTitle":"一张照片怎样被处理","advDlCh13VisualStep0":"先放入一张 **RGB 照片**。和分类不同，目标是找出 **多个物体分别在哪里**。","advDlCh13VisualStep1":"**CNN 骨干网** 把照片变成 **特征图**，后面的步骤读取这些特征来画框。","advDlCh13VisualStep2":"**R-CNN** 会提出 **很多可能含物体的候选区域**。**YOLO** 把图像分成 **S×S 网格**。","advDlCh13VisualStep3":"在每个 **候选区或网格格** 里，同时预测 **是什么(类别)** 和 **在哪里(框)**。","advDlCh13VisualStep4":"用 **去重(NMS)** 去掉同一物体上重叠的框，再用 **成绩单(mAP)** 和 **重叠度(IoU)** 评估有多准确。","advDlCh13VisualRcnnStep0":"① 输入图像","advDlCh13VisualRcnnStep1":"② 骨干 CNN → 特征图","advDlCh13VisualRcnnStep2":"③ **区域候选** — 生成大量候选框","advDlCh13VisualRcnnStep3":"④ **RoI → 分类·回归** — 逐个候选处理","advDlCh13VisualYoloStep0":"① 输入 + 骨干 (一次推理)","advDlCh13VisualYoloStep1":"② 划分为 **S×S 网格**","advDlCh13VisualYoloStep2":"③ **所有格**同时预测框+类别","problems":{"concept_0":"下列哪项最接近**目标检测**？\n① 整图只预测**一个类**\n② **为每个物体找边界框和类别**\n③ 只做像素分割\n④ 只优化学习率","concept_1":"关于**边界框**，哪项最恰当？\n① 总是圆形\n② **包围物体的矩形坐标 (x,y,w,h 等)**\n③ 一个 softmax 输出\n④ 批归一化参数","concept_2":"哪项符合 **R-CNN 系**？\n① 总是一阶段\n② **先区域候选(RoI)，再分类与框回归的两阶段倾向**\n③ 与 GAN 相同\n④ 只做自编码重构","concept_3":"哪项符合 **YOLO**？\n① 只做多次裁剪\n② 只用 Selective Search\n③ **S×S 网格每格一次推理预测框+类(一阶段)**\n④ 只用 PCA","concept_4":"为何使用 **IoU**？\n① 只调学习率\n② **量化预测框与真值框的重叠**\n③ 测文件大小\n④ 学恒等映射","concept_5":"**NMS** 的作用？\n① 保留所有候选框\n② **去掉重叠重复框，保留高分框**\n③ 旋转图像\n④ 标签置 0","ox_0":"检测同时预测**框和类别**。\n对填 1，错填 0。","ox_1":"IoU 只用**并集**，不需要交集。\n对填 1，错填 0。","ox_2":"R-CNN 系常有**候选→RoI→头**流程。\n对填 1，错填 0。","ox_3":"YOLO **总是**只用两阶段。\n对填 1，错填 0。","ox_4":"NMS 有助于整理**同一物体的重叠框**。\n对填 1，错填 0。","ox_5":"**mAP** 常用作检测综合指标。\n对填 1，错填 0。","scenario_0":"**训练 YOLO** 时 GPU 显存不足，**首先**？\n① 无限提高学习率\n② **减小批量、输入分辨率或模型宽度**\n③ 删光数据\n④ 去掉 NMS","scenario_1":"推理后**同一人周围 5 个重叠框**，**首先**？\n① **用 NMS 去重**\n② 打乱标签\n③ 骨干 0 层\n④ 去掉 mAP","scenario_2":"CCTV 需要**实时**，结构应？\n① 只用 Selective Search\n② 只用原版 R-CNN\n③ **考虑 YOLO 等一阶段模型**\n④ 停止增强","scenario_3":"**小目标**常漏检，**首先**？\n① confidence 设 0\n② **调分辨率、FPN、锚框/网格**\n③ NMS IoU 设 1.0\n④ 删标签","vote_0":"YOLO **S=7** 时**总网格单元数**？","vote_1":"YOLO **S=8** 总单元数？","vote_2":"YOLO **S=6** 总单元数？","vote_3":"YOLO **S=10** 总单元数？","scenario_4":"验证 **mAP** 远低于训练 mAP，首先怀疑？\n① 训练太慢\n② **过拟合**\n③ 批量恒为 1\n④ 优化器名字","scenario_5":"锚框与物体尺寸**不匹配**，**首先**？\n① **重设锚框/网格尺度与宽高比**\n② 改 IoU 定义\n③ 去掉 NMS\n④ mAP 设 0","scenario_6":"**正样本匹配 IoU 阈值过低**，预期问题？\n① 永远 mAP=1\n② **错误框也被当正样本，质量下降**\n③ 不需 NMS\n④ 两阶段变一阶段","scenario_7":"提高**微小缺陷**检测？\n① **更高分辨率、FPN、更小锚框**\n② 随机猜\n③ 丢数据\n④ 去掉损失","scenario_8":"**误报(False positive)** 太多，**首先**调？\n① 关 NMS\n② **提高 confidence 阈值**\n③ 类数设 0\n④ 删骨干","scenario_9":"公平**比较检测器**？\n① **用 mAP 等标准指标**\n② 只看训练 loss\n③ 只数框\n④ 不用 IoU","vote_4":"两框**交集**为 4×4 像素时，交集**面积**？","vote_5":"各面积 **32**，**交集 16**，**并集**面积？ (32+32-16)","vote_6":"YOLO **S=7** 的**总单元数**？","vote_7":"框**宽 2、高 4** 的**面积**？","vote_8":"框 **5×5** 的**面积**？","vote_9":"框**宽 3、高 6** 的**面积**？","aggregate_0":"框 A·B 各**面积 20**，**交集 8** 时，**并集**面积？ (20+20-8)","aggregate_1":"框 A·B 各**面积 24**，**交集 10** 时，**并集**面积？","aggregate_2":"两框**交集**为 5×4 像素时，交集**面积**？","aggregate_3":"YOLO **S=9** 的**总单元数**？","ensemble_0":"**YOLO 网格**：每边 **4** 格的正方形**总格数**？","ensemble_1":"**YOLO 网格**：每边 **8** 格的正方形**总格数**？","ensemble_2":"框 A·B 各**面积 35**，**交集 21** 时，**并集**面积？","ensemble_3":"**YOLO 网格**：每边 **5** 格的正方形**总格数**？","aggregate_4":"框 A·B 各**面积 36**，**交集 12** 时，**并集**面积？","aggregate_5":"框**宽 6、高 8** 的**面积**？","aggregate_6":"YOLO **S=11** 的**总单元数**？","aggregate_7":"框 A **面积 45**、B **面积 30**，**交集 15** 时，**并集**面积？","aggregate_8":"两框**交集**为 6×6 像素时，交集**面积**？","aggregate_9":"YOLO **S=12** 的**总单元数**？","config_0":"**YOLO 网格**：横纵各 **5** 格的**总格数**？","config_1":"每边 **6** 格 — 总格数？","config_2":"每边 **7** 格 — 总格数？","config_3":"每边 **8** 格 — 总格数？","config_4":"每边 **9** 格 — 总格数？","config_5":"每边 **4** 格 — 总格数？","config_6":"每边 **3** 格 — 总格数？","config_7":"每边 **10** 格 — 总格数？","config_8":"每边 **7** 格 — 总格数？","config_9":"每边 **8** 格 — 总格数？","ensemble_4":"YOLO **S=7** 的**总单元数**？","ensemble_5":"YOLO **S=6** 的**总单元数**？","ensemble_6":"两框**交集** 3×3 像素的**面积**？","ensemble_7":"YOLO **S=8** 的**总单元数**？"},"problemSolutions":{"concept_0":"**示例:** COCO 中两人一车，各带框。\n\n**步骤:** 检测=**位置+类别** → **2**。","concept_1":"**示例:** (x,y,w,h) 标区域。\n\n**步骤:** **2**。","concept_2":"**示例:** Faster R-CNN = RPN + RoI。\n\n**步骤:** **2**。","concept_3":"**示例:** YOLO 网格预测。\n\n**步骤:** **3**。","concept_4":"**示例:** IoU=交/并。\n\n**步骤:** **2**。","concept_5":"**示例:** NMS 去重。\n\n**步骤:** **2**。","ox_0":"**示例:** 框+类。\n\n**步骤:** 对 **1**。","ox_1":"**示例:** IoU 需交集与并集。\n\n**步骤:** 错 **0**。","ox_2":"**示例:** 两阶段流程。\n\n**步骤:** 对 **1**。","ox_3":"**示例:** YOLO 是一阶段。\n\n**步骤:** 错 **0**。","ox_4":"**示例:** NMS 去重。\n\n**步骤:** 对 **1**。","ox_5":"**示例:** mAP 是标准指标。\n\n**步骤:** 对 **1**。","scenario_0":"**步骤:** 显存不足→缩小规模 **2**。","scenario_1":"**步骤:** 重叠→NMS **1**。","scenario_2":"**步骤:** 实时→YOLO **3**。","scenario_3":"**步骤:** 小目标→分辨率/FPN **2**。","vote_0":"**计算:** 7×7=49。**答案 49**。","vote_1":"**计算:** 8×8=64。**答案 64**。","vote_2":"**计算:** 6×6=36。**答案 36**。","vote_3":"**计算:** 10×10=100。**答案 100**。","scenario_4":"**步骤:** 验证 mAP 低→过拟合 **2**。","scenario_5":"**步骤:** 重设锚框 **1**。","scenario_6":"**步骤:** IoU 过低→质量降 **2**。","scenario_7":"**步骤:** FPN/高分辨率 **1**。","scenario_8":"**步骤:** 误报→提高 confidence **2**。","scenario_9":"**步骤:** 用 mAP 比较 **1**。","vote_4":"**计算:** 4×4=16。**答案 16**。","vote_5":"**计算:** 32+32-16=48。**答案 48**。","vote_6":"**计算:** 7×7=49。**答案 49**。","vote_7":"**计算:** 2×4=8。**答案 8**。","vote_8":"**计算:** 5×5=25。**答案 25**。","vote_9":"**计算:** 3×6=18。**答案 18**。","aggregate_0":"**计算:** 20+20-8=32。**答案 32**。","aggregate_1":"**计算:** 24+24-10=38。**答案 38**。","aggregate_2":"**计算:** 5×4=20。**答案 20**。","aggregate_3":"**计算:** 9×9=81。**答案 81**。","ensemble_0":"**计算:** 4×4=16。**答案 16**。","ensemble_1":"**计算:** 8×8=64。**答案 64**。","ensemble_2":"**计算:** 35+35-21=49。**答案 49**。","ensemble_3":"**计算:** 5×5=25。**答案 25**。","aggregate_4":"**计算:** 36+36-12=60。**答案 60**。","aggregate_5":"**计算:** 6×8=48。**答案 48**。","aggregate_6":"**计算:** 11×11=121。**答案 121**。","aggregate_7":"**计算:** 45+30-15=60。**答案 60**。","aggregate_8":"**计算:** 6×6=36。**答案 36**。","aggregate_9":"**计算:** 12×12=144。**答案 144**。","config_0":"**计算:** 5×5=25。**答案 25**。","config_1":"**计算:** 6×6=36。**答案 36**。","config_2":"**计算:** 7×7=49。**答案 49**。","config_3":"**计算:** 8×8=64。**答案 64**。","config_4":"**计算:** 9×9=81。**答案 81**。","config_5":"**计算:** 4×4=16。**答案 16**。","config_6":"**计算:** 3×3=9。**答案 9**。","config_7":"**计算:** 10×10=100。**答案 100**。","config_8":"**计算:** 7×7=49。**答案 49**。","config_9":"**计算:** 8×8=64。**答案 64**。","ensemble_4":"**计算:** 7×7=49。**答案 49**。","ensemble_5":"**计算:** 6×6=36。**答案 36**。","ensemble_6":"**计算:** 3×3=9。**答案 9**。","ensemble_7":"**计算:** 8×8=64。**答案 64**。"},"problemAnswers":{"concept_0":2,"concept_1":2,"concept_2":2,"concept_3":3,"concept_4":2,"concept_5":2,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":0,"ox_4":1,"ox_5":1,"scenario_0":2,"scenario_1":1,"scenario_2":3,"scenario_3":2,"vote_0":49,"vote_1":64,"vote_2":36,"vote_3":100,"scenario_4":2,"scenario_5":1,"scenario_6":2,"scenario_7":1,"scenario_8":2,"scenario_9":1,"vote_4":16,"vote_5":48,"vote_6":49,"vote_7":8,"vote_8":25,"vote_9":18,"aggregate_0":32,"aggregate_1":38,"aggregate_2":20,"aggregate_3":81,"ensemble_0":16,"ensemble_1":64,"ensemble_2":49,"ensemble_3":25,"aggregate_4":60,"aggregate_5":48,"aggregate_6":121,"aggregate_7":60,"aggregate_8":36,"aggregate_9":144,"config_0":25,"config_1":36,"config_2":49,"config_3":64,"config_4":81,"config_5":16,"config_6":9,"config_7":100,"config_8":49,"config_9":64,"ensemble_4":49,"ensemble_5":36,"ensemble_6":9,"ensemble_7":64},"problemTestCodes":{"concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 3\nassert answer == 3","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 2\nassert answer == 2","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 0\nassert answer == 0","ox_4":"answer = 1\nassert answer == 1","ox_5":"answer = 1\nassert answer == 1","scenario_0":"answer = 2\nassert answer == 2","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 3\nassert answer == 3","scenario_3":"answer = 2\nassert answer == 2","vote_0":"answer = 7 * 7\nassert answer == 49","vote_1":"answer = 8 * 8\nassert answer == 64","vote_2":"answer = 6 * 6\nassert answer == 36","vote_3":"answer = 10 * 10\nassert answer == 100","scenario_4":"answer = 2\nassert answer == 2","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 2\nassert answer == 2","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 2\nassert answer == 2","scenario_9":"answer = 1\nassert answer == 1","vote_4":"inter = 4 * 4\nanswer = inter\nassert answer == 16","vote_5":"inter = 4 * 4\nunion = 32 + 32 - inter\nanswer = union\nassert answer == 48","vote_6":"answer = 7 * 7\nassert answer == 49","vote_7":"answer = 2 * 4\nassert answer == 8","vote_8":"answer = 5 * 5\nassert answer == 25","vote_9":"answer = 3 * 6\nassert answer == 18","aggregate_0":"inter = 8\nunion = 20 + 20 - inter\nanswer = union\nassert answer == 32","aggregate_1":"inter = 10\nunion = 24 + 24 - inter\nanswer = union\nassert answer == 38","aggregate_2":"inter = 5 * 4\nanswer = inter\nassert answer == 20","aggregate_3":"answer = 9 * 9\nassert answer == 81","ensemble_0":"answer = 4 * 4\nassert answer == 16","ensemble_1":"answer = 8 * 8\nassert answer == 64","ensemble_2":"inter = 21\nunion = 35 + 35 - inter\nanswer = union\nassert answer == 49","ensemble_3":"answer = 5 * 5\nassert answer == 25","aggregate_4":"inter = 12\nunion = 36 + 36 - inter\nanswer = union\nassert answer == 60","aggregate_5":"answer = 6 * 8\nassert answer == 48","aggregate_6":"answer = 11 * 11\nassert answer == 121","aggregate_7":"inter = 15\nunion = 45 + 30 - inter\nanswer = union\nassert answer == 60","aggregate_8":"inter = 6 * 6\nanswer = inter\nassert answer == 36","aggregate_9":"answer = 12 * 12\nassert answer == 144","config_0":"assert 5 * 5 == 25","config_1":"assert 6 * 6 == 36","config_2":"assert 7 * 7 == 49","config_3":"assert 8 * 8 == 64","config_4":"assert 9 * 9 == 81","config_5":"assert 4 * 4 == 16","config_6":"assert 3 * 3 == 9","config_7":"assert 10 * 10 == 100","config_8":"assert 7 * 7 == 49","config_9":"assert 8 * 8 == 64","ensemble_4":"answer = 7 * 7\nassert answer == 49","ensemble_5":"answer = 6 * 6\nassert answer == 36","ensemble_6":"answer = 3 * 3\nassert answer == 9","ensemble_7":"answer = 8 * 8\nassert answer == 64"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"medium","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh14":{"chapter":"Chapter 12","title":"RAG: 用检索减轻幻觉","description":"设想公司里的**制度问答机器人**。员工问「**今年年假能累计几天？**」，若模型用**过时但听起来合理**的规则作答，信任会立刻崩塌——这就是**幻觉(Hallucination)**：说得像真的，但**没有可靠依据**。\n\n**RAG（检索增强生成）** 像**开卷答题**：**先查资料、贴进提示、再写答案**。**Closed-book（闭卷）** 只靠训练记忆，**跟不上**每周新增的 PDF、新闻和内部库，**全量重训**也不现实。流程是 **检索 → 填空（增强）→ 生成**。\n\n实务中常见说法：长文档切成**块(一页)**，用**嵌入**把意思变成**数字坐标**，**向量库**按相似度**快速找文**，**Top-k** 只取**前 k 块**，**cos（余弦）** 看**方向是否相近**，**ctx** 是**一次最多能读**的长度，**提示**是**指令+问题**全文，**Token（词元）** 约是**词/字**大小的小单位。**budget = ctx−提示−问题** 就是答题纸上**减掉题目说明后剩下的空位**。本章用比喻与数字讲解，不做艰深证明。","sectionTitle":"RAG: 检索支撑有据回答","whatIs":{"0":"**1. 开卷 vs 闭卷：RAG 为何出现**\n\n只用大模型回答，相当于 **Closed-book（闭卷）**：像**默写考试**，只能凭**训练时记住的内容**作答。**RAG（检索增强生成）** 更像**开卷**：答题前先去**资料库（文档存储）** 找相关**一页（块/Chunk）**，贴进提示再写答案。\n\n常见流程是 **检索 → 填空（增强）→ 生成**。先选出相关块，填入模板的 `{context}` 空位，最后由模型生成回复。\n\n员工问「**今年年假规定有什么变化？**」时，闭卷可能**凭去年的常识**说得头头是道；RAG 会找到**今年人事制度 PDF 第 7 页**，并**以该页为据**回答。差别不在措辞是否漂亮，而在**是否引用了具体页面**。","1":"**2. 嵌入：把文字变成坐标**\n\n计算机很难直接比较「退款」「退货」的**语义**，所以用**嵌入**把句子变成**一串数字（向量）**，让相近主题在空间里**靠得更近**，就像地图上咖啡店聚在一起。\n\n检索时用**余弦相似度（cos）**：看两个向量**方向是否接近（角度）**，比直线距离更能反映**话题是否相关**。「**退款**」与「**退货·拒付**」相近，「**午餐菜单**」则较远。RAG 按 cos 排序，优先选用最相关的块。","2":"**3. 分块与 Top-$k$ 检索**\n\n一份 **500 页**的制度 PDF 无法每次整本塞进提示，需要**分块**：把长文切成**一口大小（例如 200 token）** 再入库。切得越细，**可检索的块越多**；但块太短会**丢失上下文**。\n\n用户提问后，用嵌入与 cos 排序，**Top-$k$** 只把**最相关的前 k 块**交给模型（**k=3** 即 3 块）。海量块要靠**向量库**快速查找，类似图书馆的**卡片目录**——不必每次重读全书，只取**相似片段**。\n\n**k 过大**时，无关段落容易混入，成本也会上升，因此需要**合适的 k**，并非越多越好。","3":"**4. 上下文预算与提示模板**\n\n模型一次能读的文字有上限 **ctx（上下文长度）**，可想象成**一张答题纸**。先占用**系统提示**和**用户问题**的位置，**剩余空间**才用来贴检索到的块，这部分叫**块预算**，计算公式为 **budget = ctx−提示−问题**。\n\n粘贴时使用**提示模板**：固定格式，`{context}` 放检索内容，`{question}` 放用户问题，并常附带「**仅根据下文回答**」，减少模型**脱离资料瞎猜**。\n\n例如 ctx=**4096**，提示 **512**，问题 **200**，预算为 **3384**；若每块约 **200** token，大约可贴 **3384 // 200 ≈ 16** 块。**减法算预算**与 **// 算最多块数** 是同一流程的前后两步。"},"whyImportant":{"0":"**1. 为什么需要 RAG — 从“装懂”到可核对**\n\n大模型很会**把话说顺**。遇到**内部制度、产品手册、昨天的新闻**等**没学过或常变**的信息时，仍可能**语气笃定却答错**；错误答案有时已进入**审批或客服**才被发现。\n\nRAG **先查资料再写**。可以追到「**制度 PDF 第 12 页第 3 段**」，文档或检索不对时**改资料、调 k**。目标不是**零幻觉**，而是让答案**更容易核实**。\n\n**例：**「**海外配送也适用 7 天退款吗？**」— 闭卷易**套用国内规则**；RAG 会找**配送条款块**再**有条件**回答。","1":"**2. 不重训整模，也能跟上“今天的知识”**\n\n**周一早上**上传新制度 PDF，通常不会为此**把 7B 从头训一遍**。RAG 里**切块 → 嵌入 → 更新向量库**即可，**同一个模型**当天就能引用新条文。\n\n**比喻：** 教材出了**新版**，换**图书馆书架**即可，不必**给每个学生重做大脑**。\n\n**例：**「**2026 福利 FAQ**」— 场景题里常选**更新分块与向量库**而非**全量重训**，原因在此。","2":"**3. 模型再聪明，页给错了也会错 — 检索是半边产品**\n\n生成再强，**检索页错了**业务上也会错。「**退货**」问题若贴上「**食堂菜单**」块，措辞再顺也不可用。\n\n答案异常时，先看 **Top-k**、**块大小**、**重叠**、**重排**，不要只调 **temperature**（回答随机度）。**recall@k** 问的是「**正确答案有没有进前 k 名？**」——**检索成绩单**，与文笔好坏分开评估。RAG 把 **①依据 ②时效 ③检索质量** 放在**同一条流水线**上管理。"},"howUsed":{"0":"**① 建“知识图书馆”(入库·分块)**\n\n先收集规章、手册、FAQ 等**可信文档**，切成**块**并保留**文件名、页码**等**元数据**，以便日后「**出示出处**」。\n\n块经**嵌入**写入**向量库**，像建**卡片目录**，避免每次把五百页 PDF 整本塞进提示，之后只取**相关片段**。","1":"**② 找最匹配的页(检索)**\n\n问题也**向量化**，按 cos(q,c) 取 **Top-$k$**（例如 **5 块**），必要时**重排/去重**。\n\n「**能检索但答案怪**」时，多半先查 **k、块大小与重叠**，再动生成参数。","2":"**③ 组装试卷(增强)**\n\n在 **ctx−提示−问题** 的**预算**内拼接块，填入模板 `{context}`，并写「**仅根据下文回答**」。这是 **Augment** — 让模型读**贴上的页**，而不是空猜。","3":"**④ 写出答案(生成) — 四步连成一线**\n\n模型生成回复；好的产品会给出**链接、页码、块 ID**。记录 **k、块大小、预算、分数**，幻觉或过时答案增多时**调检索**。\n\n串联起来：**采集/分块**像把资料切成**披萨片**入库（分割器、向量库）；**检索**用**书签**般的嵌入、cos、Top-$k$ 找页；**增强**在开卷卷面上按**模板与预算**贴参考；**生成**让 LLM **对着参考写**。一句话：**建库 → 找页 → 填空 → 生成**。"},"problemSolving":{"0":"做题时先想 **闭卷默写(Closed-book) vs 开卷查书(RAG)**。闭卷**无检索**；RAG **找页**后用 cos(q,c)、**Top-$k$**、**预算**、**模板**填空再**生成**。\n\n记住 **检索→增强→生成**。**预算 = ctx−提示−问题**，再 **预算 // 块大小** 得最多几块。**temperature** 管回答**随机性**，不等于检索好坏。\n\n**常见计算：** 4096−512−200=**3384** · Top-$k$=**5** → **5** 块 · 1200÷200 → 1200 // 200= **6**。余弦：「**退货**」↔「**退款制度**」近；「**食堂**」远。\n\n---\n\n**示例 (概念 · concept)** — 最接近 RAG：**② 检索→增强→生成** → **2**\n\n---\n\n**示例 (判断 · ox)** — 用嵌入检索 → **1**\n\n---\n\n**示例 (判断 · ox)** — 闭卷先 Top-k PDF → **0**","1":"一次会话里常见 **上下文预算(vote)、Top-k(vote)、块数(aggregate/config)**。套路是：**ctx 减去提示与问题，再 // 块大小**。\n\n**示例 (上下文预算 · vote)** — 上限 **4096**，提示 **512**，问题 **200** → 块预算? → **3384**\n\n---\n\n**示例 (Top-k · vote)** — Top-k **5** → 选几块? → **5**\n\n---\n\n**示例 (块数量 · aggregate)** — 预算 **1200**，块大小 **200** → 1200 // 200= **6**\n\n---\n\n**示例 (整除 · config)** — 1400 // 200 接近 → **7**","2":"**示例 (场景 · scenario)**\n\n「制度问答要**紧急更新 PDF**。**先做?** ①全量重训 ②**重新分块并更新向量库** ③去掉 softmax」\n→ **答案 2**\n\n---\n\n**示例 (场景 · scenario)**\n\n「能检索但答案仍偏。**先看?** ①temperature=0 ②**Top-k、块大小、重排** ③显卡驱动」\n→ **答案 2**\n\n---\n\n**示例 (概念 · concept)**\n\n「**Top-k** 过大常见副作用? ①无法检索 ②**噪声与成本上升** ③嵌入维度为0」\n→ **答案 2**\n\n---\n\n**示例 (概念 · concept)**\n\n「**嵌入** 最接近? ①优化器名 ②**把文本变成向量做相似检索** ③只做批归一化」\n→ **答案 2**","3":"**示例 (判断 · ox)**\n\n「**提示模板** 在 `{context}`、`{question}` 处填入检索结果。」\n→ **答案 1**\n\n---\n\n**示例 (判断 · ox)**\n\n「**余弦相似度** 大则 **欧氏距离** 一定小（教学简化）。」\n→ 余弦看**方向** → **答案 0**\n\n---\n\n**示例 (流水线 · ensemble)**\n\n「Top-k **2**，每块摘要 **4** 句 → 总句数? ($2 \\times 4$)」\n→ **8**\n\n---\n\n**示例 (上下文预算 · vote)**\n\n「上限 **8192**，提示 **1024**，问题 **256** → 块预算?」\n→ **6912**\n\n---\n\n**示例 (块数量 · config)**\n\n「预算 **2400**，块大小 **200** → **12**」"},"summary":"用一句话概括本章：**RAG 就是开卷答题**——先**检索**相关资料，**增强**时把内容填进提示里的空位，最后**生成**答案。三步记作：**检索 → 填空(增强) → 生成**。\n\n检索阶段会从长文档里挑出与问题相近的**文本块**。**余弦相似度** cos(q,c) 表示「问题 **q** 与块 **c** 在语义上是否指向相近方向」，分数高的保留 **Top-$k$** 块即可。增强阶段把选中的块放进**提示模板**的 `{context}` 位置。模型一次最多能读 **ctx** 个 token；减去**系统提示**和**用户问题**后，剩下的才是可贴资料的**预算**：**预算 = ctx−提示−问题**。若每块约 **200** token，大约能贴 **预算 // 块大小** 块。\n\n**举例**：员工问「**退款政策是什么？**」，用 cos 从制度 PDF 里选出**最相关的 3 块**贴进提示，而不是整本塞进去。若 **ctx=4096**，提示占 **512**、问题占 **200**，就要先减掉 **512+200**，只在**剩余空间**里放依据。\n\n若**一次检索仍不够**（需要跨多份文档推理），会延伸到**多跳检索**（根据上一轮结果再搜）或**智能体**（自动规划下一步查什么）。","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"如何使用","summary":"小结","problemSolving":"解题说明"},"formulaGuide":{"title":"如何读公式（RAG）","linear":"**1. 余弦相似度 + Top-k — 检索核心**\n\n检索要比较问题 **q** 与文本块 **c** 在语义上是否指向相近方向，这个分数叫**余弦相似度**：\n$$\\text{cos}(\\mathbf{q},\\mathbf{c})=\\dfrac{\\mathbf{q}\\cdot\\mathbf{c}}{\\|\\mathbf{q}\\|\\|\\mathbf{c}\\|}$$\n\n**q** 是查询嵌入，**c** 是块嵌入。分数越高通常越相关（常读在 **0–1** 附近），再取 **Top-$k$** 只保留**前 $k$** 块（**k=5** 即五块）。像视频站用标题/描述的**坐标**推荐「**接下来看**」；分数 **0.92, 0.81, 0.55, 0.30, 0.12** 时 **Top-k=3** 用**前三块**。「**差旅报销**」应贴近「**交通餐费**」，远离「**社团通讯**」。记：**方向 → 前 k → 贴证据**。","xavierVariance":"**2. 分块 — 一口大小**\n\n长文不能每次整本粘贴，要切成**块**入库。千页**菜谱**拆成**菜谱卡片**；问「**汤底**」只抽汤类卡。\n\n需调节**块大小**（如 **200** token）与**重叠**（如 **40** token）。「**7 日内退款**」若在边界被切断且无重叠，条件可能落到下一块而**搜不到**。**20 token** 太短缺语境；**800 token** 一块可占满预算。**大小 + 重叠** 是检索底座。","heVariance":"**3. 上下文预算 — 一张答题纸**\n\n**ctx** 像一张答题纸：先写**系统提示**和**用户问题**，**剩余**才贴块。\n$$\\text{chunk\\_budget}=\\text{ctx}-\\text{prompt}-\\text{query}$$\n\n4096−512−200=**3384**；1200 // 200= **6** 块；8192−1024−256=**6912**。**减法算预算**与 **// 算最多块数** 是同一流程的前后两步。","xavierUniform":"**4. 提示模板 — 填空**\n\n用**固定格式**发送，`{retrieved_chunks}` 只填 **Top-$k$** 正文，结构是「**仅根据下文作答**」+ **粘贴区** + **题目**。\n\n```\nContext:\n{retrieved_chunks}\n\nQuestion: {user_query}\nAnswer:\n```\n\n例如贴 `[块1] 购买后7日内可退...`，再问 `海外配送可退吗?`。模板就是**增强(Augment) 的盒子**。"},"formulaGuideDiagramCaption":"读图时，柱高表示 **cos(q,c)**；**绿线下 Top-k** 的块填入模板空位。","formulaGuideDiagramAria":"RAG 示意图：查询-块相似度与 Top-k","formulaGuideDiagramFrozenHint":"相似度","advDlCh14FormulaGuideLossHint":"Top-k · 相似块","advDlCh14VisualInputLabel":"用户问题","visual":"上方可视化展示同一问题在 **只靠记忆(Closed-book)** 与 **开卷 RAG** 中的不同路径：**建库 → 检索 → 填空 → 有据回答**。请结合正文分步阅读标签。","problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"题库 **60** 题均为 **RAG（检索增强生成）**。每轮 **5** 题按**易→难**(2·2·1)抽取，**题型(前缀+难度)不重复**。计算题考 **Top-k、上下文预算、块数**；概念/判断/场景考 **Closed-book vs RAG**。建议先读「解题说明」。","practiceProblemsInstruction":"选择最合适的选项。","practiceProblemsInstructionCalc":"计算后选择最合适的选项。","practiceProblemsInstructionConcept":"概念题，选择最合适的选项。","practiceProblemsInstructionOx":"对填 1，错填 0。","practiceProblemsInstructionScenario":"选择最合适的应对。","practiceProblemsInstructionVote":"选择与你计算结果一致的选项。","practiceProblemsInstructionAggregate":"选择与 Top-k、预算或块数计算结果一致的选项。","practiceProblemsInstructionConfig":"选择符合预算//块大小的值。","practiceProblemsInstructionEnsemble":"选择符合 RAG 流水线/Top-k/块组合计算的值。","advDlCh14VisualIntro":"问 **「退款政策？」** 时，Closed-book **只靠记忆**，RAG **Top-k 检索→增强→生成**。","advDlCh14VisualConceptTitle":"Closed-book：只靠记忆 · RAG：检索后生成","advDlCh14VisualSectionTitle":"RAG 一览","advDlCh14VisualMetaphor":"Closed-book=闭卷；RAG=**开卷查资料**","advDlCh14VisualClosedBookLaneTitle":"Closed-book — 无检索生成","advDlCh14VisualRagLaneTitle":"RAG — 检索·增强·生成","advDlCh14VisualTwoStageHint":"无外部文档→**幻觉与过时信息**风险","advDlCh14VisualRagHint":"**存储→嵌入→Top-k→增强→生成**","advDlCh14VisualQueryLabel":"查询","advDlCh14VisualEmbedLabel":"嵌入","advDlCh14VisualRetrieveLabel":"检索","advDlCh14VisualAugmentLabel":"增强","advDlCh14VisualGenerateLabel":"生成","advDlCh14VisualTopInputLabel":"用户问题","advDlCh14VisualTopFeatureLabel":"嵌入向量","advDlCh14VisualTopOutputLabel":"有据回答","advDlCh14VisualBackboneLabel":"文档库","advDlCh14VisualProposalLabel":"向量检索","advDlCh14VisualProposalHint":"cos(q,c) 候选块","advDlCh14VisualRoILabel":"Top-k 选择","advDlCh14VisualRoIHint":"相似度前 k 块","advDlCh14VisualHeadLabel":"LLM 生成头","advDlCh14VisualBboxLabel":"文本块","advDlCh14VisualGridCellLabel":"块大小","advDlCh14VisualGridHint":"按 token 切分","advDlCh14VisualAnchorHint":"重叠保留边界语境","advDlCh14VisualNmsLabel":"上下文预算","advDlCh14VisualNmsHint":"ctx − prompt − query","advDlCh14VisualMapLabel":"提示模板","advDlCh14VisualMapHint":"{context}+{question}","advDlCh14VisualLossLabel":"幻觉·有据率","advDlCh14VisualFlowTitle":"一个问题如何被处理","advDlCh14VisualStep0":"收到**用户问题**","advDlCh14VisualStep1":"**嵌入**以便算相似度","advDlCh14VisualStep2":"Closed-book 不检索；RAG 取 **Top-k**","advDlCh14VisualStep3":"在**预算**内用**模板**增强","advDlCh14VisualStep4":"**生成**并记录来源与 k","advDlCh14VisualClosedBookStep0":"① 用户问题","advDlCh14VisualClosedBookStep1":"② 仅参数记忆","advDlCh14VisualClosedBookStep2":"③ 无外部检索","advDlCh14VisualClosedBookStep3":"④ 幻觉风险","advDlCh14VisualRagStep0":"① 嵌入查询与块","advDlCh14VisualRagStep1":"② **Top-k** 相似块","advDlCh14VisualRagStep2":"③ **增强→生成**","problems":{"concept_0":"下列哪项最接近 **RAG(检索增强生成)** 的目标?\n① 只无限增大 LLM 权重\n② **检索外部文档、填入提示后生成回答**\n③ 只分割图像像素\n④ 只把学习率设为 0","concept_1":"**分块(Chunking)** 最接近的描述是?\n① 文档只按单字存储\n② **把长文档切成适合检索与上下文的小块**\n③ 测量 GPU 温度\n④ 去掉 softmax","concept_2":"**嵌入(Embedding)** 的作用最接近?\n① 总是生成随机字符串\n② **把文本变成向量以便相似度检索**\n③ 只做批归一化\n④ 删除模型","concept_3":"用**余弦相似度**检索时，核心是什么?\n① 只把 L2 范数置零\n② **查询与块向量方向越接近，相关性越高**\n③ 总是用交并比\n④ 学习率调度","concept_4":"**Top-k** 检索中 k=5 时，最接近的说法是?\n① 只分 5 个类别\n② 只生成 5 句话\n③ **只取相似度最高的 5 个块**\n④ 只训练 5 个 epoch","concept_5":"**增强(Augment)** 阶段最接近?\n① 丢弃检索结果\n② **把检索块插入提示模板**\n③ 权重置零\n④ **闭卷 Closed-book，不检索**","ox_0":"RAG 会先从**外部知识库**检索相关文档再生成回答。\n对填 1，错填 0。","ox_1":"RAG 流程中**完全不需要**嵌入或向量检索。\n对填 1，错填 0。","ox_2":"把长文档**分块**后更容易在上下文窗口内检索。\n对填 1，错填 0。","ox_3":"Top-k 中 **k 越大，准确率只会一直上升**。\n对填 1，错填 0。","ox_4":"检索阶段常用**余弦相似度**比较查询与文本块。\n对填 1，错填 0。","ox_5":"把检索内容填入**提示模板**以减少幻觉，是 RAG 的核心思路。\n对填 1，错填 0。","scenario_0":"嵌入**批处理时 GPU OOM**。**首先**应尝试?\n① 无限增大 batch 与序列长度\n② **减小 batch、块长度或模型维度**\n③ 删除文档库\n④ 把 Top-k 设为 0","scenario_1":"检索结果中**同一块重复出现**。**首先**应?\n① 随机打乱标签\n② **去重或重排(re-rank)**\n③ 删除嵌入模型\n④ 上下文预算设为无限","scenario_2":"需要依据**最新制度 PDF** 作答。结构上最接近?\n① 只用**闭卷 Closed-book LLM**\n② 只调学习率\n③ **RAG：文档库 + 检索 + 生成**\n④ 停止数据增强","scenario_3":"块**太小**导致语境被截断。**首先**应?\n① 相似度阈值设为 0\n② **调整块大小与重叠**\n③ 只用 Top-k=1\n④ 删除提示模板","vote_0":"检索 **Top-k=5** 时，取几块?","vote_1":"Top-k=**3** 时，取几块?","vote_2":"上下文预算 **1000** token，每块 **200** token 时，**最多几块**? (1000 // 200)","vote_3":"预算 **2000** token，每块 **500** token 时，**最多几块**? (2000 // 500)","scenario_4":"RAG 回答看似合理，但**引用的 PDF 块与问题无关**。**应先**检查?\n① 只把 temperature 设为 0\n② **Top-k、余弦相似度、块大小、重排(recall@k)**\n③ 只调学习率\n④ 去掉 softmax","scenario_5":"块大小与文档结构**不匹配**。**首先**应?\n① **重设块大小与重叠**\n② 改写余弦定义\n③ 去掉 Top-k\n④ 上下文预算为 0","scenario_6":"相似度**阈值过低**。常见后果是?\n① 准确率恒为 100%\n② **无关块混入导致回答变差**\n③ 不需要嵌入\n④ 变成闭卷模型","scenario_7":"想提高**专业领域文档**准确率，应?\n① **补充领域文档或微调嵌入**\n② 总是随机猜\n③ 删除向量库\n④ 去掉损失函数","scenario_8":"**幻觉引用**过多。**首先**调节?\n① 关闭检索\n② **引用、temperature、Top-k**\n③ 类别数为 0\n④ 删除 LLM","scenario_9":"要**公平比较** RAG 系统，应看?\n① 只看训练 loss\n② **有据准确率、recall@k 等标准指标**\n③ 只数块数量\n④ 不用相似度","vote_4":"上下文上限 **4096**，系统提示 **512**，用户问题 **200** token 时，**可用于检索块的 token** 是? (4096-512-200)","vote_5":"块 **3** 个、每块 **400** token 时，**块合计 token** 是? ($3 \\times 400$)","vote_6":"Top-k=**4** 时取几块?","vote_7":"预算 **1500** token，每块 **300** token 时，**最多几块**? (1500 // 300)","vote_8":"上限 **8192**，提示 **1024**，问题 **256** token 时，**块预算** 是? (8192-1024-256)","vote_9":"预算 **3600** token，每块 **600** token 时，**最多几块**? (3600 // 600)","aggregate_0":"预算 **1200** token，每块 **200** token 时，**最多几块**? (1200 // 200)","aggregate_1":"预算 **1400** token，每块 **200** token 时，**最多几块**? (1400 // 200)","aggregate_2":"上下文上限 **2048**，系统提示 **256**，用户问题 **128** token 时，**块预算** 是? (2048-256-128)","aggregate_3":"预算 **3000** token，每块 **100** token 时，**最多几块**? (3000 // 100)","ensemble_0":"Top-k=**2**，每块摘要 **4** 句时，**总句数**? ($2 \\times 4$)","ensemble_1":"Top-k=**3**，每块 **3** 条要点时，**要点总数**? ($3 \\times 3$)","ensemble_2":"Top-k=**5** 时取几块?","ensemble_3":"Top-k=**3**，每块 **4** 个元数据字段时，**字段总数**? ($3 \\times 4$)","aggregate_4":"预算 **2000** token，每块 **200** token 时，**最多几块**? (2000 // 200)","aggregate_5":"块 **35** 个、每块 **100** token 时，**总 token**? ($35 \\times 100$)","aggregate_6":"Top-k=**2**，每块 **4** 个来源标签时，**标签总数**? ($2 \\times 4$)","aggregate_7":"Top-k=**4** 时取几块?","aggregate_8":"预算 **1500** token，每块 **100** token 时，**最多几块**? (1500 // 100)","aggregate_9":"预算 **2000** token，每块 **100** token 时，**最多几块**? (2000 // 100)","config_0":"块预算 **1200**、每块 **200** token 时，**最多几块**?","config_1":"预算 **1400**、每块 **200** token 时，**最多几块**?","config_2":"预算 **1600**、每块 **200** token 时，**最多几块**?","config_3":"预算 **1800**、每块 **200** token 时，**最多几块**?","config_4":"预算 **2000**、每块 **200** token 时，**最多几块**?","config_5":"预算 **800**、每块 **200** token 时，**最多几块**?","config_6":"预算 **600**、每块 **200** token 时，**最多几块**?","config_7":"预算 **2400**、每块 **200** token 时，**最多几块**?","config_8":"预算 **1000**、每块 **200** token 时，**最多几块**?","config_9":"预算 **1200**、每块 **200** token 时，**最多几块**?","ensemble_4":"Top-k=**5** 时取几块?","ensemble_5":"Top-k=**4** 时取几块?","ensemble_6":"Top-k=**3**，每块 **3** 个元数据字段时，**总数**? ($3 \\times 3$)","ensemble_7":"Top-k=**7** 时取几块?"},"problemSolutions":{"concept_0":"**示例:** 检索社内 PDF 后作答。\n\n**步骤:** RAG=检索+生成 → **2**。","concept_1":"**示例:** 按 512 token 分块。\n\n**步骤:** **2**。","concept_2":"**示例:** 查询·文档→向量。\n\n**步骤:** **2**。","concept_3":"**示例:** 用 cos(q,c) 排序。\n\n**步骤:** **2**。","concept_4":"**示例:** 取前 5 块。\n\n**步骤:** **3**。","concept_5":"**示例:** 插入 context。\n\n**步骤:** **2**。","ox_0":"**示例:** 检索外部知识库。\n\n**步骤:** 对 **1**。","ox_1":"**示例:** 嵌入必不可少。\n\n**步骤:** 错 **0**。","ox_2":"**示例:** 分块便于检索。\n\n**步骤:** 对 **1**。","ox_3":"**示例:** k 越大噪声越多。\n\n**步骤:** 错 **0**。","ox_4":"**示例:** 余弦相似度。\n\n**步骤:** 对 **1**。","ox_5":"**示例:** 模板+上下文。\n\n**步骤:** 对 **1**。","scenario_0":"**步骤:** OOM→缩小规模 **2**。","scenario_1":"**步骤:** 重复→去重 **2**。","scenario_2":"**步骤:** 最新文档→RAG **3**。","scenario_3":"**步骤:** 调整块大小 **2**。","vote_0":"**计算:** Top-k=5。**答案 5**。","vote_1":"**计算:** Top-k=3。**答案 3**。","vote_2":"**计算:** 1000 // 200 = 5。**答案 5**。","vote_3":"**计算:** 2000 // 500 = 4。**答案 4**。","scenario_4":"**步骤:** 引用块不对→调检索 **2**。","scenario_5":"**步骤:** 重设块 **1**。","scenario_6":"**步骤:** 阈值过低→噪声 **2**。","scenario_7":"**步骤:** 领域文档·微调 **1**。","scenario_8":"**步骤:** 幻觉→引用·temperature **2**。","scenario_9":"**步骤:** recall@k 等 **1**。","vote_4":"**计算:** 4096-512-200=3384。**答案 3384**。","vote_5":"**计算:** $3 \\times 400 = 1200$。**答案 1200**。","vote_6":"**计算:** Top-k=4。**答案 4**。","vote_7":"**计算:** 1500 // 300 = 5。**答案 5**。","vote_8":"**计算:** 8192-1024-256=6912。**答案 6912**。","vote_9":"**计算:** 3600 // 600 = 6。**答案 6**。","aggregate_0":"**计算:** 1200 // 200 = 6。**答案 6**。","aggregate_1":"**计算:** 1400 // 200 = 7。**答案 7**。","aggregate_2":"**计算:** 2048-256-128=1664。**答案 1664**。","aggregate_3":"**计算:** 3000 // 100 = 30。**答案 30**。","ensemble_0":"**计算:** $2 \\times 4 = 8$。**答案 8**。","ensemble_1":"**计算:** $3 \\times 3 = 9$。**答案 9**。","ensemble_2":"**计算:** Top-k=5。**答案 5**。","ensemble_3":"**计算:** $3 \\times 4 = 12$。**答案 12**。","aggregate_4":"**计算:** 2000 // 200 = 10。**答案 10**。","aggregate_5":"**计算:** $35 \\times 100 = 3500$。**答案 3500**。","aggregate_6":"**计算:** $2 \\times 4 = 8$。**答案 8**。","aggregate_7":"**计算:** Top-k=4。**答案 4**。","aggregate_8":"**计算:** 1500 // 100 = 15。**答案 15**。","aggregate_9":"**计算:** 2000 // 100 = 20。**答案 20**。","config_0":"**计算:** 1200 // 200 = 6。**答案 6**。","config_1":"**计算:** 1400 // 200 = 7。**答案 7**。","config_2":"**计算:** 1600 // 200 = 8。**答案 8**。","config_3":"**计算:** 1800 // 200 = 9。**答案 9**。","config_4":"**计算:** 2000 // 200 = 10。**答案 10**。","config_5":"**计算:** 800 // 200 = 4。**答案 4**。","config_6":"**计算:** 600 // 200 = 3。**答案 3**。","config_7":"**计算:** 2400 // 200 = 12。**答案 12**。","config_8":"**计算:** 1000 // 200 = 5。**答案 5**。","config_9":"**计算:** 1200 // 200 = 6。**答案 6**。","ensemble_4":"**计算:** Top-k=5。**答案 5**。","ensemble_5":"**计算:** Top-k=4。**答案 4**。","ensemble_6":"**计算:** $3 \\times 3 = 9$。**答案 9**。","ensemble_7":"**计算:** Top-k=7。**答案 7**。"},"problemAnswers":{"concept_0":2,"concept_1":2,"concept_2":2,"concept_3":2,"concept_4":3,"concept_5":2,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":0,"ox_4":1,"ox_5":1,"scenario_0":2,"scenario_1":2,"scenario_2":3,"scenario_3":2,"vote_0":5,"vote_1":3,"vote_2":5,"vote_3":4,"scenario_4":2,"scenario_5":1,"scenario_6":2,"scenario_7":1,"scenario_8":2,"scenario_9":1,"vote_4":3384,"vote_5":1200,"vote_6":4,"vote_7":5,"vote_8":6912,"vote_9":6,"aggregate_0":6,"aggregate_1":7,"aggregate_2":1664,"aggregate_3":30,"ensemble_0":8,"ensemble_1":9,"ensemble_2":5,"ensemble_3":12,"aggregate_4":10,"aggregate_5":3500,"aggregate_6":8,"aggregate_7":4,"aggregate_8":15,"aggregate_9":20,"config_0":6,"config_1":7,"config_2":8,"config_3":9,"config_4":10,"config_5":4,"config_6":3,"config_7":12,"config_8":5,"config_9":6,"ensemble_4":5,"ensemble_5":4,"ensemble_6":9,"ensemble_7":7},"problemTestCodes":{"concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 2\nassert answer == 2","concept_3":"answer = 2\nassert answer == 2","concept_4":"answer = 3\nassert answer == 3","concept_5":"answer = 2\nassert answer == 2","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 0\nassert answer == 0","ox_4":"answer = 1\nassert answer == 1","ox_5":"answer = 1\nassert answer == 1","scenario_0":"answer = 2\nassert answer == 2","scenario_1":"answer = 2\nassert answer == 2","scenario_2":"answer = 3\nassert answer == 3","scenario_3":"answer = 2\nassert answer == 2","vote_0":"answer = 5\nassert answer == 5","vote_1":"answer = 3\nassert answer == 3","vote_2":"answer = 1000 // 200\nassert answer == 5","vote_3":"answer = 2000 // 500\nassert answer == 4","scenario_4":"answer = 2\nassert answer == 2","scenario_5":"answer = 1\nassert answer == 1","scenario_6":"answer = 2\nassert answer == 2","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 2\nassert answer == 2","scenario_9":"answer = 1\nassert answer == 1","vote_4":"answer = 4096 - 512 - 200\nassert answer == 3384","vote_5":"answer = 3 * 400\nassert answer == 1200","vote_6":"answer = 4\nassert answer == 4","vote_7":"answer = 1500 // 300\nassert answer == 5","vote_8":"answer = 8192 - 1024 - 256\nassert answer == 6912","vote_9":"answer = 3600 // 600\nassert answer == 6","aggregate_0":"answer = 1200 // 200\nassert answer == 6","aggregate_1":"answer = 1400 // 200\nassert answer == 7","aggregate_2":"answer = 2048 - 256 - 128\nassert answer == 1664","aggregate_3":"answer = 3000 // 100\nassert answer == 30","ensemble_0":"answer = 2 * 4\nassert answer == 8","ensemble_1":"answer = 3 * 3\nassert answer == 9","ensemble_2":"answer = 5\nassert answer == 5","ensemble_3":"answer = 3 * 4\nassert answer == 12","aggregate_4":"answer = 2000 // 200\nassert answer == 10","aggregate_5":"answer = 35 * 100\nassert answer == 3500","aggregate_6":"answer = 2 * 4\nassert answer == 8","aggregate_7":"answer = 4\nassert answer == 4","aggregate_8":"answer = 1500 // 100\nassert answer == 15","aggregate_9":"answer = 2000 // 100\nassert answer == 20","config_0":"assert 1200 // 200 == 6","config_1":"assert 1400 // 200 == 7","config_2":"assert 1600 // 200 == 8","config_3":"assert 1800 // 200 == 9","config_4":"assert 2000 // 200 == 10","config_5":"assert 800 // 200 == 4","config_6":"assert 600 // 200 == 3","config_7":"assert 2400 // 200 == 12","config_8":"assert 1000 // 200 == 5","config_9":"assert 1200 // 200 == 6","ensemble_4":"answer = 5\nassert answer == 5","ensemble_5":"answer = 4\nassert answer == 4","ensemble_6":"answer = 3 * 3\nassert answer == 9","ensemble_7":"answer = 7\nassert answer == 7"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"medium","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh17":{"chapter":"Chapter 17","title":"自编码器：先压缩再重建","description":"复杂图像或高维数据 $x$ 送入网络后，模型先把数据压成**核心摘要代码 $z$**（潜在表示），再还原为同形状的 $\\hat{x}$，这就是 **自编码器**。唯一训练目标是缩小 $x$ 与 $\\hat{x}$ 的 **重构损失**；无需类别标签，是典型 **无监督学习**。本章在窄**瓶颈**上夯实**降维**与**异常检测**，为下一章 **VAE（变分自编码器）** 打基础。","sectionTitle":"自编码器：先压缩再重建","whatIs":{"0":"**1. 对称结构：编码器与解码器**\n\n**概念:** **编码器** $f_\\theta$ 把输入 $x$ 变为 $z=f_\\theta(x)$，**解码器** $g_\\phi$ 再得到 $\\hat{x}=g_\\phi(z)$。$z$ 被限制在比输入小得多的**瓶颈**里。\n\n**直觉:** 目击者用“眼型、鼻型…”几句特征（$z$）描述嫌疑人，画师（解码器）再据此还原整张脸。","1":"**2. 损失：重构得有多好**\n\n**概念:** 实值连续特征常用逐像素 **MSE** $\\frac{1}{d}\\sum_i (x_i-\\hat{x}_i)^2$；$[0,1]$ 灰度图也可用 **BCE**。\n\n**直觉:** 像把原图与拷贝叠在一起逐像素打分。","2":"**3. 为何需要瓶颈**\n\n若 $z$ 与输入同维，网络可能只做**复制粘贴（恒等映射）**。收窄瓶颈才会把**真实模式**压进 $z$。\n\n**实战（异常检测）:** 只用**正常**样本训练重构；**异常**样本往往**重构误差**很大。","3":"**4. 去噪自编码器（DAE）**\n\n**应用:** 故意加噪声或遮挡，再训练还原**干净目标**，学到更**稳健**的特征。","4":"**5. 什么是潜在空间？**\n\n**概念:** **潜在空间**指 **编码器输出的代码 $z$ 所“居住”的低维向量空间**，不是原始像素/输入空间。每个样本对应空间中的 **一个点（坐标向量）**；训练后，相似输入往往落在 **邻近** 区域，不同模式则 **相距更远**，从而形成一定的 **几何结构**。\n\n**在自编码器中:** 瓶颈维度 $k$ 就是潜在空间的 **维数**。解码器 $g_\\phi$ 把该空间中的点 **映射** 回高维 $\\hat{x}$。（下一章 **VAE** 会在该空间上叠加 **概率分布**，用于采样与 **生成**。）","5":"**6. 什么是 PCA？**\n\n**概念:** **PCA（主成分分析，Principal Component Analysis）**是一种**线性**降维：按方差从大到小找出数据**伸展最明显的方向**，得到彼此正交的**主成分轴**；把数据**投影**到前几个轴上，就得到**尽量保留方差的低维摘要**（被舍弃方向上的方差不再保留）。\n\n**与自编码器对比:** PCA 只做**线性变换**；带非线性激活的自编码器能学习**更复杂的弯曲结构**，复杂数据上往往更灵活。（**线性**自编码器配合 MSE 在特定条件下可与 PCA 建立直观联系。）"},"whyImportant":{"0":"**超越 PCA 的降维**\n\n如前面对 **PCA** 的说明，PCA 本质上是**线性**压缩。自编码器借助非线性激活，把高维数据**更灵活地**压到 2–3 维便于可视化。","1":"**无需标签的特征学习**\n\n标注昂贵。自编码器只用原始数据就能学出 $z$；预训练编码器可作为分类等任务的**迁移学习**起点。","2":"**通往生成式 AI**\n\n在压缩之外，想象“稍微改动潜在 $z$ 就能生成新面孔/新图像”，自然通向 **VAE** 与 **GAN**。"},"howUsed":{"0":"**第1步：归一化与缩放**\n\n像素多在 $0$–$255$，用 **Min–Max** 映射到 $[0,1]$，或按通道 **标准化**。**RGB** 保持 $(R,G,B)$ 顺序，各批次用相同预处理。尺度不一致会使 MSE 梯度尺度混乱，收敛变慢或不稳定。","1":"**第2步：结构、瓶颈 $k$、损失**\n\n**图像**多用保留局部的 **卷积自编码器（CAE）**；**向量/序列**可用一维卷积或全连接堆叠。$k$ 越小压缩越强但细节损失越大；越大越易重构但概括变弱—用**验证损失**选 $k$。实值输出常用 **MSE**，接近 $[0,1]$ 的灰度可考虑 **BCE**。","2":"**第3步：训练循环、输出与稳定**\n\n按小批量计算 $\\hat{x}$ 并反向传播 MSE/BCE。目标在 $[0,1]$ 时解码器末层加 **sigmoid**。配合 **Adam**、**学习率调度**，必要时 **梯度裁剪**。**划分训练/验证**；过拟合则 **早停**、**Dropout/权重衰减** 或 **去噪自编码器**。","3":"**第4步：评估、可视化、下游**\n\n不仅看损失曲线，还要**目视** $\\hat{x}$。将潜变量 $z$ **投影到二维**（如 t-SNE）观察结构或离群点。**异常检测**：仅用正常样本训练，在验证集上定重构误差**阈值**。可将**编码器**冻结或微调用于**少标签分类**或**聚类**。","4":"**应用场景速览**\n\n| 目的 | 要点 |\n| --- | --- |\n| **异常检测** | 只用正常数据训练 → **重构误差高**的样本可疑 |\n| **去噪** | **DAE**：损坏输入 → 干净目标 |\n| **降维·可视化** | 窄 $z$ 或对 $z$ 做二维投影 |\n| **表示预训练** | 编码器接到分类器等做**迁移** |"},"problemSolving":{"0":"自编码器题目把“**$z=f_\\theta(x)$，$\\hat{x}=g_\\phi(z)$**”一行和“用**重构损失**对齐 $x$ 与 $\\hat{x}$”的目标放在一起想会好解。**瓶颈**处通常 **$k \\ll d$**；**全连接**一层 $d \\to k$ 的参数大致是**权重 $d \\times k$ + 偏置 $k$**。**展平图像长度**为高×宽（RGB 则 **×3**）；**patch 个数**（无 CLS）为 $(H/p)\\times(W/p)$，与 **ViT patch/格子**（第五章复习）同一套思路。","1":"**异常检测**：只用**正常**数据学**重构**，**重构误差**大的样本可疑。**去噪自编码器**把损坏输入还原成干净目标，学**稳健特征**。实值像素常用 **MSE**，$[0,1]$ 灰度等常用 **BCE**。出现 **$k/d$ 或百分比**时对齐分子分母。","2":"**卷积自编码器**用第十二章 **CNN** 在保留**局部空间结构**的前提下堆编码器/解码器。**$k$ 过大**易接近**恒等复制**，题目常考缩小 **$k$** 时**压缩与表达能力**如何权衡。","3":"下一章 **VAE** 在**潜在 $z$**上加入**概率分布**走向**生成**。“**概率化**潜在、**采样/生成**”等关键词请联想到 **VAE**。"},"summary":"**一句话:** 编码器把数据压进窄瓶颈 $z$，解码器还原为 $\\hat{x}$，最小化重构误差以学习关键结构。\n\n**联系:** 可自由组合全连接与 CNN 搭建编解码块；数据越复杂，卷积自编码器往往越合适。\n\n**下一章:** 在潜在 $z$ 上引入**概率分布**做**生成**的 **VAE**。","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"如何使用","summary":"小结"},"formulaGuide":{"title":"如何读公式（自编码器）","linear":"**1. 编码器·解码器一行式**\n\n$z=f_\\theta(x)$, $\\hat{x}=g_\\phi(z)$。损失例如 $\\mathcal{L}=\\|x-\\hat{x}\\|_2^2$。\n\n- **$z$：** 瓶颈处的**潜码**\n- **$\\hat{x}$：** **重构输出**","xavierVariance":"**2. 瓶颈与压缩**\n\n输入维度 $d$，潜在 $k\\ll d$，压缩比约 $k/d$。\n\n- **$k$ 越小** 压缩越强（可能信息损失）\n- **$k$ 越大** 重构更易但概括可能变弱","heVariance":"**3. 线性自编码器与 PCA**\n\n线性激活且用 MSE 时，在特定条件下与**主成分方向**有直观联系（视数据与约束而定）。\n\n- **非线性**可表达更丰富","xavierUniform":"**4. 实务提示**\n\n统一数据尺度；调节瓶颈与深度；需要时用加噪 **DAE** 学稳健表示。"},"formulaGuideDiagramCaption":"**要点:** $x$ 压到窄的 $z$，再展开为 $\\hat{x}$，与 $x$ 比较。","formulaGuideDiagramAria":"自编码器示意图: 输入编码器瓶颈解码器损失","formulaGuideDiagramFrozenHint":"瓶颈","advDlCh17FormulaGuideLossHint":"比较 x 与 x̂ · 重构损失","advDlCh17VisualInputLabel":"输入","visual":"动画：按顺序高亮——输入→编码器→瓶颈 z→解码器→重建 x̂→重构损失。","problemSolvingLabel":"解题提示","practiceProblemsTitle":"练习题","practiceProblemsIntro":"题库 **60** 题均为 **自编码器** 相关（压缩、重构、瓶颈、异常检测、CAE、图像块与 patch 网格、全连接层参数等）。每轮 **10** 题，难度 **易4→中3→难3**，且**同一轮内题型（前缀+难度）不重复**。","practiceProblemsInstruction":"选择最合适的选项。","practiceProblemsInstructionCalc":"选择最合适的选项。","practiceProblemsInstructionConcept":"选择最合适的选项。","practiceProblemsInstructionOx":"选择最合适的选项。","practiceProblemsInstructionScenario":"选择最合适的选项。","practiceProblemsInstructionVote":"选择最合适的选项。","practiceProblemsInstructionAggregate":"选择最合适的选项。","practiceProblemsInstructionConfig":"选择最合适的选项。","practiceProblemsInstructionEnsemble":"选择最合适的选项。","advDlCh17VisualIntro":"**输入 $x$** 经 **编码器** 压到潜在 **瓶颈 $z$**，**解码器** 再展开为 **$\\hat{x}$**。**重构损失**越小，越接近原输入。","advDlCh17VisualConceptTitle":"概念：编码器→瓶颈→解码器","advDlCh17VisualSectionTitle":"自编码器：压缩与重建","advDlCh17VisualMetaphor":"像把长文写成便签再扩写回去。","advDlCh17VisualTopInputLabel":"输入图像","advDlCh17VisualTopLatentLabel":"潜在表示","advDlCh17VisualTopReconLabel":"重建图像","advDlCh17VisualEncoderLabel":"编码器","advDlCh17VisualBottleneckLabel":"瓶颈 z","advDlCh17VisualBottleneckHint":"维度在此处最小","advDlCh17VisualDecoderLabel":"解码器","advDlCh17VisualReconLabel":"重建 x̂","advDlCh17VisualLossLabel":"损失","advDlCh17VisualFlowTitle":"训练流程","advDlCh17VisualStep0":"**① 输入：** 送入 $x$。","advDlCh17VisualStep1":"**② 编码器：** $x\\to z$。","advDlCh17VisualStep2":"**③ 瓶颈：** 小的 $z$。","advDlCh17VisualStep3":"**④ 解码器：** $z\\to \\hat{x}$。","advDlCh17VisualStep4":"**⑤ 损失：** 最小化 $x$ 与 $\\hat{x}$ 的差异。","advDlCh17VisualStage0":"输入 x","advDlCh17VisualStage1":"编码器","advDlCh17VisualStage2":"瓶颈 z","advDlCh17VisualStage3":"解码器","advDlCh17VisualStage4":"损失","problems":{"concept_0":"下列哪项最接近**自编码器**的训练目标？\n① 只最大化分类准确率\n② **最小化重构损失以良好重构输入**\n③ 只最大化强化学习奖励\n④ 删除数据集","concept_1":"关于潜在向量 $z$ 的作用，下列哪项最恰当？\n① 总是与输入同维\n② **压缩后的摘要表示**\n③ 只存类别概率\n④ 存学习率","concept_2":"灰度图像向量常用的重构损失是？\n① **MSE（均方误差）**\n② 只用纯交叉熵（总是）\n③ 准确率\n④ F1","concept_3":"当瓶颈维度 $k$ **减小**时，一般可期待什么？\n① 重构总是更容易\n② 信息总是保留更多\n③ **更强的压缩（表示容量受限）**\n④ 损失失去意义","concept_4":"哪项最符合 **Denoising AE**？\n① 把所有标签设为 0\n② **训练模型从损坏输入重构干净目标**\n③ 总是学习恒等映射\n④ 去掉注意力","concept_5":"仅用正常数据训练后，**重构误差很大**的样本可疑，对应哪类应用？\n① 总是分类\n② **异常检测**\n③ 只做数据增强\n④ 量化","ox_0":"自编码器常常由**编码器和解码器**组成。\n对填 1，错填 0。","ox_1":"瓶颈 $z$ 的维度必须总是高于输入 $x$。\n对填 1，错填 0。","ox_2":"降低重构损失是典型的训练目标。\n对填 1，错填 0。","ox_3":"线性激活 + MSE 的线性 AE **总与** GAN 完全相同。\n对填 1，错填 0。","ox_4":"使用卷积层可以在重构中利用空间结构。\n对填 1，错填 0。","ox_5":"自编码器可以**没有分类标签**、仅靠重构训练。\n对填 1，错填 0。","scenario_0":"**自编码器训练时** GPU 显存不足，**首先**应尝试什么？\n① 减小批量、输入或模型宽度\n② 无限提高学习率\n③ 删除全部数据\n④ 去掉损失","scenario_1":"要做异常检测应怎么做？\n① **用正常数据训练重构并标记大误差**\n② 随机打乱标签\n③ 只做全量微调\n④ 只换优化器","scenario_2":"噪声很大的图像想要**稳健特征**？\n① 只用 0 填充\n② **像 Denoising AE 那样从噪声输入重构干净原图**\n③ 用 0 层\n④ 停止训练","scenario_3":"瓶颈太宽、接近恒等复制时应怎么做?\n① **缩小瓶颈或加强正则**\n② 只做量化\n③ 只用一半数据\n④ 学习率固定为 0","vote_0":"$$28\\times28$ 灰度图**展平为一维**后的输入维度 $d$ 是？","vote_1":"$$16\\times16$ 灰度图展平后的 $d$ 是？","vote_2":"$$32\\times32$ 灰度图展平后的 $d$ 是？","vote_3":"$$224\\times224$ 用 $16\\times16$ 分块的**patch 个数**（无 CLS）是？","scenario_4":"验证 MSE 远高于训练 MSE，首先怀疑？\n① **过拟合**\n② 训练太慢\n③ 批量总是 1\n④ 优化器名字","scenario_5":"像素在 [0,255] 范围时应考虑？\n① 总是原样最好\n② **归一化（如到 [0,1]）**\n③ 增加标签\n④ 删除通道","scenario_6":"要对潜在空间**概率化建模并生成**，下一章自然选什么？\n① **VAE**\n② 只有恒等\n③ 只有 k-means\n④ 只有 PCA","scenario_7":"把自编码器的 $z$ 当作分类器输入，较接近的策略是？\n① **表示学习后用少量标签做线性分类**\n② 总是随机猜\n③ 丢数据\n④ 去掉损失","scenario_8":"使用 CNN 编码器的原因较接近？\n① **利用局部模式与空间结构**\n② 参数总为 0\n③ 只用 RNN\n④ 禁止 padding","scenario_9":"DAE 中加噪声的主要目的较接近？\n① **学习稳健特征**\n② 准确率总为 0\n③ 删数据\n④ 停止训练","vote_4":"$$32\\times16$ 灰度图展平后的 $d$ 是？","vote_5":"$$32\\times32$ **RGB 三通道**展平后的 $d$ 是？","vote_6":"宽 16、高 8 的灰度图展平后的 $d$ 是？","vote_7":"一层全连接 $d_{in}=100$, $d_{out}=20$，**权重个数**（不含偏置）是？","vote_8":"$$6\\times6\\times2$ 张量展平长度是？","vote_9":"输入 $d=1000$，瓶颈 $k=500$，把 **$k/d$ 表为整数百分比**（如 50% → **50**）？","aggregate_0":"**AE 实验**中把瓶颈 $k$ 的三个候选记为 **[3,4,5]**，其**和**是？","aggregate_1":"同样，候选 **[2,6,7]** 的**和**是？","aggregate_2":"瓶颈候选三次都取 **6**（$6+6+6$），**和**是？","aggregate_3":"候选 **[2,3,6]** 的**和**是？","ensemble_0":"**图像输入** $224\\times224$ 按 $16\\times16$ 分 patch，**无 CLS** 时 patch token 数？","ensemble_1":"**Patch 网格**：每边 **8** 个 patch 的正方形，总 patch 数？","ensemble_2":"单层**线性编码器** $d_{in}=20$, $d_{out}=20$，**权重个数**（不含偏置）？","ensemble_3":"$$96\\times96$，patch $8\\times8$，**无 CLS** 时 patch 数？","aggregate_4":"多次记录的瓶颈候选 **[7,7,7,7]**，**和**是？","aggregate_5":"候选 **[11,11,11]** 的**和**是？","aggregate_6":"瓶颈候选 **3** 记录了 **7** 次，**和**是？（$3\\times7$）","aggregate_7":"候选 **[4,5,10]** 的**和**是？","aggregate_8":"记录 **[3,4,5,6,6]** 的**和**是？","aggregate_9":"同一候选 **5** 累加 **6** 次的**和**是？（$5\\times6$）","config_0":"**图像→patch 网格**：横纵各 **8** 个 patch 的正方形网格，总格数？","config_1":"每边 **9** 个 patch，总格数？","config_2":"每边 **10** 个 patch，总格数？","config_3":"每边 **11** 个 patch，总格数？","config_4":"每边 **12** 个 patch，总格数？","config_5":"每边 **6** 个 patch，总格数？","config_6":"每边 **7** 个 patch，总格数？","config_7":"每边 **16** 个 patch，总格数？","config_8":"每边 **20** 个 patch，总格数？","config_9":"每边 **25** 个 patch，总格数？","ensemble_4":"$$30\\times30$ 灰度图展平后的 $d$ 是？","ensemble_5":"**196** 个 patch token + **1** 个 CLS，序列长度？","ensemble_6":"输入 $d=16$，瓶颈 $k=2$ 的**单层线性**编码器（仅权重、无偏置）权重个数？","ensemble_7":"$$32\\times32$ **不切 patch**、整幅展平为一向量，长度？"},"problemSolutions":{"concept_0":"**示例:** MNIST 重构实验中最小化 MSE。\n\n**步骤:** 目标是缩小 $x$ 与 $\\hat{x}$ 的差距 → **2**。","concept_1":"**示例:** $z$ 是低维摘要。\n\n**步骤:** **2**。","concept_2":"**示例:** 实值像素用 MSE。\n\n**步骤:** **1**。","concept_3":"**示例:** $k$ 变小则压缩更强。\n\n**步骤:** **3**。","concept_4":"**示例:** 噪声输入→干净目标。\n\n**步骤:** **2**。","concept_5":"**示例:** 仅正常训练→误差大判异常。\n\n**步骤:** **2**。","ox_0":"**示例:** 多为编码器–解码器结构。\n\n**步骤:** 对 **1**。","ox_1":"**示例:** 瓶颈通常更小。\n\n**步骤:** 错 **0**。","ox_2":"**示例:** 典型目标。\n\n**步骤:** 对 **1**。","ox_3":"**示例:** GAN 目标与结构不同。\n\n**步骤:** 错 **0**。","ox_4":"**示例:** 卷积 AE 利用空间结构。\n\n**步骤:** 对 **1**。","ox_5":"**示例:** 可无监督重构。\n\n**步骤:** 对 **1**。","scenario_0":"**步骤:** 显存不足先缩小规模 → **1**。","scenario_1":"**步骤:** 正常训练后设误差阈值 → **1**。","scenario_2":"**步骤:** DAE 适合噪声鲁棒 → **2**。","scenario_3":"**步骤:** 缩瓶颈/加强正则 → **1**。","vote_0":"**计算:** $28\\times28=784$。**答案 784**。","vote_1":"**计算:** $16\\times16=256$。**答案 256**。","vote_2":"**计算:** $32\\times32=1024$。**答案 1024**。","vote_3":"**计算:** $(224/16)^2=196$。**答案 196**。","scenario_4":"**步骤:** 验证误差高→过拟合 → **1**。","scenario_5":"**步骤:** 尺度归一化 → **2**。","scenario_6":"**步骤:** VAE 概率潜在 → **1**。","scenario_7":"**步骤:** 表示学习+少标签 → **1**。","scenario_8":"**步骤:** CNN 利用空间结构 → **1**。","scenario_9":"**步骤:** DAE 目的为鲁棒性 → **1**。","vote_4":"**计算:** $32\\times16=512$。**答案 512**。","vote_5":"**计算:** $32\\times32\\times3=3072$。**答案 3072**。","vote_6":"**计算:** $16\\times8=128$。**答案 128**。","vote_7":"**计算:** $100\\times20=2000$。**答案 2000**。","vote_8":"**计算:** $6\\times6\\times2=72$。**答案 72**。","vote_9":"**计算:** $k/d=0.5$ → 百分比 **50**。","aggregate_0":"**示例:** $3+4+5=12$。**答案 12**。","aggregate_1":"**示例:** $2+6+7=15$。**答案 15**。","aggregate_2":"**示例:** $6+6+6=18$。**答案 18**。","aggregate_3":"**示例:** $2+3+6=11$。**答案 11**。","ensemble_0":"**计算:** $(224/16)^2=196$。**答案 196**。","ensemble_1":"**计算:** $8\\times8=64$。**答案 64**。","ensemble_2":"**计算:** 仅权重 $20\\times20=400$。**答案 400**。","ensemble_3":"**计算:** $(96/8)^2=144$。**答案 144**。","aggregate_4":"**示例:** $7\\times4=28$。**答案 28**。","aggregate_5":"**示例:** $11\\times3=33$。**答案 33**。","aggregate_6":"**示例:** $3\\times7=21$。**答案 21**。","aggregate_7":"**示例:** $4+5+10=19$。**答案 19**。","aggregate_8":"**示例:** $3+4+5+6+6=24$。**答案 24**。","aggregate_9":"**示例:** $5\\times6=30$。**答案 30**。","config_0":"**计算:** $8\\times8=64$。**答案 64**。","config_1":"**计算:** $9\\times9=81$。**答案 81**。","config_2":"**计算:** $10\\times10=100$。**答案 100**。","config_3":"**计算:** $11\\times11=121$。**答案 121**。","config_4":"**计算:** $12\\times12=144$。**答案 144**。","config_5":"**计算:** $6\\times6=36$。**答案 36**。","config_6":"**计算:** $7\\times7=49$。**答案 49**。","config_7":"**计算:** $16\\times16=256$。**答案 256**。","config_8":"**计算:** $20\\times20=400$。**答案 400**。","config_9":"**计算:** $25\\times25=625$。**答案 625**。","ensemble_4":"**计算:** $30\\times30=900$。**答案 900**。","ensemble_5":"**计算:** $196+1=197$。**答案 197**。","ensemble_6":"**计算:** 仅权重 $16\\times2=32$。**答案 32**。","ensemble_7":"**计算:** $32\\times32=1024$。**答案 1024**。"},"problemAnswers":{"concept_0":2,"concept_1":2,"concept_2":1,"concept_3":3,"concept_4":2,"concept_5":4,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":0,"ox_4":1,"ox_5":0,"scenario_0":1,"scenario_1":1,"scenario_2":2,"scenario_3":1,"vote_0":784,"vote_1":256,"vote_2":1024,"vote_3":196,"scenario_4":1,"scenario_5":2,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"vote_4":512,"vote_5":3072,"vote_6":128,"vote_7":2000,"vote_8":72,"vote_9":50,"aggregate_0":12,"aggregate_1":15,"aggregate_2":18,"aggregate_3":11,"ensemble_0":196,"ensemble_1":64,"ensemble_2":400,"ensemble_3":144,"aggregate_4":28,"aggregate_5":33,"aggregate_6":21,"aggregate_7":19,"aggregate_8":24,"aggregate_9":30,"config_0":64,"config_1":81,"config_2":100,"config_3":121,"config_4":144,"config_5":36,"config_6":49,"config_7":256,"config_8":400,"config_9":625,"ensemble_4":900,"ensemble_5":197,"ensemble_6":32,"ensemble_7":1024},"problemTestCodes":{"concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 1\nassert answer == 1","concept_3":"answer = 3\nassert answer == 3","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 4\nassert answer == 4","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 0\nassert answer == 0","ox_4":"answer = 1\nassert answer == 1","ox_5":"answer = 0\nassert answer == 0","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 2\nassert answer == 2","scenario_3":"answer = 1\nassert answer == 1","vote_0":"answer = 784\nassert answer == 784","vote_1":"answer = 256\nassert answer == 256","vote_2":"answer = 1024\nassert answer == 1024","vote_3":"answer = 196\nassert answer == 196","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 2\nassert answer == 2","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","vote_4":"answer = 512\nassert answer == 512","vote_5":"answer = 3072\nassert answer == 3072","vote_6":"answer = 128\nassert answer == 128","vote_7":"answer = 2000\nassert answer == 2000","vote_8":"answer = 72\nassert answer == 72","vote_9":"answer = 50\nassert answer == 50","aggregate_0":"values = [3, 4, 5]\nassert sum(values) == 12","aggregate_1":"values = [2, 6, 7]\nassert sum(values) == 15","aggregate_2":"values = [6, 6, 6]\nassert sum(values) == 18","aggregate_3":"values = [2, 3, 6]\nassert sum(values) == 11","ensemble_0":"answer = 196\nassert answer == 196","ensemble_1":"answer = 64\nassert answer == 64","ensemble_2":"answer = 400\nassert answer == 400","ensemble_3":"answer = 144\nassert answer == 144","aggregate_4":"values = [7, 7, 7, 7]\nassert sum(values) == 28","aggregate_5":"values = [11, 11, 11]\nassert sum(values) == 33","aggregate_6":"values = [3, 3, 3, 3, 3, 3, 3]\nassert sum(values) == 21","aggregate_7":"values = [4, 5, 10]\nassert sum(values) == 19","aggregate_8":"values = [3, 4, 5, 6, 6]\nassert sum(values) == 24","aggregate_9":"values = [5, 5, 5, 5, 5, 5]\nassert sum(values) == 30","config_0":"assert 8 * 8 == 64","config_1":"assert 9 * 9 == 81","config_2":"assert 10 * 10 == 100","config_3":"assert 11 * 11 == 121","config_4":"assert 12 * 12 == 144","config_5":"assert 6 * 6 == 36","config_6":"assert 7 * 7 == 49","config_7":"assert 16 * 16 == 256","config_8":"assert 20 * 20 == 400","config_9":"assert 25 * 25 == 625","ensemble_4":"answer = 900\nassert answer == 900","ensemble_5":"answer = 197\nassert answer == 197","ensemble_6":"answer = 32\nassert answer == 32","ensemble_7":"answer = 1024\nassert answer == 1024"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","aggregate_0":"medium","aggregate_1":"medium","aggregate_2":"medium","aggregate_3":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","aggregate_4":"hard","aggregate_5":"hard","aggregate_6":"hard","aggregate_7":"hard","aggregate_8":"hard","aggregate_9":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"medium","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","aggregate_0","aggregate_1","aggregate_2","aggregate_3","ensemble_0","ensemble_1","ensemble_2","ensemble_3","aggregate_4","aggregate_5","aggregate_6","aggregate_7","aggregate_8","aggregate_9","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"advDlCh18":{"chapter":"Chapter 21","title":"GAN 基础：生成与判别的对抗","description":"GAN（Generative Adversarial Network）由能创造内容的 **生成器（Generator, $G$）** 与鉴别真伪的 **判别器（Discriminator, $D$）** 不断对抗、共同进化而成。可把它想成天才伪钞犯与资深刑侦专家的脑力对决：一方伪造更逼真，一方把鉴定技术推到极限。在这场紧张的 **极小极大** 拉锯中，生成器最终可能造出人眼难辨真假的样本。本章结合丰富例子，深入 GAN 的数学原理、极小极大博弈，以及生成器陷入套路的 **模式崩溃**。","sectionTitle":"GAN：生成器与判别器","whatIs":{"0":"**1. GAN 核心结构：生成器与判别器的激烈对抗**\n\nGAN 是两个网络为胜过对方而不断成长的独特结构。**生成器（$G$）** 努力把假数据做得像真的，**判别器（$D$）** 则敏锐地分辨真伪。\n* **比喻：** 赝品画师（生成器）与鉴定师（判别器）互相逼出更高水平。","1":"**2. 极小极大（Minimax）博弈**\n\n核心目标函数为：\n$\\min_G \\max_D V(D, G) = \\mathbb{E}_{x}[\\log D(x)] + \\mathbb{E}_{z}[\\log(1 - D(G(z)))]$\n* **判别器（$D$）最大化：** 真样本 $x$ 上 $D(x)\\to 1$，假样本 $G(z)$ 上 $D(G(z))\\to 0$。\n* **生成器（$G$）最小化：** 让 $D(G(z))\\to 1$，使后一项变小。","2":"**3. 潜在噪声 $z$**\n\n喂给生成器的随机向量称为 **潜在噪声（$z$）**。\n* **比喻：** 像交给雕塑家的一团黏土，$z$ 的细微变化会改变成品的表情与色彩。","3":"**4. 模式崩溃（Mode Collapse）**\n\n生成器不再多样，而是 **无限复制曾骗过判别器的那一种样本**。\n* **比喻：** 餐馆因泡菜汤得满分，就把全年菜单都改成泡菜汤。","4":"**5. 条件 GAN（cGAN）**\n\n把 **条件（$y$）**—类别或文本—与 $z$ 一起输入，例如“画一只猫”“把素描上色”。"},"whyImportant":{"0":"**1. 生成式 AI 的真正起点**\n\n分类器答“这是狗”，GAN 则 **画出世上不存在的狗**—图像、语音等生成革命的重要骨架。","1":"**2. 清晰锐利的细节**\n\n相比输出平均值的模糊模型，GAN 需通过苛刻判别器，发丝与肤质可 **极其锐利**。","2":"**3. 数据增强**\n\n用少量暴雪夜路照片合成大量训练图，或扩充罕见医疗/缺陷样本，供其他模型使用。"},"howUsed":{"0":"**步骤1：归一化与 tanh**\n\n把像素压到 $[-1,1]$。生成器用 **$tanh$** 输出时，真实图像也应同尺度，判别才公平。","1":"**步骤2：BCE 与标签平滑**\n\n用 **二元交叉熵（BCE）** 做真伪分类；**标签平滑**（如目标 $0.9$ 而非 $1.0$）可抑制判别器过度自信。","2":"**步骤3：交替训练**\n\n不要同步猛改 $G$ 与 $D$。常先更新 $D$ 共 $k$ 步，再更新 $G$，并平衡学习率与更新比例。","3":"**步骤4：稳定化与 FID**\n\n目视检查模式崩溃；用 **FID** 比较真假特征分布，越低通常越接近真实分布。"},"problemSolving":{"0":"**先记住这一行:** **生成器 $G$** 用噪声 $z$ **造假**，**判别器 $D$** 分辨 **真 / 假**。先分清 **谁制造、谁判别**，再补上 **极小极大**、**交替更新**、**模式崩溃**。\n\n**出现数字时:** 展平长度为 (高)×(宽)(RGB 乘 **3**)；patch 网格(无 CLS)为 $(H/p)\\times(W/p)$；全连接一层权重约为 $d_{\\mathrm{in}}\\times d_{\\mathrm{out}}$。","1":"**例 (展平)** — GAN 灰度 $28\\times28$ 的 $d$ → **784**\n\n---\n\n**例 (patch 网格)** — $224\\times224$, patch $16\\times16$, 无 CLS → $14^2=$ **196**","2":"**例 (概念)** — GAN 中生成器角色? ② **用噪声 $z$ 造假** → **2**\n\n---\n\n**例 (计算)** — RGB $32\\times32$ 三通道展平 $d$? → **3072**\n\n---\n\n**例 (应用)** — 判别器过强? ① **平衡 G/D 更新**","3":"**定义** — 模式崩溃是反复输出几乎相同样本。→ 选该描述\n\n---\n\n**判断** — 条件 GAN 可使用标签/条件。→ **1**"},"summary":"**一句话总结：** GAN 是一个生成器与判别器的对抗游戏，通过噪声 $z$ 生成逼真的样本。\n\n**关键点：** 稳定性、平衡和多样性决定了模型效果。\n\n**下一步：** 条件 GAN 等变体在此基础上继续扩展。","sectionLabels":{"whatIs":"概念","whyImportant":"重要性","howUsed":"如何使用","summary":"总结"},"formulaGuide":{"title":"公式怎么读（GAN）","linear":"**一句话:** $G$ **造假**，$D$ 判断 **真还是假**。\n\n$\\min_G \\max_D V(D,G)=\\mathbb{E}_{x\\sim p_{data}}[\\log D(x)] + \\mathbb{E}_{z\\sim p(z)}[\\log(1-D(G(z)))]$\n\n**$G$ (生成器):** 把噪声 $z$ 变成 **新的假样本**。\n\n**$D$ (判别器):** 输出输入 **为真的概率**，在 0 到 1 之间。\n\n**$\\min_G \\max_D$:** $G$ 与 $D$ **朝相反方向**争分，所以通常 **交替**训练。\n\n**$V(D,G)$:** 双方竞争的 **目标函数** 名称，即下面 **左项加右项**。\n\n**$\\mathbb{E}_{x\\sim p_{data}}[\\cdot]$ (左项):** 多次随机取真样本 $x$，对 $\\log D(x)$ **求平均**。这是 **真数据** 一侧。\n\n**$\\log D(x)$:** $D(x)$ **越接近 1** 越大。判别器希望把真 $x$ 判成 **真**。\n\n**$\\mathbb{E}_{z\\sim p(z)}[\\cdot]$ (右项):** 多次取噪声 $z$，用 $G(z)$ 造假，再对 $\\log(1-D(G(z)))$ **求平均**。这是 **假数据** 一侧。\n\n**$G(z)$:** 这次噪声 $z$ 造出的 **一张假样本**。\n\n**$\\log(1-D(G(z)))$:** 判别器把假样本判成 **假** ($D(G(z))$ **越接近 0**) 时越大。生成器靠 **骗过** $D$ 占优。\n\n**$D(x)$ 小结:** 任意输入的 **真概率** (近 0 为假，近 1 为真)。"},"formulaGuideDiagramCaption":"**一句话:** 噪声 $z$ 输入生成器，生成假样本，判别器竞争式地判断真伪。","formulaGuideDiagramAria":"GAN 图示: 噪声生成器假样本判别器真伪竞争","formulaGuideDiagramFrozenHint":"竞争","advDlCh18FormulaGuideLossHint":"真伪判别 · 对抗损失","advDlCh18VisualInputLabel":"图像(真或假)","visual":"动画：随机噪声 → 生成器 → 生成图像，图像 → 判别器 → 真实度分数。","problemSolvingLabel":"解题提示","practiceProblemsTitle":"练习题","practiceProblemsIntro":"题库 **60 题** 都是 **GAN** 相关（生成器/判别器、噪声向量、模式崩溃、稳定化、图像尺寸、patch 数和参数计算）。每轮 **10 题**，难度为 **易4→中3→难3**，同一轮内不会重复相同类型。","practiceProblemsInstruction":"请选择最合适的选项。","practiceProblemsInstructionCalc":"请选择最合适的选项。","practiceProblemsInstructionConcept":"请选择最合适的选项。","practiceProblemsInstructionOx":"请选择最合适的选项。","practiceProblemsInstructionScenario":"请选择最合适的选项。","practiceProblemsInstructionVote":"请选择最合适的选项。","practiceProblemsInstructionAggregate":"请选择最合适的选项。","practiceProblemsInstructionConfig":"请选择最合适的选项。","practiceProblemsInstructionEnsemble":"请选择最合适的选项。","advDlCh18VisualIntro":"**真实照片**与**噪声造出的假图**进入**判别器**，分为**真 / 假**。先分清**制造方(G)**与**分辨方(D)**。","advDlCh18VisualConceptTitle":"概念：生成器与判别器","advDlCh18VisualSectionTitle":"GAN：制造与分辨的对决","advDlCh18VisualMetaphor":"像造假者和鉴定师互相提升技艺。","advDlCh18VisualBrandTitle":"GAN :","advDlCh18VisualLatentBridgeHint":"在 AE、VAE 中会成为潜在空间向量","advDlCh18VisualSamplingHint":"从真实样本中采样","advDlCh18VisualRealPoolLabel":"真实数据","advDlCh18VisualRealSampleLabel":"真实样本","advDlCh18VisualNoiseDistHint":"从噪声分布采样潜在变量","advDlCh18VisualFakeGenHint":"生成假图像","advDlCh18VisualGenBadge":"G","advDlCh18VisualDiscBadge":"D","advDlCh18VisualOutputRealLabel":"真","advDlCh18VisualOutputFakeLabel":"假","advDlCh18VisualTopInputLabel":"随机噪声","advDlCh18VisualTopLatentLabel":"生成的图像","advDlCh18VisualTopReconLabel":"判定结果","advDlCh18VisualEncoderLabel":"生成器","advDlCh18VisualBottleneckLabel":"潜在噪声","advDlCh18VisualBottleneckHint":"随机向量是起点","advDlCh18VisualDecoderLabel":"判别器","advDlCh18VisualReconLabel":"真/假判断","advDlCh18VisualLossLabel":"对抗损失","advDlCh18VisualScoreHint":"预测图像有多像真图","advDlCh18VisualFlowTitle":"训练流程","advDlCh18VisualStep0":"**① 准备真图：** 从训练数据里取一张 **真实样本** $x$。","advDlCh18VisualStep1":"**② 随机噪声：** 随机抽取决定画什么的 **噪声** $z$。","advDlCh18VisualStep2":"**③ 生成器工作：** 把噪声 $z$ 变成 **假样本** $\\hat{x}$。","advDlCh18VisualStep3":"**④ 判别器判断：** 看 $x$ 和 $\\hat{x}$，分出 **真 / 假**。","advDlCh18VisualStep4":"**⑤ 轮流学习：** **G** 和 **D** 交替、一点一点更新。","advDlCh18VisualStage0":"真实数据采样","advDlCh18VisualStage1":"随机噪声","advDlCh18VisualStage2":"生成器(G)","advDlCh18VisualStage3":"判别器(D)","advDlCh18VisualStage4":"真/假","problems":{"concept_0":"在 **GAN** 中，生成器最接近的描述是？\n① 负责判断真伪\n② **把噪声 $z$ 变成假样本**\n③ 只保存标签\n④ 去掉损失","concept_1":"关于潜在噪声 $z$，最恰当的说法是？\n① 总是与输入同维\n② **作为新样本生成起点的随机向量**\n③ 只保存正确类别\n④ 保存学习率","concept_2":"GAN 判别器输出通常表示什么？\n① 只预测回归值\n② **输入为真的概率**\n③ 数据集名称\n④ patch 数","concept_3":"GAN 训练为什么容易不稳定？\n① 因为答案固定\n② **因为生成器和判别器同时变化**\n③ 只因为数据太小\n④ 只因为用了 CNN","concept_4":"什么是 mode collapse？\n① 输出变得过于多样\n② **生成器反复产生几乎相同的样本**\n③ 学习率变为 0\n④ 只有两个标签","concept_5":"条件 GAN 的优势最接近哪项？\n① 完全忽略条件\n② **可以用标签或条件控制样本类型**\n③ 从不使用损失\n④ 去掉判别器","ox_0":"GAN 通常由**生成器和判别器**对抗组成。\n对填 1，错填 0。","ox_1":"生成器通常以**噪声 $z$** 作为输入并生成样本。\n对填 1，错填 0。","ox_2":"判别器负责判断输入是真还是假。\n对填 1，错填 0。","ox_3":"GAN 训练总是稳定，模式崩溃不会发生。\n对填 1，错填 0。","ox_4":"让输入尺度与生成器输出范围一致会有帮助。\n对填 1，错填 0。","ox_5":"条件 GAN 可以同时使用标签或条件。\n对填 1，错填 0。","scenario_0":"GAN 训练初期，判别器很快接近 100% 准确率。首先应该尝试什么？\n① **调整生成器与判别器的更新平衡**\n② 无限制提高学习率\n③ 删除整个数据集\n④ 去掉判别器","scenario_1":"生成结果都太像了。最可能的问题是什么？\n① 只是过拟合\n② **模式崩溃**\n③ 只是 padding 错误\n④ 只是归一化太强","scenario_2":"输入图像是 [0,255]，但生成器使用 tanh 输出。首先该做什么？\n① **归一化输入尺度**\n② 增加标签数量\n③ 删除判别器\n④ 把 batch 设为 0","scenario_3":"想用条件 GAN 只生成数字 7，最合适的方法是？\n① 不加条件直接生成\n② **把标签 7 作为条件输入**\n③ 永远不冻结判别器\n④ 去掉噪声","vote_0":"GAN 中用于判别/生成输入的 $28\\times28$ 灰度图展平后的维度 $d$ 是？","vote_1":"GAN 输入用的 $16\\times16$ 灰度图展平后的 $d$ 是？","vote_2":"GAN 输入用的 $32\\times32$ 灰度图展平后的 $d$ 是？","vote_3":"在 GAN 判别器语境下，$224\\times224$ 图像按 $16\\times16$ 分 patch 时(无 CLS)，patch 数是？","scenario_4":"GAN 的 batch size 为 64 时，一半是多少？\n① 16\n② **32**\n③ 48\n④ 64","scenario_5":"潜在噪声向量长度设为 100，通常表示什么？\n① **潜在噪声维度**\n② batch 数\n③ patch 数\n④ 类别数","scenario_6":"判别器太强，生成器梯度几乎消失。首先该考虑什么？\n① **调整学习率、更新比例和正则化**\n② 把数据集减半\n③ 去掉噪声\n④ 把输出固定为 0","scenario_7":"看 GAN 结果时，除了损失还应该看什么？\n① **样本质量与多样性**\n② 文件名\n③ 数字排序\n④ 只看 patch 索引","scenario_8":"在条件 GAN 中，想用文本描述控制输出。最重要的是什么？\n① **让条件信息与生成目标匹配**\n② 去掉判别器\n③ 把噪声全设为 0\n④ 把 batch 固定为 1","scenario_9":"看到模式崩溃时，首先会想到什么问题？\n① **多样性不足**\n② 只是 patch 太多\n③ 只是标签太多\n④ 只是损失不为 0","vote_4":"GAN 预处理用 $32\\times16$ 灰度图展平后的 $d$ 是？","vote_5":"GAN RGB 生成中 $32\\times32$ 三通道图像展平后的 $d$ 是？","vote_6":"GAN 用灰度输入(宽 16, 高 8)展平后的 $d$ 是？","vote_7":"GAN 中常用潜在噪声向量长度为 100 时，$z$ 的维度是？","vote_8":"GAN 训练把 batch 64 平分后，一边是？","vote_9":"GAN 中输入 $d=1000$、潜在噪声维度 $k=500$ 时，$k/d$ 写成整数百分比是？","vote_10":"GAN 输入用的 $24\\times24$ 灰度图展平后的 $d$ 是？","vote_11":"GAN 输入用的 $48\\times48$ 灰度图展平后的 $d$ 是？","vote_12":"GAN RGB 生成中 $16\\times16$ 三通道图像展平后的 $d$ 是？","vote_13":"GAN 训练把 batch 128 平分后，一边是？","ensemble_0":"GAN 判别器语境下，$224\\times224$ 按 $16\\times16$ 分 patch 时(无 CLS)，patch token 数是？","ensemble_1":"把 GAN feature map 看成每边 8 个 patch 的正方网格时，总 patch 数是？","ensemble_2":"GAN 判别器一层线性层 $d_{in}=20$, $d_{out}=20$ 时，权重数是？","ensemble_3":"GAN 判别器语境下，$96\\times96$ 按 $8\\times8$ 分 patch 时，patch 数是？","vote_14":"GAN 输入用的 $64\\times64$ 灰度图展平后的 $d$ 是？","vote_15":"GAN RGB 生成中 $48\\times48$ 三通道图像展平后的 $d$ 是？","vote_16":"GAN 生成器噪声向量长度设为 256 时，$z$ 的维度是？","vote_17":"GAN 训练把 batch 256 平分后，一边是？","vote_18":"GAN 输入用的 $80\\times80$ 灰度图展平后的 $d$ 是？","vote_19":"GAN RGB 生成中 $24\\times24$ 三通道图像展平后的 $d$ 是？","config_0":"GAN 判别器 feature map 网格中，每边 8 个 patch 的正方形总格数是？","config_1":"GAN 判别器 feature map 网格中，每边 9 个 patch 的正方形总格数是？","config_2":"GAN 判别器 feature map 网格中，每边 10 个 patch 的正方形总格数是？","config_3":"GAN 判别器 feature map 网格中，每边 11 个 patch 的正方形总格数是？","config_4":"GAN 判别器 feature map 网格中，每边 12 个 patch 的正方形总格数是？","config_5":"GAN 判别器 feature map 网格中，每边 6 个 patch 的正方形总格数是？","config_6":"GAN 判别器 feature map 网格中，每边 7 个 patch 的正方形总格数是？","config_7":"GAN 判别器 feature map 网格中，每边 16 个 patch 的正方形总格数是？","config_8":"GAN 判别器 feature map 网格中，每边 20 个 patch 的正方形总格数是？","config_9":"GAN 判别器 feature map 网格中，每边 25 个 patch 的正方形总格数是？","ensemble_4":"GAN 生成/判别输入中 $30\\times30$ 灰度图展平后的 $d$ 是？","ensemble_5":"GAN 判别序列中 196 个 patch token 加 1 个 CLS 后，序列长度是？","ensemble_6":"GAN 生成器一层线性层输入 $d=16$、潜在 $k=2$ 时，权重数是？","ensemble_7":"GAN 中 $32\\times32$ 图像不分 patch 直接展平后的长度是？"},"problemSolutions":{"concept_0":"想到 GAN 概念，答案是 2。","concept_1":"想到 GAN 概念，答案是 2。","concept_2":"想到 GAN 概念，答案是 1。","concept_3":"想到 GAN 概念，答案是 3。","concept_4":"想到 GAN 概念，答案是 2。","concept_5":"想到 GAN 概念，答案是 4。","ox_0":"判断句子真伪后，答案是 1。","ox_1":"判断句子真伪后，答案是 0。","ox_2":"判断句子真伪后，答案是 1。","ox_3":"判断句子真伪后，答案是 0。","ox_4":"判断句子真伪后，答案是 1。","ox_5":"判断句子真伪后，答案是 0。","scenario_0":"最自然的选择是 1。","scenario_1":"最自然的选择是 1。","scenario_2":"最自然的选择是 2。","scenario_3":"最自然的选择是 1。","vote_0":"直接计算得到 784。","vote_1":"直接计算得到 256。","vote_2":"直接计算得到 1024。","vote_3":"直接计算得到 196。","scenario_4":"最自然的选择是 1。","scenario_5":"最自然的选择是 2。","scenario_6":"最自然的选择是 1。","scenario_7":"最自然的选择是 1。","scenario_8":"最自然的选择是 1。","scenario_9":"最自然的选择是 1。","vote_4":"直接计算得到 512。","vote_5":"直接计算得到 3072。","vote_6":"直接计算得到 128。","vote_7":"直接计算得到 100。","vote_8":"直接计算得到 32。","vote_9":"直接计算得到 50。","vote_10":"直接计算得到 576。","vote_11":"直接计算得到 2304。","vote_12":"直接计算得到 768。","vote_13":"直接计算得到 64。","ensemble_0":"按结构计数得到 196。","ensemble_1":"按结构计数得到 64。","ensemble_2":"按结构计数得到 400。","ensemble_3":"按结构计数得到 144。","vote_14":"直接计算得到 4096。","vote_15":"直接计算得到 6912。","vote_16":"直接计算得到 256。","vote_17":"直接计算得到 128。","vote_18":"直接计算得到 6400。","vote_19":"直接计算得到 1728。","config_0":"格子/平方计算得到 64。","config_1":"格子/平方计算得到 81。","config_2":"格子/平方计算得到 100。","config_3":"格子/平方计算得到 121。","config_4":"格子/平方计算得到 144。","config_5":"格子/平方计算得到 36。","config_6":"格子/平方计算得到 49。","config_7":"格子/平方计算得到 256。","config_8":"格子/平方计算得到 400。","config_9":"格子/平方计算得到 625。","ensemble_4":"按结构计数得到 900。","ensemble_5":"按结构计数得到 197。","ensemble_6":"按结构计数得到 32。","ensemble_7":"按结构计数得到 1024。"},"problemAnswers":{"concept_0":2,"concept_1":2,"concept_2":1,"concept_3":3,"concept_4":2,"concept_5":4,"ox_0":1,"ox_1":0,"ox_2":1,"ox_3":0,"ox_4":1,"ox_5":0,"scenario_0":1,"scenario_1":1,"scenario_2":2,"scenario_3":1,"vote_0":784,"vote_1":256,"vote_2":1024,"vote_3":196,"scenario_4":1,"scenario_5":2,"scenario_6":1,"scenario_7":1,"scenario_8":1,"scenario_9":1,"vote_4":512,"vote_5":3072,"vote_6":128,"vote_7":100,"vote_8":32,"vote_9":50,"vote_10":576,"vote_11":2304,"vote_12":768,"vote_13":64,"ensemble_0":196,"ensemble_1":64,"ensemble_2":400,"ensemble_3":144,"vote_14":4096,"vote_15":6912,"vote_16":256,"vote_17":128,"vote_18":6400,"vote_19":1728,"config_0":64,"config_1":81,"config_2":100,"config_3":121,"config_4":144,"config_5":36,"config_6":49,"config_7":256,"config_8":400,"config_9":625,"ensemble_4":900,"ensemble_5":197,"ensemble_6":32,"ensemble_7":1024},"problemTestCodes":{"concept_0":"answer = 2\nassert answer == 2","concept_1":"answer = 2\nassert answer == 2","concept_2":"answer = 1\nassert answer == 1","concept_3":"answer = 3\nassert answer == 3","concept_4":"answer = 2\nassert answer == 2","concept_5":"answer = 4\nassert answer == 4","ox_0":"answer = 1\nassert answer == 1","ox_1":"answer = 0\nassert answer == 0","ox_2":"answer = 1\nassert answer == 1","ox_3":"answer = 0\nassert answer == 0","ox_4":"answer = 1\nassert answer == 1","ox_5":"answer = 0\nassert answer == 0","scenario_0":"answer = 1\nassert answer == 1","scenario_1":"answer = 1\nassert answer == 1","scenario_2":"answer = 2\nassert answer == 2","scenario_3":"answer = 1\nassert answer == 1","vote_0":"answer = 784\nassert answer == 784","vote_1":"answer = 256\nassert answer == 256","vote_2":"answer = 1024\nassert answer == 1024","vote_3":"answer = 196\nassert answer == 196","scenario_4":"answer = 1\nassert answer == 1","scenario_5":"answer = 2\nassert answer == 2","scenario_6":"answer = 1\nassert answer == 1","scenario_7":"answer = 1\nassert answer == 1","scenario_8":"answer = 1\nassert answer == 1","scenario_9":"answer = 1\nassert answer == 1","vote_4":"answer = 512\nassert answer == 512","vote_5":"answer = 3072\nassert answer == 3072","vote_6":"answer = 128\nassert answer == 128","vote_7":"answer = 100\nassert answer == 100","vote_8":"answer = 32\nassert answer == 32","vote_9":"answer = 50\nassert answer == 50","vote_10":"answer = 576\nassert answer == 576","vote_11":"answer = 2304\nassert answer == 2304","vote_12":"answer = 768\nassert answer == 768","vote_13":"answer = 64\nassert answer == 64","ensemble_0":"answer = 196\nassert answer == 196","ensemble_1":"answer = 64\nassert answer == 64","ensemble_2":"answer = 400\nassert answer == 400","ensemble_3":"answer = 144\nassert answer == 144","vote_14":"answer = 4096\nassert answer == 4096","vote_15":"answer = 6912\nassert answer == 6912","vote_16":"answer = 256\nassert answer == 256","vote_17":"answer = 128\nassert answer == 128","vote_18":"answer = 6400\nassert answer == 6400","vote_19":"answer = 1728\nassert answer == 1728","config_0":"assert 8 * 8 == 64","config_1":"assert 9 * 9 == 81","config_2":"assert 10 * 10 == 100","config_3":"assert 11 * 11 == 121","config_4":"assert 12 * 12 == 144","config_5":"assert 6 * 6 == 36","config_6":"assert 7 * 7 == 49","config_7":"assert 16 * 16 == 256","config_8":"assert 20 * 20 == 400","config_9":"assert 25 * 25 == 625","ensemble_4":"answer = 900\nassert answer == 900","ensemble_5":"answer = 197\nassert answer == 197","ensemble_6":"answer = 32\nassert answer == 32","ensemble_7":"answer = 1024\nassert answer == 1024"},"problemDifficulty":{"concept_0":"easy","concept_1":"easy","concept_2":"easy","concept_3":"easy","concept_4":"easy","concept_5":"easy","ox_0":"easy","ox_1":"easy","ox_2":"easy","ox_3":"easy","ox_4":"easy","ox_5":"easy","scenario_0":"easy","scenario_1":"easy","scenario_2":"easy","scenario_3":"easy","vote_0":"easy","vote_1":"easy","vote_2":"easy","vote_3":"easy","scenario_4":"medium","scenario_5":"medium","scenario_6":"medium","scenario_7":"medium","scenario_8":"medium","scenario_9":"medium","vote_4":"medium","vote_5":"medium","vote_6":"medium","vote_7":"medium","vote_8":"medium","vote_9":"medium","vote_10":"medium","vote_11":"medium","vote_12":"medium","vote_13":"medium","ensemble_0":"medium","ensemble_1":"medium","ensemble_2":"medium","ensemble_3":"medium","vote_14":"hard","vote_15":"hard","vote_16":"hard","vote_17":"hard","vote_18":"hard","vote_19":"hard","config_0":"hard","config_1":"hard","config_2":"hard","config_3":"hard","config_4":"hard","config_5":"hard","config_6":"hard","config_7":"hard","config_8":"hard","config_9":"hard","ensemble_4":"hard","ensemble_5":"medium","ensemble_6":"hard","ensemble_7":"hard"},"problemOrder":["concept_0","concept_1","concept_2","concept_3","concept_4","concept_5","ox_0","ox_1","ox_2","ox_3","ox_4","ox_5","scenario_0","scenario_1","scenario_2","scenario_3","vote_0","vote_1","vote_2","vote_3","scenario_4","scenario_5","scenario_6","scenario_7","scenario_8","scenario_9","vote_4","vote_5","vote_6","vote_7","vote_8","vote_9","vote_10","vote_11","vote_12","vote_13","ensemble_0","ensemble_1","ensemble_2","ensemble_3","vote_14","vote_15","vote_16","vote_17","vote_18","vote_19","config_0","config_1","config_2","config_3","config_4","config_5","config_6","config_7","config_8","config_9","ensemble_4","ensemble_5","ensemble_6","ensemble_7"]},"paperReviewInfluenceKernelVonMises":{"chapter":"Chapter PR-01","title":"Kernel von Mises Formula of the Influence Function","description":"本文将「每个模型都要手工推导影响函数(IF)」这一瓶颈，替换为基于核与谱展开的数据驱动计算流程。尤其缓解了点质量(point-mass)扰动常见的数值病态(ill-conditioned)，并通过正则化估计量在**可计算性**与**理论一致性(Consistency)**之间同时取得进展。","sectionTitle":"学习 / 论文导读 / 理论·数学 / CPAL2026","viewOriginalPdf":"查看原论文 PDF","coreFlow":{"0":"**[摘要与引言] 三句话概括与问题**\n\n① 传统 IF 计算随模型变化要重新推导，难以自动化。\n② 用点质量“戳”分布的古典做法会让响应很尖，数值上容易不稳定。\n③ 本文把数据拆成多个“光滑模式”，分别算影响再相加，用计算机而非手算更稳定地求 IF。\n\n**生活类比：** 想知道一片豆腐让一锅汤味道改变多少。老办法像拿针猛戳锅底，读数会剧烈抖动；本文更像用柔和波纹从多个方向轻推，再把响应合成，更接近“稳定味觉仪”的思路。","1":"**[背景知识] 必备概念（展开）**\n\n按 **定义 → 直观 → 本文作用** 阅读。\n\n- **影响函数 $\\psi_P$**\n 描述分布 $P$ 微扰时泛函 $\\theta(P)$ 的敏感度；$\\psi_P(x)$ 汇总与点 $x$ 相关的方向响应。类似 **Cook 距离** 思路，但 $\\theta$ 可依赖 **整个分布** 而非有限维权重。经典点质量扰动易使谱 **尖锐、病态**；本文改为 **光滑模态叠加**。\n\n- **泛函参数 $\\theta(P)$**\n 输入为分布 $P$（均值、ERM 解、风险等）。分布变则目标变，因而研究 **分布层面敏感度**，并沿光滑路径 $P_t^j$ 求导。\n\n- **核 / RKHS**\n 由核诱导的 **光滑且范数受控** 的函数空间，抑制尖刺扰动带来的震荡。用 **核诱导的平滑方向** 代替粗暴点质量。\n\n- **谱分解与正交基 $e_j$**\n 特征值 $\\sigma_j$、特征函数 $e_j$ 将算子分解为模态，用 $\\sum_j(\\cdots)e_j$ 重构。类似 **频域分解**，再按能量加权。Theorem 3.3 的和与 $\\frac{1}{1+2\\lambda/\\sigma_j}$ 即其实现。\n\n- **路径导数**\n 沿光滑曲线 $P_t^j$ 计算 $\\left.\\frac{d}{dt}\\theta(P_t^j)\\right|_{t=0}$，衡量 **缓慢倾斜** 而非瞬时冲击的响应，是谱 von Mises 公式的核心。","2":"**[方法要点] 核心想法**\n\n不直接用点质量扰动，而沿特征函数方向路径 $P_t^j$ 计算 $\\theta$ 的路径微分来重构 IF。主结果是 **Theorem 3.3（谱 von Mises 公式）**：把各模态贡献相加。并引入正则强度 $\\lambda$ 抑制小特征值模态的放大，提高稳定性。","3":"$26","4":"**[实验与结果]**\n\n论文围绕最简单的泛函目标——**均值**——搭建玩具蒙特卡洛实验，展示所提谱估计器在真实计算环境下的表现。需要抓住两点。\n\n第一，**正则强度 $\\lambda$ 带来的偏差–方差推移**。$\\lambda$ 过小会把小特征值模态也强烈纳入，估计值容易剧烈波动（方差增大）；$\\lambda$ 过大则可能过度压制重要模态，偏离真值的偏差增大。因此论文中的收缩系数 $\\frac{1}{1+2\\lambda/\\sigma_j}$，实质上是在**数值稳定**与**信息保留**之间的调节旋钮。\n\n第二，**样本量 $n$ 增大时的一致性**。样本越多，估计 IF 越接近理论 IF，与文中理论结果（如 Theorem 4.7）同向。通俗说，数据足够多时，“计算机算出的 IF”会向“数学上期望的 IF”收敛，实验侧也印证了这一点。\n\n从工程视角，这还意味着：不只玩具例子拟合得好，**通过选择正则化参数，可以让模型敏感度分析更可复现、更稳定**——分析哪些数据在撬动模型时，结果不会次次乱跳，且随数据增多更趋可信。","5":"**[结论与局限]**\n\n本文最大意义，是把 IF 计算从“依赖研究者手工推导”搬到“数据与算法可重复的流程”。以往模型稍变就要重推 IF，成本高；论文用核谱展开与路径微分给出统一计算框架。尤其用 Nyström 型特征分解估计模态 $(\\sigma_j,e_j)$，再以正则加权把各模态敏感度合成 IF，**从实现上看管线非常清晰**。\n\n实务上有三点价值突出：(1) 找出对预测影响过大的训练点，优先排查标注错误与异常值；(2) 对比模型更新前后样本影响力变化，作为调试指标；(3) 在可解释 AI(XAI)与稳健学习语境下，从“数据影响”角度解释模型决策。\n\n同时论文也明确留下局限：**收敛速率(rate) 的精细理论**仍开放——一致性（最终会靠近真值）已有，但“多快靠近”还需后续研究。另一条是路径微分的**全自动求导（与 autodiff 深度整合）**：理论上路径微分是核心，但在多种模型上稳定、自动地算出来，工程层仍有很大空间。因此本文更适合视为 IF 实用化的**强基准与起点**，而非问题的终点。"},"mainMethodFiveSteps":{"0":"**1) 核心提议（概念）**\n\n不用点质量“戳”分布，而沿核特征函数轴光滑扰动分布，用路径微分合成计算 IF。","1":"**2) 日常类比（直觉）**\n\n一根弦猛拨噪声大，多根弦合理组合更稳；IF 亦然，单点尖刺激不如多模态合成稳定。","2":"**3) 公式要点（数学）**\n\n权重 $\\frac{1}{1+2\\lambda/\\sigma_j}$ 抑制小 $\\sigma_j$ 模态放大，方差下降；$\\lambda$ 过大则可能增大偏差。","3":"**4) 公式到代码**\n\n下面代码用 $\\sigma_j$、路径微分近似、$e_j(x)$ 计算 $\\psi_{P,\\lambda}(x)$，是论文管线（模态分解→模态敏感度→衰减加权求和）的缩略示例，符号与变量一一对应。","4":"**5) 实际 AI 应用**\n\n- 找出对预测影响大的训练样本\n- 优先排查异常值/标注错误\n- 比较模型更新前后的敏感度"},"mathToCodeTitle":"论文算法的代码示例 (NumPy)","mathToCodeCode":"import numpy as np\n\n# 特征值 sigma_j 向量（论文中的 \\sigma_j）\nsigma = np.array([8, 4, 2, 1], dtype=float)\n\n# 路径微分近似 [d/dt theta(P_t^j)]_{t=0}\ndtheta = np.array([6, 4, 2, 2], dtype=float)\n\n# e_j(x)：某个 x 上的特征函数值\ne_x = np.array([3, 2, 1, 1], dtype=float)\n\n# 正则超参 \\lambda\nlambda_reg = 2.0\n\n# 分母 1 + 2*lambda/sigma_j\nshrink = 1.0 / (1.0 + 2.0 * lambda_reg / sigma)\n\n# 每项贡献 = shrink_j * dtheta_j * e_j(x)\nterm = shrink * dtheta * e_x\n\n# r=4 的低秩近似 IF\npsi_hat = int(np.round(np.sum(term)))\n\nprint('shrink =', shrink.astype(int))\nprint('term =', term.astype(int))\nprint('psi_hat =', psi_hat)","mathToCodeOutput":"shrink = [0 0 0 0]\nterm = [10 4 1 0]\npsi_hat = 16","visualPlanTitle":"图解：局限与方案的鲜明对照","visualPlan":"左侧整块突出**点质量·尖峰脉冲**下敏感度剧烈震荡的**经典局限**；右侧两格展示**谱分解与正则加权**如何把曲线**平滑、可抑制地**重构为影响函数，使差距一目了然。","visualLimitBannerTitle":"经典局限","visualLimitBannerDetail":"点质量 · 尖峰 → 敏感度过冲、病态","visualProposalBannerTitle":"论文方案","visualProposalBannerDetail":"谱分解 → 正则重构 → 稳定 IF","visualStep1Heading":"1) 点质量扰动","visualStep1Body":"尖峰导致敏感度大幅波动","visualStep2Heading":"2) 谱分解","visualStep2Body1":"按模态用 $(\\sigma_j, e_j)$ 分解","visualStep2Body2":"较小的 $\\sigma_j$ 模态被权重衰减","visualStep3Heading":"3) 正则重构","visualStep3Body1":"加权和恢复光滑的 IF","visualStep3Body2":"$$\\frac{1}{1+2\\lambda/\\sigma_j}$ 抑制噪声模态","visualVsLabel":"VS","visualVsAria":"分隔经典局限区域与论文方案区域","summary":"本文把 IF 估计从「每换模型就要手推」变成「数据+算法可重复的流程」，意义重大。实务上可更**稳定**地追踪哪些样本撬动预测，服务数据质检、异常值排查与调试。同时，正则强度带来的偏差–方差权衡、**收敛速率**的精细理论、路径微分的**全自动求导**等仍是开放课题。","problemSolvingLabel":"解题提示","problemSolving":{"0":"| 类型 | 解法要点（论文符号→答案） |\n| :--- | :--- |\n| 符号 | $\\lambda$ 正则强度，$\\sigma_j$ 特征值，$e_j(x)$ 特征函数值 |\n| 个数 | 用 5 个特征函数则和式有 5 项 |\n| 收缩 | $\\sigma_j=4,\\lambda=2$ 时分母 $1+2\\lambda/\\sigma_j=2$ |\n| 玩具求和 | 项 [8,4,2,2] 之和为 16 |\n| 趋势 | $\\lambda$ 增大通常减小小 $\\sigma_j$ 模态贡献 |\n| 代码对应 | $\\lambda \\leftrightarrow$ lambda_reg，$\\sigma_j \\leftrightarrow$ sigma |","1":"**示例 A**\n\n题干：$\\sigma_j=4$, $\\lambda=2$ 时求 $1+2\\lambda/\\sigma_j$。\n\n计算：$1+2\\times2/4=2$\n\n答案：2","2":"**示例 B**\n\n题干：各项贡献为 [6, 4, 2, 4] 时 IF 近似（总和）？\n\n计算：$6+4+2+4=16$\n\n答案：16"},"practiceProblemsTitle":"练习题","practiceProblemsIntro":"从 60 题池中随机抽 10 题。难度顺序为易 4 · 中 3 · 难 3，答案仅限整数。","practiceProblemsInstruction":"指示与设问之间有空行。答案务必填整数。","problems":{"q00":"题目说明：选择核心贡献。\n\n设问：本文核心贡献是？① 加强点质量扰动 ② 用核–谱方法数据驱动估计 IF ③ 添加 CNN 分类器","q01":"题目说明：选择符号含义。\n\n设问：公式中 $\\lambda$ 表示？① 正则强度 ② 样本量 ③ 类别数","q02":"题目说明：选择符号含义。\n\n设问：公式中 $\\sigma_j$ 是？① 特征值 ② 批大小 ③ 层数","q03":"题目说明：选择符号含义。\n\n设问：$e_j(x)$ 是？① 第 $j$ 个特征函数在 $x$ 处的值 ② 损失函数 ③ 优化器","q04":"题目说明：判断正误。\n\n设问：点质量扰动可能在数值上不稳定。对填 1，错填 0。","q05":"题目说明：判断正误。\n\n设问：$\\lambda$ 增大通常使小 $\\sigma_j$ 模态贡献更少。对填 1，错填 0。","q06":"题目说明：判断正误。\n\n设问：所提方法将各模态贡献求和以重构 IF。对填 1，错填 0。","q07":"题目说明：数求和项数。\n\n设问：若 $r=6$，和式共有几项？","q08":"题目说明：计算分母。\n\n设问：$\\lambda=2$，$\\sigma_j=4$ 时，求 $1+2\\lambda/\\sigma_j$。","q09":"题目说明：计算分母。\n\n设问：$\\lambda=3$，$\\sigma_j=3$ 时，求 $1+2\\lambda/\\sigma_j$。","q10":"题目说明：计算分母。\n\n设问：$\\lambda=1$，$\\sigma_j=2$ 时，求 $1+2\\lambda/\\sigma_j$。","q11":"题目说明：计算分母。\n\n设问：$\\lambda=4$，$\\sigma_j=8$ 时，求 $1+2\\lambda/\\sigma_j$。","q12":"题目说明：求和。\n\n设问：各项贡献 [5, 4, 3] 之和？","q13":"题目说明：求和。\n\n设问：各项贡献 [6, 2, 2, 2] 之和？","q14":"题目说明：求和。\n\n设问：各项贡献 [9, 1, 3, 3] 之和？","q15":"题目说明：求减少量。\n\n设问：正则化前估计值 20，正则化后 16，减少量？","q16":"题目说明：按比例求整数。\n\n设问：易/中/难题为 4/3/3，一轮共几题？","q17":"题目说明：计数。\n\n设问：60 题池中易 20、中 20、难 20，总数？","q18":"题目说明：计数。\n\n设问：4 个特征函数，每个 1 项贡献，总项数？","q19":"题目说明：趋势题。\n\n设问：其他条件相同，增大 $\\lambda$ 后小特征值模态贡献从 5 降到 2，减少量？","q20":"题目说明：玩具求和。\n\n设问：贡献 [8, 4, 2, 2] 的总和？","q21":"题目说明：玩具求和。\n\n设问：贡献 [10, 3, 1, 2] 的总和？","q22":"题目说明：玩具求和。\n\n设问：贡献 [7, 5, 4] 的总和？","q23":"题目说明：玩具求和。\n\n设问：贡献 [12, 6, 2] 的总和？","q24":"题目说明：玩具求和。\n\n设问：贡献 [4, 4, 4, 4] 的总和？","q25":"题目说明：玩具求和。\n\n设问：贡献 [3, 3, 5, 5] 的总和？","q26":"题目说明：玩具求和。\n\n设问：贡献 [15, 1] 的总和？","q27":"题目说明：玩具求和。\n\n设问：贡献 [11, 2, 3] 的总和？","q28":"题目说明：玩具求和。\n\n设问：贡献 [6, 6, 2, 2] 的总和？","q29":"题目说明：玩具求和。\n\n设问：贡献 [14, 2] 的总和？","q30":"题目说明：数项数。\n\n设问：若 $r=10$，和式有几项？","q31":"题目说明：数项数。\n\n设问：若 $r=12$，和式有几项？","q32":"题目说明：数项数。\n\n设问：若 $r=15$，和式有几项？","q33":"题目说明：数项数。\n\n设问：若 $r=18$，和式有几项？","q34":"题目说明：计算分母。\n\n设问：$\\lambda=6$，$\\sigma_j=6$ 时，求 $1+2\\lambda/\\sigma_j$。","q35":"题目说明：计算分母。\n\n设问：$\\lambda=8$，$\\sigma_j=4$ 时，求 $1+2\\lambda/\\sigma_j$。","q36":"题目说明：计算分母。\n\n设问：$\\lambda=5$，$\\sigma_j=10$ 时，求 $1+2\\lambda/\\sigma_j$。","q37":"题目说明：计算分母。\n\n设问：$\\lambda=9$，$\\sigma_j=9$ 时，求 $1+2\\lambda/\\sigma_j$。","q38":"题目说明：比较估计值。\n\n设问：前 28、后 20，减少量？","q39":"题目说明：比较估计值。\n\n设问：前 35、后 27，减少量？","q40":"题目说明：较难求和。\n\n设问：贡献 [20, 10, 6, 4] 的总和？","q41":"题目说明：较难求和。\n\n设问：贡献 [18, 12, 8, 2] 的总和？","q42":"题目说明：较难求和。\n\n设问：贡献 [16, 9, 7, 4] 的总和？","q43":"题目说明：较难求和。\n\n设问：贡献 [22, 8, 5, 1] 的总和？","q44":"题目说明：较难求和。\n\n设问：贡献 [14, 14, 6, 2] 的总和？","q45":"题目说明：较难求和。\n\n设问：贡献 [25, 5, 4, 2] 的总和？","q46":"题目说明：较难求和。\n\n设问：贡献 [30, 4, 1, 1] 的总和？","q47":"题目说明：较难求和。\n\n设问：贡献 [19, 9, 5, 3] 的总和？","q48":"题目说明：较难求和。\n\n设问：贡献 [17, 11, 6, 2] 的总和？","q49":"题目说明：较难求和。\n\n设问：贡献 [24, 7, 3, 2] 的总和？","q50":"题目说明：较难分母。\n\n设问：$\\lambda=10$，$\\sigma_j=5$ 时，求 $1+2\\lambda/\\sigma_j$。","q51":"题目说明：较难分母。\n\n设问：$\\lambda=12$，$\\sigma_j=6$ 时，求 $1+2\\lambda/\\sigma_j$。","q52":"题目说明：较难分母。\n\n设问：$\\lambda=14$，$\\sigma_j=7$ 时，求 $1+2\\lambda/\\sigma_j$。","q53":"题目说明：较难分母。\n\n设问：$\\lambda=16$，$\\sigma_j=8$ 时，求 $1+2\\lambda/\\sigma_j$。","q54":"题目说明：较难分母。\n\n设问：$\\lambda=18$，$\\sigma_j=9$ 时，求 $1+2\\lambda/\\sigma_j$。","q55":"题目说明：较难分母。\n\n设问：$\\lambda=20$，$\\sigma_j=10$ 时，求 $1+2\\lambda/\\sigma_j$。","q56":"题目说明：集合规模。\n\n设问：题库共 60 题，一轮用 10 题，剩余？","q57":"题目说明：集合规模。\n\n设问：易题 20 道，一轮抽易题 4 道，易题剩余？","q58":"题目说明：集合规模。\n\n设问：中档题 20 道，一轮抽中档 3 道，中档剩余？","q59":"题目说明：集合规模。\n\n设问：难题 20 道，一轮抽难 3 道，难题剩余？"},"problemAnswers":{"q00":2,"q01":1,"q02":1,"q03":1,"q04":1,"q05":1,"q06":1,"q07":6,"q08":2,"q09":3,"q10":2,"q11":2,"q12":12,"q13":12,"q14":16,"q15":4,"q16":10,"q17":60,"q18":4,"q19":3,"q20":16,"q21":16,"q22":16,"q23":20,"q24":16,"q25":16,"q26":16,"q27":16,"q28":16,"q29":16,"q30":10,"q31":12,"q32":15,"q33":18,"q34":3,"q35":5,"q36":2,"q37":3,"q38":8,"q39":8,"q40":40,"q41":40,"q42":36,"q43":36,"q44":36,"q45":36,"q46":36,"q47":36,"q48":36,"q49":36,"q50":5,"q51":5,"q52":5,"q53":5,"q54":5,"q55":5,"q56":50,"q57":16,"q58":17,"q59":17},"problemSolutions":{"q00":"核心是：用核–谱 IF 估计替代直接点质量扰动，减轻数值不稳定与手工推导负担，故选 ②，答案 2。","q01":"$$\\lambda$ 是调节正则强度、抑制小特征值模态过度贡献的超参数，答案 1。","q02":"$$\\sigma_j$ 是谱分解中第 $j$ 个模态的特征值，答案 1。","q03":"$$e_j(x)$ 是第 $j$ 个特征函数在输入 $x$ 处的取值，答案 1。","q04":"论文动机即点质量扰动的数值脆弱性，为真，答案 1。","q05":"衰减系数分母为 $1+2\\lambda/\\sigma_j$，$\\lambda$ 增大则系数变小，为真，答案 1。","q06":"核心公式按模态贡献求和重构 IF，为真，答案 1。","q07":"$$j=1$ 到 $6$，共 6 项，答案 6。","q08":"$$1+2\\times2/4=1+1=2$，答案 2。","q09":"$$1+2\\times3/3=1+2=3$，答案 3。","q10":"$$1+2\\times1/2=1+1=2$，答案 2。","q11":"$$1+2\\times4/8=1+1=2$，答案 2。","q12":"$$5+4+3=12$，答案 12。","q13":"$$6+2+2+2=12$，答案 12。","q14":"$$9+1+3+3=16$，答案 16。","q15":"$$20-16=4$，答案 4。","q16":"$$4+3+3=10$，答案 10。","q17":"$$20+20+20=60$，答案 60。","q18":"4 个函数各 1 项，共 4 项，答案 4。","q19":"$$5-2=3$，答案 3。","q20":"$$8+4+2+2=16$，答案 16。","q21":"$$10+3+1+2=16$，答案 16。","q22":"$$7+5+4=16$，答案 16。","q23":"$$12+6+2=20$，答案 20。","q24":"$$4+4+4+4=16$，答案 16。","q25":"$$3+3+5+5=16$，答案 16。","q26":"$$15+1=16$，答案 16。","q27":"$$11+2+3=16$，答案 16。","q28":"$$6+6+2+2=16$，答案 16。","q29":"$$14+2=16$，答案 16。","q30":"$$r=10$ 时共 10 项，答案 10。","q31":"$$r=12$ 时共 12 项，答案 12。","q32":"$$r=15$ 时共 15 项，答案 15。","q33":"$$r=18$ 时共 18 项，答案 18。","q34":"$$1+2\\times6/6=1+2=3$，答案 3。","q35":"$$1+2\\times8/4=1+4=5$，答案 5。","q36":"$$1+2\\times5/10=1+1=2$，答案 2。","q37":"$$1+2\\times9/9=1+2=3$，答案 3。","q38":"$$28-20=8$，答案 8。","q39":"$$35-27=8$，答案 8。","q40":"$$20+10+6+4=40$，答案 40。","q41":"$$18+12+8+2=40$，答案 40。","q42":"$$16+9+7+4=36$，答案 36。","q43":"$$22+8+5+1=36$，答案 36。","q44":"$$14+14+6+2=36$，答案 36。","q45":"$$25+5+4+2=36$，答案 36。","q46":"$$30+4+1+1=36$，答案 36。","q47":"$$19+9+5+3=36$，答案 36。","q48":"$$17+11+6+2=36$，答案 36。","q49":"$$24+7+3+2=36$，答案 36。","q50":"$$1+2\\times10/5=1+4=5$，答案 5。","q51":"$$1+2\\times12/6=1+4=5$，答案 5。","q52":"$$1+2\\times14/7=1+4=5$，答案 5。","q53":"$$1+2\\times16/8=1+4=5$，答案 5。","q54":"$$1+2\\times18/9=1+4=5$，答案 5。","q55":"$$1+2\\times20/10=1+4=5$，答案 5。","q56":"$$60-10=50$，答案 50。","q57":"$$20-4=16$，答案 16。","q58":"$$20-3=17$，答案 17。","q59":"$$20-3=17$，答案 17。"},"problemTestCodes":{"q00":"answer = 2\nassert answer == 2","q01":"answer = 1\nassert answer == 1","q02":"answer = 1\nassert answer == 1","q03":"answer = 1\nassert answer == 1","q04":"answer = 1\nassert answer == 1","q05":"answer = 1\nassert answer == 1","q06":"answer = 1\nassert answer == 1","q07":"assert 6 == 6","q08":"assert 1 + 2 * 2 // 4 == 2","q09":"assert 1 + 2 * 3 // 3 == 3","q10":"assert 1 + 2 * 1 // 2 == 2","q11":"assert 1 + 2 * 4 // 8 == 2","q12":"values = [5,4,3]\nassert sum(values) == 12","q13":"values = [6,2,2,2]\nassert sum(values) == 12","q14":"values = [9,1,3,3]\nassert sum(values) == 16","q15":"before = 20\nafter = 16\nassert before - after == 4","q16":"assert 4 + 3 + 3 == 10","q17":"assert 20 + 20 + 20 == 60","q18":"assert 4 * 1 == 4","q19":"assert 5 - 2 == 3","q20":"values = [8,4,2,2]\nassert sum(values) == 16","q21":"values = [10,3,1,2]\nassert sum(values) == 16","q22":"values = [7,5,4]\nassert sum(values) == 16","q23":"values = [12,6,2]\nassert sum(values) == 20","q24":"values = [4,4,4,4]\nassert sum(values) == 16","q25":"values = [3,3,5,5]\nassert sum(values) == 16","q26":"values = [15,1]\nassert sum(values) == 16","q27":"values = [11,2,3]\nassert sum(values) == 16","q28":"values = [6,6,2,2]\nassert sum(values) == 16","q29":"values = [14,2]\nassert sum(values) == 16","q30":"answer = 10\nassert answer == 10","q31":"answer = 12\nassert answer == 12","q32":"answer = 15\nassert answer == 15","q33":"answer = 18\nassert answer == 18","q34":"assert 1 + 2 * 6 // 6 == 3","q35":"assert 1 + 2 * 8 // 4 == 5","q36":"assert 1 + 2 * 5 // 10 == 2","q37":"assert 1 + 2 * 9 // 9 == 3","q38":"assert 28 - 20 == 8","q39":"assert 35 - 27 == 8","q40":"values = [20,10,6,4]\nassert sum(values) == 40","q41":"values = [18,12,8,2]\nassert sum(values) == 40","q42":"values = [16,9,7,4]\nassert sum(values) == 36","q43":"values = [22,8,5,1]\nassert sum(values) == 36","q44":"values = [14,14,6,2]\nassert sum(values) == 36","q45":"values = [25,5,4,2]\nassert sum(values) == 36","q46":"values = [30,4,1,1]\nassert sum(values) == 36","q47":"values = [19,9,5,3]\nassert sum(values) == 36","q48":"values = [17,11,6,2]\nassert sum(values) == 36","q49":"values = [24,7,3,2]\nassert sum(values) == 36","q50":"assert 1 + 2 * 10 // 5 == 5","q51":"assert 1 + 2 * 12 // 6 == 5","q52":"assert 1 + 2 * 14 // 7 == 5","q53":"assert 1 + 2 * 16 // 8 == 5","q54":"assert 1 + 2 * 18 // 9 == 5","q55":"assert 1 + 2 * 20 // 10 == 5","q56":"assert 60 - 10 == 50","q57":"assert 20 - 4 == 16","q58":"assert 20 - 3 == 17","q59":"assert 20 - 3 == 17"},"problemDifficulty":{"q00":"easy","q01":"easy","q02":"easy","q03":"easy","q04":"easy","q05":"easy","q06":"easy","q07":"easy","q08":"easy","q09":"easy","q10":"easy","q11":"easy","q12":"easy","q13":"easy","q14":"easy","q15":"easy","q16":"easy","q17":"easy","q18":"easy","q19":"easy","q20":"medium","q21":"medium","q22":"medium","q23":"medium","q24":"medium","q25":"medium","q26":"medium","q27":"medium","q28":"medium","q29":"medium","q30":"medium","q31":"medium","q32":"medium","q33":"medium","q34":"medium","q35":"medium","q36":"medium","q37":"medium","q38":"medium","q39":"medium","q40":"hard","q41":"hard","q42":"hard","q43":"hard","q44":"hard","q45":"hard","q46":"hard","q47":"hard","q48":"hard","q49":"hard","q50":"hard","q51":"hard","q52":"hard","q53":"hard","q54":"hard","q55":"hard","q56":"hard","q57":"hard","q58":"hard","q59":"hard"},"problemOrder":["q00","q01","q02","q03","q04","q05","q06","q07","q08","q09","q10","q11","q12","q13","q14","q15","q16","q17","q18","q19","q20","q21","q22","q23","q24","q25","q26","q27","q28","q29","q30","q31","q32","q33","q34","q35","q36","q37","q38","q39","q40","q41","q42","q43","q44","q45","q46","q47","q48","q49","q50","q51","q52","q53","q54","q55","q56","q57","q58","q59"]},"paperReviewCurseDepthLlm":{"chapter":"Chapter PR-02","title":"The Curse of Depth in Large Language Models","description":"本文解释一个很关键的问题：为什么把 LLM 堆得更深，并不总能换来更强的表示能力。论文从理论上分析了 Pre-LN Transformer 中沿深度方向累积的方差，并提出只需在 LayerNorm 输出后乘上 $\\frac{1}{\\sqrt{l}}$，就能让深层不再逐渐“恒等化”。","viewOriginalPdf":"查看原论文 PDF","coreFlow":{"0":"### [摘要与导论]\n\n- 深层 LLM 的后段层常常没有发挥预期作用\n- Pre-LN 虽稳定，但方差会随深度累积\n- LNS 用 $\\frac{1}{\\sqrt{l}}$ 做深度相关控制\n\n**比喻：** 想象 100 个功放串联的音响系统。如果每一级都带入一点噪声，最后原声会被“嘶嘶声”淹没。LNS 就像越往后越强的自动限幅器，保证信号一路传到末端时仍然可用。","1":"**[背景知识] 必备概念（展开）**\n\n按 **定义 → 深度带来的麻烦 → 与本文关系** 阅读。\n\n- **残差连接**\n $h_{l+1}=h_l+F(h_l)$：$h_l$ 走捷径，$F$ 提出更新。利于梯度与表征，但各层小扰动也会 **沿加法累积**。LNS 用 **随深度缩放** 压振幅，让后层继续参与变换而非直通。\n\n- **Pre-LN / Post-LN**\n Pre-LN：$h_{l+1}=h_l+F(\\mathrm{LN}(h_l))$，大模型常用。Post-LN：$h_{l+1}=\\mathrm{LN}(h_l+F(h_l))$，有时更难训。本文在 Pre-LN 前提下讨论 **深层近似恒等**，并用 $\\frac{1}{\\sqrt{l}}$ 缓解。\n\n- **方差膨胀**\n 随深度激活 **spread** 增大，残差反复 **相加** 放大扰动；无控制时易滑向 **少改变输出** 的映射。$\\frac{1}{\\sqrt{l}}$ 可理解为把有效方差压到约 **$1/l$** 量级。\n\n- **恒等塌陷**\n 若 $J_l\\approx I$，层近似 **复制** 输入：算力花了但新特征少。LNS 旨在推迟该现象、提高 **深度利用率**。\n\n- **深度利用率**\n 多出来的层是否换来更好的 loss/下游指标；否则深度多是 **浪费**。本文重点是让深度 **真正工作到最后**，而非单纯堆层。","2":"### [提出的方法] 核心公式\n\n$\\tilde{h}^{(l)} = \\mathrm{LN}(h^{(l)}) \\cdot \\frac{1}{\\sqrt{l}}$\n\n思想非常直接：**层越深，越要更谨慎地控制输出振幅。**\n\n$\\mathrm{Var}\\left[\\tilde{h}^{(l)}\\right] \\approx \\frac{1}{l}\\,\\mathrm{Var}\\left[\\mathrm{LN}(h^{(l)})\\right]$\n\n这个视角说明，随着深度增加，有效方差会被逐步压住。\n\n**符号与读法（仍在「方法」一节内）**\n\n不设单独术语表，下面只汇总 **含义与作用**，对应上文核心公式。\n\n- $l$: 当前层编号。\n\n- $L$: 总层数。\n\n- $h^{(l)}$: 第 $l$ 层进入 LayerNorm 前的激活。\n\n- $d$: hidden dimension。\n\n- $\\mathrm{LN}(h^{(l)})$: 归一化后的信号。\n\n- $\\tilde{h}^{(l)}$: 经过 LNS 之后的输出。\n\n- $\\frac{1}{\\sqrt{l}}$: 随深度增加而增强的阻尼系数。\n\n- Residual/Attention/FFN 像油门，LNS 像防止失控的刹车。\n\n- 关键不是削弱深层，而是让深层保持稳定并持续参与学习。\n\n### [直觉解读]\n\n- LayerNorm 先把信号整理到较稳定的尺度上\n- $\\frac{1}{\\sqrt{l}}$ 是随深度增强的刹车\n- Residual、Attention、FFN 像油门，LNS 像刹车\n- 两者配合后，深层既不至于失控，也不必失去表达能力\n\n换句话说，LNS 不是让深层“安静到没用”，而是让深层“稳定到还能继续学习”。","3":"### [Toy Data Walkthrough]\n\n设想一个 6 层模型。随着 residual 叠加，激活幅度本来会逐层变大。\n\n1. $l=1$ 时系数为 1.0，几乎完整传递信号。\n2. $l=2$ 时约为 0.707，开始轻微抑制增幅。\n3. $l=3$ 时约为 0.577，对累积噪声的压制更明显。\n4. $l=4$ 时为 0.5，后层的剧烈波动开始明显收敛。\n5. 到 $l=5$、$l=6$ 时，放大趋势继续被压住，但有效特征仍能保留。\n\n因此，前层负责大胆构造特征，后层则在更稳的范围内继续细化表示。","4":"### [实验与结果]\n\n论文显示，LNS 从较小模型到数十亿参数规模都能带来更好的深层利用趋势。\n\n- 不需要额外超参数搜索\n- 大规模实验中有更好的收敛表现\n- 深层表示之间保持更大的差异性，而不是逐渐收缩成相似状态\n\n从工程视角看，这类“改动极小、收益可能很大”的方法非常有吸引力。","5":"### [结论与局限]\n\n- 更有效的深层利用能为剪枝、量化等后续优化打下更好的基础\n- 深层特征更丰富时，SFT 与下游适配空间也会更大\n- 方法很容易插入已有 Pre-LN 架构\n\n局限在于：目前分析仍主要围绕 Pre-LN，Post-LN、Normalization-free，以及多模态分支上的规律还需要继续验证。"},"visualPlanTitle":"可视化方案：失控增幅 vs 精准控制","visualPlan":"左侧展示旧式 Pre-LN 中方差随深度累积的趋势，右侧展示 LNS 如何让振幅保持受控。前端建议保持 `minHeight: 320px` 并使用基于 `viewBox` 的 SVG 布局。","visualLegacyTitle":"传统 Pre-LN","visualLegacyBody":"方差不断累积，后层逐渐接近恒等映射。","visualProposedTitle":"提出的 LNS","visualProposedBody":"通过深度相关阻尼稳定振幅，保住深层有效性。","visualAxisStart":"Layer 1","visualAxisEnd":"Layer L","visualLegacyCurveLabel":"方差增长","visualProposedCurveLabel":"受控振幅","visualContributionLabel":"层贡献度","visualLegacyBadgeLabel":"后层趋于恒等映射","visualProposedBadgeLabel":"深层保持有效贡献","summary":"LNS 的吸引力在于，它几乎不增加架构复杂度，却能正面处理“深度诅咒”。这让“更深”不再只是更多计算，而更接近真正可用的学习能力。"},"paperReviewAlphaFormer":{"sectionTitle":"学习 / 论文导读 / 核心架构与算法 / CPAL2026 / AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers","title":"AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers","description":"在量化实务中，阿尔法因子仍常在 **手工公式** 与 **黑盒模型** 之间摇摆。AlphaFormer 用 **合成时序预训练 Transformer**，对新市场数据 **端到端生成可解释的符号公式**。本文逐行拆解线性因子池、IC 指标与类 PPO 的稳定化损失。","viewOriginalPdf":"打开原文 PDF","coreFlow":{"0":"**[摘要与引言] 三行总结 + 问题提出**\n\n**三行总结**\n\n- **① 旧方法的致命低效：** 基于 GP 或 RL 的符号回归在 **每个新数据集上几乎从零搜索**，难以复用已学到的“公式语法”。像每天早上重新发明菜谱。\n- **② 经典路线的短板：** LightGBM、LSTM 等预测强但 **不可解释**；纯人工写因子又无法覆盖巨大搜索空间。\n- **③ 论文核心：** 用多样 **合成股价路径预训练 Transformer**，给定真实 $X_t$ 即可 **即时生成 RPN 形式的阿尔法公式**——像在无数假厨房练过的大厨，换厨房仍能出菜。\n\n**比喻：随机试配方的机器人 vs. 语法刻进肌肉记忆的大厨**\n\n传统符号搜索像 **厨房（市场）一变就重新调盐糖比例** 的机器人。AlphaFormer 在 **合成厨房** 里学会组合法则，看到实战食材 $X_t$ 就能 **当场拼出公式（阿尔法因子）**——更少依赖黑盒，也降低反复盲搜的成本。","1":"$27","2":"$28","3":"$29","4":"**[实验与结果]**\n\n- **搜索效率：** 相比强基线 **生成更少候选因子** 仍可在 CSI300/CSI500 上取得 **一流 IC/Rank IC**——不是把针眼扩大，而是 **手更稳**。\n- **推理效率：** 叙述上强调推理阶段 **无需大规模在线重拟合参数**。\n- **泛化：** **多架构生成器集成** 合成数据时 IC 更高；**在中国预训练、美国 S&P500 零样本** 仍有竞争力，暗示学到部分 **时序/算子语法** 而非单市场噪声。\n\n**实务解读：** 若要在 **GPU 小时受限** 下拿到 **可解释因子**，“合成预训练 + 有界 RL 微调”在 MLOps 上是务实折中。","5":"**[结论与局限]**\n\n**实务启示（不超过 3 条）**\n\n1. **白盒信号：** RPN/运算树可把 **公式原文** 交给风控。\n2. **降低搜索税：** 语法预压缩减少 **每次换市场的冷启动**。\n3. **端到端管线：** 生成→池化→IC→(可选)PPO，流程短、易复现部署。\n\n**局限**\n\n- **硬件：** GPU 训练/推理前提可能 **不适配纯 CPU 遗留环境**。\n- **体制：** 零样本再强，结构突变后仍可能要 **再训练或域适应**。\n- **标签：** IC 严重依赖 **未来收益定义与泄露控制**。"},"visualPlanTitle":"可视化策划：失控探索 vs 可控生成","visualPlan":"左：**探索空间** 上密集散点与 **难以触及 IC 目标的曲折路径**，表现冷启动符号搜索。右：**合成序列→预训练→令牌化公式→IC/池** 的 **单线流水线**，对应 AlphaFormer 端到端流程。","visualLegacyTitle":"传统：GP / RL 符号搜索","visualLegacyBody":"换数据集就从头广撒网；候选再多 IC 仍可能乱跳。","visualProposedTitle":"提案：AlphaFormer","visualProposedBody":"合成学语法；更少生成就可稳步抬高 IC，并具备零样本迁移潜力。","visualAxisStart":"尝试 1","visualAxisEnd":"尝试 N","visualLegacyCurveLabel":"随机搜索","visualProposedCurveLabel":"预训练生成","visualContributionLabel":"累积效率","visualLegacyBadgeLabel":"过度探索","visualProposedBadgeLabel":"少因子·高 IC","summary":"AlphaFormer 把“每个市场从零符号搜索”换成 **语法预训练 + 带裁剪的 RL 微调**。池、L1、IC、PPO 像 **搅拌器、剪刀、评委、安全带** 分工。注意 **GPU 依赖** 与 **标签质量**，从 PoC 渐进落地更稳妥。"},"paperReviewPolarQuant":{"sectionTitle":"学习 / 论文导读 / 模型优化与轻量化 / PolarQuant: Quantizing KV Caches with Polar Transformation","title":"Chapter 1: PolarQuant: Quantizing KV Caches with Polar Transformation","description":"在长上下文 LLM 服务里，真正先爆掉的往往不是参数，而是 **KV cache 内存**。PolarQuant 直接瞄准这个瓶颈：先做随机预处理，再把向量改写成极坐标形式，**把角度紧凑地存下来**，从而少背那种 **「如何把短码还原成原数」的附加信息**。本文会从公式、直觉和工程意义三条线把它讲清楚。","viewOriginalPdf":"查看原论文 PDF","coreFlow":{"0":"**[摘要与引言] 3 行总结 + 问题提出**\n\n**3 行总结**\n\n- 长上下文 LLM 必须缓存历史 token 的 Key 和 Value，因此 **KV cache 会成为真正的 VRAM 瓶颈**。\n- **老办法：** 即便把数压得很短，**每个块通常还要附带「如何把短码映射回原始范围」的辅助数字**。这些辅助信息往往用 **高精度（例如 FP16）** 另存，所以 **显存未必省得像你想的那么多**。\n- PolarQuant 先随机打散，再转到极坐标，**紧凑地保存角度**。不那么依赖那层 **沉重的附加说明** 后，仍可实现 **4.2 倍以上** 缓存压缩与强长上下文质量。\n\n**比喻**\n\n传统方法像是把仓库里的箱子缩小了，但每个箱子仍要贴一张很重的标签。PolarQuant 更像先把货物充分混匀，再只记一个半径和方向信息，辅助标签自然就轻得多。\n\n**用大白话讲**\n\n- **两难：** 不只把数字压小——每个块还要贴 **说明书（元数据）**，用 FP16 存 scale、zero-point 等，容易出现 **包装比东西还重** 的情况。\n- **PolarQuant 的做法：** 不用轴坐标堆数字，而存 **一个半径 $r$（整体大小）** 和 **若干角度（方向）**；其余信息变成“往哪边倾”。\n- **搅拌机（$S$）与 $45^\\circ$：** 进极坐标 **之前** 先随机混匀，大块对半切时 **前后能量** 往往更接近，用比例算角度时容易落在 **$\\pi/4$（$45^\\circ$）附近**。知道角度 **常落在窄区间**，就能用 **很少比特** 做角度量化。\n- **论文里提到的结果：** KV 缓存 **4.2 倍以上** 压缩、**约 104K** 超长上下文下 needle 类任务仍强、**离线码本** 可把 **Prefill** 大幅缩短（论文中约 **11.6 秒 vs 3.4 秒** 等）。\n\n**一句话：** 利用混匀后角度 **可预测地集中** 的结构，**大幅压低「还原用的附加负担」**。","1":"$2a","2":"$2b","3":"**【玩具推演】整数示例**\n\n用具体数字把 **Level 1 → Level 2 → $\\pi/4$** 走一遍；比背符号更有用。\n\n设 $x=(3,4,4,3)$。为便于手算，取**整数**预处理向量 $x'=(3,4,4,3)$（实际 $Sx$ 多为非整数）。\n\n**为何令 $x$ 与 $x'$ 相同：** 真实流程里 $x'=Sx$ 会改变数值；此处只为 **算范数与比值时数字整齐**，算法步骤不变。\n\n**Level 1**\n\n$$\n\\psi_1^{(1)} = \\tan^{-1}(4/3),\\quad \\psi_2^{(1)} = \\tan^{-1}(3/4)\n$$\n\n约 $0.93$ rad 与 $0.64$ rad，远离 0°/90° 极端。\n\n**Level 2**\n\n$$\n\\|x'_{1:2}\\|_2 = \\sqrt{3^2+4^2}=5,\\quad \\|x'_{3:4}\\|_2 = \\sqrt{4^2+3^2}=5\n$$\n\n比值为 $1$，故 $\\psi_1^{(2)}=\\tan^{-1}(1)=\\pi/4$。**3–4–5** 使两半块范数相等，本例中上级角**恰好**为 $\\pi/4$。随后对角度做码本量化，将 $\\hat{K},\\hat{V}$ 代入标准注意力。","4":"$2c","5":"**[结论与局限]**\n\n**实践价值**\n\n1. 它打破了“量化一定要保存正则化元数据”的惯性思路。\n2. 它直接命中长上下文服务最痛的内存热点。\n3. 它不改 attention 结构，只改 cache 表示方式。\n\n**局限**\n\n- codebook 构造仍有进一步解析化改进空间。\n- 是否能同样有效迁移到权重或 activation 量化，还需要更多证据。\n- 真正部署时仍依赖高效 kernel、packing 和工程实现。","6":"**[图示规划] 强对比可视化**\n\n左侧画传统 block 量化：每个 block 都背着 **用于还原存储值的额外辅助数字**。右侧画 PolarQuant：随机预处理后，只保留一个半径和若干集中在 $45^\\circ$ 附近的角度。"},"visualPlanTitle":"KV 存储对照","visualPlan":"传统：每块 FP16 元数据叠加；PolarQuant：半径与角度。","visualLegacyTitle":"分块量化","visualLegacyBody":"每个块仍需要 **把短码还原成可用数值的辅助数字**，所以即便数值看起来被压缩了，开销仍在。","visualProposedTitle":"PolarQuant","visualProposedBody":"随机预处理后转为极坐标，只量化集中分布的角度。","visualAxisStart":"基线方法","visualAxisEnd":"PolarQuant","visualLegacyCurveLabel":"元数据负担 ↑","visualProposedCurveLabel":"占用 ↓","visualContributionLabel":"内存效率","visualLegacyBadgeLabel":"+FP16 元数据 / 块","visualProposedBadgeLabel":"r + θ codebook","visualGlossary":{"title":"图中符号怎么读","items":[{"term":"FP16","hint":"**半精度**浮点数（16 位）。比特数约为 FP32 的一半，同样多格子大致省一半显存，但刻度略粗。"},{"term":"量化","hint":"把连续实数 **映射成很短的整数码** 以省空间；使用时要 **反量化**，且常需 **按块说明范围的辅助数**。"},{"term":"KV","hint":"保存过去 token 的 Key/Value 向量的一整块缓存。"},{"term":"INT4","hint":"把数值压成 4 位整数；要还原通常还需要额外信息。"},{"term":"+meta / FP16","hint":"把短码还原到可用尺度所需的 **额外数字**；通常 **高精度（如 FP16）** 另存。"},{"term":"× N","hint":"块越多，这类元数据大致也要跟存 N 份。"},{"term":"S","hint":"随机混洗坐标的预处理矩阵，便于后面做极坐标变换。"},{"term":"r","hint":"极坐标里的半径，即向量整体长度。"},{"term":"θ","hint":"角度（方向）。往往用码本序号存，而不是完整浮点。"},{"term":"codebook","hint":"常见角度的候选表，只存索引就能省比特。"}]},"summary":"PolarQuant 的优雅之处在于它换了一个坐标系来处理问题。与其在原始坐标上硬做裁剪，不如先把向量拆成长度与方向，再利用角度集中现象去压缩。对于真正受 KV cache 限制的系统，这比单纯谈参数量更有现实价值。"},"paperReviewAutomlAgent":{"sectionTitle":"学习 / 论文导读 / 自动机器学习与 ML 管线 / ICML 2025 / AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML","title":"AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML","description":"AutoML-Agent不仅是“把AutoML做得更容易”，而是把数据检索、预处理、模型设计、HPO、代码生成到部署这一整条链路 **端到端** 自动化。本文把论文的核心数学结构（输入→规划→分解→执行→验证）逐式拆开讲清楚。","viewOriginalPdf":"打开原文 PDF","coreFlow":{"0":"**[摘要与引言] 三行总结 + 问题提出**\n\n**三行总结：**\n\n- **致命问题：** 许多 AutoML 工具“功能很多”，但配置门槛高；没有经验就很难启动。\n- **传统瓶颈：** LLM 辅助往往只覆盖流程的一部分，或只生成一次计划就结束，探索效率不高。\n- **核心解决：** AutoML-Agent 用多角色协作的多智能体架构，结合 **RAP（检索增强规划）** 生成更好的候选计划，并通过 **多阶段验证** 确保最终产出可部署代码。\n\n**类比：**\n- 传统 AutoML 像“材料有了，但做饭顺序与火候要你自己调”的密植套餐。\n- 只帮你读配方的 LLM，就像“偶尔提醒你步骤”的半自动设备。\n- AutoML-Agent 是酒店式服务：厨房分工明确，你只说菜单，它就把食材获取→烹饪→端上桌（部署）完整做完。\n\n接下来把这条“全流程自动化”翻译成可阅读的数学步骤。","1":"**[背景知识] 必须掌握的基础概念**\n\n为了阅读本节数式，请认真把握这 5 件事。\n\n- **Full-Pipeline AutoML（全流程 AutoML）**\n - 定义：不是只挑模型，而是把数据检索/选择、预处理、模型设计、HPO、代码生成与部署 **全部串起来** 自动化。\n\n- **Multi-Agent System（多智能体协作）**\n - 定义：把工作按角色拆开，让“管理者/分析者/执行者”等专职代理协作并交换中间结果。\n\n- **Retrieval-Augmented Planning（RAP，检索增强规划）**\n - 定义：规划时引入外部检索知识（论文/代码/竞赛示例），而不是只靠模型记忆。\n\n- **Plan Decomposition & Parallelizable（计划分解与并行）**\n - 定义：把一个大计划拆成可并行的小任务，让依赖尽量减少。\n\n- **Multi-Stage Verification（多阶段验证）**\n - 定义：不仅“看起来对”，还要逐阶段确认：代码能否运行、性能是否达标、是否能部署。\n\n有了这些，后面的公式就会像地图一样清楚。","2":"$2d","3":"**[数式运行模拟] Toy Data Walkthrough**\n\n假设你要一个端到端可部署的图像分类系统。\n\n**设定：**\n- $I$：「找图像分类数据集，做预处理，快速训练，输出可部署代码，并尽量避免运行失败。」\n\n**帧1：** $R=\\mathcal{A}_p(I)$（任务与约束结构化）\n\n**帧2：** $P=\\mathcal{A}_{mgr}(RAP(R))$ 得到两个候选计划 $p_1,p_2$\n- $p_1$：小数据集优先，轻量模型 + 高效预处理\n- $p_2$：先处理类别不平衡，更稳的训练策略\n\n**帧3：** 数据智能体分别生成 $O_1^d,O_2^d$\n\n**帧4：** 模型智能体分别生成 $O_1^m,O_2^m$\n\n**帧5：** 通过验证选择 $O^{*}$，生成 $\\mathcal{M}^{*}=\\mathcal{A}_o(I^{*})$\n\n**帧6：** 计算 CS\n- $SR=0.9$\n- 若 $s=0.25$，则 $NPS=\\frac{1}{1.25}=0.8$\n- $CS=0.5\\times0.9+0.5\\times0.8=0.85$\n\n一句话：RAP引导计划，分解支持并行执行，多阶段验证把结果“关进”部署可用状态。","4":"**[实验与结果]**\n\n论文用 14 个数据集验证端到端自动化。\n\n| 模态 | 任务 | 示例数据集 |\n| :--- | :--- | :--- |\n| Image | 分类 | Butterfly Image, Shopee-IET |\n| Text | 分类 | Ecommerce Text, Textual Entailment |\n| Tabular | 分类 | Banana Quality, Software Defects |\n| Tabular | 回归 | Crab Age, Crop Price |\n| Tabular | 聚类 | Smoker Status, Higher Education Students Performance |\n| Time Series | 预测 | Weather, Electricity |\n| Graph | 节点分类 | Cora, Citeseer |\n\n**追加的定型数据集（用于对比）：**\n- Smoker Status (Binary): 预测某人是否吸烟（二分类基准）。\n- Click Prediction Small: 预测广告点击/CTR（二分类数据集）。\n- MFeat Factors: 基于多个因子特征构建的定型基准数据，用于评估机器学习效果。\n- Wine Quality White: 根据白葡萄酒的化学测量值预测品质分数的回归数据集。\n- Colleges: 利用学生/学校相关属性对入学或表现进行分类/预测的定型数据集。\n- House Prices: 根据房屋属性特征预测房价的经典回归基准。\n\n**主要实验结果（数值）：**\n- **约束下成功率：** 平均 **87.1%**（constraint-aware）。\n- **搜索速度：** 相比 SELA（MCTS）约 **快8倍**。\n- **时间与成本效率：** 从模型开发到部署平均 **525秒**，成本约 **$0.30**（GPT-4o 基准）。\n\n因此它不仅在找更好的模型，更是在追求“更可靠、可交付”的自动化产物。","5":"**[结论与局限]**\n\n**最终意义与实践价值（≤3）：**\n\n1. **全流程理念：** 把 AutoML 定义为一整条管线。\n2. **RAP + 多智能体：** 让计划探索从一次生成变成更高效的候选搜索。\n3. **先验证再输出：** 减少“看起来对但跑不起来”的常见故障。\n\n**局限 / 未来工作：**\n\n- **模板依赖：** 新任务类型可能仍需要更强的骨架/模板。\n- **后端LLM依赖：** 更强的主力LLM通常带来更好计划与代码。\n- **指标敏感：** SR/NPS 与验证标准的定义会显著影响评估。\n\n最后，用一张图把全流程编排固定下来。"},"visualPlanTitle":"[图解] 全流程编排看板","visualPlan":"单张流程序列图：把用户指令 $I$ 标准化为 $R$，用 **RAP** 强化规划，**数据、模型、代码**三个阶段并行处理分解后的任务，仅通过**多阶段验证**的产物进入**部署**。","visualLegacyTitle":"旧方式：单次计划/串行执行瓶颈","visualLegacyBody":"探索变长后，阶段连接断裂会导致代码与部署失败；失败重复就会把调试工作推回给用户。","visualProposedTitle":"AutoML-Agent：RAP + 多智能体 + 多阶段验证","visualProposedBody":"把需求标准化为 $R$；用RAP生成候选计划；把数据/模型分解后并行执行；最后用验证锁定可部署答案。","visualAxisStart":"自然语言","visualAxisEnd":"部署","visualDiagramUserNode":"任务指令","visualDiagramStdNode":"标准请求","visualDiagramStdCaption":"解析与标准化","visualLegacyCurveLabel":"成本↑ 成功↓","visualProposedCurveLabel":"成功率↑","visualContributionLabel":"全流程控制","visualLegacyBadgeLabel":"不可控","visualProposedBadgeLabel":"精密控制","visualDiagramData":"数据","visualDiagramModel":"模型","visualDiagramOps":"代码","visualDiagramVerify":"验证","visualDiagramShip":"上线","visualAnimPhases":["**任务指令** — 用户的自然语言描述（论文中的 $I$）。","**标准请求** — 可被工具与检索使用的**结构化请求**（论文中的 $R$）。","**RAP** — **检索**论文/代码/案例以强化规划。","**数据**阶段 — 清洗、切分与特征准备。","**模型**阶段 — 结构、训练与调参。","**代码**阶段 — 可运行脚本与上线准备。","**多阶段验证** — 逐步检查运行、指标与可部署性。","只有**全部通过**的结果才进入最终部署。"],"datasetSectionTitle":"数据集与评估设置","datasetSectionContent":"实验覆盖图像、文本、表格、时序与图结构基准，并同时评估成功率与归一化性能。","summary":"AutoML-Agent把自动化定义成端到端系统：RAP加速规划，分解支持并行执行，多阶段验证把可靠性锁死。这样就算数学很长，整篇也能压缩成一条主线：输入标准化 → 候选计划 → 并行执行 → 可部署的最终代码。"},"paperReviewSela":{"sectionTitle":"学习 / 论文导读 / AutoML·ML 流水线 / ICLR 2025 / SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning","title":"SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning","description":"LLM 智能体常生成**多样性不足、难以优化**的代码，而传统 AutoML 受**固定流水线**限制。\n\n**MCTS（蒙特卡洛树搜索）**把实验/决策展开成**树**，用模拟 rollout 与**验证分数**决定**下一步尝试哪条分支**。**UCT-DP**则改写用于挑选下一节点的 **UCT** 分数，使**训练等代价大的深层步骤**不那么被**浅层乱搜**挤掉。\n\n**SELA** 将流水线表示为这样的**树**，用 **MCTS** 安排实验顺序，并以 **UCT-DP** 优先更深的训练阶段。本文从 Insight 到归一化分数逐步拆解公式。","viewOriginalPdf":"查看 PDF（arXiv）","chapter1Lead":"# Chapter 1: SELA 与基于树搜索的 AutoML\n\n与上文一致，用平实语句说明：MCTS 在树上用 rollout 与验证分数决定下一步尝试哪条分支；UCT-DP 则改写挑选下一节点时用的 UCT，使训练等代价大的深层步骤较少被浅层搜索挤掉。","mctsIntroTitle":"什么是蒙特卡洛树搜索（MCTS）？","mctsIntroDescription":"**简要说明：** 把接下来要做的实验画成**树**，反复走下面四步。\n\n- **① 选（选择）：** 用 UCT 等规则决定**下一步去哪个节点**。\n\n- **② 加（扩展）：** 给树挂上**还没有的子节点**（新的尝试）。\n\n- **③ 跑（rollout）：** 在这条分支上跑代码或仿真，得到**验证分数**。\n\n- **④ 传（回传）：** 把分数**往父节点上传**，更新访问次数与平均分。\n\nSELA 用这**四步**加上验证分数，探索 LLM 提出的流水线分支。\n\n**UCT 是什么？**（把 Upper Confidence Bound 用到树上）在**兄弟子节点**里选**下一步走哪条**时用的打分规则。它把**平均回报高的分支**（利用）和**访问还少的分支**（探索）放在**同一个式子**里，用数值比较决定下一个节点。论文里的 **UCT-DP** 会微调 UCT，使**代价更大的深层训练**不那么被**浅层乱搜**挤掉。","mctsPhaseRowTitle":"四步（一轮）","mctsPhase1":"① 选","mctsPhase2":"② 加","mctsPhase3":"③ 跑","mctsPhase4":"④ 传","mctsSvgRoot":"根","mctsSvgLeft":"分支 A","mctsSvgRight":"分支 B","mctsSvgLeaf":"rollout","mctsSvgScore":"验证分数 s","mctsCaption":"紫色虚线表示本次选中的路径示例；多次重复后各分支会累积分数。","coreFlow":{"0":"### [摘要与引言] 三句摘要 + 问题\n\n**三句摘要**\n\n- **既有 LLM 智能体：** 代码**多样性不足**，多次尝试也**难以收敛**到好解。\n- **传统 AutoML：** 接近 **固定流水线/搜索模板**（如 Auto-sklearn），数据与任务变化时**难以动态重组**流水线。\n- **SELA 要点：** 用**树**表示流水线，用 **MCTS** 安排实验顺序，用**验证分数**驱动下一分支。**UCT-DP** 修改 UCT，使**更深、训练成本更高**的节点优先于浅层乱搜。\n\n**比喻：** 赛车里**只按工厂保养手册顺序**操作，接近传统 AutoML；**悬挂、发动机 map、胎压一次全改、只跑一圈**就结束，接近单次 LLM 生成。SELA 则像**看分段圈速与遥测（验证分数），再决定下一步调什么并比较分支**的赛道工程师。","1":"# Chapter 2: 背景知识 — 读懂正文所需的五个概念\n\n### [背景知识]\n\n- **AutoML：** 减少人工介入，自动完成预处理、模型、超参数等流程；常见模式是 **试错→评估→迭代**。\n\n- **LLM 智能体：** 根据自然语言任务描述与数据摘要 **生成并运行代码**。在 SELA 中 **规划** 与 **代码/执行** 分阶段进行。\n\n- **搜索空间（Search space）：** 某一数据集/任务上可尝试的 **预处理×模型×超参数** 组合集合。组合爆炸使得 **穷举** 几乎不可行。\n\n- **MCTS：** 在树上结合 rollout 与统计，选择 **有潜力的分支**；核心是 **探索** 与 **利用** 的平衡。\n\n- **探索 vs 利用：** 在 **同一个公式里** 同时调节“多访问少有人走的路”与“沿高回报路径加深”。**UCT-DP** 额外强调 **优先更深的训练阶段**。","2":"$2e","3":"# Chapter 4: 玩具数据走读\n\n### [玩具模拟]\n\n数字仅作 **示意**——抓住 **流程** 即可。\n\n**帧 1 — Proposer** \n**白话：** 即便只有「二分类 + 有缺失」，LLM 仍会列出 **简短** 的预处理想法。 \n$p$=二分类，$d$=表格含缺失 → $\\Lambda$ 中有填补、标准化等候选。\n\n**帧 2 — MCTS 选择 $c$** \n**白话：** 搜索选中 **一种组合**（如标准化 + 逻辑回归），并沿该 **分支** 下行。\n\n**帧 3 — $E_{\\mathrm{plan}}$** \n**白话：** 把组合写成 **具体流水线顺序**。 \n在 $I^{\\tau}$ 中填入 `SimpleImputer` → `StandardScaler` → `LogisticRegression`。\n\n**帧 4 — 执行** \n**白话：** 运行代码，读取 **一个** 验证分数—此处假设 F1 $=0.72$。 \n若验证 F1 $s_{\\mathrm{raw}}=0.72$，且指标为越大越好，则 $\\mathrm{NS}=0.72$。\n\n**帧 5 — UCT-DP 更新** \n**白话：** 将分数回传，使该节点下次能与 **兄弟节点** 竞争；借助 **未访问** 处理，深层节点也不易吃亏。 \n向 $v(x)$ 累加回报并增加访问次数；在兄弟间比较 $\\mathrm{UCTDP}$。\n\n**帧 6 — Rescaled NS** \n**白话：** SELA 基准为 1，其他方法除以 SELA。**小于 1** 在此处表示 SELA 更优。 \n若 SELA 的 NS 为 $0.72$，另一方法为 $0.65$，则比 $\\approx 0.90$（<1 有利 SELA）。","4":"# Chapter 5: 实验\n\n### [结果]\n\n在 **20 个 ML 数据集**（arXiv 摘要）上，SELA 相对各基线报告约 **65%–80% 胜率**——**优势稳定**。**MCTS 优于随机搜索**；**增加 rollout** 通常 **提升** 分数——便于规划 API/时间预算。","5":"# Chapter 6: 结论与图示说明\n\n### [结论]\n\n**可落地要点（≤3 条）**\n\n1. **无需逐步手选** 也能得到较强的 AutoML 基线。\n2. **缓存 rollout** 降低 API/GPU 成本。\n3. **树状日志** 便于解释 **走了哪条分支**。\n\n**局限：** 向机器人/软件工程等域推广；更大搜索空间需更高样本效率；更强 **可解释性** 需配套 UI。\n\n### [图示] 摘要\n\n- **传统：** 线性/一次性流程—反馈弱时难以达到目标质量。\n- **SELA：** 在树上 **MCTS + UCT-DP**，用 **验证分数** 更新—下方 **左右图** 仅为对比示意。"},"visualPlanTitle":"对比一览","visualPlan":"**左：** 固定顺序与单次生成，反馈可能偏弱。**右：** 用验证分数在树上选分支。下图为**示意**。","visualLegacyTitle":"传统：固定流水线·单次生成","visualLegacyBody":"一次定全局或只按规则执行，反馈弱、难以收敛。","visualProposedTitle":"SELA：树搜索 + UCT-DP","visualProposedBody":"按阶段分支，用验证分数更新平均回报。","visualAxisStart":"起点","visualAxisEnd":"目标质量","visualLegacyCurveLabel":"散乱尝试","visualProposedCurveLabel":"树上收敛","visualContributionLabel":"实验难度轴","visualLegacyBadgeLabel":"难控制","visualProposedBadgeLabel":"精细实验","visualLegacyTemplateLabel":"固定 AutoML 模板（顺序锁定）","visualLegacyStageFe":"特征·预处理","visualLegacyStageModel":"模型","visualLegacyStageTrain":"训练·验证","visualLegacyDeadEndHint":"不匹配→走不通","visualLegacyOneshotLabel":"单次 LLM：一次性生成整段流水线 σ","visualLegacyOpenLoopLabel":"验证分数 s 难回流以重设 Λ","visualProposedInsightLabel":"Insight 候选 Λ（LLM）","visualProposedPrunedLabel":"UCT 低·剪枝","visualProposedFeedbackLabel":"验证 s → 更新 v(x), n","visualProposedCacheLabel":"缓存 σ 与中间结果","visualProposedUctDpLabel":"UCT-DP：优先更深训练","visualProposedRolloutLabel":"MCTS rollout 与仿真","visualProposedBestScoreLabel":"接近目标的分数","visualSvgLabelPrep":"数据准备","visualSvgLabelModel":"选模型","visualSvgLabelTrain":"训练与验证","visualSvgLabelStuck":"卡在这里","visualSvgLabelOneShot":"一次生成代码","visualSvgLabelLowVal":"验证分偏低","visualSvgLabelStart":"起点","visualSvgLabelSkip":"较差分支","visualSvgLabelAvg":"累计平均","visualSvgLabelDone":"接近目标","visualSvgFeedbackLine":"验证分数向上反馈","summary":"SELA 用 **MCTS 在树上排列 LLM 想法**，**UCT-DP** 减少浅层浪费。**NS** 公平对比，缓存与日志帮助**成本与可解释性**。"},"mlChapters":{"mlSectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何被使用","problemSolving":"总结"},"mlKnnProblemSolvingLabel":"解题说明","mlKnnVisualIntro":"先选出离新数据(?)最近的 K=3 个邻居，再按它们的标签多数表决得到预测。","mlKnnVisualCaption":"虚线圆：按距离。K=3 邻居(紫)标签: 1, 2, 2 → 多数表决为 2","mlKnnVisualStep0":"① 训练数据 — 特征空间中的点（标签 1 或 2）","mlKnnVisualStep1":"② 新数据(?)出现 — 预测该点的标签","mlKnnVisualStep2":"③ 按距离找到最近的 K=3 个（虚线圆）","mlKnnVisualStep3":"④ 与 K=3 邻居连线 — 按距离顺序","mlKnnVisualStep4":"⑤ 多数表决：标签 1, 2, 2 → 预测为 2","mlLinearRegressionVisualIntro":"找出与数据点最拟合的直线 $\\hat y = w x + b$。","mlLinearRegressionVisualStep0":"① 训练数据 — (x, y) 散点图","mlLinearRegressionVisualStep1":"② 错误的初始直线 — 梯度下降前","mlLinearRegressionVisualStep2":"③ 直线学习并移向最优位置","mlLinearRegressionVisualStep3":"④ 学习完成 — 用新输入 $x$ 预测 $\\hat y$","mlLinearRegressionVisualCaption":"$$y \\approx 0.7x + 1.1$ — 梯度下降学习 $w$, $b$","mlLinearRegressionVisualLearningBadge":"学习中...","mlLinearRegressionVisualPlay":"观看直线学习过程","mlLinearRegressionVisualReplay":"重新播放","mlLinearRegressionProblemSolvingLabel":"解题说明","mlMseVisualIntro":"**回归损失示例：** 预测 $\\hat y$ 与实际 $y$ 的差平方后取平均即为 MSE。（分类常用交叉熵。）","mlMseVisualStep0":"① 数据点与预测直线 $\\hat y = w x + b$","mlMseVisualStep1":"② 各点到直线的残差（误差）","mlMseVisualStep2":"③ 误差平方 $(y_i - \\hat y_i)^2$","mlMseVisualStep3":"④ MSE $= \\frac{1}{n}\\sum_i (y_i - \\hat y_i)^2$","mlMseVisualCaption":"MSE $= \\frac{1}{n}\\sum_i (y_i - \\hat y_i)^2$ — 损失越小，直线对数据拟合越好。","mlMseVisualSquaresLabel":"平方误差 = 面积（边长 = |残差|）","mlMseProblemSolvingLabel":"解题说明","mlLogisticProblemSolvingLabel":"解题说明","mlLogisticVisualIntro":"线性分数 $z$ 越大，$\\sigma(z)$ 越接近 1，越判为 class 1。$z=0$ 为决策边界。","mlLogisticVisualCaption":"Sigmoid：$\\sigma(z) = \\frac{1}{1+e^{-z}}$。$z>0$ 时 $\\hat y=1$，$z \\le 0$ 时 $\\hat y=0$。","mlLogisticVisualFormulaExplain":"**公式读法** — $z$ 为很大负数时 $e^{-z}$ 很大，$\\sigma(z) \\approx 0$。$z=0$ 时 $\\sigma(0)=0.5$。$z$ 为很大正数时 $e^{-z} \\approx 0$，$\\sigma(z) \\approx 1$。即该公式把任意 $z$ 压成 0～1 之间的概率。","mlLogisticVisualXAxisLabel":"z (线性分数)","mlLinearRegressionProblemSolvingTable":"$2f","mlKnnProblemSolvingTable":"**算法步骤**\n\n- **输入** — 新数据的特征向量 $\\mathbf{x}$\n- **已存数据** — (特征, 标签) 对 $(\\mathbf{x}_i, y_i)$\n- **1** — 计算 $\\mathbf{x}$ 与各 $\\mathbf{x}_i$ 的距离 $d(\\mathbf{x}, \\mathbf{x}_i)$\n- **2** — 按距离取最小的 K 个\n- **3（分类）** — 用 K 个标签的**多数表决**得到预测 $\\hat y$\n- **3（回归）** — 用 K 个 $y_i$ 的**平均**作为预测 $\\hat y$","mlDecisionTreeProblemSolvingLabel":"解题说明","mlDecisionTreeVisualIntro":"从根节点按每个问题的「是/否」沿分支走，叶节点给出预测。","mlDecisionTreeVisualStep0":"① 根节点 — 第一个问题（如：特征 $x_1 \\le 3$？）","mlDecisionTreeVisualStep1":"② 否(0)/是(1) 向左/右子节点移动","mlDecisionTreeVisualStep2":"③ 在内部节点重复提问","mlDecisionTreeVisualStep3":"④ 叶节点 — 不再分割，输出预测（类别或数值）","mlDecisionTreeVisualPathCaption0":"① 根节点 — 提出第一个问题。按是/否沿分支向下。","mlDecisionTreeVisualPathCaption1":"④ 沿路径：是(1) → 叶0","mlDecisionTreeVisualPathCaption2":"⑤ 沿路径：否(0) → 叶1","mlDecisionTreeVisualStep0Description":"① 根节点 — 在第一个问题处按是/否分叉，沿左或右分支向下。","mlDecisionTreeVisualLabelRoot":"根","mlDecisionTreeVisualLabelYes":"是(1)","mlDecisionTreeVisualLabelNo":"否(0)","mlDecisionTreeVisualLabelQuestion":"问题","mlDecisionTreeVisualLabelLeaf0":"叶0","mlDecisionTreeVisualLabelLeaf1":"叶1","mlDecisionTreeVisualDiagramAriaLabel":"决策树结构：根—问题—叶","mlEnsembleVisualIntro":"将多棵模型（树）的预测通过投票或平均得到最终预测。","mlEnsembleVisualStep0":"① 从训练数据中抽取 bootstrap 样本，训练多棵树","mlEnsembleVisualStep1":"② 每棵树独立预测","mlEnsembleVisualStep2":"③ 分类：多数决，回归：平均 → 最终预测","mlEnsembleVisualStep3":"④ 最终预测确定","mlEnsembleVisualLabelData":"数据","mlEnsembleVisualLabelVote":"投票/平均","mlEnsembleVisualLabelPrediction":"预测","mlEnsembleVisualLabelTree1":"树1","mlEnsembleVisualLabelTree2":"树2","mlEnsembleVisualLabelTree3":"树3","mlEnsembleVisualAriaLabel":"集成流程：数据→树→投票/平均→预测","mlKmeansProblemSolvingLabel":"解题说明","mlKmeansVisualIntro":"将各点分配到最近的中心，再将中心更新为所属点的均值，反复进行。","mlKmeansVisualStep0":"① 数据 — 无标签的点分布在特征空间中","mlKmeansVisualStep1":"② 初始化K个中心 — 放置K个中心点","mlKmeansVisualStep2":"③ 分配 — 将各点分配到最近的中心（用颜色区分）","mlKmeansVisualStep3":"④ 更新中心 — 将各簇点的坐标均值作为新中心","mlKmeansVisualStep4":"⑤ 重复 — 直到分配与中心不再变化","mlKmeansVisualCaption":"K均值：重复“分配→更新”以最小化SSE（畸变）。","mlKmeansVisualAriaLabel":"K均值流程：数据→初始中心→分配→更新→收敛","mlKmeansVisualMeanLabel":"均值","mlKmeansVisualPointDataLabel":"点: 数据","mlKmeansVisualLineCaption":"线: 从各点到其所属中心(μ)","mlKmeansVisualCenterMoveCaption":"中心向簇均值移动","mlCrossValidationProblemSolvingLabel":"解题说明","mlCrossValidationVisualIntro":"将数据分为训练/验证/测试，K折中轮流验证并用平均分数估计性能。","mlCrossValidationVisualTitle":"① 5折","mlCrossValidationVisualFoldLabel":"第{n}折","mlCrossValidationVisualTrainLabel":"训练","mlCrossValidationVisualValLabel":"验证","mlCrossValidationVisualScoreLabel":"验证分数","mlCrossValidationVisualMeanLabel":"平均 μ","mlCrossValidationVisualStep0":"① 全部数据 — 用于训练与验证的样本","mlCrossValidationVisualStep1":"② 训练/验证/测试划分 — 训练学习、验证调参、测试最终评估","mlCrossValidationVisualStep2":"③ K折 — 分成K份，每次一份作验证、其余训练","mlCrossValidationVisualStep3":"④ 各折验证分数 — 得到 $S_1, \\ldots, S_K$","mlCrossValidationVisualStep4":"⑤ 平均 $\\bar{S} = \\frac{1}{K}\\sum_{k=1}^K S_k$ — 最终估计","mlCrossValidationVisualCaption":"交叉验证：模拟考（验证）估实力，正式考（测试）做最终确认。","mlCrossValidationVisualAriaLabel":"交叉验证流程：数据→划分→K折→各折分数→平均","mlCrossValidationProblemPrompt":"阅读下列指示后在（?）处输入答案。","mlCrossValidationProblemPromptDefinition":"若下列叙述**正确**选**对**，否则选**错**。\n\n{statement}","mlCrossValidationProblemPromptDefinitionChoice":"请选择最符合题意的选项。\n\n{question}","mlCrossValidationProblemPromptHoldoutTrain":"共{n}个样本、训练比例{trainRatio}时训练个数为？（整数）","mlCrossValidationProblemPromptHoldoutTest":"共{n}个样本、训练比例{trainRatio}时测试个数为？（整数）","mlCrossValidationProblemPromptKfoldSize":"共{n}个样本、{K}折时单折（验证集）大小为？（整数商）","mlCrossValidationProblemPromptKfoldScoreMean":"K折验证分数(%)为{scores}时，求平均(整数)。","mlCrossValidationProblemPromptScenario":"请选择最符合情境的方法。\n\n{scenario}","mlCrossValidationProblemPromptStratified":"请选择最符合题意的选项。\n\n{question}","mlCrossValidationStatement_0":"交叉验证不单用训练数据打分，而是划分验证/测试来估计性能。","mlCrossValidationStatement_1":"验证集像模拟考，用于超参选择或模型比较。","mlCrossValidationStatement_2":"K折将数据分K份，轮流作验证，用验证分数平均作为最终估计。","mlCrossValidationStatement_3":"测试集仅用于最终性能报告一次。","mlCrossValidationStatement_4":"留出法是将数据一次性分为训练/验证（或训练/测试）的方法。","mlCrossValidationStatement_5":"训练分数高而验证/测试分数低时可怀疑过拟合。","mlCrossValidationStatement_6":"训练集是模型学习权重、参数时使用的数据。","mlCrossValidationStatement_7":"K折中单折大小通常取 n/K 的整数商。","mlCrossValidationStatement_10":"在验证集上训练后可以直接用验证集报告最终性能。","mlCrossValidationStatement_11":"留出法一定比K折估计更稳定。","mlCrossValidationStatement_12":"测试集可以多次使用来选模型。","mlCrossValidationStatement_13":"仅用训练数据测性能就能准确反映泛化能力。","mlCrossValidationStatement_14":"K折中K越大验证次数越少。","mlCrossValidationQuestionChoice_0":"交叉验证的主要目的是？①估计泛化 ②加快训练 ③数据增强","mlCrossValidationQuestionChoice_1":"数据少时更有利的是？①留出法 ②K折 ③仅分层","mlCrossValidationQuestionChoice_2":"相当于模拟考的是？①训练 ②验证 ③测试","mlCrossValidationQuestionChoice_3":"在各折中保持类别比例的是？①留出法 ②普通K折 ③分层K折","mlCrossValidationQuestionChoice_4":"相当于正式考的是？①训练 ②验证 ③测试","mlCrossValidationQuestionChoice_5":"选超参时用的是？①训练 ②验证 ③测试","mlCrossValidationQuestionChoice_6":"用多种划分多次验证的是？①留出法 ②K折 ③仅测试","mlCrossValidationQuestionChoice_7":"可能过拟合的情况是？①训练验证都高 ②训练高验证低 ③训练低验证高","mlCrossValidationScenario_0":"有1万条数据，想一次划分快速评估。","mlCrossValidationScenario_1":"只有500条，想多次划分得到稳定验证估计。","mlCrossValidationScenario_2":"一次划分80%训练、20%测试，测试最后只用一次。","mlCrossValidationScenario_3":"分类中类别90:10不平衡，希望每折保持该比例。","mlCrossValidationScenario_4":"想进行5轮验证并报告平均准确率。","mlCrossValidationScenario_5":"一次划分70:30使用。","mlCrossValidationScenario_6":"为降低验证估计方差进行K轮验证。","mlCrossValidationScenario_7":"二分类中希望每折保持正例比例。","mlCrossValidationStratified_0":"分层K折的优点是？①保持类别比例 ②更快 ③省内存","mlCrossValidationStratified_1":"分类类别不平衡时推荐？①仅留出法 ②分层K折 ③不做验证","mlCrossValidationStratified_2":"分层主要用于？①仅回归 ②分类（保持类别比） ③聚类","mlEvaluationProblemPrompt":"请阅读下列指示并求出答案，在空白(?)处输入。","mlEvaluationProblemSolvingLabel":"解题说明","mlEvaluationVisualIntro":"用实际(行)与预测(列)填好2×2混淆矩阵后，计算准确率、精确率、召回率和F1。","mlEvaluationVisualStep0":"① 实际 vs 预测 — 行：实际正例/负例，列：预测正例/负例","mlEvaluationVisualStep1":"② 混淆矩阵 — 填满 TP、TN、FP、FN 四个格子","mlEvaluationVisualStep2":"③ 准确率 — (TP+TN)/总数，正确比例","mlEvaluationVisualStep3":"④ 精确率·召回率 — 精确率: TP/(TP+FP)，召回率: TP/(TP+FN)","mlEvaluationVisualStep4":"⑤ F1 — 精确率与召回率的调和平均","mlEvaluationVisualCaption":"通过混淆矩阵读懂分类模型的成绩单，并选择与目标相符的指标。","mlEvaluationVisualAriaLabel":"分类评估：混淆矩阵 → 准确率、精确率、召回率、F1","mlEvaluationVisualMatrixTitle":"混淆矩阵 (2×2)","mlEvaluationVisualStepLineFP":"实际负例 · 预测正例 → FP","mlEvaluationVisualStepLineFN":"实际正例 · 预测负例 → FN","mlEvaluationVisualStepLineTP":"实际正例 · 预测正例 → TP","mlEvaluationVisualStepLineTN":"实际负例 · 预测负例 → TN","mlEvaluationVisualPredPos":"预测正例","mlEvaluationVisualPredNeg":"预测负例","mlEvaluationVisualActualPos":"实际正例","mlEvaluationVisualActualNeg":"实际负例","mlEvaluationVisualBadgeTP":"真正例 ✓","mlEvaluationVisualBadgeFN":"漏检（实际正例→预测负例）","mlEvaluationVisualBadgeFP":"假正例（实际负例→预测正例）","mlEvaluationVisualBadgeTN":"真负例 ✓","mlEvaluationVisualBadgeFixed":"区分 TP·FN·FP·TN 四格后，计算准确率、精确率、召回率和 F1。","mlEvaluationProblemPromptDefinition":"若下列叙述**正确**选**对**，否则选**错**。\n\n{statement}","mlEvaluationProblemPromptDefinitionChoice":"请选择最符合题意的选项。\n\n{question}","mlEvaluationProblemPromptScenario":"请选择最符合下列情境的选项。\n\n{scenario}","mlEvaluationProblemPromptConfusionCount":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，{cell} 的值（整数）是？","mlEvaluationProblemPromptTotalCount":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，总个数 n（整数）是？","mlEvaluationProblemPromptAccuracy":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，准确率（%）（整数）是？","mlEvaluationProblemPromptPrecision":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，精确率（%）（整数）是？","mlEvaluationProblemPromptRecall":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，召回率（%）（整数）是？","mlEvaluationProblemPromptF1":"混淆矩阵中 TP={tp}，TN={tn}，FP={fp}，FN={fn} 时，F1 分数（%）（整数）是？","mlEvaluationStatement_0":"混淆矩阵是将实际类别(行)与预测类别(列)用2×2表示的表。","mlEvaluationStatement_1":"准确率是(TP+TN)除以总个数得到的值。","mlEvaluationStatement_2":"精确率的分母是 TP+FP。","mlEvaluationStatement_3":"召回率的分母是 TP+FN。","mlEvaluationStatement_4":"F1 是精确率与召回率的调和平均。","mlEvaluationStatement_5":"TP 是实际为正例且预测也为正例的个数。","mlEvaluationStatement_6":"FN 是实际为正例但预测为负例的情况（漏检）。","mlEvaluationStatement_7":"在类别不平衡的数据上仅看准确率可能产生误解。","mlEvaluationStatement_10":"精确率与召回率始终相等。","mlEvaluationStatement_11":"准确率高则模型一定适合实际应用。","mlEvaluationStatement_12":"FP 是实际为正例但预测为负例的情况。","mlEvaluationStatement_13":"召回率的分母是 TP+FP。","mlEvaluationStatement_14":"TN 是实际为正例且预测也为正例的个数。","mlEvaluationQuestionChoice_0":"准确率的分子是？ ① TP+TN ② TP+FP ③ TP+FN","mlEvaluationQuestionChoice_1":"精确率的分母是？ ① TP+FN ② TP+FP ③ TN+FN","mlEvaluationQuestionChoice_2":"召回率重要的情境是？ ① 允许漏掉垃圾邮件 ② 不能漏诊疾病时 ③ 最小化假正例时","mlEvaluationQuestionChoice_3":"F1 是哪两者的调和平均？ ① 准确率与精确率 ② 精确率与召回率 ③ 召回率与准确率","mlEvaluationQuestionChoice_4":"TP 表示？ ① 实际正例、预测正例 ② 实际负例、预测正例 ③ 实际正例、预测负例","mlEvaluationQuestionChoice_5":"假正例（FP）是？ ① FP ② FN ③ TN","mlEvaluationQuestionChoice_6":"漏检（FN）是？ ① FP ② FN ③ 精确率","mlEvaluationQuestionChoice_7":"总个数 n 是？ ① TP+TN ② TP+TN+FP+FN ③ TP+FP+FN","mlEvaluationScenario_0":"不能漏掉垃圾邮件的情况（正常邮件误判为垃圾邮件可一定程度接受）。重要指标是？ ① 召回率 ② 精确率 ③ 准确率","mlEvaluationScenario_1":"医疗诊断中「有病不能说成无病」时。重要指标是？ ① 准确率 ② 召回率 ③ 精确率","mlEvaluationScenario_2":"广告点击预测中想提高「预测为点击中真正点击的比例」时。重要指标是？ ① 召回率 ② 精确率 ③ F1","mlEvaluationScenario_3":"欺诈检测中不能漏掉欺诈时。重要指标是？ ① 精确率 ② 召回率 ③ 准确率","mlEvaluationScenario_4":"想平衡看待精确率与召回率时使用的指标是？ ① 准确率 ② F1 ③ TP","mlEvaluationScenario_5":"类别 99:1 严重不平衡时仅看准确率？ ① 可信 ② 可能误解 ③ 等于 F1","mlEvaluationScenario_6":"与「检索结果前10条中相关文档比例」最接近的指标是？ ① 召回率 ② 精确率 ③ FN","mlEvaluationScenario_7":"衡量「实际正例中被模型预测对的比例」的指标是？ ① 精确率 ② 召回率 ③ 准确率","mlRegularizationProblemPrompt":"阅读题目，在下方选项中选择正确答案。","mlRegularizationProblemSolvingLabel":"解题说明","mlRegularizationVisualIntro":"在损失中加入「模型过于复杂」的惩罚项，使模型泛化而非死记。","mlRegularizationVisualVs":"对比","mlRegularizationVisualLabelNoReg":"无正则化","mlRegularizationVisualLabelWithReg":"有正则化","mlRegularizationVisualLabelOverfit":"过拟合","mlRegularizationVisualLabelGeneral":"泛化","mlRegularizationVisualStep0":"① 无正则化 — 只最小化训练损失会导致**过拟合**","mlRegularizationVisualStep1":"② 引入正则 — 损失 = 数据损失 + λ×惩罚；**λ 越大权重越被压制**","mlRegularizationVisualStep2":"③ L2 — **惩罚 $\\sum w_j^2$ 使权重保持较小**","mlRegularizationVisualStep3":"④ L1 — **惩罚 $\\sum |w_j|$ 使部分权重为 0（稀疏）**","mlRegularizationVisualStep4":"⑤ 泛化 — 合适的 λ **在训练与验证上均表现良好**","mlRegularizationVisualCaption":"正则化：损失+λ·惩罚以减轻过拟合、提升泛化。","mlRegularizationVisualAriaLabel":"正则化流程：过拟合→损失+惩罚→L1/L2→泛化","mlRecommendationProblemPrompt":"阅读题目，在下方选项中选择正确答案。","mlRecommendationProblemSolvingLabel":"解题说明","mlRecommendationSubjectivePrompt":"用一句话写下理由（不计分）。","mlRecommendationSubjectivePlaceholder":"例如：因为用“邻居”的评分并结合相似度加权平均来预测空白。","mlRecommendationVisualIntro":"由用户×物品评分矩阵找出相似用户（近邻），用其评分预测空白格。","mlRecommendationVisualStep0":"① 评分矩阵 — 行：用户，列：物品。已知评分与空白(?)","mlRecommendationVisualStep1":"② 相似度 — 计算用户间（或物品间）相似度","mlRecommendationVisualStep2":"③ 近邻选择 — 选出最相似的 K 个近邻","mlRecommendationVisualStep3":"④ 预测 — 用近邻评分的加权平均预测空白","mlRecommendationVisualStep4":"⑤ 推荐 — 推荐预测分数高的物品","mlRecommendationVisualHowItWorks":"① 找近邻 → ② 参考其评分 → ③ 预测空位 → ④ 推荐","mlRecommendationVisualRowTitle":"近邻对此作品的评分 → 填入我的预测评分","mlRecommendationVisualCardNeighbor1":"近邻1（相似用户）","mlRecommendationVisualCardNeighbor2":"近邻2（相似用户）","mlRecommendationVisualCardItem":"此作品（我还没看过）","mlRecommendationVisualCardNeighbor1Short":"近邻1","mlRecommendationVisualCardNeighbor2Short":"近邻2","mlRecommendationVisualCardItemShort":"此作品","mlRecommendationVisualCalc":"平均预测: $\\hat{r}_{u,i}=\\frac{5+4}{2}=4.5\\approx4$（近邻给出了 ★5 和 ★4）→ 预测 ★4","mlRecommendationVisualBottomDesc":"相似用户给此作品 ★5、★4 → 平均推荐 ★4！","mlRecommendationVisualCaption":"协同过滤：由相似用户预测 $\\hat{r}_{u,i}$。","mlRecommendationVisualAriaLabel":"推荐流程：评分矩阵→相似度→近邻→加权平均","ml00":{"chapter":"Chapter 00","title":"机器学习的起点：数据与特征","description":"机器学习从数据开始。我们将图像、文字、数字转化为**特征**这种数值形式，让模型能够学习模式。基础数学 Ch00 中学习的「数字与函数」世界在这里成为现实。","sectionTitle":"什么是数据与特征","whatIs":{"0":"**数据是机器学习的原料** — 如基础数学Ch00所学，深度学习与机器学习将我们提供的图像、文字、声音都转化为**数字**。这些**数字化的输入**与**标签(Label)**的配对就是**数据**。例如「猫的照片＋猫」构成一个数据，这样的配对积累数千、数万条，就成为模型可学习的原料。","1":"**特征是将数据核心信息提取为数字后的结果** — 我们看到的照片对计算机而言只是数万个像素数字的集合。从中选出「耳朵形状」「眼睛大小」「毛色」等**有助于判断的信息**并以数字表示，就是**特征**。数学上以**向量**表示，通过**函数**从原始数据中提取。Ch00中提到的「规定输入输出规则的函数」正是承担这一转换的角色。","2":"**总结** — 数据是(输入、标签)的集合，特征是将该输入转化为模型可理解的**数字向量**的结果。好的特征能让模型学得更好，坏的特征即使数据再多也难以提升性能。机器学习的起点就是决定「用什么数据、转化为哪些特征」。"},"whyImportant":{"0":"**没有数据就无法学习** — 模型做出的所有决策归根结底都是**数字与函数**的计算结果。如Ch00所学，要追踪AI的计算过程，数据必须以**数字**形式整理。数据不足或混入错误标签，模型就会学到错误的模式。","1":"**特征设计决定模型的上限** — 人决定「提取哪些信息为数字」的过程称为**特征工程**。股价预测中只用「昨日收盘价」与加入「移动平均、成交量、波动率」相比，结果大不相同。用**向量与矩阵**将众多特征打包一次性计算，是Ch00路线图的核心，在此过程中特征的质量左右模型性能。","2":"**通往下一章的桥梁** — Ch02 KNN、Ch03 线性回归、Ch05 逻辑回归等所有机器学习算法都以**特征向量**为输入。理解数据与特征，才能解释「模型为何做出这样的预测」，而涉及**微分**与**概率**的后续章节也建立在这一基础之上。"},"howUsed":{"0":"**输入 → 特征提取 → 模型 → 预测** — 机器学习流水线与Ch00中的**输入 → 数字转换 → 函数重复 → 输出**结构相同。特征提取是「数字转换」阶段，模型(线性回归、KNN等)是**函数**的集合。**微分**用于学习时减小误差，**概率**用于表达预测的不确定性，如「这张图是猫的概率90%」。"},"problemSolving":{"0":"本章总结了**数据**与**特征**在机器学习中的角色以及在实际中的用法。数据是(输入、标签)配对的集合，特征则是将输入转化为模型可用的**数字向量**的结果。做好**特征工程**、选好特征会极大影响效果，因此在进入下一章（KNN、线性回归等）之前，建议先扎实掌握这些概念。","1":"| 区分 | 在数据·特征中的角色 | 与基础数学的关联 |\n| --- | --- | --- |\n| **数据** | (输入、标签)配对的集合，以数字表示 | 函数的定义域·值域 (Ch01) |\n| **特征** | 将输入转化为向量的结果，模型的输入 | 向量、矩阵 (Ch00路线图) |\n| **学习** | 用数据调整模型参数 | 微分、梯度 (Ch06~08) |\n| **预测** | 特征向量 → 模型 → 预测值或概率 | 概率、分布 (Ch10~12) |"}},"ml01":{"chapter":"Chapter 01","title":"缺失值处理：填补数据空白的策略","description":"本章从概念到实战讲解缺失值处理：单一插补与多重插补、异常值检测(Box Plot, Mahalanobis Distance, Isolation Forest, SVDD)、以及类别不平衡处理(Tomek Links, SMOTE, ADASYN, 复合重采样)。","sectionTitle":"缺失值处理：减少空白、提升可信度的预处理","whatIs":{"0":"**什么是缺失值？** 数据表中某一格没有取值的状态，像缺了一块的拼图。实务中可能来自问卷未答、传感器中断、传输丢失等。","1":"**缺失机制(MCAR/MAR/MNAR)**追问“为什么空着”。**MCAR**(完全随机缺失 · Missing Completely At Random)像咖啡泼在问卷上——近似纯随机。**MAR**(随机缺失 · Missing At Random)像男性受访者不填“化妆品支出”——与**其他已观测变量**相关。**MNAR**(非随机缺失 · Missing Not At Random)像低收入者故意空着“收入”——**缺失本身带有信息**。","2":"**处理策略**大致有三类：**整行删除**、用单一数值填充的**单次插补**、多次填充再合并的**多重插补**。各自在保留数据量、速度与统计严谨性上取舍不同，需按场景选择。","3":"**单次插补与多重插补**：**单次插补**用均值、众数等一次性填完，快但有风险；**多重插补**构造多份合理的完整数据（多个“平行世界”），再综合结论，更谨慎。","4":"**异常检测的两个视角**：只看一个变量的**单变量检测(箱线图)**，与看变量组合是否异常的**多变量检测(Mahalanobis/Isolation Forest/SVDD)**解决不同问题；实务中往往两者都看。","5":"**类别不平衡校正**：当样本向某一类严重倾斜时，模型容易像“没有少数类”一样学习。常用 Tomek Links(边界清理)、SMOTE/ADASYN(合成少数类)、SMOTE+Tomek(先合成再清理)等组合策略。","6":"**核心信息**：缺失值处理不是孤立技巧，而是与异常检测、不平衡校正相连的**一体化流水线设计问题**。"},"whyImportant":{"0":"**机器讨厌空值。** 空着不填，计算可能直接报错，就像答题卡没填无法阅卷。","1":"**乱填会严重误导。** 若一律用 0 或均值填充，分布被破坏，模型会把插补值当真，产生**过度自信**的预测。","2":"**预处理是一套组合拳。** 只补缺失不算完，还要同步规划异常值与不平衡处理，模型在真实环境中才站得稳。","3":"**关乎公平与安全：** 若某群体缺失更多(MAR/MNAR)，错误插补会拉大群体间性能差距，需在预处理阶段审视偏差信号。","4":"**比选模型更先影响效果：** 同一算法下，预处理优劣对结果影响巨大，实务里常常是“好的数据流程”胜过“好的模型名字”。","5":"**部署后也更稳：** 预先规定缺失、异常、不平衡的处理规则，新数据也能一致处理，便于再训练与监控。"},"howUsed":{"0":"**实战流程**：探索性分析(EDA)→假设缺失原因→插补→捕捉极端值(**异常值检测**，如箱线图)→调整类别比例(**不平衡处理**，如 SMOTE)→再建模与评估。","1":"**单次插补写法**：均值填充 $x_{miss} \\leftarrow \\bar{x}$；中位数填充 $x_{miss} \\leftarrow \\mathrm{median}(x)$。","2":"**多重插补概念**：构造 $m$ 份完整数据集，将各份得到的估计 $\\theta_k$ 合并，例如 $\\bar{\\theta}=\\frac{1}{m}\\sum_{k=1}^{m}\\theta_k$。","3":"**基于 IQR 的箱线图规则**：下栅栏 $Q_1-1.5\\times IQR$ 与上栅栏 $Q_3+1.5\\times IQR$ 之间为常见范围，**外侧点**可作为异常值**候选**。","4":"**协方差**：刻画两变量**一起**波动的程度，例如身高与体重是否同向变化。公式 $\\mathrm{cov}(X,Y)=\\mathbb{E}[(X-\\mu_X)(Y-\\mu_Y)]$。多变量汇总为**协方差矩阵** $\\Sigma$，决定数据云团(椭圆)的方向与拉伸。","5":"**马氏距离**：不是简单直线距离，而是用 $\\Sigma^{-1}$ 按分布形状加权：$D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$（协方差是关键）。","6":"**孤立森林**：更关注点在随机划分下是否**很快被孤立**（路径短），高维也常可用、对分布假设较弱。","7":"**SVDD(单类)**：仅用正常样本学习包住正常区域的**边界**(最小体积球或核边界)，边界外判为异常，常用于单类异常检测。","8":"**类别不平衡**：正类极少时，模型“全猜多数类”也可能准确率高，需结合 Recall、精确率、F1、PR-AUC，必要时重采样。","9":"**Tomek Links**：不同类别互为最近邻的一对边界样本，常删除多数类一侧（或两者）以**清理**重叠，属欠采样式清洗。","10":"**SMOTE**：在少数类样本 $\\mathbf{x}$ 与其近邻 $\\mathbf{x}_{nn}$ 之间插值：$\\mathbf{x}_{new}=\\mathbf{x}+\\lambda(\\mathbf{x}_{nn}-\\mathbf{x})$, $\\lambda\\sim U(0,1)$。比简单复制更灵活，但边界噪声大时也可能合成劣质点。","11":"**复合重采样(如 SMOTE+Tomek)**：先用 SMOTE **过采样**少数类，再用 Tomek **清理**边界模糊成对点，记作**先增后清**。","12":"**ADASYN**：在 SMOTE 基础上，向“更难”的少数类区域（周围多为多数类）分配**更多**合成点，强化决策边界附近。"},"problemSolving":{"0":"涉及缺失、插补、异常值与类别不平衡的题目，只要抓住「**为何缺失**（MCAR·MAR·MNAR）／**填一次还是多次**（单次与多重插补）／**只看单变量还是看到协方差**（单变量与多变量异常值）／**如何处理类别比例与决策边界**（指标与重采样）」这一条线，就容易拆解。**MCAR**假定缺失机制与**观测与未观测取值**均无关（近似完全随机）；**MAR**允许缺失机制依赖**已观测变量**；**MNAR**表示**未观测数值本身**（如敏感程度）影响是否被观测。**单次插补**如 $x_{\\mathrm{miss}} \\leftarrow \\bar{x}$ 一次填入；**多重插补**的典型流程是由 $m$ 个完整数据集得到 $\\hat\\theta_k$，再按 $\\bar{\\theta}=\\frac{1}{m}\\sum_{k=1}^{m}\\hat\\theta_k$ 合并。**单变量**异常值用 $Q_1-1.5\\,\\mathrm{IQR}$、$Q_3+1.5\\,\\mathrm{IQR}$ 栅栏（箱线图）；**多变量**则关注含协方差的马氏距离 $D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$ 以及 Isolation Forest、SVDD 等。**类别不平衡**时除准确率外还要看 Recall、F1、PR-AUC；常先 **SMOTE** 扩充少数类，再用 **Tomek** 清理边界成对样本，即 **oversample → clean**。","1":"**示例（概念：缺失）**\n\n问题越敏感，缺失越多。最接近？ ① MCAR ② MAR ③ MNAR ④ IQR\n\n**值本身/敏感性**驱动是否被观测 → **MNAR**。 → **答案 ③**\n\n---\n\n**示例（判断：单次 vs 多重）**\n\n“多重插补就是用单一代表值把所有缺失一次性填完。”对=1，错=0。\n\n多重插补要 **多份补全数据** 再汇总 → 错。 → **答案 0**\n\n---\n\n**示例（单变量异常）**\n\n以 $Q_1-1.5\\times IQR$ 与 $Q_3+1.5\\times IQR$ 栅栏外侧为候选，属于？ ① 马氏距离 ② 箱线图·IQR ③ SMOTE ④ SVDD\n\nIQR 栅栏是 **单变量**箱线图规则。 → **答案 ②**\n\n---\n\n**示例（多变量距离）**\n\n$D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$ 是？ ① 仅欧氏 ② 马氏距离 ③ Tomek ④ 均值插补\n\n含 $\\Sigma^{-1}$ 的协方差感知距离即 **马氏距离**。 → **答案 ②**\n\n---\n\n**示例（不平衡：指标）**\n\n漏掉少数类代价大，但 **总体准确率** 仍可能很好看。更直接的是？ ① 仅准确率 ② 死盯准确率 ③ Recall / F1 / PR-AUC ④ MCAR\n\n不平衡下 **Recall / F1 / PR-AUC** 更有信息量。 → **答案 ③**\n\n---\n\n**示例（应用：重采样）**\n\n先用 **SMOTE** 扩少数类，再用 **Tomek** 去掉边界成对样本。最接近？ ① 仅 SVDD ② 仅 SMOTE ③ SMOTE+Tomek ④ 仅在 MCAR 下删除\n\n**过采样 → 清理** 即 SMOTE+Tomek 思路。 → **答案 ③**"},"summary":"**一页备忘**\n- 没有放之四海皆准的插补；关键是先弄清**为何缺失(MCAR/MAR/MNAR)**。\n- **单次插补**快但忽略不确定性；**多重插补**统计上更稳但计算更重。\n- 异常值要同时看**单变量(箱线图)**与**多变量(Mahalanobis/孤立森林/SVDD)**，少漏检。\n- 不平衡按目标组合 **Tomek(清理)**、**SMOTE/ADASYN(合成)**、**SMOTE+Tomek(复合)**。\n- 用 Recall、F1、PR-AUC 等对比预处理前后，验证是否真变好。"},"ml02":{"chapter":"Chapter 02","title":"监督学习、无监督学习与自监督学习","description":"根据数据的使用方式，机器学习常分为**监督学习**、**无监督学习**和**自监督学习**。**监督学习**像对照答案学习；**无监督学习**像在没有标签的情况下发现模式、将相似项分组；**自监督学习**像遮住数据的一部分，通过预测缺失部分来学习。本章概括这三种范式的核心思想、数学与实战用法，为后续算法打好基础。","sectionTitle":"三种学习方式：监督、无监督、自监督","whatIs":{"0":"**监督学习：从输入–标签对学习** — 模型被给予**输入 $\\mathbf{x}$** 与对应的**标签(目标) $y$** 成对出现。目标是近似函数 $y = f(\\mathbf{x})$，训练后可为新输入预测 $y$。形式上将训练集记为 $\\mathcal{D} = \\{(\\mathbf{x}_1, y_1), (\\mathbf{x}_2, y_2), \\ldots\\}$，通过**最小化损失**（如 MSE、交叉熵）得到 $f$。Ch02 KNN、Ch03 线性回归、Ch04 逻辑回归均为监督学习。\n* **例1（分类）**：垃圾邮件过滤——邮件内容($\\mathbf{x}$) → 是否垃圾($y$)。\n* **例2（回归）**：房价预测——面积、位置($\\mathbf{x}$) → 价格($y$)。\n* **例3（医疗）**：患者检查指标($\\mathbf{x}$)与诊断结果($y$)用于辅助诊断。","1":"**无监督学习：发现隐藏结构** — 只提供**输入 $\\mathbf{x}$**，**没有标签 $y$**。可理解为「只有题目、没有答案」。目标是利用 $\\mathbf{x}$ 之间的**距离与相似度**发现**结构、模式或聚类**：把相似点归为一类（聚类）、压缩到更少维度（降维）、或标记偏离正常模式的**异常**。\n* **例1（聚类）**：用顾客年龄与购买历史($\\mathbf{x}$)做客户分群。\n* **例2（异常检测）**：学习正常交易模式($\\mathbf{x}$)，标记异常交易。\n* **例3（降维）**：将很多特征压成 2～3 个数，便于可视化或去噪。（具体方法会在后面学到。）","2":"**自监督学习：从数据构造目标** — 不依赖人工标签，模型从数据本身构造**伪标签**。典型流程：(1)**遮住**输入的一部分（如词、图像块）；(2)**预测**被遮部分；(3)**利用**学到的表示，用少量监督数据做下游任务。BERT、GPT 及很多视觉模型都是在大规模无标注数据上这样预训练的。\n* **例1（语言）**：「我吃了 [MASK]」——根据上下文预测被遮词（LLM）。\n* **例2（视觉）**：遮住图像一块，用其余像素重建该块。\n* **例3（对比）**：同一图像的不同增强视为「相同」、不同图像视为「不同」，学习表示。"},"whyImportant":{"0":"**数据性质与成本** — 为全部数据打标签成本高。标签充足时**监督**有效；标签稀缺时用**无监督**或**自监督**利用无标签数据，再用少量监督微调。**可解释性**也不同：监督可通过损失和决策路径做一定解释；无监督/自监督需要另做解释（如聚类命名、可视化）。","1":"**预训练与微调** — 现代流程常在大规模无标签数据上做**自监督**预训练，再在少量有标签数据上做**监督**微调。**无监督**常用于预处理与探索，例如先用 K-Means 对客户聚类，由人为聚类赋予含义（如「忠诚」「流失风险」），再建监督流失预测模型。选对范式能使流程清晰，并在数据量与标注成本下更现实。"},"howUsed":{"0":"**监督** — Ch02 KNN、Ch03 线性回归、Ch04 逻辑回归从(输入, 标签)对学习。**分类**：垃圾邮件、疾病预测、图像分类。**回归**：房价、销量、温度等，Ch03/Ch04 会讲数学与优化。","1":"**无监督** — Ch08 K-Means 在无标签下聚类；**降维**（把很多特征压成 2～3 个数）也是常用工具。**聚类**：客户细分、主题分组。**异常检测**：学习「正常」区域，标记区域外样本。","2":"**自监督** — BERT（掩码词预测）、GPT（下一词预测）、视觉**对比学习**等广泛使用。预训练后用少量标签做 QA、摘要、分类等。"},"problemSolving":{"0":"区分监督、无监督、自监督时，先问：标签是**人工标注**、**没有**，还是**从数据派生**？**监督学习**用 $(\\mathbf{x},y)$ 拟合 $y=f(\\mathbf{x})$；**无监督**仅用 $\\mathbf{x}$ 找聚类/结构；**自监督**用掩码词、下一词等**自建目标**学表示，再常配合少量标签微调。","1":"**示例（概念理解题）**\n\n像垃圾邮件过滤这样用 **人工标签** 学分类，最接近？ ①监督 ②无监督 ③自监督\n\n用人类标注好的答案训练，属于监督学习。 → **答案 ①**\n\n---\n\n**示例（判断题）**\n\n「无标签、只把客户聚类，属于无监督学习。」对填1，错填0。\n\n无标签下聚类属于无监督。 → **答案 1**\n\n---\n\n**示例（应用题）**\n\n用掩码词预测来学表示，最接近？ ①仅监督 ②仅聚类 ③掩码语言模型/对比学习\n\n从输入构造目标再学表示，属于自监督预训练。 → **答案 ③**"},"mlSupervisedUnsupervisedSelfVisualIntro":"三种学习范式：监督(输入–标签对)、无监督(无标签)、自监督(自建目标)。","mlSupervisedUnsupervisedSelfVisualStep0":"监督：从(输入, 标签)对学习预测函数","mlSupervisedUnsupervisedSelfVisualStep1":"无监督：在无标签下发现结构与聚类","mlSupervisedUnsupervisedSelfVisualStep2":"自监督：从自建目标学习表示","mlSupervisedUnsupervisedSelfProblemSolvingLabel":"解题说明","mlSupervisedUnsupervisedSelfVisualPhase0Title":"监督学习：输入 x 与标签 y 成对出现","mlSupervisedUnsupervisedSelfVisualPhase0Caption":"当按顺序给出 (x, y) 对时，模型学习规则","mlSupervisedUnsupervisedSelfVisualPhase1Title":"无监督学习：只有输入 x（无标签 y）","mlSupervisedUnsupervisedSelfVisualPhase1Caption":"没有 y(标签)，只有 x。部分 x 闪烁 → 模型仍发现结构与聚类","mlSupervisedUnsupervisedSelfVisualPhase1NoLabelBadge":"无标签","mlSupervisedUnsupervisedSelfVisualPhase2Title":"自监督学习：遮住部分数据并预测空缺","mlSupervisedUnsupervisedSelfVisualPhase2Caption1":"遮住部分输入","mlSupervisedUnsupervisedSelfVisualPhase2Caption2":"模型预测被遮部分","mlSupervisedUnsupervisedSelfVisualPhase2Caption3":"用预测词填满空缺","mlSupervisedUnsupervisedSelfVisualPhase2Prefix":"我吃了","mlSupervisedUnsupervisedSelfVisualPhase2Suffix":"。","mlSupervisedUnsupervisedSelfVisualPhase2Filled":"饭","mlSupervisedUnsupervisedSelfVisualPhase2Example":"例：填空 → 表示学习（如 BERT）","mlSupervisedUnsupervisedSelfVisualPhase2Step1":"遮住","mlSupervisedUnsupervisedSelfVisualPhase2Step2":"预测","mlSupervisedUnsupervisedSelfVisualPhase2Step3":"填满","mlSupervisedUnsupervisedSelfVisualAutoCycle":"三种方式同时播放动画","problemAnswerHint":"请在下方选项中选择符合题意的学习方式。","mcAnswerSupervised":"监督学习","mcAnswerUnsupervised":"无监督学习","mcAnswerSelfSupervised":"自监督学习","mcAnswerDistractor":"强化学习","problems":{"definition_1_0":"用输入与标签(答案)成对的数据进行学习的方式是？①监督 ②无监督 ③自监督","definition_1_1":"从(输入 $\\mathbf{x}$，标签 $y$)对学习 $y=f(\\mathbf{x})$ 的是哪种学习？①监督 ②无监督 ③自监督","definition_1_2":"可以用「老师用红笔批改答案」来比喻的学习方式是？①监督 ②无监督 ③自监督","definition_1_3":"在分类或回归中使用人工标注标签的学习是？①监督 ②无监督 ③自监督","definition_1_4":"从(输入, 标签)对学习分类或回归的代表性学习方式是？①监督 ②无监督 ③自监督","definition_1_5":"数据带有目标值、模型被训练去拟合该目标的学习方式是？①监督 ②无监督 ③自监督","definition_2_0":"仅凭输入、无标签地发现结构、模式或聚类的是哪种学习？①监督 ②无监督 ③自监督","definition_2_1":"没有标签 $y$、只有 $\\mathbf{x}$ 时，在数据中找分组的方式是？①监督 ②无监督 ③自监督","definition_2_2":"无标签地把相似数据聚成簇，对应哪种学习方式？①监督 ②无监督 ③自监督","definition_2_3":"可以用「自己发现类型并归类」来比喻的学习是？①监督 ②无监督 ③自监督","definition_2_4":"常用于降维或异常检测、无标签的学习是？①监督 ②无监督 ③自监督","definition_2_5":"在无人为答案的情况下只发现数据结构的方式是？①监督 ②无监督 ③自监督","definition_3_0":"用数据自身生成的「伪标签」来学习的方式是？①监督 ②无监督 ③自监督","definition_3_1":"像「遮词填空、下一句预测」那样自己构造目标的学习是？①监督 ②无监督 ③自监督","definition_3_2":"通过遮住句子一部分并预测该部分来学习的是？①监督 ②无监督 ③自监督","definition_3_3":"用大量无标签数据学习表示(representation)的范式是？①监督 ②无监督 ③自监督","definition_3_4":"可以用「自己出题自己做」来比喻的学习是？①监督 ②无监督 ③自监督","definition_3_5":"自己构造「相同/不同」对来学习表示的学习方式是？①监督 ②无监督 ③自监督","taskClassify_0":"垃圾邮件分类(有垃圾/正常标签)属于哪种学习？①监督 ②无监督 ③自监督","taskClassify_1":"仅有客户购买数据、无标签地把相似客户聚在一起是？①监督 ②无监督 ③自监督","taskClassify_2":"通过预测句中遮住的词来学习词表示的是？①监督 ②无监督 ③自监督","taskClassify_3":"根据面积·位置预测房价是？①监督 ②无监督 ③自监督","taskClassify_4":"只有图像、无标签地把相似图像聚在一起(聚类)是？①监督 ②无监督 ③自监督","taskClassify_5":"用大量文本预训练后再用少量标签微调，前一阶段是？①监督 ②无监督 ③自监督","taskClassify_6":"用医学影像和「有无疾病」标签做疾病预测模型是？①监督 ②无监督 ③自监督","taskClassify_7":"无标签、只做「相似客户聚类」的客户细分是？①监督 ②无监督 ③自监督","taskClassify_8":"通过下一句预测学习上下文表示的是？①监督 ②无监督 ③自监督","taskClassify_9":"根据学习时间预测考试成绩是？①监督 ②无监督 ③自监督","taskClassify_10":"异常检测(只有正常数据、几乎无异常标签)最接近？①监督 ②无监督 ③自监督","taskClassify_11":"通过用其余部分预测图像被遮住部分来学习表示的是？①监督 ②无监督 ③自监督","scenario_0":"医院用历史患者数据(症状、检查值)和诊断结果(标签)学习「该患者是否患A病」。这是？①监督 ②无监督 ③自监督","scenario_1":"商城仅凭购买记录、无额外标签把客户分成若干组。这是？①监督 ②无监督 ③自监督","scenario_2":"用维基百科句子中遮住15%的词、并预测这些词的任务训练模型。这是？①监督 ②无监督 ③自监督","scenario_3":"用天气、日期和冰淇淋销量(标签)预测明日销量。这是？①监督 ②无监督 ③自监督","scenario_4":"对视频数据无标签地按相似场景聚类做索引。这是？①监督 ②无监督 ③自监督","scenario_5":"在大规模文档上以「下一句」预测学习上下文表示，再用少量QA标签微调。前一阶段是？①监督 ②无监督 ③自监督","scenario_6":"用狗/猫图片和各自类别(标签)训练分类器。这是？①监督 ②无监督 ③自监督","scenario_7":"仅有股价序列、无标签地划分模式区间。这是？①监督 ②无监督 ③自监督","scenario_8":"同一句子换一种说法，以「含义相同」为目标学习表示。这是？①监督 ②无监督 ③自监督","scenario_9":"用应聘资料(经历、学历)和是否录用(标签)建录用预测模型。这是？①监督 ②无监督 ③自监督","scenario_10":"仅有新闻正文、无主题标签地按主题聚类。这是？①监督 ②无监督 ③自监督","scenario_11":"通过遮住并还原部分语音来学习语音表示。这是？①监督 ②无监督 ③自监督","trueFalse_0":"「用输入与标签成对的数据学习」描述的是监督学习。这是哪种类型？①监督 ②无监督 ③自监督","trueFalse_1":"「无标签地只发现数据结构」描述的是无监督学习。这是哪种类型？①监督 ②无监督 ③自监督","trueFalse_2":"「用从数据构造的目标(如遮住的词)学习」描述的是自监督学习。这是哪种类型？①监督 ②无监督 ③自监督","trueFalse_3":"用(输入, 标签)对拟合一个预测值的函数。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_4":"仅凭数据、无标签地把数据分成K组。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_5":"通过预测句中遮住的词来学习。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_6":"用人工标注的合格/不合格标签学习。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_7":"「无答案、仅凭数据把相似项归类」描述的是无监督学习。这是哪种类型？①监督 ②无监督 ③自监督","trueFalse_8":"用自己构造的「相同/不同」对学习表示。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_9":"训练时使用(输入, 标签)对，对新输入预测标签。是哪种学习？①监督 ②无监督 ③自监督","trueFalse_10":"异常检测中仅用正常数据学习「正常区域」最接近无监督。这是哪种类型？①监督 ②无监督 ③自监督","trueFalse_11":"「通过预测下一句学习上下文」属于自监督。这是哪种类型？①监督 ②无监督 ③自监督"}},"ml03":{"chapter":"Chapter 03","title":"K近邻 (KNN)：物以类聚","description":"**物以类聚** — KNN 找出「最近的 K 个邻居」，用他们的标签（多数表决）来预测新数据。没有复杂的学习公式，只要算**距离**即可，是直观的第一个分类算法。","sectionTitle":"K近邻 (KNN)：物以类聚","whatIs":{"0":"**KNN 是什么** — 对于新来的数据点，在**已有标签的数据**中选出**距离最近的 K 个**，用这 K 个的**多数表决**决定新数据的标签。例：若 5 个最近邮件中有 4 个是「垃圾邮件」，则新邮件也判为垃圾邮件。","1":"**用距离定义「近」** — 「近」是指在**特征空间**里两点间的**距离**小。最常用的是**欧氏距离**：$d(\\mathbf{x}, \\mathbf y) = \\sqrt{\\sum_{i}(x_i - y_i)^2}$。若只有两个特征，就是平面上的直线距离。","2":"**K 是超参数** — K=1 时只看最近 1 个；K 越大越平滑，但边界可能变钝。常用**奇数**避免平票。"},"whyImportant":{"0":"**没有显式训练（惰性学习）** — KNN 不学一个紧凑模型，预测时再算到所有已存点的距离。训练成本低，预测成本可能较高。","1":"**可解释** — 可以用「因为 5 个相似邮件里 4 个是垃圾邮件」这样的近邻来说明预测，便于可解释 AI。","2":"**常作基线** — 在试复杂模型前，先用 KNN 看数据能被分得多好。"},"howUsed":{"0":"**分类** — 用 K 个近邻的**类别（标签）**多数表决。用于图像分类、垃圾邮件检测、风险分层等。","1":"**回归** — 预测 K 个近邻目标值的**平均**（如用周边 5 套房价格平均估计自家房价）。","2":"**距离与尺度** — 特征尺度不同时，距离会被某一维主导。建议先**归一化**或**标准化**再算距离。"},"problemSolving":{"0":"**KNN** — 对新点 $\\mathbf{x}$ 与已存样本算**距离**，取最近的 **K 个**邻居，**分类**用**多数表决**、**回归**用**平均**。训练阶段不存权重，属**惰性学习**；特征尺度差异大时应先**归一化或标准化**再算距离。","1":"**示例（算法步骤）**\n\n- **输入** — 新样本的特征向量 $\\mathbf{x}$\n- **已存数据** — (特征, 标签) 对 $(\\mathbf{x}_i, y_i)$\n- **第1步** — 对每个 $\\mathbf{x}_i$ 计算 $d(\\mathbf{x}, \\mathbf{x}_i)$\n- **第2步** — 按距离取最小的 K 个\n- **第3步（分类）** — K 个标签**多数表决**得 $\\hat y$\n- **第3步（回归）** — K 个 $y_i$ 的**平均**得 $\\hat y$\n\n---\n\n**示例（距离）**\n\n点 A(0,0)、B(3,4) 的欧氏距离（整数）？\n\n$d=5$。→ **答案 5**\n\n---\n\n**示例（多数表决）**\n\nK=5，最近 5 个邻居标签为 1,1,2,2,2，预测类别？\n\n2 得 3 票。→ **答案 2**\n\n---\n\n**示例（回归平均）**\n\nK=3，三邻居目标值为 10,12,14，预测 $\\hat y$？\n\n$12$。→ **答案 12**\n\n---\n\n**示例（尺度）**\n\n收入（数值大）与年龄（数值小）混用时距离会被收入主导。更合理的预处理是？ ①先统一尺度 ②把 K 固定为 1\n\n①。→ **答案 ①**"},"problemSolvingTable":"**算法步骤**\n\n- **输入** — 新样本的特征向量 $\\mathbf{x}$\n- **已存数据** — (特征, 标签) 对 $(\\mathbf{x}_i, y_i)$\n- **第1步** — 对每个 $\\mathbf{x}_i$ 计算 $d(\\mathbf{x}, \\mathbf{x}_i)$\n- **第2步** — 按距离取最小的 K 个\n- **第3步（分类）** — K 个标签**多数表决**得 $\\hat y$\n- **第3步（回归）** — K 个 $y_i$ 的**平均**得 $\\hat y$"},"ml04":{"chapter":"Chapter 04","title":"线性回归：贯穿数据趋势的直线","description":"当数据点分散时，**线性回归**找出**贯穿其趋势的直线**，并对新输入进行预测。这是第一个能直接看到基础数学中的**函数**、**微分**、**偏微分**如何通向机器学习「训练」的回归模型。","sectionTitle":"线性回归：贯穿数据趋势的直线","whatIs":{"0":"**什么是线性回归？** — 假设输入 $x$ 与输出 $y$ 之间存在**线性关系** $y = w_1 x + w_0$（多变量时为 $y = \\mathbf{w}^\\top \\mathbf{x} + b$），并寻找与数据最拟合的**权重 $w$ 和截距 $b$**。基础数学 Ch01 的**函数** $y = f(x)$ 在这里具体化为**一次函数**。","1":"**「最拟合」的含义** — 最小化预测值 $\\hat y_i = w x_i + b$ 与真实值 $y_i$ 之间的**误差**。衡量该误差的函数是**损失函数**，Ch04 将学习的**MSE（均方误差）**是最常用的。","2":"**与 KNN 的区别** — KNN 用「近邻的平均」预测，而线性回归学习并保存**一个公式（直线）**。预测时无需搜索近邻，只需计算 $\\hat y = w x + b$。"},"whyImportant":{"0":"**微分与优化的首次应用** — 要最小化误差，需使用**微分**（基础数学 Ch06）。沿损失函数对 $w$、$b$ 的**梯度**下降即可到达最小值。这正是**梯度下降法**，与深度学习训练的原理相同。","1":"**可解释性** — 学到的 $w$ 表示「$x$ 增加 1 时 $y$ 变化多少」。例如房屋面积($x$)与价格($y$)，$w > 0$ 表示「面积越大越贵」，符合直觉。这种**可解释性**在实际中信任和改进模型时很重要。","2":"**其他模型的基础** — 逻辑回归(Ch05)、神经网络中的单个神经元，都是「线性变换 + 非线性函数」结构。理解线性回归，就能理解它们的**线性部分**如何工作。"},"howUsed":{"0":"**回归** — 用于预测**连续数值**：房价、销量、温度、分数等。多特征时为 $y = w_1 x_1 + w_2 x_2 + \\cdots + w_n x_n + b$ 的**多元线性回归**。","1":"**特征重要性** — $|w_i|$ 越大的特征对预测影响越大。做特征工程(Ch01)时，可用这些值决定保留或剔除哪些特征。","2":"**正规方程 vs 梯度下降** — 特征较少时可用**正规方程**一步求得最优解。特征多或数据量大时，用**梯度下降法**迭代更新 $w$。基础数学 Ch08 的**偏微分与梯度**是这里的核心工具。"},"visual":"展示线性回归直线拟合过程的可视化。","problemSolving":{"0":"**概要：不断减小误差的「试错」过程** — 线性回归像侦探一样，在散落的数据点间寻找**唯一一条**最能贯穿它们的**直线**（$y=wx+b$）。**模型（假设）**：起初随机画一条线，自然与真实数据不符，**误差**很大。**学习**：为减小误差使用梯度下降——就像蒙眼从山顶一步步往下走，寻找最低的谷底（误差最小处）。**预测**：到达谷底就找到了最优斜率（$w$）和位置（$b$）。之后新问题（$x$）一来，只需代入这条完成的公式，即可立刻预测答案（$\\hat y$）。","1":"**从数据中提取法则的三步** — 线性回归是在复杂数据中找出 $y=wx+b$ 这条**简单法则**的过程。\n\n**① 建立模型** — 假设「输入（$x$）与目标（$y$）呈线性关系」，据此设定模型。\n\n**② 优化（训练）** — 计算预测值（$\\hat y$）与实际值（$y$）之差即**损失**，用梯度下降逐步更新 $w$（斜率）和 $b$（截距）以最小化损失。这与深度学习的学习原理完全相同。\n\n**③ 推理（预测）** — 学到的直线压缩了数据的模式。新数据到来时，无需复杂运算，直接代入直线公式即可立刻得到预测结果。"}},"ml05":{"chapter":"Chapter 05","title":"损失函数 (MSE·交叉熵·R²)：衡量预测与真值的误差","sectionTitle":"损失函数 (MSE·交叉熵·R²)：衡量预测与真值的误差","description":"**损失函数**把模型错得有多离谱压成**一个数**。**回归**（预测连续值）常用预测 $\\hat y$ 与真值 $y$ 的 **均方误差（MSE）**，并进一步用 **$R^2$（决定系数）**看「模型相对基线解释了多少变动」。**分类**（类别与概率）则用 **交叉熵**衡量对正类概率的偏离。下图展示损失中以**回归为例的 MSE**如何随拟合变好而下降。","whatIs":{"0":"**回归：MSE**\n\n需要用**损失**把误差概括成一个数。\n\n- **残差** — 真实值 $y$ 与预测 $\\hat y$ 的差。\n- **SSE** — 各点 $(y-\\hat y)^2$ 之和（平方误差和）。\n- **MSE** — SSE 除以样本数 $n$（均方误差）。\n\n$\\text{MSE} = \\frac{1}{n}\\sum (y - \\hat y)^2 = \\text{SSE}/n$ — 越小拟合越好。","1":"**为何平方？**\n\n- $+2$ 与 $-2$ 都表示「偏差大小为 2」，直接相加会抵消。\n- **平方**后恒为正，只比较大小。\n- 偏差越大惩罚越大，模型更避免大误差。","2":"**与线性回归**\n\nCh03 的直线 $\\hat y=wx+b$ 即选择使 **MSE**（或 **SSE**）最小的 $w$, $b$。\n\n**梯度下降**沿减小 MSE 的方向更新参数。","3":"**回归：MSE是残差平方的平均**\n\nMSE是把残差 $y_i-\\hat y_i$ 进行平方并取平均得到的误差评分。预测越接近真实，残差越小，MSE也就越小。","4":"**拆开看 MSE**\n\n$\\text{MSE} = \\frac{1}{n}\\sum_i (y_i - \\hat y_i)^2$\n\n- **$i$** — 样本编号。\n- **$y_i$** — **真实值**。\n- **$\\hat y_i$** — **预测值**。\n- **$y_i - \\hat y_i$** — **残差**。\n- **$(y_i - \\hat y_i)^2$** — **平方误差**。\n- **$\\sum_i$** — 求和得 **SSE**。\n- **$\\frac{1}{n}$** — 取**平均**得 MSE。\n\n预测越接近真实，残差与 MSE 越小。","5":"---\n\n**分类：交叉熵**\n\n交叉熵用来度量模型对**真实类别**概率的预测有多“偏”。\n\n**二分类**的 $\\ell$ 会在下面的 **拆开看二分类交叉熵** 中逐项解释。\n\n**拆开看二分类交叉熵**\n\n$\\ell = -\\big(y\\log\\hat p + (1-y)\\log(1-\\hat p)\\big)$\n\n- **$y \\in \\lbrace 0,1 \\rbrace$** — 标签。\n- **$\\hat p$** — 正类（类别1）的预测概率（0～1）。\n- **$\\log$** — 通常取自然对数。\n\n**$y=1$ 时** — $(1-y)\\log(1-\\hat p)=0$，所以 $\\ell = -\\log\\hat p$。$\\hat p$ 越大，损失越小。\n\n**$y=0$ 时** — $y\\log\\hat p=0$，所以 $\\ell = -\\log(1-\\hat p)$。$1-\\hat p$ 是负类（类别0）的概率。\n\n这两项 $y\\log\\hat p$ 和 $(1-y)\\log(1-\\hat p)$ 表示**每个样本只会激活其中一条分支**，从而把概率推向**真实类别**。\n\n**多分类** — 对真实类别 $k$，通常定义单样本损失为\n\n$\\ell = -\\log \\hat p_k$\n\n（常与 **softmax** 概率配对）。当真实类别的预测概率 $\\hat p_k$ 很低时，损失会很大，训练会把它推高。","6":"$30"},"whyImportant":{"0":"**学习方向** — 回归用 MSE 时，只朝**降低 MSE**更新，目标清晰。","1":"**MSE 易优化** — 平方光滑、易求导，梯度下降友好。","2":"**RMSE** — MSE 是平方单位；$\\sqrt{\\text{MSE}}$ 与 $y$ 同单位便于解释。","3":"**损失与任务匹配** — 连续值用 **MSE**，类别概率用 **交叉熵**，与**极大似然**一致。**Ch.05 逻辑回归**将衔接 sigmoid 的 $\\hat p$ 与该损失。"},"howUsed":{"0":"**回归训练** — 房价、气温等用 **MSE** 最小化。","1":"**模型比较（回归）** — **MSE** 更小更优。","2":"**深度网络回归输出** — 数值预测输出层常用 MSE。","3":"**分类** — 逻辑回归、softmax、神经网络分类通常最小化 **交叉熵**。"},"visual":"...","problemSolving":{"0":"**小结：MSE + 交叉熵**\n\n**① 共性** — 损失是把错误压成**标量**。回归多用 **MSE**，分类与概率多用 **交叉熵**。\n\n---\n\n**② 回归：MSE** — 残差 $e_i = y_i - \\hat y_i$，**SSE** $= \\sum_i (y_i - \\hat y_i)^2$，**MSE** $= \\frac{1}{n}\\sum_i (y_i - \\hat y_i)^2 = \\text{SSE}/n$。与 $y$ 同单位用 **RMSE** $= \\sqrt{\\text{MSE}}$。\n\n---\n\n**③ 分类：交叉熵（要点）** — 二分类：$-\\big(y\\log\\hat p + (1-y)\\log(1-\\hat p)\\big)$；多分类真类 $k$：$-\\log \\hat p_k$。真类概率越高，损失越小。","1":"**例（SSE）**\n\n$n=2$，残差为 3 和 −3 时，平方误差和（SSE）为？\n\n$18$。→ **答案 18**\n\n---\n\n**例（交叉熵直观）**\n\n若 $y=1$ 且 $\\hat p=0.9$，损失更接近？ ①很大 ②约 $-\\log 0.9$（较小） ③恒为 0\n\n②。→ **答案 ②**\n\n---\n\n**例（$R^2$）**\n\n若 SSE < SST，$R^2$ 可能？ ①恒为负 ②可在 0 与 1 之间 ③恒为 1\n\n②。→ **答案 ②**"}},"ml06":{"chapter":"Chapter 06","title":"逻辑回归：及格还是不及格？","description":"线性回归预测「分数」，**逻辑回归**则专门做 **是/否** 分类——例如「这个分数算**及格(1)**还是**不及格(0)**？」。它用 **Sigmoid（S 形）函数**把分数变成 0～1 的**概率**。","sectionTitle":"逻辑回归：及格还是不及格？","whatIs":{"0":"**S 形曲线：Sigmoid** — 线性模型算出的分数 $z$ 可正可负、可很大。概率必须在 0～1 之间。**Sigmoid** $\\sigma(z) = \\frac{1}{1+e^{-z}}$ 把任意 $z$ 映射到 (0, 1)。","1":"**决策边界** — Sigmoid 给出「及格概率 0.7」后，需要规则。通常取 **0.5**：概率 ≥ 0.5 预测 **1（是）**，否则 **0（否）**。","2":"**内核与线性回归相同** — 逻辑回归仍先算分数 $z = wx + b$，区别只是多了一步：把 $z$ 通过 **Sigmoid** 变成概率。","3":"**如何读 $\\sigma(z) = \\frac{1}{1+e^{-z}}$** — $z$ 很大且为负时 $e^{-z}$ 很大，$\\sigma(z) \\approx 0$。$z=0$ 时 $\\sigma(0)=0.5$。$z$ 很大且为正时 $e^{-z} \\approx 0$，$\\sigma(z) \\approx 1$。因此任意 $z$ 都被压成 [0,1] 内的概率。"},"whyImportant":{"0":"**现实里大量是非题** — 是否垃圾邮件？是否患病？用户会不会买？**二分类**无处不在，逻辑回归是标准基线。","1":"**用数字表示置信度** — 说「及格概率 98%」比只说「及格」更有用。逻辑回归给出**概率**，便于决策。","2":"**通往深度学习的桥梁** — 神经网络中单个神经元的行为与逻辑回归非常相似。掌握它有助于后续理解深度学习。"},"howUsed":{"0":"**垃圾邮件过滤** — 根据特征算「该邮件是垃圾邮件的概率」，超过阈值则判为垃圾。","1":"**医疗 AI** — 根据影像或化验值预测「患病概率」，辅助诊断。","2":"**营销与推荐** — 预测「用户是否会流失」「是否会点击」等，用于定向与广告。"},"visual":"展示Sigmoid输出与决策边界的可视化。","problemSolving":{"0":"**逻辑回归小结** — 用于**二分类**（是/否、及格/不及格）。先算线性分数 $z = w_1 x_1 + w_2 x_2 + \\cdots + b$，再用 **Sigmoid** $\\sigma(z) = \\frac{1}{1+e^{-z}}$ 得到概率；概率 ≥ 0.5 预测 $\\hat y=1$，否则 $\\hat y=0$（$z=0$ 为决策边界）。重要原因：很多实际任务是二分类；同时给出**置信度（概率）**，也是理解深度学习神经元的基础。应用：垃圾邮件过滤、医疗辅助、营销（流失、点击预测）。**解题流程**：算 $z$ → $\\sigma(z)$ → $z>0$ 则 $\\hat y=1$，否则 $\\hat y=0$。具体例题见下方**解题说明**区块。","1":"**例（判断题）**\n\n「$z=0$ 时 $\\sigma(z)=0.5$。」对填 1，错填 0。\n\n对。→ **答案 1**\n\n---\n\n**例（决策）**\n\n$\\sigma(z)=0.7$，阈值 0.5 时预测类别？ ① 0 ② 1\n\n②。→ **答案 ②**\n\n---\n\n**例（符号）**\n\n$z>0$ 时通常 $\\hat y$ 为？ ① 0 ② 1\n\n②。→ **答案 ②**"}},"ml07":{"chapter":"Chapter 07","title":"决策树（Decision Tree）：用二十个问题找答案","description":"决策树像「二十个问题」游戏一样工作：对数据提问（条件），按是/否沿分支走，在叶节点得到预测。易于解释（能看到每条决策的理由），也是随机森林等集成方法的基础。","sectionTitle":"决策树：用二十个问题找答案","whatIs":{"0":"**基本结构** — 想象一棵倒过来的树。顶端是**根节点**（第一个问题）。从那里根据条件（如「特征 $x_1 \\le 3$？」）的「是」「否」进入**内部节点**。无法再分割时到达**叶节点**，输出**预测**（类别或数值）。","1":"**与二十个问题相同** — 像猜动物一样「四条腿吗？」→「食草吗？」→「老虎！」用问题逐步缩小答案范围。决策树也一样，用问题把数据分成两组。","2":"**好问题的标准：降低不纯度** — **不纯度**衡量节点内类别的混杂程度。希望分割后节点更「纯」。常用公式：**基尼** $G = 1 - \\sum p_i^2$ 和**熵** $H = -\\sum p_i \\log_2 p_i$。一类占100%时两者为0，各半时不纯度较高。","3":"**信息增益** — 分割前不纯度减去分割后（加权）不纯度即为**信息增益**，表示该问题让数据变「干净」了多少。树在每个节点选择信息增益最大的问题。","4":"**叶节点上的预测** — 在**叶节点**输出：**分类**时取该叶样本的**多数类**，**回归**时取**目标值平均**。新数据只需沿路径走到底即可得到预测。","5":"**剪枝** — 树过深会**过拟合**。**剪枝**通过砍掉部分分支限制深度、提高泛化。剪枝后的树是随机森林等集成的基础。"},"whyImportant":{"0":"**可解释 AI** — 不像黑箱模型，能清楚看到是哪些问题路径导致结论（如「年龄<30 且收入≥3000万→批准」）。在金融、医疗中很受重视。","1":"**非线性边界** — 线性模型用一条直线划分，决策树可以**阶梯状**多次划分，表达更复杂的模式。","2":"**集成的基础** — 单棵树可能不稳定，但几百棵**随机森林**就稳定且强大。Ch06 是 Ch07 的铺垫。"},"howUsed":{"0":"**信贷与贷款** — 「年收入≥5000万？」「一年内是否逾期？」等分支最终给出是否批准。","1":"**医疗决策辅助** — 血压、胆固醇等数据经一系列「二十问」预测患病风险、辅助诊断。","2":"**营销（流失、购买）** — 「注册超6个月？」「近一月登录≤3次？」等用于识别高风险客户、定向营销。"},"problemSolving":{"0":"**决策树解题** — (1)**沿路径**：从根节点起 0=否/左、1=是/右，叶节点的预测即为答案。\n\n---\n\n(2)**基尼**：由类数求 $p_i$，算 $G = 1 - \\sum_i p_i^2$，$100 \\times G$ 的值（整数）。\n\n---\n\n(3)**熵**：$H = -\\sum_i p_i \\log_2 p_i$，$100 \\times H$ 的值（整数）。\n\n---\n\n(4)**叶节点多数决**：类0有 $a$ 个、类1有 $b$ 个时，$a \\ge b$ 预测0，否则预测1。详见下方**解题说明**。","1":"**例（沿路径）**\n\n从根按 0/1 走到叶节点，读取该叶的**预测**。\n\n---\n\n**例（基尼）**\n\n某类占 100%（$p=1$）时，基尼 $G=1-\\sum p_i^2$ 等于？\n\n$0$。→ **答案 0**\n\n---\n\n**例（叶多数决）**\n\n叶上类 0 有 2 个、类 1 有 5 个时，预测类别？\n\n$1$。→ **答案 1**"},"visual":"展示决策树分支与预测路径的可视化。"},"ml08":{"chapter":"Chapter 08","title":"XGBoost, LightGBM, CatBoost","description":"对比 Boosting 三强，并学习实战选型标准。","sectionTitle":"XGBoost, LightGBM, CatBoost","whatIs":{"0":"**XGBoost**是强调精度的经典Boosting方法，常结合正则化与二阶信息（Hessian）。","1":"**LightGBM**依靠leaf-wise生长与直方图分裂，在大规模数据上训练速度优势明显。","2":"**CatBoost**通过有序编码稳定处理类别特征，可降低前处理成本。"},"whyImportant":{"0":"三者同属梯度提升树，但在**速度、稳定性、类别特征处理**方面取舍不同。","1":"实战里比“唯一最强模型”更重要的是：是否匹配**数据规模、特征类型与训练时限**。"},"howUsed":{"0":"表格分类/回归通常以XGBoost为基线；数据量很大优先试LightGBM；类别特征占比较高优先试CatBoost。","1":"最终模型一般综合验证分数、训练时间与过拟合趋势来决定。"},"problemSolving":{"0":"**选型题**先根据数据特性匹配算法，**O/X题**判断核心定义，**基础计算题**按题目给出的轮数/树数直接读取并计算。","1":"**示例题1（模型选型）**\n\n类别特征很多，且希望减少one-hot编码成本，优先考虑哪个模型？ ① XGBoost ② LightGBM ③ CatBoost\n\n这类场景通常优先CatBoost。→ **答案 ③**\n\n---\n\n**示例题2（模型选型）**\n\n超大规模表格数据且训练速度优先时，通常先试哪个模型？ ① XGBoost ② LightGBM ③ CatBoost\n\n速度优先通常先试LightGBM。→ **答案 ②**\n\n---\n\n**示例题3（定义O/X）**\n\n“XGBoost属于会利用正则化与二阶信息的Boosting方法。” 对填1，错填0。\n\n该说法正确。→ **答案 1**"},"visual":"按精度、速度与类别特征处理能力比较 XGBoost、LightGBM、CatBoost 的选型可视化。"},"ml09":{"chapter":"Chapter 09","title":"集成与随机森林：群体智慧","description":"集成（Ensemble）将多个模型的预测合并为一个更好的预测。本章介绍装袋、提升、堆叠以及由多棵决策树投票或求平均的随机森林，便于初学者理解“集体智慧”的思路。","sectionTitle":"集成与随机森林：群体智慧","whatIs":{"0":"**集成的基本思想** — 把多个模型组成「团队」，把各自的预测汇总成最终结论。像陪审团投票一样，比单模型更少出错（方差更小）、预测更**稳定**。分类用**多数决**，回归用**预测的平均**。","1":"**为什么多数更好（群体智慧）** — 让100人目测牛的体重，个人会偏，但**平均**往往很接近真实值。模型**独立**判断再汇总，个体误差会相互抵消，**共同信号**保留下来。","2":"**三种代表方法：装袋、提升、堆叠** — (1)**装袋(Bagging)**：各模型用随机抽样的不同数据，再公平投票。(2)**提升(Boosting)**：下一个模型重点学上一个错的样本，**顺序**补足弱点。(3)**堆叠(Stacking)**：用基模型的输出作为元模型的输入做最终决策。","3":"**随机森林** — 装袋 + **决策树**成百上千棵。为保持多样性，每次分裂只**随机用部分特征**。有的树主要看「年龄」，有的主要看「收入」。","4":"**投票与平均的公式** — 分类的多数决就是「得票最多的类别」。回归（如房价）时对所有树的预测求平均：**$\\hat y = \\frac{1}{B}\\sum_{b=1}^B \\hat y_b$**（$B$=树的数量，$\\hat y_b$=第 $b$ 棵的预测）。例：三棵预测100、150、200则最终为150。","5":"**OOB（Out-of-Bag）评估** — 装袋/随机森林中每棵树只用部分数据训练。**未被抽到的样本（OOB）**可用来评估「没看过该样本」的树的性能，无需单独留验证集。"},"whyImportant":{"0":"**稳如森林** — 单棵决策树数据稍变形状就变，但几百棵**森林**里几棵错了也不影响整体决策，实战中非常稳定。","1":"**Ch06 决策树的直接扩展** — 不纯度、信息增益照用。不是学新规则，而是「怎样把树聚起来投票」，前章知识 100% 用上。","2":"**业界与竞赛常用** — 调参不多也能有很好表现，且**特征重要性**能说明哪些变量重要。"},"howUsed":{"0":"**分类与回归通用** — 从「是否垃圾邮件？」到「明天股价？」几乎各种业务问题都会用到。","1":"**找主因（特征重要性）** — 贷款模型里若树都最依赖「年收入」，就说明年收入是最重要变量，便于筛掉无关特征。","2":"**实际应用** — 欺诈检测、推荐（如 Netflix）、设备故障预测等，凡需精度与稳定性的场景都会用到。"},"problemSolving":{"0":"**集成·随机森林解题** — (1)**多数决**：比较类0与类1的票数，**多的一方**为最终预测（0或1）。\n\n---\n\n(2)**票数**：获胜类别得到的票数即为答案。\n\n---\n\n(3)**回归平均**：所有树预测之和÷树数，（整数）。\n\n---\n\n(4)**OOB**：该样本**未出现在多少棵树的 bootstrap 中**即为 OOB 数。\n\n---\n\n(5)**公式**：$\\hat y = \\frac{1}{B}\\sum_{b=1}^B \\hat y_b$ 中 $B$ 为树数。","1":"**例（多数决）**\n\n类 0 得 3 票、类 1 得 5 票，最终类别？ ① 0 ② 1\n\n②。→ **答案 ②**\n\n---\n\n**例（回归平均）**\n\n三棵树预测 6、9、12，平均？\n\n$9$。→ **答案 9**\n\n---\n\n**例（OOB）**\n\n共 10 棵树，某样本仅出现在 6 棵树的 bootstrap 中，OOB 树数？\n\n$4$。→ **答案 4**\n\n---\n\n**例（公式平均）**\n\n$B=4$，预测之和为 20，平均？\n\n$5$。→ **答案 5**"},"visual":"展示集成模型投票/平均得到最终预测的可视化。"},"ml10":{"chapter":"Chapter 10","title":"K均值聚类：无标签分组","description":"在没有任何标签的情况下，仅根据数据将相似样本聚成K类的**无监督学习**代表算法。通过K均值，从概念→直观→公式→应用，理解Ch01中“无监督”如何落地，以及如何用**距离**构造K个簇。结合Ch02的KNN距离公式，通过可视化理解“按类聚集”的迭代过程。","sectionTitle":"K均值聚类：无标签分组","whatIs":{"0":"**K均值是什么？** — 当没有标签$y$、只有数据$\\mathbf{x}_1, \\mathbf{x}_2, \\ldots$时，按**最近中心**将点划分成K个簇。距离采用Ch02中的**欧氏距离**$d(\\mathbf{x}, \\boldsymbol{\\mu}) = \\sqrt{\\sum_j (x_j - \\mu_j)^2}$。每个簇由一个**中心（质心）**$\\boldsymbol{\\mu}_k$表示，反复执行“各点归入最近中心”和“各簇点坐标求平均作为新中心”，直到收敛。","1":"**K表示“分成几类”** — K均值中**簇数K**由用户事先给定。K=2即两类，K=3即三类。因无真实标签，“哪一类是正确答案”不可知，只能得到“相似样本聚在一起”的结果。实践中常结合领域知识、肘部法或轮廓系数等选择K。","2":"**目标：最小化簇内距离和（SSE）** — 算法最小化**畸变（SSE）**$J = \\sum_{k=1}^K \\sum_{i \\in C_k} \\|\\mathbf{x}_i - \\boldsymbol{\\mu}_k\\|^2$。中心更新式$\\boldsymbol{\\mu}_k = \\frac{1}{|C_k|}\\sum_{i \\in C_k} \\mathbf{x}_i$表示“该簇内点的坐标平均”，这样更新会使该簇的SSE下降。","3":"**若觉得公式难懂** — 距离公式就是在量“一个点和一个中心之间的长度”；SSE $J$ 是把“簇有多紧”用一个数表示；中心更新式就是“该簇内点坐标的平均”。下面**公式说明**中会按符号逐一解释。"},"whyImportant":{"0":"**Ch01无监督学习的具体实现** — K均值是“无标签、找结构/聚类”的典型算法，常用于客户分群、文档/图像聚类、异常检测预处理等。","1":"**客户细分** — 仅有购买记录、无客户类型标签时，用K均值将相似客户聚成若干群，再由人为各群赋予含义（如VIP、流失风险），用于后续Ch09、Ch12等任务。","2":"**直观且实现简单** — 仅需“分配”和“求平均”两步迭代，便于实现，且在二维上可直观看到“聚成几团”的过程。"},"howUsed":{"0":"**聚类** — 客户细分、主题/文档聚合、图像颜色或区域压缩、基因表达分组等。","1":"**预处理与特征摘要** — 将簇编号作为新特征输入监督模型，或仅保留簇中心以压缩数据。","2":"**K的选择** — K由用户指定；可对多个K比较SSE或轮廓等指标（如肘部法）再选定。"},"problemSolving":{"0":"**K-Means** — 无标签数据上设 **K 个中心**，反复**分配**（归入最近中心）与**更新**（簇内均值移动中心）。目标是最小化 SSE $J = \\sum_{k}\\sum_{i \\in C_k} \\|\\mathbf{x}_i - \\boldsymbol{\\mu}_k\\|^2$。中心更新 $\\boldsymbol{\\mu}_k = \\frac{1}{|C_k|}\\sum_{i \\in C_k} \\mathbf{x}_i$。","1":"**示例（术语整理）**\n\n- **距离平方** — $(x_2-x_1)^2+(y_2-y_1)^2$ 等；只比较时可不开方\n- **分配** — 到各中心距离（平方）**最小**的簇号\n- **中心更新** — 簇内点坐标的**平均**为新中心\n- **SSE** — 点到中心距离平方之和；越小越紧凑\n\n---\n\n**例（分配）**\n\n中心 $\\mu_1=(0,0)$、$\\mu_2=(4,0)$，点 $(2,0)$ 的簇号（平局取 1）？\n\n两中心距离平方均为 4 → **答案 1**\n\n---\n\n**例（中心更新）**\n\n簇内仅有 $(1,2)$、$(3,4)$ 时，新中心的 $\\bar{x}$？\n\n$(1+3)/2=2$。→ **答案 2**\n\n---\n\n**例（距离平方）**\n\n点 $(1,2)$ 与中心 $(4,6)$ 的距离平方？\n\n$3^2+4^2=25$。→ **答案 25**\n\n---\n\n**例（SSE 概念）**\n\n$J$ 越小簇越？ ①分散 ②紧凑\n\n②。→ **答案 2**"},"visual":"展示K-Means中分配与中心更新迭代的可视化。"},"ml11":{"chapter":"Chapter 11","title":"交叉验证：模拟考与正式考试","description":"为防止模型变成只背练过题的「井底之蛙」，必须做交叉验证。就像考生用**模拟考**检查真实水平、用**正式考试**一锤定音一样，机器学习模型也不能只靠**训练数据**打分，而要用**验证**和**测试**这些「陌生题目」来评估。本章学习将数据划分后验证模型真实水平的**交叉验证**（留出法、K折等）以及如何提高结果可信度。","sectionTitle":"交叉验证：模拟考与正式考试","whatIs":{"0":"**交叉验证是什么？「不用做过的题来打分」** — 如果数学考试出的全是练习册里做过的题，我们无法知道学生是懂了原理还是**过拟合**地背答案。机器学习也一样：用训练过的数据再测，总是高分。所以要把数据分成**训练**、**验证**、**测试**三块，在「从未见过的数据」上严格、公平地评估模型的真实水平，这就是交叉验证。","1":"**数据划分的三种角色** — 划分数据时的理想比例与各自角色如下。\n\n- **训练集** — 比喻：教材/习题集。模型学习模式、更新权重所用的主数据。常见比例：约70～80%。\n- **验证集** — 比喻：模拟考。学习过程中检查实力、调整超参或比较模型时使用。常见比例：约10～15%。\n- **测试集** — 比喻：正式考试。全部学习结束后、投入实战前**仅使用一次**报告最终性能。常见比例：约10～15%。","2":"**怎么划分？留出法与K折** — 划分方式主要有两种。**留出法**像把披萨一刀切开：数据只分一次成训练和测试，简单快速，但若「运气不好」容易的那部分进了测试集，估计会偏乐观。**K折交叉验证**则把数据切成K块，轮流用一块当模拟考（验证）、其余训练，这样每份数据都会当一次「考题」，估计更稳定、客观。","3":"**用公式看K折的最终成绩** — K折验证结束后共有K次「考试」成绩。模型的最终真实水平由这K次成绩的平均值决定。\n\n* **平均成绩公式：** $\\bar{S} = \\frac{1}{K}\\sum_{k=1}^K S_k$\n\n* **符号说明：** $K$ 为折数（验证次数），$S_k$ 为第 $k$ 折用作验证时得到的分数（如准确率、MSE等）。$\\sum_{k=1}^K S_k$ 即 $S_1 + S_2 + \\cdots + S_K$，除以 $K$ 得到 $\\bar{S}$，即**K个验证分数的平均**，用作最终性能估计。\n\n* **数值例：** 5折时若五次分数为 80、85、90、80、85，则 $\\bar{S} = (80+85+90+80+85)/5 = 84$ 分。"},"whyImportant":{"0":"**跳出「井底之蛙」（发现过拟合）** — 若模型在训练数据上得99分、在未见验证数据上只得50分，多半是**过拟合**（死记硬背而非理解）。交叉验证能在上线前筛掉这类模型。","1":"**证明真实实力（泛化性能）** — 企业用AI是为了预测未来，不是复现过去。用K折和留出测试集验证过的模型，在真正的新数据上更可能表现稳定。","2":"**找到最佳设置（超参与模型选择）** — 定树深度、K近邻的K、学习率等时，用验证集试多种配置并选最优。测试集严格分离，才能公平比较。"},"howUsed":{"0":"**数据科学家的日常（实战流程）** — 拿到数据后，先把约10%留作**测试集**锁起来。其余用于训练和K折验证，打磨出最佳模型后，再拿出测试集用一次报告：「本模型最终准确率为92%」。","1":"**公平比较算法** — 例如「客户流失预测用逻辑回归还是随机森林？」时，对两者用同一K折划分，平均验证分数（$\\bar{S}$）更高的算法入选上线。"},"problemSolving":{"0":"**小结** — 交叉验证的前提是：不能只用训练数据评估性能。正如正式考前用模拟考检查实力，机器学习中若只用**训练数据**打分，就无法判断是「理解原理」还是「只背答案」。因此将数据分为**训练**、**验证**、**测试**三部分。**训练**数据用于模型学习模式，**验证**用于学习过程中检查实力或选择超参，**测试**在所有学习结束后、投入实战前**仅使用一次**报告最终性能。划分方式有**留出法**和**K折**。留出法是将数据一次性分为训练/测试（或验证）；K折是将数据分成K份，轮流用一份作验证、其余作训练。使用K折时每份数据都会参与一次验证，因此比单次划分的估计更稳定。","1":"**示例（术语·计算整理）**\n\n- **训练个数** — $n \\times (\\text{比例}/100)$ 等\n- **测试个数** — $n - \\text{训练}$\n- **单折大小** — $\\lfloor n / K \\rfloor$\n- **K折平均** — $(S_1+\\cdots+S_K)/K$\n- **分层** — 各折保持类别比例\n\n---\n\n**例（对/错）**\n\n「可多次用测试集来选模型。」对填 1，错填 0。\n\n最终测试通常只用一次。→ **答案 0**\n\n---\n\n**例（留出训练）**\n\n100 个样本、训练 80%，训练个数？\n\n$80$。→ **答案 80**\n\n---\n\n**例（留出测试）**\n\n同上，测试个数？\n\n$20$。→ **答案 20**\n\n---\n\n**例（K折大小）**\n\n100 个样本、5 折，单折大小？\n\n$20$。→ **答案 20**\n\n---\n\n**例（K折平均）**\n\n分数 80,80,90,80,90，平均(整数)？\n\n$84$。→ **答案 84**\n\n---\n\n**例（分层）**\n\n分层 K 折在各折保持类别比例？ ①是 ②否（仅随机）\n\n①。→ **答案 1**"},"visual":"展示数据划分与K-Fold评估流程的可视化。"},"ml12":{"chapter":"Chapter 12","title":"分类评估指标：模型的详细成绩单","description":"学习分类人工智能模型在「考试」之后拿到的**「详细成绩单」**。不只看「一共对了几题」（准确率），还要搞清楚**「哪些题、怎样错」**，这就是**混淆矩阵(Confusion Matrix)**要讲的内容。在垃圾邮件过滤、癌症诊断AI等「错法」会带来致命后果的业务场景里，**精确率、召回率、F1**等指标如何证明模型的真实实力，我们会用直观比喻一起说明。","sectionTitle":"分类评估指标：混淆矩阵与模型成绩单","whatIs":{"0":"**什么是混淆矩阵？模型的详细成绩单** — 考试光看「对了几题」看不出学生是数学好还是英语好。分类模型也一样。把模型的**预测（列）**和**实际答案（行）**并排做成 2×2 表，就是**混淆矩阵**。看这四个格子，就能一眼看出模型哪里对、哪里「混淆」、哪里踩空。","1":"**四格的含义：TP、TN、FP、FN** — 用经典的「狼来了」来理解：这里「阳性」= 喊狼来了，「阴性」= 平安无事。\n* **TP（真正例）：** 狼真的来了(1)，少年也喊狼来了(1)。救了全村，最好结局。\n* **TN（真负例）：** 狼没来(0)，少年也没喊(0)。太平。\n* **FP（假正例）：** 狼没来(0)，少年却喊狼来了(1)。村民白跑一趟（误报）。\n* **FN（假负例／漏检）：** 狼真的来了(1)，少年在睡觉没喊(0)。羊被吃光，最糟结局（漏检）。\n* 总个数 $n = \\mathrm{TP} + \\mathrm{TN} + \\mathrm{FP} + \\mathrm{FN}$。","2":"**准确率(Accuracy)的坑** — 表示「全部题目里对了几成」，公式是 $\\text{准确率} = \\frac{\\mathrm{TP}+\\mathrm{TN}}{n}$。很直观，但有个可怕陷阱：假设 100 天里 99 天太平，狼只来 1 天。一个天天闭眼只会喊「没狼！」的笨机器人，准确率也有 99%。在「阳性极少」的不均衡数据下，绝不能只信准确率这一个数。","3":"**精确率(Precision)与召回率(Recall)：要追的两只兔子** —\n* **精确率（谨慎）：** 「我喊狼来了的时候，有几成真是狼？」即**预测为正例的里，真正是正例的比例**。$\\text{精确率} = \\frac{\\mathrm{TP}}{\\mathrm{TP}+\\mathrm{FP}}$。少误报(FP)、有把握才喊，精确率就高。\n* **召回率（敏感）：** 「狼真的来的那些次里，我几次发现并警告了？」即**实际正例里，模型命中的比例**。$\\text{召回率} = \\frac{\\mathrm{TP}}{\\mathrm{TP}+\\mathrm{FN}}$。一头狼都不漏(FN 少)，召回率就高。","4":"**F1 分数：精确率与召回率的黄金平衡** — 精确率和召回率像跷跷板，硬抬一边另一边就掉。把两者合成一个数就是**F1 分数**，用的是**调和平均**：$\\text{F1} = \\frac{2 \\cdot \\mathrm{TP}}{2\\cdot\\mathrm{TP}+\\mathrm{FP}+\\mathrm{FN}}$。只要精确率或召回率有一边很差，F1 就会很低。想找「不偏科」的均衡模型时常用 F1。","5":"**AUC（Area Under the ROC Curve）：模型的排名裁判** — 当模型不只输出「正/负」，而是输出「90% 概率是狼」这类概率时，用 **AUC** 评价：在 0～1 之间，看**真实正例是否普遍比真实负例得到更高概率**（区分能力）。1 表示排序完美，0.5 相当于闭眼瞎猜。在调阈值之前，比较模型本身的「基础体力」时非常有用。"},"whyImportant":{"0":"**别被 99% 准确率骗了** — 假设做信用卡欺诈检测：10 万笔交易里只有 1 笔欺诈。模型啥也不干、一律判「全部正常」，准确率也有 99.999%，但召回率是 0%，一个骗子都抓不到。只有画出**混淆矩阵**，拆开看**精确率**和**召回率**，才能知道模型是在干活还是在糊弄。","1":"**实际业务是「哪种错更能忍」的残酷取舍** — 业务目标不同，押注的指标就不同。\n* **召回率（别漏）是命：** 癌症筛查。健康人多查几次(FP)可以忍，真患者漏诊(FN)耽误治疗绝不能忍。\n* **精确率（少误报）是命：** 垃圾邮件过滤。漏进一两封垃圾(FN)删掉就行，老板的重要邮件被误判成垃圾(FP)可能职场危机。"},"howUsed":{"0":"**AI 服务的最终过审（二分类评估）** — 新冠阳性/阴性判定、YouTube 有害视频拦截/放行、银行贷款通过/拒绝等，大量二选一的实际项目在上线前都会画混淆矩阵，综合看精确率、召回率、F1。","1":"**调节告警灵敏度（阈值调参）** — AI 通常输出 0～1 的概率。「概率到多少%就拉响警报？」通过调节这条线（阈值）来适应业务：安全要求极高的机构会把阈值压低，稍有异常就报警（召回率最大化）；反之，告警太多用户烦的 App 会把阈值调高，只有非常确定才报警（精确率最大化）。"},"problemSolving":{"0":"**混淆矩阵·指标** — 用 TP/TN/FP/FN 填 2×2，$n=\\mathrm{TP}+\\mathrm{TN}+\\mathrm{FP}+\\mathrm{FN}$。**准确率** $(\\mathrm{TP}+\\mathrm{TN})/n$，**精确率** $\\mathrm{TP}/(\\mathrm{TP}+\\mathrm{FP})$，**召回率** $\\mathrm{TP}/(\\mathrm{TP}+\\mathrm{FN})$，**F1** 为调和平均。类别不平衡时勿只看准确率。","1":"**示例（指标整理）**\n\n- **准确率(%)** — $100(\\mathrm{TP}+\\mathrm{TN})/n$\n- **精确率(%)** — $100\\,\\mathrm{TP}/(\\mathrm{TP}+\\mathrm{FP})$\n- **召回率(%)** — $100\\,\\mathrm{TP}/(\\mathrm{TP}+\\mathrm{FN})$\n- **F1(%)** — $100\\cdot 2\\mathrm{TP}/(2\\mathrm{TP}+\\mathrm{FP}+\\mathrm{FN})$\n\n---\n\n**例（准确率）**\n\nTP=10，TN=70，FP=10，FN=10 → 准确率(%)？\n\n$80$。→ **答案 80**\n\n---\n\n**例（精确率）**\n\nTP=10，FP=10 → 精确率(%)？\n\n$50$。→ **答案 50**\n\n---\n\n**例（召回率）**\n\nTP=10，FN=10 → 召回率(%)？\n\n$50$。→ **答案 50**\n\n---\n\n**例（F1）**\n\nTP=10，FP=10，FN=10 → F1(%)？\n\n$50$。→ **答案 50**"},"visual":"展示混淆矩阵与指标计算过程的可视化。"},"ml13":{"chapter":"Chapter 13","title":"正则化：超越死记硬背","description":"防止模型变成只会背题集答案的**「死记硬背王」**的核心技术。对训练数据拟合过紧，稍有不同的新题就会出现崩盘，这就是**过拟合(Overfitting)**。**正则化(Regularization)**在减小数据误差的同时，施加**「不让模型变得过于复杂、生搬硬套」的惩罚（代价）**，从而剪掉枝杈、只学真正重要的模式，打造在实战（泛化）中更强的模型。","sectionTitle":"正则化：超越死记硬背","whatIs":{"0":"**正则化是什么？对复杂度的「惩罚」**\n\n当模型强行拟合训练数据中的细微噪声或例外时，公式会变得弯弯曲曲、毫无必要地复杂。正则化在计算**总损失(Loss)**时，不仅看「预测与正确答案差多少（误差）」，还会加上**「模型有多复杂（权重大小）」**作为惩罚。不想被罚的模型自然会保持更简单、干净的形式。","1":"**直观比喻：考前死记型 vs 吃透原理型**\n\n把题集（训练数据）逐字背下来的死记型学生，模拟考能拿满分，真考（新数据）却一塌糊涂。而吃透原理的学生，模拟考错一两题，真考却能稳定高分。正则化就像老师，强制模型**「剪掉枝杈（过大权重）、只看主杆（核心模式）」**，培养实战中的应变能力。","2":"**数学形式：两种「魔法公式」（L1 与 L2）**\n\n按惩罚方式，正则化大致分两种。\n\n- **L2（Ridge）**：用权重的**平方**作惩罚。目标函数为 $J = \\text{MSE} + \\lambda \\sum_{j} w_j^2$，把过大的权重均匀地压小。\n- **L1（Lasso）**：用权重的**绝对值**作惩罚。目标函数为 $J = \\text{MSE} + \\lambda \\sum_{j} |w_j|$，能把不重要特征的权重直接压成 **0**，只保留关键特征（稀疏）。","3":"**生活例子：垃圾邮件过滤与医疗诊断**\n\n过滤垃圾邮件时，若给训练垃圾邮件里偶然出现的普通词（如「你好」）很高权重，会把正常邮件也判成垃圾。加上正则化可以避免模型死盯某一个词（权重爆炸）。医疗诊断中，也能帮助 AI 在众多患者数据里不被「病服颜色」这类无关信息误导。","4":"**公式阅读：给初学者的拆解**\n\n- **总损失（L2 例）**：$J = \\text{MSE} + \\lambda \\sum_{j} w_j^2$\n - **$J$**：我们想尽量变小的**「最终成绩单」**。越小模型越好。\n - **$\\text{MSE}$**：表示预测与真实答案差多少的**「误差分」**。\n - **$\\lambda$（lambda）**：我们亲手设定的**「惩罚强度」**。越大越像严师，对复杂模型罚得越重；越小几乎不罚。\n - **$\\sum_{j} w_j^2$（L2 惩罚）**：模型所有权重 $w$ 的平方和。权重稍大这项就猛增、$J$ 变大，所以模型会自发把权重压小。\n\n- **L1 惩罚（$\\lambda \\sum_{j} |w_j|$）**\n - L2 用平方，L1 用权重的**绝对值 $|w_j|$**。L1 像严格的整理师，把没用的权重毫不留情地清成 **0**。"},"whyImportant":{"0":"**因为实战（泛化）表现才是真正目标**\n\n机器学习的价值不是在练习阶段，而是在遇到**从未见过的数据（测试数据）**时才体现。加上正则化后，训练集上的准确率可能略降，但实战中的准确率会明显提高。这种对未知数据也能应对良好的能力就叫**泛化(Generalization)**。","1":"**平衡之美：偏差-方差权衡**\n\n模型太简单，**偏差（欠拟合）**变大，题都做不好；太复杂，**方差（过拟合）**变大，连噪声都背下来。两者像跷跷板，一边下去另一边就上来。调节正则强度 $\\lambda$，就是在找这条跷跷板的**水平（平衡点）**。","2":"**人的角色：找到 $\\lambda$（超参数）**\n\n$\\lambda$ 不是模型自己学出来的，而是**人必须亲手调的旋钮（超参数）**。拧太猛模型变傻，拧太松又变回死记。所以必须尝试多个 $\\lambda$，选出实战表现最好的那个。"},"howUsed":{"0":"**给基础模型装上翅膀（Ridge & Lasso）**\n\n只需在常用的**线性回归**或**逻辑回归**公式末尾，悄悄加上刚学的 L1、L2 惩罚即可。\n\n- 线性回归 + L2 = **Ridge 回归**\n- 线性回归 + L1 = **Lasso 回归**\n\n计算机会沿「总损失（含惩罚）变小」的方向（如梯度下降）学习并自动调节权重。","1":"**实战中的三步流程**\n\n实战中按以下顺序使用正则化。\n\n**1. 数据划分**：把数据分成［训练 / 验证 / 测试］。\n\n**2. $\\lambda$ 海选**：将 $\\lambda$ 取 0.01、0.1、1、10 等不同值，用训练集训练多个模型。\n\n**3. 选出冠军并上战场**：用验证集考一遍，选出得分最高的 $\\lambda$ 模型作为最终模型，再用测试集做**仅此一次**的最终实力评估。"},"problemSolving":{"0":"**正则化** — 损失 = **数据损失** + **λ×惩罚**，抑制权重过大以减轻**过拟合**。**L2(Ridge)** 用 $\\sum w_j^2$，**L1(Lasso)** 用 $\\sum|w_j|$ 促稀疏。λ 为**超参数**。","1":"**示例（公式整理）**\n\n- **L2** — $w=(2,3,1)$ → $14$\n- **总损失** — MSE=20，λ=2，惩罚=5 → $J=30$\n- **L1** — $w=(2,-3,1)$ → $6$\n\n---\n\n**例（定义）**\n\n主要目的？ ①减轻过拟合 ②仅加速\n\n①。→ **答案 1**\n\n---\n\n**例（对/错）**\n\n「正则化只最小化训练误差。」对填 1，错填 0。\n\n0 — 需惩罚项。→ **答案 0**\n\n---\n\n**例（λ）**\n\n$J=\\text{MSE}+\\lambda\\cdot(\\text{惩罚})$ 中 λ 是？ ①强度 ②学习率\n\n①。→ **答案 1**\n\n---\n\n**例（L2）**\n\n$w_1=2,w_2=3,w_3=1$，$\\sum_j w_j^2$？\n\n$14$。→ **答案 14**\n\n---\n\n**例（总损失）**\n\nMSE=20，λ=2，L2 惩罚=5 → $J$？\n\n$30$。→ **答案 30**\n\n---\n\n**例（L1）**\n\n$w=(2,-3,1)$，$\\sum_j|w_j|$？\n\n$6$。→ **答案 6**\n\n---\n\n**例（L1 vs L2）**\n\n更易使部分权重恰为 0？ ①L1 ②L2\n\n①。→ **答案 1**"},"visual":"展示通过正则化缓解过拟合过程的可视化。","problems":{"definition_0":"正则化的主要目的是？① 减轻过拟合 ② 加快训练 ③ 数据增强","definition_1":"在损失中加入对权重的惩罚使模型更简单的方法是？① 正则化 ② 归一化 ③ 集成","definition_2":"为减轻过拟合在损失中加入 λ·(惩罚) 的技法是？① 正则化 ② 梯度下降 ③ K-Fold","definition_3":"L2 正则化的惩罚项是？① $\\sum w_j$ ② $\\sum w_j^2$ ③ $\\sum |w_j|$","definition_4":"L1 正则化的惩罚项是？① $\\sum w_j$ ② $\\sum w_j^2$ ③ $\\sum |w_j|$","definition_5":"λ 越大模型会？① 更复杂 ② 更简单 ③ 不变","definition_6":"使部分权重为 0（稀疏）的正则化是？① L1 ② L2 ③ 两者","definition_7":"使权重变小但较少变为 0 的正则化是？① L1 ② L2 ③ 两者","definition_8":"Ridge 回归使用哪种正则化？① L1 ② L2 ③ 无","definition_9":"Lasso 回归使用哪种正则化？① L1 ② L2 ③ 无","definition_10":"Elastic Net 使用哪种正则化？① 仅 L1 ② 仅 L2 ③ L1 与 L2","trueFalse_0":"使用正则化时训练误差可能增大但泛化可能变好。对则 1，错则 0。","trueFalse_1":"λ=0 表示无正则化；λ 越大惩罚越大、权重越被压制。对则 1，错则 0。","trueFalse_2":"L2 惩罚是权重绝对值之和。对则 1，错则 0。","trueFalse_3":"L1 倾向于使部分权重恰为 0。对则 1，错则 0。","trueFalse_4":"正则强度 λ 通常由交叉验证选择。对则 1，错则 0。","trueFalse_5":"过拟合时增大 λ 可能有帮助。对则 1，错则 0。","trueFalse_6":"只最小化训练损失总能得到好的验证性能。对则 1，错则 0。","trueFalse_7":"总损失 = 数据损失 + λ×惩罚是正则化的基本形式。对则 1，错则 0。","trueFalse_8":"L2 比 L1 更容易使权重变为 0。对则 1，错则 0。","choice_0":"在 J=MSE+λ·(惩罚) 中 λ 是？① 正则强度 ② 学习率 ③ 批大小","choice_1":"L2 惩罚 $\\sum w_j^2$ 大时模型？① 更复杂 ② 权重大 ③ 惩罚大但权重被训练压小","choice_2":"Ridge 与 Lasso 的共同点是？① 都用 L1 ② 都对权重加惩罚 ③ 仅做分类","choice_3":"不用正则(λ=0)时容易？① 欠拟合 ② 过拟合 ③ 无法学习","choice_4":"选 λ 时比较的是？① 仅训练损失 ② 验证(或 CV)性能 ③ 多次测试","choice_5":"$$\\lambda \\sum w_j^2$ 中 λ=0 时？① 无正则 ② 最强正则 ③ 与 L1 相同","l2Penalty_0":"权重 $w_1=1$, $w_2=2$, $w_3=2$ 时 L2 惩罚 $\\sum_j w_j^2$ 的值(整数)？","l2Penalty_1":"权重 $w_1=0$, $w_2=3$, $w_3=4$ 时 L2 惩罚 $\\sum_j w_j^2$ 的值(整数)？","l2Penalty_2":"权重 $w_1=2$, $w_2=2$ 时 L2 惩罚 $w_1^2+w_2^2$ 的值(整数)？","l2Penalty_3":"权重 $w_1=1$, $w_2=1$, $w_3=1$, $w_4=1$ 时 L2 惩罚 $\\sum_j w_j^2$ 的值(整数)？","l2Penalty_4":"权重 $w_1=3$, $w_2=4$ 时 L2 惩罚的值(整数)？","totalLoss_0":"MSE=10，λ=1，L2 惩罚=6。总损失 J=MSE+λ·(惩罚)(整数)？","totalLoss_1":"MSE=16，λ=2，L2 惩罚=5。J(整数)？","totalLoss_2":"MSE=8，λ=4，惩罚=2。J(整数)？","totalLoss_3":"MSE=12，λ=3，惩罚=4。J=MSE+λ·惩罚(整数)？","totalLoss_4":"MSE=20，λ=2，惩罚=10。J(整数)？","l1Penalty_0":"权重 $w_1=2$, $w_2=-3$, $w_3=1$ 时 L1 惩罚 $\\sum |w_j|$ 的值(整数)？","l1Penalty_1":"权重 $w_1=1$, $w_2=2$, $w_3=3$ 时 L1 惩罚的值(整数)？","l1Penalty_2":"权重 $w_1=-1$, $w_2=2$ 时 L1 惩罚 $|w_1|+|w_2|$ 的值(整数)？","l1Penalty_3":"权重 $w_1=4$, $w_2=0$, $w_3=3$ 时 L1 惩罚的值(整数)？","l1Penalty_4":"权重 $w_1=5$, $w_2=5$ 时 L1 惩罚的值(整数)？","concept_0":"正则化中「泛化」指？① 只拟合训练 ② 在未见数据上也表现好 ③ 增加数据","concept_1":"偏差-方差权衡中加强正则化？① 方差增大 ② 方差减小 ③ 仅偏差增大","concept_2":"损失加惩罚项后优化时权重会？① 无界增大 ② 过大则损失增而被抑制 ③ 恒为 0","concept_3":"使用 Lasso(L1) 的实用理由之一是？① 比 L2 快 ② 稀疏、可解释 ③ 总比 L2 好","concept_4":"同时用 Ridge(L2) 与 Lasso(L1) 的正则是？① Elastic Net ② Dropout ③ Batch Norm","concept_5":"调 λ 时主要比较什么? ① 训练损失 ② 验证(或 CV)性能 ③ 参数个数","concept_6":"过拟合严重时先试？① 减小 λ ② 增大 λ 或增加数据 ③ 更复杂模型","concept_7":"「死记型」比喻中死记型是？① 对训练过拟合的模型 ② 泛化好的模型 ③ λ 大的模型","concept_8":"J=MSE+λ·(L2 惩罚) 中 λ=0 表示？① 只有惩罚 ② 无正则(与普通最小二乘相同) ③ 与 L1 相同","concept_9":"验证误差远大于训练误差时通常是什么? ① 欠拟合 ② 过拟合 ③ 拟合恰当"}},"ml14":{"chapter":"Chapter 14","title":"协同过滤：推荐系统基础","description":"你在 Netflix 上见过「为你推荐」吗？**协同过滤**会根据与你口味相似的其他用户的高分项来推荐。本章从评分矩阵、相似度、近邻预测的概念到公式，再到实际应用，循序渐进地讲解。","sectionTitle":"推荐基础：协同过滤","whatIs":{"0":"**什么是协同过滤？** — 利用**其他用户的行为**（评分、点击、购买）来为你推荐。直觉是「口味相似的人喜欢的东西也相似」。广泛应用于流媒体、电商、音乐等。","1":"**直觉：借用近邻的选择** — 例如电影推荐：若与你在 A、B 上打分相近的人也给 C 打了高分，你可能也会喜欢 C。这些「相似的人」就是**近邻**，用近邻的评分做**预测**是协同过滤的核心。","2":"**数学表示：评分矩阵与预测** — 用户 $u$ 对物品 $i$ 的评分记为 $r_{u,i}$，**评分矩阵**大小为（用户×物品），很多格是空的（稀疏）。**基于用户**的协同过滤先找用户 $u$ 的**相似近邻** $N_u$，再对未评分物品 $i$ 用近邻评分的**加权平均**得到预测 $\\hat{r}_{u,i}$。相似度常用**余弦相似度**或**皮尔逊相关**。","3":"**实际与局限** — **冷启动**（新用户/新物品没有近邻）、**稀疏性**使纯协同过滤受限，常与**基于内容**或**矩阵分解**结合。"},"whyImportant":{"0":"**推荐是业务与体验的核心** — 好的推荐能提高转化与留存。协同过滤仅靠行为数据即可做**个性化**，无需丰富元数据。","1":"**机器学习的重要应用** — 推荐不同于分类/回归，是「填矩阵空位」的问题。理解协同过滤是后续矩阵分解、深度学习推荐的基础。"},"howUsed":{"0":"**基于用户 vs 基于物品** — **基于用户**：找与你相似的用户，推荐他们喜欢的。**基于物品**：找与当前物品相似的物品（「买了这个的人还买了」）。都依赖相似度与近邻。","1":"**相似度与预测式** — 先算用户间相似度 $s_{u,v}$，预测用近邻评分的加权平均。评估常用 **MAE**、**RMSE**。","2":"**矩阵分解（MF）** — 进阶做法用**低秩矩阵乘积**近似评分矩阵；**混合**系统会结合协同过滤与内容/上下文。"},"problemSolving":{"0":"**协同过滤** — 用其他用户的**行为**找**近邻**，用**简单**或**加权**平均填空白 $\\hat{r}_{u,i}$。**评分矩阵**：行=用户、列=物品，常**稀疏**。冷启动与稀疏性常结合内容、MF、混合方案。","1":"**示例（要点整理）**\n\n- **定义** — 以其他用户**行为**为基础\n- **矩阵** — 行×列 = 格数\n- **简单平均** — $\\hat{r}=\\frac{1}{K}\\sum r$\n- **加权平均** — $\\hat{r}=\\frac{\\sum s\\,r}{\\sum|s|}$\n\n---\n\n**例（定义）**\n\n最接近协同过滤？ ①其他用户行为 ②仅类型 ③随机\n\n①。→ **答案 1**\n\n---\n\n**例（简单平均）**\n\n评分 3、4、5 的平均？\n\n$4$。→ **答案 4**\n\n---\n\n**例（格数）**\n\n3 用户、4 物品 → 格数？\n\n$12$。→ **答案 12**\n\n---\n\n**例（加权平均）**\n\n评分 4、5、3，权重 2、1、1？\n\n$4$。→ **答案 4**"},"visual":"展示评分矩阵推荐流程的可视化。","problems":{"definition_0":"协同过滤是？① 基于其他用户行为（评分、点击）的推荐 ② 基于物品特征（如类型）的推荐 ③ 随机推荐","definition_1":"推荐「相似用户」喜欢的内容的方式是？① 协同过滤 ② 监督学习 ③ K-Means","definition_2":"基于用户的协同过滤中「近邻」指？① 与自己口味相似的用户 ② 同地区用户 ③ 同年龄段用户","definition_3":"评分矩阵的行和列分别表示？① 行=用户，列=物品 ② 行=物品，列=用户 ③ 行=时间，列=评分","definition_4":"冷启动问题是？① 新用户/新物品没有近邻难以推荐 ② 服务器宕机 ③ 评分过多","definition_5":"协同过滤中算相似度的目的是？① 找相似用户（或物品） ② 评分归一化 ③ 矩阵压缩","definition_6":"用近邻评分填空白格的预测是？① 协同过滤的核心步骤 ② 预处理 ③ 评估指标","definition_7":"余弦相似度、皮尔逊相关系数是？① 用户（或物品）间相似度 ② 损失函数 ③ 激活函数","definition_8":"基于物品的协同过滤？① 找相似物品来推荐 ② 仅用相似用户 ③ 不用评分矩阵","definition_9":"稀疏性指？① 矩阵大部分格为空 ② 评分太多 ③ 用户太多","definition_10":"推荐系统中 MAE、RMSE 是？① 预测准确度评估指标 ② 相似度 ③ 矩阵大小","definition_11":"混合推荐是？① 协同+内容等结合 ② 仅协同 ③ 不推荐","trueFalse_0":"协同过滤利用其他用户的评分进行推荐。对填1，错填0。","trueFalse_1":"近邻越多(K越大)预测一定越准。对填1，错填0。","trueFalse_2":"评分矩阵通常稀疏（大部分格为空）。对填1，错填0。","trueFalse_3":"冷启动指新用户难以获得推荐。对填1，错填0。","trueFalse_4":"基于用户与基于物品都使用相似度和近邻。对填1，错填0。","trueFalse_5":"预测只能取近邻评分的简单平均。对填1，错填0。","trueFalse_6":"矩阵分解用于预测空白评分。对填1，错填0。","trueFalse_7":"仅靠协同过滤能完全解决冷启动。对填1，错填0。","trueFalse_8":"协同过滤广泛用于 Netflix、电商等。对填1，错填0。","choice_0":"协同过滤的核心思想是？① 借用相似用户的行为 ② 仅用物品描述 ③ 随机选","choice_1":"评分矩阵的一格表示？① 某用户对某物品的评分 ② 用户数 ③ 物品数","choice_2":"用 K 个近邻的评分预测时常用？① 平均（或加权平均） ② 最大值 ③ 最小值","choice_3":"相似度主要用于？① 选相似近邻 ② 评分归一化 ③ 矩阵压缩","choice_4":"稀疏矩阵会导致？① 相似度估计不稳定 ② 计算更快 ③ 无用户","choice_5":"推荐质量用数字衡量时用？① MAE、RMSE ② 相似度 ③ 矩阵大小","choice_6":"基于物品推荐中找「相似物品」用？① 物品间相似度 ② 用户数 ③ 评分和","choice_7":"缓解冷启动可结合？① 基于内容、混合 ② 仅协同 ③ 不推荐","scenario_0":"新用户难以做首次推荐因为？① 冷启动（无近邻/评分） ② 评分太多 ③ 相似度为1","scenario_1":"「买了这个的人还买了」接近？① 基于物品的协同过滤 ② 仅基于用户 ③ 随机","scenario_2":"新电影评分很少时难推荐因为？① 冷启动（物品侧） ② 近邻太多 ③ 相似度为0","scenario_3":"协同过滤与类型/标签结合是？① 混合 ② 仅协同 ③ 仅内容","scenario_4":"Netflix 式「为你推荐」基于？① 个性化（协同、内容等） ② 人人相同 ③ 仅广告","scenario_5":"矩阵很稀疏时提高质量可？① 用矩阵分解、混合等 ② 只增加 K ③ 删评分","concept_0":"选 K 个近邻时 K 是？① 用户设定的超参数 ② 恒为 1 ③ 恒为全部用户","concept_1":"加权平均预测中权重是？① 相似度 ② 仅评分 ③ 随机","concept_2":"矩阵分解的目的是？① 空白预测、降维 ② 删评分 ③ 去掉相似度","concept_3":"评分矩阵大小（格数）为？① (用户数)×(物品数) ② 仅用户数 ③ 仅物品数","concept_4":"近邻评分 3、4、5，简单平均预测（整数）？① 4 ② 5 ③ 3","concept_5":"基于用户时预测用？① 近邻对该物品的评分 ② 仅自己历史评分 ③ 仅物品描述","concept_6":"MAE 越小表示？① 预测越接近真实 ② 预测越差 ③ 无关","concept_7":"基于内容的推荐？① 基于物品特征（类型、标签） ② 仅协同 ③ 随机","concept_8":"缓解冷启动可用？① 内容、热门、混合 ② 只增加 K ③ 停止推荐","neighborPredict_0":"近邻 3 人评分 3、4、5，平均预测值（整数）？","neighborPredict_1":"近邻 3 人评分 2、4、6，平均预测值（整数）？","neighborPredict_2":"近邻 3 人评分 4、4、4，平均预测值（整数）？","neighborPredict_3":"近邻 3 人评分 1、3、5，平均预测值（整数）？","neighborPredict_4":"近邻 4 人评分 2、2、4、4，平均预测值（整数）？","neighborPredict_5":"近邻 3 人评分 5、5、5，平均预测值（整数）？","matrixCells_0":"3 个用户、4 个物品，评分矩阵格数（整数）？","matrixCells_1":"5 个用户、6 个物品，格数（整数）？","matrixCells_2":"2 个用户、10 个物品，格数（整数）？","matrixCells_3":"4 个用户、5 个物品，格数（整数）？","matrixCells_4":"6 个用户、5 个物品，格数（整数）？","weightedPredict_0":"评分 4、5、3，权重 2、1、1，加权平均预测（整数）？","weightedPredict_1":"评分 3、5，权重 1、1，加权平均预测（整数）？","weightedPredict_2":"评分 5、3、4，权重 2、2、2，加权平均预测（整数）？","weightedPredict_3":"评分 2、4，权重 1、1，加权平均预测（整数）？","weightedPredict_4":"评分 5、5、1，权重 1、1、2，加权平均预测（整数）？"}}},"mlCh01":{"chapter":"Chapter 01","title":"缺失值处理：填补数据空白的策略","description":"真实数据里常常出现像表格空单元格一样的**缺失值**。若置之不理，模型可能无法训练或得出有偏结果。本章从如何“补上窟窿”，到筛掉过于极端的**异常值**、纠正严重倾斜的**类别不平衡**，系统梳理支撑机器学习的**数据质量流水线**。","sectionTitle":"缺失值处理：减少空白、提升可信度的预处理","whatIs":{"0":"**什么是缺失值？** 数据表中某一格没有取值的状态，像缺了一块的拼图。实务中可能来自问卷未答、传感器中断、传输丢失等。","1":"**缺失机制(MCAR/MAR/MNAR)**追问“为什么空着”。**MCAR**(完全随机缺失 · Missing Completely At Random)像咖啡泼在问卷上——近似纯随机。**MAR**(随机缺失 · Missing At Random)像男性受访者不填“化妆品支出”——与**其他已观测变量**相关。**MNAR**(非随机缺失 · Missing Not At Random)像低收入者故意空着“收入”——**缺失本身带有信息**。","2":"**处理策略**大致有三类：**整行删除**、用单一数值填充的**单次插补**、多次填充再合并的**多重插补**。各自在保留数据量、速度与统计严谨性上取舍不同，需按场景选择。","3":"**单次插补与多重插补**：**单次插补**用均值、众数等一次性填完，快但有风险；**多重插补**构造多份合理的完整数据（多个“平行世界”），再综合结论，更谨慎。","4":"**异常检测的两个视角**：只看一个变量的**单变量检测(箱线图)**，与看变量组合是否异常的**多变量检测(Mahalanobis/Isolation Forest/SVDD)**解决不同问题；实务中往往两者都看。","5":"**类别不平衡校正**：当样本向某一类严重倾斜时，模型容易像“没有少数类”一样学习。常用 Tomek Links(边界清理)、SMOTE/ADASYN(合成少数类)、SMOTE+Tomek(先合成再清理)等组合策略。","6":"**核心信息**：缺失值处理不是孤立技巧，而是与异常检测、不平衡校正相连的**一体化流水线设计问题**。"},"whyImportant":{"0":"**机器讨厌空值。** 空着不填，计算可能直接报错，就像答题卡没填无法阅卷。","1":"**乱填会严重误导。** 若一律用 0 或均值填充，分布被破坏，模型会把插补值当真，产生**过度自信**的预测。","2":"**预处理是一套组合拳。** 只补缺失不算完，还要同步规划异常值与不平衡处理，模型在真实环境中才站得稳。","3":"**关乎公平与安全：** 若某群体缺失更多(MAR/MNAR)，错误插补会拉大群体间性能差距，需在预处理阶段审视偏差信号。","4":"**比选模型更先影响效果：** 同一算法下，预处理优劣对结果影响巨大，实务里常常是“好的数据流程”胜过“好的模型名字”。","5":"**部署后也更稳：** 预先规定缺失、异常、不平衡的处理规则，新数据也能一致处理，便于再训练与监控。"},"howUsed":{"0":"**实战流程**：探索性分析(EDA)→假设缺失原因→插补→捕捉极端值(**异常值检测**，如箱线图)→调整类别比例(**不平衡处理**，如 SMOTE)→再建模与评估。","1":"**单次插补写法**：均值填充 $x_{miss} \\leftarrow \\bar{x}$；中位数填充 $x_{miss} \\leftarrow \\mathrm{median}(x)$。","2":"**多重插补概念**：构造 $m$ 份完整数据集，将各份得到的估计 $\\theta_k$ 合并，例如 $\\bar{\\theta}=\\frac{1}{m}\\sum_{k=1}^{m}\\theta_k$。","3":"**基于 IQR 的箱线图规则**：下栅栏 $Q_1-1.5\\times IQR$ 与上栅栏 $Q_3+1.5\\times IQR$ 之间为常见范围，**外侧点**可作为异常值**候选**。","4":"**协方差**：刻画两变量**一起**波动的程度，例如身高与体重是否同向变化。公式 $\\mathrm{cov}(X,Y)=\\mathbb{E}[(X-\\mu_X)(Y-\\mu_Y)]$。多变量汇总为**协方差矩阵** $\\Sigma$，决定数据云团(椭圆)的方向与拉伸。","5":"**马氏距离**：不是简单直线距离，而是用 $\\Sigma^{-1}$ 按分布形状加权：$D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$（协方差是关键）。","6":"**孤立森林**：更关注点在随机划分下是否**很快被孤立**（路径短），高维也常可用、对分布假设较弱。","7":"**SVDD(单类)**：仅用正常样本学习包住正常区域的**边界**(最小体积球或核边界)，边界外判为异常，常用于单类异常检测。","8":"**类别不平衡**：正类极少时，模型“全猜多数类”也可能准确率高，需结合 Recall、精确率、F1、PR-AUC，必要时重采样。","9":"**Tomek Links**：不同类别互为最近邻的一对边界样本，常删除多数类一侧（或两者）以**清理**重叠，属欠采样式清洗。","10":"**SMOTE**：在少数类样本 $\\mathbf{x}$ 与其近邻 $\\mathbf{x}_{nn}$ 之间插值：$\\mathbf{x}_{new}=\\mathbf{x}+\\lambda(\\mathbf{x}_{nn}-\\mathbf{x})$, $\\lambda\\sim U(0,1)$。比简单复制更灵活，但边界噪声大时也可能合成劣质点。","11":"**复合重采样(如 SMOTE+Tomek)**：先用 SMOTE **过采样**少数类，再用 Tomek **清理**边界模糊成对点，记作**先增后清**。","12":"**ADASYN**：在 SMOTE 基础上，向“更难”的少数类区域（周围多为多数类）分配**更多**合成点，强化决策边界附近。"},"summary":"**一页备忘**\n- 没有放之四海皆准的插补；关键是先弄清**为何缺失(MCAR/MAR/MNAR)**。\n- **单次插补**快但忽略不确定性；**多重插补**统计上更稳但计算更重。\n- 异常值要同时看**单变量(箱线图)**与**多变量(Mahalanobis/孤立森林/SVDD)**，少漏检。\n- 不平衡按目标组合 **Tomek(清理)**、**SMOTE/ADASYN(合成)**、**SMOTE+Tomek(复合)**。\n- 用 Recall、F1、PR-AUC 等对比预处理前后，验证是否真变好。","problemSolving":{"0":"涉及缺失、插补、异常值与类别不平衡的题目，只要抓住「**为何缺失**（MCAR·MAR·MNAR）／**填一次还是多次**（单次与多重插补）／**只看单变量还是看到协方差**（单变量与多变量异常值）／**如何处理类别比例与决策边界**（指标与重采样）」这一条线，就容易拆解。**MCAR**假定缺失机制与**观测与未观测取值**均无关（近似完全随机）；**MAR**允许缺失机制依赖**已观测变量**；**MNAR**表示**未观测数值本身**（如敏感程度）影响是否被观测。**单次插补**如 $x_{\\mathrm{miss}} \\leftarrow \\bar{x}$ 一次填入；**多重插补**的典型流程是由 $m$ 个完整数据集得到 $\\hat\\theta_k$，再按 $\\bar{\\theta}=\\frac{1}{m}\\sum_{k=1}^{m}\\hat\\theta_k$ 合并。**单变量**异常值用 $Q_1-1.5\\,\\mathrm{IQR}$、$Q_3+1.5\\,\\mathrm{IQR}$ 栅栏（箱线图）；**多变量**则关注含协方差的马氏距离 $D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$ 以及 Isolation Forest、SVDD 等。**类别不平衡**时除准确率外还要看 Recall、F1、PR-AUC；常先 **SMOTE** 扩充少数类，再用 **Tomek** 清理边界成对样本，即 **oversample → clean**。","1":"**示例（概念：缺失）**\n\n问题越敏感，缺失越多。最接近？ ① MCAR ② MAR ③ MNAR ④ IQR\n\n**值本身/敏感性**驱动是否被观测 → **MNAR**。 → **答案 ③**\n\n---\n\n**示例（判断：单次 vs 多重）**\n\n“多重插补就是用单一代表值把所有缺失一次性填完。”对=1，错=0。\n\n多重插补要 **多份补全数据** 再汇总 → 错。 → **答案 0**\n\n---\n\n**示例（单变量异常）**\n\n以 $Q_1-1.5\\times IQR$ 与 $Q_3+1.5\\times IQR$ 栅栏外侧为候选，属于？ ① 马氏距离 ② 箱线图·IQR ③ SMOTE ④ SVDD\n\nIQR 栅栏是 **单变量**箱线图规则。 → **答案 ②**\n\n---\n\n**示例（多变量距离）**\n\n$D_M(\\mathbf{x})=\\sqrt{(\\mathbf{x}-\\boldsymbol\\mu)^\\top\\Sigma^{-1}(\\mathbf{x}-\\boldsymbol\\mu)}$ 是？ ① 仅欧氏 ② 马氏距离 ③ Tomek ④ 均值插补\n\n含 $\\Sigma^{-1}$ 的协方差感知距离即 **马氏距离**。 → **答案 ②**\n\n---\n\n**示例（不平衡：指标）**\n\n漏掉少数类代价大，但 **总体准确率** 仍可能很好看。更直接的是？ ① 仅准确率 ② 死盯准确率 ③ Recall / F1 / PR-AUC ④ MCAR\n\n不平衡下 **Recall / F1 / PR-AUC** 更有信息量。 → **答案 ③**\n\n---\n\n**示例（应用：重采样）**\n\n先用 **SMOTE** 扩少数类，再用 **Tomek** 去掉边界成对样本。最接近？ ① 仅 SVDD ② 仅 SMOTE ③ SMOTE+Tomek ④ 仅在 MCAR 下删除\n\n**过采样 → 清理** 即 SMOTE+Tomek 思路。 → **答案 ③**"},"sectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何被使用","summary":"实战应用","problemSolving":"解题说明"},"problemSolvingLabel":"解题说明","imputationTable":{"title":"单次插补常用代表值/方法","caption":"将常见单次插补方法用定义与简短公式进行归纳。","headers":{"method":"填补值/方法","definition":"定义（简短公式）"},"rows":{"0":{"method":"均值(Mean)","definition":"用样本均值填补: $x_{miss} \\leftarrow \\bar{x}=\\frac{1}{n}\\sum_{i=1}^{n}x_i$"},"1":{"method":"中位数(Median)","definition":"用中位数填补: $x_{miss} \\leftarrow \\mathrm{median}(x)$"},"2":{"method":"众数(Mode)","definition":"用出现频率最高的值填补: $x_{miss} \\leftarrow \\arg\\max_v\\,\\mathrm{count}(x=v)$"},"3":{"method":"回归·KNN·Hot-deck","definition":"回归: $\\hat{x}=f(\\mathbf{z})$, KNN: $x_{miss}\\leftarrow\\frac{1}{k}\\sum_{j\\in N_k}x_j$, Hot-deck: $x_{miss}\\leftarrow x_{donor}$"}}},"practiceProblemsTitle":"练习题","practiceProblemsIntro":"从 60 题的题库中随机抽取 10 题；难度为易 4、中 3、难 3。","practiceProblemsInstruction":"在①~④中选择一项后，点击「检查答案」。","checkAnswer":"检查答案","correctAnswer":"回答正确！","wrongAnswer":"回答错误，请重试。","testCodeLabel":"Test code","visualIntro":"从缺失值处理到异常值与类别不平衡校正的数据质量流水线","visualStep0":"缺失检测：缺失率与模式","visualStep1":"缺失处理：删除／单次与多重插补","visualStep2":"异常值检测：箱线图、马氏距离、孤立森林、SVDD","visualStep3":"不平衡处理：Tomek、SMOTE、ADASYN、SMOTE+Tomek","visualStep4":"⑤ 模型训练与验证：检验泛化性能","visualAriaLabel":"缺失值处理与数据质量改进流程示意图","problemSolvingFallback":"识别 MCAR/MAR/MNAR → 选择单次/多重插补 → 用箱线图、马氏距离、孤立森林、SVDD 筛查异常值 → 再按 Tomek/SMOTE/ADASYN/组合重采样解题。","visualDiagram":{"hintStep0":"观察：先看缺失模式","hintStep1":"选择：单次插补 vs 多重插补","hintStep2":"检查：异常值（单变量/多变量）","hintStep3":"校正：类别不平衡（合成→清理）","clickMechanismCards":"点击下方 MCAR · MAR · MNAR 卡片切换模式。","pipelineNavAria":"流程阶段","chipPattern":"缺失模式","chipImpute":"插补","chipOutlier":"异常值","chipImbalance":"不平衡","panelDetectTitle":"缺失检测（模式）","badgeMcar":"MCAR（随机）","badgeMar":"MAR（条件）","badgeMnar":"MNAR（与取值相关）","legendObserved":"观测","legendMissing":"缺失","gridColorHint":"单元格颜色提示“为什么会出现空值”","tooltipObserved":"观测","tooltipMissing":"缺失","mcarLine1":"MCAR","mcarLine2":"完全随机缺失 · Missing Completely At Random","mcarLine3":"分布零散 → 可能是“纯偶然”","marLine1":"MAR","marLine2":"随机缺失 · Missing At Random","marLine3":"呈竖带状集中在某些列/组 → “满足条件才缺失”","mnarLine1":"MNAR","mnarLine2":"非随机缺失 · Missing Not At Random","mnarLine3":"集中在取值尾部 → “缺失本身有意义”","panelImputeTitle":"缺失处理：单次插补 vs 多重插补","imputePhase0":"检查空值","imputePhase1":"单次插补","imputePhase2":"多重插补","imputePhase3":"合并","singleTitle":"单次插补（1 次）","singleLead":"每个空位填入同一个值","singleFoot":"一次填满 → **快**，但可能产生数据“不那么波动”的错觉（低估方差）。","multiTitle":"多重插补（m 次）","multiLead":"多种“可能的填补”→ 最后汇总均值与不确定性","multiFoot":"多次填补得到候选 → 最后 **合并（均值/方差）** 反映不确定性","boxTitle":"单变量异常值：箱线图（IQR）","boxPhase0":"箱体（Q1~Q3）","boxPhase1":"围栏（1.5×IQR）","boxPhase2":"围栏外点=候选","boxChip1":"箱体","boxChip2":"围栏","boxChip3":"外侧点","boxPlotStagesAria":"箱线图步骤","fenceLower":"下界","fenceUpper":"上界","boxSummary":"一句话：**Q1·Q3 → IQR → 1.5×IQR 围栏** 之外的点视为异常值候选。","mvTitle":"多变量异常值：“组合”异常的点","mvPhase0":"距离（协方差）","mvPhase1":"孤立（短路径）","mvPhase2":"边界（正常区域）","mahalPara1":"两轴一起变动（协方差）时点云呈 **椭圆**。椭圆内常见，**远离椭圆** 的组合要怀疑。","mahalPara2":"用反映相关性的距离判断","mahalBadge":"相对椭圆远 → 候选","ifPara1":"随机切分时 **很快就被孤立** 的点 → 记成“难躲藏的点”。","ifPara2":"随机分割下“快速”孤立的点","ifBadge":"短路径孤立 → 候选","svddPara1":"只用正常点画出 **气泡状边界**。内=熟悉数据，**外=陌生数据**。","svddPara2":"学习包裹正常数据的“边界”","svddBadge":"边界外 → 候选","imbTitle":"类别不平衡：SMOTE/ADASYN + Tomek Links","imbIntro":"**Tomek Links** 寻找“不同类别却互为最近邻”的点对，常删除 **多数类** 一侧以清理重叠边界。","imbSmoteAdasynIntro":"**SMOTE** 通过在少数类样本与其近邻之间插值来生成合成点；**ADASYN** 会在被多数类包围的“更难”少数区域生成更多合成点，让边界附近更密集。","imbPhase0":"边界处少数类被挤压","imbPhase1":"合成填补空隙","imbPhase2":"用 Tomek 整理边界","imbWhyTitle":"为何成问题","imbWhyBody":"严重不平衡时，模型只预测多数类也可能分数很高，因此要结合召回率/F1，并校正数据本身。","imbMajor":"多数（85%）","imbMinor":"少数（15%）","imbHowTitle":"怎么改？（示意）","imbHowLead":"把决策边界想成 **曲线**，用 SMOTE、Tomek 处理边界噪声更自然。","imbChip0":"边界混杂","imbChip1":"合成填补","imbChip2":"Tomek 清理","imbChip2Title":"不同类别却互为最近邻的对子中，常删除多数侧以整理边界。","imbTomekCallout":"黄色环：卡在边界上的 **多数（灰）** 点是 Tomek 候选；清理后会变淡，边界更干净。","chartDenseTop":"上：多数密集","chartSparseBottom":"下：少数（+合成）","imbBoundaryMsg":"边界附近更易出现误分噪声","imbFlow1":"流程：SMOTE/ADASYN 让少数 **周围更密** → **Tomek Links** 去掉边界上 **跨类最近邻对** 中的多数点以整理边界","imbFlow2":"直觉：合成之后，把“不同类却最近邻”的点配对，其中弄脏边界的 **多数点** 被拿掉。","legMinor":"少数","legMajor":"多数","legSyn":"合成（SMOTE/ADASYN）","legCurve":"曲线边界","pointTitleMajor":"多数","pointTitleMajorTomek":"卡在边界上的多数（清理候选）","pointTitleSyn":"合成（SMOTE/ADASYN）"}},"mlCh07":{"chapter":"Chapter 07","title":"XGBoost、LightGBM、CatBoost：表数据实战三强","description":"面对像电子表格一样的**结构化/表格式数据**，有一类方法常常比复杂深度学习更省事、更稳：**梯度提升（Boosting）**。它让一排“普通学生”（弱学习器）按顺序上阵，每个人专门补上一位同学还**没答对的残差**，最后合成一个**很强的预测器**。\n\n本章拆解 **XGBoost、LightGBM、CatBoost** 三者的差异，并给出**如何按数据特点选型**的清晰标准（同样适用于 Kaggle 与业务落地）。","sectionTitle":"CH07 Boosting 三强：用一棵棵树吃掉残差","whatIs":{"0":"**1. 核心机制：错题接力**\n\n**概念：** Boosting 把决策树**依次**串联，让新的一棵树重点去学**当前集成模型剩下的误差（残差）**。\n\n**直觉：** 模考后只做**错题本**；下一位同学专攻这些题，再下一位专攻仍未解决的漏洞——轮数多了，整体正确率就会显著抬升。\n\n**更新式：** $F_t(x)=F_{t-1}(x)+\\eta h_t(x)$\n\n- $F_t(x)$：第 $t$ 步累加后的预测\n- $F_{t-1}(x)$：加上新树之前的预测\n- $h_t(x)$：专门拟合**剩余误差**的新树\n- $\\eta$：**学习率**，控制新树的贡献力度（常更小则更稳，但往往需要更多树）\n\n**实战：** 信贷违约、流失、CTR 等**表数据**任务里，Boosting 仍然是顶级基线之一。","1":"**2. XGBoost：带正则的稳健主力**\n\n**概念：** 把现代梯度提升带向大众的经典实现。目标函数显式包含**正则/复杂度惩罚**，训练往往更可预期、更抗噪一些。\n\n**直觉：** 像既抓进度、又抓基础的严师——模型开始“死记硬背”时会用惩罚把曲线拉回来。","2":"**3. LightGBM：大规模下的速度型选手**\n\n**概念：** 为**海量样本**优化：用**直方图分箱**减少计算，并常以**按叶（leaf-wise）**策略生长——优先分裂**带来最大损失下降**的那片叶子，而不是先齐整地铺满一层（level-wise）。\n\n**直觉：** 会跳过已掌握的章节，把精力砸在最可能考的重点上——**效率极高**，但在**小数据**上更容易“钻牛角尖”过拟合。\n\n**注意：** 务必配合 `max_depth`、`min_data_in_leaf` 等约束。","3":"**4. CatBoost：类别特征友好**\n\n**概念：** 来自 Yandex，名字拆自 **Cat**egory + **Boost**。对**高基数类别**（城市、职业、商品 ID）往往能减少手工编码负担。\n\n**直觉：** 就像考试时做前面的题，**不能先偷看后面的答案**。表数据训练里如果混入未来信息，就会出现**数据泄露**，分数被虚高。CatBoost 的**有序统计（ordered statistics）**等设计，正是为了减少这种“偷看答案”风险；因此在不少场景下，**默认参数**也能给出很稳的效果。","4":"**5. 公式更容易读（符号含义 + 小算例）**\n\nBoosting/XGBoost 最常见的 3 个式子如下。建议每个式子都按 **(a) 先认符号**、**(b) 再看一个小数值例子** 的顺序理解。\n\n---\n\n**(1) 预测的累加更新**\n\n$F_t(x)=F_{t-1}(x)+\\eta h_t(x)$\n\n- $F_{t-1}(x)$：加入新树之前的预测\n- $h_t(x)$：新树给出的修正量\n- $\\eta$：学习率（修正量要放大/缩小多少）\n\n**含义：** 在旧预测基础上加一份“按学习率缩放后的修正”，误差就会按轮次逐步下降。\n\n**小算例：** 旧预测=10，新树输出=+4，$\\eta=0.25$，则\n$F_t=10+0.25\\times4=11$。\n\n---\n\n**(2) 目标函数 = 拟合误差 + 复杂度惩罚**\n\n$\\mathcal{L}=\\sum_i l(y_i,\\hat y_i)+\\Omega(f)$\n\n- $\\sum_i l(y_i,\\hat y_i)$：全体样本的预测误差\n- $\\Omega(f)$：限制模型过于复杂的正则项\n\n**含义：** 不只追求“更贴合训练数据”，还要对“太复杂的模型”加惩罚，减少过拟合。\n\n**小算例：** 若拟合误差和为 18、正则项为 3，则\n$\\mathcal{L}=18+3=21$。\n\n---\n\n**(3) 分裂增益用到的一阶/二阶导**\n\n$g_i=\\partial_{\\hat y}l$, $h_i=\\partial^2_{\\hat y}l$\n\n- $g_i$：一阶导（梯度）— 应该往哪个方向改、改多大\n- $h_i$：二阶导（曲率）— 损失变化有多陡，用于稳定更新\n\n**含义：** XGBoost 类方法同时利用 $g_i$ 和 $h_i$ 计算分裂增益，通常比只用一阶信息更稳定。\n\n**直觉提示：**\n- $|g_i|$ 越大，往往说明该样本当前误差还较大；\n- $h_i$ 像“刹车/阻尼”，能避免更新过猛。","5":"🔵 **通用参数：音量旋钮与放大镜**\n\n① **`learning_rate`**（学习率）：像音量旋钮，控制新树修正要加多大。调小更稳，但通常要增加轮数（**`n_estimators`**）；调大收敛更快，但更容易抖动或过拟合。\n② **`n_estimators`** / **`iterations`**：要叠加多少轮树。\n③ **`max_depth`** / **`depth`**：树的“放大倍数”。越深越能抓细节，也越容易把噪声记住。入门常用 **`learning_rate=0.03~0.1`**、深度 **`4~8`**。\n\n🟣 **XGBoost：在精度与保守性之间找平衡**\n\n① **`subsample`**：每棵树只用部分样本行，缓解过拟合。\n② **`colsample_bytree`**：每棵树只用部分特征列，降低对少数特征的过度依赖。\n③ **`min_child_weight`**：防止证据不足的细碎分裂。\n④ **`reg_lambda`** / **`reg_alpha`**：控制模型复杂度的正则“刹车”。\n\n🟢 **LightGBM：Leaf-wise 生长，核心在控叶子**\n\n① **`num_leaves`**：叶子上限。更大=表达力更强，但过拟合风险也更高（通常设在 $2^{\\text{max\\_depth}}$ 以下）。\n② **`min_data_in_leaf`**：每个叶子最少样本数，防止出现过小且不稳定的叶子。\n③ **`feature_fraction`** / **`bagging_fraction`**：作用类似 XGBoost 的 **`colsample_bytree`** / **`subsample`**；过拟合时把它们从 1.0 往下调通常有效。\n\n🟠 **CatBoost：类别特征友好模型**\n\n① **`cat_features`**：最关键。明确哪些列是类别列，才能发挥 CatBoost 优势。\n② **`depth`** 与 **`iterations`**：与其他提升树类似，但 CatBoost 对深度可能更敏感。\n③ **`l2_leaf_reg`**：抑制预测值过于极端的正则参数。"},"whyImportant":{"0":"**表数据的“默认强者”**\n\n处理**数据库表/CSV**时，Boosting 经常是**又快又准**的首选基线；很多团队在做重型神经网络之前，会先把它跑通。","1":"**按数据选兵器**\n\n- 要**稳定**、中等规模：倾向 **XGBoost**\n- 要**速度/内存**、超大规模：**LightGBM**\n- **类别列**多、想少折腾预处理：**CatBoost**","2":"**超参数就是方向盘**\n\n`learning_rate`、树的深度/叶子数、`n_estimators`、early stopping 共同决定**偏差-方差**与算力消耗；理解它们如何联动，调参就不再全靠试错。"},"howUsed":{"0":"**① 典型流水线**\n\n缺失与类别处理 $\\rightarrow$ **训练/验证切分** $\\rightarrow$ 训练 Boosting $\\rightarrow$ 用 **SHAP** 等解释并交付业务 $\\rightarrow$ 部署与监控。","1":"**② 早停（Early Stopping）**\n\n树不是越多越好——继续加会走向**背答案**。验证集损失**不再提升甚至变差**时，应及时停止，保留最优轮次。","2":"**③ 指标对齐业务目标**\n\n- **分类（流失、欺诈）：** 别只看准确率，结合 **AUC**、**F1** 等。\n- **回归（销量、价格）：** 用 **RMSE** / **MAE** 与真实尺度对话。"},"summary":"**一页对比表**\n\n| 模型 | 关键词 | 优势 | 注意 |\n| :--- | :--- | :--- | :--- |\n| **XGBoost** | 正则、稳定 | 泛用强、可当“安全牌” | 超大数据上可能相对更慢 |\n| **LightGBM** | 速度、按叶长 | 训练快、省内存 | 小数据更易过拟合 |\n| **CatBoost** | 类别、默认 | 减轻手工编码负担 | 更重，模型体积可能偏大 |\n\n共同点：**分阶段缩小残差，把许多棵树合成一个强模型**。","problemSolving":{"0":"**做题提示**\n\n- 练习题均为**四选一**；计算类题目也在**选项文字**中选出正确数值。\n- **LightGBM / leaf-wise** 常与 `max_depth`、`min_data_in_leaf`、`num_leaves` 等**防过拟合约束**一起考查。\n- **选型题**抓住**数据量、类别占比、推理延迟**，对照上表即可快速排除。\n- 理论题先在题干里定位 $F_t=F_{t-1}+\\eta h_t$、正则项 $\\Omega(f)$、直方图分箱、有序统计等**定义**。"},"sectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何被使用","summary":"总结","problemSolving":"解题与实战提示"},"problemSolvingLabel":"解题说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"共60题中随机抽取10题（易→中→难，4-3-3）。","practiceProblemsInstruction":"阅读题目后，从①〜④中选一项，再点击「核对答案」。","boostingTestCodeLabel":"测试代码","boostingVisualIntro":"后续树持续修正前序模型剩余误差。","boostingVisualIntroPanels":"三者扩展树的策略不同：按层扩展、按叶扩展、对称（oblivious）扩展。请看各面板的动画演示。","boostingVisualAriaLabel":"XGBoost 按层扩展、LightGBM 按叶扩展、CatBoost 对称树生长对比示意图","boostingVisualTitleXgb":"XGBoost","boostingVisualTitleLgb":"LightGBM","boostingVisualTitleCat":"CatBoost","boostingVisualCaptionXgb":"按层（level-wise）\n先填满同一深度再加深","boostingVisualCaptionLgb":"按叶（leaf-wise）\n优先分割损失下降最大的叶","boostingVisualCaptionCat":"Oblivious\n同一深度使用相同划分（对称）","boostingVisualPhaseCaption0":"① XGBoost：按层（level-wise），先填满同一深度再加深。","boostingVisualPhaseCaption1":"② LightGBM：按叶（leaf-wise），优先分割损失下降最大的叶节点。","boostingVisualPhaseCaption2":"③ CatBoost：oblivious 树，同一深度使用相同划分（对称结构）。","boostingVisualPhaseCaption3":"三者并排，可直观对比不同的扩展规则。","boostingVisualStep0":"① 初始模型误差较大","boostingVisualStep1":"② 顺序拟合残差","boostingVisualStep2":"③ 继续修正难样本","boostingVisualStep3":"④ 得到最终集成预测","checkAnswer":"检查答案","correctAnswer":"回答正确！","wrongAnswer":"请再试一次。"},"mathChapters":{"mathCumulativeVisualTitle":"基础数学概念脉络","mathCumulativeVisualLabel":"基础数学各章节概念图示","sectionLabels":{"whatIs":"是什么概念","whyImportant":"为何重要","howUsed":"如何被使用","problemSolving":"解题说明"},"mathSymbolPaletteTitle":"数学符号表","mathSymbolPaletteDescription":"可查看数学符号（希腊字母、运算符、集合等）及其名称与读法，点击即可复制。","mathSymbolPaletteSearchPlaceholder":"按名称或关键词搜索（如：alpha、sigma、偏导）","mathSymbolPaletteNoResults":"无结果。","mathSymbolPaletteHint":"点击符号可复制到剪贴板。","mathSymbolCategoryGreekLower":"希腊字母（小写）","mathSymbolCategoryGreekUpper":"希腊字母（大写）","mathSymbolCategoryOperators":"运算符","mathSymbolCategoryRelations":"关系","mathSymbolCategoryArrows":"箭头","mathSymbolCategorySets":"集合与数系","mathSymbolCategoryLogic":"逻辑","mathSymbolCategoryCalculus":"微积分","mathSymbolCategoryMisc":"其他","math00":{"chapter":"Chapter 00","title":"基础数学与人工智能：学习AI的语言","description":"为理解深度学习与机器学习，为什么需要数学、会用到哪些数学工具，我们将一起画出这张地图。","sectionTitle":"理解深度学习与机器学习，为什么需要数学","visualIntro":"可视化展示AI输入如何经过数学过程形成预测。","visualInputLabel":"输入","visualInputTypes":"图像、文字、声音","visualMathLabel":"基础数学","visualMathTopics":"函数 · 向量 · 矩阵","whatIs":{"0":"**理解AI需要数学这副眼镜** — 深度学习与机器学习会把我们提供的图像、文字、声音都变成**数字**。这些数字经过**函数**这条通道，通过反复**乘法和加法**寻找答案。整个过程都用数学书写，所以掌握数学就能清晰读出AI的**内部运作**。","1":"**会用到哪些数学工具？** — 我们会学习规定输入与输出规则的**函数**、把大量数据打包一次处理的**向量与矩阵**、让模型自己学习并逼近答案的**微分**，以及衡量结果可能性的**概率与分布**。这些工具组合在一起，构成智能的AI。","2":"**小结** — AI运行在数字与函数构成的坚实基础上。要解释AI为何给出某个结果、并设计更好的模型，必须具备**函数**、**极限**、**微分**、**概率**等基础能力。本课程就是一步步打好这一基础的旅程。"},"whyImportant":{"0":"**为了理解AI的决策依据** — AI做出的每一个决策，归根结底都是**数字与函数**计算的结果。我们学习函数与微分，就是为了跟上计算过程，在逻辑上理解**为什么得到那个答案**。","1":"**数学在AI模型中的位置** — 模型的每一**层**都是做「乘权重、相加」的**函数**的集合。AI通过学习减小误差的过程，使用的就是**梯度**这一微分概念。概率则成为衡量AI对自身预测有多大把握的指标。","2":"**我们将一起走的路线图（Ch01～Ch12）** — 本课程按以下顺序进行：处理数据流的**函数（Ch01～03）**、处理变化基础的**极限与连续（Ch04～05）**、学习核心的**微分（Ch06～08）**、作为累积与概率基础的**积分（Ch09）**，以及处理不确定性的**概率与分布（Ch10～12）**。"},"howUsed":{"0":"**现实与数学的桥梁** — AI模型具有**输入→转为数字→反复经过函数→输出**的结构。**函数**是这座建筑的砖块，**微分**是让砖块更聪明的凿子，**概率**是检验建成后建筑稳定性的工具。掌握这些基础数学后，深度学习中复杂的公式才会开始像有意义的句子一样被读懂。"},"problemSolving":{"0":"| 区分 | 在AI中的角色 | 核心数学概念 |\n| --- | --- | --- |\n| **输入与输出** | 放入数据并得到答案的基本框架 | 函数、指数、对数 |\n| **学习(训练)** | 减少误差、逼近正确答案的过程 | 极限、微分、链式法则 |\n| **预测与判断** | 在不确定结果中选择最优 | 概率、统计、正态分布 |"}},"math01":{"chapter":"Chapter 01","title":"函数：连接输入与输出的AI基本单元","description":"函数是「一个输入对应一个输出」的规则。人工智能把输入变成输出的方式，也直接对应这一函数概念。","sectionTitle":"什么是函数","visualIntro":"输入 $x$ 进去就确定一个输出 $y$ 的规则。下图表示 $x$ → $f$ → $y$ 的流程。","visualCaption":"例：$x=3$ 时，$f(x)=2x+1$ 得 7","whatIs":{"0":"**函数**是两个集合之间的严格**对应（映射）**。作为输入的**定义域**的每个元素，必须与作为输出的**值域**中的元素**一一对应**。就像自动售货机按一个键却不出饮料或出两瓶就是坏了，函数也要求一个输入恰好对应一个输出。","1":"数学上写成 $y = f(x)$。$x$ 是**自变量（原因）**，$y$ 是**因变量（结果）**。从 AI 角度看，$x$ 是我们提供的**数据**（图像像素、句子、传感器值），$y$ 是 AI 算出的**预测**（是否猫、下一个词、股价预测）。函数 $f$ 就是把数据变成答案的**转换器**。","2":"**AI 模型**本身就是巨大的**复合函数**。输入数据经过第一个函数（层）被变换，结果再进入下一个函数（层），如此重复几十次。就像数学里 $y = f(g(h(x)))$ 这样把函数叠在一起，深度学习把大量函数一层层叠起来，从复杂数据中读出模式。"},"whyImportant":{"0":"因为能**建模现实**。「多读书成绩就好」这种模糊关系用**一次函数** $y = ax + b$ 表示后，就能根据学习时间（$x$）算预期成绩（$y$）。AI 则用函数去近似更复杂的非线性关系（如图像与物体名），从而解决问题。","1":"因为它是**优化**的对象。AI 训练的目标是让正确答案与预测之间的误差最小。这个误差本身由**损失函数**这个函数计算，要找它的最小值就要用微分。若不用函数定义，训练 AI 就没有数学依据。","2":"因为它是描述**变化**的语言。要知道输入略变时输出变多少（斜率），才能让 AI 一步步朝正确答案走。函数把输入和输出的**因果关系**用式子写清楚，我们才能分析 AI 为何那样判断。"},"howUsed":{"0":"**AI** 中每个神经元都是一个小**函数**：对输入信号（$x$）乘权重（$w$）加偏置（$wx+b$），再经**激活函数**送到下一层。ReLU、Sigmoid 等函数决定是否「点火」，这些小块函数组合起来像人脑一样做复杂判断。","1":"用于**数据变换**。对人来说是一张图，对计算机是一堆数字（$x$）。AI 把这些数送进函数，做降维或升维，只保留「耳朵形状」「眼睛形状」等关键特征（$y$），即高维向量到低维空间的函数运算。","2":"用于**概率**计算。分类最后一层的 **Softmax** 把模型输出的原始分数变成「和为 1 的概率」，AI 才能说「这张图 90% 是狗」。函数把原始数据加工成我们能理解的信息。"},"problemSolving":{"0":"| 函数 | 例（输入 → 输出） |\n| --- | --- |\n| $f(x)=x+1$ | 3 → 4，10 → 11 |\n| $g(x)=2x$ | 3 → 6，10 → 20 |\n| $h(x)=x^2$ | 3 → 9，$-2$ → 4 |","1":"如下图所示 $f(x) = 2x + 1$ 在 x = 3 时为 7，x = 10 时为 21。请在题目中填空白。"}},"math02":{"chapter":"Chapter 02","title":"指数与指数函数：增长与激活的数学","description":"指数表示同一数连乘的次数，指数函数则是把这一规则写成变量的函数。深度学习中的激活与损失设计会用到。","sectionTitle":"什么是指数与指数函数","visualIntro":"固定底数 $a$，对每个指数 $x$ 有唯一的 $a^x$。下面是 $2^x$ 的例子。","visualCaption":"例：$2^0=1$，$2^1=2$，$2^2=4$，$2^3=8$","whatIs":{"0":"**指数**表示把某数（底）连乘若干次的运算。就像「纸折 42 次能从地球到月球」那样，用乘法（$\\times$）而不是加法（$+$）连接，所以具有**爆炸式增长（指数增长）**的性质。","1":"**指数函数**是把「连乘次数」写成变量 $x$ 的函数 $y = a^x$。多项式里变量在底（如 $x^2$），指数函数里变量在指数上，表示**「按当前大小成比例增长」**。$a>1$ 时随 $x$ 增大值会急剧上升（**指数增长**），$00$**。0 或负数的对数没有定义，所以 AI 代码里常加一个很小的数 $\\epsilon$ 避免 $\\log(0)$ 报错。以 $e$ 为底的**自然对数 $\\ln$** 则让求导形式简洁，是深度学习里的标准选择。"},"whyImportant":{"0":"因为必须**防止下溢**。把概率 $0.1$ 连乘 100 次得到 $0.1^{100}$，计算机会当成「小到无法表示的 0」。取对数后 $\\log(0.1^{100}) = 100 \\times \\log(0.1) = -100$，就仍是**有意义的数**。","1":"因为它是**信息量（熵）**的尺子。概率越低（越罕见），对数值的绝对值越大。「明天太阳从西边出来」这种罕见事件信息量大，「明天早上会天亮」这种必然事件信息量接近 0。AI 用基于对数的信息量衡量**「学到了多令人惊讶的信息」**。","2":"因为**对错误施以重罚**。$y=\\ln x$（$00$，$\\cos\\theta<0$\n2) $\\tan\\theta=\\frac{\\sin\\theta}{\\cos\\theta}<0$\n\n所以**答案是负号**。\n\n---\n\n**示例（周期计算题）**\n\n求 $y=\\sin(8x)$ 的周期（角度制）。\n\n**解法**\n\n1) 周期公式：$\\frac{360}{k}$\n2) $k=8$，所以 $\\frac{360}{8}=45$\n\n所以**答案是 45**。\n\n---\n\n**示例（ML应用题，不直接算 $\\pi$）**\n\n当 $hour=6$ 时，把一天24小时映射为360度，角度是多少？$\\sin\\theta$ 是多少？\n\n**解法**\n\n1) 24小时 = 360度，所以 1小时 = 15度\n2) 6小时是 $6\\times15=90^\\circ$\n3) $\\sin90^\\circ=1$\n\n所以**答案是 1**。\n\n（等价写法：$\\theta=2\\pi\\cdot\\frac{6}{24}=\\frac{\\pi}{2}$。）"},"summary":"**一句话总结：** 三角函数不仅是“角度代入得比值”的计算工具，更是统一解释圆周运动与波动现象的语言。它把单位圆直觉与AI中的周期特征处理、位置编码连接在一起。","problemSolvingLabel":"用于解题的说明","practiceProblemsTitle":"练习题","practiceProblemsIntro":"题库共60题，每次随机抽取10题。抽题会尽量避免题型重复，难度按简单→中等→困难排列。","problemPromptQuadrantSign":"在第{quadrant}象限中，求 {func} 的符号。（正=1，负=-1）","problemPromptPeriodDeg":"的周期（角度制）是多少？","problemPromptIntSum":"整数求和题：{a} + {b} = ?","problemPromptUnitCircleCoord":"在单位圆中，当 θ={deg}° 时，求 {axis} 的值。","problemPromptCoterminalAngle":"???? {deg}? ????? 0?~360? ???","problemPromptQuadrantFromAngle":"? ?={deg}? ????????1~4?","cosineVisualTitle":"??????????","cosineVisualHint":"??????????cos ???? 1?","cosineVisualNow":"????????","cosineVisualHigh":"????","cosineVisualMedium":"?????","cosineVisualLow":"????"}}},"now":"$undefined","timeZone":"UTC","children":["$L31","$L32","$L33"]}]