Chapter 01
向量内积
将两个向量的方向与大小相乘得到一个标量的最基本运算。
按章节的深度学习图示
每完成一章,下方图示会逐步填满。这是目前的结构。
左侧 X1,X2,X3 与右侧 Y1,Y2,Y3 用线相连。右侧每个节点是左侧与权重的内积。
深度学习中的内积
内积是两个向量同位置分量相乘后全部相加,得到一个数。例如 [2, 3] · [4, 1] = 2×4 + 3×1 = 11。
内积还能衡量两个向量的方向是否一致:内积越大说明方向越相似,为零说明完全无关(垂直),为负说明方向相反。所以它很适合用来度量「相似度」。
公式:a · b = a₁×b₁ + a₂×b₂ + … + aₙ×bₙ。两个向量的元素个数必须相同,内积才有意义。
在深度学习中,一个神经元的输出就是权重与输入的内积。把同位置的值相乘再求和,得到的就是该神经元对输入的「响应分数」。
内积是深度学习中最基础的运算,因为矩阵乘法不过是把许多次内积打包在一起。线性层、注意力、嵌入比较等操作的核心都是内积。
内积还是相似度的衡量方式:例如 Netflix 将用户向量与电影向量做内积得到「匹配分数」。这就是余弦相似度的基本原理。
推荐系统(Netflix、YouTube):将用户向量与内容向量做内积,得到「该用户有多喜欢该内容」的分数。分数越高推荐越靠前。
搜索引擎和聊天机器人:把查询和文档都转成向量,按内积(相似度)排序。ChatGPT 找到与你问题最相关的信息用的也是同一原理。
注意力机制:在翻译和聊天机器人中,词向量之间做内积算出「相关度分数」,模型会把更多注意力分配给分数高的词。
计算方法:把同位置的元素相乘,再把乘积全部相加。例如:[1, 2, 3] · [4, 5, 6] = 1×4 + 2×5 + 3×6 = 4 + 10 + 18 = 32。
填空策略:如果已知内积总值和其他乘积,先把已知乘积求和,用总值减去该和即可得到缺失的乘积,再除以已知元素就能求出空白值。
注意事项:两个向量的元素个数必须相同。确保每一对元素都计算到了——逐对打勾可以有效避免遗漏。
a = [2, 3], b = [4, 1] → a·b = 同位置分量乘积之和
题目
求下列向量的内积 。