Chapter 01

向量内积

将两个向量的方向与大小相乘得到一个标量的最基本运算。

每完成一章，下方图示会逐步填满。这是目前的结构。

左侧 X1,X2,X3 与右侧 Y1,Y2,Y3 用线相连。右侧每个节点是左侧与权重的内积。

深度学习中的内积

内积是两个向量同位置分量相乘后全部相加，得到一个数。例如 [2, 3] · [4, 1] = 2×4 + 3×1 = 11。

内积还能衡量两个向量的方向是否一致：内积越大说明方向越相似，为零说明完全无关（垂直），为负说明方向相反。所以它很适合用来度量「相似度」。

公式：a · b = a₁×b₁ + a₂×b₂ + … + aₙ×bₙ。两个向量的元素个数必须相同，内积才有意义。

在深度学习中，一个神经元的输出就是权重与输入的内积。把同位置的值相乘再求和，得到的就是该神经元对输入的「响应分数」。

内积是深度学习中最基础的运算，因为矩阵乘法不过是把许多次内积打包在一起。线性层、注意力、嵌入比较等操作的核心都是内积。

内积还是相似度的衡量方式：例如 Netflix 将用户向量与电影向量做内积得到「匹配分数」。这就是余弦相似度的基本原理。

推荐系统（Netflix、YouTube）：将用户向量与内容向量做内积，得到「该用户有多喜欢该内容」的分数。分数越高推荐越靠前。

搜索引擎和聊天机器人：把查询和文档都转成向量，按内积（相似度）排序。ChatGPT 找到与你问题最相关的信息用的也是同一原理。

注意力机制：在翻译和聊天机器人中，词向量之间做内积算出「相关度分数」，模型会把更多注意力分配给分数高的词。

计算方法：把同位置的元素相乘，再把乘积全部相加。例如：[1, 2, 3] · [4, 5, 6] = 1×4 + 2×5 + 3×6 = 4 + 10 + 18 = 32。

填空策略：如果已知内积总值和其他乘积，先把已知乘积求和，用总值减去该和即可得到缺失的乘积，再除以已知元素就能求出空白值。

注意事项：两个向量的元素个数必须相同。确保每一对元素都计算到了——逐对打勾可以有效避免遗漏。

a = [2, 3], b = [4, 1] → a·b = 同位置分量乘积之和

a₁×b₁ = 2×4 = 8

a₂×b₂ = 3×1 = 3

a \cdot b

= 8 + 3 = 11

求下列向量的内积 $a \cdot b$ 。

↓

-1

→

−

1 / 20