Chapter 01

向量内积

将两个向量的方向与大小相乘得到一个标量的最基本运算。

按章节的深度学习图示

每完成一章,下方图示会逐步填满。这是目前的结构。

X1X2X3Y1Y2Y3权重x₂·y₂结果

左侧 X1,X2,X3 与右侧 Y1,Y2,Y3 用线相连。右侧每个节点是左侧与权重的内积。

深度学习中的内积

内积是两个向量同位置分量相乘后全部相加,得到一个数。例如 [2, 3] · [4, 1] = 2×4 + 3×1 = 11。

内积还能衡量两个向量的方向是否一致:内积越大说明方向越相似,为零说明完全无关(垂直),为负说明方向相反。所以它很适合用来度量「相似度」。

公式:a · b = a₁×b₁ + a₂×b₂ + … + aₙ×bₙ。两个向量的元素个数必须相同,内积才有意义。

在深度学习中,一个神经元的输出就是权重与输入的内积。把同位置的值相乘再求和,得到的就是该神经元对输入的「响应分数」。

内积是深度学习中最基础的运算,因为矩阵乘法不过是把许多次内积打包在一起。线性层、注意力、嵌入比较等操作的核心都是内积。

内积还是相似度的衡量方式:例如 Netflix 将用户向量与电影向量做内积得到「匹配分数」。这就是余弦相似度的基本原理。

推荐系统(Netflix、YouTube):将用户向量与内容向量做内积,得到「该用户有多喜欢该内容」的分数。分数越高推荐越靠前。

搜索引擎和聊天机器人:把查询和文档都转成向量,按内积(相似度)排序。ChatGPT 找到与你问题最相关的信息用的也是同一原理。

注意力机制:在翻译和聊天机器人中,词向量之间做内积算出「相关度分数」,模型会把更多注意力分配给分数高的词。

计算方法:把同位置的元素相乘,再把乘积全部相加。例如:[1, 2, 3] · [4, 5, 6] = 1×4 + 2×5 + 3×6 = 4 + 10 + 18 = 32。

填空策略:如果已知内积总值和其他乘积,先把已知乘积求和,用总值减去该和即可得到缺失的乘积,再除以已知元素就能求出空白值。

注意事项:两个向量的元素个数必须相同。确保每一对元素都计算到了——逐对打勾可以有效避免遗漏。

a = [2, 3], b = [4, 1] → a·b = 同位置分量乘积之和

a₁×b₁ = 2×4 = 8
a₂×b₂ = 3×1 = 3
aba \cdot b = 8 + 3 = 11

题目

求下列向量的内积 aba \cdot b

2
0
-1
0
1 / 20