Ch.01

머신러닝의 출발: 데이터와 특성(Feature)

机器学习从数据开始。我们将图像、文字、数字转化为特征(Feature)这种数字形式,让模型能够学习模式。基础数学Ch00中学习的「数字与函数」世界在这里成为现实。

按章节的机器学习图示

选择章节后,下方图示会切换为该章节内容。可一览机器学习脉络。

该概念的可视化即将上线。

数据与特征(Feature)是什么

数据是机器学习的原料 — 如基础数学Ch00所学,深度学习与机器学习将我们提供的图像、文字、声音都转化为数字。这些数字化的输入标签(Label)的配对就是数据。例如「猫的照片+猫」构成一个数据,这样的配对积累数千、数万条,就成为模型可学习的原料。
特征(Feature)是将数据的核心提取为数字的结果 — 我们看到的照片对计算机而言只是数万个像素数字的集合。从中选出「耳朵形状」「眼睛大小」「毛色」等有助于判断的信息并以数字表示,就是特征。数学上以向量表示,通过函数从原始数据中提取。Ch00中提到的「规定输入输出规则的函数」正是承担这一转换的角色。
总结 — 数据是(输入、标签)的集合,特征是将该输入转化为模型可理解的数字向量的结果。好的特征能让模型学得更好,坏的特征即使数据再多也难以提升性能。机器学习的起点就是决定「用什么数据、转化为哪些特征」。
没有数据就无法学习 — 模型做出的所有决策归根结底都是数字与函数的计算结果。如Ch00所学,要追踪AI的计算过程,数据必须以数字形式整理。数据不足或混入错误标签,模型就会学到错误的模式。
特征设计决定模型的上限 — 人决定「提取哪些信息为数字」的过程称为特征工程。股价预测中只用「昨日收盘价」与加入「移动平均、成交量、波动率」相比,结果大不相同。用向量与矩阵将众多特征打包一次性计算,是Ch00路线图的核心,在此过程中特征的质量左右模型性能。
通往下一章的桥梁 — Ch02 KNN、Ch03 线性回归、Ch05 逻辑回归等所有机器学习算法都以特征向量为输入。理解数据与特征,才能解释「模型为何做出这样的预测」,而涉及微分概率的后续章节也建立在这一基础之上。
输入 → 特征提取 → 模型 → 预测 — 机器学习流水线与Ch00中的输入 → 数字转换 → 函数重复 → 输出结构相同。特征提取是「数字转换」阶段,模型(线性回归、KNN等)是函数的集合。微分用于学习时减小误差,概率用于表达预测的不确定性,如「这张图是猫的概率90%」。
本章总结了数据特征(Feature)在机器学习中的角色以及在实际中的用法。数据是(输入、标签)配对的集合,特征则是将输入转化为模型可用的数字向量的结果。做好特征工程、选好特征会极大影响效果,因此在进入下一章(KNN、线性回归等)之前,建议先扎实掌握这些概念。
区分在数据·特征中的角色与基础数学的关联
数据(输入、标签)配对的集合,以数字表示函数的定义域·值域 (Ch01)
特征将输入转化为向量的结果,模型的输入向量、矩阵 (Ch00路线图)
学习用数据调整模型参数微分、梯度 (Ch06~08)
预测特征向量 → 模型 → 预测值或概率概率、分布 (Ch10~12)