Ch.01

머신러닝의 출발: 데이터와 특성(Feature)

机器学习从数据开始。我们将图像、文字、数字转化为 特征(Feature) 这种数字形式，让模型能够学习模式。基础数学Ch00中学习的「数字与函数」世界在这里成为现实。

选择章节后，下方图示会切换为该章节内容。可一览机器学习脉络。

该概念的可视化即将上线。

数据与特征(Feature)是什么

数据是机器学习的原料 — 如基础数学Ch00所学，深度学习与机器学习将我们提供的图像、文字、声音都转化为 数字 。这些 数字化的输入 与 标签(Label) 的配对就是 数据 。例如「猫的照片＋猫」构成一个数据，这样的配对积累数千、数万条，就成为模型可学习的原料。

特征(Feature)是将数据的核心提取为数字的结果 — 我们看到的照片对计算机而言只是数万个像素数字的集合。从中选出「耳朵形状」「眼睛大小」「毛色」等 有助于判断的信息 并以数字表示，就是 特征 。数学上以 向量 表示，通过 函数 从原始数据中提取。Ch00中提到的「规定输入输出规则的函数」正是承担这一转换的角色。

总结 — 数据是(输入、标签)的集合，特征是将该输入转化为模型可理解的 数字向量 的结果。好的特征能让模型学得更好，坏的特征即使数据再多也难以提升性能。机器学习的起点就是决定「用什么数据、转化为哪些特征」。

没有数据就无法学习 — 模型做出的所有决策归根结底都是 数字与函数 的计算结果。如Ch00所学，要追踪AI的计算过程，数据必须以 数字 形式整理。数据不足或混入错误标签，模型就会学到错误的模式。

特征设计决定模型的上限 — 人决定「提取哪些信息为数字」的过程称为 特征工程 。股价预测中只用「昨日收盘价」与加入「移动平均、成交量、波动率」相比，结果大不相同。用 向量与矩阵 将众多特征打包一次性计算，是Ch00路线图的核心，在此过程中特征的质量左右模型性能。

通往下一章的桥梁 — Ch02 KNN、Ch03 线性回归、Ch05 逻辑回归等所有机器学习算法都以 特征向量 为输入。理解数据与特征，才能解释「模型为何做出这样的预测」，而涉及 微分 与 概率 的后续章节也建立在这一基础之上。

输入 \to 特征提取 \to 模型 \to 预测 — 机器学习流水线与Ch00中的 输入 \to 数字转换 \to 函数重复 \to 输出 结构相同。特征提取是「数字转换」阶段，模型(线性回归、KNN等)是 函数 的集合。 微分 用于学习时减小误差， 概率 用于表达预测的不确定性，如「这张图是猫的概率90%」。

本章总结了 数据 与 特征(Feature) 在机器学习中的角色以及在实际中的用法。数据是(输入、标签)配对的集合，特征则是将输入转化为模型可用的 数字向量 的结果。做好 特征工程 、选好特征会极大影响效果，因此在进入下一章（KNN、线性回归等）之前，建议先扎实掌握这些概念。

区分 在数据\cdot特征中的角色 与基础数学的关联 数据 (输入、标签)配对的集合，以数字表示 函数的定义域\cdot值域 (Ch01) 特征 将输入转化为向量的结果，模型的输入 向量、矩阵 (Ch00路线图) 学习 用数据调整模型参数 微分、梯度 (Ch06~08) 预测 特征向量 \to 模型 \to 预测值或概率 概率、分布 (Ch10~12)