Ch.01

머신러닝의 출발: 데이터와 특성(Feature)

機械学習はデータから始まります。画像、テキスト、数値を 特徴量(Feature) という数値の形に変え、モデルがパターンを学習できるようにします。基礎数学Ch00で学んだ「数と関数」の世界がここで現実になります。

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

この概念のビジュアルは準備中です。

データと特徴量(Feature)とは何か

データは機械学習の材料です — 基礎数学Ch00で学んだように、ディープラーニングと機械学習は画像、テキスト、音声をすべて 数値 に変換して受け入れます。この 数値化された入力 と 正解(Label) のペアが データ です。例えば「猫の写真＋猫」が1つのデータとなり、こうしたペアが数千・数万個集まるとモデルが学習できる材料になります。

特徴量(Feature)はデータの本質を数値で抽出したものです — 私たちが見る写真はコンピュータにとって数万個のピクセル数値の塊に過ぎません。その中から「耳の形」「目の大きさ」「毛色」など 判断に役立つ情報 だけを選び数値で表したのが 特徴量 です。数学的には ベクトル で表現され、 関数 を通じて元データから抽出されます。Ch00で言った「入出力の規則を定める関数」がこの変換を担います。

まとめると — データは(入力、正解)の集合であり、特徴量はその入力をモデルが理解できる 数値ベクトル に変換した結果です。良い特徴量を作ればモデルはよりよく学習し、悪い特徴量ではデータが多くても性能は上がりません。機械学習の出発は「どのデータを、どの特徴量に変えるか」を決めることです。

データがなければ学習は不可能です — モデルのすべての決定は結局 数値と関数 の計算結果です。Ch00で学んだように、AIの計算過程を追うにはデータが 数値 で整理されている必要があります。データが不足していたり、誤った正解が混ざっていたりすると、モデルは間違ったパターンを学習します。

特徴量設計がモデルの限界を決めます — 人が「どの情報を数値で抽出するか」を決めることを 特徴量エンジニアリング といいます。株価予測で「昨日の終値」だけ使うのと「移動平均、出来高、変動性」まで使うのでは結果が大きく異なります。 ベクトルと行列 で多くの特徴量をまとめて一度に計算するのがCh00ロードマップの核心であり、この過程で特徴量の質がモデル性能を左右します。

次のチャプターへの橋渡し — Ch02 KNN、Ch03 線形回帰、Ch05 ロジスティック回帰など、すべての機械学習アルゴリズムは 特徴量ベクトル を入力として受け取ります。データと特徴量を理解して初めて「なぜこのモデルがこの予測をしたのか」を解釈でき、 微分 と 確率 を扱う以降のチャプターもこの基礎の上に立っています。

入力 \to 特徴量抽出 \to モデル \to 予測 — 機械学習パイプラインはCh00で言った 入力 \to 数値変換 \to 関数の反復 \to 出力 の構造と同じです。特徴量抽出は「数値変換」の段階であり、モデル(線形回帰、KNNなど)は 関数 の集合です。 微分 は学習時に誤差を減らすのに、 確率 は「この画像が猫である確率90%」のように予測の不確実性を表すのに使われます。

このチャプターでは データ と 特徴量(Feature) が機械学習でどのような役割を果たすか、実際にどう使われるかをまとめました。データは(入力、正解)ペアの集合であり、特徴量はその入力をモデルが扱える 数値ベクトル に変換した結果です。良い特徴量を選ぶ 特徴量エンジニアリング が性能を大きく左右するため、次のチャプター(KNN、線形回帰など)に進む前に、この概念をしっかり押さえておくとよいです。

区分 データ・特徴量での役割 基礎数学との接続 データ (入力、正解)ペアの集合。数値で表現 関数の定義域・値域 (Ch01) 特徴量 入力をベクトルに変換した結果。モデルの入力 ベクトル、行列 (Ch00ロードマップ) 学習 データでモデルパラメータを調整 微分、勾配 (Ch06~08) 予測 特徴量ベクトル \to モデル \to 予測値または確率 確率、分布 (Ch10~12)