Ch.01

머신러닝의 출발: 데이터와 특성(Feature)

機械学習はデータから始まります。画像、テキスト、数値を特徴量(Feature)という数値の形に変え、モデルがパターンを学習できるようにします。基礎数学Ch00で学んだ「数と関数」の世界がここで現実になります。

チャプター別 機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

この概念のビジュアルは準備中です。

データと特徴量(Feature)とは何か

データは機械学習の材料です — 基礎数学Ch00で学んだように、ディープラーニングと機械学習は画像、テキスト、音声をすべて数値に変換して受け入れます。この数値化された入力正解(Label)のペアがデータです。例えば「猫の写真+猫」が1つのデータとなり、こうしたペアが数千・数万個集まるとモデルが学習できる材料になります。
特徴量(Feature)はデータの本質を数値で抽出したものです — 私たちが見る写真はコンピュータにとって数万個のピクセル数値の塊に過ぎません。その中から「耳の形」「目の大きさ」「毛色」など判断に役立つ情報だけを選び数値で表したのが特徴量です。数学的にはベクトルで表現され、関数を通じて元データから抽出されます。Ch00で言った「入出力の規則を定める関数」がこの変換を担います。
まとめると — データは(入力、正解)の集合であり、特徴量はその入力をモデルが理解できる数値ベクトルに変換した結果です。良い特徴量を作ればモデルはよりよく学習し、悪い特徴量ではデータが多くても性能は上がりません。機械学習の出発は「どのデータを、どの特徴量に変えるか」を決めることです。
データがなければ学習は不可能です — モデルのすべての決定は結局数値と関数の計算結果です。Ch00で学んだように、AIの計算過程を追うにはデータが数値で整理されている必要があります。データが不足していたり、誤った正解が混ざっていたりすると、モデルは間違ったパターンを学習します。
特徴量設計がモデルの限界を決めます — 人が「どの情報を数値で抽出するか」を決めることを特徴量エンジニアリングといいます。株価予測で「昨日の終値」だけ使うのと「移動平均、出来高、変動性」まで使うのでは結果が大きく異なります。ベクトルと行列で多くの特徴量をまとめて一度に計算するのがCh00ロードマップの核心であり、この過程で特徴量の質がモデル性能を左右します。
次のチャプターへの橋渡し — Ch02 KNN、Ch03 線形回帰、Ch05 ロジスティック回帰など、すべての機械学習アルゴリズムは特徴量ベクトルを入力として受け取ります。データと特徴量を理解して初めて「なぜこのモデルがこの予測をしたのか」を解釈でき、微分確率を扱う以降のチャプターもこの基礎の上に立っています。
入力 → 特徴量抽出 → モデル → 予測 — 機械学習パイプラインはCh00で言った入力 → 数値変換 → 関数の反復 → 出力の構造と同じです。特徴量抽出は「数値変換」の段階であり、モデル(線形回帰、KNNなど)は関数の集合です。微分は学習時に誤差を減らすのに、確率は「この画像が猫である確率90%」のように予測の不確実性を表すのに使われます。
このチャプターではデータ特徴量(Feature)が機械学習でどのような役割を果たすか、実際にどう使われるかをまとめました。データは(入力、正解)ペアの集合であり、特徴量はその入力をモデルが扱える数値ベクトルに変換した結果です。良い特徴量を選ぶ特徴量エンジニアリングが性能を大きく左右するため、次のチャプター(KNN、線形回帰など)に進む前に、この概念をしっかり押さえておくとよいです。
区分データ・特徴量での役割基礎数学との接続
データ(入力、正解)ペアの集合。数値で表現関数の定義域・値域 (Ch01)
特徴量入力をベクトルに変換した結果。モデルの入力ベクトル、行列 (Ch00ロードマップ)
学習データでモデルパラメータを調整微分、勾配 (Ch06~08)
予測特徴量ベクトル → モデル → 予測値または確率確率、分布 (Ch10~12)