Ch.03

선형 회귀 (Linear Regression): 데이터의 흐름을 꿰뚫는 선

データ点が散らばっているとき、その流れを貫く直線を見つけ、新しい入力に対する値を予測するのが線形回帰です。基礎数学の関数微分偏微分が、機械学習の「学習」にどうつながるかを直接確認できる最初の回帰モデルです。

チャプター別 機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

① 学習データ — (x, y) 散布図

y0.7x+1.1y \approx 0.7x + 1.1 — 勾配降下で ww, bb を学習

線形回帰:データの流れを貫く直線

線形回帰とは? — 入力 xx と出力 yy の間に直線関係 y=w1x+w0y = w_1 x + w_0(多変数のときは y=wx+by = \mathbf{w}^\top \mathbf{x} + b)を仮定し、データに最もよく合う重み ww と切片 bbを求めるものです。基礎数学 Ch01 の関数 y=f(x)y = f(x) が、ここでは具体的に一次関数として定まります。
「最もよく合う」の意味 — 予測値 y^i=wxi+b\hat{y}_i = w x_i + b と実測値 yiy_i誤差を最小化する ww, bb を探します。この誤差を測る関数が損失関数で、Ch04 で学ぶMSE(平均二乗誤差)が代表的です。
KNNとの違い — KNN は「近傍の平均」で予測しましたが、線形回帰は一つの式(直線)を学習して保存します。予測時は近傍を探す必要がなく、y^=wx+b\hat{y} = w x + b を計算するだけです。
微分と最適化の最初の適用 — 誤差を最小化するには微分(基礎数学 Ch06)を使います。損失関数を ww, bb で微分した勾配に沿って下れば最小値に到達します。これが勾配降下法であり、ディープラーニングの学習原理と同じです。
解釈可能性 — 学習された ww は「入力 xx が 1 増えると yy がどれだけ変わるか」を示します。例:住宅面積(xx)と価格(yy)で w>0w > 0 なら「広いほど高い」という直感と一致します。この解釈可能性は実務でモデルを信頼・改善する際に重要です。
他モデルの基礎 — ロジスティック回帰(Ch05)、ニューラルネットの一ニューロンは、すべて「線形変換+非線形関数」の構造です。線形回帰を理解すれば、それらの線形部分の動きがすぐに分かります。
回帰 — 住宅価格、売上、気温、スコアなど連続的な数値を予測するときに使います。特徴が複数なら y=w1x1+w2x2++wnxn+by = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + b多重線形回帰になります。
特徴の重要度wi|w_i| が大きい特徴ほど予測への影響が大きいです。特徴工学(Ch01)でどの特徴を入れるか決める際、この値を参考にします。
正規方程式 vs 勾配降下 — 特徴が少ないときは正規方程式で一発で最適解を求められます。特徴が多い、またはデータが大きいときは勾配降下法ww を反復更新します。基礎数学 Ch08 の偏微分と勾配がここで核心ツールになります。
要約:誤差を減らす『試行錯誤』の過程 — 線形回帰は、散らばったデータ点を最もよく貫くたった1本の直線y=wx+by=wx+b)を探す探偵のようなものです。モデル(仮定):最初は無作為に直線を1本引きます。当然、実データとは合わず誤差が大きいです。学習:この誤差を減らすため勾配降下法を使います。山の頂上から目隠しで、最も低い谷(誤差最小の地点)を一歩ずつ下って探すようなものです。予測:谷底に着けば、最適な傾き(ww)と位置(bb)を見つけたことになります。新しい質問(xx)が来ても、完成した式に代入するだけで即座に答え(y^\hat{y})を予測できます。
データから法則を抽出する3段階 — 線形回帰は、複雑なデータの中から y=wx+by=wx+b という単純な法則を見つけ出す過程です。
① モデル構築 — 「入力(xx)と正解(yy)は直線関係だろう」と仮定してモデルを立てます。
② 最適化(学習) — 予測値(y^\hat{y})と実測値(yy)の差である損失を計算し、これを最小化するため勾配降下で ww(傾き)と bb(切片)を少しずつ更新します。これはディープラーニングの学習原理と完全に同じです。
③ 推論(予測) — 学習された直線はデータのパターンを圧縮しています。新しいデータが来たら、複雑な計算なしに直線の式に代入して即座に結果を予測します。