みんなのAI
機械学習AI論文
読み込み中…

学ぶ

🏅マイ実績

Ch.03

線形回帰:データの流れを貫く直線

データ点が散らばっているとき、その流れを貫く直線を見つけ、新しい入力に対する値を予測するのが線形回帰です。基礎数学の関数・微分・偏微分が、機械学習の「学習」にどうつながるかを直接確認できる最初の回帰モデルです。

チャプター別 機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

① 学習データ — (x, y) 散布図

xy

y≈0.7x+1.1y \approx 0.7x + 1.1y≈0.7x+1.1 — 勾配降下で www, bbb を学習

線形回帰:データの流れを貫く直線

線形回帰とは? — 入力 xxx と出力 yyy の間に直線関係 y=w1x+w0y = w_1 x + w_0y=w1​x+w0​(多変数のときは y=w⊤x+by = \mathbf{w}^\top \mathbf{x} + by=w⊤x+b)を仮定し、データに最もよく合う重み www と切片 bbbを求めるものです。基礎数学 Ch01 の関数 y=f(x)y = f(x)y=f(x) が、ここでは具体的に一次関数として定まります。
「最もよく合う」の意味 — 予測値 y^i=wxi+b\hat{y}_i = w x_i + by^​i​=wxi​+b と実測値 yiy_iyi​ の誤差を最小化する www, bbb を探します。この誤差を測る関数が損失関数で、Ch04 で学ぶMSE(平均二乗誤差)が代表的です。
KNNとの違い — KNN は「近傍の平均」で予測しましたが、線形回帰は一つの式(直線)を学習して保存します。予測時は近傍を探す必要がなく、y^=wx+b\hat{y} = w x + by^​=wx+b を計算するだけです。
微分と最適化の最初の適用 — 誤差を最小化するには微分(基礎数学 Ch06)を使います。損失関数を www, bbb で微分した勾配に沿って下れば最小値に到達します。これが勾配降下法であり、ディープラーニングの学習原理と同じです。
解釈可能性 — 学習された www は「入力 xxx が 1 増えると yyy がどれだけ変わるか」を示します。例:住宅面積(xxx)と価格(yyy)で w>0w > 0w>0 なら「広いほど高い」という直感と一致します。この解釈可能性は実務でモデルを信頼・改善する際に重要です。
他モデルの基礎 — ロジスティック回帰(Ch05)、ニューラルネットの一ニューロンは、すべて「線形変換+非線形関数」の構造です。線形回帰を理解すれば、それらの線形部分の動きがすぐに分かります。
回帰 — 住宅価格、売上、気温、スコアなど連続的な数値を予測するときに使います。特徴が複数なら y=w1x1+w2x2+⋯+wnxn+by = w_1 x_1 + w_2 x_2 + \cdots + w_n x_n + by=w1​x1​+w2​x2​+⋯+wn​xn​+b の多重線形回帰になります。
特徴の重要度 — ∣wi∣|w_i|∣wi​∣ が大きい特徴ほど予測への影響が大きいです。特徴工学(Ch01)でどの特徴を入れるか決める際、この値を参考にします。
正規方程式 vs 勾配降下 — 特徴が少ないときは正規方程式で一発で最適解を求められます。特徴が多い、またはデータが大きいときは勾配降下法で www を反復更新します。基礎数学 Ch08 の偏微分と勾配がここで核心ツールになります。
要約:誤差を減らす『試行錯誤』の過程 — 線形回帰は、散らばったデータ点を最もよく貫くたった1本の直線(y=wx+by=wx+by=wx+b)を探す探偵のようなものです。モデル(仮定):最初は無作為に直線を1本引きます。当然、実データとは合わず誤差が大きいです。学習:この誤差を減らすため勾配降下法を使います。山の頂上から目隠しで、最も低い谷(誤差最小の地点)を一歩ずつ下って探すようなものです。予測:谷底に着けば、最適な傾き(www)と位置(bbb)を見つけたことになります。新しい質問(xxx)が来ても、完成した式に代入するだけで即座に答え(y^\hat{y}y^​)を予測できます。
データから法則を抽出する3段階 — 線形回帰は、複雑なデータの中から y=wx+by=wx+by=wx+b という単純な法則を見つけ出す過程です。
① モデル構築 — 「入力(xxx)と正解(yyy)は直線関係だろう」と仮定してモデルを立てます。
② 最適化(学習) — 予測値(y^\hat{y}y^​)と実測値(yyy)の差である損失を計算し、これを最小化するため勾配降下で www(傾き)と bbb(切片)を少しずつ更新します。これはディープラーニングの学習原理と完全に同じです。
③ 推論(予測) — 学習された直線はデータのパターンを圧縮しています。新しいデータが来たら、複雑な計算なしに直線の式に代入して即座に結果を予測します。