Ch.04

ロジスティック回帰 (Logistic Regression): 合格か不合格か?

線形回帰が「予想スコア」を予測するのに対し、ロジスティック回帰は YES / NO を判別する分類の専門家です。例えば「勉強時間に対する試験スコア」ではなく、「このスコアなら合格(1)不合格(0)か?」を当てます。そのためにスコアを 0~1 の確率に変えるシグモイド関数を使います。

チャプター別 機械学習図

チャプターを選ぶと、下の図がそのチャプターの内容に切り替わります。機械学習の流れを一覧で確認できます。

線形スコア zz が大きいほど σ(z)\sigma(z) が 1 に近づき class 1 に分類されます。z=0z=0 が決定境界です。

シグモイド: σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}}z>0z>0 なら y^=1\hat{y}=1z0z \le 0 なら y^=0\hat{y}=0

数式の読み方zz が大きな負のとき eze^{-z} が大きくなり σ(z)0\sigma(z) \approx 0z=0z=0 なら σ(0)=0.5\sigma(0)=0.5zz が大きな正のとき ez0e^{-z} \approx 0σ(z)1\sigma(z) \approx 1。つまりどんな zz も 0~1 の確率に押し込む式です。

ロジスティック回帰: 合格か不合格か?

魔法のS字カーブ、シグモイド — 線形回帰で計算したスコア zz はとても大きい数にも負の数にもなります。しかし確率は 0%~100%(0~1)の間でなければなりません。シグモイド関数 σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}} はどんな数が入っても 0 と 1 の間の値に滑らかに圧縮します。
運命のカットライン(決定境界) — シグモイドが「合格確率は 0.7(70%)です」と教えてくれても、モデルは最終判断を下す必要があります。通常 0.5(50%) を基準にし、確率が 0.5 以上なら 1(Yes/陽性)、0.5 未満なら 0(No/陰性) と分類します。
中身は線形回帰と同じ? — ロジスティック回帰も内部では線形回帰と同様に z=wx+bz = wx + b でスコアを計算します。このスコアをそのまま出さず、シグモイドという「確率変換器」に一度通す点だけが違います。
数式 σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}} の読み方 — 分母 1+ez1+e^{-z}: ee は自然対数の底(約 2.718)で、zz が負だと eze^{-z} が大きくなり、zz が正だと eze^{-z} は 0 に近づきます。zz が大きな負のとき σ(z)0\sigma(z) \approx 0z=0z=0 のとき σ(0)=0.5\sigma(0)=0.5zz が大きな正のとき σ(z)1\sigma(z) \approx 1。よってこの式は任意の実数 zz0~1 の確率に圧縮します。
世の中は「イエス/ノー」だらけ — スパムか?(Yes/No)、病気か?(Yes/No)、顧客が買うか?(Yes/No)。現実の多くの問題は二択の二値分類です。ロジスティック回帰はその基礎となるモデルです。
確信を数字で示す — 「合格です」だけでなく「合格確率 98% です」と言うと信頼が増します。ロジスティック回帰は単なる分類を超え、どれだけ確信しているか(確率)を示すので意思決定に役立ちます。
ディープラーニングへの架け橋 — ニューラルネットの1つのニューロンはロジスティック回帰とよく似た動きをします。この概念を押さえておくと、あとでディープラーニングを学ぶとき「ああ、あれか」と理解しやすくなります。
スパムフィルター — メールの題名や語を分析し「このメールがスパムである確率」を計算し、一定以上ならスパムフォルダへ。
医療診断AI — 患者のレントゲンや血液検査値を入力し「特定疾患の確率」を予測して診断を支援。
マーケティング・レコメンド — 「この顧客は今月解約するか?」「このユーザーは広告をクリックするか?」を予測し、クーポンや広告を出し分けます。
ロジスティック回帰 チャプター総括 — このチャプターでは二値分類(Yes/No、合格/不合格、陽性/陰性)のためのモデルを扱いました。線形回帰と同様にまず線形スコア z=w1x1+w2x2++bz = w_1 x_1 + w_2 x_2 + \cdots + b を計算し、シグモイド σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}} で 0~1 の確率に変換します。確率が 0.5 以上なら y^=1\hat{y}=1、未満なら y^=0\hat{y}=0 と予測します(z=0z=0 が決定境界)。なぜ重要か:現実の多くの問題が二択なので分類の基礎となり、0/1 だけでなく確率で「どれだけ確信しているか」を解釈でき、ディープラーニングのニューロン・活性化関数の理解にもつながります。使われ方:スパムフィルター、医療診断支援、マーケ・レコメンド(離脱・クリック予測)で「~の確率」を計算し、基準(例 0.5)を超えれば一方のクラスと判定します。解法の流れは下の問題を解くための説明ブロックを参照してください。