Ch.04
로지스틱 회귀 (Logistic Regression): 합격일까 불합격일까?
선형 회귀가 '예상 점수'를 예측한다면, 로지스틱 회귀는 'YES or NO'를 판별하는 분류 전문가입니다. 예를 들어, "공부 시간에 따른 시험 점수"를 맞히는 게 아니라, "이 점수면 합격(1)일까 불합격(0)일까?"를 맞힙니다. 이를 위해 점수를 0과 1 사이의 '확률'로 바꿔주는 시그모이드 함수라는 도구를 사용합니다.
챕터별 머신러닝 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.
선형 점수 가 클수록 가 1에 가까워져 class 1로 분류됩니다. 이 결정 경계입니다.
시그모이드 공식: . 이면 , 이면 .
수식 읽는 법 — 가 크게 음수면 가 커져 . 이면 . 가 크게 양수면 이라 . 즉 어떤 든 0과 1 사이 확률로 눌러 넣는 공식입니다.
로지스틱 회귀: 합격일까 불합격일까?
마법의 S-커브, 시그모이드 — 선형 회귀로 계산한 점수 는 아주 큰 숫자일 수도 있고 음수일 수도 있습니다. 하지만 확률은 무조건 0%에서 100%(0~1) 사이여야 하죠. 시그모이드 함수 는 어떤 숫자가 들어와도 0과 1 사이의 값으로 부드럽게 압축해주는 역할을 합니다.
운명의 커트라인 (결정 경계) — 시그모이드 함수가 "합격 확률은 0.7(70%)입니다"라고 알려주면, 모델은 최종 결정을 내려야 합니다. 보통 0.5(50%)를 기준으로 삼습니다. 확률이 0.5 이상이면 1(Yes/양성), 0.5 미만이면 0(No/음성)으로 분류합니다.
속은 선형 회귀와 같다? — 로지스틱 회귀도 내부적으로는 선형 회귀처럼 공식을 써서 점수를 먼저 계산합니다. 단지 이 점수를 그대로 내보내지 않고, 시그모이드라는 '확률 변환기'에 한 번 통과시킨다는 점만 다릅니다.
수식 읽는 법
분모 : 는 자연상수(약 2.718)이고, 지수 때문에 가 음수면 가 커지고, 가 양수면 가 0에 가까워집니다.
- 가 크게 음수일 때: 가 매우 커지면 분모가 커져 .
- 일 때: 이므로 .
- 가 크게 양수일 때: 이면 분모 이라 .
따라서 이 공식은 어떤 실수 든 0과 1 사이의 확률로 압축합니다.
세상은 '예/아니오' 투성이 — 스팸 메일인가? (Yes/No), 암인가? (Yes/No), 고객이 물건을 살까? (Yes/No). 현실 세계의 수많은 문제는 두 가지 중 하나를 선택하는 이진 분류(Binary Classification) 문제입니다. 로지스틱 회귀는 이 분야의 가장 기초가 되는 모델입니다.
확신을 숫자로 보여준다 — 단순히 "합격입니다"라고 하는 것보다, "합격 확률이 98%입니다"라고 하면 훨씬 신뢰가 가죠? 로지스틱 회귀는 단순 분류를 넘어, 모델이 그 결과에 대해 얼마나 확신하는지(확률)를 알려주기 때문에 의사결정에 매우 유용합니다.
딥러닝으로 가는 징검다리 — 인공지능(딥러닝)의 신경망 하나하나는 사실 로지스틱 회귀와 매우 비슷하게 작동합니다. 이 개념을 확실히 잡으면 나중에 딥러닝을 배울 때 "아, 이게 그거였구나!" 하고 쉽게 이해할 수 있습니다.
스팸 필터 — 이메일의 제목이나 특정 단어를 분석해 "이 메일이 스팸일 확률"을 계산하고, 일정 확률이 넘으면 스팸함으로 보냅니다.
의료 진단 AI — 환자의 엑스레이 사진이나 혈액 검사 수치를 입력받아 "특정 질병이 있을 확률"을 예측하여 의사의 진단을 돕습니다.
마케팅 및 추천 — "이 고객이 이번 달에 서비스를 해지할까?", "이 유저가 광고를 클릭할까?" 등을 예측하여 맞춤형 쿠폰을 보내거나 광고를 보여줍니다.
로지스틱 회귀 챕터 총괄 정리
① 이 챕터에서 다룬 것 — 로지스틱 회귀는 이진 분류(Yes/No, 합격/불합격, 양성/음성)를 위한 모델입니다. 선형 회귀처럼 먼저 선형 점수 를 계산한 뒤, 시그모이드 함수 에 넣어 0~1 사이의 확률로 바꿉니다. 확률이 0.5 이상이면 , 미만이면 으로 예측합니다. (이 결정 경계입니다.)
② 왜 중요한지 — 현실의 많은 문제(스팸 여부, 질병 유무, 구매·이탈 예측)가 두 가지 중 하나를 고르는 문제라서, 로지스틱 회귀는 분류의 기초가 됩니다. 단순히 0/1만 주는 것이 아니라 확률을 주어 "얼마나 확신하는지"까지 해석할 수 있고, 딥러닝의 뉴런·활성화 함수 이해로도 이어집니다.
③ 어디에 쓰이는지 — 스팸 필터, 의료 진단 보조, 마케팅·추천(이탈·클릭 예측) 등에서 "~일 확률"을 계산하고, 기준(예: 0.5)을 넘으면 한쪽 클래스로 판단하는 데 쓰입니다.
④ 풀이 흐름 — 선형 점수 계산 → 로 확률 계산 → 이면 , 아니면 . 구체적인 계산 예시와 문제 유형은 아래 문제 풀이를 위한 설명 블록을 참고하세요.