Ch.10

분류 평가 지표 (Evaluation): 혼동 행렬과 모델의 성적표

분류 인공지능 모델이 시험을 치른 후 받는'상세 성적표' 에 대해 알아봅니다. 단순히 "전체 문제 중 몇 점 맞았어?"(정확도)라고 묻는 것을 넘어, "어떤 문제를 어떻게 틀렸어?"를 꼼꼼히 따져보는 혼동 행렬(Confusion Matrix) 의 개념을 배웁니다. 스팸 메일 필터나 암 진단 AI처럼 실생활에서 '틀리는 방식'이 치명적인 결과를 낳을 수 있는 비즈니스 상황에서, 정밀도, 재현율, F1 점수 같은 다채로운 지표들이 어떻게 모델의 진짜 실력을 증명해 주는지 직관적인 비유와 함께 설명합니다.

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.

실제(행)와 예측(열)으로 2×2 혼동 행렬을 채운 뒤, 정확도·정밀도·재현율·F1을 계산합니다.

혼동 행렬로 분류 모델의 성적표를 읽고, 목적에 맞는 지표를 고릅니다.

분류 평가 지표: 혼동 행렬과 모델의 성적표

혼동 행렬(Confusion Matrix)이란? 인공지능의 상세 성적표 — 학교 시험에서 '맞은 개수'만 달랑 보면 이 학생이 수학을 잘하는지 영어를 잘하는지 알 수 없습니다. 분류 모델도 마찬가지로, 모델이 예측한 결과와 실제 정답(행), 그리고 모델의 예측(열) 을 나란히 비교해 2\times2 표로 만든 것을 혼동 행렬 이라고 합니다. 이 표의 네 칸을 들여다보면 모델이 무엇을 잘 맞히고 어떤 부분에서 '혼동'을 겪으며 헛발질을 하고 있는지 한눈에 파악할 수 있습니다.

n = \mathrm{TP} + \mathrm{TN} + \mathrm{FP} + \mathrm{FN}

\text{정확도} = \frac{\mathrm{TP}+\mathrm{TN}}{n}

\text{정밀도} = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}

\text{F1} = \frac{2 \cdot \mathrm{TP}}{2\cdot\mathrm{TP}+\mathrm{FP}+\mathrm{FN}}

AUC (Area Under the ROC Curve): 모델의 등급 판정기 — 모델이 단순히 "양성/음성"으로만 답을 내는 게 아니라, "90% 확률로 늑대다"처럼 확률 점수를 줄 때 평가하는 지표입니다. 0부터 1 사이의 값으로 나오며, 진짜 양성인 데이터에게 진짜 음성인 데이터보다 대체로 더 높은 확률 점수를 잘 부여하는지(구분력) 를 봅니다. 1점 만점이면 정답을 완벽하게 줄 세운 것이고, 0.5점이면 눈 감고 동전을 던져서 찍는 것과 같습니다. 임계값을 이리저리 바꾸기 전에 모델 자체의 튼튼한 '기초 체력'을 비교할 때 아주 유용합니다.

정확도 99%의 거짓말에 속지 않기 위해 — 신용카드 사기 탐지 AI를 만들었다고 상상해 봅시다. 10만 건의 결제 중 사기 결제는 단 1건입니다. AI가 아무 일도 안 하고 무조건 "전부 정상 결제입니다"라고만 찍어도 정확도는 99.999%가 나옵니다. 하지만 이 AI는 사기꾼을 단 한 명도 잡지 못하는(재현율 0%) 쓸모없는 모델입니다. 혼동 행렬을 그려 정밀도 와 재현율 을 뜯어보아야만 모델이 진짜 제 역할을 하고 있는지, 아니면 꼼수를 부리고 있는지 낱낱이 밝혀낼 수 있습니다.

실무는 '어떤 실수를 더 용납할 수 있는가'의 치열한 싸움입니다 — 비즈니스 목적에 따라 목숨을 걸어야 하는 지표가 달라집니다. * 재현율(놓침 방지)이 생명인 곳: 암 진단 모델. 건강한 사람을 암 환자로 오해(FP)해서 재검사를 받게 하더라도, 진짜 암 환자를 놓쳐서(FN) 치료 시기를 놓치게 만드는 대참사는 무조건 막아야 합니다. * 정밀도(오탐 방지)가 생명인 곳: 스팸 메일 필터. 진짜 스팸 메일 한두 개를 놓쳐서(FN) 내 편지함에 들어오는 건 지우면 그만이지만, 사장님이 보낸 중요한 업무 메일을 스팸으로 오해(FP)해서 스팸함에 처박아버리면 회사 생활에 큰 위기가 찾아옵니다.

AI 서비스의 최종 합격 여부 심사 (이진 분류 평가) — 코로나19 양성/음성 판정, 유튜브의 유해 영상 차단/허용, 은행의 대출 승인/거절 등 두 가지 중 하나를 고르는 수많은 실무 AI 프로젝트들이 배포되기 직전, 혼동 행렬을 그려 정밀도와 재현율, F1 점수를 종합적으로 검토받습니다.

알람의 민감도 조절하기 (임계값 튜닝) — AI는 보통 0부터 1 사이의 확률을 내놓습니다. "확률이 몇 % 이상일 때 알람을 울릴까?" 이 기준선(임계값)을 조절하면서 비즈니스 상황에 맞게 모델을 길들입니다. 보안이 극도로 삼엄한 국가 기관이라면 기준을 팍 낮춰서 조금만 이상해도 알람이 울리게(재현율 극대화) 만들고, 반대로 알림이 너무 자주 울려 사용자가 짜증을 내는 앱이라면 기준을 깐깐하게 높여서 아주 확실할 때만 알람이 울리게(정밀도 극대화) 세팅합니다.

분류 모델의 성능을 볼 때는 맞힌 개수만 보지 않고, 혼동 행렬 로 실제(행)와 예측(열)을 2\times2로 나누어 TP, TN, FP, FN을 채웁니다. 정확도 는 (TP+TN)을 전체 n으로 나눈 값으로, 전체 중 맞힌 비율을 나타냅니다. 정밀도 는 양성이라고 예측한 것(TP+FP) 중 진짜 양성(TP)인 비율이고, 재현율 은 실제 양성(TP+FN) 중 모델이 양성으로 맞힌(TP) 비율입니다. 클래스가 불균형할 때는 정확도만 보면 오해하기 쉬우므로, 업무 목적에 따라 정밀도(오탐 줄이기)나 재현율(놓침 줄이기)을 중시하고, 둘의 균형은 F1 으로 봅니다. 실무에서는 스팸\cdot진단\cdot사기 탐지 등에서 이 지표들을 조합해 모델을 선택하고 임계값을 조정합니다.

n = \mathrm{TP}+\mathrm{TN}+\mathrm{FP}+\mathrm{FN}