Ch.01
지도학습, 비지도학습, 자기지도학습
머신러닝은 데이터를 학습하는 방식에 따라 크게 지도학습, 비지도학습, 자기지도학습으로 나뉩니다. 지도학습은 정답이 주어진 문제집을 풀며 학습하는 것과 같고, 비지도학습은 정답 없이 데이터의 특징을 관찰하여 스스로 비슷한 유형을 묶어내는 과정과 같습니다. 최근 주목받는 자기지도학습은 데이터의 일부를 가리고 스스로 빈칸을 추론하며 학습하는 자기주도적 방식입니다. 이 챕터에서는 세 가지 학습 방식의 핵심 개념과 수학적 원리, 그리고 실생활에서 어떻게 활용되는지 담백하게 정리합니다. 이를 통해 향후 다룰 다양한 머신러닝 알고리즘을 이해하기 위한 탄탄한 기초를 다질 수 있습니다.
챕터별 머신러닝 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.
머신러닝의 세 가지 학습 방식: 지도(입력–정답 쌍), 비지도(라벨 없음), 자기지도(스스로 만든 타깃).
지도학습: 입력 x와 정답 y가 쌍을 이룹니다
(x₁,y₁)→
(x₂,y₂)→
(x₃,y₃)
쌍 (x, y)이 순서대로 주어지면 모델이 규칙을 배웁니다
비지도학습: 입력 x만 있습니다 (정답 y 없음)
x1x2x3x4x5x6
y(정답)는 없고 x만 있습니다. 일부 x가 가렸다 나타났다 해도 → 모델은 구조·군집만 찾습니다
자기지도학습: 빈칸을 가리고 그 빈칸을 예측합니다
1
2
…
4
① 가리기② 예측③ 채우기
예: 문장 빈칸 맞추기 → 표현 학습 (BERT 등)
학습 방식 세 가지: 지도·비지도·자기지도
지도학습(Supervised Learning): 정답을 기반으로 한 학습
입력 데이터 와 그에 대응하는 정답(라벨) 를 한 쌍으로 묶어 모델에 제공하는 방식입니다. 모델의 목표는 입력 데이터와 정답 사이의 규칙을 찾아내어 수학적 함수 를 근사하는 것입니다. 학습이 완료되면 처음 보는 새로운 입력 가 주어져도 알맞은 를 예측할 수 있습니다.
수학적으로는 훈련 데이터를 형태로 두고, 손실 함수(예: MSE, cross-entropy)를 최소화하는 를 찾는 최적화 문제로 풉니다. Ch02 이후의 KNN, 선형 회귀, 로지스틱 회귀는 모두 이 지도학습의 구체적인 사례입니다.
* 실생활 예시 1 (분류): 이메일의 내용()을 분석하여 '스팸'인지 '정상'인지()를 구분하는 스팸 필터.
* 실생활 예시 2 (회귀): 아파트의 평수, 역과의 거리()를 바탕으로 실제 가격()을 연속적인 수치로 예측하는 모델.
* 실생활 예시 3 (의료): 환자의 검사 수치()와 확진 결과()로 질병 여부를 판단하는 보조 진단 시스템.
비지도학습(Unsupervised Learning): 데이터의 숨겨진 패턴 탐색
정답(라벨) 없이 오직 입력 데이터 만 주어지는 학습 방식입니다. 특정 값을 예측하는 것이 아니라, 데이터 내부에 숨겨진 구조, 패턴, 유사성을 스스로 찾아내어 그룹화하는 것이 주된 목적입니다.
직관적으로는 "정답지 없이 문제만 쌓여 있는 상황"입니다. 모델은 들 사이의 거리·유사도를 기준으로 가까운 것끼리 묶거나(군집화), 고차원 데이터를 더 적은 차원으로 압축(차원 축소)하거나, 정상 패턴에서 크게 벗어난 이상(anomaly)을 찾습니다. 라벨이 전혀 없기 때문에 '어떤 그룹이 정답인지'는 사람이 나중에 해석해야 합니다.
* 실생활 예시 1 (군집화): 쇼핑몰 고객들의 나이와 구매 이력()을 분석하여 비슷한 소비 성향을 가진 고객군으로 나누는 고객 세분화 시스템.
* 실생활 예시 2 (이상 탐지): 평소의 정상적인 신용카드 결제 패턴()을 학습한 뒤, 이와 크게 다른 비정상적인 거래를 즉시 탐지하는 보안 솔루션.
* 실생활 예시 3 (차원 축소): 수십 개 특성을 가진 데이터를 2~3개 숫자로 줄이는 차원 축소로 시각화하거나 노이즈를 줄이는 전처리. (구체적인 방법은 나중에 배우게 됩니다.)
자기지도학습(Self-Supervised Learning): 데이터 스스로 타깃 생성
사람이 직접 정답을 제공하는 대신, 데이터 자체의 구조를 활용해 '가짜 정답(Pseudo-label)'을 만들어 학습하는 방식입니다. 입력 데이터의 일부를 가리거나 변형한 뒤 이를 원래대로 복원하도록 유도합니다. 이 과정을 통해 모델은 데이터의 내재적 표현(Representation)과 문맥을 깊이 있게 파악하게 됩니다.
흐름은 세 단계로 요약할 수 있습니다.
(1) 가리기: 문장의 일부 단어, 이미지의 일부 패치, 음성의 일부 구간 등을 [MASK]나 제거로 숨깁니다.
(2) 예측하기: 나머지 문맥만 보고 숨긴 부분을 맞히도록 모델을 학습합니다.
(3) 활용하기: 이렇게 배운 표현(representation)을 그대로 두고, 소량의 지도 학습만으로 분류·QA 등 다운스트림 태스크에 연결합니다. 라벨을 사람이 붙이지 않아도 되므로 대량의 텍스트·이미지를 활용할 수 있어, BERT·GPT 등 대규모 모델의 기반이 됩니다.
* 실생활 예시 1 (언어 모델): 방대한 텍스트에서 '나는 오늘 아침에 [ ]을 먹었다'처럼 특정 단어를 가리고, 문맥을 통해 빈칸의 단어를 예측하며 언어의 규칙을 학습하는 대규모 언어 모델(LLM).
* 실생활 예시 2 (비전): 이미지의 한 영역을 가리고 나머지 픽셀로 그 영역을 복원하도록 하여 시각적 표현을 학습하는 모델.
* 실생활 예시 3 (대조 학습): 같은 이미지를 회전·자르기한 두 버전은 '같은 것', 다른 이미지는 '다른 것'으로 두고, 표현이 비슷하게 나오도록 학습하는 방식.
데이터 특성과 구축 비용을 고려한 학습 방법 선택
모든 데이터에 정확한 정답(라벨)을 구축하는 것은 많은 시간과 비용을 요구합니다. 정답 데이터가 충분하다면 지도학습이 효과적이지만, 그렇지 않다면 확보하기 쉬운 비라벨 데이터를 적극적으로 활용해야 합니다. 상황에 맞춰 비지도학습으로 데이터의 전반적인 구조를 파악하거나, 자기지도학습으로 모델의 표현력을 높이는 전략적인 접근이 필요합니다.
또한 해석 가능성도 다릅니다. 지도학습은 '입력에 대해 왜 이 정답인가'를 손실·경로로 어느 정도 설명할 수 있지만, 비지도·자기지도는 '어떤 구조를 찾았는지'를 시각화·클러스터 이름 등으로 따로 해석해야 합니다. 문제의 목적(예측이 필요한지, 구조 발견이 필요한지)에 맞는 방식을 고르는 것이 중요합니다.
효율적인 AI 모델 파이프라인 구축 (Pre-training & Fine-tuning)
실제 머신러닝 시스템에서는 이 방식들을 혼합하여 모델의 효율을 극대화합니다. 대량의 라벨 없는 데이터로 자기지도학습을 수행하여 일반적인 패턴을 먼저 학습시키는 '사전학습(Pre-training)'을 거친 뒤, 특정 목적에 맞는 소량의 정답 데이터로 지도학습을 진행하여 성능을 최적화하는 '미세조정(Fine-tuning)' 기법이 현대 AI 모델 개발의 표준으로 자리 잡고 있습니다.
비지도는 전처리·탐색 단계에서 자주 쓰입니다. 예를 들어 고객 데이터를 먼저 K-Means로 군집한 뒤, 각 군집에 사람이 의미를 붙이고(예: '충성 고객', '이탈 위험'), 그 다음 지도 학습으로 이탈 예측 모델을 만드는 식입니다. 이렇게 세 가지 학습 방식을 구분해 두면 설계가 명확해지고, 데이터 수와 라벨 비용에 맞는 현실적인 파이프라인을 세울 수 있습니다.
지도학습의 주요 알고리즘
입력 데이터와 명확한 정답이 주어졌을 때 주로 사용됩니다. 향후 다룰 Ch02 KNN (K-최근접 이웃), Ch03 선형 회귀, Ch04 로지스틱 회귀 등은 모두 입력()과 정답() 쌍을 기반으로 예측 함수를 훈련하는 대표적인 지도학습 모델입니다.
* 분류(Classification): 스팸 필터, 질병 예측, 이미지 분류(강아지/고양이) 등 범주형 정답을 맞히는 문제.
* 회귀(Regression): 집값 예측, 판매량 예측, 온도 예측 등 연속값을 맞히는 문제. Ch03 선형 회귀, Ch04 손실 함수(MSE)에서 수식과 최적화를 배웁니다.
비지도학습의 주요 알고리즘
데이터의 내재적 구조를 파악해야 할 때 사용됩니다. Ch08 K-Means (K-평균) 챕터에서는 정답 라벨 없이 데이터 간의 유사도와 거리를 계산하여 비슷한 군집(Cluster)으로 묶는 방법을 다룹니다. 또한, 많은 특성을 2~3개로 줄이는 차원 축소도 비지도학습의 중요한 활용입니다.
* 군집화(Clustering): K-Means, 계층적 군집화 등으로 비슷한 데이터끼리 묶어 고객 세분화, 주제별 문서 그룹화 등에 활용.
* 차원 축소: 고차원 데이터를 2~3개 숫자로 줄여 시각화하거나 노이즈를 제거하는 전처리. (구체적인 방법은 나중에 배우게 됩니다.)
* 이상 탐지: 정상 데이터만으로 '정상 영역'을 학습한 뒤, 그 밖의 데이터를 이상으로 플래그.
자기지도학습의 주요 알고리즘
대규모 데이터의 특징을 추출하는 최신 딥러닝 분야에서 활발히 사용됩니다. 구글의 BERT나 오픈AI의 GPT와 같은 거대 언어 모델(LLM)은 텍스트의 일부를 가리고 예측하며 언어를 학습합니다. 컴퓨터 비전 분야에서도 이미지의 변형본들을 스스로 비교하여 특징을 학습하는 대조 학습(Contrastive Learning) 기법으로 폭넓게 응용됩니다.
* 언어: BERT(가린 단어 예측), GPT(다음 토큰 예측) 등. 사전학습 후 QA, 요약, 감성 분석 등 소량 라벨로 미세조정.
* 비전: 이미지 일부 복원, SimCLR·MoCo 등 대조 학습으로 같은 이미지의 서로 다른 변형은 가깝게, 다른 이미지는 멀게.
* 멀티모달: 이미지-텍스트 쌍에서 캡션을 가리고 예측하거나, 대조 학습으로 정렬된 표현을 학습.
정리 —
(1) 지도: 입력–정답 쌍 로 를 배움.
(2) 비지도: 라벨 없이 만으로 구조·군집·차원 축소.
(3) 자기지도: 데이터에서 만든 가짜 정답(가린 단어, 다음 문장 등)으로 표현을 배운 뒤, 소량 지도로 다운스트림에 활용.
- 구분라벨
- 지도학습있음 ()
- 비지도학습없음
- 자기지도학습스스로 만든 타깃
- 구분목표
- 지도학습 예측 (분류/회귀)
- 비지도학습구조·군집·축소
- 자기지도학습표현(representation) 학습
- 구분예시
- 지도학습KNN, 선형·로지스틱 회귀
- 비지도학습K-Means, 차원 축소
- 자기지도학습BERT, 대조학습
| 구분 | 지도학습 | 비지도학습 | 자기지도학습 |
|---|---|---|---|
| 라벨 | 있음 () | 없음 | 스스로 만든 타깃 |
| 목표 | 예측 (분류/회귀) | 구조·군집·축소 | 표현(representation) 학습 |
| 예시 | KNN, 선형·로지스틱 회귀 | K-Means, 차원 축소 | BERT, 대조학습 |
유형별 풀이 요약 — 정의 선택: 지도=입력+정답 쌍, 비지도=라벨 없음, 자기지도=스스로 만든 타깃. 태스크 분류:
(1) 라벨이 사람이 붙인 실제 정답인가? → 지도.
(2) 라벨이 전혀 없고 묶기/축소만? → 비지도.
(3) 라벨이 데이터에서 파생된 가짜 정답인가? → 자기지도. 시나리오: 스팸 분류(지도), 고객 세분화 군집(비지도), 문장에서 가린 단어 맞히기(자기지도).
한 줄 비교 — 지도: "(문제, 정답) 쌍으로 공부한다." 비지도: "정답 없이 데이터만 보고 끼리끼리 묶거나 차원을 줄인다." 자기지도: "데이터 일부를 가리고 그 빈칸을 맞히며 표현을 배운다." 문제에서 '라벨이 있다/없다', '타깃이 사람이 붙인 것인가 데이터에서 만든 것인가'를 구분하면 유형을 빠르게 잡을 수 있습니다.