Ch.01

지도학습, 비지도학습, 자기지도학습

머신러닝은 데이터를 학습하는 방식에 따라 크게 지도학습, 비지도학습, 자기지도학습 으로 나뉩니다. 지도학습 은 정답이 주어진 문제집을 풀며 학습하는 것과 같고, 비지도학습 은 정답 없이 데이터의 특징을 관찰하여 스스로 비슷한 유형을 묶어내는 과정과 같습니다. 최근 주목받는 자기지도학습 은 데이터의 일부를 가리고 스스로 빈칸을 추론하며 학습하는 자기주도적 방식입니다. 이 챕터에서는 세 가지 학습 방식의 핵심 개념과 수학적 원리, 그리고 실생활에서 어떻게 활용되는지 담백하게 정리합니다. 이를 통해 향후 다룰 다양한 머신러닝 알고리즘을 이해하기 위한 탄탄한 기초를 다질 수 있습니다.

챕터별 머신러닝 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.

머신러닝의 세 가지 학습 방식: 지도(입력–정답 쌍), 비지도(라벨 없음), 자기지도(스스로 만든 타깃).

지도학습: 입력 x와 정답 y가 쌍을 이룹니다

(x₁,y₁)→

(x₂,y₂)→

(x₃,y₃)

쌍 (x, y)이 순서대로 주어지면 모델이 규칙을 배웁니다

비지도학습: 입력 x만 있습니다 (정답 y 없음)

x1x2x3x4x5x6

y(정답)는 없고 x만 있습니다. 일부 x가 가렸다 나타났다 해도 → 모델은 구조·군집만 찾습니다

자기지도학습: 빈칸을 가리고 그 빈칸을 예측합니다

…

① 가리기② 예측③ 채우기

예: 문장 빈칸 맞추기 → 표현 학습 (BERT 등)

학습 방식 세 가지: 지도·비지도·자기지도

\mathbf{x}

y

자기지도학습(Self-Supervised Learning): 데이터 스스로 타깃 생성 사람이 직접 정답을 제공하는 대신, 데이터 자체의 구조를 활용해'가짜 정답(Pseudo-label)' 을 만들어 학습하는 방식입니다. 입력 데이터의 일부를 가리거나 변형한 뒤 이를 원래대로 복원하도록 유도합니다. 이 과정을 통해 모델은 데이터의 내재적 표현(Representation)과 문맥을 깊이 있게 파악하게 됩니다. 흐름은 세 단계로 요약할 수 있습니다. (1) 가리기 : 문장의 일부 단어, 이미지의 일부 패치, 음성의 일부 구간 등을 [MASK]나 제거로 숨깁니다. (2) 예측하기 : 나머지 문맥만 보고 숨긴 부분을 맞히도록 모델을 학습합니다. (3) 활용하기 : 이렇게 배운 표현(representation)을 그대로 두고, 소량의 지도 학습만으로 분류\cdotQA 등 다운스트림 태스크에 연결합니다. 라벨을 사람이 붙이지 않아도 되므로 대량의 텍스트\cdot이미지를 활용할 수 있어, BERT\cdotGPT 등 대규모 모델의 기반이 됩니다. * 실생활 예시 1 (언어 모델) : 방대한 텍스트에서 '나는 오늘 아침에 [ ]을 먹었다'처럼 특정 단어를 가리고, 문맥을 통해 빈칸의 단어를 예측하며 언어의 규칙을 학습하는 대규모 언어 모델(LLM). * 실생활 예시 2 (비전) : 이미지의 한 영역을 가리고 나머지 픽셀로 그 영역을 복원하도록 하여 시각적 표현을 학습하는 모델. * 실생활 예시 3 (대조 학습) : 같은 이미지를 회전\cdot자르기한 두 버전은 '같은 것', 다른 이미지는 '다른 것'으로 두고, 표현이 비슷하게 나오도록 학습하는 방식.

데이터 특성과 구축 비용을 고려한 학습 방법 선택 모든 데이터에 정확한 정답(라벨)을 구축하는 것은 많은 시간과 비용을 요구합니다. 정답 데이터가 충분하다면 지도학습 이 효과적이지만, 그렇지 않다면 확보하기 쉬운 비라벨 데이터를 적극적으로 활용해야 합니다. 상황에 맞춰 비지도학습 으로 데이터의 전반적인 구조를 파악하거나, 자기지도학습 으로 모델의 표현력을 높이는 전략적인 접근이 필요합니다. 또한 해석 가능성 도 다릅니다. 지도학습은 '입력에 대해 왜 이 정답인가'를 손실\cdot경로로 어느 정도 설명할 수 있지만, 비지도\cdot자기지도는 '어떤 구조를 찾았는지'를 시각화\cdot클러스터 이름 등으로 따로 해석해야 합니다. 문제의 목적(예측이 필요한지, 구조 발견이 필요한지)에 맞는 방식을 고르는 것이 중요합니다.

효율적인 AI 모델 파이프라인 구축 (Pre-training & Fine-tuning) 실제 머신러닝 시스템에서는 이 방식들을 혼합하여 모델의 효율을 극대화합니다. 대량의 라벨 없는 데이터로 자기지도학습 을 수행하여 일반적인 패턴을 먼저 학습시키는 '사전학습(Pre-training)'을 거친 뒤, 특정 목적에 맞는 소량의 정답 데이터로 지도학습 을 진행하여 성능을 최적화하는 '미세조정(Fine-tuning)' 기법이 현대 AI 모델 개발의 표준으로 자리 잡고 있습니다. 비지도 는 전처리\cdot탐색 단계에서 자주 쓰입니다. 예를 들어 고객 데이터를 먼저 K-Means로 군집한 뒤, 각 군집에 사람이 의미를 붙이고(예: '충성 고객', '이탈 위험'), 그 다음 지도 학습으로 이탈 예측 모델을 만드는 식입니다. 이렇게 세 가지 학습 방식을 구분해 두면 설계가 명확해지고, 데이터 수와 라벨 비용에 맞는 현실적인 파이프라인을 세울 수 있습니다.

\mathbf{x}

비지도학습의 주요 알고리즘 데이터의 내재적 구조를 파악해야 할 때 사용됩니다. Ch08 K-Means (K-평균) 챕터에서는 정답 라벨 없이 데이터 간의 유사도와 거리를 계산하여 비슷한 군집(Cluster)으로 묶는 방법을 다룹니다. 또한, 많은 특성을 2~3개로 줄이는 차원 축소 도 비지도학습의 중요한 활용입니다. * 군집화(Clustering) : K-Means, 계층적 군집화 등으로 비슷한 데이터끼리 묶어 고객 세분화, 주제별 문서 그룹화 등에 활용. * 차원 축소 : 고차원 데이터를 2~3개 숫자로 줄여 시각화하거나 노이즈를 제거하는 전처리. (구체적인 방법은 나중에 배우게 됩니다.) * 이상 탐지 : 정상 데이터만으로 '정상 영역'을 학습한 뒤, 그 밖의 데이터를 이상으로 플래그.

자기지도학습의 주요 알고리즘 대규모 데이터의 특징을 추출하는 최신 딥러닝 분야에서 활발히 사용됩니다. 구글의 BERT 나 오픈AI의 GPT 와 같은 거대 언어 모델(LLM)은 텍스트의 일부를 가리고 예측하며 언어를 학습합니다. 컴퓨터 비전 분야에서도 이미지의 변형본들을 스스로 비교하여 특징을 학습하는 대조 학습(Contrastive Learning) 기법으로 폭넓게 응용됩니다. * 언어 : BERT(가린 단어 예측), GPT(다음 토큰 예측) 등. 사전학습 후 QA, 요약, 감성 분석 등 소량 라벨로 미세조정. * 비전 : 이미지 일부 복원, SimCLR\cdotMoCo 등 대조 학습으로 같은 이미지의 서로 다른 변형은 가깝게, 다른 이미지는 멀게. * 멀티모달 : 이미지-텍스트 쌍에서 캡션을 가리고 예측하거나, 대조 학습으로 정렬된 표현을 학습.

(\mathbf{x}, y)

y

유형별 풀이 요약 — 정의 선택 : 지도=입력+정답 쌍, 비지도=라벨 없음, 자기지도=스스로 만든 타깃. 태스크 분류 : (1) 라벨이 사람이 붙인 실제 정답인가? \to 지도. (2) 라벨이 전혀 없고 묶기/축소만? \to 비지도. (3) 라벨이 데이터에서 파생된 가짜 정답인가? \to 자기지도. 시나리오 : 스팸 분류(지도), 고객 세분화 군집(비지도), 문장에서 가린 단어 맞히기(자기지도).

한 줄 비교 — 지도: "(문제, 정답) 쌍으로 공부한다." 비지도: "정답 없이 데이터만 보고 끼리끼리 묶거나 차원을 줄인다." 자기지도: "데이터 일부를 가리고 그 빈칸을 맞히며 표현을 배운다." 문제에서 '라벨이 있다/없다', '타깃이 사람이 붙인 것인가 데이터에서 만든 것인가'를 구분하면 유형을 빠르게 잡을 수 있습니다.

구분	지도학습	비지도학습	자기지도학습
라벨	있음 ( $y$ )	없음	스스로 만든 타깃
목표	$y$ 예측 (분류/회귀)	구조·군집·축소	표현(representation) 학습
예시	KNN, 선형·로지스틱 회귀	K-Means, 차원 축소	BERT, 대조학습