중급 머신러닝: 현실 데이터와 맞서는 전처리·튜닝

기초 머신러닝에서 익힌 데이터와 특성, 학습과 평가의 흐름을 바탕으로, 현실에서 흔한 지저분한 표를 다루는 법과 모델을 다듬는 법을 소개합니다.

챕터별 중급 머신러닝 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 중급 머신러닝 흐름을 한눈에 보세요.

Ch01 ~ Ch20에서 배우는 것

중급 머신러닝은 현실 데이터 전처리와 모델·하이퍼파라미터 튜닝을 한 흐름으로 묶습니다. 스케일링·인코딩·결측·불균형을 다룬 뒤, SVM·PCA·부스팅·군집화를 배우고, 파이프라인과 Grid·Random·Optuna로 성능을 안정적으로 끌어올립니다.

Ch.01
데이터 스케일링: 단위를 맞추고 분포를 다루기
Ch.02
범주형 인코딩: 문자를 숫자로, 의미를 살리기
Ch.03
결측치 처리와 보간: 빈칸을 똑똑하게 채우기
Ch.04
불균형 데이터: 소수 클래스도 제대로 배우기
Ch.05
고급 교차 검증: 층화·시계열까지 나누기
Ch.06
다중 분류 평가와 ROC-AUC: 임계값에 따른 성능 보기
Ch.07
서포트 벡터 머신: 마진을 최대로 넓히는 경계
Ch.08
커널 트릭: 차원만 올려도 비선형 분리
Ch.09
PCA: 분산을 최대한 담는 축으로 압축하기
Ch.10
배깅과 페이스팅: 여러 모델을 투표로 묶기
Ch.11
에이다부스트: 틀린 것에 집중해서 순서대로 보강하기
Ch.12
GBM: 잔차를 다음 트리가 맞추기
Ch.13
DBSCAN: 모여 있는 곳만 군집으로 묶기
Ch.14
계층적 군집화: 비슷한 것부터 나무처럼 합치기
Ch.15
가우시안 혼합 모델: 여러 종 모양의 합으로 군집하기
Ch.16
이상치 탐지: 정상에서 멀어지면 표시하기
Ch.17
파이프라인: 전처리부터 학습까지 한 번에
Ch.18
하이퍼파라미터 튜닝 1: 그리드·랜덤으로 최적값 찾기
Ch.19
하이퍼파라미터 튜닝 2: 베이지안으로 더 빨리 찾기
Ch.20
중급 머신러닝 총정리: 전처리·튜닝 한눈에

현실 데이터와 전처리·튜닝: 중급 머신러닝이 다루는 것

\mathbf{X}

왜 중요한지

y \approx f(\mathbf{x})

어떻게 쓰이는지

실무에서는 순서가 곧 실험의 신뢰도입니다 — 먼저 데이터를 살펴보고, 훈련\cdot검증\cdot테스트로 나눕니다. 전처리는 훈련 데이터에만 기준을 맞춘 뒤, 나머지에는 그 기준을 적용합니다. 그다음 모델을 학습하고, 검증 점수를 보며 하이퍼파라미터를 고릅니다. 마지막에만 남겨 둔 테스트로 결과를 보고합니다. 이 순서를 지키면 "진짜" 일반화 성능에 가까운 판단을 할 수 있습니다. 이 코스에서의 흐름 — 앞부분에서는 스케일링\cdot인코딩\cdot결측, 불균형\cdot교차 검증\cdot다중 분류 평가를 다룹니다. 중반에는 SVM\cdotPCA\cdot앙상블\cdot군집\cdot이상 탐지로 모델의 폭을 넓히고, 후반에는 파이프라인과 그리드\cdot랜덤\cdot베이지안 탐색으로 튜닝을 마칩니다. 아래 로드맵에서 챕터별 제목을 미리 볼 수 있습니다. 기초 머신러닝과 이어집니다 — 데이터\cdot특성, 결측치, 교차 검증을 이미 배웠다면, 중급에서는 같은 주제를 현장 표 하나에 적용하는 관점으로 깊어집니다. 목표는 공식 나열이 아니라, 왜 손질이 필요한지, 어디서 착시가 생기는지, 어떻게 실험해야 하는지를 차분히 익히는 것입니다.

현실 데이터와 전처리·튜닝: 중급 머신러닝이 다루는 것

현실 데이터는 연습용 표와 다릅니다 — 기초에서 다룬 표는 대체로 깔끔합니다. 현장에서는 결측이 있고, 성별·지역 같은 문자 범주가 섞이며, 소득과 나이처럼 단위가 다른 숫자가 한데 있습니다. 사기 탐지처럼 정답이 아주 드문 경우도 흔합니다. 모델은 결국 숫자 행렬

\mathbf{X}

와 라벨

\mathbf{y}

만 받으므로, 먼저 이 잡다한 정보를 특성 벡터로 정리해야 합니다.

전처리는 모델이 읽기 좋게 손질하는 단계입니다 — 스케일링으로 단위를 맞추고, 인코딩으로 글자를 숫자로 바꾸며, 대치·보간으로 빈칸을 채웁니다. 클래스가 한쪽으로 치우칠 때는 리샘플링으로 균형을 맞추기도 합니다. 기초 Ch.00에서 말한 "좋은 특성을 고른다"는 말이, 현장에서는 이런 작업들이 반복 가능한 절차로 정리된다고 보면 됩니다.

튜닝과 파이프라인은 실험을 안정시키는 도구입니다 — 학습이 끝나며 바뀌는 값(가중치, 나무의 분할 등)과, 우리가 미리 정하는 값(나무 깊이, SVM의

C

등)은 다릅니다. 후자를 하이퍼파라미터라고 합니다. 파이프라인은 전처리와 학습을 한 흐름으로 묶어, 새 데이터에도 같은 순서로 처리하게 해 줍니다.