중급 머신러닝: 현실 데이터와 맞서는 전처리·튜닝
기초 머신러닝에서 익힌 데이터와 특성, 학습과 평가의 흐름을 바탕으로, 현실에서 흔한 지저분한 표를 다루는 법과 모델을 다듬는 법을 소개합니다.
챕터별 중급 머신러닝 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 중급 머신러닝 흐름을 한눈에 보세요.
Ch01 ~ Ch20에서 배우는 것
중급 머신러닝은 현실 데이터 전처리와 모델·하이퍼파라미터 튜닝을 한 흐름으로 묶습니다. 스케일링·인코딩·결측·불균형을 다룬 뒤, SVM·PCA·부스팅·군집화를 배우고, 파이프라인과 Grid·Random·Optuna로 성능을 안정적으로 끌어올립니다.
- Ch.01데이터 스케일링: 단위를 맞추고 분포를 다루기
- Ch.02범주형 인코딩: 문자를 숫자로, 의미를 살리기
- Ch.03결측치 처리와 보간: 빈칸을 똑똑하게 채우기
- Ch.04불균형 데이터: 소수 클래스도 제대로 배우기
- Ch.05고급 교차 검증: 층화·시계열까지 나누기
- Ch.06다중 분류 평가와 ROC-AUC: 임계값에 따른 성능 보기
- Ch.07서포트 벡터 머신: 마진을 최대로 넓히는 경계
- Ch.08커널 트릭: 차원만 올려도 비선형 분리
- Ch.09PCA: 분산을 최대한 담는 축으로 압축하기
- Ch.10배깅과 페이스팅: 여러 모델을 투표로 묶기
- Ch.11에이다부스트: 틀린 것에 집중해서 순서대로 보강하기
- Ch.12GBM: 잔차를 다음 트리가 맞추기
- Ch.13DBSCAN: 모여 있는 곳만 군집으로 묶기
- Ch.14계층적 군집화: 비슷한 것부터 나무처럼 합치기
- Ch.15가우시안 혼합 모델: 여러 종 모양의 합으로 군집하기
- Ch.16이상치 탐지: 정상에서 멀어지면 표시하기
- Ch.17파이프라인: 전처리부터 학습까지 한 번에
- Ch.18하이퍼파라미터 튜닝 1: 그리드·랜덤으로 최적값 찾기
- Ch.19하이퍼파라미터 튜닝 2: 베이지안으로 더 빨리 찾기
- Ch.20중급 머신러닝 총정리: 전처리·튜닝 한눈에
현실 데이터와 전처리·튜닝: 중급 머신러닝이 다루는 것
현실 데이터는 연습용 표와 다릅니다 — 기초에서 다룬 표는 대체로 깔끔합니다. 현장에서는 결측이 있고, 성별·지역 같은 문자 범주가 섞이며, 소득과 나이처럼 단위가 다른 숫자가 한데 있습니다. 사기 탐지처럼 정답이 아주 드문 경우도 흔합니다. 모델은 결국 숫자 행렬 와 라벨 만 받으므로, 먼저 이 잡다한 정보를 특성 벡터로 정리해야 합니다.
전처리는 모델이 읽기 좋게 손질하는 단계입니다 — 스케일링으로 단위를 맞추고, 인코딩으로 글자를 숫자로 바꾸며, 대치·보간으로 빈칸을 채웁니다. 클래스가 한쪽으로 치우칠 때는 리샘플링으로 균형을 맞추기도 합니다. 기초 Ch.00에서 말한 "좋은 특성을 고른다"는 말이, 현장에서는 이런 작업들이 반복 가능한 절차로 정리된다고 보면 됩니다.
튜닝과 파이프라인은 실험을 안정시키는 도구입니다 — 학습이 끝나며 바뀌는 값(가중치, 나무의 분할 등)과, 우리가 미리 정하는 값(나무 깊이, SVM의 등)은 다릅니다. 후자를 하이퍼파라미터라고 합니다. 파이프라인은 전처리와 학습을 한 흐름으로 묶어, 새 데이터에도 같은 순서로 처리하게 해 줍니다.
왜 중요한지
데이터와 스케일이 성능을 좌우합니다 — 데이터가 편향되거나 한 특성의 숫자만 유난히 크면, 를 잘 맞춰도 실전에서는 무너질 수 있습니다. KNN·SVM처럼 거리와 여백에 의존하는 모델은 스케일이 조금만 어긋나도 "가까움"의 뜻이 달라집니다. 기초 KNN에서 잠깐 본 정규화가, 중급에서는 일상적인 습관이 됩니다.
데이터 누수는 점수를 속입니다 — 테스트 쪽 정보가 학습·전처리에 섞이면, 검증은 좋아 보이는데 배포 후에는 성능이 떨어집니다. 전체 데이터로 스케일러를 맞춘 뒤 교차 검증을 돌리는 것도 같은 함정이 될 수 있습니다. 데이터를 나눈 다음 훈련 쪽에만 통계를 맞추고, 검증·테스트에는 그 기준만 적용하는 순서가 중요합니다.
불균형과 평가를 함께 봐야 합니다 — 정확도만 보면 "전부 정상"으로만 찍어도 높은 점수가 나올 수 있습니다. 소수 클래스를 놓치지 않으려면 정밀도, 재현율, ROC-AUC를 함께 봐야 합니다. 하이퍼파라미터 튜닝은 과적합과 과소적합 사이에서 일반화를 맞추는 일이기도 합니다.
어떻게 쓰이는지
실무에서는 순서가 곧 실험의 신뢰도입니다 — 먼저 데이터를 살펴보고, 훈련·검증·테스트로 나눕니다. 전처리는 훈련 데이터에만 기준을 맞춘 뒤, 나머지에는 그 기준을 적용합니다. 그다음 모델을 학습하고, 검증 점수를 보며 하이퍼파라미터를 고릅니다. 마지막에만 남겨 둔 테스트로 결과를 보고합니다. 이 순서를 지키면 "진짜" 일반화 성능에 가까운 판단을 할 수 있습니다.
이 코스에서의 흐름 — 앞부분에서는 스케일링·인코딩·결측, 불균형·교차 검증·다중 분류 평가를 다룹니다. 중반에는 SVM·PCA·앙상블·군집·이상 탐지로 모델의 폭을 넓히고, 후반에는 파이프라인과 그리드·랜덤·베이지안 탐색으로 튜닝을 마칩니다. 아래 로드맵에서 챕터별 제목을 미리 볼 수 있습니다.
기초 머신러닝과 이어집니다 — 데이터·특성, 결측치, 교차 검증을 이미 배웠다면, 중급에서는 같은 주제를 현장 표 하나에 적용하는 관점으로 깊어집니다. 목표는 공식 나열이 아니라, 왜 손질이 필요한지, 어디서 착시가 생기는지, 어떻게 실험해야 하는지를 차분히 익히는 것입니다.