Ch.01
머신러닝의 출발: 데이터와 특성(Feature)
인공지능이라는 요리를 만들기 위해 가장 먼저 할 일은 좋은 재료(데이터)를 고르고, 요리하기 좋게 손질(특성 추출)하는 것입니다. 우리가 보는 세상의 모든 정보가 어떻게 숫자 벡터라는 마법의 주문으로 변하는지 그 흥미로운 과정을 시작해 봅시다.
챕터별 머신러닝 도식화
챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 머신러닝 흐름을 한눈에 보세요.
이 개념을 표현하는 시각화는 준비 중입니다.
데이터와 특성(Feature): AI가 세상을 보는 안경
데이터는 AI의 '경험치'입니다 — 아이가 수많은 강아지를 보고 '강아지'라는 개념을 익히듯, AI는 입력()과 정답(, Label)이 짝지어진 데이터를 통해 학습합니다. 예를 들어, '스팸 메일 본문()'과 '스팸 여부()'가 한 쌍의 데이터가 됩니다. 이 쌍이 수만 개 모인 것을 우리는 데이터셋(Dataset)이라 부릅니다.
특성(Feature)은 데이터의 '핵심 신분증'입니다 — 사과를 설명할 때 '빨갛다', '동그랗다', '달콤하다'라고 말하죠? 컴퓨터에게는 이들을 숫자로 바꾼 [0.9(빨간 정도), 0.8(원형도), 7.5(당도)]가 사과의 신분증이 됩니다. 이 숫자들의 묶음이 바로 특성 벡터(Feature Vector) 입니다.
예시로 이해하기 — '중고차 가격'을 예측한다고 해봅시다. 여기서 '주행 거리', '연식', '사고 유무'가 바로 특성(Feature)입니다. 만약 '차 시트의 색깔' 같은 불필요한 특성을 넣으면 AI는 오히려 혼란에 빠집니다. 즉, 좋은 특성을 뽑아내는 것이 머신러닝의 핵심 기술입니다.
데이터의 질이 지능의 질을 결정합니다 — 'Garbage In, Garbage Out(쓰레기를 넣으면 쓰레기가 나온다)'이라는 말이 있습니다. 데이터가 편향되어 있거나 오답()이 많으면, AI는 라는 식을 풀 때 엉뚱한 정답지()를 만들어버립니다. 수학적으로는 오차를 최소화하는 최적화 과정이 완전히 망가지는 것이죠.
특성은 고차원의 세계를 만듭니다 — 특성이 2개()면 평면 위의 점이지만, 특성이 100개면 100차원 공간의 한 점이 됩니다. 우리는 볼 수 없지만, AI는 이 고차원 공간에서 행렬(Matrix) 계산을 통해 데이터 사이의 거리를 재고 유사도를 판별합니다.
학습의 효율성을 극대화합니다 — 똑똑한 특성 하나()가 멍청한 특성 100개보다 낫습니다. 데이터를 잘 정리해두면 나중에 배울 미분(Gradient Descent)을 할 때 훨씬 빠르게 정답에 도달할 수 있습니다. 이것이 바로 우리가 수학적 기초를 배우는 이유입니다.
AI의 사고방식 4단계 — 모든 머신러닝은 이 흐름을 따릅니다: 1) 데이터 수집 (원석 찾기) → 2) 특성 추출 (보석 깎기: 벡터화) → 3) 모델 학습 (함수 조절하기) → 4) 결과 예측 (새로운 데이터 넣기). 이 과정에서 데이터는 끊임없이 벡터와 행렬로 변신하며 컴퓨터의 메모리를 통과합니다.
이번 챕터에서는 데이터와 특성(Feature)이 머신러닝에서 어떤 역할을 하는지, 실제로는 어떻게 쓰이는지 정리했습니다. 데이터는 '(입력, 정답)' 쌍의 집합이고, 특성은 그 입력을 모델이 계산할 수 있는 숫자 벡터로 바꾼 결과입니다. 좋은 특성을 고르는 특성 공학(Feature Engineering)이 성능을 크게 좌우하므로, 다음 챕터(KNN, 선형 회귀 등)로 넘어가기 전에 이 개념을 잘 익혀 두시면 좋습니다.
| 구분 | 현실의 예시 (내 집 마련) | 머신러닝 & 수학적 개념 |
|---|---|---|
| 데이터 (Data) | 실제 거래된 아파트 정보들의 모음 | 순서쌍의 집합 |
| 특성 (Feature) | 평수, 역세권 여부, 층수 | 입력 벡터 () |
| 타겟 (Target) | 최종 거래 가격 | 정답 라벨 () |
| 모델 (Model) | "평당 얼마다"라고 계산하는 공식 | 함수 () |
| 평가 (Evaluation) | 예측가와 실제가의 차이 비교 | 손실 함수 (Loss Function) |