모두의 AI
머신러닝AI논문
Loading...

배우기

🏅내 업적

Chapter 11

평균과 분산: 분포의 중심과 퍼짐

평균(기댓값)은 확률분포의 중심을, 분산은 퍼짐을 나타냅니다. 딥러닝·머신러닝에서는 예측값, 손실, 정규화를 다룰 때 이 개념들이 쓰여요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

평균과 분산
123μP(x)x

막대 높이는 각 값이 나올 확률을 나타내요. 빨간 세로선은 분포의 중심인 평균 μ\muμ이고, 보라색 구간은 평균에서 표준편차 σ\sigmaσ만큼 벌어진 ‘보통 퍼짐’이에요. 가장 높은 막대는 가장 자주 나오는 값인 최빈값이에요.

평균과 분산이란

데이터가 어디에 모여 있고 얼마나 흩어져 있는지를 아는 것은 통계의 시작입니다. 평균(Mean, 기댓값)은 데이터 분포의 무게중심입니다. 하지만 평균만으로는 부족합니다. 평균 주위에 오밀조밀 모여 있는지, 아니면 멀리 퍼져 있는지 알려주는 퍼짐의 척도가 바로 분산(Variance)입니다. 분산은 계산 과정에서 제곱이 되므로 단위가 커지는데, 이를 다시 원래 단위로 되돌리기 위해 제곱근을 씌운 것이 표준편차(σ\sigmaσ)입니다.
평균은 모든 가능성을 고려했을 때 기대할 수 있는 '대표 숫자'입니다. 주사위 눈(1∼61 \sim 61∼6)의 평균이 3.53.53.5인 것처럼, 실제로는 나오지 않는 값일지라도 전체의 중심을 잡아주는 역할을 합니다. 시험 점수의 평균이 높다는 것은 전반적으로 성적이 좋다는 뜻이고, AI 예측값이 707070이라는 것은 그 데이터의 기댓값이 707070 근처라는 뜻입니다.
분산은 각 데이터가 평균에서 얼마나 떨어져 있는지를 계산한 값입니다. (값 −-− 평균)을 제곱하여 평균을 내는데, 제곱을 하는 이유는 거리를 양수로 만들고 멀리 떨어진 값에 더 큰 벌점을 주기 위해서입니다. 표준편차는 이 분산에 루트( \sqrt{\space} ​)를 씌운 것으로, '평균에서 보통 이 정도는 차이가 난다'는 실제적인 거리를 알려줍니다. 예를 들어 '평균 170170170, 표준편차 555'라면 대부분의 데이터가 165∼175165 \sim 175165∼175 사이에 모여 있다고 짐작할 수 있습니다.
평균만 아는 것은 위험합니다. 평균 수심이 1m1m1m인 강이라도 깊은 곳은 3m3m3m가 넘을 수 있기 때문입니다. 이때 분산을 알아야 위험(변동성)을 관리할 수 있습니다. AI에서도 예측값(평균)만 내놓는 것이 아니라, 그 예측이 얼마나 흔들릴 수 있는지(분산)를 함께 파악하여 신뢰도를 측정합니다.
AI 모델이 데이터를 이해할 때 사용하는 통계적 개념들을 아래 표로 정리했습니다. 각 지표가 AI 학습에서 어떤 역할을 하는지 확인해 보세요.
  • 개념최빈값(Mode)
  • 의미가장 자주 등장하는 값.
  • AI 활용분류 모델에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.
  • 개념평균(Expectation)
  • 의미확률을 가중치로 둔 중심값.
  • AI 활용회귀 모델의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.
  • 개념최소·최대(Min/Max)
  • 의미데이터의 전체 범위.
  • AI 활용데이터를 0∼10 \sim 10∼1 사이로 맞추는 스케일링이나 값의 폭주를 막는 클리핑에 쓰입니다.
  • 개념중앙값(Median)
  • 의미순서대로 세웠을 때 정중앙.
  • AI 활용이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.
개념의미AI 활용
최빈값(Mode)가장 자주 등장하는 값.분류 모델에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.
평균(Expectation)확률을 가중치로 둔 중심값.회귀 모델의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.
최소·최대(Min/Max)데이터의 전체 범위.데이터를 0∼10 \sim 10∼1 사이로 맞추는 스케일링이나 값의 폭주를 막는 클리핑에 쓰입니다.
중앙값(Median)순서대로 세웠을 때 정중앙.이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.
예측의 정확도를 평가하는 척도입니다. AI가 내놓은 예측 결과는 보통 확률 분포의 기댓값입니다. 만약 예측값의 분산이 크다면, AI 스스로도 자신의 예측을 확신하지 못하고 있다는 신호로 받아들일 수 있습니다.
불확실성(Uncertainty)을 수치화합니다. 자율주행이나 의료 AI에서는 '확실한 정도'가 매우 중요합니다. 표준편차(σ\sigmaσ)를 활용해 신뢰구간을 설정하고, 결과가 이 범위를 벗어날 위험이 얼마나 되는지 계산하여 안전한 의사결정을 내립니다.
손실 함수(Loss Function)의 설계 원리입니다. 회귀 분석에서 가장 많이 쓰는 MSE(평균 제곱 오차)는 실제 정답과 예측값 차이의 제곱 평균입니다. 이는 수학적으로 오차의 분산을 최소화하겠다는 뜻과 같습니다. 즉, 분산을 줄이는 것이 곧 AI의 실력을 키우는 것입니다.
정규화(Normalization)의 기준입니다. 가중치들의 분산이 너무 커지면 모델이 예민해져서 과적합(Overfitting)이 발생합니다. 분산을 일정하게 유지하거나 억제하는 기술을 통해 모델을 더 안정적이고 범용적으로 만듭니다.
일상 생활에서도 평균과 표준편차는 세트로 쓰입니다. 주식 수익률이 '평균 5%, 표준편차 20%'라면 수익은 나지만 변동성이 커서 위험한 주식임을 알 수 있듯, 데이터의 성격을 정의하는 가장 기본적인 언어입니다.
회귀 분석에서는 특정 입력에 대한 조건부 기댓값을 구합니다. '이런 조건일 때 평균적으로 이런 결과가 나올 것이다'를 학습하고, 오차의 평균(MSE)을 줄여나가는 것이 핵심입니다.
분류 문제에서는 여러 후보 중 확률(PMF)이 가장 높은 최빈값을 정답으로 선택합니다. 소프트맥스 함수를 통과한 결과 중 가장 높은 막대를 고르는 과정이 통계적 최빈값 찾기와 같습니다.
강화학습에서 에이전트는 '보상의 기댓값'을 최대화하는 방향으로 움직입니다. 당장 눈앞의 작은 보상보다, 미래까지 합쳤을 때 평균적으로 더 큰 이득을 얻을 수 있는 전략을 수립합니다.
이산확률에서 평균은 ‘값×확률’을 모두 더한 것이에요. 수식으로 E[X]=∑ixipiE[X] = \sum_i x_i p_iE[X]=∑i​xi​pi​. 분산은 E[X2]−(E[X])2E[X^2]-(E[X])^2E[X2]−(E[X])2로 구해요. (먼저 '값의 제곱×확률'을 다 더해 E[X2]E[X^2]E[X2]를 구하고, 평균의 제곱을 빼면 됩니다.) 확률을 분모 6인 분수로 두면 6×평균6\times\text{평균}6×평균과 36×분산36\times\text{분산}36×분산이 정수가 되어 계산이 편해요.

평균을 구할 때는 각 값에 그 값이 나올 확률을 곱한 뒤, 그걸 다 더하면 돼요. 즉 값×확률\text{값}\times\text{확률}값×확률을 모두 더하는 거예요. 분모를 6으로 맞춰 두었다면 6×평균6\times\text{평균}6×평균이 정수로 나오므로, 그렇게 정수로 구해서 6으로 나누면 평균이에요.

분산은 먼저 E[X2]E[X^2]E[X2]를 구한 다음, 여기서 (평균)²을 빼면 돼요. E[X2]E[X^2]E[X2]에서 (평균)2(\text{평균})^2(평균)2을 빼는 식이에요. 마찬가지로 36×분산36\times\text{분산}36×분산이 정수로 나오게 하면 분수 없이 계산할 수 있어요.

아래 문제에서는 6×평균6\times\text{평균}6×평균, 36×분산36\times\text{분산}36×분산, 평균(정수), 최빈값, 누적확률의 분자 같은 것들을 구하게 돼요. 위에서 정리한 식을 차근차근 적용해 보세요.
예시. 값이 1, 2, 3이고 각각 확률이 16\frac{1}{6}61​, 26\frac{2}{6}62​, 36\frac{3}{6}63​인 분포를 생각해 보세요. 이때 6×평균6\times\text{평균}6×평균은 1×1+2×2+3×3=141\times1+2\times2+3\times3 = 141×1+2×2+3×3=14로 계산돼요.
예시. 같은 분포에서 분산의 36배는 36×분산=6∑i(nixi2)−(∑inixi)236\times\text{분산} = 6\sum_i (n_i x_i^2) - (\sum_i n_i x_i)^236×분산=6∑i​(ni​xi2​)−(∑i​ni​xi​)2 공식으로 구해요. nin_ini​는 분자, xix_ixi​는 값을 의미해요.
문제 유형별 풀이
  • 유형6×평균
  • 설명6E[X]6 E[X]6E[X]
  • 답 구하는 법∑(값×분자)\sum (\text{값}\times\text{분자})∑(값×분자). 분모 6인 확률일 때 정수로 나옴.
  • 유형36×분산
  • 설명36×분산36\times\text{분산}36×분산
  • 답 구하는 법6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2. nin_ini​=분자, xix_ixi​=값.
  • 유형평균(정수)
  • 설명기댓값을 정수로
  • 답 구하는 법(6×평균)/6 이 정수면 그대로. 문제에서 정수로 주어짐.
  • 유형최빈값
  • 설명가장 확률이 높은 값
  • 답 구하는 법막대가 가장 높은 xix_ixi​.
  • 유형누적 분자
  • 설명P(X≤k)P(X\le k)P(X≤k)의 분자
  • 답 구하는 법해당 값 이하 확률들의 분자 합.
유형설명답 구하는 법
6×평균6E[X]6 E[X]6E[X]∑(값×분자)\sum (\text{값}\times\text{분자})∑(값×분자). 분모 6인 확률일 때 정수로 나옴.
36×분산36×분산36\times\text{분산}36×분산6∑nixi2−(∑nixi)26\sum n_i x_i^2 - (\sum n_i x_i)^26∑ni​xi2​−(∑ni​xi​)2. nin_ini​=분자, xix_ixi​=값.
평균(정수)기댓값을 정수로(6×평균)/6 이 정수면 그대로. 문제에서 정수로 주어짐.
최빈값가장 확률이 높은 값막대가 가장 높은 xix_ixi​.
누적 분자P(X≤k)P(X\le k)P(X≤k)의 분자해당 값 이하 확률들의 분자 합.

예시 (6×평균)
값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때 6×평균을 구하세요.
풀이
6E[X]=1×1+2×2+3×3=146E[X]=1\times 1+2\times 2+3\times 3=146E[X]=1×1+2×2+3×3=14. → 정답 14

예시 (36×분산)
같은 분포에서 n1=1,n2=2,n3=3n_1=1,n_2=2,n_3=3n1​=1,n2​=2,n3​=3, x1=1,x2=2,x3=3x_1=1,x_2=2,x_3=3x1​=1,x2​=2,x3​=3. 36×분산=6(1⋅1+2⋅4+3⋅9)−(1+4+9)2=6⋅36−196=2036\times\text{분산}=6(1\cdot 1+2\cdot 4+3\cdot 9)-(1+4+9)^2=6\cdot 36-196=2036×분산=6(1⋅1+2⋅4+3⋅9)−(1+4+9)2=6⋅36−196=20. → 정답 20 (수치 예시)