Chapter 11

평균과 분산: 분포의 중심과 퍼짐

평균(기댓값)은 확률분포의 중심을, 분산은 퍼짐을 나타냅니다. 딥러닝\cdot머신러닝에서는 예측값, 손실, 정규화를 다룰 때 이 개념들이 쓰여요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

평균과 분산

\mu

평균과 분산이란

데이터가 어디에 모여 있고 얼마나 흩어져 있는지를 아는 것은 통계의 시작입니다. 평균(Mean, 기댓값)은 데이터 분포의 무게중심입니다. 하지만 평균만으로는 부족합니다. 평균 주위에 오밀조밀 모여 있는지, 아니면 멀리 퍼져 있는지 알려주는 퍼짐의 척도가 바로 분산(Variance)입니다. 분산은 계산 과정에서 제곱이 되므로 단위가 커지는데, 이를 다시 원래 단위로 되돌리기 위해 제곱근을 씌운 것이 표준편차( $\sigma$ )입니다.

평균은 모든 가능성을 고려했을 때 기대할 수 있는 '대표 숫자'입니다. 주사위 눈(

1 \sim 6

)의 평균이

3.5

인 것처럼, 실제로는 나오지 않는 값일지라도 전체의 중심을 잡아주는 역할을 합니다. 시험 점수의 평균이 높다는 것은 전반적으로 성적이 좋다는 뜻이고, AI 예측값이

70

이라는 것은 그 데이터의 기댓값이

70

근처라는 뜻입니다.

분산은 각 데이터가 평균에서 얼마나 떨어져 있는지를 계산한 값입니다. (값

-

평균)을 제곱하여 평균을 내는데, 제곱을 하는 이유는 거리를 양수로 만들고 멀리 떨어진 값에 더 큰 벌점을 주기 위해서입니다. 표준편차는 이 분산에 루트(

\sqrt{\space}

)를 씌운 것으로, '평균에서 보통 이 정도는 차이가 난다'는 실제적인 거리를 알려줍니다. 예를 들어 '평균

170

, 표준편차

5

'라면 대부분의 데이터가

165 \sim 175

사이에 모여 있다고 짐작할 수 있습니다.

평균만 아는 것은 위험합니다. 평균 수심이

1m

인 강이라도 깊은 곳은

3m

가 넘을 수 있기 때문입니다. 이때 분산을 알아야 위험(변동성)을 관리할 수 있습니다. AI에서도 예측값(평균)만 내놓는 것이 아니라, 그 예측이 얼마나 흔들릴 수 있는지(분산)를 함께 파악하여 신뢰도를 측정합니다.

AI 모델이 데이터를 이해할 때 사용하는 통계적 개념들을 아래 표로 정리했습니다. 각 지표가 AI 학습에서 어떤 역할을 하는지 확인해 보세요.

개념 $최빈값(Mode)$
의미 $가장 자주 등장하는 값.$
AI 활용 $분류 모델 에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.$

개념 $평균(Expectation)$
의미 $확률을 가중치로 둔 중심값.$
AI 활용 $회귀 모델 의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.$

개념 $최소\cdot최대(Min/Max)$
의미 $데이터의 전체 범위.$
AI 활용 $0 \sim 1$

개념 $중앙값(Median)$
의미 $순서대로 세웠을 때 정중앙.$
AI 활용 $이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.$

개념	의미	AI 활용
최빈값(Mode)	가장 자주 등장하는 값.	분류 모델에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.
평균(Expectation)	확률을 가중치로 둔 중심값.	회귀 모델의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.
최소·최대(Min/Max)	데이터의 전체 범위.	데이터를 $0 \sim 1$ 사이로 맞추는 스케일링이나 값의 폭주를 막는 클리핑에 쓰입니다.
중앙값(Median)	순서대로 세웠을 때 정중앙.	이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.

예측의 정확도를 평가하는 척도입니다. AI가 내놓은 예측 결과는 보통 확률 분포의 기댓값입니다. 만약 예측값의 분산이 크다면, AI 스스로도 자신의 예측을 확신하지 못하고 있다는 신호로 받아들일 수 있습니다.

불확실성(Uncertainty)을 수치화합니다. 자율주행이나 의료 AI에서는 '확실한 정도'가 매우 중요합니다. 표준편차(

\sigma

)를 활용해 신뢰구간을 설정하고, 결과가 이 범위를 벗어날 위험이 얼마나 되는지 계산하여 안전한 의사결정을 내립니다.

손실 함수(Loss Function)의 설계 원리입니다. 회귀 분석에서 가장 많이 쓰는 MSE(평균 제곱 오차)는 실제 정답과 예측값 차이의 제곱 평균입니다. 이는 수학적으로 오차의 분산을 최소화하겠다는 뜻과 같습니다. 즉, 분산을 줄이는 것이 곧 AI의 실력을 키우는 것입니다.

정규화(Normalization)의 기준입니다. 가중치들의 분산이 너무 커지면 모델이 예민해져서 과적합(Overfitting)이 발생합니다. 분산을 일정하게 유지하거나 억제하는 기술을 통해 모델을 더 안정적이고 범용적으로 만듭니다.

일상 생활에서도 평균과 표준편차는 세트로 쓰입니다. 주식 수익률이 '평균 5%, 표준편차 20%'라면 수익은 나지만 변동성이 커서 위험한 주식임을 알 수 있듯, 데이터의 성격을 정의하는 가장 기본적인 언어입니다.

회귀 분석에서는 특정 입력에 대한 조건부 기댓값을 구합니다. '이런 조건일 때 평균적으로 이런 결과가 나올 것이다'를 학습하고, 오차의 평균(MSE)을 줄여나가는 것이 핵심입니다.

분류 문제에서는 여러 후보 중 확률(PMF)이 가장 높은 최빈값을 정답으로 선택합니다. 소프트맥스 함수를 통과한 결과 중 가장 높은 막대를 고르는 과정이 통계적 최빈값 찾기와 같습니다.

강화학습에서 에이전트는 '보상의 기댓값'을 최대화하는 방향으로 움직입니다. 당장 눈앞의 작은 보상보다, 미래까지 합쳤을 때 평균적으로 더 큰 이득을 얻을 수 있는 전략을 수립합니다.

이산확률에서 평균(기댓값)은 ‘값×확률’을 모두 더한 것,

E[X]=\sum_i x_i p_i

예요.

분산은

E[X^2]-(E[X])^2

— 먼저 ‘값²×확률’을 다 더해

E[X^2]

를 구하고, 평균의 제곱을 빼면 돼요.

분모 6인 분수로 두면 $6\times$ 평균과 $36\times$ 분산이 정수가 되어 계산이 편해요. 최빈값은 확률이 가장 큰 값, 누적

P(X\le k)

는

k

이하 값들의 확률을 더하면 돼요.

가장 쉬운 예: 값 1,2,3 / 확률

\frac{1}{6},\frac{2}{6},\frac{3}{6}

6E[X]=1\cdot1+2\cdot2+3\cdot3=

14.

아래는 유형별 예시예요. 문제 → 풀이 → 정답 순서로 읽으면 돼요.

예시 (6×평균)

값 1, 2, 3에 확률

\frac{1}{6},\frac{2}{6},\frac{3}{6}

일 때

6E[X]

를 구하세요.

풀이

6E[X]=1\times1+2\times2+3\times3=14

→ 정답 14

예시 (36×분산)

같은 분포에서

n_1=1,n_2=2,n_3=3

x_i=1,2,3

일 때

36\times\mathrm{Var}(X)

를 구하세요.

풀이

6\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=20

→ 정답 20

예시 (평균을 정수로)

6E[X]=18

일 때

E[X]

를 구하세요.

풀이

E[X]=18/6=3

→ 정답 3

예시 (최빈값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때 최빈값을 구하세요.

풀이

확률이 가장 큰 값은 3.

→ 정답 3

예시 (누적 분자)

같은 분포에서

P(X\le 2)

를

k/6

꼴로 쓸 때 분자

k

를 구하세요.

풀이

P(X\le 2)=1/6+2/6=3/6

. 분자 3.

→ 정답 3

평균과 분산이란

평균은 모든 가능성을 고려했을 때 기대할 수 있는 '대표 숫자'입니다. 주사위 눈(

1 \sim 6

)의 평균이

3.5

70

이라는 것은 그 데이터의 기댓값이

70

근처라는 뜻입니다.

분산은 각 데이터가 평균에서 얼마나 떨어져 있는지를 계산한 값입니다. (값

-

\sqrt{\space}

)를 씌운 것으로, '평균에서 보통 이 정도는 차이가 난다'는 실제적인 거리를 알려줍니다. 예를 들어 '평균

170

, 표준편차

5

'라면 대부분의 데이터가

165 \sim 175

사이에 모여 있다고 짐작할 수 있습니다.

평균만 아는 것은 위험합니다. 평균 수심이

1m

인 강이라도 깊은 곳은

3m

AI 모델이 데이터를 이해할 때 사용하는 통계적 개념들을 아래 표로 정리했습니다. 각 지표가 AI 학습에서 어떤 역할을 하는지 확인해 보세요.

개념 $최빈값(Mode)$
의미 $가장 자주 등장하는 값.$
AI 활용 $분류 모델 에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.$

개념 $평균(Expectation)$
의미 $확률을 가중치로 둔 중심값.$
AI 활용 $회귀 모델 의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.$

개념 $최소\cdot최대(Min/Max)$
의미 $데이터의 전체 범위.$
AI 활용 $0 \sim 1$

개념 $중앙값(Median)$
의미 $순서대로 세웠을 때 정중앙.$
AI 활용 $이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.$

개념	의미	AI 활용
최빈값(Mode)	가장 자주 등장하는 값.	분류 모델에서 확률이 가장 높은 정답 하나를 고를 때(Argmax) 사용합니다.
평균(Expectation)	확률을 가중치로 둔 중심값.	회귀 모델의 최종 예측값이나 보상의 합계를 계산할 때 사용합니다.
최소·최대(Min/Max)	데이터의 전체 범위.	데이터를 $0 \sim 1$ 사이로 맞추는 스케일링이나 값의 폭주를 막는 클리핑에 쓰입니다.
중앙값(Median)	순서대로 세웠을 때 정중앙.	이상치(Outlier)에 강한 모델을 만들거나 데이터의 편향을 분석할 때 쓰입니다.

불확실성(Uncertainty)을 수치화합니다. 자율주행이나 의료 AI에서는 '확실한 정도'가 매우 중요합니다. 표준편차(

\sigma

)를 활용해 신뢰구간을 설정하고, 결과가 이 범위를 벗어날 위험이 얼마나 되는지 계산하여 안전한 의사결정을 내립니다.

이산확률에서 평균(기댓값)은 ‘값×확률’을 모두 더한 것,

E[X]=\sum_i x_i p_i

예요.

분산은

E[X^2]-(E[X])^2

— 먼저 ‘값²×확률’을 다 더해

E[X^2]

를 구하고, 평균의 제곱을 빼면 돼요.

분모 6인 분수로 두면 $6\times$ 평균과 $36\times$ 분산이 정수가 되어 계산이 편해요. 최빈값은 확률이 가장 큰 값, 누적

P(X\le k)

는

k

이하 값들의 확률을 더하면 돼요.

가장 쉬운 예: 값 1,2,3 / 확률

\frac{1}{6},\frac{2}{6},\frac{3}{6}

6E[X]=1\cdot1+2\cdot2+3\cdot3=

14.

아래는 유형별 예시예요. 문제 → 풀이 → 정답 순서로 읽으면 돼요.

예시 (6×평균)

값 1, 2, 3에 확률

\frac{1}{6},\frac{2}{6},\frac{3}{6}

일 때

6E[X]

를 구하세요.

풀이

6E[X]=1\times1+2\times2+3\times3=14

→ 정답 14

예시 (36×분산)

같은 분포에서

n_1=1,n_2=2,n_3=3

x_i=1,2,3

일 때

36\times\mathrm{Var}(X)

를 구하세요.

풀이

6\sum n_i x_i^2-(\sum n_i x_i)^2=6(1+8+27)-14^2=20

→ 정답 20

예시 (평균을 정수로)

6E[X]=18

일 때

E[X]

를 구하세요.

풀이

E[X]=18/6=3

→ 정답 3

예시 (최빈값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때 최빈값을 구하세요.

풀이

확률이 가장 큰 값은 3.

→ 정답 3

예시 (누적 분자)

같은 분포에서

P(X\le 2)

를

k/6

꼴로 쓸 때 분자

k

를 구하세요.

풀이

P(X\le 2)=1/6+2/6=3/6

. 분자 3.

→ 정답 3