Chapter 12

균등 분포와 정규 분포: 초기화부터 예측까지

균등 분포는 구간 안에서 확률이 고르게 퍼진 경우를, 정규 분포는 평균 주변에 종 모양으로 퍼진 경우를 나타냅니다. 딥러닝\cdot머신러닝에서는 초기화, 노이즈, 사전분포를 다룰 때 이 두 분포가 자주 쓰여요.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

균등 분포는 구간 안에서 확률이 고르게 퍼진 경우를, 정규 분포는 평균 주변에 종 모양으로 퍼진 경우를 나타냅니다. 딥러닝·머신러닝에서는 초기화, 노이즈, 사전분포를 다룰 때 이 두 분포가 자주 쓰여요.

균등 분포와 정규 분포란

세상의 수많은 연속 데이터는 일정한 규칙을 가지고 퍼져 있습니다. 그중 가장 기본이 되는 균등 분포와 정규 분포를 이해하는 것은 AI의 내부 작동 원리를 파악하는 핵심 단계입니다. 앞선 챕터에서 배운 평균(

\mu

)과 분산(

\sigma^2

)이라는 두 지표가 이 분포들의 모양을 결정하는 유전자가 됩니다.

균등 분포(Uniform Distribution)는 특정 구간

[a, b]

내의 모든 값이 나올 확률이 똑같은 상태입니다. 그래프를 그리면 천장이 평평한 직사각형 모양이 됩니다. 주사위의 눈이 나올 확률을 연속적인 숫자로 확장한 개념이라고 생각하면 쉽습니다. '어느 한쪽으로 치우치지 않고 모든 가능성에 공평하게 기회를 주고 싶을 때' 사용합니다.

균등 분포의 중심인 평균은 구간의 딱 절반인

(a+b)/2

입니다. 분산은 구간의 길이(

b-a

)의 제곱에 비례하는

(b-a)^2/12

로 계산됩니다. 구간이 넓어질수록 어떤 값이 나올지 맞히기 더 어려워지므로(불확실성 증가) 분산도 커지는 구조입니다.

정규 분포(Normal Distribution)는 평균을 중심으로 좌우가 대칭인 종 모양(Bell-curve)의 분포입니다. 자연계의 키, 시험 점수, 측정 오차 등 대부분의 현상이 이 분포를 따르기에 '정상적(Normal)'이라는 이름이 붙었습니다. 가우시안 분포라고도 불리며, 평균(

\mu

)은 종의 꼭대기 위치를, 표준편차(

\sigma

)는 종의 폭(퍼짐 정도)을 결정합니다.

정규분포의 마법은 경험적 법칙(68-95-99.7 규칙)에 있습니다. 평균에서 표준편차 1배 범위(

\mu \pm 1\sigma

) 안에 데이터의 약 68%가, 2배 범위(

\mu \pm 2\sigma

) 안에는 약 95%가, 3배 범위(

\mu \pm 3\sigma

) 안에는 약 99.7%가 들어옵니다. 이 규칙을 알면 데이터가 평균에서 얼마나 멀리 떨어져 있는지(이상치 여부)를 즉시 판단하고 AI의 예측 신뢰도를 평가할 수 있습니다.

균등 분포는 '아무것도 모르는 백지상태'를, 정규 분포는 '평균이라는 기준이 있는 자연스러운 상태'를 대표합니다. AI는 학습을 시작할 때 균등 분포로 가중치를 골고루 흩뿌려두고(초기화), 학습이 진행되면서 발생하는 데이터의 오차를 정규 분포로 분석하며 정답을 찾아갑니다.

사전 정보의 설계: 베이지안 통계에서 AI가 학습 전 가지는 '선입견'을 사전분포라고 합니다. 완전히 공평한 입장에서 시작하고 싶을 때는 균등 분포를 쓰지만, 특정 평균값 근처일 것이라는 합리적 추측이 있을 때는 정규 분포를 사용하여 모델의 기초 체력을 설계합니다.

오차의 수학적 모델링: 세상의 모든 데이터에는 잡음(Noise)이 섞여 있습니다. 이 잡음들은 서로 독립적으로 발생하여 합쳐지면 결국 정규 분포를 따르게 됩니다. AI가 사진에서 노이즈를 제거하거나 흐릿한 음성을 복구할 때, 잡음이 정규 분포 모양이라는 가정하에 계산하면 훨씬 정확한 복원이 가능해집니다.

중심극한정리(Central Limit Theorem): 이는 통계학의 근간입니다. 데이터가 어떤 모양이든, 그 데이터를 많이 뽑아 평균을 내면 그 평균값들의 분포는 신기하게도 정규 분포에 가까워집니다. 덕분에 AI는 소수의 샘플 데이터만으로도 전체 집단의 특성을 정규 분포를 빌려 예측할 수 있습니다.

딥러닝에서 가중치 초기화(Weight Initialization)는 학습의 성패를 가릅니다. Xavier 초기화나 He 초기화 같은 기술들은 균등/정규 분포의 분산을 정교하게 조절하여, 신경망 깊숙한 곳까지 데이터 신호가 왜곡되지 않고 잘 전달되도록 돕습니다.

가중치 초기화: 신경망의 가중치를 처음에 모두 0으로 두면 학습이 되지 않습니다. 그래서 균등 분포나 정규 분포에서 무작위 숫자를 뽑아 채워 넣습니다. 이때 정규 분포를 쓰면 대부분의 가중치가 0 근처에 모여 있어 학습이 훨씬 안정적이고 빠르게 시작됩니다.

생성 모델(Generative Models): 이미지 생성 AI인 VAE나 확산 모델(Diffusion)은 정규 분포에서 뽑은 '무작위 노이즈'를 재료로 사용합니다. 아무 의미 없는 정규 분포 데이터에 조금씩 질서를 부여하여 멋진 그림이나 문장을 만들어내는 것이 현대 생성 AI의 핵심 원리입니다.

회귀 분석과 신뢰구간: AI가 내일의 온도를 예측할 때, 단순한 숫자 하나가 아니라 정규 분포를 활용한 '95% 신뢰구간'을 제시할 수 있습니다. "평균 20도이며, 18~22도 사이에 있을 확률이 95%입니다"라고 말하는 것이 훨씬 유용한 정보가 됩니다.

베이지안 딥러닝: 고정된 숫자 대신 가중치 자체가 하나의 정규 분포를 갖도록 설계하여, AI가 스스로 "이 예측은 잘 모르겠어요(분산이 큼)"라고 대답할 수 있게 만듭니다. 이는 자율주행차나 의료 AI처럼 안전이 중요한 분야에서 필수적으로 사용됩니다.

수학적 흐름을 정리하면, Chapter 10~11에서 배운 확률의 기초와 평균/분산이라는 도구를 사용하여 실제 세계를 시뮬레이션하는 구체적인 모델(균등·정규)을 완성하는 단계입니다. 이 두 분포를 마스터하면 AI 논문에 나오는 '가우시안 노이즈', '균등 초기화' 같은 용어들을 수식적으로 명확히 이해하게 됩니다.

균등 분포

[a,b]

: 밀도

1/(b-a)

, 평균

(a+b)/2

, 분산

(b-a)^2/12

예요. 부분 구간

[c,d]\subset[a,b]

에 들어갈 확률은 길이 비

(d-c)/(b-a)

예요.

정규 분포: 평균

\mu

, 분산

\sigma^2

(또는 표준편차

\sigma

). 구간 확률은 표준정규표·계산기 또는 68-95-99.7 규칙(

\mu\pm\sigma

약 68%,

\mu\pm2\sigma

약 95%)으로 짐작할 수 있어요.

균등 예:

[0,6]

에서 평균

(0+6)/2=3

, 분산

36/12=

아래는 균등·정규를 유형별로 풀어 본 예시예요.

예시 (균등: 평균·분산)

구간

[0,6]

에서 균등 분포일 때 평균과 분산을 구하세요.

풀이

평균

(0+6)/2=3

. 분산

(6-0)^2/12=3

→ 평균 3, 분산 3

예시 (균등: 구간 확률)

[0,6]

에서 균등할 때

2\le X\le 4

일 확률을 구하세요.

풀이

구간 길이

4-2=2

, 전체 길이

6

이므로

P=2/6=1/3

→ 정답 $1/3$

예시 (정규: $\mu\pm\sigma$ )

평균 70, 표준편차 10인 정규분포에서

\mu\pm\sigma

구간(60~80)에 들어갈 비율은?

풀이

경험적 법칙에 따라 약 68%.

→ 약 68%

예시 (정규: $\mu\pm2\sigma$ )

같은 분포에서

\mu\pm2\sigma

구간(50~90)에 들어갈 비율은?

풀이

경험적 법칙에 따라 약 95%.

→ 약 95%

균등 분포와 정규 분포란

\mu

)과 분산(

\sigma^2

)이라는 두 지표가 이 분포들의 모양을 결정하는 유전자가 됩니다.

균등 분포(Uniform Distribution)는 특정 구간

[a, b]

균등 분포의 중심인 평균은 구간의 딱 절반인

(a+b)/2

입니다. 분산은 구간의 길이(

b-a

)의 제곱에 비례하는

(b-a)^2/12

로 계산됩니다. 구간이 넓어질수록 어떤 값이 나올지 맞히기 더 어려워지므로(불확실성 증가) 분산도 커지는 구조입니다.

\mu

)은 종의 꼭대기 위치를, 표준편차(

\sigma

)는 종의 폭(퍼짐 정도)을 결정합니다.

정규분포의 마법은 경험적 법칙(68-95-99.7 규칙)에 있습니다. 평균에서 표준편차 1배 범위(

\mu \pm 1\sigma

) 안에 데이터의 약 68%가, 2배 범위(

\mu \pm 2\sigma

) 안에는 약 95%가, 3배 범위(

\mu \pm 3\sigma

균등 분포

[a,b]

: 밀도

1/(b-a)

, 평균

(a+b)/2

, 분산

(b-a)^2/12

예요. 부분 구간

[c,d]\subset[a,b]

에 들어갈 확률은 길이 비

(d-c)/(b-a)

예요.

정규 분포: 평균

\mu

, 분산

\sigma^2

(또는 표준편차

\sigma

). 구간 확률은 표준정규표·계산기 또는 68-95-99.7 규칙(

\mu\pm\sigma

약 68%,

\mu\pm2\sigma

약 95%)으로 짐작할 수 있어요.

균등 예:

[0,6]

에서 평균

(0+6)/2=3

, 분산

36/12=

아래는 균등·정규를 유형별로 풀어 본 예시예요.

예시 (균등: 평균·분산)

구간

[0,6]

에서 균등 분포일 때 평균과 분산을 구하세요.

풀이

평균

(0+6)/2=3

. 분산

(6-0)^2/12=3

→ 평균 3, 분산 3

예시 (균등: 구간 확률)

[0,6]

에서 균등할 때

2\le X\le 4

일 확률을 구하세요.

풀이

구간 길이

4-2=2

, 전체 길이

6

이므로

P=2/6=1/3

→ 정답 $1/3$

예시 (정규: $\mu\pm\sigma$ )

평균 70, 표준편차 10인 정규분포에서

\mu\pm\sigma

구간(60~80)에 들어갈 비율은?

풀이

경험적 법칙에 따라 약 68%.

→ 약 68%

예시 (정규: $\mu\pm2\sigma$ )

같은 분포에서

\mu\pm2\sigma

구간(50~90)에 들어갈 비율은?

풀이

경험적 법칙에 따라 약 95%.

→ 약 95%