Chapter 10

확률 변수와 확률 분포: 불확실성을 숫자로 담다

확률변수는 시행 결과를 숫자로 나타낸 것이고, 확률 분포는 각 값이 나올 가능성을 정리한 것이에요. 딥러닝에서 예측\cdot불확실성을 다룰 때 쓰입니다.

챕터별 수학 도식화

챕터를 선택하면 아래 도식이 해당 챕터 내용으로 바뀌어요. 기초 수학 흐름을 한눈에 보세요.

포아송: 한쪽 치우침(이벤트 횟수) · 이항: 가운데 높은 대칭(성공 횟수)

정규분포

포아송분포

이항분포

그림 2: 이산 vs 연속 확률변수

확률 변수와 확률 분포란 무엇인가

확률 변수(Random Variable)는 어떤 시행(실험)의 결과를 숫자로 대응시킨 것입니다. 보통

X

라고 씁니다. 예를 들어 동전 앞면을

1

, 뒷면을

0

이라고 약속하는 순간, 동전 던지기라는 현실의 사건은 수학적인 변수

X

가 됩니다. 확률 분포는 이 숫자들이 각각 어떤 확률로 나타나는지를 지도처럼 한눈에 보여주는 규칙입니다.

① 이산 확률 변수 (Discrete): 값이 딱딱 끊어져 있어 셀 수 있는 경우입니다. 주사위 눈(

1, 2, ...

), 불량품의 개수, 하루 방문자 수 등이 해당합니다. 각 값에 대한 확률을 나타내는 함수를 확률 질량 함수(PMF)라고 하며, 모든 확률의 합은 반드시

1

이어야 합니다. 그래프로는 막대 그래프 형태를 띱니다.

대표적 이산 분포: 동전을 여러 번 던져 앞면이 나오는 횟수를 다루는 이항 분포, 일정 시간 동안 고객이 몇 명 오는지와 같은 사건 발생 횟수를 다루는 포아송 분포가 있습니다.

② 연속 확률 변수 (Continuous): 값이 끊기지 않고 이어져 있어 재야 하는 경우입니다. 키, 몸무게, 시간, 온도 등이 해당합니다. 특정 한 값(예: 정확히

170.00cm

)일 확률은

0

입니다. 왜냐하면 연속 구간에서 '한 점'의 넓이는 0이기 때문이에요. 대신 구간에 속할 확률을 구합니다 (예: 170~180cm). 이를 나타내는 함수를 확률 밀도 함수(PDF)라고 하며, 부드러운 곡선 그래프로 표현됩니다.

대표적 연속 분포: 자연계의 수많은 데이터(측정 오차, 점수 분포 등)가 따르는 종 모양의 정규 분포가 가장 대표적입니다.

확률 분포의 규칙: 확률은 가능성의 비중입니다. 이산형에서는 막대 높이를 다 더하면

1

이 되고, 연속형에서는 곡선 아래의 전체 넓이가

1

이 됩니다. 이 원리가 있어야만 우리는 "이 결과가 나올 확률이 몇 %인가?"를 수학적으로 확신할 수 있습니다.

확률질량함수(PMF)는 이산확률변수에서 각 값

k

에 대한 확률

P(X=k)

를 말해요. 막대 그래프의 막대 높이가 그 확률이고, 모든 막대 높이의 합은 1이에요. 아래 그림은 대표적인 분포 세 가지예요.

그림과 연결 — 그림 1(위)에서 왼쪽 정규분포는 연속(곡선), 가운데 포아송과 오른쪽 이항은 이산(막대)이에요. 그림 2는 이산(막대)과 연속(곡선)을 나란히 비교한 것이에요. 인공지능에서는 정규로 노이즈·예측 오차, 포아송으로 이벤트 횟수, 이항으로 성공 횟수·이진 분류 확률을 모델링해요.

확률분포 조건 (이산) — PMF는 각 값

k

의 확률

P(X=k)

예요. 필수:

\sum_k P(X=k)=1

. (예: 주사위는

P(1)+\cdots+P(6)=1

풀어쓰면: 이산확률에서는 ‘각 경우의 확률을 다 더하면 1’이어야 해요. 주사위처럼 1부터 6까지 나올 확률을 더하면 1이 되는 것과 같아요.

확률분포 조건 (연속) — PDF

f(x)

는 구간 확률을 주어요.

P(a\le X\le b)=\int_a^b f(x)\,dx

, 전체 넓이는

\int_{-\infty}^{\infty} f(x)\,dx=1

이에요.

풀어쓰면: 연속확률에서는 곡선 아래 넓이가 확률이에요. 어떤 구간 [a,b]에 들어갈 확률은 그 구간에서 곡선 아래 넓이로 구하고, 전체 구간(−∞~∞)의 넓이는 1이에요.

기댓값(Expectation): 시행을 무한히 반복했을 때 기대할 수 있는 평균적인 값입니다. 각 값에 그 확률을 곱해서 모두 더해 구합니다. AI는 이 기댓값이 가장 높은 선택지를 골라 우리에게 추천이나 예측 결과를 제공합니다.

풀어쓰면: 기댓값은 ‘각 값에 그 확률을 곱해서 모두 더한 값’이에요. 주사위라면 (1×1/6)+(2×1/6)+…+(6×1/6)=3.5처럼, 값을 확률로 든든히 해서 평균을 내는 거예요.

분산(Variance): 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 척도입니다. 분산이 크면 데이터가 널리 퍼져 있어 불확실성이 큰 것이고, 작으면 평균 근처에 조밀하게 모여 있어 예측이 더 정확하다는 뜻입니다.

풀어쓰면: 분산은 ‘평균에서 얼마나 퍼져 있는지’를 숫자로 둔 거예요. (각 값 − 평균)을 제곱해서 확률로 평균을 내면 분산이 되고, 그 제곱근이 표준편차예요.

정규분포(연속) — 밀도

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

\mu

=평균,

\sigma

=표준편차로 종형 곡선이 정해져요.

풀어쓰면: 평균 μ를 중심으로 좌우 대칭인 종 모양 곡선이에요. σ(표준편차)가 크면 넓게 퍼지고, 작으면 뾰족해요. 키·측정 오차·노이즈처럼 자연스럽게 퍼진 값들이 이 분포를 많이 따릅니다.

포아송분포(이산) —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

(

k=0,1,2,\ldots

\lambda

는 평균 발생 횟수예요.

풀어쓰면: ‘일정 시간이나 구간 안에 사건이 몇 번 일어나는지’를 셀 때 쓰는 분포예요. λ는 평균 발생 횟수고, k=0,1,2,… 각각에 대한 확률을 위 식으로 구해요. 한쪽으로 치우친 막대 그래프가 나와요.

이항분포(이산) —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

n

=시행 횟수,

p

=한 번의 성공 확률이에요.

풀어쓰면: 같은 시행을 n번 반복할 때 ‘성공’이 k번 나올 확률을 주는 분포예요. p는 한 번 시행에서 성공할 확률이에요. 동전을 n번 던져 앞면이 k번 나오는 경우처럼, 가운데가 높은 대칭에 가까운 막대 그래프가 자주 나와요.

예측과 판단의 근거가 됩니다. AI는 단순히 "이것은 고양이입니다"라고 답하지 않습니다. 대신 고양이일 확률을 하나의 확률 변수로 두어, "고양이일 확률이 0.98, 강아지일 확률이 0.02"와 같은 확률 분포를 출력합니다. 우리는 이 분포를 보고 AI가 얼마나 확신을 가지고 대답하는지 알 수 있습니다.

불확실성 관리: 현실 세계의 데이터는 노이즈가 섞여 있어 불확실합니다. 정규 분포를 통해 측정 오차를 모델링하거나, 이항 분포를 통해 이진 분류(스팸 여부 등)의 성공 가능성을 계산함으로써, AI는 확률적인 사고를 통해 가장 합리적인 결론에 도달할 수 있습니다.

일상의 통계: 일기예보의 강수 확률(이산), 사람들의 평균 수명이나 키 분포(연속) 등 우리 주변의 수많은 데이터가 확률 변수와 분포로 설명됩니다. 이를 구분하면 세상의 규칙을 막대(이산)와 곡선(연속)으로 명확히 읽을 수 있습니다.

딥러닝 엔진: 신경망의 가중치를 초기화할 때 정규 분포를 사용하거나, 분류 문제의 마지막 단계에서 소프트맥스 함수를 통해 출력값을 확률 분포(합이 1)로 만드는 등 AI의 모든 학습 단계에 확률 분포가 깊숙이 관여하고 있습니다. 이를 이해하면 AI가 어떻게 데이터를 생성하고 분류하는지 원리를 꿰뚫어 볼 수 있습니다.

이산확률변수에서는 ① 가능한 값과 각 확률 확인 →

② 확률의 합이 1인지 확인 →

③ 기댓값 = (값)×(확률)의 합을 떠올리면 돼요.

확률의 합 —

P(X=1)+P(X=2)+P(X=3)=1

처럼 더했을 때 1이 되어야 해요. 분모를 6으로 두면

a/6+b/6+c/6=1

일 때

a+b+c=6

이에요. 둘만 알면 나머지 하나를 구할 수 있어요.

기댓값 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

. 분모가 6이면

6E[X]

가 정수라서, 문제에서 6×기댓값을 물을 수 있어요.

분산 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

. 분모 6일 때 $36\times$ 분산은

6\sum n_i x_i^2-(\sum n_i x_i)^2

(

n_i

는 분자,

x_i

는 값)로 정수로 구할 수 있어요.

가장 쉬운 예: 확률

1/6,\,2/6,\,c/6

의 합이 1일 때

1+2+c=6

→ $c=3$ .

아래는 유형별 예시예요. 문제 → 풀이 → 정답 순서로 읽으면 돼요.

예시 (확률의 합)

세 확률이 1/6, 2/6, c/6이고 합이 1일 때 c를 구하세요.

풀이

분모가 6이면 분자의 합이 6이어야 하므로

1+2+c=6

→

c=3

→ 정답 3

예시 (6×기댓값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때

6E[X]

를 구하세요.

풀이

6E[X]=1\times 1+2\times 2+3\times 3=14

→ 정답 14

예시 (36×분산)

같은 분포에서 분자

n_1=1,n_2=2,n_3=3

, 값

x_i=1,2,3

일 때

36\times\mathrm{Var}(X)

를 구하세요.

풀이

\sum n_i x_i=1+4+9=14

\sum n_i x_i^2=1+8+27=36

이므로

36\times\mathrm{Var}(X)=6\cdot36-14^2=216-196=20

→ 정답 20

예시 (최빈값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때 최빈값을 구하세요.

풀이

확률이 가장 큰 값은 3(

3/6

→ 정답 3

예시 (누적 확률의 분자)

같은 분포에서

P(X\le 2)

를

k/6

꼴로 쓸 때 분자

k

를 구하세요.

풀이

P(X\le 2)=P(X=1)+P(X=2)=1/6+2/6=3/6

. 분자는 3.

→ 정답 3

확률 변수와 확률 분포란 무엇인가

확률 변수(Random Variable)는 어떤 시행(실험)의 결과를 숫자로 대응시킨 것입니다. 보통

X

라고 씁니다. 예를 들어 동전 앞면을

1

, 뒷면을

0

이라고 약속하는 순간, 동전 던지기라는 현실의 사건은 수학적인 변수

X

가 됩니다. 확률 분포는 이 숫자들이 각각 어떤 확률로 나타나는지를 지도처럼 한눈에 보여주는 규칙입니다.

① 이산 확률 변수 (Discrete): 값이 딱딱 끊어져 있어 셀 수 있는 경우입니다. 주사위 눈(

1, 2, ...

), 불량품의 개수, 하루 방문자 수 등이 해당합니다. 각 값에 대한 확률을 나타내는 함수를 확률 질량 함수(PMF)라고 하며, 모든 확률의 합은 반드시

1

이어야 합니다. 그래프로는 막대 그래프 형태를 띱니다.

170.00cm

)일 확률은

0

대표적 연속 분포: 자연계의 수많은 데이터(측정 오차, 점수 분포 등)가 따르는 종 모양의 정규 분포가 가장 대표적입니다.

확률 분포의 규칙: 확률은 가능성의 비중입니다. 이산형에서는 막대 높이를 다 더하면

1

이 되고, 연속형에서는 곡선 아래의 전체 넓이가

1

이 됩니다. 이 원리가 있어야만 우리는 "이 결과가 나올 확률이 몇 %인가?"를 수학적으로 확신할 수 있습니다.

확률질량함수(PMF)는 이산확률변수에서 각 값

k

에 대한 확률

P(X=k)

를 말해요. 막대 그래프의 막대 높이가 그 확률이고, 모든 막대 높이의 합은 1이에요. 아래 그림은 대표적인 분포 세 가지예요.

확률분포 조건 (이산) — PMF는 각 값

k

의 확률

P(X=k)

예요. 필수:

\sum_k P(X=k)=1

. (예: 주사위는

P(1)+\cdots+P(6)=1

풀어쓰면: 이산확률에서는 ‘각 경우의 확률을 다 더하면 1’이어야 해요. 주사위처럼 1부터 6까지 나올 확률을 더하면 1이 되는 것과 같아요.

확률분포 조건 (연속) — PDF

f(x)

는 구간 확률을 주어요.

P(a\le X\le b)=\int_a^b f(x)\,dx

, 전체 넓이는

\int_{-\infty}^{\infty} f(x)\,dx=1

이에요.

정규분포(연속) — 밀도

f(x)=\frac{1}{\sigma\sqrt{2\pi}}\,e^{-(x-\mu)^2/(2\sigma^2)}

\mu

=평균,

\sigma

=표준편차로 종형 곡선이 정해져요.

포아송분포(이산) —

P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

(

k=0,1,2,\ldots

\lambda

는 평균 발생 횟수예요.

이항분포(이산) —

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

n

=시행 횟수,

p

=한 번의 성공 확률이에요.

이산확률변수에서는 ① 가능한 값과 각 확률 확인 →

② 확률의 합이 1인지 확인 →

③ 기댓값 = (값)×(확률)의 합을 떠올리면 돼요.

확률의 합 —

P(X=1)+P(X=2)+P(X=3)=1

처럼 더했을 때 1이 되어야 해요. 분모를 6으로 두면

a/6+b/6+c/6=1

일 때

a+b+c=6

이에요. 둘만 알면 나머지 하나를 구할 수 있어요.

기댓값 —

E[X]=x_1 p_1+x_2 p_2+x_3 p_3

. 분모가 6이면

6E[X]

가 정수라서, 문제에서 6×기댓값을 물을 수 있어요.

분산 —

\mathrm{Var}(X)=E[X^2]-(E[X])^2

. 분모 6일 때 $36\times$ 분산은

6\sum n_i x_i^2-(\sum n_i x_i)^2

(

n_i

는 분자,

x_i

는 값)로 정수로 구할 수 있어요.

가장 쉬운 예: 확률

1/6,\,2/6,\,c/6

의 합이 1일 때

1+2+c=6

→ $c=3$ .

아래는 유형별 예시예요. 문제 → 풀이 → 정답 순서로 읽으면 돼요.

예시 (확률의 합)

세 확률이 1/6, 2/6, c/6이고 합이 1일 때 c를 구하세요.

풀이

분모가 6이면 분자의 합이 6이어야 하므로

1+2+c=6

→

c=3

→ 정답 3

예시 (6×기댓값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때

6E[X]

를 구하세요.

풀이

6E[X]=1\times 1+2\times 2+3\times 3=14

→ 정답 14

예시 (36×분산)

같은 분포에서 분자

n_1=1,n_2=2,n_3=3

, 값

x_i=1,2,3

일 때

36\times\mathrm{Var}(X)

를 구하세요.

풀이

\sum n_i x_i=1+4+9=14

\sum n_i x_i^2=1+8+27=36

이므로

36\times\mathrm{Var}(X)=6\cdot36-14^2=216-196=20

→ 정답 20

예시 (최빈값)

값 1, 2, 3에 확률 1/6, 2/6, 3/6일 때 최빈값을 구하세요.

풀이

확률이 가장 큰 값은 3(

3/6

→ 정답 3

예시 (누적 확률의 분자)

같은 분포에서

P(X\le 2)

를

k/6

꼴로 쓸 때 분자

k

를 구하세요.

풀이

P(X\le 2)=P(X=1)+P(X=2)=1/6+2/6=3/6

. 분자는 3.

→ 정답 3