Chapter 10

너비 (한 층의 뉴런 수)

너비. 한 층의 뉴런 수가 많은 것을 넓은 층이라 한다.

챕터를 하나씩 진행할 때마다 아래 도식이 조금씩 채워져요. 지금까지의 구조예요.

한 층의 뉴런 개수가 너비예요. 넓을수록 그 단계에서 더 많은 특징을 동시에 다룰 수 있어요.

딥러닝에서 보는 너비

너비(Width)는 한 층 안에 뉴런이 몇 개 있는지를 말해요. 뉴런이 많을수록(넓을수록) 그 단계에서 동시에 여러 가지 특징을 표현할 수 있어요. 뉴런 1개면 특징 1가지, 256개면 256가지를 동시에 볼 수 있어요.

비유하면, 시험지에 문제가 1개면 한 가지만 평가하지만, 문제가 100개면 다양한 능력을 동시에 평가하는 것처럼, 넓은 층은 한 번에 더 다양한 정보를 처리해요.

층마다 너비가 다를 수 있어요. '64 → 128 → 256'처럼 점점 넓어지는 구조, '256 → 128 → 64'처럼 점점 좁아지는 구조, 또는 중간만 넓은 병목(bottleneck) 구조를 써요.

큰 모델(서버용 번역·챗봇)은 한 층의 너비가 수천 단위로 넓어요. 휴대폰에 올리는 작은 모델은 이 숫자를 줄여서 연산량과 메모리를 아껴요.

깊이(층 수)와 너비(뉴런 수)가 모델의 전체 크기(파라미터 수)를 결정해요. 같은 파라미터 수라도 '깊고 좁게' 쌓을지 '얕고 넓게' 펼칠지에 따라 성능이 달라져요.

너비가 크면 한 단계에서 더 많은 특징을 다루지만 연산량·메모리가 늘어나요. 너무 크면 과적합 위험도 커져요.

병목 구조는 중간만 넓게 해서 핵심 특징을 넓은 층에서 추출하고, 앞뒤는 좁게 해서 압축해요. 이미지 인식·번역 모델이 이런 설계를 활용해요.

이미지 인식(CNN): 각 층의 채널 수가 그 층의 너비예요. 3(RGB) → 64 → 128 → 256 → 512처럼 점점 넓어지며 선·모서리·물체 같은 다양한 특징을 뽑아요.

번역·챗봇: 각 층에서 한 번에 다루는 숫자 개수(차원)가 그 층의 너비예요. 큰 모델은 이 값이 수천으로 넓고, 휴대폰용 작은 모델은 256, 512처럼 줄여서 써요.

추천·검색: 사용자·상품·문서를 숫자(벡터)로 바꿀 때 차원 수가 그 단계의 너비예요. 256차원이면 256가지 특징을 동시에 담아 더 세밀한 매칭이 가능해요.

넓어지는 구조에서도 각 층은 똑같이 선형(W·입력+b) → ReLU: 빈 칸이 어느 층의 몇 번째 뉴런인지 확인하고, 그 층의 입력과 W의 해당 행, b의 해당 칸만 써서 계산하면 돼요.

W 크기 주의: 층마다 너비가 달라지면 W의 크기도 달라져요. W는 (현재 층 너비 × 앞 층 너비) 크기니까, 빈 칸에 해당하는 행을 찾아서 앞 층 출력과 내적하고 b를 더하세요.

한 층씩 앞에서부터: 깊이 문제와 마찬가지로, 앞 층의 출력을 먼저 구한 뒤 다음 층으로 넘겨요. 각 층의 ReLU(음수→0)를 빠뜨리지 않도록 주의하세요.

너비는 한 층에 있는 뉴런 수가 많은 것을 말해요. 층이 넓을수록 더 많은 특징을 동시에 표현하고, 각 층마다 Linear & ReLU로 계산합니다.

입력 X

↓

Linear & ReLU (1층, 너비 2)

W₁

선형

ReLU

↓

Linear & ReLU (2층, 너비 4)

W₂

선형

ReLU

1층 (너비 2): H = ReLU(W₁·X + b₁)

H₁ = (W₁ 1행·X)+b₁[0] = 1×2 + 0 = 2 → ReLU = 2

H₂ = (W₁ 2행·X)+b₁[1] = 1×2 + (0) = 2 → ReLU = 2

2층 (너비 4): Y = ReLU(W₂·H + b₂)

Y₁ = (W₂ 1행·H)+b₂[0] = 1×2+0×2+0 = 2 → ReLU = 2

Y₂ = (W₂ 2행·H)+b₂[1] = 0×2+1×2+0 = 2 → ReLU = 2

Y₃ = (W₂ 3행·H)+b₂[2] = 1×2+0×2+0 = 2 → ReLU = 2

Y₄ = (W₂ 4행·H)+b₂[3] = 0×2+1×2+0 = 2 → ReLU = 2

층이 넓어지는 순전파(각 층 Linear & ReLU)에서 빈 칸(?)을 채우세요.

입력 X

선형

ReLU

-1

선형

ReLU

1 / 20