Chapter 04
활성화 함수 (비선형)
활성화 함수. 뉴런의 출력을 비선형으로 만드는 함수이다.
챕터별 딥러닝 도식화
챕터를 하나씩 진행할 때마다 아래 도식이 조금씩 채워져요. 지금까지의 구조예요.
입력 X에 따라 출력 Y가 비선형으로 바뀌는 대표적인 활성화 함수입니다. (3단계 양자화 버전)
노드 값이 ReLU나 σ를 거치면 구불구불하게 바뀌어요. 마지막 층 Y1, Y2, Y3가 그렇게 나온 거예요.
딥러닝에서 보는 활성화 함수
활성화 함수(Activation Function)는 뉴런이 계산한 숫자(가중합)를 특정 범위나 형태로 변환해 주는 함수예요. 대표적으로 ReLU(음수→0, 양수→그대로), Sigmoid(0~1 사이로 압축), Tanh(-1~1 사이로 압축)가 있어요.
비유하면 수도꼭지 같아요. 물(신호)이 들어오면 '일정 이상만 통과시키거나(ReLU)', '너무 세면 줄여서 내보내는(Sigmoid, Tanh)' 역할을 해요. 이렇게 변환해야 다음 층에서 쓰기 좋은 형태가 돼요.
ReLU가 가장 많이 쓰이는 이유는 계산이 간단하고(0보다 크면 그대로, 작으면 0), 학습이 빠르기 때문이에요. Sigmoid는 결과를 확률처럼 쓸 때, Tanh는 값을 중심(0) 기준으로 대칭시킬 때 써요.
GELU, SiLU 같은 변형도 있어요. ReLU보다 부드럽게 꺾여서 번역·챗봇·이미지 생성 같은 모델에서 자주 써요. 어떤 활성화를 쓰느냐에 따라 학습 속도와 성능이 조금씩 달라져요.
선형 연산만 반복하면 결국 한 번의 곱+더하기와 똑같아요. 직선을 아무리 이어 붙여도 직선이듯, 선형만으로는 곡선이나 복잡한 패턴을 절대 표현 못 해요.
활성화 함수가 꺾임(비선형)을 만들어 줘요. 이 꺾임이 있어야 여러 층을 쌓았을 때 곡선, 복잡한 경계를 만들 수 있고, 이미지·말·글·소리 같은 복잡한 데이터에서 패턴을 배울 수 있어요.
활성화가 없으면 층을 아무리 깊게 쌓아도 직선 하나로 할 수 있는 일밖에 못 해요. 그래서 활성화 함수는 딥러닝이 '딥'해질 수 있게 해주는 필수 장치예요.
이미지·비디오 인식: 각 층에서 W·X+b 뒤 ReLU를 거쳐요. 음수를 0으로 잘라내고 양수만 다음 층으로 넘겨서 '선→질감→물체 부분→물체 전체'처럼 특징을 단계적으로 뽑아요.
번역·챗봇: 중간 층에는 ReLU나 GELU를 써서 비선형을 넣고, 마지막에는 Sigmoid(예/아니오)나 Softmax(여러 후보 확률)로 최종 답을 만들어요.
이미지 생성: 노이즈를 줄이는 네트워크 안에서 ReLU·SiLU 같은 활성화가 각 층마다 들어가요. ‘지금 이 픽셀을 얼마나 바꿀지’를 비선형으로 계산해요.
음성 인식: 소리를 숫자로 바꾼 뒤, 선형+활성화를 여러 번 거쳐 ‘어떤 말인지’를 판단해요. 스마트폰 음성 비서도 같은 구조예요.
표에서 X 구간만 보면 Y가 정해져요.
| 함수 | 규칙 |
|---|---|
| ReLU | 0 이하면 0, 양수면 X 그대로 |
| Sigmoid | 작으면 0, 중간이면 0.5, 크면 1 |
| Tanh₃ | 작으면 -1, 중간이면 0, 크면 1 |
| 주의 | 구간 경계는 문제 표를 먼저 보세요 |
문제
주어진 활성화 함수(Sigmoid, ReLU, Tanh₃)에 따라 X에 대한 Y 값을 구해 빈 칸(?)을 채우세요.