이 Playground에서 무엇을 배우나요?

상태(각도·각속도)를 이산화한 Q-표로 왼쪽 밀기·가만히·오른쪽 밀기 행동을 학습합니다. 그네 높이에 비례한 보상과 ε-greedy 탐험으로 강화학습의 기본 루프를 체험할 수 있습니다.

보상은 어떻게 계산되나요?

매 스텝 그네 높이(1−cos θ)에 비례한 보상을 주고, 충분히 높이 오르면 추가 보너스를 줍니다. 밀기 행동에는 작은 비용이 있으며, 과도한 속도·각도에서는 에피소드가 종료됩니다.

α(학습률)는 Q값 갱신 속도, γ(할인율)는 미래 보상 반영, ε(탐험률)는 무작위 행동 비율입니다. 슬라이더로 조절하며 학습 곡선 변화를 관찰할 수 있습니다.

로딩 중…

플레이그라운드

로봇이 그네를 태우듯, 언제 밀고 언제 쉴지 Q-러닝으로 스스로 배웁니다!

에피소드0

학습률 α할인율 γ탐험 ε속도

수식 보기

학습 설정 설명

아래로 내려올 때 밀고, 올라갈 때는 가만히—이 타이밍을 Q-러닝이 표로 익힙니다.

밧줄·마찰·바람이 달라지면 난이도가 바뀝니다

보상은 그네 높이(1−cos θ)예요. 로봇이 왼쪽/오른쪽으로 밀어 진폭을 키우도록 학습합니다.

보라 로봇 = 에이전트 · 막대 = 현재 높이

이번 에피소드 스텝

0.0000

에피소드 누적 보상

0.0000

그네 높이

0.0001

높이 탄 횟수

0.0000

θ -0.6°ω -0.07

그네를 높이 탈수록 보상이 커집니다

학습을 시작하면 에피소드별 보상이 표시됩니다