모두의 AI
머신러닝플레이그라운드

플레이그라운드

직접 만지며 배우는 AI 실험실

딥러닝

  • 신경망 분류기

강화학습

  • 강화학습 에이전트

컴퓨터 비전

  • 합성곱 비전

트랜스포머

  • 어텐션 놀이터
신경망 분류기강화학습 에이전트합성곱 비전어텐션 놀이터
로딩 중…

플레이그라운드

그네 강화학습

로봇이 그네를 태우듯, 언제 밀고 언제 쉴지 Q-러닝으로 스스로 배웁니다!

에피소드0
학습 설정 설명

아래로 내려올 때 밀고, 올라갈 때는 가만히—이 타이밍을 Q-러닝이 표로 익힙니다.

  • 학습률 α: Q값을 한 번에 얼마나 크게 고칠지예요. 크면 빨리 바뀌지만 불안정할 수 있어요.
  • 할인율 γ: 미래 보상을 지금 얼마나 중요하게 볼지예요. 1에 가까울수록 먼 보상도 크게 반영해요.
  • 탐험 ε: 무작위로 밀거나 쉴 확률이에요. 높으면 여러 리듬을 시도하고, 낮으면 익힌 타이밍만 씁니다.

그네 설정

밧줄·마찰·바람이 달라지면 난이도가 바뀝니다

보상은 그네 높이(1−cos θ)예요. 로봇이 왼쪽/오른쪽으로 밀어 진폭을 키우도록 학습합니다.

밧줄:
1.20 m
마찰:
0.035
밀기 세기:
2.2
  • 아래로 스윽 내려올 때 반대 방향으로 밀면 에너지가 쌓여요
  • 높이 올라갈 때는 가만히(관성) 두는 편이 유리해요

그네 시뮬레이터

보라 로봇 = 에이전트 · 막대 = 현재 높이

이번 에피소드 스텝

0.0000

에피소드 누적 보상

0.0000

그네 높이

0.0108

높이 탄 횟수

0.0000

🤖그네 높이 1%이번 최고 0%
θ 8.4°ω 0.11

에피소드 보상

그네를 높이 탈수록 보상이 커집니다

학습을 시작하면 에피소드별 보상이 표시됩니다

관련 배우기

  • 마르코프 체인: 다음 상태는 지금 상태만 보면 된다
  • 몬테카를로 적분: 무작위로 뽑아서 값 맞추기
  • MDP와 벨만 방정식: 강화학습의 수학적 뼈대