플레이그라운드
로봇이 그네를 태우듯, 언제 밀고 언제 쉴지 Q-러닝으로 스스로 배웁니다!
아래로 내려올 때 밀고, 올라갈 때는 가만히—이 타이밍을 Q-러닝이 표로 익힙니다.
밧줄·마찰·바람이 달라지면 난이도가 바뀝니다
보상은 그네 높이(1−cos θ)예요. 로봇이 왼쪽/오른쪽으로 밀어 진폭을 키우도록 학습합니다.
보라 로봇 = 에이전트 · 막대 = 현재 높이
이번 에피소드 스텝
0.0000
에피소드 누적 보상
그네 높이
0.0108
높이 탄 횟수
그네를 높이 탈수록 보상이 커집니다
관련 배우기