在这里能学到什么？

用离散 Q 表把角度与角速度映射到三种动作：左推、惯性、右推。高度奖励与 ε-greedy 探索展示强化学习的基本循环。

奖励如何计算？

每步按秋千高度(1−cos θ)给奖励，荡得够高有加成；推秋千有小代价，速度或角度过激则回合结束。

α 是学习率，γ 是折扣因子，ε 是随机探索比例。拖动滑块观察回报与策略如何变化。

加载中…

游乐场

Q-learning 自学何时推、何时靠惯性——像荡秋千一样！

回合0

学习率 α折扣 γ探索 ε速度

显示公式

训练设置说明

下落时推、上升时靠惯性——Q 表从奖励中学到这一节奏。

绳长、摩擦与风力改变难度

奖励为高度(1−cos θ)。左右推拉以增大摆幅。

紫色机器人=智能体 · 条=高度

本回合步数

0.0000

回合累计奖励

0.0000

高度

0.0057

荡高次数

0.0000

θ 6.1°ω -0.13

荡得越高，奖励越大

开始训练后将显示每回合奖励