游乐场
Q-learning 自学何时推、何时靠惯性——像荡秋千一样!
下落时推、上升时靠惯性——Q 表从奖励中学到这一节奏。
绳长、摩擦与风力改变难度
奖励为高度(1−cos θ)。左右推拉以增大摆幅。
紫色机器人=智能体 · 条=高度
本回合步数
0.0000
回合累计奖励
高度
0.0035
荡高次数
荡得越高,奖励越大
相关章节