大家的AI
机器学习Playground 试玩

游乐场

动手实验的 AI 实验室

深度学习

  • 神经网络分类器

强化学习

  • 强化学习智能体

计算机视觉

  • 卷积视觉

Transformer

  • 注意力 Playground
神经网络分类器强化学习智能体卷积视觉注意力 Playground
加载中…

游乐场

秋千强化学习

Q-learning 自学何时推、何时靠惯性——像荡秋千一样!

回合0
训练设置说明

下落时推、上升时靠惯性——Q 表从奖励中学到这一节奏。

  • 学习率 α: 每次 Q 更新幅度。过大可能不稳定。
  • 折扣 γ: 未来奖励的重要程度,越接近 1 越重视远期回报。
  • 探索 ε: 随机推或靠惯性的概率。高则多尝试,低则沿用已学节奏。

秋千设置

绳长、摩擦与风力改变难度

奖励为高度(1−cos θ)。左右推拉以增大摆幅。

绳长:
1.20 m
摩擦:
0.035
推力:
2.2
  • 在最低点朝反方向推可积蓄能量
  • 接近最高点时滑行通常更有利

秋千模拟器

紫色机器人=智能体 · 条=高度

本回合步数

0.0000

回合累计奖励

0.0000

高度

0.0035

荡高次数

0.0000

🤖高度 0%本回合最高 0%
θ -4.8°ω 0.12

回合奖励

荡得越高,奖励越大

开始训练后将显示每回合奖励

相关章节

  • 马尔可夫链:状态转移与概率过程
  • 蒙特卡洛积分:数值近似法
  • MDP与贝尔曼方程:强化学习的数学骨架