プレイグラウンド
Q学習がブランコをこぐタイミングを自分で覚えます!
下りで押し、上りは惰性—Q表がこのリズムを学びます。
ロープ・摩擦・風で難易度が変わります
報酬は高さ(1−cos θ)。左右に押して振幅を大きくします。
紫ロボット=エージェント · バー=高さ
このエピソードのステップ
0.0000
エピソード累積報酬
高さ
0.0002
高くこいだ回数
高くこぐほど報酬が増えます
関連チャプター