ここで何を学べますか？

角度と角速度を離散化したQ表で、左に押す・そのまま・右に押すの3動作を学習します。高さに応じた報酬とε-greedyでRLの基本ループを体験できます。

報酬はどう決まりますか？

各ステップでブランコの高さ(1−cos θ)に比例した報酬を与え、十分高いとボーナスを加えます。押す行動には小さなコストがあり、速度・角度が極端だとエピソード終了です。

αは学習率、γは割引率、εはランダム行動の割合です。スライダーで調整し、学習曲線の変化を観察できます。

読み込み中…

プレイグラウンド

Q学習がブランコをこぐタイミングを自分で覚えます！

エピソード0

学習率 α割引率 γ探索 ε速度

数式を表示

学習設定の説明

下りで押し、上りは惰性—Q表がこのリズムを学びます。

ロープ・摩擦・風で難易度が変わります

報酬は高さ(1−cos θ)。左右に押して振幅を大きくします。

紫ロボット=エージェント · バー=高さ

このエピソードのステップ

0.0000

エピソード累積報酬

0.0000

高さ

0.0031

高くこいだ回数

0.0000

θ -4.5°ω 0.24

高くこぐほど報酬が増えます

学習を始めるとエピソードごとの報酬が表示されます