みんなのAI
機械学習プレイグラウンド

プレイグラウンド

触って学ぶAI実験室

ディープラーニング

  • NN分類器

強化学習

  • RLエージェント

コンピュータビジョン

  • 畳み込みビジョン

Transformer

  • Attention プレイグラウンド
NN分類器RLエージェント畳み込みビジョンAttention プレイグラウンド
読み込み中…

プレイグラウンド

ブランコ強化学習

Q学習がブランコをこぐタイミングを自分で覚えます!

エピソード0
学習設定の説明

下りで押し、上りは惰性—Q表がこのリズムを学びます。

  • 学習率 α: Q値を1回でどれだけ更新するか。大きいと速いが不安定になりやすい。
  • 割引率 γ: 将来の報酬をどれだけ重視するか。1に近いほど遠い報酬も大きく反映。
  • 探索 ε: ランダムに押す確率。高いと多く試し、低いと慣れたリズムに従います。

ブランコ設定

ロープ・摩擦・風で難易度が変わります

報酬は高さ(1−cos θ)。左右に押して振幅を大きくします。

ロープ:
1.20 m
摩擦:
0.035
押し:
2.2
  • 下りで運動と逆に押すとエネルギーが増えます
  • 頂上付近は惰性が有利なことが多いです

ブランコシミュレータ

紫ロボット=エージェント · バー=高さ

このエピソードのステップ

0.0000

エピソード累積報酬

0.0000

高さ

0.0002

高くこいだ回数

0.0000

🤖高さ 0%エピソード最高 0%
θ -1.1°ω 0.08

エピソード報酬

高くこぐほど報酬が増えます

学習を始めるとエピソードごとの報酬が表示されます

関連チャプター

  • マルコフ連鎖:状態遷移と確率過程
  • モンテカルロ積分:数値的近似法
  • MDPとベルマン方程式:強化学習の数学的骨格