状態価値

AI/データサイエンス

【強化学習】ベルマン方程式を日本語に翻訳すると?

今回は、強化学習に触れると必ず出てくるベルマン方程式について、数式の意味をできるだけ言語で解説してみます。
AI/データサイエンス

【強化学習】価値関数とは何か – V(s)とQ(s,a)から解説

強化学習の目標は報酬を最大化することですが、それを達成するための手段の一つが価値関数です。望ましい状態や行動を価値が高いと評価することで、結果的に報酬を最大化することが狙いです。
スポンサーリンク