状態価値

AI/データサイエンス

【強化学習】価値関数とは何か – V(s)とQ(s,a)から解説

強化学習の目標は報酬を最大化することですが、それを達成するための手段の一つが価値関数です。望ましい状態や行動を価値が高いと評価することで、結果的に報酬を最大化することが狙いです。
スポンサーリンク