状態価値 | 業務改善の部屋

【強化学習】ベルマン方程式を日本語に翻訳すると？

今回は、強化学習に触れると必ず出てくるベルマン方程式について、数式の意味をできるだけ言語で解説してみます。

2024.12.25

AI/データサイエンス

【強化学習】価値関数とは何か – V(s)とQ(s,a)から解説

強化学習の目標は報酬を最大化することですが、それを達成するための手段の一つが価値関数です。望ましい状態や行動を価値が高いと評価することで、結果的に報酬を最大化することが狙いです。

2024.11.12

AI/データサイエンス