貝爾曼方程是什麼

動態規劃方程

貝爾曼方程，也被稱為動態規劃方程(Dynamic Programming Equation)，是數學最佳化中一個重要的概念，特別是在動態規劃領域。

貝爾曼方程是由理察·貝爾曼(Richard Bellman)提出的，這個方程式用於描述在動態規劃問題中，狀態值函式與其下一狀態值函式之間的關係。它通過當前狀態和在該狀態下採取行動後可能達到的下一個狀態，以及獲得的獎勵，來定義狀態值函式。貝爾曼方程在強化學習中也扮演著關鍵角色，特別是在計算狀態-動作值函式(Q-learning)時。