馬爾可夫決策過程(Markov Decision Process, MDP)是一種數學框架,用於模擬在具有馬爾可夫性質的環境中,智慧型體(agent)如何基於當前狀態採取行動以最大化長期回報。MDP的基本要素包括:
狀態(State)。環境可能處於的不同狀態。
動作(Action)。智慧型體可以採取的不同行動。
狀態轉移機率(Transition Probability)。從一個狀態採取一個行動後轉移到另一個狀態的機率。
獎勵函式(Reward Function)。基於當前狀態和行動後獲得的即時獎勵。
在MDP中,智慧型體在每個時刻根據當前狀態選擇一個行動,然後根據狀態轉移機率移動到下一個狀態,並獲得一個即時獎勵。智慧型體的目標是學習或發現一組行動策略,使得長期累積的獎勵最大化。MDP的理論基礎是馬爾可夫鏈,它在強化學習問題中找到了廣泛套用,如機器學習、自動控制、推薦系統等。
MDP的變種包括部分可觀察馬爾可夫決策過程(POMDP)、約束馬爾可夫決策過程和模糊馬爾可夫決策過程等。這些變種適用於更複雜或部分可觀察的環境。