勵志

勵志人生知識庫

上置信界算法

上置信界算法(Upper Confidence Bound,簡稱UCB)是一種在強化學習任務中用於平衡探索和開發(exploration and exploitation)的策略。它的核心思想是在決策時考慮到每個行動的不確定性,通過最佳化不確定性的度量來平衡探索和開發。UCB算法利用霍夫丁不等式(Hoeffding's inequality)來估計每個行動的期望獎勵的上界,加上一個與不確定性相關的獎勵,以鼓勵探索那些不確定性較高的行動。

具體來說,UCB算法的步驟如下:

對於每個行動\(a_t\),維護一個統計量\(\hat{U}(a_t)\),表示對該行動期望獎勵的不確定性度量。

在選擇行動時,計算每個行動的UCB值,即其期望獎勵的估計值加上一個與不確定性相關的獎勵。

選擇具有最高UCB值的行動作為當前行動。

UCB算法的不確定性度量\(\hat{U}(a_t)\)是根據霍夫丁不等式計算得出的,它隨著時間減少的機率\(p\)(例如\(p = \frac{1}{t}\)),以及選擇的次數\(N(a_t)\)和不確定性度量\(U(a_t)\)的關係來調整。這樣,UCB算法能夠在保證探索的同時,也考慮到已經探索過的行動的信息,從而做出更有效的決策。

UCB算法不僅適用於多臂老虎機問題(multi-armed bandit problem),也廣泛套用於其他強化學習場景中,如上下文多臂老虎機問題(contextual bandit problem)和線性強化學習問題。它的設計目的是在有限的資源下最大化長期獎勵,通過平衡探索(嘗試新的行動以獲取更多信息)和開發(利用已知的最佳行動)來實現這一目標。