最小最大化原理(Minimax Principle)是一種在零和博弈中常用的決策策略。在這種策略中,每個玩家都會在可選的選項中選擇能夠最大化自己N步後優勢或者最小化對手優勢的選項。這個過程可以被視作一顆決策樹,其中每個節點代表一個決策點,每個分支代表一個可能的結果。
MAX層:當決策樹的某一層完全由己方的決策依據狀態組成,即接下來是己方進行動作,己方會選擇使得自己收益最大化的路徑。
MIN層:當決策樹的某一層完全由對手的決策依據狀態組成,即接下來是對手進行動作,對手會選擇使得自己收益最小化的路徑。
因此,一個極小化極大的決策樹將包含MAX節點(MAX層中的節點)、MIN節點(MIN層中的節點)和終止節點(博弈終止狀態節點或N步時的狀態節點)。每個節點對應的預期收益成為該節點的minimax值。對於終止結點,minimax值等於直接對局面的估值。