PolicyIteration

java.lang.Object
- aima.core.probability.mdp.search.PolicyIteration<S,A>

Type Parameters:: S - the state type.; A - the action type.

public class PolicyIteration<S,A extends Action>
extends java.lang.Object

Artificial Intelligence A Modern Approach (3rd Edition): page 657.

 function POLICY-ITERATION(mdp) returns a policy
   inputs: mdp, an MDP with states S, actions A(s), transition model P(s' | s, a)
   local variables: U, a vector of utilities for states in S, initially zero
                    π, a policy vector indexed by state, initially random
                    
   repeat
      U <- POLICY-EVALUATION(π, U, mdp)
      unchanged? <- true
      for each state s in S do
          if max_{a ∈ A(s)} Σ_s'P(s'|s,a)U[s'] > Σ_s'P(s'|s,π[s])U[s'] then do
             π[s] <- argmax_{a ∈ A(s)} Σ_s'P(s'|s,a)U[s']
             unchanged? <- false
   until unchanged?
   return π

Figure 17.7 The policy iteration algorithm for calculating an optimal policy.

Author:: Ciaran O'Reilly, Ravi Mohan

Constructor Summary

Constructors
Constructor and Description

PolicyIteration(PolicyEvaluation<S,A> policyEvaluation)
Constructor.

Constructors
Constructor and Description
`PolicyIteration(PolicyEvaluation<S,A> policyEvaluation)` Constructor.

Method Summary

All Methods Static Methods Instance Methods Concrete Methods
Modifier and Type	Method and Description
`static <S,A extends Action> java.util.Map<S,A>`	`initialPolicyVector(MarkovDecisionProcess<S,A> mdp)` Create a policy vector indexed by state, initially random.
`Policy<S,A>`	`policyIteration(MarkovDecisionProcess<S,A> mdp)` The policy iteration algorithm for calculating an optimal policy.

Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

- Constructor Detail
  - PolicyIteration
```
public PolicyIteration(PolicyEvaluation<S,A> policyEvaluation)
```
    Constructor.
    
    Parameters:
    
    policyEvaluation - the policy evaluation function to use.
- Method Detail
  - policyIteration
```
public Policy<S,A> policyIteration(MarkovDecisionProcess<S,A> mdp)
```
    The policy iteration algorithm for calculating an optimal policy.
    
    Parameters:
    
    mdp - an MDP with states S, actions A(s), transition model P(s'|s,a)
    
    Returns:
    
    an optimal policy
  - initialPolicyVector
```
public static <S,A extends Action> java.util.Map<S,A> initialPolicyVector(MarkovDecisionProcess<S,A> mdp)
```
    Create a policy vector indexed by state, initially random.
    
    Parameters:
    
    mdp - an MDP with states S, actions A(s), transition model P(s'|s,a)
    
    Returns:
    
    a policy vector indexed by state, initially random.

Class PolicyIteration<S,A extends Action>

Constructor Summary

Method Summary

Methods inherited from class java.lang.Object

Constructor Detail

PolicyIteration

Method Detail

policyIteration

initialPolicyVector