Use observation filter in compute_action for PPO. (#884)

2025-03-06 10:31:39 -05:00 · 2017-08-28 23:01:29 -07:00 · 2017-08-28 23:01:29 -07:00 · 60d4d01d06
commit 60d4d01d06
parent 5d72818ddc
1 changed files with 1 additions and 0 deletions
--- a/python/ray/rllib/policy_gradient/policy_gradient.py
+++ b/python/ray/rllib/policy_gradient/policy_gradient.py
@ -266,4 +266,5 @@ class PolicyGradient(Algorithm):
                for (a, o) in zip(self.agents, extra_data[4])])

    def compute_action(self, observation):
+        observation = self.model.observation_filter(observation)
        return self.model.common_policy.compute([observation])[0][0]