ray/python/ray/rllib/tests/test_evaluators.py

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import unittest

import ray
from ray.rllib.agents.dqn import DQNTrainer
from ray.rllib.agents.dqn.dqn_policy_graph import _adjust_nstep


class DQNTest(unittest.TestCase):
    def testNStep(self):
        obs = [1, 2, 3, 4, 5, 6, 7]
        actions = ["a", "b", "a", "a", "a", "b", "a"]
        rewards = [10.0, 0.0, 100.0, 100.0, 100.0, 100.0, 100.0]
        new_obs = [2, 3, 4, 5, 6, 7, 8]
        dones = [0, 0, 0, 0, 0, 0, 1]
        _adjust_nstep(3, 0.9, obs, actions, rewards, new_obs, dones)
        self.assertEqual(obs, [1, 2, 3, 4, 5, 6, 7])
        self.assertEqual(actions, ["a", "b", "a", "a", "a", "b", "a"])
        self.assertEqual(new_obs, [4, 5, 6, 7, 8, 8, 8])
        self.assertEqual(dones, [0, 0, 0, 0, 1, 1, 1])
        self.assertEqual(rewards,
                         [91.0, 171.0, 271.0, 271.0, 271.0, 190.0, 100.0])

    def testEvaluationOption(self):
        ray.init()
        agent = DQNTrainer(
            env="CartPole-v0", config={"evaluation_interval": 2})
        r0 = agent.train()
        r1 = agent.train()
        r2 = agent.train()
        r3 = agent.train()
        r4 = agent.train()
        self.assertTrue("evaluation" in r0)
        self.assertTrue("episode_reward_mean" in r0["evaluation"])
        self.assertEqual(r0["evaluation"], r1["evaluation"])
        self.assertNotEqual(r1["evaluation"], r2["evaluation"])
        self.assertEqual(r2["evaluation"], r3["evaluation"])
        self.assertNotEqual(r3["evaluation"], r4["evaluation"])


if __name__ == "__main__":
    unittest.main(verbosity=2)
[rllib] Evaluators and Optimizers Refactoring (#1339) 2017-12-30 00:24:54 -08:00			`from __future__ import absolute_import`
			`from __future__ import division`
			`from __future__ import print_function`

			`import unittest`

[rllib] Add evaluation option to DQN agent (#3835) * add eval * interval * multiagent minor fix * Update rllib.rst * Update ddpg.py * Update qmix.py 2019-01-29 21:19:53 -08:00			`import ray`
[rllib] Rename Agent to Trainer (#4556) 2019-04-07 00:36:18 -07:00			`from ray.rllib.agents.dqn import DQNTrainer`
[rllib] Better document which methods are abstract and which ones are overrides (#3480) 2018-12-08 16:28:58 -08:00			`from ray.rllib.agents.dqn.dqn_policy_graph import _adjust_nstep`
[rllib] Evaluators and Optimizers Refactoring (#1339) 2017-12-30 00:24:54 -08:00

[rllib] Refactor rllib to have a common sample collection pathway (#2149) 2018-06-09 00:21:35 -07:00			`class DQNTest(unittest.TestCase):`
[rllib] Add n-step Q learning for DQN (#1439) * n-step * add sample adjustm * Oops * fix nstep * metric adjustment * Sat Jan 20 23:30:34 PST 2018 * Sun Jan 21 16:40:46 PST 2018 * Mon Jan 22 22:24:57 PST 2018 2018-01-23 10:31:19 -08:00			`def testNStep(self):`
			`obs = [1, 2, 3, 4, 5, 6, 7]`
			`actions = ["a", "b", "a", "a", "a", "b", "a"]`
[rllib] Fix edge case in n-step calculation and non-apex replay prioritization (#2929) * fix * lint 2018-09-28 15:22:33 -07:00			`rewards = [10.0, 0.0, 100.0, 100.0, 100.0, 100.0, 100.0]`
[rllib] Add n-step Q learning for DQN (#1439) * n-step * add sample adjustm * Oops * fix nstep * metric adjustment * Sat Jan 20 23:30:34 PST 2018 * Sun Jan 21 16:40:46 PST 2018 * Mon Jan 22 22:24:57 PST 2018 2018-01-23 10:31:19 -08:00			`new_obs = [2, 3, 4, 5, 6, 7, 8]`
[rllib] Fix edge case in n-step calculation and non-apex replay prioritization (#2929) * fix * lint 2018-09-28 15:22:33 -07:00			`dones = [0, 0, 0, 0, 0, 0, 1]`
[rllib] Better document which methods are abstract and which ones are overrides (#3480) 2018-12-08 16:28:58 -08:00			`_adjust_nstep(3, 0.9, obs, actions, rewards, new_obs, dones)`
[rllib] Fix edge case in n-step calculation and non-apex replay prioritization (#2929) * fix * lint 2018-09-28 15:22:33 -07:00			`self.assertEqual(obs, [1, 2, 3, 4, 5, 6, 7])`
			`self.assertEqual(actions, ["a", "b", "a", "a", "a", "b", "a"])`
			`self.assertEqual(new_obs, [4, 5, 6, 7, 8, 8, 8])`
			`self.assertEqual(dones, [0, 0, 0, 0, 1, 1, 1])`
			`self.assertEqual(rewards,`
			`[91.0, 171.0, 271.0, 271.0, 271.0, 190.0, 100.0])`
[rllib] Add n-step Q learning for DQN (#1439) * n-step * add sample adjustm * Oops * fix nstep * metric adjustment * Sat Jan 20 23:30:34 PST 2018 * Sun Jan 21 16:40:46 PST 2018 * Mon Jan 22 22:24:57 PST 2018 2018-01-23 10:31:19 -08:00
[rllib] Add evaluation option to DQN agent (#3835) * add eval * interval * multiagent minor fix * Update rllib.rst * Update ddpg.py * Update qmix.py 2019-01-29 21:19:53 -08:00			`def testEvaluationOption(self):`
			`ray.init()`
[rllib] Rename Agent to Trainer (#4556) 2019-04-07 00:36:18 -07:00			`agent = DQNTrainer(`
			`env="CartPole-v0", config={"evaluation_interval": 2})`
[rllib] Add evaluation option to DQN agent (#3835) * add eval * interval * multiagent minor fix * Update rllib.rst * Update ddpg.py * Update qmix.py 2019-01-29 21:19:53 -08:00			`r0 = agent.train()`
			`r1 = agent.train()`
			`r2 = agent.train()`
			`r3 = agent.train()`
			`r4 = agent.train()`
			`self.assertTrue("evaluation" in r0)`
			`self.assertTrue("episode_reward_mean" in r0["evaluation"])`
			`self.assertEqual(r0["evaluation"], r1["evaluation"])`
			`self.assertNotEqual(r1["evaluation"], r2["evaluation"])`
			`self.assertEqual(r2["evaluation"], r3["evaluation"])`
			`self.assertNotEqual(r3["evaluation"], r4["evaluation"])`

[rllib] Add n-step Q learning for DQN (#1439) * n-step * add sample adjustm * Oops * fix nstep * metric adjustment * Sat Jan 20 23:30:34 PST 2018 * Sun Jan 21 16:40:46 PST 2018 * Mon Jan 22 22:24:57 PST 2018 2018-01-23 10:31:19 -08:00
Replace '__main__' with "__main__". (#4055) 2019-02-15 13:32:43 -08:00			`if __name__ == "__main__":`
[rllib] Evaluators and Optimizers Refactoring (#1339) 2017-12-30 00:24:54 -08:00			`unittest.main(verbosity=2)`