ray/rllib/tests/test_multi_agent_pendulum.py

"""Integration test: (1) pendulum works, (2) single-agent multi-agent works."""
import unittest

import ray
from ray.rllib.tests.test_multi_agent_env import make_multiagent
from ray.tune import run_experiments
from ray.tune.registry import register_env


class TestMultiAgentPendulum(unittest.TestCase):
    def setUp(self) -> None:
        ray.init()

    def tearDown(self) -> None:
        ray.shutdown()

    def test_multi_agent_pendulum(self):
        MultiPendulum = make_multiagent("Pendulum-v0")
        register_env("multi_pend", lambda _: MultiPendulum(1))
        trials = run_experiments({
            "test": {
                "run": "PPO",
                "env": "multi_pend",
                "stop": {
                    "timesteps_total": 500000,
                    "episode_reward_mean": -200,
                },
                "config": {
                    "train_batch_size": 2048,
                    "vf_clip_param": 10.0,
                    "num_workers": 0,
                    "num_envs_per_worker": 10,
                    "lambda": 0.1,
                    "gamma": 0.95,
                    "lr": 0.0003,
                    "sgd_minibatch_size": 64,
                    "num_sgd_iter": 10,
                    "model": {
                        "fcnet_hiddens": [64, 64],
                    },
                    "batch_mode": "complete_episodes",
                },
            }
        })
        if trials[0].last_result["episode_reward_mean"] < -200:
            raise ValueError("Did not get to -200 reward",
                             trials[0].last_result)


if __name__ == "__main__":
    import pytest
    import sys
    sys.exit(pytest.main(["-v", __file__]))
[rllib] Learner should not see clipped actions (#3496) 2018-12-09 21:57:11 -08:00			`"""Integration test: (1) pendulum works, (2) single-agent multi-agent works."""`
[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`import unittest`
[rllib] Learner should not see clipped actions (#3496) 2018-12-09 21:57:11 -08:00
			`import ray`
Move test folders under rllib/tune from test -> tests. (#4214) 2019-03-02 13:37:16 -08:00			`from ray.rllib.tests.test_multi_agent_env import make_multiagent`
[rllib] Learner should not see clipped actions (#3496) 2018-12-09 21:57:11 -08:00			`from ray.tune import run_experiments`
			`from ray.tune.registry import register_env`

[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00
			`class TestMultiAgentPendulum(unittest.TestCase):`
			`def setUp(self) -> None:`
			`ray.init()`

			`def tearDown(self) -> None:`
			`ray.shutdown()`

			`def test_multi_agent_pendulum(self):`
			`MultiPendulum = make_multiagent("Pendulum-v0")`
			`register_env("multi_pend", lambda _: MultiPendulum(1))`
			`trials = run_experiments({`
			`"test": {`
			`"run": "PPO",`
			`"env": "multi_pend",`
			`"stop": {`
			`"timesteps_total": 500000,`
			`"episode_reward_mean": -200,`
[rllib] Learner should not see clipped actions (#3496) 2018-12-09 21:57:11 -08:00			`},`
[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`"config": {`
			`"train_batch_size": 2048,`
			`"vf_clip_param": 10.0,`
			`"num_workers": 0,`
			`"num_envs_per_worker": 10,`
			`"lambda": 0.1,`
			`"gamma": 0.95,`
			`"lr": 0.0003,`
			`"sgd_minibatch_size": 64,`
			`"num_sgd_iter": 10,`
			`"model": {`
			`"fcnet_hiddens": [64, 64],`
			`},`
			`"batch_mode": "complete_episodes",`
			`},`
			`}`
			`})`
			`if trials[0].last_result["episode_reward_mean"] < -200:`
			`raise ValueError("Did not get to -200 reward",`
			`trials[0].last_result)`


			`if __name__ == "__main__":`
			`import pytest`
			`import sys`
			`sys.exit(pytest.main(["-v", __file__]))`