ray/rllib/tests/test_external_multi_agent_env.py

import gym
import numpy as np
import random
import unittest

import ray
from ray.rllib.agents.pg.pg_tf_policy import PGTFPolicy
from ray.rllib.optimizers import SyncSamplesOptimizer
from ray.rllib.evaluation.rollout_worker import RolloutWorker
from ray.rllib.evaluation.worker_set import WorkerSet
from ray.rllib.env.external_multi_agent_env import ExternalMultiAgentEnv
from ray.rllib.tests.test_rollout_worker import MockPolicy
from ray.rllib.tests.test_external_env import make_simple_serving
from ray.rllib.tests.test_multi_agent_env import BasicMultiAgent, MultiCartpole
from ray.rllib.evaluation.metrics import collect_metrics

SimpleMultiServing = make_simple_serving(True, ExternalMultiAgentEnv)


class TestExternalMultiAgentEnv(unittest.TestCase):
    def setUp(self) -> None:
        ray.init()

    def tearDown(self) -> None:
        ray.shutdown()

    def test_external_multi_agent_env_complete_episodes(self):
        agents = 4
        ev = RolloutWorker(
            env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),
            policy=MockPolicy,
            rollout_fragment_length=40,
            batch_mode="complete_episodes")
        for _ in range(3):
            batch = ev.sample()
            self.assertEqual(batch.count, 40)
            self.assertEqual(len(np.unique(batch["agent_index"])), agents)

    def test_external_multi_agent_env_truncate_episodes(self):
        agents = 4
        ev = RolloutWorker(
            env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),
            policy=MockPolicy,
            rollout_fragment_length=40,
            batch_mode="truncate_episodes")
        for _ in range(3):
            batch = ev.sample()
            self.assertEqual(batch.count, 160)
            self.assertEqual(len(np.unique(batch["agent_index"])), agents)

    def test_external_multi_agent_env_sample(self):
        agents = 2
        act_space = gym.spaces.Discrete(2)
        obs_space = gym.spaces.Discrete(2)
        ev = RolloutWorker(
            env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),
            policy={
                "p0": (MockPolicy, obs_space, act_space, {}),
                "p1": (MockPolicy, obs_space, act_space, {}),
            },
            policy_mapping_fn=lambda agent_id: "p{}".format(agent_id % 2),
            rollout_fragment_length=50)
        batch = ev.sample()
        self.assertEqual(batch.count, 50)

    def test_train_external_multi_cartpole_many_policies(self):
        n = 20
        single_env = gym.make("CartPole-v0")
        act_space = single_env.action_space
        obs_space = single_env.observation_space
        policies = {}
        for i in range(20):
            policies["pg_{}".format(i)] = (PGTFPolicy, obs_space, act_space,
                                           {})
        policy_ids = list(policies.keys())
        ev = RolloutWorker(
            env_creator=lambda _: MultiCartpole(n),
            policy=policies,
            policy_mapping_fn=lambda agent_id: random.choice(policy_ids),
            rollout_fragment_length=100)
        optimizer = SyncSamplesOptimizer(WorkerSet._from_existing(ev))
        for i in range(100):
            optimizer.step()
            result = collect_metrics(ev)
            print("Iteration {}, rew {}".format(i,
                                                result["policy_reward_mean"]))
            print("Total reward", result["episode_reward_mean"])
            if result["episode_reward_mean"] >= 25 * n:
                return
        raise Exception("failed to improve reward")


if __name__ == "__main__":
    import pytest
    import sys
    sys.exit(pytest.main(["-v", __file__]))
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`import gym`
			`import numpy as np`
			`import random`
			`import unittest`

			`import ray`
PG unify/cleanup tf vs torch and PG functionality test cases (tf + torch). (#6650) * Unifying the code for PGTrainer/Policy wrt tf vs torch. Adding loss function test cases for the PGAgent (confirm equivalence of tf and torch). * Fix LINT line-len errors. * Fix LINT errors. * Fix `tf_pg_policy` imports (formerly: `pg_policy`). * Rename tf_pg_... into pg_tf_... following <alg>_<framework>_... convention, where ...=policy/loss/agent/trainer. Retire `PGAgent` class (use PGTrainer instead). * - Move PG test into agents/pg/tests directory. - All test cases will be located near the classes that are tested and then built into the Bazel/Travis test suite. * Moved post_process_advantages into pg.py (from pg_tf_policy.py), b/c the function is not a tf-specific one. * Fix remaining import errors for agents/pg/... * Fix circular dependency in pg imports. * Add pg tests to Jenkins test suite. 2020-01-02 19:08:03 -05:00			`from ray.rllib.agents.pg.pg_tf_policy import PGTFPolicy`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`from ray.rllib.optimizers import SyncSamplesOptimizer`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`from ray.rllib.evaluation.rollout_worker import RolloutWorker`
			`from ray.rllib.evaluation.worker_set import WorkerSet`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`from ray.rllib.env.external_multi_agent_env import ExternalMultiAgentEnv`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`from ray.rllib.tests.test_rollout_worker import MockPolicy`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`from ray.rllib.tests.test_external_env import make_simple_serving`
			`from ray.rllib.tests.test_multi_agent_env import BasicMultiAgent, MultiCartpole`
			`from ray.rllib.evaluation.metrics import collect_metrics`

			`SimpleMultiServing = make_simple_serving(True, ExternalMultiAgentEnv)`


			`class TestExternalMultiAgentEnv(unittest.TestCase):`
[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`def setUp(self) -> None:`
			`ray.init()`

			`def tearDown(self) -> None:`
			`ray.shutdown()`

			`def test_external_multi_agent_env_complete_episodes(self):`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`agents = 4`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`ev = RolloutWorker(`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),`
[rllib] Rename PolicyGraph => Policy, move from evaluation/ to policy/ (#4819) This implements some of the renames proposed in #4813 We leave behind backwards-compatibility aliases for *PolicyGraph and SampleBatch. 2019-05-20 16:46:05 -07:00			`policy=MockPolicy,`
[rllib] Rename sample_batch_size => rollout_fragment_length (#7503) * bulk rename * deprecation warn * update doc * update fig * line length * rename * make pytest comptaible * fix test * fi sys * rename * wip * fix more * lint * update svg * comments * lint * fix use of batch steps 2020-03-14 12:05:04 -07:00			`rollout_fragment_length=40,`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`batch_mode="complete_episodes")`
			`for _ in range(3):`
			`batch = ev.sample()`
			`self.assertEqual(batch.count, 40)`
			`self.assertEqual(len(np.unique(batch["agent_index"])), agents)`

[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`def test_external_multi_agent_env_truncate_episodes(self):`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`agents = 4`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`ev = RolloutWorker(`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),`
[rllib] Rename PolicyGraph => Policy, move from evaluation/ to policy/ (#4819) This implements some of the renames proposed in #4813 We leave behind backwards-compatibility aliases for *PolicyGraph and SampleBatch. 2019-05-20 16:46:05 -07:00			`policy=MockPolicy,`
[rllib] Rename sample_batch_size => rollout_fragment_length (#7503) * bulk rename * deprecation warn * update doc * update fig * line length * rename * make pytest comptaible * fix test * fi sys * rename * wip * fix more * lint * update svg * comments * lint * fix use of batch steps 2020-03-14 12:05:04 -07:00			`rollout_fragment_length=40,`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`batch_mode="truncate_episodes")`
			`for _ in range(3):`
			`batch = ev.sample()`
			`self.assertEqual(batch.count, 160)`
			`self.assertEqual(len(np.unique(batch["agent_index"])), agents)`

[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`def test_external_multi_agent_env_sample(self):`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`agents = 2`
			`act_space = gym.spaces.Discrete(2)`
			`obs_space = gym.spaces.Discrete(2)`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`ev = RolloutWorker(`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`env_creator=lambda _: SimpleMultiServing(BasicMultiAgent(agents)),`
[rllib] Rename PolicyGraph => Policy, move from evaluation/ to policy/ (#4819) This implements some of the renames proposed in #4813 We leave behind backwards-compatibility aliases for *PolicyGraph and SampleBatch. 2019-05-20 16:46:05 -07:00			`policy={`
			`"p0": (MockPolicy, obs_space, act_space, {}),`
			`"p1": (MockPolicy, obs_space, act_space, {}),`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`},`
			`policy_mapping_fn=lambda agent_id: "p{}".format(agent_id % 2),`
[rllib] Rename sample_batch_size => rollout_fragment_length (#7503) * bulk rename * deprecation warn * update doc * update fig * line length * rename * make pytest comptaible * fix test * fi sys * rename * wip * fix more * lint * update svg * comments * lint * fix use of batch steps 2020-03-14 12:05:04 -07:00			`rollout_fragment_length=50)`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`batch = ev.sample()`
			`self.assertEqual(batch.count, 50)`

[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`def test_train_external_multi_cartpole_many_policies(self):`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`n = 20`
			`single_env = gym.make("CartPole-v0")`
			`act_space = single_env.action_space`
			`obs_space = single_env.observation_space`
			`policies = {}`
			`for i in range(20):`
[rllib] [RFC] Dynamic definition of loss functions and modularization support (#4795) * dynamic graph * wip * clean up * fix * document trainer * wip * initialize the graph using a fake batch * clean up dynamic init * wip * spelling * use builder for ppo pol graph * add ppo graph * fix naming * order * docs * set class name correctly * add torch builder * add custom model support in builder * cleanup * remove underscores * fix py2 compat * Update dynamic_tf_policy_graph.py * Update tracking_dict.py * wip * rename * debug level * rename policy_graph -> policy in new classes * fix test * rename ppo tf policy * port appo too * forgot grads * default policy optimizer * make default config optional * add config to optimizer * use lr by default in optimizer * update * comments * remove optimizer * fix tuple actions support in dynamic tf graph 2019-05-18 00:23:11 -07:00			`policies["pg_{}".format(i)] = (PGTFPolicy, obs_space, act_space,`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`{})`
			`policy_ids = list(policies.keys())`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`ev = RolloutWorker(`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`env_creator=lambda _: MultiCartpole(n),`
[rllib] Rename PolicyGraph => Policy, move from evaluation/ to policy/ (#4819) This implements some of the renames proposed in #4813 We leave behind backwards-compatibility aliases for *PolicyGraph and SampleBatch. 2019-05-20 16:46:05 -07:00			`policy=policies,`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`policy_mapping_fn=lambda agent_id: random.choice(policy_ids),`
[rllib] Rename sample_batch_size => rollout_fragment_length (#7503) * bulk rename * deprecation warn * update doc * update fig * line length * rename * make pytest comptaible * fix test * fi sys * rename * wip * fix more * lint * update svg * comments * lint * fix use of batch steps 2020-03-14 12:05:04 -07:00			`rollout_fragment_length=100)`
[rllib] Rename PolicyEvaluator => RolloutWorker (#4820) 2019-06-03 06:49:24 +08:00			`optimizer = SyncSamplesOptimizer(WorkerSet._from_existing(ev))`
[rllib] ExternalMultiAgentEnv (#4200) 2019-04-07 04:58:14 +02:00			`for i in range(100):`
			`optimizer.step()`
			`result = collect_metrics(ev)`
			`print("Iteration {}, rew {}".format(i,`
			`result["policy_reward_mean"]))`
			`print("Total reward", result["episode_reward_mean"])`
			`if result["episode_reward_mean"] >= 25 * n:`
			`return`
			`raise Exception("failed to improve reward")`


			`if __name__ == "__main__":`
[RLlib] Cleanup/unify all test cases. (#7533) 2020-03-12 04:39:47 +01:00			`import pytest`
			`import sys`
			`sys.exit(pytest.main(["-v", __file__]))`