ray/rllib/tests/test_placement_groups.py

import os
import unittest

import ray
from ray import tune
from ray.tune import Callback
from ray.rllib.algorithms.pg import PG, DEFAULT_CONFIG
from ray.tune.execution.ray_trial_executor import RayTrialExecutor
from ray.tune.experiment import Trial
from ray.tune.execution.placement_groups import PlacementGroupFactory

trial_executor = None


class _TestCallback(Callback):
    def on_step_end(self, iteration, trials, **info):
        num_finished = len(
            [
                t
                for t in trials
                if t.status == Trial.TERMINATED or t.status == Trial.ERROR
            ]
        )
        num_running = len([t for t in trials if t.status == Trial.RUNNING])

        num_staging = sum(len(s) for s in trial_executor._pg_manager._staging.values())
        num_ready = sum(len(s) for s in trial_executor._pg_manager._ready.values())
        num_in_use = len(trial_executor._pg_manager._in_use_pgs)
        num_cached = len(trial_executor._pg_manager._cached_pgs)

        total_num_tracked = num_staging + num_ready + num_in_use + num_cached

        # All 3 trials (3 different learning rates) should be scheduled.
        assert 3 == min(3, len(trials))
        # Cannot run more than 2 at a time
        # (due to different resource restrictions in the test cases).
        assert num_running <= 2
        # The number of placement groups should decrease
        # when trials finish.
        assert max(3, len(trials)) - num_finished == total_num_tracked


class TestPlacementGroups(unittest.TestCase):
    def setUp(self) -> None:
        os.environ["TUNE_PLACEMENT_GROUP_RECON_INTERVAL"] = "0"
        ray.init(num_cpus=6)

    def tearDown(self) -> None:
        ray.shutdown()

    def test_overriding_default_resource_request(self):
        config = DEFAULT_CONFIG.copy()
        config["model"]["fcnet_hiddens"] = [10]
        config["num_workers"] = 2
        # 3 Trials: Can only run 2 at a time (num_cpus=6; needed: 3).
        config["lr"] = tune.grid_search([0.1, 0.01, 0.001])
        config["env"] = "CartPole-v0"
        config["framework"] = "tf"

        # Create an Algorithm with an overridden default_resource_request
        # method that returns a PlacementGroupFactory.

        class MyAlgo(PG):
            @classmethod
            def default_resource_request(cls, config):
                head_bundle = {"CPU": 1, "GPU": 0}
                child_bundle = {"CPU": 1}
                return PlacementGroupFactory(
                    [head_bundle, child_bundle, child_bundle],
                    strategy=config["placement_strategy"],
                )

        tune.register_trainable("my_trainable", MyAlgo)

        global trial_executor
        trial_executor = RayTrialExecutor(reuse_actors=False)

        tune.run(
            "my_trainable",
            config=config,
            stop={"training_iteration": 2},
            trial_executor=trial_executor,
            callbacks=[_TestCallback()],
            verbose=2,
        )

    def test_default_resource_request(self):
        config = DEFAULT_CONFIG.copy()
        config["model"]["fcnet_hiddens"] = [10]
        config["num_workers"] = 2
        config["num_cpus_per_worker"] = 2
        # 3 Trials: Can only run 1 at a time (num_cpus=6; needed: 5).
        config["lr"] = tune.grid_search([0.1, 0.01, 0.001])
        config["env"] = "CartPole-v0"
        config["framework"] = "torch"
        config["placement_strategy"] = "SPREAD"

        global trial_executor
        trial_executor = RayTrialExecutor(reuse_actors=False)

        tune.run(
            "PG",
            config=config,
            stop={"training_iteration": 2},
            trial_executor=trial_executor,
            callbacks=[_TestCallback()],
            verbose=2,
        )

    def test_default_resource_request_plus_manual_leads_to_error(self):
        config = DEFAULT_CONFIG.copy()
        config["model"]["fcnet_hiddens"] = [10]
        config["num_workers"] = 0
        config["env"] = "CartPole-v0"

        try:
            tune.run(
                "PG",
                config=config,
                stop={"training_iteration": 2},
                resources_per_trial=PlacementGroupFactory([{"CPU": 1}]),
                verbose=2,
            )
        except ValueError as e:
            assert "have been automatically set to" in e.args[0]


if __name__ == "__main__":
    import pytest
    import sys

    sys.exit(pytest.main(["-v", __file__]))
[tune] Reconcile placement groups every N seconds to avoid bottlenecks when running many short trials (#15011) Closes a release blocking issue 2021-04-01 17:04:44 +02:00			`import os`
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00			`import unittest`

			`import ray`
			`from ray import tune`
			`from ray.tune import Callback`
[RLlib] Move all remaining algos into `algorithms` directory. (#25366) 2022-06-04 07:35:24 +02:00			`from ray.rllib.algorithms.pg import PG, DEFAULT_CONFIG`
[tune/structure] Introduce execution package (#26015) Execution-specific packages are moved to tune.execution. Co-authored-by: Xiaowei Jiang <xwjiang2010@gmail.com> 2022-06-23 11:13:19 +01:00			`from ray.tune.execution.ray_trial_executor import RayTrialExecutor`
[tune/structure] Introduce experiment package (#26033) Experiment, Trial, and config parsing moves into an `experiment` package. Notably, the new public facing APIs will be ``` from ray.tune.experiment import Experiment from ray.tune.experiment import Trial ``` 2022-06-23 14:52:46 +01:00			`from ray.tune.experiment import Trial`
[tune/structure] Introduce execution package (#26015) Execution-specific packages are moved to tune.execution. Co-authored-by: Xiaowei Jiang <xwjiang2010@gmail.com> 2022-06-23 11:13:19 +01:00			`from ray.tune.execution.placement_groups import PlacementGroupFactory`
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00
			`trial_executor = None`


			`class _TestCallback(Callback):`
			`def on_step_end(self, iteration, trials, **info):`
			`num_finished = len(`
			`[`
			`t`
			`for t in trials`
			`if t.status == Trial.TERMINATED or t.status == Trial.ERROR`
			`]`
			`)`
			`num_running = len([t for t in trials if t.status == Trial.RUNNING])`

			`num_staging = sum(len(s) for s in trial_executor._pg_manager._staging.values())`
			`num_ready = sum(len(s) for s in trial_executor._pg_manager._ready.values())`
			`num_in_use = len(trial_executor._pg_manager._in_use_pgs)`
			`num_cached = len(trial_executor._pg_manager._cached_pgs)`

			`total_num_tracked = num_staging + num_ready + num_in_use + num_cached`

			`# All 3 trials (3 different learning rates) should be scheduled.`
			`assert 3 == min(3, len(trials))`
			`# Cannot run more than 2 at a time`
			`# (due to different resource restrictions in the test cases).`
			`assert num_running <= 2`
			`# The number of placement groups should decrease`
			`# when trials finish.`
			`assert max(3, len(trials)) - num_finished == total_num_tracked`


			`class TestPlacementGroups(unittest.TestCase):`
			`def setUp(self) -> None:`
[tune] Reconcile placement groups every N seconds to avoid bottlenecks when running many short trials (#15011) Closes a release blocking issue 2021-04-01 17:04:44 +02:00			`os.environ["TUNE_PLACEMENT_GROUP_RECON_INTERVAL"] = "0"`
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00			`ray.init(num_cpus=6)`

			`def tearDown(self) -> None:`
			`ray.shutdown()`

			`def test_overriding_default_resource_request(self):`
			`config = DEFAULT_CONFIG.copy()`
			`config["model"]["fcnet_hiddens"] = [10]`
			`config["num_workers"] = 2`
			`# 3 Trials: Can only run 2 at a time (num_cpus=6; needed: 3).`
			`config["lr"] = tune.grid_search([0.1, 0.01, 0.001])`
			`config["env"] = "CartPole-v0"`
			`config["framework"] = "tf"`

[RLlib] More Trainer -> Algorithm renaming cleanups. (#25869) 2022-06-20 15:54:00 +02:00			`# Create an Algorithm with an overridden default_resource_request`
Revert "Revert [RLlib] POC: `PGTrainer` class that works by sub-classing, not `trainer_template.py`." (#20285) * Revert "Revert "[RLlib] POC: `PGTrainer` class that works by sub-classing, not `trainer_template.py`. (#20055)" (#20284)" This reverts commit 246787cdd9f806de8f1bcfb60b7d1ae332b57f40. Co-authored-by: sven1977 <svenmika1977@gmail.com> 2021-11-16 11:26:47 +00:00			`# method that returns a PlacementGroupFactory.`

[RLlib] More Trainer -> Algorithm renaming cleanups. (#25869) 2022-06-20 15:54:00 +02:00			`class MyAlgo(PG):`
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00			`@classmethod`
			`def default_resource_request(cls, config):`
			`head_bundle = {"CPU": 1, "GPU": 0}`
			`child_bundle = {"CPU": 1}`
			`return PlacementGroupFactory(`
			`[head_bundle, child_bundle, child_bundle],`
			`strategy=config["placement_strategy"],`
			`)`

[RLlib] More Trainer -> Algorithm renaming cleanups. (#25869) 2022-06-20 15:54:00 +02:00			`tune.register_trainable("my_trainable", MyAlgo)`
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00
			`global trial_executor`
			`trial_executor = RayTrialExecutor(reuse_actors=False)`

			`tune.run(`
			`"my_trainable",`
			`config=config,`
			`stop={"training_iteration": 2},`
			`trial_executor=trial_executor,`
			`callbacks=[_TestCallback()],`
			`verbose=2,`
			`)`

			`def test_default_resource_request(self):`
			`config = DEFAULT_CONFIG.copy()`
			`config["model"]["fcnet_hiddens"] = [10]`
			`config["num_workers"] = 2`
			`config["num_cpus_per_worker"] = 2`
			`# 3 Trials: Can only run 1 at a time (num_cpus=6; needed: 5).`
			`config["lr"] = tune.grid_search([0.1, 0.01, 0.001])`
			`config["env"] = "CartPole-v0"`
			`config["framework"] = "torch"`
			`config["placement_strategy"] = "SPREAD"`

			`global trial_executor`
			`trial_executor = RayTrialExecutor(reuse_actors=False)`

			`tune.run(`
			`"PG",`
			`config=config,`
			`stop={"training_iteration": 2},`
			`trial_executor=trial_executor,`
			`callbacks=[_TestCallback()],`
			`verbose=2,`
			`)`

			`def test_default_resource_request_plus_manual_leads_to_error(self):`
			`config = DEFAULT_CONFIG.copy()`
			`config["model"]["fcnet_hiddens"] = [10]`
			`config["num_workers"] = 0`
			`config["env"] = "CartPole-v0"`

			`try:`
			`tune.run(`
			`"PG",`
			`config=config,`
			`stop={"training_iteration": 2},`
			`resources_per_trial=PlacementGroupFactory([{"CPU": 1}]),`
			`verbose=2,`
			`)`
			`except ValueError as e:`
			`assert "have been automatically set to" in e.args[0]`


			`if __name__ == "__main__":`
			`import pytest`
			`import sys`
[CI] Format Python code with Black (#21975) See #21316 and #21311 for the motivation behind these changes. 2022-01-29 18:41:57 -08:00
[RLlib] Re-enable placement group support for RLlib. (#14384) 2021-03-05 08:16:24 +01:00			`sys.exit(pytest.main(["-v", __file__]))`