[rllib] Move repeat field to asv script (#2367)

2025-03-05 10:01:43 -05:00 · 2018-07-07 12:10:06 -07:00 · 2018-07-07 12:10:06 -07:00 · 9a6e329325
commit 9a6e329325
parent e32aed8717
10 changed files with 3 additions and 8 deletions
--- a/.gitignore
+++ b/.gitignore
@ -29,6 +29,7 @@

 # Python byte code files
 *.pyc
+python/.eggs

 # Backup files
 *.bak
--- a/python/ray/rllib/optimizers/multi_gpu_optimizer.py
+++ b/python/ray/rllib/optimizers/multi_gpu_optimizer.py
@ -52,7 +52,6 @@ class LocalMultiGPUOptimizer(PolicyOptimizer):
        self.update_weights_timer = TimerStat()

        print("LocalMultiGPUOptimizer devices", self.devices)
-        print("LocalMultiGPUOptimizer batch size", self.batch_size)

        assert set(self.local_evaluator.policy_map.keys()) == {"default"}, \
            "Multi-agent is not supported"
--- a/python/ray/rllib/tuned_examples/regression_tests/cartpole-a3c-pytorch.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/cartpole-a3c-pytorch.yaml
@ -1,7 +1,6 @@
 cartpole-a3c:
    env: CartPole-v0
    run: A3C
-    repeat: 3
    stop:
        episode_reward_mean: 200
        time_total_s: 600
--- a/python/ray/rllib/tuned_examples/regression_tests/cartpole-a3c.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/cartpole-a3c.yaml
@ -1,7 +1,6 @@
 cartpole-a3c:
    env: CartPole-v0
    run: A3C
-    repeat: 3
    stop:
        episode_reward_mean: 200
        time_total_s: 600
--- a/python/ray/rllib/tuned_examples/regression_tests/cartpole-dqn.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/cartpole-dqn.yaml
@ -1,7 +1,6 @@
 cartpole-dqn:
    env: CartPole-v0
    run: DQN
-    repeat: 3
    stop:
        episode_reward_mean: 200
        time_total_s: 600
--- a/python/ray/rllib/tuned_examples/regression_tests/cartpole-pg.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/cartpole-pg.yaml
@ -1,7 +1,6 @@
 cartpole-pg:
    env: CartPole-v0
    run: PG
-    repeat: 3
    stop:
        episode_reward_mean: 200
        time_total_s: 300
--- a/python/ray/rllib/tuned_examples/regression_tests/cartpole-ppo.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/cartpole-ppo.yaml
@ -1,7 +1,6 @@
 cartpole-ppo:
    env: CartPole-v0
    run: PPO
-    repeat: 3
    stop:
        episode_reward_mean: 200
        time_total_s: 300
--- a/python/ray/rllib/tuned_examples/regression_tests/pendulum-ddpg.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/pendulum-ddpg.yaml
@ -1,7 +1,6 @@
 pendulum-ddpg:
    env: Pendulum-v0
    run: DDPG
-    repeat: 3
    stop:
        episode_reward_mean: -160
        time_total_s: 900
--- a/python/ray/rllib/tuned_examples/regression_tests/pendulum-ppo.yaml
+++ b/python/ray/rllib/tuned_examples/regression_tests/pendulum-ppo.yaml
@ -1,7 +1,6 @@
 pendulum-ppo:
    env: Pendulum-v0
    run: PPO
-    repeat: 3
    stop:
        episode_reward_mean: -160
        # expect -140 within 300-500k steps
--- a/python/ray/rllib/tuned_examples/regression_tests/regression_test.py
+++ b/python/ray/rllib/tuned_examples/regression_tests/regression_test.py
@ -22,6 +22,8 @@ CONFIG_DIR = os.path.dirname(os.path.abspath(__file__))
 def _evaulate_config(filename):
    with open(os.path.join(CONFIG_DIR, filename)) as f:
        experiments = yaml.load(f)
+        for _, config in experiments.items():
+            config["repeat"] = 3
    ray.init()
    trials = tune.run_experiments(experiments)
    results = defaultdict(list)