[RLlib] PPO release tests tuned and re-enabled. (#27564)

2025-03-05 10:01:43 -05:00 · 2022-08-08 12:04:19 -07:00 · 2022-08-08 12:04:19 -07:00 · aee008ab49
commit aee008ab49
parent be64df6f5d
2 changed files with 31 additions and 4 deletions
--- a/release/release_tests.yaml
+++ b/release/release_tests.yaml
@ -2701,6 +2701,30 @@

  alert: default

+- name: rllib_learning_tests_ppo
+  group: RLlib tests
+  working_dir: rllib_tests
+
+  legacy:
+    test_name: learning_tests
+    test_suite: rllib_tests
+
+  frequency: nightly
+  team: ml
+  env: staging
+
+  cluster:
+    cluster_env: app_config.yaml
+    cluster_compute: 2gpus_32cpus.yaml
+
+  run:
+    timeout: 18000
+    script: python learning_tests/run.py --yaml-sub-dir=ppo
+    type: sdk_command
+    file_manager: job
+
+  alert: default
+
 - name: rllib_learning_tests_bc
  group: RLlib tests
  working_dir: rllib_tests
--- a/release/rllib_tests/learning_tests/yaml_files/ppo/ppo-breakoutnoframeskip-v4.yaml
+++ b/release/rllib_tests/learning_tests/yaml_files/ppo/ppo-breakoutnoframeskip-v4.yaml
@ -6,7 +6,7 @@ ppo-breakoutnoframeskip-v4:
        episode_reward_mean: 50.0
        timesteps_total: 7000000
    stop:
-        time_total_s: 7200
+        time_total_s: 3600
    config:
        lambda: 0.95
        kl_coeff: 0.5
@ -18,10 +18,13 @@ ppo-breakoutnoframeskip-v4:
        rollout_fragment_length: 100
        sgd_minibatch_size: 500
        num_sgd_iter: 10
-        num_workers: 10
-        num_envs_per_worker: 5
+        num_workers: 30
+        num_envs_per_worker: 1
        batch_mode: truncate_episodes
        observation_filter: NoFilter
        model:
            vf_share_layers: true
-        num_gpus: 1
+        num_gpus: 2
+        min_time_s_per_iteration: 30
+        lr: 0.0001
+        grad_clip: 100