ray/rllib/tuned_examples/sac/cartpole-continuous-pybullet-sac.yaml

cartpole-sac:
    env: CartPoleContinuousBulletEnv-v0
    run: SAC
    stop:
        episode_reward_mean: 40
        timesteps_total: 100000
    config:
        # Works for both torch and tf.
        framework: tf
        gamma: 0.95
        no_done_at_end: false
        horizon: 200
        soft_horizon: true
        n_step: 3
        replay_buffer_config:
          type: MultiAgentPrioritizedReplayBuffer
          learning_starts: 256
        initial_alpha: 0.2
        clip_actions: false
        min_sample_timesteps_per_iteration: 1000
        optimization:
            actor_learning_rate: 0.005
            critic_learning_rate: 0.005
            entropy_learning_rate: 0.0001
[RLlib] PyBullet Env native support via env str-specifier (if installed). (#12209) 2020-11-30 12:41:24 +01:00			`cartpole-sac:`
			`env: CartPoleContinuousBulletEnv-v0`
			`run: SAC`
			`stop:`
Deflake some RLlib tests (#14947) * fix * update * 100 * flake 2021-03-26 11:45:17 -07:00			`episode_reward_mean: 40`
[RLlib] PyBullet Env native support via env str-specifier (if installed). (#12209) 2020-11-30 12:41:24 +01:00			`timesteps_total: 100000`
			`config:`
			`# Works for both torch and tf.`
			`framework: tf`
[RLlib] Unflake 2 test cases (SAC cont. cartpole). (#14620) 2021-03-15 14:03:54 +01:00			`gamma: 0.95`
			`no_done_at_end: false`
			`horizon: 200`
[RLlib] Fix 2 flakey test cases. (#14892) 2021-03-29 17:20:29 +02:00			`soft_horizon: true`
[RLlib] Unflake 2 test cases (SAC cont. cartpole). (#14620) 2021-03-15 14:03:54 +01:00			`n_step: 3`
[RLlib] Replay Buffer API and Ape-X. (#24506) 2022-05-17 13:43:49 +02:00			`replay_buffer_config:`
			`type: MultiAgentPrioritizedReplayBuffer`
			`learning_starts: 256`
[RLlib] Fix 2 flakey test cases. (#14892) 2021-03-29 17:20:29 +02:00			`initial_alpha: 0.2`
[RLlib] Unflake 2 test cases (SAC cont. cartpole). (#14620) 2021-03-15 14:03:54 +01:00			`clip_actions: false`
[RLlib] Trainer.training_iteration -> Trainer.training_step; Iterations vs reportings: Clarification of terms. (#25076) 2022-06-10 17:09:18 +02:00			`min_sample_timesteps_per_iteration: 1000`
[RLlib] Fix 2 flakey test cases. (#14892) 2021-03-29 17:20:29 +02:00			`optimization:`
			`actor_learning_rate: 0.005`
			`critic_learning_rate: 0.005`
			`entropy_learning_rate: 0.0001`