ray/rllib/tuned_examples/cql/halfcheetah-cql.yaml

halfcheetah_cql:
    env: 
        grid_search:
            #- ray.rllib.examples.env.d4rl_env.halfcheetah_random
            #- ray.rllib.examples.env.d4rl_env.halfcheetah_medium
            - ray.rllib.examples.env.d4rl_env.halfcheetah_expert
            #- ray.rllib.examples.env.d4rl_env.halfcheetah_medium_replay
    run: CQL
    config:
        # SAC Configs
        #input: d4rl.halfcheetah-random-v0
        #input: d4rl.halfcheetah-medium-v0
        input: d4rl.halfcheetah-expert-v0
        #input: d4rl.halfcheetah-medium-replay-v0

        # Works for both torch and tf.
        framework: tf
        soft_horizon: False
        horizon: 1000
        q_model_config:
            fcnet_activation: relu
            fcnet_hiddens: [256, 256, 256]
        policy_model_config:
            fcnet_activation: relu
            fcnet_hiddens: [256, 256, 256]
        tau: 0.005
        target_entropy: auto
        no_done_at_end: false
        n_step: 3
        rollout_fragment_length: 1
        replay_buffer_config:
          type: MultiAgentReplayBuffer
          learning_starts: 256
        train_batch_size: 256
        target_network_update_freq: 0
        min_train_timesteps_per_iteration: 1000
        optimization:
            actor_learning_rate: 0.0001
            critic_learning_rate: 0.0003
            entropy_learning_rate: 0.0001
        num_workers: 0
        num_gpus: 1
        metrics_smoothing_episodes: 5
        # CQL Configs
        min_q_weight: 5.0
        bc_iters: 20000
        temperature: 1.0
        num_actions: 10
        lagrangian: False

        evaluation_interval: 3
        evaluation_config:
            input: sampler
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`halfcheetah_cql:`
[RLlib] CQL loss fn fixes, MuJoCo + Pendulum benchmarks, offline-RL example script w/ json file. (#15603) Co-authored-by: Sven Mika <sven@anyscale.io> Co-authored-by: sven1977 <svenmika1977@gmail.com> 2021-05-04 10:06:19 -07:00			`env:`
			`grid_search:`
			`#- ray.rllib.examples.env.d4rl_env.halfcheetah_random`
			`#- ray.rllib.examples.env.d4rl_env.halfcheetah_medium`
			`- ray.rllib.examples.env.d4rl_env.halfcheetah_expert`
			`#- ray.rllib.examples.env.d4rl_env.halfcheetah_medium_replay`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`run: CQL`
			`config:`
			`# SAC Configs`
[RLlib] CQL loss fn fixes, MuJoCo + Pendulum benchmarks, offline-RL example script w/ json file. (#15603) Co-authored-by: Sven Mika <sven@anyscale.io> Co-authored-by: sven1977 <svenmika1977@gmail.com> 2021-05-04 10:06:19 -07:00			`#input: d4rl.halfcheetah-random-v0`
			`#input: d4rl.halfcheetah-medium-v0`
			`input: d4rl.halfcheetah-expert-v0`
			`#input: d4rl.halfcheetah-medium-replay-v0`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00
			`# Works for both torch and tf.`
			`framework: tf`
[RLlib] CQL loss fn fixes, MuJoCo + Pendulum benchmarks, offline-RL example script w/ json file. (#15603) Co-authored-by: Sven Mika <sven@anyscale.io> Co-authored-by: sven1977 <svenmika1977@gmail.com> 2021-05-04 10:06:19 -07:00			`soft_horizon: False`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`horizon: 1000`
[RLlib] SAC, RNNSAC, and CQL TrainerConfig objects (#25059) 2022-05-22 18:58:47 +01:00			`q_model_config:`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00			`fcnet_activation: relu`
			`fcnet_hiddens: [256, 256, 256]`
[RLlib] SAC, RNNSAC, and CQL TrainerConfig objects (#25059) 2022-05-22 18:58:47 +01:00			`policy_model_config:`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00			`fcnet_activation: relu`
			`fcnet_hiddens: [256, 256, 256]`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`tau: 0.005`
			`target_entropy: auto`
			`no_done_at_end: false`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00			`n_step: 3`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`rollout_fragment_length: 1`
[RLlib] Replay Buffer API and Ape-X. (#24506) 2022-05-17 13:43:49 +02:00			`replay_buffer_config:`
			`type: MultiAgentReplayBuffer`
			`learning_starts: 256`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`train_batch_size: 256`
[RLlib] CQL loss fn fixes, MuJoCo + Pendulum benchmarks, offline-RL example script w/ json file. (#15603) Co-authored-by: Sven Mika <sven@anyscale.io> Co-authored-by: sven1977 <svenmika1977@gmail.com> 2021-05-04 10:06:19 -07:00			`target_network_update_freq: 0`
[RLlib] Trainer.training_iteration -> Trainer.training_step; Iterations vs reportings: Clarification of terms. (#25076) 2022-06-10 17:09:18 +02:00			`min_train_timesteps_per_iteration: 1000`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`optimization:`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00			`actor_learning_rate: 0.0001`
			`critic_learning_rate: 0.0003`
			`entropy_learning_rate: 0.0001`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`num_workers: 0`
[RLlib] CQL for HalfCheetah-Random-v0 + Hopper-Random-v0 + CQL Bug Fixes (#14243) 2021-02-22 08:30:18 -08:00			`num_gpus: 1`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`metrics_smoothing_episodes: 5`
			`# CQL Configs`
			`min_q_weight: 5.0`
			`bc_iters: 20000`
			`temperature: 1.0`
			`num_actions: 10`
			`lagrangian: False`
[RLlib Testing] Add A3C/APPO/BC/DDPPO/MARWIL/CQL/ES/ARS/TD3 to weekly learning tests. (#18381) 2021-09-07 11:48:41 +02:00
			`evaluation_interval: 3`
[RLlib] New Offline RL Algorithm: CQL (based on SAC) (#13118) 2020-12-30 07:11:57 -08:00			`evaluation_config:`
			`input: sampler`