ray/rllib/tuned_examples/mbmpo/hopper-mbmpo.yaml

hopper-mbmpo:
    env: ray.rllib.examples.env.mbmpo_env.HopperWrapper
    run: MBMPO
    stop:
        training_iteration: 500
    config:
        # Only supported in torch right now.
        framework: torch
        # 200 in paper, 1000 will take forever
        horizon: 200
        num_envs_per_worker: 20
        inner_adaptation_steps: 1
        maml_optimizer_steps: 8
        gamma: 0.99
        lambda: 1.0
        lr: 0.001
        clip_param: 0.5
        kl_target: 0.003
        kl_coeff: 0.0000000001
        num_workers: 20
        num_gpus: 1
        inner_lr: 0.001
        clip_actions: False
        num_maml_steps: 15
        model:
            fcnet_hiddens: [32, 32]
            free_log_std: True
[RLLib] MBMPO Fixes (#10296) 2020-09-09 00:34:34 -07:00			`hopper-mbmpo:`
			`env: ray.rllib.examples.env.mbmpo_env.HopperWrapper`
			`run: MBMPO`
			`stop:`
			`training_iteration: 500`
			`config:`
[RLlib] MB-MPO cleanup (comments, docstrings, type annotations). (#11033) 2020-10-06 20:28:16 +02:00			`# Only supported in torch right now.`
[RLLib] MBMPO Fixes (#10296) 2020-09-09 00:34:34 -07:00			`framework: torch`
			`# 200 in paper, 1000 will take forever`
			`horizon: 200`
			`num_envs_per_worker: 20`
			`inner_adaptation_steps: 1`
			`maml_optimizer_steps: 8`
			`gamma: 0.99`
			`lambda: 1.0`
			`lr: 0.001`
			`clip_param: 0.5`
			`kl_target: 0.003`
			`kl_coeff: 0.0000000001`
			`num_workers: 20`
			`num_gpus: 1`
			`inner_lr: 0.001`
			`clip_actions: False`
			`num_maml_steps: 15`
			`model:`
			`fcnet_hiddens: [32, 32]`
			`free_log_std: True`