cartpole-impala:
    env: CartPole-v0
    run: IMPALA
    stop:
        episode_reward_mean: 150
        timesteps_total: 500000
    config:
        # Works for both torch and tf.
        framework: tf
        num_gpus: 0
        vtrace_drop_last_ts: false