ray/rllib/tuned_examples/dqn/cartpole-dqn-softq.yaml

cartpole-dqn:
    env: CartPole-v0
    run: DQN
    stop:
        episode_reward_mean: 150
        timesteps_total: 100000
    config:
        # Works for both torch and tf.
        framework: tf
        model:
            fcnet_hiddens: [64]
            fcnet_activation: linear
        n_step: 3
        exploration_config:
            type: SoftQ
            temperature: 0.5