ray/rllib/examples/custom_keras_model.py

"""Example of using a custom ModelV2 Keras-style model."""

import argparse
import os

import ray
from ray import tune
from ray.rllib.agents.dqn.distributional_q_tf_model import \
    DistributionalQTFModel
from ray.rllib.models import ModelCatalog
from ray.rllib.models.tf.misc import normc_initializer
from ray.rllib.models.tf.tf_modelv2 import TFModelV2
from ray.rllib.models.tf.visionnet import VisionNetwork as MyVisionNetwork
from ray.rllib.policy.policy import LEARNER_STATS_KEY
from ray.rllib.policy.sample_batch import DEFAULT_POLICY_ID
from ray.rllib.utils.framework import try_import_tf

tf1, tf, tfv = try_import_tf()

parser = argparse.ArgumentParser()
parser.add_argument(
    "--run",
    type=str,
    default="DQN",
    help="The RLlib-registered algorithm to use.")
parser.add_argument("--stop", type=int, default=200)
parser.add_argument("--use-vision-network", action="store_true")
parser.add_argument("--num-cpus", type=int, default=0)


class MyKerasModel(TFModelV2):
    """Custom model for policy gradient algorithms."""

    def __init__(self, obs_space, action_space, num_outputs, model_config,
                 name):
        super(MyKerasModel, self).__init__(obs_space, action_space,
                                           num_outputs, model_config, name)
        self.inputs = tf.keras.layers.Input(
            shape=obs_space.shape, name="observations")
        layer_1 = tf.keras.layers.Dense(
            128,
            name="my_layer1",
            activation=tf.nn.relu,
            kernel_initializer=normc_initializer(1.0))(self.inputs)
        layer_out = tf.keras.layers.Dense(
            num_outputs,
            name="my_out",
            activation=None,
            kernel_initializer=normc_initializer(0.01))(layer_1)
        value_out = tf.keras.layers.Dense(
            1,
            name="value_out",
            activation=None,
            kernel_initializer=normc_initializer(0.01))(layer_1)
        self.base_model = tf.keras.Model(self.inputs, [layer_out, value_out])

    def forward(self, input_dict, state, seq_lens):
        model_out, self._value_out = self.base_model(input_dict["obs"])
        return model_out, state

    def value_function(self):
        return tf.reshape(self._value_out, [-1])

    def metrics(self):
        return {"foo": tf.constant(42.0)}


class MyKerasQModel(DistributionalQTFModel):
    """Custom model for DQN."""

    def __init__(self, obs_space, action_space, num_outputs, model_config,
                 name, **kw):
        super(MyKerasQModel, self).__init__(
            obs_space, action_space, num_outputs, model_config, name, **kw)

        # Define the core model layers which will be used by the other
        # output heads of DistributionalQModel
        self.inputs = tf.keras.layers.Input(
            shape=obs_space.shape, name="observations")
        layer_1 = tf.keras.layers.Dense(
            128,
            name="my_layer1",
            activation=tf.nn.relu,
            kernel_initializer=normc_initializer(1.0))(self.inputs)
        layer_out = tf.keras.layers.Dense(
            num_outputs,
            name="my_out",
            activation=tf.nn.relu,
            kernel_initializer=normc_initializer(1.0))(layer_1)
        self.base_model = tf.keras.Model(self.inputs, layer_out)

    # Implement the core forward method.
    def forward(self, input_dict, state, seq_lens):
        model_out = self.base_model(input_dict["obs"])
        return model_out, state

    def metrics(self):
        return {"foo": tf.constant(42.0)}


if __name__ == "__main__":
    args = parser.parse_args()
    ray.init(num_cpus=args.num_cpus or None)
    ModelCatalog.register_custom_model(
        "keras_model", MyVisionNetwork
        if args.use_vision_network else MyKerasModel)
    ModelCatalog.register_custom_model(
        "keras_q_model", MyVisionNetwork
        if args.use_vision_network else MyKerasQModel)

    # Tests https://github.com/ray-project/ray/issues/7293
    def check_has_custom_metric(result):
        r = result["result"]["info"]["learner"]
        if DEFAULT_POLICY_ID in r:
            r = r[DEFAULT_POLICY_ID].get(LEARNER_STATS_KEY,
                                         r[DEFAULT_POLICY_ID])
        assert r["model"]["foo"] == 42, result

    if args.run == "DQN":
        extra_config = {"learning_starts": 0}
    else:
        extra_config = {}

    tune.run(
        args.run,
        stop={"episode_reward_mean": args.stop},
        config=dict(
            extra_config,
            **{
                "env": "BreakoutNoFrameskip-v4"
                if args.use_vision_network else "CartPole-v0",
                # Use GPUs iff `RLLIB_NUM_GPUS` env var set to > 0.
                "num_gpus": int(os.environ.get("RLLIB_NUM_GPUS", "0")),
                "callbacks": {
                    "on_train_result": check_has_custom_metric,
                },
                "model": {
                    "custom_model": "keras_q_model"
                    if args.run == "DQN" else "keras_model"
                },
                "framework": "tf",
            }))
[rllib] Add Keras LSTM example with ModelV2 (#5258) 2019-07-24 13:09:41 -07:00			`"""Example of using a custom ModelV2 Keras-style model."""`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
			`import argparse`
[RLlib] Fix all example scripts to run on GPUs. (#11105) 2020-10-02 23:07:44 +02:00			`import os`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
			`import ray`
			`from ray import tune`
[RLlib] Minor `rllib.utils` cleanup. (#8932) 2020-06-16 08:52:20 +02:00			`from ray.rllib.agents.dqn.distributional_q_tf_model import \`
			`DistributionalQTFModel`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`from ray.rllib.models import ModelCatalog`
[rllib] Document ModelV2 and clean up the models/ directory (#5277) 2019-07-27 02:08:16 -07:00			`from ray.rllib.models.tf.misc import normc_initializer`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`from ray.rllib.models.tf.tf_modelv2 import TFModelV2`
[RLlib] Attention Net integration into ModelV2 and learning RL example. (#8371) 2020-05-18 17:26:40 +02:00			`from ray.rllib.models.tf.visionnet import VisionNetwork as MyVisionNetwork`
[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`from ray.rllib.policy.policy import LEARNER_STATS_KEY`
[RLlib] BC/MARWIL/recurrent nets minor cleanups and bug fixes. (#13064) 2020-12-27 09:46:03 -05:00			`from ray.rllib.policy.sample_batch import DEFAULT_POLICY_ID`
[RLlib] Minor `rllib.utils` cleanup. (#8932) 2020-06-16 08:52:20 +02:00			`from ray.rllib.utils.framework import try_import_tf`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
[RLlib] Tf2x preparation; part 2 (upgrading `try_import_tf()`). (#9136) * WIP. * Fixes. * LINT. * WIP. * WIP. * Fixes. * Fixes. * Fixes. * Fixes. * WIP. * Fixes. * Test * Fix. * Fixes and LINT. * Fixes and LINT. * LINT. 2020-06-30 10:13:20 +02:00			`tf1, tf, tfv = try_import_tf()`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
			`parser = argparse.ArgumentParser()`
[RLlib] Examples scripts add argparse help and replace `--torch` with `--framework`. (#15832) 2021-05-18 13:18:12 +02:00			`parser.add_argument(`
			`"--run",`
			`type=str,`
			`default="DQN",`
			`help="The RLlib-registered algorithm to use.")`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`parser.add_argument("--stop", type=int, default=200)`
[RLlib] Examples folder restructuring (Model examples; final part). (#8278) - This PR completes any previously missing PyTorch Model counterparts to TFModels in examples/models. - It also makes sure, all example scripts in the rllib/examples folder are tested for both frameworks and learn the given task (this is often currently not checked) using a --as-test flag in connection with a --stop-reward. 2020-05-12 08:23:10 +02:00			`parser.add_argument("--use-vision-network", action="store_true")`
[RLlib] Move all jenkins RLlib-tests into bazel (rllib/BUILD). (#7178) * commit * comment 2020-02-15 23:50:44 +01:00			`parser.add_argument("--num-cpus", type=int, default=0)`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00

			`class MyKerasModel(TFModelV2):`
			`"""Custom model for policy gradient algorithms."""`

			`def __init__(self, obs_space, action_space, num_outputs, model_config,`
			`name):`
			`super(MyKerasModel, self).__init__(obs_space, action_space,`
			`num_outputs, model_config, name)`
			`self.inputs = tf.keras.layers.Input(`
			`shape=obs_space.shape, name="observations")`
			`layer_1 = tf.keras.layers.Dense(`
			`128,`
			`name="my_layer1",`
			`activation=tf.nn.relu,`
			`kernel_initializer=normc_initializer(1.0))(self.inputs)`
			`layer_out = tf.keras.layers.Dense(`
			`num_outputs,`
			`name="my_out",`
			`activation=None,`
			`kernel_initializer=normc_initializer(0.01))(layer_1)`
			`value_out = tf.keras.layers.Dense(`
			`1,`
			`name="value_out",`
			`activation=None,`
			`kernel_initializer=normc_initializer(0.01))(layer_1)`
			`self.base_model = tf.keras.Model(self.inputs, [layer_out, value_out])`

			`def forward(self, input_dict, state, seq_lens):`
			`model_out, self._value_out = self.base_model(input_dict["obs"])`
			`return model_out, state`

			`def value_function(self):`
			`return tf.reshape(self._value_out, [-1])`

[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`def metrics(self):`
			`return {"foo": tf.constant(42.0)}`

[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
[RLlib] DQN torch version. (#7597) * Fix. * Rollback. * WIP. * WIP. * WIP. * WIP. * WIP. * WIP. * WIP. * WIP. * Fix. * Fix. * Fix. * Fix. * Fix. * WIP. * WIP. * Fix. * Test case fixes. * Test case fixes and LINT. * Test case fixes and LINT. * Rollback. * WIP. * WIP. * Test case fixes. * Fix. * Fix. * Fix. * Add regression test for DQN w/ param noise. * Fixes and LINT. * Fixes and LINT. * Fixes and LINT. * Fixes and LINT. * Fixes and LINT. * Comment * Regression test case. * WIP. * WIP. * LINT. * LINT. * WIP. * Fix. * Fix. * Fix. * LINT. * Fix (SAC does currently not support eager). * Fix. * WIP. * LINT. * Update rllib/evaluation/sampler.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Update rllib/evaluation/sampler.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Update rllib/utils/exploration/exploration.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Update rllib/utils/exploration/exploration.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * WIP. * WIP. * Fix. * LINT. * LINT. * Fix and LINT. * WIP. * WIP. * WIP. * WIP. * Fix. * LINT. * Fix. * Fix and LINT. * Update rllib/utils/exploration/exploration.py * Update rllib/policy/dynamic_tf_policy.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Update rllib/policy/dynamic_tf_policy.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Update rllib/policy/dynamic_tf_policy.py Co-Authored-By: Eric Liang <ekhliang@gmail.com> * Fixes. * WIP. * LINT. * Fixes and LINT. * LINT and fixes. * LINT. * Move action_dist back into torch extra_action_out_fn and LINT. * Working SimpleQ learning cartpole on both torch AND tf. * Working Rainbow learning cartpole on tf. * Working Rainbow learning cartpole on tf. * WIP. * LINT. * LINT. * Update docs and add torch to APEX test. * LINT. * Fix. * LINT. * Fix. * Fix. * Fix and docstrings. * Fix broken RLlib tests in master. * Split BAZEL learning tests into cartpole and pendulum (reached the 60min barrier). * Fix error_outputs option in BAZEL for RLlib regression tests. * Fix. * Tune param-noise tests. * LINT. * Fix. * Fix. * test * test * test * Fix. * Fix. * WIP. * WIP. * WIP. * WIP. * LINT. * WIP. Co-authored-by: Eric Liang <ekhliang@gmail.com> 2020-04-06 20:56:16 +02:00			`class MyKerasQModel(DistributionalQTFModel):`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`"""Custom model for DQN."""`

			`def __init__(self, obs_space, action_space, num_outputs, model_config,`
			`name, **kw):`
			`super(MyKerasQModel, self).__init__(`
			`obs_space, action_space, num_outputs, model_config, name, **kw)`

			`# Define the core model layers which will be used by the other`
			`# output heads of DistributionalQModel`
			`self.inputs = tf.keras.layers.Input(`
			`shape=obs_space.shape, name="observations")`
			`layer_1 = tf.keras.layers.Dense(`
			`128,`
			`name="my_layer1",`
			`activation=tf.nn.relu,`
			`kernel_initializer=normc_initializer(1.0))(self.inputs)`
			`layer_out = tf.keras.layers.Dense(`
			`num_outputs,`
			`name="my_out",`
			`activation=tf.nn.relu,`
			`kernel_initializer=normc_initializer(1.0))(layer_1)`
			`self.base_model = tf.keras.Model(self.inputs, layer_out)`

[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`# Implement the core forward method.`
[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`def forward(self, input_dict, state, seq_lens):`
			`model_out = self.base_model(input_dict["obs"])`
			`return model_out, state`

[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`def metrics(self):`
			`return {"foo": tf.constant(42.0)}`

[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00
			`if __name__ == "__main__":`
			`args = parser.parse_args()`
[RLlib] Redo issue 14533 tf enable eager exec (#14984) 2021-03-29 20:07:44 +02:00			`ray.init(num_cpus=args.num_cpus or None)`
wrap models with DistributionalQModel when running DQN (#6258) * wrap models with DistributionalQModel when running DQN * wrap only for tensorflow models * Update custom_keras_model.py 2019-11-25 00:11:24 -08:00			`ModelCatalog.register_custom_model(`
			`"keras_model", MyVisionNetwork`
			`if args.use_vision_network else MyKerasModel)`
			`ModelCatalog.register_custom_model(`
			`"keras_q_model", MyVisionNetwork`
			`if args.use_vision_network else MyKerasQModel)`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00
			`# Tests https://github.com/ray-project/ray/issues/7293`
			`def check_has_custom_metric(result):`
			`r = result["result"]["info"]["learner"]`
[RLlib] BC/MARWIL/recurrent nets minor cleanups and bug fixes. (#13064) 2020-12-27 09:46:03 -05:00			`if DEFAULT_POLICY_ID in r:`
[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`r = r[DEFAULT_POLICY_ID].get(LEARNER_STATS_KEY,`
			`r[DEFAULT_POLICY_ID])`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`assert r["model"]["foo"] == 42, result`

			`if args.run == "DQN":`
			`extra_config = {"learning_starts": 0}`
			`else:`
			`extra_config = {}`

[rllib] ModelV2 API (#4926) 2019-07-03 15:59:47 -07:00			`tune.run(`
			`args.run,`
			`stop={"episode_reward_mean": args.stop},`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`config=dict(`
[RLlib] Fix all example scripts to run on GPUs. (#11105) 2020-10-02 23:07:44 +02:00			`extra_config,`
			`**{`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`"env": "BreakoutNoFrameskip-v4"`
			`if args.use_vision_network else "CartPole-v0",`
[RLlib] Fix all example scripts to run on GPUs. (#11105) 2020-10-02 23:07:44 +02:00			# Use GPUs iff `RLLIB_NUM_GPUS` env var set to > 0.
			`"num_gpus": int(os.environ.get("RLLIB_NUM_GPUS", "0")),`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`"callbacks": {`
			`"on_train_result": check_has_custom_metric,`
			`},`
			`"model": {`
			`"custom_model": "keras_q_model"`
			`if args.run == "DQN" else "keras_model"`
			`},`
[RLlib] Auto-framework, retire `use_pytorch` in favor of `framework=...` (#8520) 2020-05-27 16:19:13 +02:00			`"framework": "tf",`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`}))`