ray/rllib/algorithms/bandit/bandit.py

import logging
from typing import Type, Union

from ray.rllib.algorithms.algorithm import Algorithm
from ray.rllib.algorithms.algorithm_config import AlgorithmConfig
from ray.rllib.algorithms.bandit.bandit_tf_policy import BanditTFPolicy
from ray.rllib.algorithms.bandit.bandit_torch_policy import BanditTorchPolicy
from ray.rllib.policy.policy import Policy
from ray.rllib.utils.annotations import override
from ray.rllib.utils.typing import AlgorithmConfigDict
from ray.rllib.utils.deprecation import Deprecated

logger = logging.getLogger(__name__)


class BanditConfig(AlgorithmConfig):
    """Defines a contextual bandit configuration class from which
    a contexual bandit algorithm can be built. Note this config is shared
    between BanditLinUCB and BanditLinTS. You likely
    want to use the child classes BanditLinTSConfig or BanditLinUCBConfig
    instead.
    """

    def __init__(self, algo_class: Union["BanditLinTS", "BanditLinUCB"] = None):
        super().__init__(algo_class=algo_class)
        # fmt: off
        # __sphinx_doc_begin__
        # Override some of AlgorithmConfig's default values with bandit-specific values.
        self.framework_str = "torch"
        self.num_workers = 0
        self.rollout_fragment_length = 1
        self.train_batch_size = 1
        # Make sure, a `train()` call performs at least 100 env sampling
        # timesteps, before reporting results. Not setting this (default is 0)
        # would significantly slow down the Bandit Algorithm.
        self.min_sample_timesteps_per_iteration = 100
        # __sphinx_doc_end__
        # fmt: on


class BanditLinTSConfig(BanditConfig):
    """Defines a configuration class from which a Thompson-sampling bandit can be built.

    Example:
        >>> from ray.rllib.algorithms.bandit import BanditLinTSConfig
        >>> from ray.rllib.examples.env.bandit_envs_discrete import WheelBanditEnv
        >>> config = BanditLinTSConfig().rollouts(num_rollout_workers=4)
        >>> print(config.to_dict())
        >>> # Build a Algorithm object from the config and run 1 training iteration.
        >>> trainer = config.build(env=WheelBanditEnv)
        >>> trainer.train()
    """

    def __init__(self):
        super().__init__(algo_class=BanditLinTS)
        # fmt: off
        # __sphinx_doc_begin__
        # Override some of AlgorithmConfig's default values with bandit-specific values.
        self.exploration_config = {"type": "ThompsonSampling"}
        # __sphinx_doc_end__
        # fmt: on


class BanditLinUCBConfig(BanditConfig):
    """Defines a config class from which an upper confidence bound bandit can be built.

    Example:
        >>> from ray.rllib.algorithms.bandit import BanditLinUCBConfig
        >>> from ray.rllib.examples.env.bandit_envs_discrete import WheelBanditEnv
        >>> config = BanditLinUCBConfig().rollouts(num_rollout_workers=4)
        >>> print(config.to_dict())
        >>> # Build a Algorithm object from the config and run 1 training iteration.
        >>> trainer = config.build(env=WheelBanditEnv)
        >>> trainer.train()
    """

    def __init__(self):
        super().__init__(algo_class=BanditLinUCB)
        # fmt: off
        # __sphinx_doc_begin__
        # Override some of AlgorithmConfig's default values with bandit-specific values.
        self.exploration_config = {"type": "UpperConfidenceBound"}
        # __sphinx_doc_end__
        # fmt: on


class BanditLinTS(Algorithm):
    """Bandit Algorithm using ThompsonSampling exploration."""

    @classmethod
    @override(Algorithm)
    def get_default_config(cls) -> BanditLinTSConfig:
        return BanditLinTSConfig().to_dict()

    @override(Algorithm)
    def get_default_policy_class(self, config: AlgorithmConfigDict) -> Type[Policy]:
        if config["framework"] == "torch":
            return BanditTorchPolicy
        elif config["framework"] == "tf2":
            return BanditTFPolicy
        else:
            raise NotImplementedError("Only `framework=[torch|tf2]` supported!")


class BanditLinUCB(Algorithm):
    @classmethod
    @override(Algorithm)
    def get_default_config(cls) -> BanditLinUCBConfig:
        return BanditLinUCBConfig().to_dict()

    @override(Algorithm)
    def get_default_policy_class(self, config: AlgorithmConfigDict) -> Type[Policy]:
        if config["framework"] == "torch":
            return BanditTorchPolicy
        elif config["framework"] == "tf2":
            return BanditTFPolicy
        else:
            raise NotImplementedError("Only `framework=[torch|tf2]` supported!")


# Deprecated: Use ray.rllib.algorithms.bandit.BanditLinUCBConfig instead!
class _deprecated_default_config(dict):
    def __init__(self):
        super().__init__(BanditLinUCBConfig().to_dict())

    @Deprecated(
        old="ray.rllib.algorithms.bandit.bandit.DEFAULT_CONFIG",
        new="ray.rllib.algorithms.bandit.bandit.BanditLin[UCB|TS]Config(...)",
        error=False,
    )
    def __getitem__(self, item):
        return super().__getitem__(item)


DEFAULT_CONFIG = _deprecated_default_config()
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00			`import logging`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`from typing import Type, Union`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`from ray.rllib.algorithms.algorithm import Algorithm`
			`from ray.rllib.algorithms.algorithm_config import AlgorithmConfig`
[RLlib] Agents to algos: DQN w/o Apex and R2D2, DDPG/TD3, SAC, SlateQ, QMIX, PG, Bandits (#24896) 2022-05-19 09:30:42 -07:00			`from ray.rllib.algorithms.bandit.bandit_tf_policy import BanditTFPolicy`
			`from ray.rllib.algorithms.bandit.bandit_torch_policy import BanditTorchPolicy`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00			`from ray.rllib.policy.policy import Policy`
			`from ray.rllib.utils.annotations import override`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`from ray.rllib.utils.typing import AlgorithmConfigDict`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`from ray.rllib.utils.deprecation import Deprecated`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
			`logger = logging.getLogger(__name__)`


[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`class BanditConfig(AlgorithmConfig):`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`"""Defines a contextual bandit configuration class from which`
			`a contexual bandit algorithm can be built. Note this config is shared`
[RLlib] Move all remaining algos into `algorithms` directory. (#25366) 2022-06-04 07:35:24 +02:00			`between BanditLinUCB and BanditLinTS. You likely`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`want to use the child classes BanditLinTSConfig or BanditLinUCBConfig`
			`instead.`
			`"""`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`def __init__(self, algo_class: Union["BanditLinTS", "BanditLinUCB"] = None):`
			`super().__init__(algo_class=algo_class)`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`# fmt: off`
			`# __sphinx_doc_begin__`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`# Override some of AlgorithmConfig's default values with bandit-specific values.`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`self.framework_str = "torch"`
			`self.num_workers = 0`
			`self.rollout_fragment_length = 1`
			`self.train_batch_size = 1`
			# Make sure, a `train()` call performs at least 100 env sampling
			`# timesteps, before reporting results. Not setting this (default is 0)`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`# would significantly slow down the Bandit Algorithm.`
[RLlib] Trainer.training_iteration -> Trainer.training_step; Iterations vs reportings: Clarification of terms. (#25076) 2022-06-10 17:09:18 +02:00			`self.min_sample_timesteps_per_iteration = 100`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`# __sphinx_doc_end__`
			`# fmt: on`


			`class BanditLinTSConfig(BanditConfig):`
			`"""Defines a configuration class from which a Thompson-sampling bandit can be built.`

			`Example:`
[RLlib] Agents to algos: DQN w/o Apex and R2D2, DDPG/TD3, SAC, SlateQ, QMIX, PG, Bandits (#24896) 2022-05-19 09:30:42 -07:00			`>>> from ray.rllib.algorithms.bandit import BanditLinTSConfig`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`>>> from ray.rllib.examples.env.bandit_envs_discrete import WheelBanditEnv`
			`>>> config = BanditLinTSConfig().rollouts(num_rollout_workers=4)`
			`>>> print(config.to_dict())`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`>>> # Build a Algorithm object from the config and run 1 training iteration.`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`>>> trainer = config.build(env=WheelBanditEnv)`
			`>>> trainer.train()`
			`"""`

			`def __init__(self):`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`super().__init__(algo_class=BanditLinTS)`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`# fmt: off`
			`# __sphinx_doc_begin__`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`# Override some of AlgorithmConfig's default values with bandit-specific values.`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`self.exploration_config = {"type": "ThompsonSampling"}`
			`# __sphinx_doc_end__`
			`# fmt: on`


			`class BanditLinUCBConfig(BanditConfig):`
			`"""Defines a config class from which an upper confidence bound bandit can be built.`

			`Example:`
[RLlib] Agents to algos: DQN w/o Apex and R2D2, DDPG/TD3, SAC, SlateQ, QMIX, PG, Bandits (#24896) 2022-05-19 09:30:42 -07:00			`>>> from ray.rllib.algorithms.bandit import BanditLinUCBConfig`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`>>> from ray.rllib.examples.env.bandit_envs_discrete import WheelBanditEnv`
			`>>> config = BanditLinUCBConfig().rollouts(num_rollout_workers=4)`
			`>>> print(config.to_dict())`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`>>> # Build a Algorithm object from the config and run 1 training iteration.`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`>>> trainer = config.build(env=WheelBanditEnv)`
			`>>> trainer.train()`
			`"""`

			`def __init__(self):`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`super().__init__(algo_class=BanditLinUCB)`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`# fmt: off`
			`# __sphinx_doc_begin__`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`# Override some of AlgorithmConfig's default values with bandit-specific values.`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`self.exploration_config = {"type": "UpperConfidenceBound"}`
			`# __sphinx_doc_end__`
			`# fmt: on`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00

[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`class BanditLinTS(Algorithm):`
			`"""Bandit Algorithm using ThompsonSampling exploration."""`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
			`@classmethod`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`@override(Algorithm)`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`def get_default_config(cls) -> BanditLinTSConfig:`
			`return BanditLinTSConfig().to_dict()`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`@override(Algorithm)`
			`def get_default_policy_class(self, config: AlgorithmConfigDict) -> Type[Policy]:`
[RLlib] TF2 Bandit Agent (#22838) 2022-03-21 08:55:55 -07:00			`if config["framework"] == "torch":`
			`return BanditTorchPolicy`
			`elif config["framework"] == "tf2":`
			`return BanditTFPolicy`
			`else:`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			raise NotImplementedError("Only `framework=[torch\|tf2]` supported!")
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00

[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`class BanditLinUCB(Algorithm):`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00			`@classmethod`
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`@override(Algorithm)`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`def get_default_config(cls) -> BanditLinUCBConfig:`
			`return BanditLinUCBConfig().to_dict()`
[RLlib] Move bandits into main agents folder; Make RecSim adapter more accessible; (#21773) 2022-01-27 13:58:12 +01:00
[RLlib] `Trainer` to `Algorithm` renaming. (#25539) 2022-06-11 15:10:39 +02:00			`@override(Algorithm)`
			`def get_default_policy_class(self, config: AlgorithmConfigDict) -> Type[Policy]:`
[RLlib] TF2 Bandit Agent (#22838) 2022-03-21 08:55:55 -07:00			`if config["framework"] == "torch":`
			`return BanditTorchPolicy`
			`elif config["framework"] == "tf2":`
			`return BanditTFPolicy`
			`else:`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			raise NotImplementedError("Only `framework=[torch\|tf2]` supported!")


[RLlib] Agents to algos: DQN w/o Apex and R2D2, DDPG/TD3, SAC, SlateQ, QMIX, PG, Bandits (#24896) 2022-05-19 09:30:42 -07:00			`# Deprecated: Use ray.rllib.algorithms.bandit.BanditLinUCBConfig instead!`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`class _deprecated_default_config(dict):`
			`def __init__(self):`
			`super().__init__(BanditLinUCBConfig().to_dict())`

			`@Deprecated(`
[RLlib] Agents to algos: DQN w/o Apex and R2D2, DDPG/TD3, SAC, SlateQ, QMIX, PG, Bandits (#24896) 2022-05-19 09:30:42 -07:00			`old="ray.rllib.algorithms.bandit.bandit.DEFAULT_CONFIG",`
			`new="ray.rllib.algorithms.bandit.bandit.BanditLin[UCB\|TS]Config(...)",`
[RLlib] Bandits use TrainerConfig objects. (#24687) 2022-05-12 21:02:15 +01:00			`error=False,`
			`)`
			`def __getitem__(self, item):`
			`return super().__getitem__(item)`


			`DEFAULT_CONFIG = _deprecated_default_config()`