ray/rllib/models/torch/torch_action_dist.py

import numpy as np

from ray.rllib.models.action_dist import ActionDistribution
from ray.rllib.utils.annotations import override
from ray.rllib.utils import try_import_torch

torch, nn = try_import_torch()


class TorchDistributionWrapper(ActionDistribution):
    """Wrapper class for torch.distributions."""

    @override(ActionDistribution)
    def __init__(self, inputs, model):
        inputs = torch.Tensor(inputs)
        super().__init__(inputs, model)
        # Store the last sample here.
        self.last_sample = None

    @override(ActionDistribution)
    def logp(self, actions):
        return self.dist.log_prob(actions)

    @override(ActionDistribution)
    def entropy(self):
        return self.dist.entropy()

    @override(ActionDistribution)
    def kl(self, other):
        return torch.distributions.kl.kl_divergence(self.dist, other.dist)

    @override(ActionDistribution)
    def sample(self):
        self.last_sample = self.dist.sample()
        return self.last_sample

    @override(ActionDistribution)
    def sampled_action_logp(self):
        assert self.last_sample is not None
        return self.logp(self.last_sample)


class TorchCategorical(TorchDistributionWrapper):
    """Wrapper class for PyTorch Categorical distribution."""

    @override(ActionDistribution)
    def __init__(self, inputs, model):
        super().__init__(inputs, model)
        self.dist = torch.distributions.categorical.Categorical(logits=inputs)

    @override(ActionDistribution)
    def deterministic_sample(self):
        return self.dist.probs.argmax(dim=1)

    @staticmethod
    @override(ActionDistribution)
    def required_model_output_shape(action_space, model_config):
        return action_space.n


class TorchMultiCategorical(TorchDistributionWrapper):
    """MultiCategorical distribution for MultiDiscrete action spaces."""

    @override(TorchDistributionWrapper)
    def __init__(self, inputs, model, input_lens):
        super().__init__(inputs, model)
        inputs_split = self.inputs.split(input_lens, dim=1)
        self.cats = [
            torch.distributions.categorical.Categorical(logits=input_)
            for input_ in inputs_split
        ]

    @override(TorchDistributionWrapper)
    def sample(self):
        arr = [cat.sample() for cat in self.cats]
        ret = torch.stack(arr, dim=1)
        return ret

    @override(ActionDistribution)
    def deterministic_sample(self):
        arr = [torch.argmax(cat.probs, -1) for cat in self.cats]
        ret = torch.stack(arr, dim=1)
        return ret

    @override(TorchDistributionWrapper)
    def logp(self, actions):
        # # If tensor is provided, unstack it into list.
        if isinstance(actions, torch.Tensor):
            actions = torch.unbind(actions, dim=1)
        logps = torch.stack(
            [cat.log_prob(act) for cat, act in zip(self.cats, actions)])
        return torch.sum(logps, dim=0)

    @override(ActionDistribution)
    def multi_entropy(self):
        return torch.stack([cat.entropy() for cat in self.cats], dim=1)

    @override(TorchDistributionWrapper)
    def entropy(self):
        return torch.sum(self.multi_entropy(), dim=1)

    @override(ActionDistribution)
    def multi_kl(self, other):
        return torch.stack(
            [
                torch.distributions.kl.kl_divergence(cat, oth_cat)
                for cat, oth_cat in zip(self.cats, other.cats)
            ],
            dim=1,
        )

    @override(TorchDistributionWrapper)
    def kl(self, other):
        return torch.sum(self.multi_kl(other), dim=1)

    @staticmethod
    @override(ActionDistribution)
    def required_model_output_shape(action_space, model_config):
        return np.sum(action_space.nvec)


class TorchDiagGaussian(TorchDistributionWrapper):
    """Wrapper class for PyTorch Normal distribution."""

    @override(ActionDistribution)
    def __init__(self, inputs, model):
        super().__init__(inputs, model)
        mean, log_std = torch.chunk(inputs, 2, dim=1)
        self.dist = torch.distributions.normal.Normal(mean, torch.exp(log_std))

    @override(ActionDistribution)
    def deterministic_sample(self):
        return self.dist.mean

    @override(TorchDistributionWrapper)
    def logp(self, actions):
        return super().logp(actions).sum(-1)

    @override(TorchDistributionWrapper)
    def entropy(self):
        return super().entropy().sum(-1)

    @override(TorchDistributionWrapper)
    def kl(self, other):
        return super().kl(other).sum(-1)

    @staticmethod
    @override(ActionDistribution)
    def required_model_output_shape(action_space, model_config):
        return np.prod(action_space.shape) * 2
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00			`import numpy as np`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`from ray.rllib.models.action_dist import ActionDistribution`
			`from ray.rllib.utils.annotations import override`
Get utils ready for better Agent torch support. (#6561) 2019-12-30 15:27:32 -05:00			`from ray.rllib.utils import try_import_torch`

			`torch, nn = try_import_torch()`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

			`class TorchDistributionWrapper(ActionDistribution):`
			`"""Wrapper class for torch.distributions."""`

Torch multicat support (7419) 2020-03-04 09:41:40 +01:00			`@override(ActionDistribution)`
			`def __init__(self, inputs, model):`
			`inputs = torch.Tensor(inputs)`
			`super().__init__(inputs, model)`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`# Store the last sample here.`
			`self.last_sample = None`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`@override(ActionDistribution)`
			`def logp(self, actions):`
			`return self.dist.log_prob(actions)`

			`@override(ActionDistribution)`
			`def entropy(self):`
			`return self.dist.entropy()`

			`@override(ActionDistribution)`
			`def kl(self, other):`
Get utils ready for better Agent torch support. (#6561) 2019-12-30 15:27:32 -05:00			`return torch.distributions.kl.kl_divergence(self.dist, other.dist)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00
			`@override(ActionDistribution)`
			`def sample(self):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`self.last_sample = self.dist.sample()`
			`return self.last_sample`

			`@override(ActionDistribution)`
			`def sampled_action_logp(self):`
			`assert self.last_sample is not None`
			`return self.logp(self.last_sample)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

			`class TorchCategorical(TorchDistributionWrapper):`
			`"""Wrapper class for PyTorch Categorical distribution."""`

			`@override(ActionDistribution)`
[rllib] Autoregressive action distributions (#5304) 2019-08-10 14:05:12 -07:00			`def __init__(self, inputs, model):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`super().__init__(inputs, model)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`self.dist = torch.distributions.categorical.Categorical(logits=inputs)`
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`@override(ActionDistribution)`
			`def deterministic_sample(self):`
			`return self.dist.probs.argmax(dim=1)`

Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00			`@staticmethod`
			`@override(ActionDistribution)`
			`def required_model_output_shape(action_space, model_config):`
			`return action_space.n`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

Torch multicat support (7419) 2020-03-04 09:41:40 +01:00			`class TorchMultiCategorical(TorchDistributionWrapper):`
			`"""MultiCategorical distribution for MultiDiscrete action spaces."""`

			`@override(TorchDistributionWrapper)`
			`def __init__(self, inputs, model, input_lens):`
			`super().__init__(inputs, model)`
			`inputs_split = self.inputs.split(input_lens, dim=1)`
			`self.cats = [`
			`torch.distributions.categorical.Categorical(logits=input_)`
			`for input_ in inputs_split`
			`]`

			`@override(TorchDistributionWrapper)`
			`def sample(self):`
			`arr = [cat.sample() for cat in self.cats]`
			`ret = torch.stack(arr, dim=1)`
			`return ret`

			`@override(ActionDistribution)`
			`def deterministic_sample(self):`
			`arr = [torch.argmax(cat.probs, -1) for cat in self.cats]`
			`ret = torch.stack(arr, dim=1)`
			`return ret`

			`@override(TorchDistributionWrapper)`
			`def logp(self, actions):`
			`# # If tensor is provided, unstack it into list.`
			`if isinstance(actions, torch.Tensor):`
			`actions = torch.unbind(actions, dim=1)`
			`logps = torch.stack(`
			`[cat.log_prob(act) for cat, act in zip(self.cats, actions)])`
			`return torch.sum(logps, dim=0)`

			`@override(ActionDistribution)`
			`def multi_entropy(self):`
			`return torch.stack([cat.entropy() for cat in self.cats], dim=1)`

			`@override(TorchDistributionWrapper)`
			`def entropy(self):`
			`return torch.sum(self.multi_entropy(), dim=1)`

			`@override(ActionDistribution)`
			`def multi_kl(self, other):`
			`return torch.stack(`
			`[`
			`torch.distributions.kl.kl_divergence(cat, oth_cat)`
			`for cat, oth_cat in zip(self.cats, other.cats)`
			`],`
			`dim=1,`
			`)`

			`@override(TorchDistributionWrapper)`
			`def kl(self, other):`
			`return torch.sum(self.multi_kl(other), dim=1)`

			`@staticmethod`
			`@override(ActionDistribution)`
			`def required_model_output_shape(action_space, model_config):`
			`return np.sum(action_space.nvec)`


[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`class TorchDiagGaussian(TorchDistributionWrapper):`
			`"""Wrapper class for PyTorch Normal distribution."""`

			`@override(ActionDistribution)`
[rllib] Autoregressive action distributions (#5304) 2019-08-10 14:05:12 -07:00			`def __init__(self, inputs, model):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`super().__init__(inputs, model)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`mean, log_std = torch.chunk(inputs, 2, dim=1)`
			`self.dist = torch.distributions.normal.Normal(mean, torch.exp(log_std))`

[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`@override(ActionDistribution)`
			`def deterministic_sample(self):`
			`return self.dist.mean`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`@override(TorchDistributionWrapper)`
			`def logp(self, actions):`
Fix issue with torch PPO not handling action spaces of shape=(>1,). (#7398) 2020-03-02 19:53:19 +01:00			`return super().logp(actions).sum(-1)`

			`@override(TorchDistributionWrapper)`
			`def entropy(self):`
			`return super().entropy().sum(-1)`

			`@override(TorchDistributionWrapper)`
			`def kl(self, other):`
			`return super().kl(other).sum(-1)`
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00
			`@staticmethod`
			`@override(ActionDistribution)`
			`def required_model_output_shape(action_space, model_config):`
			`return np.prod(action_space.shape) * 2`