ray/rllib/models/torch/torch_action_dist.py

import numpy as np

from ray.rllib.models.action_dist import ActionDistribution
from ray.rllib.utils.annotations import override
from ray.rllib.utils import try_import_torch

torch, nn = try_import_torch()


class TorchDistributionWrapper(ActionDistribution):
    """Wrapper class for torch.distributions."""

    def __init_(self, inputs):
        super().__init__(inputs)
        # Store the last sample here.
        self.last_sample = None

    @override(ActionDistribution)
    def logp(self, actions):
        return self.dist.log_prob(actions)

    @override(ActionDistribution)
    def entropy(self):
        return self.dist.entropy()

    @override(ActionDistribution)
    def kl(self, other):
        return torch.distributions.kl.kl_divergence(self.dist, other.dist)

    @override(ActionDistribution)
    def sample(self):
        self.last_sample = self.dist.sample()
        return self.last_sample

    @override(ActionDistribution)
    def sampled_action_logp(self):
        assert self.last_sample is not None
        return self.logp(self.last_sample)


class TorchCategorical(TorchDistributionWrapper):
    """Wrapper class for PyTorch Categorical distribution."""

    @override(ActionDistribution)
    def __init__(self, inputs, model):
        super().__init__(inputs, model)
        self.dist = torch.distributions.categorical.Categorical(logits=inputs)

    @override(ActionDistribution)
    def deterministic_sample(self):
        return self.dist.probs.argmax(dim=1)

    @staticmethod
    @override(ActionDistribution)
    def required_model_output_shape(action_space, model_config):
        return action_space.n


class TorchDiagGaussian(TorchDistributionWrapper):
    """Wrapper class for PyTorch Normal distribution."""

    @override(ActionDistribution)
    def __init__(self, inputs, model):
        super().__init__(inputs, model)
        mean, log_std = torch.chunk(inputs, 2, dim=1)
        self.dist = torch.distributions.normal.Normal(mean, torch.exp(log_std))

    @override(ActionDistribution)
    def deterministic_sample(self):
        return self.dist.mean

    @override(TorchDistributionWrapper)
    def logp(self, actions):
        return super().logp(actions).sum(-1)

    @override(TorchDistributionWrapper)
    def entropy(self):
        return super().entropy().sum(-1)

    @override(TorchDistributionWrapper)
    def kl(self, other):
        return super().kl(other).sum(-1)

    @staticmethod
    @override(ActionDistribution)
    def required_model_output_shape(action_space, model_config):
        return np.prod(action_space.shape) * 2
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00			`import numpy as np`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`from ray.rllib.models.action_dist import ActionDistribution`
			`from ray.rllib.utils.annotations import override`
Get utils ready for better Agent torch support. (#6561) 2019-12-30 15:27:32 -05:00			`from ray.rllib.utils import try_import_torch`

			`torch, nn = try_import_torch()`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

			`class TorchDistributionWrapper(ActionDistribution):`
			`"""Wrapper class for torch.distributions."""`

[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`def __init_(self, inputs):`
			`super().__init__(inputs)`
			`# Store the last sample here.`
			`self.last_sample = None`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`@override(ActionDistribution)`
			`def logp(self, actions):`
			`return self.dist.log_prob(actions)`

			`@override(ActionDistribution)`
			`def entropy(self):`
			`return self.dist.entropy()`

			`@override(ActionDistribution)`
			`def kl(self, other):`
Get utils ready for better Agent torch support. (#6561) 2019-12-30 15:27:32 -05:00			`return torch.distributions.kl.kl_divergence(self.dist, other.dist)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00
			`@override(ActionDistribution)`
			`def sample(self):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`self.last_sample = self.dist.sample()`
			`return self.last_sample`

			`@override(ActionDistribution)`
			`def sampled_action_logp(self):`
			`assert self.last_sample is not None`
			`return self.logp(self.last_sample)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

			`class TorchCategorical(TorchDistributionWrapper):`
			`"""Wrapper class for PyTorch Categorical distribution."""`

			`@override(ActionDistribution)`
[rllib] Autoregressive action distributions (#5304) 2019-08-10 14:05:12 -07:00			`def __init__(self, inputs, model):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`super().__init__(inputs, model)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`self.dist = torch.distributions.categorical.Categorical(logits=inputs)`
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`@override(ActionDistribution)`
			`def deterministic_sample(self):`
			`return self.dist.probs.argmax(dim=1)`

Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00			`@staticmethod`
			`@override(ActionDistribution)`
			`def required_model_output_shape(action_space, model_config):`
			`return action_space.n`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00

			`class TorchDiagGaussian(TorchDistributionWrapper):`
			`"""Wrapper class for PyTorch Normal distribution."""`

			`@override(ActionDistribution)`
[rllib] Autoregressive action distributions (#5304) 2019-08-10 14:05:12 -07:00			`def __init__(self, inputs, model):`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`super().__init__(inputs, model)`
[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`mean, log_std = torch.chunk(inputs, 2, dim=1)`
			`self.dist = torch.distributions.normal.Normal(mean, torch.exp(log_std))`

[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`@override(ActionDistribution)`
			`def deterministic_sample(self):`
			`return self.dist.mean`

[rllib] Support torch device and distributions. (#4553) 2019-04-12 11:39:14 -07:00			`@override(TorchDistributionWrapper)`
			`def logp(self, actions):`
Fix issue with torch PPO not handling action spaces of shape=(>1,). (#7398) 2020-03-02 19:53:19 +01:00			`return super().logp(actions).sum(-1)`

			`@override(TorchDistributionWrapper)`
			`def entropy(self):`
			`return super().entropy().sum(-1)`

			`@override(TorchDistributionWrapper)`
			`def kl(self, other):`
			`return super().kl(other).sum(-1)`
Custom action distributions (#5164) * custom action dist wip * Test case for custom action dist * ActionDistribution.get_parameter_shape_for_action_space pattern * Edit exception message to also suggest using a custom action distribution * Clean up ModelCatalog.get_action_dist * Pass model config to ActionDistribution constructors * Update custom action distribution test case * Name fix * Autoformatter * parameter shape static methods for torch distributions * Fix docstring * Generalize fake array for graph initialization * Fix action dist constructors * Correct parameter shape static methods for multicategorical and gaussian * Make suggested changes to custom action dist's * Correct instances of not passing model config to action dist * Autoformatter * fix tuple distribution constructor * bugfix 2019-08-06 18:13:16 +00:00
			`@staticmethod`
			`@override(ActionDistribution)`
			`def required_model_output_shape(action_space, model_config):`
			`return np.prod(action_space.shape) * 2`