ray/rllib/connectors/agent/state_buffer.py

from collections import defaultdict
from typing import Any, List

import numpy as np
import tree  # dm_tree

from ray.rllib.connectors.connector import (
    AgentConnector,
    ConnectorContext,
    register_connector,
)
from ray.rllib.policy.sample_batch import SampleBatch
from ray.rllib.utils.spaces.space_utils import get_base_struct_from_space
from ray.rllib.utils.typing import ActionConnectorDataType, AgentConnectorDataType
from ray.util.annotations import PublicAPI


@PublicAPI(stability="alpha")
class StateBufferConnector(AgentConnector):
    def __init__(self, ctx: ConnectorContext):
        super().__init__(ctx)

        self._soft_horizon = ctx.config.get("soft_horizon", False)
        self._initial_states = ctx.initial_states
        self._action_space_struct = get_base_struct_from_space(ctx.action_space)
        self._states = defaultdict(lambda: defaultdict(lambda: (None, None, None)))

    def reset(self, env_id: str):
        # If soft horizon, states should be carried over between episodes.
        if not self._soft_horizon:
            del self._states[env_id]

    def on_policy_output(self, ac_data: ActionConnectorDataType):
        # Buffer latest output states for next input __call__.
        self._states[ac_data.env_id][ac_data.agent_id] = ac_data.output

    def transform(self, ac_data: AgentConnectorDataType) -> AgentConnectorDataType:
        d = ac_data.data
        assert (
            type(d) == dict
        ), "Single agent data must be of type Dict[str, TensorStructType]"

        env_id = ac_data.env_id
        agent_id = ac_data.agent_id
        assert (
            env_id is not None and agent_id is not None
        ), f"StateBufferConnector requires env_id(f{env_id}) and agent_id(f{agent_id})"

        action, states, fetches = self._states[env_id][agent_id]

        if action is not None:
            d[SampleBatch.ACTIONS] = action  # Last action
        else:
            # Default zero action.
            d[SampleBatch.ACTIONS] = tree.map_structure(
                lambda s: np.zeros_like(s.sample(), s.dtype)
                if hasattr(s, "dtype")
                else np.zeros_like(s.sample()),
                self._action_space_struct,
            )

        if states is None:
            states = self._initial_states
        for i, v in enumerate(states):
            d["state_out_{}".format(i)] = v

        # Also add extra fetches if available.
        if fetches:
            d.update(fetches)

        return ac_data

    def to_config(self):
        return StateBufferConnector.__name__, None

    @staticmethod
    def from_config(ctx: ConnectorContext, params: List[Any]):
        return StateBufferConnector(ctx)


register_connector(StateBufferConnector.__name__, StateBufferConnector)
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`from collections import defaultdict`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`from typing import Any, List`

[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`import numpy as np`
			`import tree # dm_tree`

			`from ray.rllib.connectors.connector import (`
			`AgentConnector,`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`ConnectorContext,`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`register_connector,`
			`)`
			`from ray.rllib.policy.sample_batch import SampleBatch`
			`from ray.rllib.utils.spaces.space_utils import get_base_struct_from_space`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`from ray.rllib.utils.typing import ActionConnectorDataType, AgentConnectorDataType`
			`from ray.util.annotations import PublicAPI`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00

[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`@PublicAPI(stability="alpha")`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`class StateBufferConnector(AgentConnector):`
			`def __init__(self, ctx: ConnectorContext):`
			`super().__init__(ctx)`

[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`self._soft_horizon = ctx.config.get("soft_horizon", False)`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`self._initial_states = ctx.initial_states`
			`self._action_space_struct = get_base_struct_from_space(ctx.action_space)`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`self._states = defaultdict(lambda: defaultdict(lambda: (None, None, None)))`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
			`def reset(self, env_id: str):`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`# If soft horizon, states should be carried over between episodes.`
			`if not self._soft_horizon:`
			`del self._states[env_id]`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`def on_policy_output(self, ac_data: ActionConnectorDataType):`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`# Buffer latest output states for next input __call__.`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`self._states[ac_data.env_id][ac_data.agent_id] = ac_data.output`

			`def transform(self, ac_data: AgentConnectorDataType) -> AgentConnectorDataType:`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`d = ac_data.data`
			`assert (`
			`type(d) == dict`
			`), "Single agent data must be of type Dict[str, TensorStructType]"`

			`env_id = ac_data.env_id`
			`agent_id = ac_data.agent_id`
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`assert (`
			`env_id is not None and agent_id is not None`
			`), f"StateBufferConnector requires env_id(f{env_id}) and agent_id(f{agent_id})"`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`action, states, fetches = self._states[env_id][agent_id]`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`if action is not None:`
			`d[SampleBatch.ACTIONS] = action # Last action`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`else:`
			`# Default zero action.`
			`d[SampleBatch.ACTIONS] = tree.map_structure(`
			`lambda s: np.zeros_like(s.sample(), s.dtype)`
			`if hasattr(s, "dtype")`
			`else np.zeros_like(s.sample()),`
			`self._action_space_struct,`
			`)`

[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`if states is None:`
			`states = self._initial_states`
			`for i, v in enumerate(states):`
			`d["state_out_{}".format(i)] = v`

			`# Also add extra fetches if available.`
			`if fetches:`
			`d.update(fetches)`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
[RLlib] EnvRunnerV2 and EpisodeV2 that support Connectors. (#25922) 2022-06-29 23:44:10 -07:00			`return ac_data`
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00
			`def to_config(self):`
			`return StateBufferConnector.__name__, None`

			`@staticmethod`
			`def from_config(ctx: ConnectorContext, params: List[Any]):`
			`return StateBufferConnector(ctx)`


			`register_connector(StateBufferConnector.__name__, StateBufferConnector)`