ray/rllib/connectors/agent/env_to_agent.py

from typing import Any, List

from ray.rllib.connectors.connector import (
    ConnectorContext,
    AgentConnector,
    register_connector,
)
from ray.rllib.policy.sample_batch import SampleBatch
from ray.rllib.utils.annotations import DeveloperAPI
from ray.rllib.utils.typing import AgentConnectorDataType


@DeveloperAPI
class EnvToAgentDataConnector(AgentConnector):
    """Converts per environment multi-agent obs into per agent SampleBatches."""

    def __init__(self, ctx: ConnectorContext):
        super().__init__(ctx)
        self._view_requirements = ctx.view_requirements

    def __call__(self, ac_data: AgentConnectorDataType) -> List[AgentConnectorDataType]:
        if ac_data.agent_id:
            # data is already for a single agent.
            return [ac_data]

        assert isinstance(ac_data.data, (tuple, list)) and len(ac_data.data) == 5, (
            "EnvToPerAgentDataConnector expects a tuple of "
            + "(obs, rewards, dones, infos, episode_infos)."
        )
        # episode_infos contains additional training related data bits
        # for each agent, such as SampleBatch.T, SampleBatch.AGENT_INDEX,
        # SampleBatch.ACTIONS, SampleBatch.DONES (if hitting horizon),
        # and is usually empty in inference mode.
        obs, rewards, dones, infos, training_episode_infos = ac_data.data
        for var, name in zip(
            (obs, rewards, dones, infos, training_episode_infos),
            ("obs", "rewards", "dones", "infos", "training_episode_infos"),
        ):
            assert isinstance(var, dict), (
                f"EnvToPerAgentDataConnector expects {name} "
                + "to be a MultiAgentDict."
            )

        env_id = ac_data.env_id
        per_agent_data = []
        for agent_id, obs in obs.items():
            input_dict = {
                SampleBatch.ENV_ID: env_id,
                SampleBatch.REWARDS: rewards[agent_id],
                # SampleBatch.DONES may be overridden by data from
                # training_episode_infos next.
                SampleBatch.DONES: dones[agent_id],
                SampleBatch.NEXT_OBS: obs,
            }
            if SampleBatch.INFOS in self._view_requirements:
                input_dict[SampleBatch.INFOS] = infos[agent_id]
            if agent_id in training_episode_infos:
                input_dict.update(training_episode_infos[agent_id])

            per_agent_data.append(AgentConnectorDataType(env_id, agent_id, input_dict))

        return per_agent_data

    def to_config(self):
        return EnvToAgentDataConnector.__name__, None

    @staticmethod
    def from_config(ctx: ConnectorContext, params: List[Any]):
        return EnvToAgentDataConnector(ctx)


register_connector(EnvToAgentDataConnector.__name__, EnvToAgentDataConnector)
[RLlib] Introduce basic connectors library. (#25311) 2022-06-07 10:18:14 -07:00			`from typing import Any, List`

			`from ray.rllib.connectors.connector import (`
			`ConnectorContext,`
			`AgentConnector,`
			`register_connector,`
			`)`
			`from ray.rllib.policy.sample_batch import SampleBatch`
			`from ray.rllib.utils.annotations import DeveloperAPI`
			`from ray.rllib.utils.typing import AgentConnectorDataType`


			`@DeveloperAPI`
			`class EnvToAgentDataConnector(AgentConnector):`
			`"""Converts per environment multi-agent obs into per agent SampleBatches."""`

			`def __init__(self, ctx: ConnectorContext):`
			`super().__init__(ctx)`
			`self._view_requirements = ctx.view_requirements`

			`def __call__(self, ac_data: AgentConnectorDataType) -> List[AgentConnectorDataType]:`
			`if ac_data.agent_id:`
			`# data is already for a single agent.`
			`return [ac_data]`

			`assert isinstance(ac_data.data, (tuple, list)) and len(ac_data.data) == 5, (`
			`"EnvToPerAgentDataConnector expects a tuple of "`
			`+ "(obs, rewards, dones, infos, episode_infos)."`
			`)`
			`# episode_infos contains additional training related data bits`
			`# for each agent, such as SampleBatch.T, SampleBatch.AGENT_INDEX,`
			`# SampleBatch.ACTIONS, SampleBatch.DONES (if hitting horizon),`
			`# and is usually empty in inference mode.`
			`obs, rewards, dones, infos, training_episode_infos = ac_data.data`
			`for var, name in zip(`
			`(obs, rewards, dones, infos, training_episode_infos),`
			`("obs", "rewards", "dones", "infos", "training_episode_infos"),`
			`):`
			`assert isinstance(var, dict), (`
			`f"EnvToPerAgentDataConnector expects {name} "`
			`+ "to be a MultiAgentDict."`
			`)`

			`env_id = ac_data.env_id`
			`per_agent_data = []`
			`for agent_id, obs in obs.items():`
			`input_dict = {`
			`SampleBatch.ENV_ID: env_id,`
			`SampleBatch.REWARDS: rewards[agent_id],`
			`# SampleBatch.DONES may be overridden by data from`
			`# training_episode_infos next.`
			`SampleBatch.DONES: dones[agent_id],`
			`SampleBatch.NEXT_OBS: obs,`
			`}`
			`if SampleBatch.INFOS in self._view_requirements:`
			`input_dict[SampleBatch.INFOS] = infos[agent_id]`
			`if agent_id in training_episode_infos:`
			`input_dict.update(training_episode_infos[agent_id])`

			`per_agent_data.append(AgentConnectorDataType(env_id, agent_id, input_dict))`

			`return per_agent_data`

			`def to_config(self):`
			`return EnvToAgentDataConnector.__name__, None`

			`@staticmethod`
			`def from_config(ctx: ConnectorContext, params: List[Any]):`
			`return EnvToAgentDataConnector(ctx)`


			`register_connector(EnvToAgentDataConnector.__name__, EnvToAgentDataConnector)`