ray/rllib/utils/sgd.py

"""Utils for minibatch SGD across multiple RLlib policies."""

import numpy as np
import logging
from collections import defaultdict
import random

from ray.rllib.evaluation.metrics import LEARNER_STATS_KEY
from ray.rllib.policy.sample_batch import DEFAULT_POLICY_ID, SampleBatch, \
    MultiAgentBatch

logger = logging.getLogger(__name__)


def averaged(kv, axis=None):
    """Average the value lists of a dictionary.

    For non-scalar values, we simply pick the first value.

    Args:
        kv (dict): dictionary with values that are lists of floats.

    Returns:
        dictionary with single averaged float as values.
    """
    out = {}
    for k, v in kv.items():
        if v[0] is not None and not isinstance(v[0], dict):
            out[k] = np.mean(v, axis=axis)
        else:
            out[k] = v[0]
    return out


def standardized(array):
    """Normalize the values in an array.

    Args:
        array (np.ndarray): Array of values to normalize.

    Returns:
        array with zero mean and unit standard deviation.
    """
    return (array - array.mean()) / max(1e-4, array.std())


def minibatches(samples: SampleBatch,
                sgd_minibatch_size: int,
                shuffle: bool = True):
    """Return a generator yielding minibatches from a sample batch.

    Args:
        samples: SampleBatch to split up.
        sgd_minibatch_size: Size of minibatches to return.
        shuffle: Whether to shuffle the order of the generated minibatches.
            Note that in case of a non-recurrent policy, the incoming batch
            is globally shuffled first regardless of this setting, before
            the minibatches are generated from it!

    Yields:
        SampleBatch: Each of size `sgd_minibatch_size`.
    """
    if not sgd_minibatch_size:
        yield samples
        return

    if isinstance(samples, MultiAgentBatch):
        raise NotImplementedError(
            "Minibatching not implemented for multi-agent in simple mode")

    if "state_in_0" not in samples and "state_out_0" not in samples:
        samples.shuffle()

    all_slices = samples._get_slice_indices(sgd_minibatch_size)
    data_slices, state_slices = all_slices

    if len(state_slices) == 0:
        if shuffle:
            random.shuffle(data_slices)
        for i, j in data_slices:
            yield samples.slice(i, j)
    else:
        all_slices = list(zip(data_slices, state_slices))
        if shuffle:
            # Make sure to shuffle data and states while linked together.
            random.shuffle(all_slices)
        for (i, j), (si, sj) in all_slices:
            yield samples.slice(i, j, si, sj)


def do_minibatch_sgd(samples, policies, local_worker, num_sgd_iter,
                     sgd_minibatch_size, standardize_fields):
    """Execute minibatch SGD.

    Args:
        samples (SampleBatch): Batch of samples to optimize.
        policies (dict): Dictionary of policies to optimize.
        local_worker (RolloutWorker): Master rollout worker instance.
        num_sgd_iter (int): Number of epochs of optimization to take.
        sgd_minibatch_size (int): Size of minibatches to use for optimization.
        standardize_fields (list): List of sample field names that should be
            normalized prior to optimization.

    Returns:
        averaged info fetches over the last SGD epoch taken.
    """
    if isinstance(samples, SampleBatch):
        samples = MultiAgentBatch({DEFAULT_POLICY_ID: samples}, samples.count)

    fetches = defaultdict(dict)
    for policy_id in policies.keys():
        if policy_id not in samples.policy_batches:
            continue

        batch = samples.policy_batches[policy_id]
        for field in standardize_fields:
            batch[field] = standardized(batch[field])

        learner_stats = defaultdict(list)
        model_stats = defaultdict(list)
        custom_callbacks_stats = defaultdict(list)

        for i in range(num_sgd_iter):
            for minibatch in minibatches(batch, sgd_minibatch_size):
                batch_fetches = (local_worker.learn_on_batch(
                    MultiAgentBatch({
                        policy_id: minibatch
                    }, minibatch.count)))[policy_id]
                for k, v in batch_fetches.get(LEARNER_STATS_KEY, {}).items():
                    learner_stats[k].append(v)
                for k, v in batch_fetches.get("model", {}).items():
                    model_stats[k].append(v)
                for k, v in batch_fetches.get("custom_metrics", {}).items():
                    custom_callbacks_stats[k].append(v)
        fetches[policy_id][LEARNER_STATS_KEY] = averaged(learner_stats)
        fetches[policy_id]["model"] = averaged(model_stats)
        fetches[policy_id]["custom_metrics"] = averaged(custom_callbacks_stats)
    return fetches
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`"""Utils for minibatch SGD across multiple RLlib policies."""`

			`import numpy as np`
			`import logging`
			`from collections import defaultdict`
			`import random`

			`from ray.rllib.evaluation.metrics import LEARNER_STATS_KEY`
[RLlib] Redo simplify multi agent config dict: Reverted b/c seemed to break test_typing (non RLlib test). (#17046) 2021-07-15 05:51:24 -04:00			`from ray.rllib.policy.sample_batch import DEFAULT_POLICY_ID, SampleBatch, \`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`MultiAgentBatch`

			`logger = logging.getLogger(__name__)`


WIP. (#8456) Fix multi-GPU histogram metrics for > 0D tensors. 2020-05-15 21:43:27 +02:00			`def averaged(kv, axis=None):`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`"""Average the value lists of a dictionary.`

[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`For non-scalar values, we simply pick the first value.`

[RLlib] SAC algo cleanup. (#10825) 2020-09-20 11:27:02 +02:00			`Args:`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`kv (dict): dictionary with values that are lists of floats.`

			`Returns:`
			`dictionary with single averaged float as values.`
			`"""`
			`out = {}`
			`for k, v in kv.items():`
			`if v[0] is not None and not isinstance(v[0], dict):`
WIP. (#8456) Fix multi-GPU histogram metrics for > 0D tensors. 2020-05-15 21:43:27 +02:00			`out[k] = np.mean(v, axis=axis)`
[rllib] Fix custom model metrics in multi-device case (#7640) * fix example * add example test * lin 2020-03-23 12:40:22 -07:00			`else:`
			`out[k] = v[0]`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`return out`


			`def standardized(array):`
			`"""Normalize the values in an array.`

[RLlib] SAC algo cleanup. (#10825) 2020-09-20 11:27:02 +02:00			`Args:`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`array (np.ndarray): Array of values to normalize.`

			`Returns:`
			`array with zero mean and unit standard deviation.`
			`"""`
			`return (array - array.mean()) / max(1e-4, array.std())`


[RLlib] Reinstate trajectory view API tests. (#18809) 2021-09-23 08:31:51 +02:00			`def minibatches(samples: SampleBatch,`
			`sgd_minibatch_size: int,`
			`shuffle: bool = True):`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`"""Return a generator yielding minibatches from a sample batch.`

[RLlib] SAC algo cleanup. (#10825) 2020-09-20 11:27:02 +02:00			`Args:`
[RLlib] Reinstate trajectory view API tests. (#18809) 2021-09-23 08:31:51 +02:00			`samples: SampleBatch to split up.`
			`sgd_minibatch_size: Size of minibatches to return.`
			`shuffle: Whether to shuffle the order of the generated minibatches.`
			`Note that in case of a non-recurrent policy, the incoming batch`
			`is globally shuffled first regardless of this setting, before`
			`the minibatches are generated from it!`

			`Yields:`
			SampleBatch: Each of size `sgd_minibatch_size`.
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`"""`
			`if not sgd_minibatch_size:`
			`yield samples`
			`return`

			`if isinstance(samples, MultiAgentBatch):`
			`raise NotImplementedError(`
			`"Minibatching not implemented for multi-agent in simple mode")`

[RLlib] Torch multi-GPU + LSTM/RNN bug fix. (#15492) 2021-05-18 11:51:05 +02:00			`if "state_in_0" not in samples and "state_out_0" not in samples:`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`samples.shuffle()`

[RLlib] Torch multi-GPU + LSTM/RNN bug fix. (#15492) 2021-05-18 11:51:05 +02:00			`all_slices = samples._get_slice_indices(sgd_minibatch_size)`
			`data_slices, state_slices = all_slices`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00
[RLlib] Torch multi-GPU + LSTM/RNN bug fix. (#15492) 2021-05-18 11:51:05 +02:00			`if len(state_slices) == 0:`
			`if shuffle:`
			`random.shuffle(data_slices)`
			`for i, j in data_slices:`
			`yield samples.slice(i, j)`
			`else:`
			`all_slices = list(zip(data_slices, state_slices))`
			`if shuffle:`
			`# Make sure to shuffle data and states while linked together.`
			`random.shuffle(all_slices)`
			`for (i, j), (si, sj) in all_slices:`
			`yield samples.slice(i, j, si, sj)`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00

			`def do_minibatch_sgd(samples, policies, local_worker, num_sgd_iter,`
			`sgd_minibatch_size, standardize_fields):`
			`"""Execute minibatch SGD.`

[RLlib] SAC algo cleanup. (#10825) 2020-09-20 11:27:02 +02:00			`Args:`
[RLlib] Extend on_learn_on_batch callback to allow for custom metrics to be added. (#13584) 2021-02-08 15:02:19 +01:00			`samples (SampleBatch): Batch of samples to optimize.`
			`policies (dict): Dictionary of policies to optimize.`
			`local_worker (RolloutWorker): Master rollout worker instance.`
			`num_sgd_iter (int): Number of epochs of optimization to take.`
			`sgd_minibatch_size (int): Size of minibatches to use for optimization.`
			`standardize_fields (list): List of sample field names that should be`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`normalized prior to optimization.`

			`Returns:`
			`averaged info fetches over the last SGD epoch taken.`
			`"""`
			`if isinstance(samples, SampleBatch):`
			`samples = MultiAgentBatch({DEFAULT_POLICY_ID: samples}, samples.count)`

[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`fetches = defaultdict(dict)`
[RLlib] Trajectory view API - 03 Fast LSTM + prev actions/rewards (#9950) 2020-08-21 12:35:16 +02:00			`for policy_id in policies.keys():`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`if policy_id not in samples.policy_batches:`
			`continue`

			`batch = samples.policy_batches[policy_id]`
			`for field in standardize_fields:`
			`batch[field] = standardized(batch[field])`

[RLlib] Fix ModelV2 custom metrics for torch. (#16734) 2021-07-01 13:01:40 +02:00			`learner_stats = defaultdict(list)`
			`model_stats = defaultdict(list)`
			`custom_callbacks_stats = defaultdict(list)`

[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`for i in range(num_sgd_iter):`
			`for minibatch in minibatches(batch, sgd_minibatch_size):`
			`batch_fetches = (local_worker.learn_on_batch(`
			`MultiAgentBatch({`
			`policy_id: minibatch`
			`}, minibatch.count)))[policy_id]`
[RLlib] Exploration API: merge deterministic flag with exploration classes (SoftQ and StochasticSampling). (#7155) 2020-02-19 21:18:45 +01:00			`for k, v in batch_fetches.get(LEARNER_STATS_KEY, {}).items():`
[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`learner_stats[k].append(v)`
[RLlib] Fix ModelV2 custom metrics for torch. (#16734) 2021-07-01 13:01:40 +02:00			`for k, v in batch_fetches.get("model", {}).items():`
			`model_stats[k].append(v)`
			`for k, v in batch_fetches.get("custom_metrics", {}).items():`
			`custom_callbacks_stats[k].append(v)`
[RLlib] Multi-GPU for tf-DQN/PG/A2C. (#13393) 2021-03-08 15:41:27 +01:00			`fetches[policy_id][LEARNER_STATS_KEY] = averaged(learner_stats)`
[RLlib] Fix ModelV2 custom metrics for torch. (#16734) 2021-07-01 13:01:40 +02:00			`fetches[policy_id]["model"] = averaged(model_stats)`
			`fetches[policy_id]["custom_metrics"] = averaged(custom_callbacks_stats)`
[rllib] [experimental] Decentralized Distributed PPO for torch (DD-PPO) (#6918) 2020-01-25 22:36:43 -08:00			`return fetches`