ray/rllib/offline/dataset_reader.py

import logging
import math

import ray.data
from ray.rllib.offline.input_reader import InputReader
from ray.rllib.offline.io_context import IOContext
from ray.rllib.offline.json_reader import from_json_data
from ray.rllib.utils.annotations import override, PublicAPI
from ray.rllib.utils.typing import SampleBatchType, TrainerConfigDict
from typing import List

logger = logging.getLogger(__name__)

DEFAULT_NUM_CPUS_PER_TASK = 0.5


def get_resource_bundles(config: TrainerConfigDict):
    input_config = config.get("input_config", {})
    parallelism = input_config.get("parallelism", config.get("num_workers", 1))
    cpus_per_task = input_config.get(
        "num_cpus_per_read_task", DEFAULT_NUM_CPUS_PER_TASK
    )
    return [{"CPU": math.ceil(parallelism * cpus_per_task)}]


def get_dataset_and_shards(
    config: TrainerConfigDict, num_workers: int, local_worker: bool
) -> (ray.data.dataset.Dataset, List[ray.data.dataset.Dataset]):
    assert config["input"] == "dataset"
    assert (
        "input_config" in config
    ), "Must specify input_config dict if using Dataset input."

    input_config = config["input_config"]

    format = input_config.get("format")
    path = input_config.get("path")
    loader_fn = input_config.get("loader_fn")

    if loader_fn and (format or path):
        raise ValueError(
            "When using a `loader_fn`, you cannot specify a `format` or `path`."
        )

    if not (format and path) and not loader_fn:
        raise ValueError(
            "Must specify format and path, or a loader_fn via input_config key"
            " when using Ray dataset input."
        )

    parallelism = input_config.get("parallelism", num_workers or 1)
    cpus_per_task = input_config.get(
        "num_cpus_per_read_task", DEFAULT_NUM_CPUS_PER_TASK
    )

    assert loader_fn or (format and path)

    if loader_fn:
        dataset = loader_fn()
    elif format == "json":
        dataset = ray.data.read_json(
            path, parallelism=parallelism, ray_remote_args={"num_cpus": cpus_per_task}
        )
    elif format == "parquet":
        dataset = ray.data.read_parquet(
            path, parallelism=parallelism, ray_remote_args={"num_cpus": cpus_per_task}
        )
    else:
        raise ValueError("Un-supported Ray dataset format: ", format)

    # Local worker will be responsible for sampling.
    if local_worker and num_workers == 0:
        # Dataset is the only shard we need.
        return dataset, [dataset]
    # Remote workers are responsible for sampling:
    else:
        # Each remote worker gets 1 shard.
        # The first None shard is for the local worker, which
        # shouldn't be doing rollout work anyways.
        return dataset, [None] + dataset.repartition(
            num_blocks=num_workers, shuffle=False
        ).split(num_workers)


@PublicAPI
class DatasetReader(InputReader):
    """Reader object that loads data from Ray Dataset.

    Examples:
        config = {
            "input": "dataset",
            "input_config": {
                "format": "json",
                # A single data file, a directory, or anything
                # that ray.data.dataset recognizes.
                "path": "/tmp/sample_batches/",
                # By default, parallelism=num_workers.
                "parallelism": 3,
                # Dataset allocates 0.5 CPU for each reader by default.
                # Adjust this value based on the size of your offline dataset.
                "num_cpus_per_read_task": 0.5,
            }
        }
    """

    @PublicAPI
    def __init__(self, ioctx: IOContext, ds: ray.data.Dataset):
        """Initializes a DatasetReader instance.

        Args:
            ds: Ray dataset to sample from.
        """
        self._ioctx = ioctx
        self._dataset = ds
        # We allow the creation of a non-functioning None DatasetReader.
        # It's useful for example for a non-rollout local worker.
        if ds:
            print(
                "DatasetReader ", ioctx.worker_index, " has ", ds.count(), " samples."
            )
            self._iter = self._dataset.repeat().iter_rows()
        else:
            self._iter = None

    @override(InputReader)
    def next(self) -> SampleBatchType:
        # next() should not get called on None DatasetReader.
        assert self._iter is not None

        d = next(self._iter).as_pydict()
        # Columns like obs are compressed when written by DatasetWriter.
        d = from_json_data(d, self._ioctx.worker)

        return d
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00			`import logging`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`import math`
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00
			`import ray.data`
			`from ray.rllib.offline.input_reader import InputReader`
			`from ray.rllib.offline.io_context import IOContext`
			`from ray.rllib.offline.json_reader import from_json_data`
			`from ray.rllib.utils.annotations import override, PublicAPI`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`from ray.rllib.utils.typing import SampleBatchType, TrainerConfigDict`
			`from typing import List`
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00
			`logger = logging.getLogger(__name__)`

[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`DEFAULT_NUM_CPUS_PER_TASK = 0.5`


			`def get_resource_bundles(config: TrainerConfigDict):`
			`input_config = config.get("input_config", {})`
			`parallelism = input_config.get("parallelism", config.get("num_workers", 1))`
			`cpus_per_task = input_config.get(`
			`"num_cpus_per_read_task", DEFAULT_NUM_CPUS_PER_TASK`
			`)`
			`return [{"CPU": math.ceil(parallelism * cpus_per_task)}]`


			`def get_dataset_and_shards(`
			`config: TrainerConfigDict, num_workers: int, local_worker: bool`
			`) -> (ray.data.dataset.Dataset, List[ray.data.dataset.Dataset]):`
			`assert config["input"] == "dataset"`
			`assert (`
			`"input_config" in config`
			`), "Must specify input_config dict if using Dataset input."`

			`input_config = config["input_config"]`
[AIR] Add RLTrainer interface, implementation, and examples (#23465) This PR adds a RLTrainer to Ray AIR. It works for both offline and online use cases. In offline training, it will leverage the datasets key of the Trainer API to specify a dataset reader input, used e.g. in Behavioral Cloning (BC). In online training, it is a wrapper around the rllib trainables making use of the parameter layering enabled by the Trainer API. 2022-04-08 17:16:42 -07:00
			`format = input_config.get("format")`
			`path = input_config.get("path")`
			`loader_fn = input_config.get("loader_fn")`

			`if loader_fn and (format or path):`
			`raise ValueError(`
			"When using a `loader_fn`, you cannot specify a `format` or `path`."
			`)`

			`if not (format and path) and not loader_fn:`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`raise ValueError(`
[AIR] Add RLTrainer interface, implementation, and examples (#23465) This PR adds a RLTrainer to Ray AIR. It works for both offline and online use cases. In offline training, it will leverage the datasets key of the Trainer API to specify a dataset reader input, used e.g. in Behavioral Cloning (BC). In online training, it is a wrapper around the rllib trainables making use of the parameter layering enabled by the Trainer API. 2022-04-08 17:16:42 -07:00			`"Must specify format and path, or a loader_fn via input_config key"`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`" when using Ray dataset input."`
			`)`

[RLlib] Fix tree.flatten dict ordering bug: `flatten_space([obs_space])` should produce same struct as `tree.flatten([obs])`. (#22731) 2022-03-01 21:24:24 +01:00			`parallelism = input_config.get("parallelism", num_workers or 1)`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`cpus_per_task = input_config.get(`
			`"num_cpus_per_read_task", DEFAULT_NUM_CPUS_PER_TASK`
			`)`

[AIR] Add RLTrainer interface, implementation, and examples (#23465) This PR adds a RLTrainer to Ray AIR. It works for both offline and online use cases. In offline training, it will leverage the datasets key of the Trainer API to specify a dataset reader input, used e.g. in Behavioral Cloning (BC). In online training, it is a wrapper around the rllib trainables making use of the parameter layering enabled by the Trainer API. 2022-04-08 17:16:42 -07:00			`assert loader_fn or (format and path)`

			`if loader_fn:`
			`dataset = loader_fn()`
			`elif format == "json":`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`dataset = ray.data.read_json(`
			`path, parallelism=parallelism, ray_remote_args={"num_cpus": cpus_per_task}`
			`)`
			`elif format == "parquet":`
			`dataset = ray.data.read_parquet(`
			`path, parallelism=parallelism, ray_remote_args={"num_cpus": cpus_per_task}`
			`)`
			`else:`
			`raise ValueError("Un-supported Ray dataset format: ", format)`

			`# Local worker will be responsible for sampling.`
			`if local_worker and num_workers == 0:`
			`# Dataset is the only shard we need.`
			`return dataset, [dataset]`
			`# Remote workers are responsible for sampling:`
			`else:`
			`# Each remote worker gets 1 shard.`
			`# The first None shard is for the local worker, which`
			`# shouldn't be doing rollout work anyways.`
			`return dataset, [None] + dataset.repartition(`
			`num_blocks=num_workers, shuffle=False`
			`).split(num_workers)`

[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00
			`@PublicAPI`
			`class DatasetReader(InputReader):`
			`"""Reader object that loads data from Ray Dataset.`

			`Examples:`
			`config = {`
[RLlib] Docs enhancements: Setup-dev instructions; Ray datasets integration. (#22239) 2022-02-15 00:09:24 -08:00			`"input": "dataset",`
			`"input_config": {`
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00			`"format": "json",`
[RLlib] Docs enhancements: Setup-dev instructions; Ray datasets integration. (#22239) 2022-02-15 00:09:24 -08:00			`# A single data file, a directory, or anything`
			`# that ray.data.dataset recognizes.`
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00			`"path": "/tmp/sample_batches/",`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`# By default, parallelism=num_workers.`
			`"parallelism": 3,`
[RLlib] Docs enhancements: Setup-dev instructions; Ray datasets integration. (#22239) 2022-02-15 00:09:24 -08:00			`# Dataset allocates 0.5 CPU for each reader by default.`
			`# Adjust this value based on the size of your offline dataset.`
[RLlib] Request CPU resources in `Trainer.default_resource_request()` if using dataset input. (#21948) 2022-02-02 01:20:37 -08:00			`"num_cpus_per_read_task": 0.5,`
[RLlib] Dataset Reader/Writer for RLlib (#21808) 2022-01-26 07:00:46 -08:00			`}`
			`}`
			`"""`

			`@PublicAPI`
			`def __init__(self, ioctx: IOContext, ds: ray.data.Dataset):`
			`"""Initializes a DatasetReader instance.`

			`Args:`
			`ds: Ray dataset to sample from.`
			`"""`
			`self._ioctx = ioctx`
			`self._dataset = ds`
			`# We allow the creation of a non-functioning None DatasetReader.`
			`# It's useful for example for a non-rollout local worker.`
			`if ds:`
			`print(`
			`"DatasetReader ", ioctx.worker_index, " has ", ds.count(), " samples."`
			`)`
			`self._iter = self._dataset.repeat().iter_rows()`
			`else:`
			`self._iter = None`

			`@override(InputReader)`
			`def next(self) -> SampleBatchType:`
			`# next() should not get called on None DatasetReader.`
			`assert self._iter is not None`

			`d = next(self._iter).as_pydict()`
			`# Columns like obs are compressed when written by DatasetWriter.`
			`d = from_json_data(d, self._ioctx.worker)`

			`return d`