ray/doc/source/data/saving-datasets.rst

.. _saving_datasets:

===============
Saving Datasets
===============

Datasets can be written to local or remote storage using ``.write_csv()``, ``.write_json()``, and ``.write_parquet()``.

.. code-block:: python

    # Write to csv files in /tmp/output.
    ray.data.range(10000).write_csv("/tmp/output")
    # -> /tmp/output/data0.csv, /tmp/output/data1.csv, ...

    # Use repartition to control the number of output files:
    ray.data.range(10000).repartition(1).write_csv("/tmp/output2")
    # -> /tmp/output2/data0.csv

You can also convert a ``Dataset`` to Ray-compatible distributed DataFrames:

.. code-block:: python

    # Convert a Ray Dataset into a Dask-on-Ray DataFrame.
    dask_df = ds.to_dask()
[Dataset GA doc] Decompose the monolith of Getting Started page (and get them under User Guide) (#23311) Improve the Dataset documentation for GA. 2022-03-18 11:25:43 -07:00			`.. _saving_datasets:`

			`===============`
			`Saving Datasets`
			`===============`

			Datasets can be written to local or remote storage using ``.write_csv()``, ``.write_json()``, and ``.write_parquet()``.

			`.. code-block:: python`

			`# Write to csv files in /tmp/output.`
			`ray.data.range(10000).write_csv("/tmp/output")`
			`# -> /tmp/output/data0.csv, /tmp/output/data1.csv, ...`

			`# Use repartition to control the number of output files:`
			`ray.data.range(10000).repartition(1).write_csv("/tmp/output2")`
			`# -> /tmp/output2/data0.csv`

			You can also convert a ``Dataset`` to Ray-compatible distributed DataFrames:

			`.. code-block:: python`

			`# Convert a Ray Dataset into a Dask-on-Ray DataFrame.`
			`dask_df = ds.to_dask()`