ray/rllib/algorithms at b6fe6156f5cc6d4490e4ed3cd347ebcd500c2f1e - hiro/ray

hiro/ray

mirror of https://github.com/vale981/ray synced 2025-03-05 10:01:43 -05:00

History

Artur Niederfahrenhorst 7ddd14b5db [RLlib] Fix PPOTorchPolicy producing float metrics when not using critic. (#27980 )		2022-08-22 09:41:36 -07:00
..
a2c	[RLlib] Fix A2C release tests (#27314 )	2022-08-02 10:44:52 -07:00
a3c	[RLlib] Revert `41c9ef70`. (#27243 )	2022-07-29 11:05:15 -07:00
alpha_star	[RLlib] Move IMPALA and APPO back to exec plan (for now; due to unresolved learning/performance issues). (#25851 )	2022-06-29 08:41:47 +02:00
alpha_zero	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
apex_ddpg	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
apex_dqn	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
appo	[RLlib] quick fix for learning rate schedule for APPO algorithm. (#28013 )	2022-08-19 14:34:34 -07:00
ars	[RLlib] More Trainer -> Algorithm renaming cleanups. (#25869 )	2022-06-20 15:54:00 +02:00
bandit	[RLlib] `Trainer` to `Algorithm` renaming. (#25539 )	2022-06-11 15:10:39 +02:00
bc	[RLlib]: Raise deprecation warning in MARWIL OPE methods. (#26893 )	2022-07-23 13:55:40 +02:00
cql	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
crr	[RLlib] CRR framework torch by default. (#27161 )	2022-08-09 16:53:00 +02:00
ddpg	[RLlib] Remove unneeded args from offline learning examples. (#26666 )	2022-08-17 17:59:27 +02:00
ddppo	[RLlib] Cleanup some deprecated metric keys and classes. (#26036 )	2022-06-23 21:30:01 +02:00
dqn	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
dreamer	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
dt	[RLlib] Add Decision Transformer (DT) (#27890 )	2022-08-17 13:49:13 -07:00
es	[RLlib] More Trainer -> Algorithm renaming cleanups. (#25869 )	2022-06-20 15:54:00 +02:00
impala	[RLlib] Get rid of all these deprecation warnings. (#27085 )	2022-07-27 10:48:54 -07:00
maddpg	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
maml	[RLlib] Get rid of all these deprecation warnings. (#27085 )	2022-07-27 10:48:54 -07:00
marwil	[RLlib] Deflake MARWIL and BC and remove memory leak from torch MARWIL policy (#27406 )	2022-08-03 16:53:12 -07:00
mbmpo	[RLlib] Get rid of all these deprecation warnings. (#27085 )	2022-07-27 10:48:54 -07:00
pg	[RLlib] Fix a bunch of issues related to connectors. (#26510 )	2022-07-13 18:55:20 +02:00
ppo	[RLlib] Fix PPOTorchPolicy producing float metrics when not using critic. (#27980 )	2022-08-22 09:41:36 -07:00
qmix	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
r2d2	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
sac	[RLlib] Fix SAC config parameter that is not used. (#27741 )	2022-08-11 18:57:55 +02:00
simple_q	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
slateq	Fix grammer of error message (#27900 )	2022-08-16 11:26:03 -07:00
td3	[RLlib] Move learning_starts logic from buffers into `training_step()`. (#26032 )	2022-08-11 13:07:30 +02:00
tests	[RLlib] Eval workers use async req manager. (#27390 )	2022-08-16 12:05:55 +02:00
__init__.py	[RLlib] `Trainer` to `Algorithm` renaming. (#25539 )	2022-06-11 15:10:39 +02:00
algorithm.py	[RLlib] Eval workers use async req manager. (#27390 )	2022-08-16 12:05:55 +02:00
algorithm_config.py	[RLlib] Eval workers use async req manager. (#27390 )	2022-08-16 12:05:55 +02:00
callbacks.py	[RLlib] more connector polishes and fixes. (#26645 )	2022-07-19 08:50:28 -07:00
mock.py	[RLlib] `Trainer` to `Algorithm` renaming. (#25539 )	2022-06-11 15:10:39 +02:00
registry.py	[RLlib] Add Decision Transformer (DT) (#27890 )	2022-08-17 13:49:13 -07:00