[tune] Implement median stopping rule (#1170)

* trial scheduler interface * remove * wip median stopping * remove * median stopping rule * update * docs * update * Revrt * update * comments * fix tesT
2025-03-06 10:31:39 -05:00 · 2017-11-03 11:25:02 -07:00 · 2017-11-03 11:25:02 -07:00 · d06beacd84
commit d06beacd84
parent fdf069bd1d
5 changed files with 225 additions and 1 deletions
--- a/.travis.yml
+++ b/.travis.yml
@ -119,6 +119,7 @@ script:
  - python test/recursion_test.py
  - python test/monitor_test.py
  - python test/trial_runner_test.py
+  - python test/trial_scheduler_test.py

  - python -m pytest python/ray/rllib/test/test_catalog.py

--- a/python/ray/rllib/train.py
+++ b/python/ray/rllib/train.py
@ -23,6 +23,7 @@ import yaml

 import ray
 from ray.tune.config_parser import make_parser, parse_to_trials
+from ray.tune.trial_scheduler import MedianStoppingRule
 from ray.tune.trial_runner import TrialRunner
 from ray.tune.trial import Trial

@ -46,7 +47,7 @@ parser.add_argument("-f", "--config-file", default=None, type=str,

 def main(argv):
    args = parser.parse_args(argv)
-    runner = TrialRunner()
+    runner = TrialRunner(MedianStoppingRule())

    if args.config_file:
        with open(args.config_file) as f:
--- a/python/ray/tune/trial_runner.py
+++ b/python/ray/tune/trial_runner.py
@ -148,6 +148,7 @@ class TrialRunner(object):
            trial.last_result = result

            if trial.should_stop(result):
+                self._scheduler_alg.on_trial_complete(self, trial, result)
                self._stop_trial(trial)
            else:
                decision = self._scheduler_alg.on_trial_result(
--- a/python/ray/tune/trial_scheduler.py
+++ b/python/ray/tune/trial_scheduler.py
@ -1,6 +1,9 @@
 from __future__ import absolute_import
 from __future__ import division

+import collections
+import numpy as np
+
 from ray.tune.trial import Trial


@ -17,6 +20,13 @@ class TrialScheduler(object):

        raise NotImplementedError

+    def on_trial_complete(self, trial_runner, trial, result):
+        """Notification for the completion of trial.
+
+        This will only be called when the trial completes naturally."""
+
+        raise NotImplementedError
+
    def choose_trial_to_run(self, trial_runner, trials):
        """Called to choose a new trial to run.

@ -32,9 +42,14 @@ class TrialScheduler(object):


 class FIFOScheduler(TrialScheduler):
+    """Simple scheduler that just runs trials in submission order."""
+
    def on_trial_result(self, trial_runner, trial, result):
        return TrialScheduler.CONTINUE

+    def on_trial_complete(self, trial_runner, trial, result):
+        pass
+
    def choose_trial_to_run(self, trial_runner):
        for trial in trial_runner.get_trials():
            if (trial.status == Trial.PENDING and
@ -44,3 +59,85 @@ class FIFOScheduler(TrialScheduler):

    def debug_string(self):
        return "Using FIFO scheduling algorithm."
+
+
+# TODO(ekl) expose this in the command line API
+class MedianStoppingRule(FIFOScheduler):
+    """Implements the median stopping rule as described in the Vizier paper:
+
+        https://research.google.com/pubs/pub46180.html
+
+    Args:
+        time_attr (str): The TrainingResult attr to use for comparing time.
+            Note that you can pass in something non-temporal such as
+            `training_iteration` as a measure of progress, the only requirement
+            is that the attribute should increase monotonically.
+        reward_attr (str): The TrainingResult objective value attribute. As
+            with `time_attr`, this may refer to any objective value that
+            is supposed to increase with time.
+        grace_period (float): Only stop trials at least this old in time.
+            The units are the same as the attribute named by `time_attr`.
+        min_samples_required (int): Min samples to compute median over.
+    """
+
+    def __init__(
+            self, time_attr='time_total_s', reward_attr='episode_reward_mean',
+            grace_period=60.0, min_samples_required=3):
+        FIFOScheduler.__init__(self)
+        self._completed_trials = set()
+        self._results = collections.defaultdict(list)
+        self._grace_period = grace_period
+        self._min_samples_required = min_samples_required
+        self._reward_attr = reward_attr
+        self._time_attr = time_attr
+        self._num_stopped = 0
+
+    def on_trial_result(self, trial_runner, trial, result):
+        """Callback for early stopping.
+
+        This stopping rule stops a running trial if the trial's best objective
+        value by step `t` is strictly worse than the median of the running
+        averages of all completed trials' objectives reported up to step `t`.
+        """
+
+        time = getattr(result, self._time_attr)
+        self._results[trial].append(result)
+        median_result = self._get_median_result(time)
+        best_result = self._best_result(trial)
+        print("Trial {} best res={} vs median res={} at t={}".format(
+            trial, best_result, median_result, time))
+        if best_result < median_result and time > self._grace_period:
+            print("MedianStoppingRule: early stopping {}".format(trial))
+            self._num_stopped += 1
+            return TrialScheduler.STOP
+        else:
+            return TrialScheduler.CONTINUE
+
+    def on_trial_complete(self, trial_runner, trial, result):
+        self._results[trial].append(result)
+        self._completed_trials.add(trial)
+
+    def debug_string(self):
+        return "Using MedianStoppingRule: num_stopped={}.".format(
+            self._num_stopped)
+
+    def _get_median_result(self, time):
+        scores = []
+        for trial in self._completed_trials:
+            scores.append(self._running_result(trial, time))
+        if len(scores) >= self._min_samples_required:
+            return np.median(scores)
+        else:
+            return float('-inf')
+
+    def _running_result(self, trial, t_max=float('inf')):
+        results = self._results[trial]
+        # TODO(ekl) we could do interpolation to be more precise, but for now
+        # assume len(results) is large and the time diffs are roughly equal
+        return np.mean(
+            [getattr(r, self._reward_attr)
+                for r in results if getattr(r, self._time_attr) <= t_max])
+
+    def _best_result(self, trial):
+        results = self._results[trial]
+        return max([getattr(r, self._reward_attr) for r in results])
--- a/test/trial_scheduler_test.py
+++ b/test/trial_scheduler_test.py
@ -0,0 +1,124 @@
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import unittest
+
+from ray.tune.result import TrainingResult
+from ray.tune.trial import Trial
+from ray.tune.trial_scheduler import MedianStoppingRule, TrialScheduler
+
+
+def result(t, rew):
+    return TrainingResult(time_total_s=t, episode_reward_mean=rew)
+
+
+class EarlyStoppingSuite(unittest.TestCase):
+    def basicSetup(self, rule):
+        t1 = Trial("t1", "PPO")  # mean is 450, max 900, t_max=10
+        t2 = Trial("t2", "PPO")  # mean is 450, max 450, t_max=5
+        for i in range(10):
+            self.assertEqual(
+                rule.on_trial_result(None, t1, result(i, i * 100)),
+                TrialScheduler.CONTINUE)
+        for i in range(5):
+            self.assertEqual(
+                rule.on_trial_result(None, t2, result(i, 450)),
+                TrialScheduler.CONTINUE)
+        return t1, t2
+
+    def testMedianStoppingConstantPerf(self):
+        rule = MedianStoppingRule(grace_period=0, min_samples_required=1)
+        t1, t2 = self.basicSetup(rule)
+        rule.on_trial_complete(None, t1, result(10, 1000))
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result(5, 450)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result(6, 0)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result(10, 450)),
+            TrialScheduler.STOP)
+
+    def testMedianStoppingOnCompleteOnly(self):
+        rule = MedianStoppingRule(grace_period=0, min_samples_required=1)
+        t1, t2 = self.basicSetup(rule)
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result(100, 0)),
+            TrialScheduler.CONTINUE)
+        rule.on_trial_complete(None, t1, result(10, 1000))
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result(101, 0)),
+            TrialScheduler.STOP)
+
+    def testMedianStoppingGracePeriod(self):
+        rule = MedianStoppingRule(grace_period=2.5, min_samples_required=1)
+        t1, t2 = self.basicSetup(rule)
+        rule.on_trial_complete(None, t1, result(10, 1000))
+        rule.on_trial_complete(None, t2, result(10, 1000))
+        t3 = Trial("t3", "PPO")
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(1, 10)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(2, 10)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(3, 10)),
+            TrialScheduler.STOP)
+
+    def testMedianStoppingMinSamples(self):
+        rule = MedianStoppingRule(grace_period=0, min_samples_required=2)
+        t1, t2 = self.basicSetup(rule)
+        rule.on_trial_complete(None, t1, result(10, 1000))
+        t3 = Trial("t3", "PPO")
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(3, 10)),
+            TrialScheduler.CONTINUE)
+        rule.on_trial_complete(None, t2, result(10, 1000))
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(3, 10)),
+            TrialScheduler.STOP)
+
+    def testMedianStoppingUsesMedian(self):
+        rule = MedianStoppingRule(grace_period=0, min_samples_required=1)
+        t1, t2 = self.basicSetup(rule)
+        rule.on_trial_complete(None, t1, result(10, 1000))
+        rule.on_trial_complete(None, t2, result(10, 1000))
+        t3 = Trial("t3", "PPO")
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(1, 260)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t3, result(2, 260)),
+            TrialScheduler.STOP)
+
+    def testAlternateMetrics(self):
+        def result2(t, rew):
+            return TrainingResult(training_iteration=t, neg_mean_loss=rew)
+
+        rule = MedianStoppingRule(
+            grace_period=0, min_samples_required=1,
+            time_attr='training_iteration', reward_attr='neg_mean_loss')
+        t1 = Trial("t1", "PPO")  # mean is 450, max 900, t_max=10
+        t2 = Trial("t2", "PPO")  # mean is 450, max 450, t_max=5
+        for i in range(10):
+            self.assertEqual(
+                rule.on_trial_result(None, t1, result2(i, i * 100)),
+                TrialScheduler.CONTINUE)
+        for i in range(5):
+            self.assertEqual(
+                rule.on_trial_result(None, t2, result2(i, 450)),
+                TrialScheduler.CONTINUE)
+        rule.on_trial_complete(None, t1, result2(10, 1000))
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result2(5, 450)),
+            TrialScheduler.CONTINUE)
+        self.assertEqual(
+            rule.on_trial_result(None, t2, result2(6, 0)),
+            TrialScheduler.CONTINUE)
+
+
+if __name__ == "__main__":
+    unittest.main(verbosity=2)