Agents_Course_Final_Assignment

Sleeping

Gary Simmons commited on Oct 15

Commit

4e00399

1 Parent(s): 561fce6

reduce default RPM in RateLimitedModel to 8 and update backoff_multiplier to 4 for enhanced retry logic

Files changed (1) hide show

app.py CHANGED Viewed

@@ -61,7 +61,7 @@ class TokenBucketRateLimiter:
 class RateLimitedModel:
     """Wraps a model-like callable and enforces a TokenBucketRateLimiter before each call."""
-    def __init__(self, model_obj, rpm: int = 10, burst: int | None = None):
         self._model = model_obj
         # rpm -> tokens per minute
         capacity = burst if burst is not None else max(1, rpm)
@@ -118,9 +118,9 @@ class RateLimitedModel:
         return attr
-# Wrap the model with a rate-limiter. Default RPM is 10
 # but can be configured via the MODEL_RPM environment variable.
-_configured_rpm = int(os.getenv("MODEL_RPM", "10"))
 _configured_burst = None
 model = RateLimitedModel(
     LiteLLMModel(model_id="gemini/gemini-2.5-flash", temperature=0.2),
@@ -162,12 +162,16 @@ class BasicAgent:
             return f"AGENT ERROR: {e}"
 def call_model_with_retry(
-    callable_fn, *args, max_retries=15, initial_delay=10.0, backoff_multiplier=3, **kwargs
 ):
     """
     Calls a function with retry logic and exponential backoff.
-    The backoff multiplier is configurable (default=3 for more aggressive backoff).
     """
     delay = initial_delay
     for attempt in range(1, max_retries + 1):

 class RateLimitedModel:
     """Wraps a model-like callable and enforces a TokenBucketRateLimiter before each call."""
+    def __init__(self, model_obj, rpm: int = 8, burst: int | None = None):
         self._model = model_obj
         # rpm -> tokens per minute
         capacity = burst if burst is not None else max(1, rpm)
         return attr
+# Wrap the model with a rate-limiter. Default RPM is reduced to 8
 # but can be configured via the MODEL_RPM environment variable.
+_configured_rpm = int(os.getenv("MODEL_RPM", "8"))
 _configured_burst = None
 model = RateLimitedModel(
     LiteLLMModel(model_id="gemini/gemini-2.5-flash", temperature=0.2),
             return f"AGENT ERROR: {e}"
+# Note: The backoff_multiplier was changed from 3 to 4, which increases the delay between retries exponentially.
+# This means that after each failed attempt, the wait time before the next retry will grow more rapidly,
+# potentially resulting in significantly longer total retry durations.
 def call_model_with_retry(
+    callable_fn, *args, max_retries=15, initial_delay=10.0, backoff_multiplier=4, **kwargs
 ):
     """
     Calls a function with retry logic and exponential backoff.
+    The backoff multiplier is configurable (default=4 for more aggressive backoff).
     """
     delay = initial_delay
     for attempt in range(1, max_retries + 1):