Spaces:

comfortably-dumb
/

dedeucebench-leaderboard

Sleeping

App Files Files Community

comfortably-dumb commited on Sep 21

Commit

7af1601

1 Parent(s): 011bfa0

Added description

Browse files

Files changed (1) hide show

app.py +66 -21

app.py CHANGED Viewed

@@ -110,45 +110,90 @@ with gr.Blocks(title="DedeuceBench Leaderboard") as demo:
     gr.Markdown(
         """
         # DedeuceBench Leaderboard
-        Source: `{repo}`
-        - Use the Subset dropdown to switch between Lite(sanity), easy, and medium.
-        - Columns shown: model, provider, model_id, Score100, TokensTotal.
-        - Click Refresh to pull the latest runs from the results dataset.
         """.format(repo=RESULTS_REPO)
     )
     with gr.Row():
         subset = gr.Dropdown(
             label="Subset",
-            choices=["Lite(sanity)", "easy", "medium"],
-            value="Lite(sanity)",
         )
         refresh = gr.Button("Refresh")
-    # Initial load for table value
-    _initial_df = filter_by_subset(load_runs_with_subset(), "Lite(sanity)")
-    table = gr.Dataframe(value=_initial_df, interactive=False)
     def do_refresh(sub: str):
         df = load_runs_with_subset()
         # Fallback to top-level if runs empty (no subset info)
         if df is None or df.empty:
-            base = _load_top_leaderboard()
-            base = _derive_provider_model_id(base)
-            keep = ["model", "provider", "model_id", "Score100", "TokensTotal"]
-            for col in keep:
-                if col not in base.columns:
-                    base[col] = None
-            base = base[keep]
-            base = base.sort_values(by=["Score100"], ascending=False, na_position="last")
-            base.reset_index(drop=True, inplace=True)
-            return base
-        return filter_by_subset(df, sub)
     subset.change(fn=do_refresh, inputs=[subset], outputs=[table])
     refresh.click(fn=do_refresh, inputs=[subset], outputs=[table])
-    # No explicit initial setter; initial value is provided above
 if __name__ == "__main__":

     gr.Markdown(
         """
         # DedeuceBench Leaderboard
+        A compact benchmark for agentic system identification under a strict query budget. Each episode is a hidden Mealy machine (finite‑state transducer). Agents must actively probe using a tiny tool API and then submit an exact transition table. We measure success, safety, and efficiency. Mealy machines appear in many interactive systems — protocols, user interfaces, embedded controllers — making them a simple, general substrate for research on sample‑efficient probing and safe exploration.
+        Source dataset: `{repo}`
+        - Use the Subset dropdown to switch between Lite (sanity), Easy, and Medium.
+        - Columns: Model, Score, Provider, Model ID, Tokens Total.
+        - Score = 100 × Success@Budget (formatted to two decimals).
         """.format(repo=RESULTS_REPO)
     )
     with gr.Row():
         subset = gr.Dropdown(
             label="Subset",
+            choices=["Lite (sanity)", "Easy", "Medium"],
+            value="Lite (sanity)",
         )
         refresh = gr.Button("Refresh")
+    def _format_for_display(df: pd.DataFrame) -> pd.DataFrame:
+        if df is None or df.empty:
+            return df
+        df = df.copy()
+        # Ensure numeric for sorting
+        if "Score100" in df.columns:
+            df["Score100"] = pd.to_numeric(df["Score100"], errors="coerce")
+            df = df.sort_values(by=["Score100"], ascending=False, na_position="last")
+            score_str = df["Score100"].map(lambda x: f"{x:.2f}" if pd.notnull(x) else "")
+        else:
+            score_str = []
+        # Rename columns for display
+        rename = {
+            "model": "Model",
+            "provider": "Provider",
+            "model_id": "Model ID",
+            "Score100": "Score",
+            "TokensTotal": "Tokens Total",
+        }
+        df = df.rename(columns=rename)
+        if "Score" in df.columns:
+            df["Score"] = score_str
+        # Reorder: Model, Score, Provider, Model ID, Tokens Total
+        keep = ["Model", "Score", "Provider", "Model ID", "Tokens Total"]
+        for col in keep:
+            if col not in df.columns:
+                df[col] = None
+        df = df[keep]
+        df.reset_index(drop=True, inplace=True)
+        return df
+    def _fallback_top_level() -> pd.DataFrame:
+        base = _load_top_leaderboard()
+        base = _derive_provider_model_id(base)
+        keep = ["model", "provider", "model_id", "Score100", "TokensTotal"]
+        for col in keep:
+            if col not in base.columns:
+                base[col] = None
+        base = base[keep]
+        return _format_for_display(base)
     def do_refresh(sub: str):
+        # Normalize subset label
+        label = (sub or "").strip().lower()
+        if label.startswith("lite"):
+            norm = "lite"
+        elif label.startswith("easy"):
+            norm = "easy"
+        else:
+            norm = "medium"
         df = load_runs_with_subset()
         # Fallback to top-level if runs empty (no subset info)
         if df is None or df.empty:
+            return _fallback_top_level()
+        filtered = filter_by_subset(df, norm)
+        return _format_for_display(filtered)
+    # Initial render: load current data for default subset
+    _initial_df = do_refresh("Lite (sanity)")
+    table = gr.Dataframe(value=_initial_df, interactive=False)
     subset.change(fn=do_refresh, inputs=[subset], outputs=[table])
     refresh.click(fn=do_refresh, inputs=[subset], outputs=[table])
+    # Auto-refresh on app load
+    demo.load(fn=do_refresh, inputs=[subset], outputs=[table])
 if __name__ == "__main__":