u-math-leaderboard

Running

App Files Files Community

cogwheelhead commited on Mar 23

Commit

11fdbf3

verified ·

1 Parent(s): bf42c1e

chore: fix model repo names

Browse files

Files changed (1) hide show

data/u_math_eval_results.json +13 -13

data/u_math_eval_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 [
     {
-        "model_name": "meta-llama/Llama-3.1-8B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             29.545454545454547,
@@ -39,7 +39,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2.5-7B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             43.27272727272727,
@@ -78,7 +78,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2.5-72B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             51.18181818181819,
@@ -117,7 +117,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2.5-Math-7B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             45.45454545454545,
@@ -156,7 +156,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2.5-Math-72B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             59.45454545454546,
@@ -546,7 +546,7 @@
         ]
     },
     {
-        "model_name": "meta-llama/Llama-3.2-11B-Vision",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             20.363636363636363,
@@ -663,7 +663,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2.5-32B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             52.36363636363637,
@@ -936,7 +936,7 @@
         ]
     },
     {
-        "model_name": "meta-llama/Llama-3.1-70B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             34.27272727272727,
@@ -975,7 +975,7 @@
         ]
     },
     {
-        "model_name": "nvidia/Llama-3.1-Nemotron-70B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             42.54545454545455,
@@ -1014,7 +1014,7 @@
         ]
     },
     {
-        "model_name": "meta-llama/Llama-3.3-70B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             44.72727272727273,
@@ -1053,7 +1053,7 @@
         ]
     },
     {
-        "model_name": "meta-llama/Llama-3.2-90B-Vision",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             37.18181818181818,
@@ -1092,7 +1092,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2-VL-7B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             26.272727272727277,
@@ -1131,7 +1131,7 @@
         ]
     },
     {
-        "model_name": "Qwen/Qwen2-VL-72B",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             41.81818181818181,

 [
     {
+        "model_name": "meta-llama/Llama-3.1-8B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             29.545454545454547,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2.5-7B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             43.27272727272727,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2.5-72B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             51.18181818181819,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2.5-Math-7B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             45.45454545454545,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2.5-Math-72B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             59.45454545454546,
         ]
     },
     {
+        "model_name": "meta-llama/Llama-3.2-11B-Vision-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             20.363636363636363,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2.5-32B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             52.36363636363637,
         ]
     },
     {
+        "model_name": "meta-llama/Llama-3.1-70B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             34.27272727272727,
         ]
     },
     {
+        "model_name": "nvidia/Llama-3.1-Nemotron-70B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             42.54545454545455,
         ]
     },
     {
+        "model_name": "meta-llama/Llama-3.3-70B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             44.72727272727273,
         ]
     },
     {
+        "model_name": "meta-llama/Llama-3.2-90B-Vision-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             37.18181818181818,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2-VL-7B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             26.272727272727277,
         ]
     },
     {
+        "model_name": "Qwen/Qwen2-VL-72B-Instruct",
         "judge_model_name": "gpt-4o-2024-08-06",
         "u_math": [
             41.81818181818181,