Reacherx commited on 9 days ago

Commit

f6a78b4

verified ·

1 Parent(s): b89b0df

Training in progress, step 1000, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1000/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1602 -2

last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e5d318bcfe57b0fd139d89e3a1fc397ad1bea5a01f8c2ec82190bd7f6575ea8
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3791076cf05d4ea41de9715dd825b5b6462b9efde945b42740d21e07b66971a
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3961831ee127555db427ff704d4c259afe64c910664acbd3eb62d57152de9e25
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9286fb40c4a7705be78fec28246b946fd8452bc84997300afada2924b682789e
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c22b14c332262f8f9c7e684d9ca5d8410487d42dc2add5254f9580fb614ab988
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f302fc10a8f3ec279ce8b0fb8aeb9dcc314f957410d0524b7d5cf13e3e125e2
+size 14215152126

last-checkpoint/global_step1000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2e493911b31601bb7d6ae76d0fd42b5cdf6631f10173376b0228eab5645d865
+size 14215152126

last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12c52b26b6827d29df0fca8e30710877a8a0b448d9f7f43c326955fb5ed381bf
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66cd09f0c195afa8c1c19a76e5b4a2f1f1e5b88ee98a3cd2aab39f38c5813f2e
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c420ec50e4cd243bdb1edb1e29a775e650a89f64ab88598f977cc85f677fb80
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bf65e95b06264e74e75f8deca27327d215322ff47aa58cc93dfe7d113bfbf32
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d6de8c6edf380e4707198e62b25e1f25479b11a46c9473c2112915879563884
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecd0b3abcf20b018d12d2cfc3cfdee930a86ef1b852cd044326340604345f2cd
+size 349379

last-checkpoint/global_step1000/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f2667f93eb116e834165ce6e7bdea3ae15b8155467aefef118740fa857dabcc
+size 349379

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step900~~


1	+ global_step1000

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7f71b5c20029f143abe32a8db029a9d3bd8c334d8d34d7fc9804705b07a5ea0
 size 4968243304

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f217c2edcf986aa252f9dc1d2f54208b083b90bb3aeac66b7a88e4c1e82ffd0
 size 4968243304

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb9c921436e99521105a4f8d656a7b593055edd22f3eeea9ac94ea1d2513d41
 size 4991495816

 version https://git-lfs.github.com/spec/v1
+oid sha256:74a942f3fdc500b90d779547eafb7be72d6daa1f471473c0748293e667bd1b56
 size 4991495816

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb91687ab05bad5705661001b77c36d26a6777ee6db23c420ab39b9492d4f10
 size 4932751040

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec4c1b2bb9b92b6e257c2103bd96f6f25051981146aba585f9580dad4cd6dd3f
 size 4932751040

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26bf7b0ee993b1bf86b8730f1cb42b08885787f2ed3ef1442fa069f6efac654d
 size 1691924384

 version https://git-lfs.github.com/spec/v1
+oid sha256:46ee0d8415c7d4ca5b68681fe3b8772ad2fc02e3cbb2452fe72d88084cd8012c
 size 1691924384

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0164f2208c7041cd8088d35a6d736cb760990d81607389689f8607bafc07582
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a467c4d473c4476133e0c962682ae3bd1eadb5b659536096b8f126b374b5fef
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38a39cd0cbca01be223d0e166aa7bc089071dad96861bd60647a479ac4fa3505
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e743495ecb0f3dcb697352d75c19d02d9cf64404eeb5050d2c4a404e1cbacd7f
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:067c9c98cc0f1f78cd36390632838cc5489aef20eefe30db85c261959e9e7d3d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e9fe5aeeb743f2a0bae96552be01addb99af031bae160fd209d89993f3074f0
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fb5ffc5fb0d4f9659807f6f7f2fe78e6a34689abae8fc7197e45d21d5630c59
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f42a876651e074ff662aeb862e8a5177c3427016384b0c21b126dd991e7a54c3
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4408661536ff8dc6a041602d206d533370a1a03af1d5db63c613f64034f1288c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6443d543afed862f54a00e23ced53d4e4f0e332d02f9fe49cf63681e33a1f925
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4def26f501edfecc05134202363535fb18daf6049ffd7569b3ea553c45ee78ac
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad289fc655a368bdb83b0f67e858b03d811498d49979570c148e0f7dd8e6695
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04d75ad610f93d275b4a619ada47209ce31058f73212b3c9d5d3bc3bc6864a98
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca54964f1223bdd6d718543b7f1eb959ed6fc0fae7c10ce41dd0577e3c5efdeb
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9398c477eca57434cdee1034aff1b8e689e210acd0d746ee26b046a15d3a9ade
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e1a9307dd6491b636ce5ac79ba6d6ae4102618ffd8fd75198a2157f876beafe
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03838116764041111,
   "eval_steps": 500,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -14407,6 +14407,1606 @@
       "rewards/format_reward": 1.0,
       "step": 900,
       "temporal_rewards": 0.714285671710968
     }
   ],
   "logging_steps": 1.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.042645741822679,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/format_reward": 1.0,
       "step": 900,
       "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 388.4821472167969,
+      "epoch": 0.03842381338223379,
+      "grad_norm": 1.388325239051785,
+      "kl": 0.07861328125,
+      "learning_rate": 9.963615763757953e-07,
+      "loss": 0.0031,
+      "reward": 1.4394482374191284,
+      "reward_std": 0.09279949963092804,
+      "rewards/accuracy_reward": 0.3323054015636444,
+      "rewards/format_reward": 1.0,
+      "step": 901,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 437.51788330078125,
+      "epoch": 0.03846645912405646,
+      "grad_norm": 1.026819463325266,
+      "kl": 0.06884765625,
+      "learning_rate": 9.963535053184923e-07,
+      "loss": 0.0028,
+      "reward": 1.549193024635315,
+      "reward_std": 0.10150664299726486,
+      "rewards/accuracy_reward": 0.4420502781867981,
+      "rewards/format_reward": 1.0,
+      "step": 902,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 414.2321472167969,
+      "epoch": 0.03850910486587914,
+      "grad_norm": 1.2365418501254621,
+      "kl": 0.059814453125,
+      "learning_rate": 9.96345425351918e-07,
+      "loss": 0.0024,
+      "reward": 1.782142996788025,
+      "reward_std": 0.22749534249305725,
+      "rewards/accuracy_reward": 0.6785714626312256,
+      "rewards/format_reward": 1.0,
+      "step": 903,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 368.5535888671875,
+      "epoch": 0.03855175060770182,
+      "grad_norm": 1.8688669932203024,
+      "kl": 0.0849609375,
+      "learning_rate": 9.963373364762176e-07,
+      "loss": 0.0034,
+      "reward": 1.7157738208770752,
+      "reward_std": 0.2985364496707916,
+      "rewards/accuracy_reward": 0.5372024178504944,
+      "rewards/format_reward": 1.0,
+      "step": 904,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 423.4821472167969,
+      "epoch": 0.0385943963495245,
+      "grad_norm": 2.135810610374038,
+      "kl": 0.06201171875,
+      "learning_rate": 9.963292386915358e-07,
+      "loss": 0.0025,
+      "reward": 1.6755682229995728,
+      "reward_std": 0.19589506089687347,
+      "rewards/accuracy_reward": 0.5005680322647095,
+      "rewards/format_reward": 1.0,
+      "step": 905,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 422.1071472167969,
+      "epoch": 0.038637042091347176,
+      "grad_norm": 2.051111400485243,
+      "kl": 0.07080078125,
+      "learning_rate": 9.963211319980185e-07,
+      "loss": 0.0028,
+      "reward": 1.6941068172454834,
+      "reward_std": 0.3651140630245209,
+      "rewards/accuracy_reward": 0.5173211693763733,
+      "rewards/format_reward": 1.0,
+      "step": 906,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.5714285714285714,
+      "completion_length": 388.1607360839844,
+      "epoch": 0.03867968783316986,
+      "grad_norm": 1.2286741388000242,
+      "kl": 0.068359375,
+      "learning_rate": 9.963130163958108e-07,
+      "loss": 0.0027,
+      "reward": 1.3034491539001465,
+      "reward_std": 0.12692005932331085,
+      "rewards/accuracy_reward": 0.25344905257225037,
+      "rewards/format_reward": 1.0,
+      "step": 907,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 438.0535888671875,
+      "epoch": 0.03872233357499254,
+      "grad_norm": 1.1109793404981478,
+      "kl": 0.05419921875,
+      "learning_rate": 9.963048918850585e-07,
+      "loss": 0.0022,
+      "reward": 1.4734070301055908,
+      "reward_std": 0.21417297422885895,
+      "rewards/accuracy_reward": 0.30912119150161743,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 908,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 386.14288330078125,
+      "epoch": 0.03876497931681522,
+      "grad_norm": 1.4176361827714907,
+      "kl": 0.0791015625,
+      "learning_rate": 9.962967584659075e-07,
+      "loss": 0.0032,
+      "reward": 2.136169910430908,
+      "reward_std": 0.14292067289352417,
+      "rewards/accuracy_reward": 0.8022412061691284,
+      "rewards/format_reward": 1.0,
+      "step": 909,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 414.1964416503906,
+      "epoch": 0.0388076250586379,
+      "grad_norm": 1.40762891931829,
+      "kl": 0.07275390625,
+      "learning_rate": 9.962886161385037e-07,
+      "loss": 0.0029,
+      "reward": 1.5685076713562012,
+      "reward_std": 0.1862516850233078,
+      "rewards/accuracy_reward": 0.4113648533821106,
+      "rewards/format_reward": 1.0,
+      "step": 910,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 427.6250305175781,
+      "epoch": 0.03885027080046057,
+      "grad_norm": 1.4988795157708306,
+      "kl": 0.06396484375,
+      "learning_rate": 9.962804649029936e-07,
+      "loss": 0.0026,
+      "reward": 1.8500804901123047,
+      "reward_std": 0.1730491816997528,
+      "rewards/accuracy_reward": 0.7072232365608215,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 911,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.5714285714285714,
+      "completion_length": 405.6964416503906,
+      "epoch": 0.03889291654228325,
+      "grad_norm": 1.9102132785830699,
+      "kl": 0.06591796875,
+      "learning_rate": 9.96272304759523e-07,
+      "loss": 0.0026,
+      "reward": 1.5267857313156128,
+      "reward_std": 0.1490623652935028,
+      "rewards/accuracy_reward": 0.392857164144516,
+      "rewards/format_reward": 1.0,
+      "step": 912,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 414.1964416503906,
+      "epoch": 0.03893556228410593,
+      "grad_norm": 1.7387254504787168,
+      "kl": 0.05712890625,
+      "learning_rate": 9.962641357082387e-07,
+      "loss": 0.0023,
+      "reward": 1.6454274654388428,
+      "reward_std": 0.2543186545372009,
+      "rewards/accuracy_reward": 0.5025703310966492,
+      "rewards/format_reward": 1.0,
+      "step": 913,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.8571428571428571,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 370.3214416503906,
+      "epoch": 0.038978208025928614,
+      "grad_norm": 1.2170320478100345,
+      "kl": 0.0751953125,
+      "learning_rate": 9.962559577492871e-07,
+      "loss": 0.003,
+      "reward": 2.015306234359741,
+      "reward_std": 0.05134067311882973,
+      "rewards/accuracy_reward": 0.8367346525192261,
+      "rewards/format_reward": 1.0,
+      "step": 914,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 407.08929443359375,
+      "epoch": 0.03902085376775129,
+      "grad_norm": 2.075396285314163,
+      "kl": 0.058349609375,
+      "learning_rate": 9.962477708828152e-07,
+      "loss": 0.0023,
+      "reward": 1.505526065826416,
+      "reward_std": 0.31088876724243164,
+      "rewards/accuracy_reward": 0.37695467472076416,
+      "rewards/format_reward": 1.0,
+      "step": 915,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 363.9285888671875,
+      "epoch": 0.03906349950957397,
+      "grad_norm": 2.0530572811195458,
+      "kl": 0.07958984375,
+      "learning_rate": 9.9623957510897e-07,
+      "loss": 0.0032,
+      "reward": 1.8374649286270142,
+      "reward_std": 0.30604711174964905,
+      "rewards/accuracy_reward": 0.6463934183120728,
+      "rewards/format_reward": 1.0,
+      "step": 916,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 421.2321472167969,
+      "epoch": 0.03910614525139665,
+      "grad_norm": 1.8443845860137627,
+      "kl": 0.06787109375,
+      "learning_rate": 9.962313704278981e-07,
+      "loss": 0.0027,
+      "reward": 2.0418219566345215,
+      "reward_std": 0.21194705367088318,
+      "rewards/accuracy_reward": 0.7382504940032959,
+      "rewards/format_reward": 1.0,
+      "step": 917,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.58929443359375,
+      "epoch": 0.03914879099321933,
+      "grad_norm": 1.8829320648015981,
+      "kl": 0.05712890625,
+      "learning_rate": 9.962231568397472e-07,
+      "loss": 0.0023,
+      "reward": 1.5507712364196777,
+      "reward_std": 0.21578750014305115,
+      "rewards/accuracy_reward": 0.43291404843330383,
+      "rewards/format_reward": 1.0,
+      "step": 918,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 403.4821472167969,
+      "epoch": 0.039191436735042,
+      "grad_norm": 1.6641626617634653,
+      "kl": 0.0732421875,
+      "learning_rate": 9.96214934344665e-07,
+      "loss": 0.0029,
+      "reward": 1.9780364036560059,
+      "reward_std": 0.2805452048778534,
+      "rewards/accuracy_reward": 0.6637506484985352,
+      "rewards/format_reward": 1.0,
+      "step": 919,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 406.5357360839844,
+      "epoch": 0.03923408247686468,
+      "grad_norm": 1.7210279625723943,
+      "kl": 0.064453125,
+      "learning_rate": 9.962067029427983e-07,
+      "loss": 0.0026,
+      "reward": 1.669837236404419,
+      "reward_std": 0.16734497249126434,
+      "rewards/accuracy_reward": 0.5216229557991028,
+      "rewards/format_reward": 1.0,
+      "step": 920,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 470.5000305175781,
+      "epoch": 0.039276728218687364,
+      "grad_norm": 1.2527360686901718,
+      "kl": 0.05322265625,
+      "learning_rate": 9.961984626342956e-07,
+      "loss": 0.0021,
+      "reward": 1.4912724494934082,
+      "reward_std": 0.09840281307697296,
+      "rewards/accuracy_reward": 0.3662723898887634,
+      "rewards/format_reward": 1.0,
+      "step": 921,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 447.6607360839844,
+      "epoch": 0.039319373960510044,
+      "grad_norm": 1.6881157347849156,
+      "kl": 0.05615234375,
+      "learning_rate": 9.961902134193045e-07,
+      "loss": 0.0022,
+      "reward": 1.6204907894134521,
+      "reward_std": 0.10691835731267929,
+      "rewards/accuracy_reward": 0.5097763538360596,
+      "rewards/format_reward": 1.0,
+      "step": 922,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 424.64288330078125,
+      "epoch": 0.039362019702332725,
+      "grad_norm": 1.4525888204858919,
+      "kl": 0.06591796875,
+      "learning_rate": 9.96181955297973e-07,
+      "loss": 0.0026,
+      "reward": 1.608081579208374,
+      "reward_std": 0.3661433458328247,
+      "rewards/accuracy_reward": 0.45808160305023193,
+      "rewards/format_reward": 1.0,
+      "step": 923,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 427.4464416503906,
+      "epoch": 0.0394046654441554,
+      "grad_norm": 2.6242606472855163,
+      "kl": 0.06787109375,
+      "learning_rate": 9.961736882704497e-07,
+      "loss": 0.0027,
+      "reward": 1.65829336643219,
+      "reward_std": 0.12387296557426453,
+      "rewards/accuracy_reward": 0.5118646621704102,
+      "rewards/format_reward": 1.0,
+      "step": 924,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 428.0714416503906,
+      "epoch": 0.03944731118597808,
+      "grad_norm": 2.012136982924822,
+      "kl": 0.056640625,
+      "learning_rate": 9.961654123368824e-07,
+      "loss": 0.0023,
+      "reward": 1.6333997249603271,
+      "reward_std": 0.11353455483913422,
+      "rewards/accuracy_reward": 0.42268532514572144,
+      "rewards/format_reward": 1.0,
+      "step": 925,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 385.1964416503906,
+      "epoch": 0.03948995692780076,
+      "grad_norm": 1.6158760149356628,
+      "kl": 0.078125,
+      "learning_rate": 9.9615712749742e-07,
+      "loss": 0.0031,
+      "reward": 1.5787651538848877,
+      "reward_std": 0.1297575682401657,
+      "rewards/accuracy_reward": 0.45019370317459106,
+      "rewards/format_reward": 1.0,
+      "step": 926,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 430.3571472167969,
+      "epoch": 0.03953260266962344,
+      "grad_norm": 5.925694109606645,
+      "kl": 0.0654296875,
+      "learning_rate": 9.961488337522113e-07,
+      "loss": 0.0026,
+      "reward": 1.468300223350525,
+      "reward_std": 0.21330617368221283,
+      "rewards/accuracy_reward": 0.38080018758773804,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 927,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 424.7321472167969,
+      "epoch": 0.039575248411446114,
+      "grad_norm": 1.3415082894145172,
+      "kl": 0.06298828125,
+      "learning_rate": 9.96140531101405e-07,
+      "loss": 0.0025,
+      "reward": 1.7482143640518188,
+      "reward_std": 0.21537911891937256,
+      "rewards/accuracy_reward": 0.625,
+      "rewards/format_reward": 1.0,
+      "step": 928,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 390.9464416503906,
+      "epoch": 0.039617894153268794,
+      "grad_norm": 2.2955946940227503,
+      "kl": 0.055908203125,
+      "learning_rate": 9.961322195451497e-07,
+      "loss": 0.0022,
+      "reward": 1.515081524848938,
+      "reward_std": 0.18819458782672882,
+      "rewards/accuracy_reward": 0.2865099012851715,
+      "rewards/format_reward": 1.0,
+      "step": 929,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 389.7500305175781,
+      "epoch": 0.039660539895091475,
+      "grad_norm": 6.008457943376909,
+      "kl": 0.06591796875,
+      "learning_rate": 9.961238990835957e-07,
+      "loss": 0.0026,
+      "reward": 1.6996906995773315,
+      "reward_std": 0.2757183313369751,
+      "rewards/accuracy_reward": 0.5104049444198608,
+      "rewards/format_reward": 1.0,
+      "step": 930,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 400.0000305175781,
+      "epoch": 0.039703185636914155,
+      "grad_norm": 1.4843921910288904,
+      "kl": 0.07080078125,
+      "learning_rate": 9.961155697168913e-07,
+      "loss": 0.0028,
+      "reward": 1.7803571224212646,
+      "reward_std": 0.16438372433185577,
+      "rewards/accuracy_reward": 0.6071428656578064,
+      "rewards/format_reward": 1.0,
+      "step": 931,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 439.89288330078125,
+      "epoch": 0.039745831378736836,
+      "grad_norm": 2.212969575646282,
+      "kl": 0.044189453125,
+      "learning_rate": 9.961072314451865e-07,
+      "loss": 0.0018,
+      "reward": 1.5589354038238525,
+      "reward_std": 0.28393542766571045,
+      "rewards/accuracy_reward": 0.3982209861278534,
+      "rewards/format_reward": 1.0,
+      "step": 932,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 464.21429443359375,
+      "epoch": 0.03978847712055951,
+      "grad_norm": 1.53116470188613,
+      "kl": 0.034423828125,
+      "learning_rate": 9.960988842686308e-07,
+      "loss": 0.0014,
+      "reward": 1.314236044883728,
+      "reward_std": 0.1616557240486145,
+      "rewards/accuracy_reward": 0.18923597037792206,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 933,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 404.08929443359375,
+      "epoch": 0.03983112286238219,
+      "grad_norm": 1.8325447090521023,
+      "kl": 0.0703125,
+      "learning_rate": 9.96090528187374e-07,
+      "loss": 0.0028,
+      "reward": 1.8988735675811768,
+      "reward_std": 0.2149917185306549,
+      "rewards/accuracy_reward": 0.6917307376861572,
+      "rewards/format_reward": 1.0,
+      "step": 934,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 412.58929443359375,
+      "epoch": 0.03987376860420487,
+      "grad_norm": 3.4615665759091536,
+      "kl": 0.0703125,
+      "learning_rate": 9.960821632015666e-07,
+      "loss": 0.0028,
+      "reward": 1.7402606010437012,
+      "reward_std": 0.20666787028312683,
+      "rewards/accuracy_reward": 0.517046332359314,
+      "rewards/format_reward": 1.0,
+      "step": 935,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 365.6964416503906,
+      "epoch": 0.03991641434602755,
+      "grad_norm": 5.181621142955212,
+      "kl": 0.058837890625,
+      "learning_rate": 9.96073789311358e-07,
+      "loss": 0.0024,
+      "reward": 1.2537422180175781,
+      "reward_std": 0.16066715121269226,
+      "rewards/accuracy_reward": 0.16088514029979706,
+      "rewards/format_reward": 1.0,
+      "step": 936,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 411.5714416503906,
+      "epoch": 0.039959060087850225,
+      "grad_norm": 1.7794049381076447,
+      "kl": 0.06494140625,
+      "learning_rate": 9.960654065168988e-07,
+      "loss": 0.0026,
+      "reward": 1.7535653114318848,
+      "reward_std": 0.24865297973155975,
+      "rewards/accuracy_reward": 0.5571366548538208,
+      "rewards/format_reward": 1.0,
+      "step": 937,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 450.4107360839844,
+      "epoch": 0.040001705829672905,
+      "grad_norm": 1.6923568537310802,
+      "kl": 0.051513671875,
+      "learning_rate": 9.960570148183395e-07,
+      "loss": 0.0021,
+      "reward": 1.590727686882019,
+      "reward_std": 0.33292099833488464,
+      "rewards/accuracy_reward": 0.5085846781730652,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 938,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 394.89288330078125,
+      "epoch": 0.040044351571495586,
+      "grad_norm": 1.6035153750518245,
+      "kl": 0.07177734375,
+      "learning_rate": 9.96048614215831e-07,
+      "loss": 0.0029,
+      "reward": 1.7771177291870117,
+      "reward_std": 0.08045493066310883,
+      "rewards/accuracy_reward": 0.5771176218986511,
+      "rewards/format_reward": 1.0,
+      "step": 939,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 385.76788330078125,
+      "epoch": 0.040086997313318266,
+      "grad_norm": 1.6286891649077688,
+      "kl": 0.0732421875,
+      "learning_rate": 9.960402047095235e-07,
+      "loss": 0.0029,
+      "reward": 1.5035713911056519,
+      "reward_std": 0.21551916003227234,
+      "rewards/accuracy_reward": 0.392857164144516,
+      "rewards/format_reward": 1.0,
+      "step": 940,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 385.4821472167969,
+      "epoch": 0.04012964305514095,
+      "grad_norm": 3.8696943787473446,
+      "kl": 0.07763671875,
+      "learning_rate": 9.960317862995684e-07,
+      "loss": 0.0031,
+      "reward": 1.9869627952575684,
+      "reward_std": 0.24162130057811737,
+      "rewards/accuracy_reward": 0.8012484908103943,
+      "rewards/format_reward": 1.0,
+      "step": 941,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 420.4285888671875,
+      "epoch": 0.04017228879696362,
+      "grad_norm": 3.036793601101903,
+      "kl": 0.0517578125,
+      "learning_rate": 9.960233589861167e-07,
+      "loss": 0.0021,
+      "reward": 1.6199066638946533,
+      "reward_std": 0.28489503264427185,
+      "rewards/accuracy_reward": 0.46990665793418884,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 942,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 370.8035888671875,
+      "epoch": 0.0402149345387863,
+      "grad_norm": 1.6650675145492482,
+      "kl": 0.0712890625,
+      "learning_rate": 9.960149227693196e-07,
+      "loss": 0.0028,
+      "reward": 1.9375001192092896,
+      "reward_std": 0.19786998629570007,
+      "rewards/accuracy_reward": 0.6964285969734192,
+      "rewards/format_reward": 1.0,
+      "step": 943,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 431.39288330078125,
+      "epoch": 0.04025758028060898,
+      "grad_norm": 1.609350149538502,
+      "kl": 0.041015625,
+      "learning_rate": 9.960064776493286e-07,
+      "loss": 0.0016,
+      "reward": 1.6551604270935059,
+      "reward_std": 0.2681572437286377,
+      "rewards/accuracy_reward": 0.4730173945426941,
+      "rewards/format_reward": 1.0,
+      "step": 944,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 419.8571472167969,
+      "epoch": 0.04030022602243166,
+      "grad_norm": 1.9610773135593247,
+      "kl": 0.05908203125,
+      "learning_rate": 9.95998023626295e-07,
+      "loss": 0.0024,
+      "reward": 1.7684540748596191,
+      "reward_std": 0.28671181201934814,
+      "rewards/accuracy_reward": 0.7148826122283936,
+      "rewards/format_reward": 0.9464285969734192,
+      "step": 945,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 458.89288330078125,
+      "epoch": 0.040342871764254336,
+      "grad_norm": 1.470090956750234,
+      "kl": 0.044921875,
+      "learning_rate": 9.959895607003712e-07,
+      "loss": 0.0018,
+      "reward": 1.2988783121109009,
+      "reward_std": 0.26279887557029724,
+      "rewards/accuracy_reward": 0.2560211420059204,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 946,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 416.7500305175781,
+      "epoch": 0.040385517506077016,
+      "grad_norm": 4.425443340525767,
+      "kl": 0.057373046875,
+      "learning_rate": 9.959810888717084e-07,
+      "loss": 0.0023,
+      "reward": 1.3810738325119019,
+      "reward_std": 0.16069242358207703,
+      "rewards/accuracy_reward": 0.33107370138168335,
+      "rewards/format_reward": 1.0,
+      "step": 947,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 390.5357360839844,
+      "epoch": 0.0404281632478997,
+      "grad_norm": 1.4929929891147553,
+      "kl": 0.0625,
+      "learning_rate": 9.959726081404588e-07,
+      "loss": 0.0025,
+      "reward": 1.6071429252624512,
+      "reward_std": 0.1878172904253006,
+      "rewards/accuracy_reward": 0.4821428656578064,
+      "rewards/format_reward": 1.0,
+      "step": 948,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 440.96429443359375,
+      "epoch": 0.04047080898972238,
+      "grad_norm": 1.603958163585114,
+      "kl": 0.045654296875,
+      "learning_rate": 9.959641185067753e-07,
+      "loss": 0.0018,
+      "reward": 1.7649989128112793,
+      "reward_std": 0.29367154836654663,
+      "rewards/accuracy_reward": 0.5578558444976807,
+      "rewards/format_reward": 1.0,
+      "step": 949,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 416.0000305175781,
+      "epoch": 0.04051345473154506,
+      "grad_norm": 2.006844817768613,
+      "kl": 0.060791015625,
+      "learning_rate": 9.959556199708094e-07,
+      "loss": 0.0024,
+      "reward": 1.5652376413345337,
+      "reward_std": 0.18956170976161957,
+      "rewards/accuracy_reward": 0.4366661608219147,
+      "rewards/format_reward": 1.0,
+      "step": 950,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 418.1071472167969,
+      "epoch": 0.04055610047336773,
+      "grad_norm": 1.2787284891519373,
+      "kl": 0.078125,
+      "learning_rate": 9.95947112532714e-07,
+      "loss": 0.0031,
+      "reward": 1.4751147031784058,
+      "reward_std": 0.04257712885737419,
+      "rewards/accuracy_reward": 0.3858288824558258,
+      "rewards/format_reward": 1.0,
+      "step": 951,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 405.96429443359375,
+      "epoch": 0.04059874621519041,
+      "grad_norm": 3.136161553844802,
+      "kl": 0.0634765625,
+      "learning_rate": 9.959385961926419e-07,
+      "loss": 0.0025,
+      "reward": 1.9592256546020508,
+      "reward_std": 0.335843026638031,
+      "rewards/accuracy_reward": 0.696725606918335,
+      "rewards/format_reward": 1.0,
+      "step": 952,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 376.96429443359375,
+      "epoch": 0.04064139195701309,
+      "grad_norm": 3.219961953332857,
+      "kl": 0.0673828125,
+      "learning_rate": 9.959300709507459e-07,
+      "loss": 0.0027,
+      "reward": 1.4304946660995483,
+      "reward_std": 0.1210612803697586,
+      "rewards/accuracy_reward": 0.3447802662849426,
+      "rewards/format_reward": 1.0,
+      "step": 953,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 398.1964416503906,
+      "epoch": 0.04068403769883577,
+      "grad_norm": 6.050142310929799,
+      "kl": 0.0751953125,
+      "learning_rate": 9.959215368071788e-07,
+      "loss": 0.003,
+      "reward": 1.7659056186676025,
+      "reward_std": 0.4009357690811157,
+      "rewards/accuracy_reward": 0.6051912307739258,
+      "rewards/format_reward": 1.0,
+      "step": 954,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 416.14288330078125,
+      "epoch": 0.04072668344065845,
+      "grad_norm": 1.421808016451398,
+      "kl": 0.0703125,
+      "learning_rate": 9.959129937620943e-07,
+      "loss": 0.0028,
+      "reward": 1.9267857074737549,
+      "reward_std": 0.2703368067741394,
+      "rewards/accuracy_reward": 0.6964285969734192,
+      "rewards/format_reward": 1.0,
+      "step": 955,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 435.1964416503906,
+      "epoch": 0.04076932918248113,
+      "grad_norm": 2.6075666468048433,
+      "kl": 0.05859375,
+      "learning_rate": 9.95904441815645e-07,
+      "loss": 0.0023,
+      "reward": 1.968336820602417,
+      "reward_std": 0.21630696952342987,
+      "rewards/accuracy_reward": 0.705836832523346,
+      "rewards/format_reward": 1.0,
+      "step": 956,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 438.39288330078125,
+      "epoch": 0.04081197492430381,
+      "grad_norm": 1.6378505934638343,
+      "kl": 0.0595703125,
+      "learning_rate": 9.958958809679852e-07,
+      "loss": 0.0024,
+      "reward": 1.7164154052734375,
+      "reward_std": 0.2044200748205185,
+      "rewards/accuracy_reward": 0.527129590511322,
+      "rewards/format_reward": 1.0,
+      "step": 957,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 408.5357360839844,
+      "epoch": 0.04085462066612649,
+      "grad_norm": 1.8908338290164786,
+      "kl": 0.061767578125,
+      "learning_rate": 9.958873112192681e-07,
+      "loss": 0.0025,
+      "reward": 2.048797607421875,
+      "reward_std": 0.04435715451836586,
+      "rewards/accuracy_reward": 0.6916548013687134,
+      "rewards/format_reward": 1.0,
+      "step": 958,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 383.0357360839844,
+      "epoch": 0.04089726640794917,
+      "grad_norm": 1.9667798712281923,
+      "kl": 0.06884765625,
+      "learning_rate": 9.958787325696477e-07,
+      "loss": 0.0028,
+      "reward": 1.722543716430664,
+      "reward_std": 0.13343960046768188,
+      "rewards/accuracy_reward": 0.5082579851150513,
+      "rewards/format_reward": 1.0,
+      "step": 959,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 415.9464416503906,
+      "epoch": 0.04093991214977184,
+      "grad_norm": 1.9316488617697056,
+      "kl": 0.054931640625,
+      "learning_rate": 9.958701450192777e-07,
+      "loss": 0.0022,
+      "reward": 1.7576582431793213,
+      "reward_std": 0.09231801331043243,
+      "rewards/accuracy_reward": 0.5112294554710388,
+      "rewards/format_reward": 1.0,
+      "step": 960,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 391.0357360839844,
+      "epoch": 0.04098255789159452,
+      "grad_norm": 2.226596533494856,
+      "kl": 0.0693359375,
+      "learning_rate": 9.958615485683124e-07,
+      "loss": 0.0028,
+      "reward": 1.8000001907348633,
+      "reward_std": 0.21024802327156067,
+      "rewards/accuracy_reward": 0.5714285969734192,
+      "rewards/format_reward": 1.0,
+      "step": 961,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 425.96429443359375,
+      "epoch": 0.041025203633417204,
+      "grad_norm": 1.4948037453733134,
+      "kl": 0.04736328125,
+      "learning_rate": 9.958529432169062e-07,
+      "loss": 0.0019,
+      "reward": 1.6663552522659302,
+      "reward_std": 0.18109546601772308,
+      "rewards/accuracy_reward": 0.43064096570014954,
+      "rewards/format_reward": 1.0,
+      "step": 962,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 452.357177734375,
+      "epoch": 0.041067849375239884,
+      "grad_norm": 1.4417561901645564,
+      "kl": 0.06298828125,
+      "learning_rate": 9.958443289652137e-07,
+      "loss": 0.0025,
+      "reward": 1.5744065046310425,
+      "reward_std": 0.1612720489501953,
+      "rewards/accuracy_reward": 0.45297789573669434,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 963,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.5714285714285714,
+      "completion_length": 411.1071472167969,
+      "epoch": 0.04111049511706256,
+      "grad_norm": 1.2820824961142303,
+      "kl": 0.050048828125,
+      "learning_rate": 9.95835705813389e-07,
+      "loss": 0.002,
+      "reward": 1.417178988456726,
+      "reward_std": 0.09464232623577118,
+      "rewards/accuracy_reward": 0.338607519865036,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 964,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 377.39288330078125,
+      "epoch": 0.04115314085888524,
+      "grad_norm": 2.1119948944927778,
+      "kl": 0.06982421875,
+      "learning_rate": 9.958270737615876e-07,
+      "loss": 0.0028,
+      "reward": 2.0370266437530518,
+      "reward_std": 0.15241330862045288,
+      "rewards/accuracy_reward": 0.8263123035430908,
+      "rewards/format_reward": 1.0,
+      "step": 965,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 411.08929443359375,
+      "epoch": 0.04119578660070792,
+      "grad_norm": 1.9724612440626825,
+      "kl": 0.051513671875,
+      "learning_rate": 9.958184328099636e-07,
+      "loss": 0.0021,
+      "reward": 1.7237517833709717,
+      "reward_std": 0.2817230820655823,
+      "rewards/accuracy_reward": 0.5362517237663269,
+      "rewards/format_reward": 1.0,
+      "step": 966,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 405.2500305175781,
+      "epoch": 0.0412384323425306,
+      "grad_norm": 1.217388155156064,
+      "kl": 0.06787109375,
+      "learning_rate": 9.958097829586727e-07,
+      "loss": 0.0027,
+      "reward": 1.5464287996292114,
+      "reward_std": 0.22678472101688385,
+      "rewards/accuracy_reward": 0.4285714626312256,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 967,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 412.0000305175781,
+      "epoch": 0.04128107808435328,
+      "grad_norm": 2.174976056324669,
+      "kl": 0.0634765625,
+      "learning_rate": 9.9580112420787e-07,
+      "loss": 0.0025,
+      "reward": 1.6597402095794678,
+      "reward_std": 0.24509233236312866,
+      "rewards/accuracy_reward": 0.48652589321136475,
+      "rewards/format_reward": 1.0,
+      "step": 968,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 368.1785888671875,
+      "epoch": 0.041323723826175954,
+      "grad_norm": 1.4286186443155269,
+      "kl": 0.080078125,
+      "learning_rate": 9.95792456557711e-07,
+      "loss": 0.0032,
+      "reward": 1.694699764251709,
+      "reward_std": 0.28493639826774597,
+      "rewards/accuracy_reward": 0.5911281108856201,
+      "rewards/format_reward": 1.0,
+      "step": 969,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 373.4285888671875,
+      "epoch": 0.041366369567998634,
+      "grad_norm": 1.8366623611705846,
+      "kl": 0.04931640625,
+      "learning_rate": 9.957837800083512e-07,
+      "loss": 0.002,
+      "reward": 1.6913397312164307,
+      "reward_std": 0.31534942984580994,
+      "rewards/accuracy_reward": 0.5377681255340576,
+      "rewards/format_reward": 1.0,
+      "step": 970,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 430.5714416503906,
+      "epoch": 0.041409015309821315,
+      "grad_norm": 1.6724082967761504,
+      "kl": 0.055419921875,
+      "learning_rate": 9.957750945599463e-07,
+      "loss": 0.0022,
+      "reward": 1.6170705556869507,
+      "reward_std": 0.282865047454834,
+      "rewards/accuracy_reward": 0.47421327233314514,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 971,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 360.96429443359375,
+      "epoch": 0.041451661051643995,
+      "grad_norm": 1.4751519734360083,
+      "kl": 0.055908203125,
+      "learning_rate": 9.957664002126524e-07,
+      "loss": 0.0022,
+      "reward": 1.7003968954086304,
+      "reward_std": 0.27568307518959045,
+      "rewards/accuracy_reward": 0.5753968358039856,
+      "rewards/format_reward": 1.0,
+      "step": 972,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 401.7500305175781,
+      "epoch": 0.04149430679346667,
+      "grad_norm": 1.2879512175687846,
+      "kl": 0.0625,
+      "learning_rate": 9.957576969666252e-07,
+      "loss": 0.0025,
+      "reward": 1.939540982246399,
+      "reward_std": 0.3482883870601654,
+      "rewards/accuracy_reward": 0.7448980212211609,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 973,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 418.5535888671875,
+      "epoch": 0.04153695253528935,
+      "grad_norm": 1.4953696048328862,
+      "kl": 0.061767578125,
+      "learning_rate": 9.95748984822021e-07,
+      "loss": 0.0025,
+      "reward": 1.4209396839141846,
+      "reward_std": 0.11054398119449615,
+      "rewards/accuracy_reward": 0.31736814975738525,
+      "rewards/format_reward": 1.0,
+      "step": 974,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 381.8035888671875,
+      "epoch": 0.04157959827711203,
+      "grad_norm": 1.62577462756665,
+      "kl": 0.06396484375,
+      "learning_rate": 9.957402637789966e-07,
+      "loss": 0.0026,
+      "reward": 1.5604526996612549,
+      "reward_std": 0.2563931941986084,
+      "rewards/accuracy_reward": 0.4104524850845337,
+      "rewards/format_reward": 1.0,
+      "step": 975,
+      "temporal_rewards": 0.4285714328289032
+    },
+    {
+      "all_correct": 0.7142857142857143,
+      "all_wrong": 0.0,
+      "completion_length": 377.0535888671875,
+      "epoch": 0.04162224401893471,
+      "grad_norm": 2.435265664853468,
+      "kl": 0.061279296875,
+      "learning_rate": 9.957315338377082e-07,
+      "loss": 0.0025,
+      "reward": 2.032465696334839,
+      "reward_std": 0.14916305243968964,
+      "rewards/accuracy_reward": 0.8503227829933167,
+      "rewards/format_reward": 1.0,
+      "step": 976,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 388.3035888671875,
+      "epoch": 0.04166488976075739,
+      "grad_norm": 4.675537967649135,
+      "kl": 0.0732421875,
+      "learning_rate": 9.957227949983123e-07,
+      "loss": 0.0029,
+      "reward": 1.756882667541504,
+      "reward_std": 0.09770465642213821,
+      "rewards/accuracy_reward": 0.585453987121582,
+      "rewards/format_reward": 1.0,
+      "step": 977,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 417.9464416503906,
+      "epoch": 0.041707535502580065,
+      "grad_norm": 8.652420291718713,
+      "kl": 0.0703125,
+      "learning_rate": 9.95714047260966e-07,
+      "loss": 0.0028,
+      "reward": 1.7980735301971436,
+      "reward_std": 0.3015199899673462,
+      "rewards/accuracy_reward": 0.6355735063552856,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 978,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 427.1071472167969,
+      "epoch": 0.041750181244402745,
+      "grad_norm": 1.4268523956639492,
+      "kl": 0.059326171875,
+      "learning_rate": 9.957052906258265e-07,
+      "loss": 0.0024,
+      "reward": 2.1285715103149414,
+      "reward_std": 0.24789518117904663,
+      "rewards/accuracy_reward": 0.8928571939468384,
+      "rewards/format_reward": 1.0,
+      "step": 979,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.8750305175781,
+      "epoch": 0.041792826986225426,
+      "grad_norm": 1.7066404499935264,
+      "kl": 0.06103515625,
+      "learning_rate": 9.956965250930506e-07,
+      "loss": 0.0024,
+      "reward": 1.7384778261184692,
+      "reward_std": 0.3482401967048645,
+      "rewards/accuracy_reward": 0.5652633905410767,
+      "rewards/format_reward": 1.0,
+      "step": 980,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 424.4464416503906,
+      "epoch": 0.041835472728048106,
+      "grad_norm": 4.659872228636638,
+      "kl": 0.078125,
+      "learning_rate": 9.95687750662796e-07,
+      "loss": 0.0031,
+      "reward": 1.5966719388961792,
+      "reward_std": 0.1782858818769455,
+      "rewards/accuracy_reward": 0.5038148164749146,
+      "rewards/format_reward": 1.0,
+      "step": 981,
+      "temporal_rewards": 0.357142835855484
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 414.2500305175781,
+      "epoch": 0.04187811846987078,
+      "grad_norm": 2.2589039944618916,
+      "kl": 0.06591796875,
+      "learning_rate": 9.9567896733522e-07,
+      "loss": 0.0026,
+      "reward": 1.7768125534057617,
+      "reward_std": 0.2902745306491852,
+      "rewards/accuracy_reward": 0.5893124341964722,
+      "rewards/format_reward": 1.0,
+      "step": 982,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 372.4107360839844,
+      "epoch": 0.04192076421169346,
+      "grad_norm": 1.362896487824589,
+      "kl": 0.08447265625,
+      "learning_rate": 9.956701751104802e-07,
+      "loss": 0.0034,
+      "reward": 1.6840959787368774,
+      "reward_std": 0.11667370796203613,
+      "rewards/accuracy_reward": 0.5269531011581421,
+      "rewards/format_reward": 1.0,
+      "step": 983,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.7142857142857143,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 398.3214416503906,
+      "epoch": 0.04196340995351614,
+      "grad_norm": 1.2129928050538004,
+      "kl": 0.06103515625,
+      "learning_rate": 9.956613739887344e-07,
+      "loss": 0.0024,
+      "reward": 1.9772791862487793,
+      "reward_std": 0.04609445109963417,
+      "rewards/accuracy_reward": 0.7487077116966248,
+      "rewards/format_reward": 1.0,
+      "step": 984,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 404.5714416503906,
+      "epoch": 0.04200605569533882,
+      "grad_norm": 3.9207407827779077,
+      "kl": 0.0634765625,
+      "learning_rate": 9.956525639701407e-07,
+      "loss": 0.0025,
+      "reward": 1.910249948501587,
+      "reward_std": 0.12284082174301147,
+      "rewards/accuracy_reward": 0.6995355486869812,
+      "rewards/format_reward": 1.0,
+      "step": 985,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 372.6785888671875,
+      "epoch": 0.0420487014371615,
+      "grad_norm": 2.0049322392282347,
+      "kl": 0.0693359375,
+      "learning_rate": 9.956437450548573e-07,
+      "loss": 0.0028,
+      "reward": 1.7768032550811768,
+      "reward_std": 0.3517088294029236,
+      "rewards/accuracy_reward": 0.6071603298187256,
+      "rewards/format_reward": 1.0,
+      "step": 986,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 378.46429443359375,
+      "epoch": 0.042091347178984176,
+      "grad_norm": 2.4990401086302327,
+      "kl": 0.0625,
+      "learning_rate": 9.956349172430423e-07,
+      "loss": 0.0025,
+      "reward": 1.9568233489990234,
+      "reward_std": 0.31181564927101135,
+      "rewards/accuracy_reward": 0.7443231344223022,
+      "rewards/format_reward": 1.0,
+      "step": 987,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 321.75,
+      "epoch": 0.042133992920806856,
+      "grad_norm": 1.7114030947272834,
+      "kl": 0.08740234375,
+      "learning_rate": 9.956260805348543e-07,
+      "loss": 0.0035,
+      "reward": 1.672023892402649,
+      "reward_std": 0.23027639091014862,
+      "rewards/accuracy_reward": 0.5345238447189331,
+      "rewards/format_reward": 1.0,
+      "step": 988,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 358.6250305175781,
+      "epoch": 0.04217663866262954,
+      "grad_norm": 2.7481031203471664,
+      "kl": 0.07666015625,
+      "learning_rate": 9.956172349304516e-07,
+      "loss": 0.0031,
+      "reward": 1.5195239782333374,
+      "reward_std": 0.2381688952445984,
+      "rewards/accuracy_reward": 0.39809539914131165,
+      "rewards/format_reward": 1.0,
+      "step": 989,
+      "temporal_rewards": 0.4285714328289032
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 340.2857360839844,
+      "epoch": 0.04221928440445222,
+      "grad_norm": 1.784431075262888,
+      "kl": 0.087890625,
+      "learning_rate": 9.956083804299937e-07,
+      "loss": 0.0035,
+      "reward": 1.7007704973220825,
+      "reward_std": 0.2985832691192627,
+      "rewards/accuracy_reward": 0.5364846587181091,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 990,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 377.1607360839844,
+      "epoch": 0.04226193014627489,
+      "grad_norm": 3.305830844381748,
+      "kl": 0.049560546875,
+      "learning_rate": 9.955995170336387e-07,
+      "loss": 0.002,
+      "reward": 1.5684744119644165,
+      "reward_std": 0.24174275994300842,
+      "rewards/accuracy_reward": 0.4452598989009857,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 991,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 364.3750305175781,
+      "epoch": 0.04230457588809757,
+      "grad_norm": 2.4344422715162475,
+      "kl": 0.060302734375,
+      "learning_rate": 9.955906447415462e-07,
+      "loss": 0.0024,
+      "reward": 2.0187172889709473,
+      "reward_std": 0.23528897762298584,
+      "rewards/accuracy_reward": 0.7312172055244446,
+      "rewards/format_reward": 1.0,
+      "step": 992,
+      "temporal_rewards": 0.7857142686843872
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 347.6071472167969,
+      "epoch": 0.04234722162992025,
+      "grad_norm": 1.1678389588315554,
+      "kl": 0.04833984375,
+      "learning_rate": 9.955817635538753e-07,
+      "loss": 0.0019,
+      "reward": 1.3988115787506104,
+      "reward_std": 0.17111261188983917,
+      "rewards/accuracy_reward": 0.32381147146224976,
+      "rewards/format_reward": 1.0,
+      "step": 993,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 312.6964416503906,
+      "epoch": 0.04238986737174293,
+      "grad_norm": 2.533225798199559,
+      "kl": 0.0859375,
+      "learning_rate": 9.955728734707854e-07,
+      "loss": 0.0034,
+      "reward": 1.840993881225586,
+      "reward_std": 0.20919422805309296,
+      "rewards/accuracy_reward": 0.6695650815963745,
+      "rewards/format_reward": 1.0,
+      "step": 994,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 380.5000305175781,
+      "epoch": 0.04243251311356561,
+      "grad_norm": 1.5832851452596517,
+      "kl": 0.061279296875,
+      "learning_rate": 9.955639744924362e-07,
+      "loss": 0.0025,
+      "reward": 1.7240325212478638,
+      "reward_std": 0.08556399494409561,
+      "rewards/accuracy_reward": 0.5526038408279419,
+      "rewards/format_reward": 1.0,
+      "step": 995,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 305.0535888671875,
+      "epoch": 0.04247515885538829,
+      "grad_norm": 10.554470531111166,
+      "kl": 0.07177734375,
+      "learning_rate": 9.955550666189872e-07,
+      "loss": 0.0029,
+      "reward": 1.5484970808029175,
+      "reward_std": 0.08560214191675186,
+      "rewards/accuracy_reward": 0.3877827525138855,
+      "rewards/format_reward": 1.0,
+      "step": 996,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 320.9464416503906,
+      "epoch": 0.04251780459721097,
+      "grad_norm": 1.9700363180476712,
+      "kl": 0.07177734375,
+      "learning_rate": 9.955461498505984e-07,
+      "loss": 0.0029,
+      "reward": 1.9073069095611572,
+      "reward_std": 0.24450773000717163,
+      "rewards/accuracy_reward": 0.7305210828781128,
+      "rewards/format_reward": 1.0,
+      "step": 997,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 396.8571472167969,
+      "epoch": 0.04256045033903365,
+      "grad_norm": 1.9243204654958848,
+      "kl": 0.0498046875,
+      "learning_rate": 9.9553722418743e-07,
+      "loss": 0.002,
+      "reward": 1.504149079322815,
+      "reward_std": 0.22699996829032898,
+      "rewards/accuracy_reward": 0.4398633539676666,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 998,
+      "temporal_rewards": 0.6428571343421936
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 334.0714416503906,
+      "epoch": 0.04260309608085633,
+      "grad_norm": 1.91575629989198,
+      "kl": 0.0615234375,
+      "learning_rate": 9.95528289629642e-07,
+      "loss": 0.0025,
+      "reward": 1.69874906539917,
+      "reward_std": 0.15359075367450714,
+      "rewards/accuracy_reward": 0.4737490117549896,
+      "rewards/format_reward": 1.0,
+      "step": 999,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 332.64288330078125,
+      "epoch": 0.042645741822679,
+      "grad_norm": 1.6046922501658243,
+      "kl": 0.06298828125,
+      "learning_rate": 9.955193461773947e-07,
+      "loss": 0.0025,
+      "reward": 1.8086810111999512,
+      "reward_std": 0.15720872581005096,
+      "rewards/accuracy_reward": 0.6801096200942993,
+      "rewards/format_reward": 1.0,
+      "step": 1000,
+      "temporal_rewards": 0.6428571343421936
     }
   ],
   "logging_steps": 1.0,