diff --git "a/checkpoint-22050/trainer_state.json" "b/checkpoint-22050/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/checkpoint-22050/trainer_state.json"
@@ -0,0 +1,4881 @@
+{
+  "best_global_step": 22000,
+  "best_metric": 0.40355798602104187,
+  "best_model_checkpoint": "Qwen-3-0.6B-it-Medical-LoRA/checkpoint-22000",
+  "epoch": 49.998867497168746,
+  "eval_steps": 100,
+  "global_step": 22050,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11325028312570781,
+      "grad_norm": 0.3080866038799286,
+      "learning_rate": 0.00019075425790754258,
+      "loss": 1.8711,
+      "step": 50
+    },
+    {
+      "epoch": 0.22650056625141562,
+      "grad_norm": 0.28974413871765137,
+      "learning_rate": 0.0001664233576642336,
+      "loss": 1.338,
+      "step": 100
+    },
+    {
+      "epoch": 0.22650056625141562,
+      "eval_loss": 1.3033037185668945,
+      "eval_runtime": 217.1489,
+      "eval_samples_per_second": 7.225,
+      "eval_steps_per_second": 0.907,
+      "step": 100
+    },
+    {
+      "epoch": 0.33975084937712347,
+      "grad_norm": 0.3371483385562897,
+      "learning_rate": 0.0001420924574209246,
+      "loss": 1.2923,
+      "step": 150
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "grad_norm": 0.35730767250061035,
+      "learning_rate": 0.00011776155717761557,
+      "loss": 1.2703,
+      "step": 200
+    },
+    {
+      "epoch": 0.45300113250283125,
+      "eval_loss": 1.2490053176879883,
+      "eval_runtime": 217.4793,
+      "eval_samples_per_second": 7.214,
+      "eval_steps_per_second": 0.906,
+      "step": 200
+    },
+    {
+      "epoch": 0.5662514156285391,
+      "grad_norm": 0.35110780596733093,
+      "learning_rate": 9.343065693430657e-05,
+      "loss": 1.2397,
+      "step": 250
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "grad_norm": 0.35077276825904846,
+      "learning_rate": 6.909975669099758e-05,
+      "loss": 1.232,
+      "step": 300
+    },
+    {
+      "epoch": 0.6795016987542469,
+      "eval_loss": 1.2211977243423462,
+      "eval_runtime": 217.5364,
+      "eval_samples_per_second": 7.213,
+      "eval_steps_per_second": 0.906,
+      "step": 300
+    },
+    {
+      "epoch": 0.7927519818799547,
+      "grad_norm": 0.3939191699028015,
+      "learning_rate": 4.476885644768857e-05,
+      "loss": 1.2241,
+      "step": 350
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "grad_norm": 0.366871178150177,
+      "learning_rate": 2.0437956204379563e-05,
+      "loss": 1.2078,
+      "step": 400
+    },
+    {
+      "epoch": 0.9060022650056625,
+      "eval_loss": 1.2062289714813232,
+      "eval_runtime": 217.4838,
+      "eval_samples_per_second": 7.214,
+      "eval_steps_per_second": 0.906,
+      "step": 400
+    },
+    {
+      "epoch": 1.0203850509626273,
+      "grad_norm": 0.3808969259262085,
+      "learning_rate": 0.00010164319248826291,
+      "loss": 1.1819,
+      "step": 450
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "grad_norm": 0.43216949701309204,
+      "learning_rate": 8.990610328638498e-05,
+      "loss": 1.19,
+      "step": 500
+    },
+    {
+      "epoch": 1.1336353340883352,
+      "eval_loss": 1.1994948387145996,
+      "eval_runtime": 217.3626,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.906,
+      "step": 500
+    },
+    {
+      "epoch": 1.246885617214043,
+      "grad_norm": 0.4280295968055725,
+      "learning_rate": 7.816901408450704e-05,
+      "loss": 1.1971,
+      "step": 550
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "grad_norm": 0.4056779146194458,
+      "learning_rate": 6.643192488262912e-05,
+      "loss": 1.1771,
+      "step": 600
+    },
+    {
+      "epoch": 1.3601359003397508,
+      "eval_loss": 1.1834282875061035,
+      "eval_runtime": 217.4514,
+      "eval_samples_per_second": 7.215,
+      "eval_steps_per_second": 0.906,
+      "step": 600
+    },
+    {
+      "epoch": 1.4733861834654587,
+      "grad_norm": 0.4397243857383728,
+      "learning_rate": 5.469483568075118e-05,
+      "loss": 1.1544,
+      "step": 650
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "grad_norm": 0.4214654862880707,
+      "learning_rate": 4.295774647887324e-05,
+      "loss": 1.1789,
+      "step": 700
+    },
+    {
+      "epoch": 1.5866364665911665,
+      "eval_loss": 1.1712530851364136,
+      "eval_runtime": 217.6023,
+      "eval_samples_per_second": 7.21,
+      "eval_steps_per_second": 0.905,
+      "step": 700
+    },
+    {
+      "epoch": 1.6998867497168741,
+      "grad_norm": 0.43076109886169434,
+      "learning_rate": 3.1220657276995305e-05,
+      "loss": 1.1522,
+      "step": 750
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "grad_norm": 0.4253358244895935,
+      "learning_rate": 1.9483568075117372e-05,
+      "loss": 1.1508,
+      "step": 800
+    },
+    {
+      "epoch": 1.8131370328425822,
+      "eval_loss": 1.1622345447540283,
+      "eval_runtime": 217.3951,
+      "eval_samples_per_second": 7.217,
+      "eval_steps_per_second": 0.906,
+      "step": 800
+    },
+    {
+      "epoch": 1.9263873159682898,
+      "grad_norm": 0.4359077215194702,
+      "learning_rate": 7.746478873239436e-06,
+      "loss": 1.1422,
+      "step": 850
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "grad_norm": 0.4511992633342743,
+      "learning_rate": 0.00014314687602224403,
+      "loss": 1.149,
+      "step": 900
+    },
+    {
+      "epoch": 2.0407701019252547,
+      "eval_loss": 1.167581558227539,
+      "eval_runtime": 218.6888,
+      "eval_samples_per_second": 7.175,
+      "eval_steps_per_second": 0.901,
+      "step": 900
+    },
+    {
+      "epoch": 2.1540203850509627,
+      "grad_norm": 0.47519659996032715,
+      "learning_rate": 0.00013987569512594048,
+      "loss": 1.1498,
+      "step": 950
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "grad_norm": 0.4559363126754761,
+      "learning_rate": 0.00013660451422963692,
+      "loss": 1.1469,
+      "step": 1000
+    },
+    {
+      "epoch": 2.2672706681766703,
+      "eval_loss": 1.1536333560943604,
+      "eval_runtime": 218.921,
+      "eval_samples_per_second": 7.167,
+      "eval_steps_per_second": 0.9,
+      "step": 1000
+    },
+    {
+      "epoch": 2.3805209513023784,
+      "grad_norm": 0.49805569648742676,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 1.123,
+      "step": 1050
+    },
+    {
+      "epoch": 2.493771234428086,
+      "grad_norm": 0.4767671823501587,
+      "learning_rate": 0.00013006215243702978,
+      "loss": 1.1119,
+      "step": 1100
+    },
+    {
+      "epoch": 2.493771234428086,
+      "eval_loss": 1.1321617364883423,
+      "eval_runtime": 218.8468,
+      "eval_samples_per_second": 7.169,
+      "eval_steps_per_second": 0.9,
+      "step": 1100
+    },
+    {
+      "epoch": 2.607021517553794,
+      "grad_norm": 0.4313490688800812,
+      "learning_rate": 0.0001267909715407262,
+      "loss": 1.1096,
+      "step": 1150
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "grad_norm": 0.46401792764663696,
+      "learning_rate": 0.00012351979064442265,
+      "loss": 1.0929,
+      "step": 1200
+    },
+    {
+      "epoch": 2.7202718006795017,
+      "eval_loss": 1.1138092279434204,
+      "eval_runtime": 219.2403,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 0.899,
+      "step": 1200
+    },
+    {
+      "epoch": 2.8335220838052093,
+      "grad_norm": 0.46533071994781494,
+      "learning_rate": 0.00012024860974811907,
+      "loss": 1.0894,
+      "step": 1250
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "grad_norm": 0.42782357335090637,
+      "learning_rate": 0.00011697742885181551,
+      "loss": 1.072,
+      "step": 1300
+    },
+    {
+      "epoch": 2.9467723669309174,
+      "eval_loss": 1.0986168384552002,
+      "eval_runtime": 219.0662,
+      "eval_samples_per_second": 7.162,
+      "eval_steps_per_second": 0.899,
+      "step": 1300
+    },
+    {
+      "epoch": 3.061155152887882,
+      "grad_norm": 0.46029889583587646,
+      "learning_rate": 0.00011370624795551194,
+      "loss": 1.0936,
+      "step": 1350
+    },
+    {
+      "epoch": 3.17440543601359,
+      "grad_norm": 0.5067735314369202,
+      "learning_rate": 0.00011043506705920839,
+      "loss": 1.0304,
+      "step": 1400
+    },
+    {
+      "epoch": 3.17440543601359,
+      "eval_loss": 1.0839864015579224,
+      "eval_runtime": 219.2396,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 0.899,
+      "step": 1400
+    },
+    {
+      "epoch": 3.287655719139298,
+      "grad_norm": 0.46760454773902893,
+      "learning_rate": 0.0001071638861629048,
+      "loss": 1.0361,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "grad_norm": 0.5199077129364014,
+      "learning_rate": 0.00010389270526660124,
+      "loss": 1.0304,
+      "step": 1500
+    },
+    {
+      "epoch": 3.4009060022650055,
+      "eval_loss": 1.070657730102539,
+      "eval_runtime": 219.1222,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 1500
+    },
+    {
+      "epoch": 3.5141562853907136,
+      "grad_norm": 0.496124267578125,
+      "learning_rate": 0.00010062152437029768,
+      "loss": 1.0202,
+      "step": 1550
+    },
+    {
+      "epoch": 3.627406568516421,
+      "grad_norm": 0.5154497623443604,
+      "learning_rate": 9.735034347399413e-05,
+      "loss": 1.007,
+      "step": 1600
+    },
+    {
+      "epoch": 3.627406568516421,
+      "eval_loss": 1.0554137229919434,
+      "eval_runtime": 219.2648,
+      "eval_samples_per_second": 7.156,
+      "eval_steps_per_second": 0.898,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7406568516421292,
+      "grad_norm": 0.4881006181240082,
+      "learning_rate": 9.407916257769055e-05,
+      "loss": 0.9934,
+      "step": 1650
+    },
+    {
+      "epoch": 3.853907134767837,
+      "grad_norm": 0.5507743954658508,
+      "learning_rate": 9.080798168138699e-05,
+      "loss": 0.9894,
+      "step": 1700
+    },
+    {
+      "epoch": 3.853907134767837,
+      "eval_loss": 1.0418345928192139,
+      "eval_runtime": 219.154,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 1700
+    },
+    {
+      "epoch": 3.967157417893545,
+      "grad_norm": 0.5333808064460754,
+      "learning_rate": 8.753680078508342e-05,
+      "loss": 0.9795,
+      "step": 1750
+    },
+    {
+      "epoch": 4.081540203850509,
+      "grad_norm": 0.551164448261261,
+      "learning_rate": 8.426561988877985e-05,
+      "loss": 0.974,
+      "step": 1800
+    },
+    {
+      "epoch": 4.081540203850509,
+      "eval_loss": 1.0327671766281128,
+      "eval_runtime": 219.1392,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 1800
+    },
+    {
+      "epoch": 4.194790486976218,
+      "grad_norm": 0.5678717494010925,
+      "learning_rate": 8.099443899247629e-05,
+      "loss": 0.9204,
+      "step": 1850
+    },
+    {
+      "epoch": 4.308040770101925,
+      "grad_norm": 0.5472707152366638,
+      "learning_rate": 7.772325809617273e-05,
+      "loss": 0.9341,
+      "step": 1900
+    },
+    {
+      "epoch": 4.308040770101925,
+      "eval_loss": 1.0188047885894775,
+      "eval_runtime": 219.1338,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 1900
+    },
+    {
+      "epoch": 4.421291053227633,
+      "grad_norm": 0.5799363255500793,
+      "learning_rate": 7.445207719986915e-05,
+      "loss": 0.9313,
+      "step": 1950
+    },
+    {
+      "epoch": 4.534541336353341,
+      "grad_norm": 0.6046631336212158,
+      "learning_rate": 7.11808963035656e-05,
+      "loss": 0.9325,
+      "step": 2000
+    },
+    {
+      "epoch": 4.534541336353341,
+      "eval_loss": 1.004631519317627,
+      "eval_runtime": 219.1114,
+      "eval_samples_per_second": 7.161,
+      "eval_steps_per_second": 0.899,
+      "step": 2000
+    },
+    {
+      "epoch": 4.647791619479049,
+      "grad_norm": 0.5897740721702576,
+      "learning_rate": 6.790971540726203e-05,
+      "loss": 0.9213,
+      "step": 2050
+    },
+    {
+      "epoch": 4.761041902604757,
+      "grad_norm": 0.583991289138794,
+      "learning_rate": 6.463853451095846e-05,
+      "loss": 0.9039,
+      "step": 2100
+    },
+    {
+      "epoch": 4.761041902604757,
+      "eval_loss": 0.9938989877700806,
+      "eval_runtime": 219.0293,
+      "eval_samples_per_second": 7.163,
+      "eval_steps_per_second": 0.899,
+      "step": 2100
+    },
+    {
+      "epoch": 4.874292185730464,
+      "grad_norm": 0.6264305710792542,
+      "learning_rate": 6.13673536146549e-05,
+      "loss": 0.9028,
+      "step": 2150
+    },
+    {
+      "epoch": 4.987542468856172,
+      "grad_norm": 0.6474761962890625,
+      "learning_rate": 5.809617271835133e-05,
+      "loss": 0.9053,
+      "step": 2200
+    },
+    {
+      "epoch": 4.987542468856172,
+      "eval_loss": 0.9845430254936218,
+      "eval_runtime": 219.2502,
+      "eval_samples_per_second": 7.156,
+      "eval_steps_per_second": 0.899,
+      "step": 2200
+    },
+    {
+      "epoch": 5.101925254813137,
+      "grad_norm": 0.6595875024795532,
+      "learning_rate": 5.4824991822047765e-05,
+      "loss": 0.882,
+      "step": 2250
+    },
+    {
+      "epoch": 5.215175537938845,
+      "grad_norm": 0.6405232548713684,
+      "learning_rate": 5.15538109257442e-05,
+      "loss": 0.8471,
+      "step": 2300
+    },
+    {
+      "epoch": 5.215175537938845,
+      "eval_loss": 0.9782047867774963,
+      "eval_runtime": 219.0751,
+      "eval_samples_per_second": 7.162,
+      "eval_steps_per_second": 0.899,
+      "step": 2300
+    },
+    {
+      "epoch": 5.3284258210645525,
+      "grad_norm": 0.6547350287437439,
+      "learning_rate": 4.828263002944063e-05,
+      "loss": 0.8602,
+      "step": 2350
+    },
+    {
+      "epoch": 5.44167610419026,
+      "grad_norm": 0.7046269178390503,
+      "learning_rate": 4.501144913313706e-05,
+      "loss": 0.8404,
+      "step": 2400
+    },
+    {
+      "epoch": 5.44167610419026,
+      "eval_loss": 0.9688066244125366,
+      "eval_runtime": 219.0622,
+      "eval_samples_per_second": 7.162,
+      "eval_steps_per_second": 0.899,
+      "step": 2400
+    },
+    {
+      "epoch": 5.554926387315969,
+      "grad_norm": 0.6331756114959717,
+      "learning_rate": 4.17402682368335e-05,
+      "loss": 0.8286,
+      "step": 2450
+    },
+    {
+      "epoch": 5.668176670441676,
+      "grad_norm": 0.7212900519371033,
+      "learning_rate": 3.846908734052994e-05,
+      "loss": 0.8382,
+      "step": 2500
+    },
+    {
+      "epoch": 5.668176670441676,
+      "eval_loss": 0.9589976668357849,
+      "eval_runtime": 219.1257,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 2500
+    },
+    {
+      "epoch": 5.781426953567384,
+      "grad_norm": 0.6771254539489746,
+      "learning_rate": 3.519790644422637e-05,
+      "loss": 0.8359,
+      "step": 2550
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "grad_norm": 0.7171376943588257,
+      "learning_rate": 3.19267255479228e-05,
+      "loss": 0.832,
+      "step": 2600
+    },
+    {
+      "epoch": 5.8946772366930915,
+      "eval_loss": 0.9501948952674866,
+      "eval_runtime": 219.0768,
+      "eval_samples_per_second": 7.162,
+      "eval_steps_per_second": 0.899,
+      "step": 2600
+    },
+    {
+      "epoch": 6.009060022650057,
+      "grad_norm": 0.6734739542007446,
+      "learning_rate": 2.865554465161924e-05,
+      "loss": 0.8437,
+      "step": 2650
+    },
+    {
+      "epoch": 6.122310305775764,
+      "grad_norm": 0.697407603263855,
+      "learning_rate": 2.538436375531567e-05,
+      "loss": 0.7937,
+      "step": 2700
+    },
+    {
+      "epoch": 6.122310305775764,
+      "eval_loss": 0.9480313658714294,
+      "eval_runtime": 218.949,
+      "eval_samples_per_second": 7.166,
+      "eval_steps_per_second": 0.9,
+      "step": 2700
+    },
+    {
+      "epoch": 6.235560588901472,
+      "grad_norm": 0.7092292904853821,
+      "learning_rate": 2.2113182859012105e-05,
+      "loss": 0.7804,
+      "step": 2750
+    },
+    {
+      "epoch": 6.34881087202718,
+      "grad_norm": 0.7284964919090271,
+      "learning_rate": 1.884200196270854e-05,
+      "loss": 0.7861,
+      "step": 2800
+    },
+    {
+      "epoch": 6.34881087202718,
+      "eval_loss": 0.942541241645813,
+      "eval_runtime": 219.1707,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 2800
+    },
+    {
+      "epoch": 6.462061155152888,
+      "grad_norm": 0.7725135087966919,
+      "learning_rate": 1.557082106640497e-05,
+      "loss": 0.776,
+      "step": 2850
+    },
+    {
+      "epoch": 6.575311438278596,
+      "grad_norm": 0.7266800403594971,
+      "learning_rate": 1.2299640170101408e-05,
+      "loss": 0.7812,
+      "step": 2900
+    },
+    {
+      "epoch": 6.575311438278596,
+      "eval_loss": 0.939509928226471,
+      "eval_runtime": 219.1206,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 2900
+    },
+    {
+      "epoch": 6.688561721404303,
+      "grad_norm": 0.7308298349380493,
+      "learning_rate": 9.028459273797842e-06,
+      "loss": 0.7827,
+      "step": 2950
+    },
+    {
+      "epoch": 6.801812004530011,
+      "grad_norm": 0.7362912893295288,
+      "learning_rate": 5.757278377494276e-06,
+      "loss": 0.7917,
+      "step": 3000
+    },
+    {
+      "epoch": 6.801812004530011,
+      "eval_loss": 0.9356247782707214,
+      "eval_runtime": 219.052,
+      "eval_samples_per_second": 7.163,
+      "eval_steps_per_second": 0.899,
+      "step": 3000
+    },
+    {
+      "epoch": 6.9150622876557195,
+      "grad_norm": 0.7543765902519226,
+      "learning_rate": 2.4860974811907098e-06,
+      "loss": 0.7738,
+      "step": 3050
+    },
+    {
+      "epoch": 7.029445073612684,
+      "grad_norm": 0.7134389877319336,
+      "learning_rate": 5.986301369863014e-05,
+      "loss": 0.7481,
+      "step": 3100
+    },
+    {
+      "epoch": 7.029445073612684,
+      "eval_loss": 0.9381225109100342,
+      "eval_runtime": 218.2269,
+      "eval_samples_per_second": 7.19,
+      "eval_steps_per_second": 0.903,
+      "step": 3100
+    },
+    {
+      "epoch": 7.1426953567383915,
+      "grad_norm": 0.8131405711174011,
+      "learning_rate": 5.757990867579909e-05,
+      "loss": 0.7725,
+      "step": 3150
+    },
+    {
+      "epoch": 7.2559456398641,
+      "grad_norm": 0.8759368062019348,
+      "learning_rate": 5.529680365296805e-05,
+      "loss": 0.7752,
+      "step": 3200
+    },
+    {
+      "epoch": 7.2559456398641,
+      "eval_loss": 0.9386877417564392,
+      "eval_runtime": 218.4203,
+      "eval_samples_per_second": 7.183,
+      "eval_steps_per_second": 0.902,
+      "step": 3200
+    },
+    {
+      "epoch": 7.369195922989808,
+      "grad_norm": 0.8374108076095581,
+      "learning_rate": 5.3013698630136986e-05,
+      "loss": 0.7765,
+      "step": 3250
+    },
+    {
+      "epoch": 7.482446206115515,
+      "grad_norm": 0.8505973815917969,
+      "learning_rate": 5.0730593607305946e-05,
+      "loss": 0.7791,
+      "step": 3300
+    },
+    {
+      "epoch": 7.482446206115515,
+      "eval_loss": 0.9266760349273682,
+      "eval_runtime": 218.4773,
+      "eval_samples_per_second": 7.182,
+      "eval_steps_per_second": 0.902,
+      "step": 3300
+    },
+    {
+      "epoch": 7.595696489241223,
+      "grad_norm": 0.8420349359512329,
+      "learning_rate": 4.8447488584474886e-05,
+      "loss": 0.7721,
+      "step": 3350
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "grad_norm": 0.892084002494812,
+      "learning_rate": 4.616438356164384e-05,
+      "loss": 0.7626,
+      "step": 3400
+    },
+    {
+      "epoch": 7.7089467723669305,
+      "eval_loss": 0.9153051376342773,
+      "eval_runtime": 218.391,
+      "eval_samples_per_second": 7.184,
+      "eval_steps_per_second": 0.902,
+      "step": 3400
+    },
+    {
+      "epoch": 7.822197055492639,
+      "grad_norm": 1.0072320699691772,
+      "learning_rate": 4.3881278538812785e-05,
+      "loss": 0.7578,
+      "step": 3450
+    },
+    {
+      "epoch": 7.935447338618347,
+      "grad_norm": 0.841740608215332,
+      "learning_rate": 4.159817351598174e-05,
+      "loss": 0.755,
+      "step": 3500
+    },
+    {
+      "epoch": 7.935447338618347,
+      "eval_loss": 0.9030627012252808,
+      "eval_runtime": 218.5627,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 3500
+    },
+    {
+      "epoch": 8.049830124575312,
+      "grad_norm": 0.9417058825492859,
+      "learning_rate": 3.9315068493150684e-05,
+      "loss": 0.7419,
+      "step": 3550
+    },
+    {
+      "epoch": 8.163080407701019,
+      "grad_norm": 0.8208181858062744,
+      "learning_rate": 3.703196347031964e-05,
+      "loss": 0.7079,
+      "step": 3600
+    },
+    {
+      "epoch": 8.163080407701019,
+      "eval_loss": 0.9004995226860046,
+      "eval_runtime": 218.599,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 3600
+    },
+    {
+      "epoch": 8.276330690826727,
+      "grad_norm": 0.8969956040382385,
+      "learning_rate": 3.4748858447488584e-05,
+      "loss": 0.7184,
+      "step": 3650
+    },
+    {
+      "epoch": 8.389580973952436,
+      "grad_norm": 0.9903959631919861,
+      "learning_rate": 3.246575342465754e-05,
+      "loss": 0.6977,
+      "step": 3700
+    },
+    {
+      "epoch": 8.389580973952436,
+      "eval_loss": 0.895404577255249,
+      "eval_runtime": 218.551,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 3700
+    },
+    {
+      "epoch": 8.502831257078142,
+      "grad_norm": 0.8987964391708374,
+      "learning_rate": 3.0182648401826487e-05,
+      "loss": 0.6981,
+      "step": 3750
+    },
+    {
+      "epoch": 8.61608154020385,
+      "grad_norm": 0.9351384043693542,
+      "learning_rate": 2.7899543378995436e-05,
+      "loss": 0.6985,
+      "step": 3800
+    },
+    {
+      "epoch": 8.61608154020385,
+      "eval_loss": 0.8867019414901733,
+      "eval_runtime": 218.5395,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 3800
+    },
+    {
+      "epoch": 8.729331823329558,
+      "grad_norm": 0.9520925283432007,
+      "learning_rate": 2.5616438356164386e-05,
+      "loss": 0.7041,
+      "step": 3850
+    },
+    {
+      "epoch": 8.842582106455266,
+      "grad_norm": 0.9150193333625793,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.6946,
+      "step": 3900
+    },
+    {
+      "epoch": 8.842582106455266,
+      "eval_loss": 0.8767301440238953,
+      "eval_runtime": 218.4183,
+      "eval_samples_per_second": 7.183,
+      "eval_steps_per_second": 0.902,
+      "step": 3900
+    },
+    {
+      "epoch": 8.955832389580975,
+      "grad_norm": 0.9718352556228638,
+      "learning_rate": 2.1050228310502286e-05,
+      "loss": 0.6837,
+      "step": 3950
+    },
+    {
+      "epoch": 9.070215175537939,
+      "grad_norm": 0.9025393724441528,
+      "learning_rate": 1.8767123287671235e-05,
+      "loss": 0.6821,
+      "step": 4000
+    },
+    {
+      "epoch": 9.070215175537939,
+      "eval_loss": 0.8735217452049255,
+      "eval_runtime": 218.5455,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 4000
+    },
+    {
+      "epoch": 9.183465458663647,
+      "grad_norm": 0.9804911017417908,
+      "learning_rate": 1.6484018264840185e-05,
+      "loss": 0.6533,
+      "step": 4050
+    },
+    {
+      "epoch": 9.296715741789354,
+      "grad_norm": 0.8889093399047852,
+      "learning_rate": 1.4200913242009135e-05,
+      "loss": 0.6549,
+      "step": 4100
+    },
+    {
+      "epoch": 9.296715741789354,
+      "eval_loss": 0.8693042993545532,
+      "eval_runtime": 218.4928,
+      "eval_samples_per_second": 7.181,
+      "eval_steps_per_second": 0.902,
+      "step": 4100
+    },
+    {
+      "epoch": 9.409966024915063,
+      "grad_norm": 0.9306142926216125,
+      "learning_rate": 1.1917808219178083e-05,
+      "loss": 0.643,
+      "step": 4150
+    },
+    {
+      "epoch": 9.52321630804077,
+      "grad_norm": 1.0180792808532715,
+      "learning_rate": 9.634703196347032e-06,
+      "loss": 0.6498,
+      "step": 4200
+    },
+    {
+      "epoch": 9.52321630804077,
+      "eval_loss": 0.8649076223373413,
+      "eval_runtime": 218.6148,
+      "eval_samples_per_second": 7.177,
+      "eval_steps_per_second": 0.901,
+      "step": 4200
+    },
+    {
+      "epoch": 9.636466591166478,
+      "grad_norm": 1.038870930671692,
+      "learning_rate": 7.351598173515982e-06,
+      "loss": 0.6633,
+      "step": 4250
+    },
+    {
+      "epoch": 9.749716874292186,
+      "grad_norm": 0.9064520001411438,
+      "learning_rate": 5.068493150684932e-06,
+      "loss": 0.6503,
+      "step": 4300
+    },
+    {
+      "epoch": 9.749716874292186,
+      "eval_loss": 0.8624854683876038,
+      "eval_runtime": 218.607,
+      "eval_samples_per_second": 7.177,
+      "eval_steps_per_second": 0.901,
+      "step": 4300
+    },
+    {
+      "epoch": 9.862967157417893,
+      "grad_norm": 0.9673233032226562,
+      "learning_rate": 2.7853881278538815e-06,
+      "loss": 0.6439,
+      "step": 4350
+    },
+    {
+      "epoch": 9.976217440543602,
+      "grad_norm": 0.9512138366699219,
+      "learning_rate": 5.022831050228311e-07,
+      "loss": 0.6427,
+      "step": 4400
+    },
+    {
+      "epoch": 9.976217440543602,
+      "eval_loss": 0.8610817790031433,
+      "eval_runtime": 218.4692,
+      "eval_samples_per_second": 7.182,
+      "eval_steps_per_second": 0.902,
+      "step": 4400
+    },
+    {
+      "epoch": 10.090600226500566,
+      "grad_norm": 0.9980069994926453,
+      "learning_rate": 4.5028932140978435e-05,
+      "loss": 0.6435,
+      "step": 4450
+    },
+    {
+      "epoch": 10.203850509626275,
+      "grad_norm": 1.1042736768722534,
+      "learning_rate": 4.327546905137647e-05,
+      "loss": 0.6473,
+      "step": 4500
+    },
+    {
+      "epoch": 10.203850509626275,
+      "eval_loss": 0.8664056658744812,
+      "eval_runtime": 218.1832,
+      "eval_samples_per_second": 7.191,
+      "eval_steps_per_second": 0.903,
+      "step": 4500
+    },
+    {
+      "epoch": 10.317100792751981,
+      "grad_norm": 1.093027114868164,
+      "learning_rate": 4.1522005961774504e-05,
+      "loss": 0.6428,
+      "step": 4550
+    },
+    {
+      "epoch": 10.43035107587769,
+      "grad_norm": 1.1941519975662231,
+      "learning_rate": 3.9768542872172545e-05,
+      "loss": 0.6453,
+      "step": 4600
+    },
+    {
+      "epoch": 10.43035107587769,
+      "eval_loss": 0.8576545715332031,
+      "eval_runtime": 218.2133,
+      "eval_samples_per_second": 7.19,
+      "eval_steps_per_second": 0.903,
+      "step": 4600
+    },
+    {
+      "epoch": 10.543601359003397,
+      "grad_norm": 1.1875131130218506,
+      "learning_rate": 3.801507978257058e-05,
+      "loss": 0.6444,
+      "step": 4650
+    },
+    {
+      "epoch": 10.656851642129105,
+      "grad_norm": 1.057826042175293,
+      "learning_rate": 3.6261616692968614e-05,
+      "loss": 0.6374,
+      "step": 4700
+    },
+    {
+      "epoch": 10.656851642129105,
+      "eval_loss": 0.8471001982688904,
+      "eval_runtime": 218.248,
+      "eval_samples_per_second": 7.189,
+      "eval_steps_per_second": 0.903,
+      "step": 4700
+    },
+    {
+      "epoch": 10.770101925254814,
+      "grad_norm": 1.1481099128723145,
+      "learning_rate": 3.450815360336665e-05,
+      "loss": 0.6367,
+      "step": 4750
+    },
+    {
+      "epoch": 10.88335220838052,
+      "grad_norm": 1.043562412261963,
+      "learning_rate": 3.275469051376468e-05,
+      "loss": 0.6382,
+      "step": 4800
+    },
+    {
+      "epoch": 10.88335220838052,
+      "eval_loss": 0.8414534330368042,
+      "eval_runtime": 218.3266,
+      "eval_samples_per_second": 7.186,
+      "eval_steps_per_second": 0.902,
+      "step": 4800
+    },
+    {
+      "epoch": 10.996602491506229,
+      "grad_norm": 1.1026701927185059,
+      "learning_rate": 3.1001227424162724e-05,
+      "loss": 0.6363,
+      "step": 4850
+    },
+    {
+      "epoch": 11.110985277463193,
+      "grad_norm": 1.2548056840896606,
+      "learning_rate": 2.9247764334560758e-05,
+      "loss": 0.6197,
+      "step": 4900
+    },
+    {
+      "epoch": 11.110985277463193,
+      "eval_loss": 0.8344885110855103,
+      "eval_runtime": 218.346,
+      "eval_samples_per_second": 7.186,
+      "eval_steps_per_second": 0.902,
+      "step": 4900
+    },
+    {
+      "epoch": 11.224235560588902,
+      "grad_norm": 1.2327723503112793,
+      "learning_rate": 2.7494301244958792e-05,
+      "loss": 0.5955,
+      "step": 4950
+    },
+    {
+      "epoch": 11.337485843714608,
+      "grad_norm": 1.272136926651001,
+      "learning_rate": 2.5740838155356834e-05,
+      "loss": 0.5888,
+      "step": 5000
+    },
+    {
+      "epoch": 11.337485843714608,
+      "eval_loss": 0.8296782374382019,
+      "eval_runtime": 218.3829,
+      "eval_samples_per_second": 7.185,
+      "eval_steps_per_second": 0.902,
+      "step": 5000
+    },
+    {
+      "epoch": 11.450736126840317,
+      "grad_norm": 1.3154362440109253,
+      "learning_rate": 2.3987375065754868e-05,
+      "loss": 0.5821,
+      "step": 5050
+    },
+    {
+      "epoch": 11.563986409966025,
+      "grad_norm": 1.2641000747680664,
+      "learning_rate": 2.2233911976152902e-05,
+      "loss": 0.5786,
+      "step": 5100
+    },
+    {
+      "epoch": 11.563986409966025,
+      "eval_loss": 0.8227117657661438,
+      "eval_runtime": 218.3919,
+      "eval_samples_per_second": 7.184,
+      "eval_steps_per_second": 0.902,
+      "step": 5100
+    },
+    {
+      "epoch": 11.677236693091732,
+      "grad_norm": 1.308750033378601,
+      "learning_rate": 2.048044888655094e-05,
+      "loss": 0.5876,
+      "step": 5150
+    },
+    {
+      "epoch": 11.79048697621744,
+      "grad_norm": 1.2791666984558105,
+      "learning_rate": 1.8726985796948974e-05,
+      "loss": 0.5886,
+      "step": 5200
+    },
+    {
+      "epoch": 11.79048697621744,
+      "eval_loss": 0.8168981075286865,
+      "eval_runtime": 218.4082,
+      "eval_samples_per_second": 7.184,
+      "eval_steps_per_second": 0.902,
+      "step": 5200
+    },
+    {
+      "epoch": 11.90373725934315,
+      "grad_norm": 1.1309980154037476,
+      "learning_rate": 1.6973522707347012e-05,
+      "loss": 0.5816,
+      "step": 5250
+    },
+    {
+      "epoch": 12.018120045300114,
+      "grad_norm": 1.2232533693313599,
+      "learning_rate": 1.5220059617745046e-05,
+      "loss": 0.5993,
+      "step": 5300
+    },
+    {
+      "epoch": 12.018120045300114,
+      "eval_loss": 0.8122690916061401,
+      "eval_runtime": 218.3894,
+      "eval_samples_per_second": 7.184,
+      "eval_steps_per_second": 0.902,
+      "step": 5300
+    },
+    {
+      "epoch": 12.13137032842582,
+      "grad_norm": 1.1197330951690674,
+      "learning_rate": 1.3466596528143083e-05,
+      "loss": 0.552,
+      "step": 5350
+    },
+    {
+      "epoch": 12.244620611551529,
+      "grad_norm": 1.038383960723877,
+      "learning_rate": 1.171313343854112e-05,
+      "loss": 0.5461,
+      "step": 5400
+    },
+    {
+      "epoch": 12.244620611551529,
+      "eval_loss": 0.810990571975708,
+      "eval_runtime": 218.3359,
+      "eval_samples_per_second": 7.186,
+      "eval_steps_per_second": 0.902,
+      "step": 5400
+    },
+    {
+      "epoch": 12.357870894677237,
+      "grad_norm": 1.2155468463897705,
+      "learning_rate": 9.959670348939155e-06,
+      "loss": 0.5487,
+      "step": 5450
+    },
+    {
+      "epoch": 12.471121177802944,
+      "grad_norm": 1.0609550476074219,
+      "learning_rate": 8.20620725933719e-06,
+      "loss": 0.5524,
+      "step": 5500
+    },
+    {
+      "epoch": 12.471121177802944,
+      "eval_loss": 0.8065800070762634,
+      "eval_runtime": 218.3379,
+      "eval_samples_per_second": 7.186,
+      "eval_steps_per_second": 0.902,
+      "step": 5500
+    },
+    {
+      "epoch": 12.584371460928653,
+      "grad_norm": 1.1328603029251099,
+      "learning_rate": 6.452744169735227e-06,
+      "loss": 0.5437,
+      "step": 5550
+    },
+    {
+      "epoch": 12.69762174405436,
+      "grad_norm": 1.0544012784957886,
+      "learning_rate": 4.699281080133264e-06,
+      "loss": 0.5521,
+      "step": 5600
+    },
+    {
+      "epoch": 12.69762174405436,
+      "eval_loss": 0.8028028607368469,
+      "eval_runtime": 218.3014,
+      "eval_samples_per_second": 7.187,
+      "eval_steps_per_second": 0.902,
+      "step": 5600
+    },
+    {
+      "epoch": 12.810872027180068,
+      "grad_norm": 1.1334656476974487,
+      "learning_rate": 2.9458179905312994e-06,
+      "loss": 0.5537,
+      "step": 5650
+    },
+    {
+      "epoch": 12.924122310305776,
+      "grad_norm": 1.133388638496399,
+      "learning_rate": 1.1923549009293354e-06,
+      "loss": 0.5502,
+      "step": 5700
+    },
+    {
+      "epoch": 12.924122310305776,
+      "eval_loss": 0.801500141620636,
+      "eval_runtime": 218.1671,
+      "eval_samples_per_second": 7.192,
+      "eval_steps_per_second": 0.903,
+      "step": 5700
+    },
+    {
+      "epoch": 13.03850509626274,
+      "grad_norm": 1.093996524810791,
+      "learning_rate": 2.6302201974183753e-05,
+      "loss": 0.5348,
+      "step": 5750
+    },
+    {
+      "epoch": 13.15175537938845,
+      "grad_norm": 1.1750720739364624,
+      "learning_rate": 2.478359908883827e-05,
+      "loss": 0.5407,
+      "step": 5800
+    },
+    {
+      "epoch": 13.15175537938845,
+      "eval_loss": 0.8037387728691101,
+      "eval_runtime": 219.5954,
+      "eval_samples_per_second": 7.145,
+      "eval_steps_per_second": 0.897,
+      "step": 5800
+    },
+    {
+      "epoch": 13.265005662514156,
+      "grad_norm": 1.3370305299758911,
+      "learning_rate": 2.3264996203492785e-05,
+      "loss": 0.5427,
+      "step": 5850
+    },
+    {
+      "epoch": 13.378255945639864,
+      "grad_norm": 1.361132025718689,
+      "learning_rate": 2.1746393318147306e-05,
+      "loss": 0.5587,
+      "step": 5900
+    },
+    {
+      "epoch": 13.378255945639864,
+      "eval_loss": 0.7990919351577759,
+      "eval_runtime": 219.6972,
+      "eval_samples_per_second": 7.142,
+      "eval_steps_per_second": 0.897,
+      "step": 5900
+    },
+    {
+      "epoch": 13.491506228765571,
+      "grad_norm": 1.2097536325454712,
+      "learning_rate": 2.0227790432801824e-05,
+      "loss": 0.5378,
+      "step": 5950
+    },
+    {
+      "epoch": 13.60475651189128,
+      "grad_norm": 2.1065151691436768,
+      "learning_rate": 1.8709187547456342e-05,
+      "loss": 0.538,
+      "step": 6000
+    },
+    {
+      "epoch": 13.60475651189128,
+      "eval_loss": 0.7955650091171265,
+      "eval_runtime": 219.6995,
+      "eval_samples_per_second": 7.142,
+      "eval_steps_per_second": 0.897,
+      "step": 6000
+    },
+    {
+      "epoch": 13.718006795016988,
+      "grad_norm": 1.3054521083831787,
+      "learning_rate": 1.719058466211086e-05,
+      "loss": 0.5319,
+      "step": 6050
+    },
+    {
+      "epoch": 13.831257078142695,
+      "grad_norm": 1.2116392850875854,
+      "learning_rate": 1.5671981776765377e-05,
+      "loss": 0.5382,
+      "step": 6100
+    },
+    {
+      "epoch": 13.831257078142695,
+      "eval_loss": 0.7880010008811951,
+      "eval_runtime": 219.8172,
+      "eval_samples_per_second": 7.138,
+      "eval_steps_per_second": 0.896,
+      "step": 6100
+    },
+    {
+      "epoch": 13.944507361268403,
+      "grad_norm": 1.437024474143982,
+      "learning_rate": 1.4153378891419893e-05,
+      "loss": 0.5361,
+      "step": 6150
+    },
+    {
+      "epoch": 14.058890147225368,
+      "grad_norm": 1.1516680717468262,
+      "learning_rate": 1.2665148063781321e-05,
+      "loss": 0.5453,
+      "step": 6200
+    },
+    {
+      "epoch": 14.058890147225368,
+      "eval_loss": 0.783509373664856,
+      "eval_runtime": 219.7823,
+      "eval_samples_per_second": 7.139,
+      "eval_steps_per_second": 0.896,
+      "step": 6200
+    },
+    {
+      "epoch": 14.172140430351076,
+      "grad_norm": 1.182915210723877,
+      "learning_rate": 1.114654517843584e-05,
+      "loss": 0.5085,
+      "step": 6250
+    },
+    {
+      "epoch": 14.285390713476783,
+      "grad_norm": 1.225037693977356,
+      "learning_rate": 9.627942293090357e-06,
+      "loss": 0.5112,
+      "step": 6300
+    },
+    {
+      "epoch": 14.285390713476783,
+      "eval_loss": 0.7822558283805847,
+      "eval_runtime": 219.842,
+      "eval_samples_per_second": 7.137,
+      "eval_steps_per_second": 0.896,
+      "step": 6300
+    },
+    {
+      "epoch": 14.398640996602492,
+      "grad_norm": 1.1970784664154053,
+      "learning_rate": 8.109339407744875e-06,
+      "loss": 0.5079,
+      "step": 6350
+    },
+    {
+      "epoch": 14.5118912797282,
+      "grad_norm": 1.1259725093841553,
+      "learning_rate": 6.590736522399393e-06,
+      "loss": 0.5129,
+      "step": 6400
+    },
+    {
+      "epoch": 14.5118912797282,
+      "eval_loss": 0.7796412110328674,
+      "eval_runtime": 219.8188,
+      "eval_samples_per_second": 7.138,
+      "eval_steps_per_second": 0.896,
+      "step": 6400
+    },
+    {
+      "epoch": 14.625141562853907,
+      "grad_norm": 1.236473798751831,
+      "learning_rate": 5.072133637053911e-06,
+      "loss": 0.5055,
+      "step": 6450
+    },
+    {
+      "epoch": 14.738391845979615,
+      "grad_norm": 1.1682021617889404,
+      "learning_rate": 3.553530751708428e-06,
+      "loss": 0.5074,
+      "step": 6500
+    },
+    {
+      "epoch": 14.738391845979615,
+      "eval_loss": 0.7759413719177246,
+      "eval_runtime": 219.6677,
+      "eval_samples_per_second": 7.143,
+      "eval_steps_per_second": 0.897,
+      "step": 6500
+    },
+    {
+      "epoch": 14.851642129105322,
+      "grad_norm": 1.190508484840393,
+      "learning_rate": 2.0349278663629463e-06,
+      "loss": 0.5103,
+      "step": 6550
+    },
+    {
+      "epoch": 14.96489241223103,
+      "grad_norm": 1.18021559715271,
+      "learning_rate": 5.163249810174639e-07,
+      "loss": 0.5011,
+      "step": 6600
+    },
+    {
+      "epoch": 14.96489241223103,
+      "eval_loss": 0.7753218412399292,
+      "eval_runtime": 219.7467,
+      "eval_samples_per_second": 7.14,
+      "eval_steps_per_second": 0.896,
+      "step": 6600
+    },
+    {
+      "epoch": 15.079275198187995,
+      "grad_norm": 1.3528636693954468,
+      "learning_rate": 3.262518968133536e-05,
+      "loss": 0.5176,
+      "step": 6650
+    },
+    {
+      "epoch": 15.192525481313703,
+      "grad_norm": 1.3476513624191284,
+      "learning_rate": 3.1360647445624685e-05,
+      "loss": 0.5032,
+      "step": 6700
+    },
+    {
+      "epoch": 15.192525481313703,
+      "eval_loss": 0.7792025804519653,
+      "eval_runtime": 219.73,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 0.897,
+      "step": 6700
+    },
+    {
+      "epoch": 15.305775764439412,
+      "grad_norm": 1.3222737312316895,
+      "learning_rate": 3.009610520991401e-05,
+      "loss": 0.5141,
+      "step": 6750
+    },
+    {
+      "epoch": 15.419026047565119,
+      "grad_norm": 1.3413212299346924,
+      "learning_rate": 2.883156297420334e-05,
+      "loss": 0.5071,
+      "step": 6800
+    },
+    {
+      "epoch": 15.419026047565119,
+      "eval_loss": 0.7755314707756042,
+      "eval_runtime": 219.6961,
+      "eval_samples_per_second": 7.142,
+      "eval_steps_per_second": 0.897,
+      "step": 6800
+    },
+    {
+      "epoch": 15.532276330690827,
+      "grad_norm": 1.4169390201568604,
+      "learning_rate": 2.7567020738492665e-05,
+      "loss": 0.5066,
+      "step": 6850
+    },
+    {
+      "epoch": 15.645526613816534,
+      "grad_norm": 1.499665379524231,
+      "learning_rate": 2.6302478502781997e-05,
+      "loss": 0.5098,
+      "step": 6900
+    },
+    {
+      "epoch": 15.645526613816534,
+      "eval_loss": 0.7675374150276184,
+      "eval_runtime": 219.7136,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 0.897,
+      "step": 6900
+    },
+    {
+      "epoch": 15.758776896942242,
+      "grad_norm": 1.408177137374878,
+      "learning_rate": 2.5037936267071323e-05,
+      "loss": 0.5074,
+      "step": 6950
+    },
+    {
+      "epoch": 15.87202718006795,
+      "grad_norm": 1.5971038341522217,
+      "learning_rate": 2.3773394031360648e-05,
+      "loss": 0.4994,
+      "step": 7000
+    },
+    {
+      "epoch": 15.87202718006795,
+      "eval_loss": 0.7616310715675354,
+      "eval_runtime": 219.6635,
+      "eval_samples_per_second": 7.143,
+      "eval_steps_per_second": 0.897,
+      "step": 7000
+    },
+    {
+      "epoch": 15.985277463193658,
+      "grad_norm": 1.4312022924423218,
+      "learning_rate": 2.2508851795649977e-05,
+      "loss": 0.5081,
+      "step": 7050
+    },
+    {
+      "epoch": 16.099660249150624,
+      "grad_norm": 1.4189964532852173,
+      "learning_rate": 2.1244309559939302e-05,
+      "loss": 0.4831,
+      "step": 7100
+    },
+    {
+      "epoch": 16.099660249150624,
+      "eval_loss": 0.758693277835846,
+      "eval_runtime": 219.6153,
+      "eval_samples_per_second": 7.144,
+      "eval_steps_per_second": 0.897,
+      "step": 7100
+    },
+    {
+      "epoch": 16.212910532276332,
+      "grad_norm": 1.429587960243225,
+      "learning_rate": 1.9979767324228628e-05,
+      "loss": 0.4677,
+      "step": 7150
+    },
+    {
+      "epoch": 16.326160815402037,
+      "grad_norm": 1.5730829238891602,
+      "learning_rate": 1.8715225088517957e-05,
+      "loss": 0.4744,
+      "step": 7200
+    },
+    {
+      "epoch": 16.326160815402037,
+      "eval_loss": 0.7522332668304443,
+      "eval_runtime": 219.6797,
+      "eval_samples_per_second": 7.142,
+      "eval_steps_per_second": 0.897,
+      "step": 7200
+    },
+    {
+      "epoch": 16.439411098527746,
+      "grad_norm": 1.3818005323410034,
+      "learning_rate": 1.7450682852807286e-05,
+      "loss": 0.4821,
+      "step": 7250
+    },
+    {
+      "epoch": 16.552661381653454,
+      "grad_norm": 1.3803259134292603,
+      "learning_rate": 1.618614061709661e-05,
+      "loss": 0.4839,
+      "step": 7300
+    },
+    {
+      "epoch": 16.552661381653454,
+      "eval_loss": 0.7453923225402832,
+      "eval_runtime": 219.5972,
+      "eval_samples_per_second": 7.145,
+      "eval_steps_per_second": 0.897,
+      "step": 7300
+    },
+    {
+      "epoch": 16.665911664779163,
+      "grad_norm": 1.4981536865234375,
+      "learning_rate": 1.492159838138594e-05,
+      "loss": 0.468,
+      "step": 7350
+    },
+    {
+      "epoch": 16.77916194790487,
+      "grad_norm": 1.3549158573150635,
+      "learning_rate": 1.3657056145675265e-05,
+      "loss": 0.461,
+      "step": 7400
+    },
+    {
+      "epoch": 16.77916194790487,
+      "eval_loss": 0.7414634823799133,
+      "eval_runtime": 219.6011,
+      "eval_samples_per_second": 7.145,
+      "eval_steps_per_second": 0.897,
+      "step": 7400
+    },
+    {
+      "epoch": 16.892412231030576,
+      "grad_norm": 1.4302562475204468,
+      "learning_rate": 1.2392513909964594e-05,
+      "loss": 0.477,
+      "step": 7450
+    },
+    {
+      "epoch": 17.006795016987542,
+      "grad_norm": 1.2383838891983032,
+      "learning_rate": 1.112797167425392e-05,
+      "loss": 0.4667,
+      "step": 7500
+    },
+    {
+      "epoch": 17.006795016987542,
+      "eval_loss": 0.7361006140708923,
+      "eval_runtime": 219.5894,
+      "eval_samples_per_second": 7.145,
+      "eval_steps_per_second": 0.897,
+      "step": 7500
+    },
+    {
+      "epoch": 17.12004530011325,
+      "grad_norm": 1.2482600212097168,
+      "learning_rate": 9.863429438543249e-06,
+      "loss": 0.4463,
+      "step": 7550
+    },
+    {
+      "epoch": 17.23329558323896,
+      "grad_norm": 1.264907956123352,
+      "learning_rate": 8.598887202832576e-06,
+      "loss": 0.4479,
+      "step": 7600
+    },
+    {
+      "epoch": 17.23329558323896,
+      "eval_loss": 0.7333863973617554,
+      "eval_runtime": 219.7057,
+      "eval_samples_per_second": 7.141,
+      "eval_steps_per_second": 0.897,
+      "step": 7600
+    },
+    {
+      "epoch": 17.346545866364664,
+      "grad_norm": 1.2122907638549805,
+      "learning_rate": 7.334344967121902e-06,
+      "loss": 0.4535,
+      "step": 7650
+    },
+    {
+      "epoch": 17.459796149490373,
+      "grad_norm": 1.176712989807129,
+      "learning_rate": 6.06980273141123e-06,
+      "loss": 0.4404,
+      "step": 7700
+    },
+    {
+      "epoch": 17.459796149490373,
+      "eval_loss": 0.7308885455131531,
+      "eval_runtime": 219.6198,
+      "eval_samples_per_second": 7.144,
+      "eval_steps_per_second": 0.897,
+      "step": 7700
+    },
+    {
+      "epoch": 17.57304643261608,
+      "grad_norm": 1.264377474784851,
+      "learning_rate": 4.805260495700556e-06,
+      "loss": 0.4425,
+      "step": 7750
+    },
+    {
+      "epoch": 17.68629671574179,
+      "grad_norm": 1.3030773401260376,
+      "learning_rate": 3.5407182599898835e-06,
+      "loss": 0.4393,
+      "step": 7800
+    },
+    {
+      "epoch": 17.68629671574179,
+      "eval_loss": 0.7286545634269714,
+      "eval_runtime": 219.6474,
+      "eval_samples_per_second": 7.143,
+      "eval_steps_per_second": 0.897,
+      "step": 7800
+    },
+    {
+      "epoch": 17.7995469988675,
+      "grad_norm": 1.362890601158142,
+      "learning_rate": 2.276176024279211e-06,
+      "loss": 0.4425,
+      "step": 7850
+    },
+    {
+      "epoch": 17.912797281993203,
+      "grad_norm": 1.2483875751495361,
+      "learning_rate": 1.0116337885685382e-06,
+      "loss": 0.4434,
+      "step": 7900
+    },
+    {
+      "epoch": 17.912797281993203,
+      "eval_loss": 0.7274926900863647,
+      "eval_runtime": 219.7356,
+      "eval_samples_per_second": 7.14,
+      "eval_steps_per_second": 0.897,
+      "step": 7900
+    },
+    {
+      "epoch": 18.02718006795017,
+      "grad_norm": 1.2370803356170654,
+      "learning_rate": 1.9840728100113766e-05,
+      "loss": 0.4474,
+      "step": 7950
+    },
+    {
+      "epoch": 18.140430351075878,
+      "grad_norm": 1.454135537147522,
+      "learning_rate": 1.8703071672354948e-05,
+      "loss": 0.4294,
+      "step": 8000
+    },
+    {
+      "epoch": 18.140430351075878,
+      "eval_loss": 0.7317793965339661,
+      "eval_runtime": 216.9455,
+      "eval_samples_per_second": 7.232,
+      "eval_steps_per_second": 0.908,
+      "step": 8000
+    },
+    {
+      "epoch": 18.253680634201586,
+      "grad_norm": 1.4219353199005127,
+      "learning_rate": 1.7565415244596133e-05,
+      "loss": 0.4362,
+      "step": 8050
+    },
+    {
+      "epoch": 18.366930917327295,
+      "grad_norm": 1.4157588481903076,
+      "learning_rate": 1.6427758816837314e-05,
+      "loss": 0.4369,
+      "step": 8100
+    },
+    {
+      "epoch": 18.366930917327295,
+      "eval_loss": 0.7285795211791992,
+      "eval_runtime": 217.2426,
+      "eval_samples_per_second": 7.222,
+      "eval_steps_per_second": 0.907,
+      "step": 8100
+    },
+    {
+      "epoch": 18.480181200453,
+      "grad_norm": 1.5712941884994507,
+      "learning_rate": 1.52901023890785e-05,
+      "loss": 0.4393,
+      "step": 8150
+    },
+    {
+      "epoch": 18.59343148357871,
+      "grad_norm": 1.3149316310882568,
+      "learning_rate": 1.4152445961319682e-05,
+      "loss": 0.4377,
+      "step": 8200
+    },
+    {
+      "epoch": 18.59343148357871,
+      "eval_loss": 0.7221394181251526,
+      "eval_runtime": 217.271,
+      "eval_samples_per_second": 7.221,
+      "eval_steps_per_second": 0.907,
+      "step": 8200
+    },
+    {
+      "epoch": 18.706681766704417,
+      "grad_norm": 1.4053345918655396,
+      "learning_rate": 1.3014789533560864e-05,
+      "loss": 0.4395,
+      "step": 8250
+    },
+    {
+      "epoch": 18.819932049830125,
+      "grad_norm": 1.4755219221115112,
+      "learning_rate": 1.1877133105802047e-05,
+      "loss": 0.4464,
+      "step": 8300
+    },
+    {
+      "epoch": 18.819932049830125,
+      "eval_loss": 0.7166544795036316,
+      "eval_runtime": 217.3739,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.906,
+      "step": 8300
+    },
+    {
+      "epoch": 18.933182332955834,
+      "grad_norm": 1.3762329816818237,
+      "learning_rate": 1.073947667804323e-05,
+      "loss": 0.4482,
+      "step": 8350
+    },
+    {
+      "epoch": 19.047565118912797,
+      "grad_norm": 1.1810795068740845,
+      "learning_rate": 9.62457337883959e-06,
+      "loss": 0.4264,
+      "step": 8400
+    },
+    {
+      "epoch": 19.047565118912797,
+      "eval_loss": 0.7138365507125854,
+      "eval_runtime": 217.4069,
+      "eval_samples_per_second": 7.217,
+      "eval_steps_per_second": 0.906,
+      "step": 8400
+    },
+    {
+      "epoch": 19.160815402038505,
+      "grad_norm": 1.51250422000885,
+      "learning_rate": 8.486916951080774e-06,
+      "loss": 0.4197,
+      "step": 8450
+    },
+    {
+      "epoch": 19.274065685164214,
+      "grad_norm": 1.3608779907226562,
+      "learning_rate": 7.349260523321957e-06,
+      "loss": 0.4149,
+      "step": 8500
+    },
+    {
+      "epoch": 19.274065685164214,
+      "eval_loss": 0.7112516760826111,
+      "eval_runtime": 217.3073,
+      "eval_samples_per_second": 7.22,
+      "eval_steps_per_second": 0.907,
+      "step": 8500
+    },
+    {
+      "epoch": 19.387315968289922,
+      "grad_norm": 1.3459504842758179,
+      "learning_rate": 6.21160409556314e-06,
+      "loss": 0.4151,
+      "step": 8550
+    },
+    {
+      "epoch": 19.500566251415627,
+      "grad_norm": 1.270430326461792,
+      "learning_rate": 5.073947667804323e-06,
+      "loss": 0.4107,
+      "step": 8600
+    },
+    {
+      "epoch": 19.500566251415627,
+      "eval_loss": 0.7087224721908569,
+      "eval_runtime": 217.4347,
+      "eval_samples_per_second": 7.216,
+      "eval_steps_per_second": 0.906,
+      "step": 8600
+    },
+    {
+      "epoch": 19.613816534541336,
+      "grad_norm": 1.147330641746521,
+      "learning_rate": 3.936291240045506e-06,
+      "loss": 0.4204,
+      "step": 8650
+    },
+    {
+      "epoch": 19.727066817667044,
+      "grad_norm": 1.3679783344268799,
+      "learning_rate": 2.8213879408418657e-06,
+      "loss": 0.4241,
+      "step": 8700
+    },
+    {
+      "epoch": 19.727066817667044,
+      "eval_loss": 0.705489456653595,
+      "eval_runtime": 217.5656,
+      "eval_samples_per_second": 7.212,
+      "eval_steps_per_second": 0.905,
+      "step": 8700
+    },
+    {
+      "epoch": 19.840317100792753,
+      "grad_norm": 1.2595313787460327,
+      "learning_rate": 1.6837315130830492e-06,
+      "loss": 0.4157,
+      "step": 8750
+    },
+    {
+      "epoch": 19.95356738391846,
+      "grad_norm": 1.3279147148132324,
+      "learning_rate": 5.460750853242321e-07,
+      "loss": 0.4127,
+      "step": 8800
+    },
+    {
+      "epoch": 19.95356738391846,
+      "eval_loss": 0.7047748565673828,
+      "eval_runtime": 217.3024,
+      "eval_samples_per_second": 7.22,
+      "eval_steps_per_second": 0.907,
+      "step": 8800
+    },
+    {
+      "epoch": 20.067950169875424,
+      "grad_norm": 1.4412195682525635,
+      "learning_rate": 2.5650153268070802e-05,
+      "loss": 0.4066,
+      "step": 8850
+    },
+    {
+      "epoch": 20.181200453001132,
+      "grad_norm": 1.591495156288147,
+      "learning_rate": 2.466132700484525e-05,
+      "loss": 0.4107,
+      "step": 8900
+    },
+    {
+      "epoch": 20.181200453001132,
+      "eval_loss": 0.7136498093605042,
+      "eval_runtime": 217.2853,
+      "eval_samples_per_second": 7.221,
+      "eval_steps_per_second": 0.907,
+      "step": 8900
+    },
+    {
+      "epoch": 20.29445073612684,
+      "grad_norm": 1.5843544006347656,
+      "learning_rate": 2.3672500741619698e-05,
+      "loss": 0.4249,
+      "step": 8950
+    },
+    {
+      "epoch": 20.40770101925255,
+      "grad_norm": 1.7842884063720703,
+      "learning_rate": 2.268367447839415e-05,
+      "loss": 0.4292,
+      "step": 9000
+    },
+    {
+      "epoch": 20.40770101925255,
+      "eval_loss": 0.7056994438171387,
+      "eval_runtime": 217.247,
+      "eval_samples_per_second": 7.222,
+      "eval_steps_per_second": 0.907,
+      "step": 9000
+    },
+    {
+      "epoch": 20.520951302378258,
+      "grad_norm": 1.8154791593551636,
+      "learning_rate": 2.1694848215168594e-05,
+      "loss": 0.4171,
+      "step": 9050
+    },
+    {
+      "epoch": 20.634201585503963,
+      "grad_norm": 1.810947060585022,
+      "learning_rate": 2.0706021951943045e-05,
+      "loss": 0.4254,
+      "step": 9100
+    },
+    {
+      "epoch": 20.634201585503963,
+      "eval_loss": 0.7009139060974121,
+      "eval_runtime": 217.3713,
+      "eval_samples_per_second": 7.218,
+      "eval_steps_per_second": 0.906,
+      "step": 9100
+    },
+    {
+      "epoch": 20.74745186862967,
+      "grad_norm": 1.6273292303085327,
+      "learning_rate": 1.9717195688717493e-05,
+      "loss": 0.4182,
+      "step": 9150
+    },
+    {
+      "epoch": 20.86070215175538,
+      "grad_norm": 1.865356206893921,
+      "learning_rate": 1.8728369425491945e-05,
+      "loss": 0.4143,
+      "step": 9200
+    },
+    {
+      "epoch": 20.86070215175538,
+      "eval_loss": 0.6963376402854919,
+      "eval_runtime": 217.269,
+      "eval_samples_per_second": 7.221,
+      "eval_steps_per_second": 0.907,
+      "step": 9200
+    },
+    {
+      "epoch": 20.973952434881088,
+      "grad_norm": 2.093496799468994,
+      "learning_rate": 1.773954316226639e-05,
+      "loss": 0.4116,
+      "step": 9250
+    },
+    {
+      "epoch": 21.08833522083805,
+      "grad_norm": 1.6501940488815308,
+      "learning_rate": 1.6750716899040837e-05,
+      "loss": 0.4071,
+      "step": 9300
+    },
+    {
+      "epoch": 21.08833522083805,
+      "eval_loss": 0.6935945153236389,
+      "eval_runtime": 217.1749,
+      "eval_samples_per_second": 7.225,
+      "eval_steps_per_second": 0.907,
+      "step": 9300
+    },
+    {
+      "epoch": 21.20158550396376,
+      "grad_norm": 1.4257782697677612,
+      "learning_rate": 1.576189063581529e-05,
+      "loss": 0.3964,
+      "step": 9350
+    },
+    {
+      "epoch": 21.314835787089468,
+      "grad_norm": 1.7246989011764526,
+      "learning_rate": 1.4773064372589737e-05,
+      "loss": 0.3856,
+      "step": 9400
+    },
+    {
+      "epoch": 21.314835787089468,
+      "eval_loss": 0.6908048391342163,
+      "eval_runtime": 217.1554,
+      "eval_samples_per_second": 7.225,
+      "eval_steps_per_second": 0.907,
+      "step": 9400
+    },
+    {
+      "epoch": 21.428086070215176,
+      "grad_norm": 1.5051772594451904,
+      "learning_rate": 1.3784238109364186e-05,
+      "loss": 0.3903,
+      "step": 9450
+    },
+    {
+      "epoch": 21.541336353340885,
+      "grad_norm": 1.4209738969802856,
+      "learning_rate": 1.2795411846138633e-05,
+      "loss": 0.3992,
+      "step": 9500
+    },
+    {
+      "epoch": 21.541336353340885,
+      "eval_loss": 0.6845880746841431,
+      "eval_runtime": 217.0726,
+      "eval_samples_per_second": 7.228,
+      "eval_steps_per_second": 0.908,
+      "step": 9500
+    },
+    {
+      "epoch": 21.65458663646659,
+      "grad_norm": 1.4793322086334229,
+      "learning_rate": 1.1806585582913082e-05,
+      "loss": 0.392,
+      "step": 9550
+    },
+    {
+      "epoch": 21.7678369195923,
+      "grad_norm": 1.5042359828948975,
+      "learning_rate": 1.0817759319687532e-05,
+      "loss": 0.3833,
+      "step": 9600
+    },
+    {
+      "epoch": 21.7678369195923,
+      "eval_loss": 0.6798712611198425,
+      "eval_runtime": 217.2033,
+      "eval_samples_per_second": 7.224,
+      "eval_steps_per_second": 0.907,
+      "step": 9600
+    },
+    {
+      "epoch": 21.881087202718007,
+      "grad_norm": 1.4992612600326538,
+      "learning_rate": 9.82893305646198e-06,
+      "loss": 0.3912,
+      "step": 9650
+    },
+    {
+      "epoch": 21.994337485843715,
+      "grad_norm": 1.4592713117599487,
+      "learning_rate": 8.840106793236428e-06,
+      "loss": 0.3931,
+      "step": 9700
+    },
+    {
+      "epoch": 21.994337485843715,
+      "eval_loss": 0.6735964417457581,
+      "eval_runtime": 217.2254,
+      "eval_samples_per_second": 7.223,
+      "eval_steps_per_second": 0.907,
+      "step": 9700
+    },
+    {
+      "epoch": 22.108720271800678,
+      "grad_norm": 1.3605159521102905,
+      "learning_rate": 7.851280530010878e-06,
+      "loss": 0.378,
+      "step": 9750
+    },
+    {
+      "epoch": 22.221970554926386,
+      "grad_norm": 1.4335530996322632,
+      "learning_rate": 6.862454266785326e-06,
+      "loss": 0.379,
+      "step": 9800
+    },
+    {
+      "epoch": 22.221970554926386,
+      "eval_loss": 0.6728909015655518,
+      "eval_runtime": 217.1793,
+      "eval_samples_per_second": 7.224,
+      "eval_steps_per_second": 0.907,
+      "step": 9800
+    },
+    {
+      "epoch": 22.335220838052095,
+      "grad_norm": 1.2988905906677246,
+      "learning_rate": 5.873628003559775e-06,
+      "loss": 0.371,
+      "step": 9850
+    },
+    {
+      "epoch": 22.448471121177803,
+      "grad_norm": 1.407586693763733,
+      "learning_rate": 4.884801740334224e-06,
+      "loss": 0.3719,
+      "step": 9900
+    },
+    {
+      "epoch": 22.448471121177803,
+      "eval_loss": 0.670095682144165,
+      "eval_runtime": 217.2529,
+      "eval_samples_per_second": 7.222,
+      "eval_steps_per_second": 0.907,
+      "step": 9900
+    },
+    {
+      "epoch": 22.561721404303512,
+      "grad_norm": 1.5192447900772095,
+      "learning_rate": 1.9627103228740338e-05,
+      "loss": 0.3763,
+      "step": 9950
+    },
+    {
+      "epoch": 22.674971687429217,
+      "grad_norm": 1.6283540725708008,
+      "learning_rate": 1.8717598908594817e-05,
+      "loss": 0.3834,
+      "step": 10000
+    },
+    {
+      "epoch": 22.674971687429217,
+      "eval_loss": 0.6722336411476135,
+      "eval_runtime": 219.0452,
+      "eval_samples_per_second": 7.163,
+      "eval_steps_per_second": 0.899,
+      "step": 10000
+    },
+    {
+      "epoch": 22.788221970554925,
+      "grad_norm": 1.8841089010238647,
+      "learning_rate": 1.7808094588449296e-05,
+      "loss": 0.3766,
+      "step": 10050
+    },
+    {
+      "epoch": 22.901472253680634,
+      "grad_norm": 1.6647872924804688,
+      "learning_rate": 1.6898590268303775e-05,
+      "loss": 0.379,
+      "step": 10100
+    },
+    {
+      "epoch": 22.901472253680634,
+      "eval_loss": 0.6667923331260681,
+      "eval_runtime": 219.0896,
+      "eval_samples_per_second": 7.161,
+      "eval_steps_per_second": 0.899,
+      "step": 10100
+    },
+    {
+      "epoch": 23.0158550396376,
+      "grad_norm": 1.56221604347229,
+      "learning_rate": 1.5989085948158254e-05,
+      "loss": 0.3724,
+      "step": 10150
+    },
+    {
+      "epoch": 23.12910532276331,
+      "grad_norm": 1.741861343383789,
+      "learning_rate": 1.5079581628012735e-05,
+      "loss": 0.3648,
+      "step": 10200
+    },
+    {
+      "epoch": 23.12910532276331,
+      "eval_loss": 0.6666680574417114,
+      "eval_runtime": 219.1233,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 10200
+    },
+    {
+      "epoch": 23.242355605889014,
+      "grad_norm": 1.4197698831558228,
+      "learning_rate": 1.4170077307867214e-05,
+      "loss": 0.3622,
+      "step": 10250
+    },
+    {
+      "epoch": 23.355605889014722,
+      "grad_norm": 1.5689094066619873,
+      "learning_rate": 1.3260572987721692e-05,
+      "loss": 0.3633,
+      "step": 10300
+    },
+    {
+      "epoch": 23.355605889014722,
+      "eval_loss": 0.6614246368408203,
+      "eval_runtime": 219.1161,
+      "eval_samples_per_second": 7.161,
+      "eval_steps_per_second": 0.899,
+      "step": 10300
+    },
+    {
+      "epoch": 23.46885617214043,
+      "grad_norm": 1.73819899559021,
+      "learning_rate": 1.2351068667576171e-05,
+      "loss": 0.3665,
+      "step": 10350
+    },
+    {
+      "epoch": 23.58210645526614,
+      "grad_norm": 1.470841884613037,
+      "learning_rate": 1.1441564347430652e-05,
+      "loss": 0.3594,
+      "step": 10400
+    },
+    {
+      "epoch": 23.58210645526614,
+      "eval_loss": 0.6564630270004272,
+      "eval_runtime": 219.1222,
+      "eval_samples_per_second": 7.16,
+      "eval_steps_per_second": 0.899,
+      "step": 10400
+    },
+    {
+      "epoch": 23.695356738391848,
+      "grad_norm": 1.4712560176849365,
+      "learning_rate": 1.0532060027285131e-05,
+      "loss": 0.3567,
+      "step": 10450
+    },
+    {
+      "epoch": 23.808607021517552,
+      "grad_norm": 1.3822436332702637,
+      "learning_rate": 9.622555707139608e-06,
+      "loss": 0.3655,
+      "step": 10500
+    },
+    {
+      "epoch": 23.808607021517552,
+      "eval_loss": 0.6519103050231934,
+      "eval_runtime": 219.1979,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 10500
+    },
+    {
+      "epoch": 23.92185730464326,
+      "grad_norm": 1.49004065990448,
+      "learning_rate": 8.713051386994087e-06,
+      "loss": 0.356,
+      "step": 10550
+    },
+    {
+      "epoch": 24.036240090600227,
+      "grad_norm": 1.3333971500396729,
+      "learning_rate": 7.803547066848568e-06,
+      "loss": 0.3609,
+      "step": 10600
+    },
+    {
+      "epoch": 24.036240090600227,
+      "eval_loss": 0.6471272706985474,
+      "eval_runtime": 219.2457,
+      "eval_samples_per_second": 7.156,
+      "eval_steps_per_second": 0.899,
+      "step": 10600
+    },
+    {
+      "epoch": 24.149490373725936,
+      "grad_norm": 1.3648090362548828,
+      "learning_rate": 6.894042746703047e-06,
+      "loss": 0.3445,
+      "step": 10650
+    },
+    {
+      "epoch": 24.26274065685164,
+      "grad_norm": 1.2211579084396362,
+      "learning_rate": 5.984538426557527e-06,
+      "loss": 0.3438,
+      "step": 10700
+    },
+    {
+      "epoch": 24.26274065685164,
+      "eval_loss": 0.6461014151573181,
+      "eval_runtime": 219.1852,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 10700
+    },
+    {
+      "epoch": 24.37599093997735,
+      "grad_norm": 1.332571029663086,
+      "learning_rate": 5.075034106412006e-06,
+      "loss": 0.3378,
+      "step": 10750
+    },
+    {
+      "epoch": 24.489241223103058,
+      "grad_norm": 1.263708233833313,
+      "learning_rate": 4.1655297862664855e-06,
+      "loss": 0.3457,
+      "step": 10800
+    },
+    {
+      "epoch": 24.489241223103058,
+      "eval_loss": 0.6429575681686401,
+      "eval_runtime": 219.1956,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 10800
+    },
+    {
+      "epoch": 24.602491506228766,
+      "grad_norm": 1.2414239645004272,
+      "learning_rate": 3.256025466120964e-06,
+      "loss": 0.3478,
+      "step": 10850
+    },
+    {
+      "epoch": 24.715741789354475,
+      "grad_norm": 1.183813214302063,
+      "learning_rate": 2.3465211459754434e-06,
+      "loss": 0.3413,
+      "step": 10900
+    },
+    {
+      "epoch": 24.715741789354475,
+      "eval_loss": 0.6409078240394592,
+      "eval_runtime": 219.161,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 10900
+    },
+    {
+      "epoch": 24.82899207248018,
+      "grad_norm": 1.3728307485580444,
+      "learning_rate": 1.4370168258299228e-06,
+      "loss": 0.3453,
+      "step": 10950
+    },
+    {
+      "epoch": 24.942242355605888,
+      "grad_norm": 1.182039499282837,
+      "learning_rate": 5.275125056844021e-07,
+      "loss": 0.3439,
+      "step": 11000
+    },
+    {
+      "epoch": 24.942242355605888,
+      "eval_loss": 0.6399772763252258,
+      "eval_runtime": 219.2001,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 11000
+    },
+    {
+      "epoch": 25.056625141562854,
+      "grad_norm": 1.50559401512146,
+      "learning_rate": 1.4498610760293005e-05,
+      "loss": 0.3502,
+      "step": 11050
+    },
+    {
+      "epoch": 25.169875424688563,
+      "grad_norm": 1.501145839691162,
+      "learning_rate": 1.3656647301507115e-05,
+      "loss": 0.3373,
+      "step": 11100
+    },
+    {
+      "epoch": 25.169875424688563,
+      "eval_loss": 0.6438981294631958,
+      "eval_runtime": 219.2088,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 11100
+    },
+    {
+      "epoch": 25.28312570781427,
+      "grad_norm": 2.4662117958068848,
+      "learning_rate": 1.2814683842721226e-05,
+      "loss": 0.3419,
+      "step": 11150
+    },
+    {
+      "epoch": 25.396375990939976,
+      "grad_norm": 1.5162239074707031,
+      "learning_rate": 1.1972720383935337e-05,
+      "loss": 0.3452,
+      "step": 11200
+    },
+    {
+      "epoch": 25.396375990939976,
+      "eval_loss": 0.6388878226280212,
+      "eval_runtime": 219.2066,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 11200
+    },
+    {
+      "epoch": 25.509626274065685,
+      "grad_norm": 1.315088152885437,
+      "learning_rate": 1.113075692514945e-05,
+      "loss": 0.3487,
+      "step": 11250
+    },
+    {
+      "epoch": 25.622876557191393,
+      "grad_norm": 1.4352425336837769,
+      "learning_rate": 1.028879346636356e-05,
+      "loss": 0.3386,
+      "step": 11300
+    },
+    {
+      "epoch": 25.622876557191393,
+      "eval_loss": 0.6349427700042725,
+      "eval_runtime": 219.2727,
+      "eval_samples_per_second": 7.155,
+      "eval_steps_per_second": 0.898,
+      "step": 11300
+    },
+    {
+      "epoch": 25.7361268403171,
+      "grad_norm": 1.433242678642273,
+      "learning_rate": 9.446830007577671e-06,
+      "loss": 0.3365,
+      "step": 11350
+    },
+    {
+      "epoch": 25.84937712344281,
+      "grad_norm": 1.343719720840454,
+      "learning_rate": 8.604866548791782e-06,
+      "loss": 0.3409,
+      "step": 11400
+    },
+    {
+      "epoch": 25.84937712344281,
+      "eval_loss": 0.631538987159729,
+      "eval_runtime": 219.1534,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 11400
+    },
+    {
+      "epoch": 25.962627406568515,
+      "grad_norm": 1.496169090270996,
+      "learning_rate": 7.762903090005893e-06,
+      "loss": 0.3316,
+      "step": 11450
+    },
+    {
+      "epoch": 26.07701019252548,
+      "grad_norm": 1.5395649671554565,
+      "learning_rate": 6.920939631220005e-06,
+      "loss": 0.3429,
+      "step": 11500
+    },
+    {
+      "epoch": 26.07701019252548,
+      "eval_loss": 0.6306207180023193,
+      "eval_runtime": 219.1057,
+      "eval_samples_per_second": 7.161,
+      "eval_steps_per_second": 0.899,
+      "step": 11500
+    },
+    {
+      "epoch": 26.19026047565119,
+      "grad_norm": 1.298531413078308,
+      "learning_rate": 6.078976172434116e-06,
+      "loss": 0.3274,
+      "step": 11550
+    },
+    {
+      "epoch": 26.3035107587769,
+      "grad_norm": 1.3206506967544556,
+      "learning_rate": 5.237012713648228e-06,
+      "loss": 0.3281,
+      "step": 11600
+    },
+    {
+      "epoch": 26.3035107587769,
+      "eval_loss": 0.6274815797805786,
+      "eval_runtime": 219.1686,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 11600
+    },
+    {
+      "epoch": 26.416761041902603,
+      "grad_norm": 1.3031998872756958,
+      "learning_rate": 4.395049254862339e-06,
+      "loss": 0.3186,
+      "step": 11650
+    },
+    {
+      "epoch": 26.530011325028312,
+      "grad_norm": 1.232765555381775,
+      "learning_rate": 3.5530857960764503e-06,
+      "loss": 0.324,
+      "step": 11700
+    },
+    {
+      "epoch": 26.530011325028312,
+      "eval_loss": 0.6246664524078369,
+      "eval_runtime": 219.2008,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 11700
+    },
+    {
+      "epoch": 26.64326160815402,
+      "grad_norm": 1.3108420372009277,
+      "learning_rate": 2.7111223372905617e-06,
+      "loss": 0.3265,
+      "step": 11750
+    },
+    {
+      "epoch": 26.75651189127973,
+      "grad_norm": 1.2938895225524902,
+      "learning_rate": 1.8691588785046728e-06,
+      "loss": 0.325,
+      "step": 11800
+    },
+    {
+      "epoch": 26.75651189127973,
+      "eval_loss": 0.6232734322547913,
+      "eval_runtime": 219.1916,
+      "eval_samples_per_second": 7.158,
+      "eval_steps_per_second": 0.899,
+      "step": 11800
+    },
+    {
+      "epoch": 26.869762174405437,
+      "grad_norm": 1.4028679132461548,
+      "learning_rate": 1.0271954197187842e-06,
+      "loss": 0.3177,
+      "step": 11850
+    },
+    {
+      "epoch": 26.983012457531142,
+      "grad_norm": 1.1903717517852783,
+      "learning_rate": 1.8523196093289553e-07,
+      "loss": 0.3282,
+      "step": 11900
+    },
+    {
+      "epoch": 26.983012457531142,
+      "eval_loss": 0.6224809885025024,
+      "eval_runtime": 219.1746,
+      "eval_samples_per_second": 7.159,
+      "eval_steps_per_second": 0.899,
+      "step": 11900
+    },
+    {
+      "epoch": 27.09739524348811,
+      "grad_norm": 1.5629881620407104,
+      "learning_rate": 1.9454545454545457e-05,
+      "loss": 0.322,
+      "step": 11950
+    },
+    {
+      "epoch": 27.210645526613817,
+      "grad_norm": 1.8830535411834717,
+      "learning_rate": 1.86969696969697e-05,
+      "loss": 0.3272,
+      "step": 12000
+    },
+    {
+      "epoch": 27.210645526613817,
+      "eval_loss": 0.6294634342193604,
+      "eval_runtime": 216.3539,
+      "eval_samples_per_second": 7.252,
+      "eval_steps_per_second": 0.911,
+      "step": 12000
+    },
+    {
+      "epoch": 27.323895809739525,
+      "grad_norm": 2.302112340927124,
+      "learning_rate": 1.793939393939394e-05,
+      "loss": 0.3343,
+      "step": 12050
+    },
+    {
+      "epoch": 27.43714609286523,
+      "grad_norm": 1.6443369388580322,
+      "learning_rate": 1.718181818181818e-05,
+      "loss": 0.3331,
+      "step": 12100
+    },
+    {
+      "epoch": 27.43714609286523,
+      "eval_loss": 0.6251102685928345,
+      "eval_runtime": 216.4341,
+      "eval_samples_per_second": 7.249,
+      "eval_steps_per_second": 0.91,
+      "step": 12100
+    },
+    {
+      "epoch": 27.55039637599094,
+      "grad_norm": 1.6903585195541382,
+      "learning_rate": 1.6424242424242424e-05,
+      "loss": 0.3338,
+      "step": 12150
+    },
+    {
+      "epoch": 27.663646659116647,
+      "grad_norm": 1.6333993673324585,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.3293,
+      "step": 12200
+    },
+    {
+      "epoch": 27.663646659116647,
+      "eval_loss": 0.6229289174079895,
+      "eval_runtime": 216.5229,
+      "eval_samples_per_second": 7.246,
+      "eval_steps_per_second": 0.91,
+      "step": 12200
+    },
+    {
+      "epoch": 27.776896942242356,
+      "grad_norm": 1.7001616954803467,
+      "learning_rate": 1.4909090909090908e-05,
+      "loss": 0.3245,
+      "step": 12250
+    },
+    {
+      "epoch": 27.890147225368064,
+      "grad_norm": 1.919396162033081,
+      "learning_rate": 1.4151515151515152e-05,
+      "loss": 0.3284,
+      "step": 12300
+    },
+    {
+      "epoch": 27.890147225368064,
+      "eval_loss": 0.6198203563690186,
+      "eval_runtime": 216.5445,
+      "eval_samples_per_second": 7.246,
+      "eval_steps_per_second": 0.91,
+      "step": 12300
+    },
+    {
+      "epoch": 28.004530011325027,
+      "grad_norm": 2.137244462966919,
+      "learning_rate": 1.3393939393939395e-05,
+      "loss": 0.3363,
+      "step": 12350
+    },
+    {
+      "epoch": 28.117780294450736,
+      "grad_norm": 2.0852112770080566,
+      "learning_rate": 1.2636363636363638e-05,
+      "loss": 0.31,
+      "step": 12400
+    },
+    {
+      "epoch": 28.117780294450736,
+      "eval_loss": 0.6158381104469299,
+      "eval_runtime": 216.498,
+      "eval_samples_per_second": 7.247,
+      "eval_steps_per_second": 0.91,
+      "step": 12400
+    },
+    {
+      "epoch": 28.231030577576444,
+      "grad_norm": 1.7770031690597534,
+      "learning_rate": 1.187878787878788e-05,
+      "loss": 0.3094,
+      "step": 12450
+    },
+    {
+      "epoch": 28.344280860702153,
+      "grad_norm": 2.2683119773864746,
+      "learning_rate": 1.1136363636363637e-05,
+      "loss": 0.3106,
+      "step": 12500
+    },
+    {
+      "epoch": 28.344280860702153,
+      "eval_loss": 0.6127829551696777,
+      "eval_runtime": 216.6692,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.909,
+      "step": 12500
+    },
+    {
+      "epoch": 28.45753114382786,
+      "grad_norm": 2.2971391677856445,
+      "learning_rate": 1.037878787878788e-05,
+      "loss": 0.3123,
+      "step": 12550
+    },
+    {
+      "epoch": 28.570781426953566,
+      "grad_norm": 1.5072888135910034,
+      "learning_rate": 9.62121212121212e-06,
+      "loss": 0.3126,
+      "step": 12600
+    },
+    {
+      "epoch": 28.570781426953566,
+      "eval_loss": 0.6085474491119385,
+      "eval_runtime": 216.6624,
+      "eval_samples_per_second": 7.242,
+      "eval_steps_per_second": 0.909,
+      "step": 12600
+    },
+    {
+      "epoch": 28.684031710079275,
+      "grad_norm": 1.9965884685516357,
+      "learning_rate": 8.863636363636365e-06,
+      "loss": 0.3159,
+      "step": 12650
+    },
+    {
+      "epoch": 28.797281993204983,
+      "grad_norm": 1.9271585941314697,
+      "learning_rate": 8.106060606060606e-06,
+      "loss": 0.317,
+      "step": 12700
+    },
+    {
+      "epoch": 28.797281993204983,
+      "eval_loss": 0.6035783886909485,
+      "eval_runtime": 216.6906,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.909,
+      "step": 12700
+    },
+    {
+      "epoch": 28.91053227633069,
+      "grad_norm": 1.6005176305770874,
+      "learning_rate": 7.3484848484848486e-06,
+      "loss": 0.3063,
+      "step": 12750
+    },
+    {
+      "epoch": 29.024915062287654,
+      "grad_norm": 1.3837414979934692,
+      "learning_rate": 6.59090909090909e-06,
+      "loss": 0.3149,
+      "step": 12800
+    },
+    {
+      "epoch": 29.024915062287654,
+      "eval_loss": 0.6015561819076538,
+      "eval_runtime": 216.6327,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.909,
+      "step": 12800
+    },
+    {
+      "epoch": 29.138165345413363,
+      "grad_norm": 1.3116227388381958,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.2962,
+      "step": 12850
+    },
+    {
+      "epoch": 29.25141562853907,
+      "grad_norm": 1.3354703187942505,
+      "learning_rate": 5.075757575757576e-06,
+      "loss": 0.2966,
+      "step": 12900
+    },
+    {
+      "epoch": 29.25141562853907,
+      "eval_loss": 0.5984891653060913,
+      "eval_runtime": 216.6939,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.909,
+      "step": 12900
+    },
+    {
+      "epoch": 29.36466591166478,
+      "grad_norm": 1.1777273416519165,
+      "learning_rate": 4.3181818181818185e-06,
+      "loss": 0.2989,
+      "step": 12950
+    },
+    {
+      "epoch": 29.477916194790488,
+      "grad_norm": 1.9163764715194702,
+      "learning_rate": 3.5606060606060608e-06,
+      "loss": 0.3063,
+      "step": 13000
+    },
+    {
+      "epoch": 29.477916194790488,
+      "eval_loss": 0.5958673357963562,
+      "eval_runtime": 216.5489,
+      "eval_samples_per_second": 7.245,
+      "eval_steps_per_second": 0.91,
+      "step": 13000
+    },
+    {
+      "epoch": 29.591166477916193,
+      "grad_norm": 1.3537064790725708,
+      "learning_rate": 2.803030303030303e-06,
+      "loss": 0.2951,
+      "step": 13050
+    },
+    {
+      "epoch": 29.7044167610419,
+      "grad_norm": 1.3078798055648804,
+      "learning_rate": 2.0454545454545457e-06,
+      "loss": 0.2963,
+      "step": 13100
+    },
+    {
+      "epoch": 29.7044167610419,
+      "eval_loss": 0.5946142077445984,
+      "eval_runtime": 216.5944,
+      "eval_samples_per_second": 7.244,
+      "eval_steps_per_second": 0.91,
+      "step": 13100
+    },
+    {
+      "epoch": 29.81766704416761,
+      "grad_norm": 1.289014458656311,
+      "learning_rate": 1.287878787878788e-06,
+      "loss": 0.2959,
+      "step": 13150
+    },
+    {
+      "epoch": 29.93091732729332,
+      "grad_norm": 1.3634095191955566,
+      "learning_rate": 5.303030303030304e-07,
+      "loss": 0.2942,
+      "step": 13200
+    },
+    {
+      "epoch": 29.93091732729332,
+      "eval_loss": 0.5935017466545105,
+      "eval_runtime": 216.5971,
+      "eval_samples_per_second": 7.244,
+      "eval_steps_per_second": 0.91,
+      "step": 13200
+    },
+    {
+      "epoch": 30.045300113250285,
+      "grad_norm": 1.3688397407531738,
+      "learning_rate": 1.8012807271224955e-05,
+      "loss": 0.2984,
+      "step": 13250
+    },
+    {
+      "epoch": 30.15855039637599,
+      "grad_norm": 1.7011109590530396,
+      "learning_rate": 1.7324244302141433e-05,
+      "loss": 0.2943,
+      "step": 13300
+    },
+    {
+      "epoch": 30.15855039637599,
+      "eval_loss": 0.6008950471878052,
+      "eval_runtime": 216.6155,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.909,
+      "step": 13300
+    },
+    {
+      "epoch": 30.2718006795017,
+      "grad_norm": 1.7913622856140137,
+      "learning_rate": 1.663568133305791e-05,
+      "loss": 0.2931,
+      "step": 13350
+    },
+    {
+      "epoch": 30.385050962627407,
+      "grad_norm": 1.8850469589233398,
+      "learning_rate": 1.5947118363974385e-05,
+      "loss": 0.305,
+      "step": 13400
+    },
+    {
+      "epoch": 30.385050962627407,
+      "eval_loss": 0.5989060997962952,
+      "eval_runtime": 216.6435,
+      "eval_samples_per_second": 7.242,
+      "eval_steps_per_second": 0.909,
+      "step": 13400
+    },
+    {
+      "epoch": 30.498301245753115,
+      "grad_norm": 1.997729778289795,
+      "learning_rate": 1.5258555394890863e-05,
+      "loss": 0.3083,
+      "step": 13450
+    },
+    {
+      "epoch": 30.611551528878824,
+      "grad_norm": 1.8760637044906616,
+      "learning_rate": 1.4569992425807341e-05,
+      "loss": 0.3006,
+      "step": 13500
+    },
+    {
+      "epoch": 30.611551528878824,
+      "eval_loss": 0.596034824848175,
+      "eval_runtime": 216.6232,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.909,
+      "step": 13500
+    },
+    {
+      "epoch": 30.72480181200453,
+      "grad_norm": 1.8395705223083496,
+      "learning_rate": 1.388142945672382e-05,
+      "loss": 0.3057,
+      "step": 13550
+    },
+    {
+      "epoch": 30.838052095130237,
+      "grad_norm": 1.8442955017089844,
+      "learning_rate": 1.3192866487640296e-05,
+      "loss": 0.3038,
+      "step": 13600
+    },
+    {
+      "epoch": 30.838052095130237,
+      "eval_loss": 0.5910864472389221,
+      "eval_runtime": 216.6693,
+      "eval_samples_per_second": 7.241,
+      "eval_steps_per_second": 0.909,
+      "step": 13600
+    },
+    {
+      "epoch": 30.951302378255946,
+      "grad_norm": 1.9047316312789917,
+      "learning_rate": 1.2504303518556774e-05,
+      "loss": 0.2949,
+      "step": 13650
+    },
+    {
+      "epoch": 31.065685164212912,
+      "grad_norm": 1.8259665966033936,
+      "learning_rate": 1.181574054947325e-05,
+      "loss": 0.2984,
+      "step": 13700
+    },
+    {
+      "epoch": 31.065685164212912,
+      "eval_loss": 0.5886039733886719,
+      "eval_runtime": 216.6071,
+      "eval_samples_per_second": 7.244,
+      "eval_steps_per_second": 0.909,
+      "step": 13700
+    },
+    {
+      "epoch": 31.178935447338617,
+      "grad_norm": 1.9464973211288452,
+      "learning_rate": 1.1127177580389728e-05,
+      "loss": 0.2915,
+      "step": 13750
+    },
+    {
+      "epoch": 31.292185730464325,
+      "grad_norm": 1.4512701034545898,
+      "learning_rate": 1.0438614611306204e-05,
+      "loss": 0.2865,
+      "step": 13800
+    },
+    {
+      "epoch": 31.292185730464325,
+      "eval_loss": 0.5855095982551575,
+      "eval_runtime": 216.5764,
+      "eval_samples_per_second": 7.245,
+      "eval_steps_per_second": 0.91,
+      "step": 13800
+    },
+    {
+      "epoch": 31.405436013590034,
+      "grad_norm": 1.6476430892944336,
+      "learning_rate": 9.750051642222682e-06,
+      "loss": 0.2794,
+      "step": 13850
+    },
+    {
+      "epoch": 31.518686296715742,
+      "grad_norm": 2.3963589668273926,
+      "learning_rate": 9.06148867313916e-06,
+      "loss": 0.2958,
+      "step": 13900
+    },
+    {
+      "epoch": 31.518686296715742,
+      "eval_loss": 0.5817484259605408,
+      "eval_runtime": 216.6161,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.909,
+      "step": 13900
+    },
+    {
+      "epoch": 31.63193657984145,
+      "grad_norm": 1.6295278072357178,
+      "learning_rate": 8.372925704055636e-06,
+      "loss": 0.2842,
+      "step": 13950
+    },
+    {
+      "epoch": 31.745186862967156,
+      "grad_norm": 1.7011767625808716,
+      "learning_rate": 7.684362734972115e-06,
+      "loss": 0.2853,
+      "step": 14000
+    },
+    {
+      "epoch": 31.745186862967156,
+      "eval_loss": 0.5777027010917664,
+      "eval_runtime": 216.6548,
+      "eval_samples_per_second": 7.242,
+      "eval_steps_per_second": 0.909,
+      "step": 14000
+    },
+    {
+      "epoch": 31.858437146092864,
+      "grad_norm": 1.2951115369796753,
+      "learning_rate": 6.995799765888592e-06,
+      "loss": 0.2822,
+      "step": 14050
+    },
+    {
+      "epoch": 31.971687429218573,
+      "grad_norm": 1.6724634170532227,
+      "learning_rate": 6.307236796805067e-06,
+      "loss": 0.282,
+      "step": 14100
+    },
+    {
+      "epoch": 31.971687429218573,
+      "eval_loss": 0.5746533274650574,
+      "eval_runtime": 216.6678,
+      "eval_samples_per_second": 7.242,
+      "eval_steps_per_second": 0.909,
+      "step": 14100
+    },
+    {
+      "epoch": 32.08607021517554,
+      "grad_norm": 1.1698694229125977,
+      "learning_rate": 5.618673827721545e-06,
+      "loss": 0.2858,
+      "step": 14150
+    },
+    {
+      "epoch": 32.19932049830125,
+      "grad_norm": 1.4823814630508423,
+      "learning_rate": 4.930110858638023e-06,
+      "loss": 0.2724,
+      "step": 14200
+    },
+    {
+      "epoch": 32.19932049830125,
+      "eval_loss": 0.5733225345611572,
+      "eval_runtime": 216.6993,
+      "eval_samples_per_second": 7.24,
+      "eval_steps_per_second": 0.909,
+      "step": 14200
+    },
+    {
+      "epoch": 32.312570781426956,
+      "grad_norm": 1.2654746770858765,
+      "learning_rate": 4.2415478895545e-06,
+      "loss": 0.2668,
+      "step": 14250
+    },
+    {
+      "epoch": 32.425821064552665,
+      "grad_norm": 1.390316367149353,
+      "learning_rate": 3.5529849204709775e-06,
+      "loss": 0.2732,
+      "step": 14300
+    },
+    {
+      "epoch": 32.425821064552665,
+      "eval_loss": 0.5705001354217529,
+      "eval_runtime": 216.6456,
+      "eval_samples_per_second": 7.242,
+      "eval_steps_per_second": 0.909,
+      "step": 14300
+    },
+    {
+      "epoch": 32.539071347678366,
+      "grad_norm": 1.0841820240020752,
+      "learning_rate": 2.864421951387454e-06,
+      "loss": 0.2757,
+      "step": 14350
+    },
+    {
+      "epoch": 32.652321630804074,
+      "grad_norm": 1.1355277299880981,
+      "learning_rate": 2.175858982303932e-06,
+      "loss": 0.2726,
+      "step": 14400
+    },
+    {
+      "epoch": 32.652321630804074,
+      "eval_loss": 0.5688679814338684,
+      "eval_runtime": 216.6214,
+      "eval_samples_per_second": 7.243,
+      "eval_steps_per_second": 0.909,
+      "step": 14400
+    },
+    {
+      "epoch": 32.76557191392978,
+      "grad_norm": 1.3108878135681152,
+      "learning_rate": 1.4872960132204092e-06,
+      "loss": 0.273,
+      "step": 14450
+    },
+    {
+      "epoch": 32.87882219705549,
+      "grad_norm": 1.175482153892517,
+      "learning_rate": 7.987330441368863e-07,
+      "loss": 0.2695,
+      "step": 14500
+    },
+    {
+      "epoch": 32.87882219705549,
+      "eval_loss": 0.567724347114563,
+      "eval_runtime": 216.7209,
+      "eval_samples_per_second": 7.24,
+      "eval_steps_per_second": 0.909,
+      "step": 14500
+    },
+    {
+      "epoch": 32.9920724801812,
+      "grad_norm": 1.3629848957061768,
+      "learning_rate": 1.1017007505336364e-07,
+      "loss": 0.2808,
+      "step": 14550
+    },
+    {
+      "epoch": 33.10645526613816,
+      "grad_norm": 3.8983519077301025,
+      "learning_rate": 5.299015897047691e-05,
+      "loss": 0.2925,
+      "step": 14600
+    },
+    {
+      "epoch": 33.10645526613816,
+      "eval_loss": 0.6180706024169922,
+      "eval_runtime": 217.7372,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.905,
+      "step": 14600
+    },
+    {
+      "epoch": 33.21970554926387,
+      "grad_norm": 3.372912645339966,
+      "learning_rate": 5.249558415341913e-05,
+      "loss": 0.3275,
+      "step": 14650
+    },
+    {
+      "epoch": 33.33295583238958,
+      "grad_norm": 3.959416389465332,
+      "learning_rate": 5.199091597274792e-05,
+      "loss": 0.341,
+      "step": 14700
+    },
+    {
+      "epoch": 33.33295583238958,
+      "eval_loss": 0.6353843808174133,
+      "eval_runtime": 217.8515,
+      "eval_samples_per_second": 7.202,
+      "eval_steps_per_second": 0.904,
+      "step": 14700
+    },
+    {
+      "epoch": 33.44620611551529,
+      "grad_norm": 3.4942378997802734,
+      "learning_rate": 5.1486247792076715e-05,
+      "loss": 0.3485,
+      "step": 14750
+    },
+    {
+      "epoch": 33.559456398641,
+      "grad_norm": 3.3839058876037598,
+      "learning_rate": 5.098157961140551e-05,
+      "loss": 0.3442,
+      "step": 14800
+    },
+    {
+      "epoch": 33.559456398641,
+      "eval_loss": 0.6342476606369019,
+      "eval_runtime": 217.9772,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 14800
+    },
+    {
+      "epoch": 33.672706681766705,
+      "grad_norm": 3.631831407546997,
+      "learning_rate": 5.04769114307343e-05,
+      "loss": 0.3505,
+      "step": 14850
+    },
+    {
+      "epoch": 33.785956964892414,
+      "grad_norm": 3.05415678024292,
+      "learning_rate": 4.9972243250063086e-05,
+      "loss": 0.342,
+      "step": 14900
+    },
+    {
+      "epoch": 33.785956964892414,
+      "eval_loss": 0.6282561421394348,
+      "eval_runtime": 218.0099,
+      "eval_samples_per_second": 7.197,
+      "eval_steps_per_second": 0.904,
+      "step": 14900
+    },
+    {
+      "epoch": 33.89920724801812,
+      "grad_norm": 3.213174343109131,
+      "learning_rate": 4.946757506939187e-05,
+      "loss": 0.3526,
+      "step": 14950
+    },
+    {
+      "epoch": 34.013590033975085,
+      "grad_norm": 2.7019898891448975,
+      "learning_rate": 4.8962906888720665e-05,
+      "loss": 0.3596,
+      "step": 15000
+    },
+    {
+      "epoch": 34.013590033975085,
+      "eval_loss": 0.6229637265205383,
+      "eval_runtime": 217.9233,
+      "eval_samples_per_second": 7.2,
+      "eval_steps_per_second": 0.904,
+      "step": 15000
+    },
+    {
+      "epoch": 34.12684031710079,
+      "grad_norm": 3.5813961029052734,
+      "learning_rate": 4.845823870804946e-05,
+      "loss": 0.3202,
+      "step": 15050
+    },
+    {
+      "epoch": 34.2400906002265,
+      "grad_norm": 2.996546983718872,
+      "learning_rate": 4.795357052737825e-05,
+      "loss": 0.3208,
+      "step": 15100
+    },
+    {
+      "epoch": 34.2400906002265,
+      "eval_loss": 0.6200416684150696,
+      "eval_runtime": 217.9712,
+      "eval_samples_per_second": 7.198,
+      "eval_steps_per_second": 0.904,
+      "step": 15100
+    },
+    {
+      "epoch": 34.35334088335221,
+      "grad_norm": 3.248931407928467,
+      "learning_rate": 4.744890234670704e-05,
+      "loss": 0.3191,
+      "step": 15150
+    },
+    {
+      "epoch": 34.46659116647792,
+      "grad_norm": 2.503894805908203,
+      "learning_rate": 4.6944234166035835e-05,
+      "loss": 0.3206,
+      "step": 15200
+    },
+    {
+      "epoch": 34.46659116647792,
+      "eval_loss": 0.6110924482345581,
+      "eval_runtime": 217.9474,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 15200
+    },
+    {
+      "epoch": 34.57984144960363,
+      "grad_norm": 3.3107473850250244,
+      "learning_rate": 4.643956598536463e-05,
+      "loss": 0.3198,
+      "step": 15250
+    },
+    {
+      "epoch": 34.69309173272933,
+      "grad_norm": 2.6435258388519287,
+      "learning_rate": 4.5934897804693414e-05,
+      "loss": 0.3261,
+      "step": 15300
+    },
+    {
+      "epoch": 34.69309173272933,
+      "eval_loss": 0.603391706943512,
+      "eval_runtime": 217.9424,
+      "eval_samples_per_second": 7.199,
+      "eval_steps_per_second": 0.904,
+      "step": 15300
+    },
+    {
+      "epoch": 34.80634201585504,
+      "grad_norm": 3.1980810165405273,
+      "learning_rate": 4.5430229624022207e-05,
+      "loss": 0.3216,
+      "step": 15350
+    },
+    {
+      "epoch": 34.919592298980746,
+      "grad_norm": 2.4994754791259766,
+      "learning_rate": 4.4925561443351e-05,
+      "loss": 0.3168,
+      "step": 15400
+    },
+    {
+      "epoch": 34.919592298980746,
+      "eval_loss": 0.5940945148468018,
+      "eval_runtime": 218.056,
+      "eval_samples_per_second": 7.195,
+      "eval_steps_per_second": 0.903,
+      "step": 15400
+    },
+    {
+      "epoch": 35.033975084937715,
+      "grad_norm": 2.75138521194458,
+      "learning_rate": 4.442089326267979e-05,
+      "loss": 0.3191,
+      "step": 15450
+    },
+    {
+      "epoch": 35.14722536806342,
+      "grad_norm": 3.1039974689483643,
+      "learning_rate": 4.3916225082008585e-05,
+      "loss": 0.296,
+      "step": 15500
+    },
+    {
+      "epoch": 35.14722536806342,
+      "eval_loss": 0.5926975607872009,
+      "eval_runtime": 218.0089,
+      "eval_samples_per_second": 7.197,
+      "eval_steps_per_second": 0.904,
+      "step": 15500
+    },
+    {
+      "epoch": 35.260475651189125,
+      "grad_norm": 2.9686388969421387,
+      "learning_rate": 4.341155690133738e-05,
+      "loss": 0.2921,
+      "step": 15550
+    },
+    {
+      "epoch": 35.373725934314834,
+      "grad_norm": 2.5670547485351562,
+      "learning_rate": 4.290688872066616e-05,
+      "loss": 0.2909,
+      "step": 15600
+    },
+    {
+      "epoch": 35.373725934314834,
+      "eval_loss": 0.5892407894134521,
+      "eval_runtime": 217.8483,
+      "eval_samples_per_second": 7.202,
+      "eval_steps_per_second": 0.904,
+      "step": 15600
+    },
+    {
+      "epoch": 35.48697621744054,
+      "grad_norm": 2.28952956199646,
+      "learning_rate": 4.2402220539994956e-05,
+      "loss": 0.2947,
+      "step": 15650
+    },
+    {
+      "epoch": 35.60022650056625,
+      "grad_norm": 2.401625394821167,
+      "learning_rate": 4.189755235932374e-05,
+      "loss": 0.2915,
+      "step": 15700
+    },
+    {
+      "epoch": 35.60022650056625,
+      "eval_loss": 0.5815189480781555,
+      "eval_runtime": 217.8623,
+      "eval_samples_per_second": 7.202,
+      "eval_steps_per_second": 0.904,
+      "step": 15700
+    },
+    {
+      "epoch": 35.71347678369196,
+      "grad_norm": 2.7113890647888184,
+      "learning_rate": 4.1392884178652534e-05,
+      "loss": 0.2908,
+      "step": 15750
+    },
+    {
+      "epoch": 35.82672706681767,
+      "grad_norm": 2.949303388595581,
+      "learning_rate": 4.088821599798133e-05,
+      "loss": 0.2942,
+      "step": 15800
+    },
+    {
+      "epoch": 35.82672706681767,
+      "eval_loss": 0.5712306499481201,
+      "eval_runtime": 217.792,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.905,
+      "step": 15800
+    },
+    {
+      "epoch": 35.939977349943376,
+      "grad_norm": 2.3547251224517822,
+      "learning_rate": 4.038354781731012e-05,
+      "loss": 0.2854,
+      "step": 15850
+    },
+    {
+      "epoch": 36.05436013590034,
+      "grad_norm": 2.6130595207214355,
+      "learning_rate": 3.987887963663891e-05,
+      "loss": 0.2877,
+      "step": 15900
+    },
+    {
+      "epoch": 36.05436013590034,
+      "eval_loss": 0.5668493509292603,
+      "eval_runtime": 217.7584,
+      "eval_samples_per_second": 7.205,
+      "eval_steps_per_second": 0.905,
+      "step": 15900
+    },
+    {
+      "epoch": 36.16761041902605,
+      "grad_norm": 2.4720046520233154,
+      "learning_rate": 3.9374211455967705e-05,
+      "loss": 0.272,
+      "step": 15950
+    },
+    {
+      "epoch": 36.280860702151756,
+      "grad_norm": 3.291337490081787,
+      "learning_rate": 3.886954327529649e-05,
+      "loss": 0.2756,
+      "step": 16000
+    },
+    {
+      "epoch": 36.280860702151756,
+      "eval_loss": 0.5569508075714111,
+      "eval_runtime": 217.7243,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.905,
+      "step": 16000
+    },
+    {
+      "epoch": 36.394110985277464,
+      "grad_norm": 2.275122880935669,
+      "learning_rate": 3.8364875094625284e-05,
+      "loss": 0.2699,
+      "step": 16050
+    },
+    {
+      "epoch": 36.50736126840317,
+      "grad_norm": 2.351252317428589,
+      "learning_rate": 3.7860206913954076e-05,
+      "loss": 0.263,
+      "step": 16100
+    },
+    {
+      "epoch": 36.50736126840317,
+      "eval_loss": 0.552777886390686,
+      "eval_runtime": 217.6644,
+      "eval_samples_per_second": 7.208,
+      "eval_steps_per_second": 0.905,
+      "step": 16100
+    },
+    {
+      "epoch": 36.62061155152888,
+      "grad_norm": 2.0470945835113525,
+      "learning_rate": 3.735553873328287e-05,
+      "loss": 0.2605,
+      "step": 16150
+    },
+    {
+      "epoch": 36.73386183465459,
+      "grad_norm": 2.258258819580078,
+      "learning_rate": 3.685087055261166e-05,
+      "loss": 0.2621,
+      "step": 16200
+    },
+    {
+      "epoch": 36.73386183465459,
+      "eval_loss": 0.548316478729248,
+      "eval_runtime": 217.7617,
+      "eval_samples_per_second": 7.205,
+      "eval_steps_per_second": 0.905,
+      "step": 16200
+    },
+    {
+      "epoch": 36.84711211778029,
+      "grad_norm": 2.473788261413574,
+      "learning_rate": 3.6346202371940454e-05,
+      "loss": 0.2606,
+      "step": 16250
+    },
+    {
+      "epoch": 36.960362400906,
+      "grad_norm": 2.4730281829833984,
+      "learning_rate": 3.584153419126925e-05,
+      "loss": 0.2674,
+      "step": 16300
+    },
+    {
+      "epoch": 36.960362400906,
+      "eval_loss": 0.5399536490440369,
+      "eval_runtime": 217.745,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.905,
+      "step": 16300
+    },
+    {
+      "epoch": 37.07474518686297,
+      "grad_norm": 2.3119349479675293,
+      "learning_rate": 3.533686601059803e-05,
+      "loss": 0.258,
+      "step": 16350
+    },
+    {
+      "epoch": 37.18799546998868,
+      "grad_norm": 2.451964855194092,
+      "learning_rate": 3.4832197829926826e-05,
+      "loss": 0.2452,
+      "step": 16400
+    },
+    {
+      "epoch": 37.18799546998868,
+      "eval_loss": 0.5389652252197266,
+      "eval_runtime": 217.7139,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.905,
+      "step": 16400
+    },
+    {
+      "epoch": 37.30124575311438,
+      "grad_norm": 2.2861897945404053,
+      "learning_rate": 3.432752964925562e-05,
+      "loss": 0.2483,
+      "step": 16450
+    },
+    {
+      "epoch": 37.41449603624009,
+      "grad_norm": 1.7861238718032837,
+      "learning_rate": 3.3822861468584404e-05,
+      "loss": 0.2493,
+      "step": 16500
+    },
+    {
+      "epoch": 37.41449603624009,
+      "eval_loss": 0.5293774604797363,
+      "eval_runtime": 217.8898,
+      "eval_samples_per_second": 7.201,
+      "eval_steps_per_second": 0.904,
+      "step": 16500
+    },
+    {
+      "epoch": 37.5277463193658,
+      "grad_norm": 2.2910056114196777,
+      "learning_rate": 3.33181932879132e-05,
+      "loss": 0.2449,
+      "step": 16550
+    },
+    {
+      "epoch": 37.640996602491505,
+      "grad_norm": 2.102193832397461,
+      "learning_rate": 3.281352510724199e-05,
+      "loss": 0.2398,
+      "step": 16600
+    },
+    {
+      "epoch": 37.640996602491505,
+      "eval_loss": 0.5246281027793884,
+      "eval_runtime": 217.7811,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.905,
+      "step": 16600
+    },
+    {
+      "epoch": 37.75424688561721,
+      "grad_norm": 2.1423254013061523,
+      "learning_rate": 3.230885692657078e-05,
+      "loss": 0.2438,
+      "step": 16650
+    },
+    {
+      "epoch": 37.86749716874292,
+      "grad_norm": 2.031027317047119,
+      "learning_rate": 3.180418874589957e-05,
+      "loss": 0.2427,
+      "step": 16700
+    },
+    {
+      "epoch": 37.86749716874292,
+      "eval_loss": 0.5190041661262512,
+      "eval_runtime": 217.6886,
+      "eval_samples_per_second": 7.208,
+      "eval_steps_per_second": 0.905,
+      "step": 16700
+    },
+    {
+      "epoch": 37.98074745186863,
+      "grad_norm": 1.8530203104019165,
+      "learning_rate": 3.129952056522836e-05,
+      "loss": 0.2446,
+      "step": 16750
+    },
+    {
+      "epoch": 38.09513023782559,
+      "grad_norm": 1.9591715335845947,
+      "learning_rate": 3.0794852384557153e-05,
+      "loss": 0.2288,
+      "step": 16800
+    },
+    {
+      "epoch": 38.09513023782559,
+      "eval_loss": 0.5154264569282532,
+      "eval_runtime": 217.6837,
+      "eval_samples_per_second": 7.208,
+      "eval_steps_per_second": 0.905,
+      "step": 16800
+    },
+    {
+      "epoch": 38.2083805209513,
+      "grad_norm": 1.752700686454773,
+      "learning_rate": 3.0290184203885946e-05,
+      "loss": 0.2249,
+      "step": 16850
+    },
+    {
+      "epoch": 38.32163080407701,
+      "grad_norm": 1.7865016460418701,
+      "learning_rate": 2.978551602321474e-05,
+      "loss": 0.2254,
+      "step": 16900
+    },
+    {
+      "epoch": 38.32163080407701,
+      "eval_loss": 0.510138750076294,
+      "eval_runtime": 217.7044,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.905,
+      "step": 16900
+    },
+    {
+      "epoch": 38.43488108720272,
+      "grad_norm": 1.851835012435913,
+      "learning_rate": 2.9280847842543528e-05,
+      "loss": 0.2255,
+      "step": 16950
+    },
+    {
+      "epoch": 38.54813137032843,
+      "grad_norm": 1.7320882081985474,
+      "learning_rate": 2.877617966187232e-05,
+      "loss": 0.227,
+      "step": 17000
+    },
+    {
+      "epoch": 38.54813137032843,
+      "eval_loss": 0.5055522322654724,
+      "eval_runtime": 217.6805,
+      "eval_samples_per_second": 7.208,
+      "eval_steps_per_second": 0.905,
+      "step": 17000
+    },
+    {
+      "epoch": 38.661381653454136,
+      "grad_norm": 2.6240079402923584,
+      "learning_rate": 2.8271511481201113e-05,
+      "loss": 0.2227,
+      "step": 17050
+    },
+    {
+      "epoch": 38.774631936579844,
+      "grad_norm": 1.8069425821304321,
+      "learning_rate": 2.7766843300529906e-05,
+      "loss": 0.223,
+      "step": 17100
+    },
+    {
+      "epoch": 38.774631936579844,
+      "eval_loss": 0.49882474541664124,
+      "eval_runtime": 217.6912,
+      "eval_samples_per_second": 7.207,
+      "eval_steps_per_second": 0.905,
+      "step": 17100
+    },
+    {
+      "epoch": 38.88788221970555,
+      "grad_norm": 1.8260191679000854,
+      "learning_rate": 2.7262175119858695e-05,
+      "loss": 0.2239,
+      "step": 17150
+    },
+    {
+      "epoch": 39.002265005662515,
+      "grad_norm": 5.091439723968506,
+      "learning_rate": 2.6757506939187488e-05,
+      "loss": 0.2295,
+      "step": 17200
+    },
+    {
+      "epoch": 39.002265005662515,
+      "eval_loss": 0.49227145314216614,
+      "eval_runtime": 217.7384,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.905,
+      "step": 17200
+    },
+    {
+      "epoch": 39.115515288788224,
+      "grad_norm": 2.467454433441162,
+      "learning_rate": 2.625283875851628e-05,
+      "loss": 0.2057,
+      "step": 17250
+    },
+    {
+      "epoch": 39.22876557191393,
+      "grad_norm": 1.6467406749725342,
+      "learning_rate": 2.5748170577845067e-05,
+      "loss": 0.2022,
+      "step": 17300
+    },
+    {
+      "epoch": 39.22876557191393,
+      "eval_loss": 0.49300825595855713,
+      "eval_runtime": 217.7288,
+      "eval_samples_per_second": 7.206,
+      "eval_steps_per_second": 0.905,
+      "step": 17300
+    },
+    {
+      "epoch": 39.34201585503964,
+      "grad_norm": 1.446031093597412,
+      "learning_rate": 2.5243502397173856e-05,
+      "loss": 0.2055,
+      "step": 17350
+    },
+    {
+      "epoch": 39.45526613816534,
+      "grad_norm": 1.6686514616012573,
+      "learning_rate": 2.4738834216502652e-05,
+      "loss": 0.2147,
+      "step": 17400
+    },
+    {
+      "epoch": 39.45526613816534,
+      "eval_loss": 0.485858678817749,
+      "eval_runtime": 217.207,
+      "eval_samples_per_second": 7.224,
+      "eval_steps_per_second": 0.907,
+      "step": 17400
+    },
+    {
+      "epoch": 39.56851642129105,
+      "grad_norm": 1.513580322265625,
+      "learning_rate": 2.4234166035831445e-05,
+      "loss": 0.2046,
+      "step": 17450
+    },
+    {
+      "epoch": 39.68176670441676,
+      "grad_norm": 1.5527840852737427,
+      "learning_rate": 2.372949785516023e-05,
+      "loss": 0.2039,
+      "step": 17500
+    },
+    {
+      "epoch": 39.68176670441676,
+      "eval_loss": 0.48166778683662415,
+      "eval_runtime": 217.3046,
+      "eval_samples_per_second": 7.22,
+      "eval_steps_per_second": 0.907,
+      "step": 17500
+    },
+    {
+      "epoch": 39.79501698754247,
+      "grad_norm": 1.5010417699813843,
+      "learning_rate": 2.3224829674489023e-05,
+      "loss": 0.21,
+      "step": 17550
+    },
+    {
+      "epoch": 39.908267270668176,
+      "grad_norm": 2.1489455699920654,
+      "learning_rate": 2.2720161493817816e-05,
+      "loss": 0.2042,
+      "step": 17600
+    },
+    {
+      "epoch": 39.908267270668176,
+      "eval_loss": 0.4749002754688263,
+      "eval_runtime": 217.3286,
+      "eval_samples_per_second": 7.219,
+      "eval_steps_per_second": 0.906,
+      "step": 17600
+    },
+    {
+      "epoch": 40.02265005662514,
+      "grad_norm": 1.933009147644043,
+      "learning_rate": 2.221549331314661e-05,
+      "loss": 0.2157,
+      "step": 17650
+    },
+    {
+      "epoch": 40.13590033975085,
+      "grad_norm": 1.5398054122924805,
+      "learning_rate": 2.1710825132475398e-05,
+      "loss": 0.1894,
+      "step": 17700
+    },
+    {
+      "epoch": 40.13590033975085,
+      "eval_loss": 0.4718286097049713,
+      "eval_runtime": 217.1637,
+      "eval_samples_per_second": 7.225,
+      "eval_steps_per_second": 0.907,
+      "step": 17700
+    },
+    {
+      "epoch": 40.249150622876556,
+      "grad_norm": 1.7476941347122192,
+      "learning_rate": 2.120615695180419e-05,
+      "loss": 0.1924,
+      "step": 17750
+    },
+    {
+      "epoch": 40.362400906002264,
+      "grad_norm": 1.5386378765106201,
+      "learning_rate": 2.0701488771132983e-05,
+      "loss": 0.1918,
+      "step": 17800
+    },
+    {
+      "epoch": 40.362400906002264,
+      "eval_loss": 0.46827250719070435,
+      "eval_runtime": 217.1473,
+      "eval_samples_per_second": 7.226,
+      "eval_steps_per_second": 0.907,
+      "step": 17800
+    },
+    {
+      "epoch": 40.47565118912797,
+      "grad_norm": 1.6006604433059692,
+      "learning_rate": 2.0196820590461773e-05,
+      "loss": 0.188,
+      "step": 17850
+    },
+    {
+      "epoch": 40.58890147225368,
+      "grad_norm": 1.5906981229782104,
+      "learning_rate": 1.9692152409790562e-05,
+      "loss": 0.1922,
+      "step": 17900
+    },
+    {
+      "epoch": 40.58890147225368,
+      "eval_loss": 0.4618977904319763,
+      "eval_runtime": 217.1294,
+      "eval_samples_per_second": 7.226,
+      "eval_steps_per_second": 0.907,
+      "step": 17900
+    },
+    {
+      "epoch": 40.70215175537939,
+      "grad_norm": 1.451889991760254,
+      "learning_rate": 1.9187484229119355e-05,
+      "loss": 0.1961,
+      "step": 17950
+    },
+    {
+      "epoch": 40.8154020385051,
+      "grad_norm": 1.2037873268127441,
+      "learning_rate": 1.8682816048448147e-05,
+      "loss": 0.1951,
+      "step": 18000
+    },
+    {
+      "epoch": 40.8154020385051,
+      "eval_loss": 0.45853978395462036,
+      "eval_runtime": 217.1867,
+      "eval_samples_per_second": 7.224,
+      "eval_steps_per_second": 0.907,
+      "step": 18000
+    },
+    {
+      "epoch": 40.92865232163081,
+      "grad_norm": 1.124363899230957,
+      "learning_rate": 1.8178147867776936e-05,
+      "loss": 0.1907,
+      "step": 18050
+    },
+    {
+      "epoch": 41.04303510758777,
+      "grad_norm": 1.1726500988006592,
+      "learning_rate": 1.767347968710573e-05,
+      "loss": 0.1893,
+      "step": 18100
+    },
+    {
+      "epoch": 41.04303510758777,
+      "eval_loss": 0.4549981355667114,
+      "eval_runtime": 217.2331,
+      "eval_samples_per_second": 7.223,
+      "eval_steps_per_second": 0.907,
+      "step": 18100
+    },
+    {
+      "epoch": 41.15628539071348,
+      "grad_norm": 1.6041500568389893,
+      "learning_rate": 1.7168811506434522e-05,
+      "loss": 0.1769,
+      "step": 18150
+    },
+    {
+      "epoch": 41.26953567383919,
+      "grad_norm": 1.9704344272613525,
+      "learning_rate": 1.666414332576331e-05,
+      "loss": 0.1798,
+      "step": 18200
+    },
+    {
+      "epoch": 41.26953567383919,
+      "eval_loss": 0.45383498072624207,
+      "eval_runtime": 217.2468,
+      "eval_samples_per_second": 7.222,
+      "eval_steps_per_second": 0.907,
+      "step": 18200
+    },
+    {
+      "epoch": 41.382785956964895,
+      "grad_norm": 1.1522181034088135,
+      "learning_rate": 1.6159475145092104e-05,
+      "loss": 0.1858,
+      "step": 18250
+    },
+    {
+      "epoch": 41.4960362400906,
+      "grad_norm": 1.6338062286376953,
+      "learning_rate": 1.5654806964420893e-05,
+      "loss": 0.1776,
+      "step": 18300
+    },
+    {
+      "epoch": 41.4960362400906,
+      "eval_loss": 0.448618620634079,
+      "eval_runtime": 217.2186,
+      "eval_samples_per_second": 7.223,
+      "eval_steps_per_second": 0.907,
+      "step": 18300
+    },
+    {
+      "epoch": 41.609286523216305,
+      "grad_norm": 1.1537904739379883,
+      "learning_rate": 1.5150138783749684e-05,
+      "loss": 0.1759,
+      "step": 18350
+    },
+    {
+      "epoch": 41.72253680634201,
+      "grad_norm": 1.285271406173706,
+      "learning_rate": 1.4645470603078477e-05,
+      "loss": 0.1794,
+      "step": 18400
+    },
+    {
+      "epoch": 41.72253680634201,
+      "eval_loss": 0.4447907507419586,
+      "eval_runtime": 217.1396,
+      "eval_samples_per_second": 7.226,
+      "eval_steps_per_second": 0.907,
+      "step": 18400
+    },
+    {
+      "epoch": 41.83578708946772,
+      "grad_norm": 1.125063419342041,
+      "learning_rate": 1.4140802422407268e-05,
+      "loss": 0.1756,
+      "step": 18450
+    },
+    {
+      "epoch": 41.94903737259343,
+      "grad_norm": 1.1060149669647217,
+      "learning_rate": 1.3636134241736059e-05,
+      "loss": 0.1787,
+      "step": 18500
+    },
+    {
+      "epoch": 41.94903737259343,
+      "eval_loss": 0.4420225918292999,
+      "eval_runtime": 217.4988,
+      "eval_samples_per_second": 7.214,
+      "eval_steps_per_second": 0.906,
+      "step": 18500
+    },
+    {
+      "epoch": 42.06342015855039,
+      "grad_norm": 1.0146502256393433,
+      "learning_rate": 1.3131466061064851e-05,
+      "loss": 0.1791,
+      "step": 18550
+    },
+    {
+      "epoch": 42.1766704416761,
+      "grad_norm": 1.1884300708770752,
+      "learning_rate": 1.2626797880393642e-05,
+      "loss": 0.1658,
+      "step": 18600
+    },
+    {
+      "epoch": 42.1766704416761,
+      "eval_loss": 0.4396124482154846,
+      "eval_runtime": 217.7883,
+      "eval_samples_per_second": 7.204,
+      "eval_steps_per_second": 0.905,
+      "step": 18600
+    },
+    {
+      "epoch": 42.28992072480181,
+      "grad_norm": 1.1497679948806763,
+      "learning_rate": 1.2122129699722433e-05,
+      "loss": 0.1696,
+      "step": 18650
+    },
+    {
+      "epoch": 42.40317100792752,
+      "grad_norm": 1.32937490940094,
+      "learning_rate": 1.1617461519051224e-05,
+      "loss": 0.1643,
+      "step": 18700
+    },
+    {
+      "epoch": 42.40317100792752,
+      "eval_loss": 0.43940281867980957,
+      "eval_runtime": 218.6239,
+      "eval_samples_per_second": 7.177,
+      "eval_steps_per_second": 0.901,
+      "step": 18700
+    },
+    {
+      "epoch": 42.51642129105323,
+      "grad_norm": 1.5960180759429932,
+      "learning_rate": 1.1112793338380017e-05,
+      "loss": 0.1699,
+      "step": 18750
+    },
+    {
+      "epoch": 42.629671574178936,
+      "grad_norm": 1.0415377616882324,
+      "learning_rate": 1.0608125157708806e-05,
+      "loss": 0.1654,
+      "step": 18800
+    },
+    {
+      "epoch": 42.629671574178936,
+      "eval_loss": 0.43373051285743713,
+      "eval_runtime": 218.5653,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 18800
+    },
+    {
+      "epoch": 42.742921857304644,
+      "grad_norm": 1.5094951391220093,
+      "learning_rate": 1.0103456977037597e-05,
+      "loss": 0.1669,
+      "step": 18850
+    },
+    {
+      "epoch": 42.85617214043035,
+      "grad_norm": 0.9974751472473145,
+      "learning_rate": 9.59878879636639e-06,
+      "loss": 0.1681,
+      "step": 18900
+    },
+    {
+      "epoch": 42.85617214043035,
+      "eval_loss": 0.4303882420063019,
+      "eval_runtime": 218.6322,
+      "eval_samples_per_second": 7.176,
+      "eval_steps_per_second": 0.901,
+      "step": 18900
+    },
+    {
+      "epoch": 42.96942242355606,
+      "grad_norm": 0.9117754697799683,
+      "learning_rate": 9.094120615695181e-06,
+      "loss": 0.1706,
+      "step": 18950
+    },
+    {
+      "epoch": 43.083805209513024,
+      "grad_norm": 1.0373188257217407,
+      "learning_rate": 8.589452435023972e-06,
+      "loss": 0.1643,
+      "step": 19000
+    },
+    {
+      "epoch": 43.083805209513024,
+      "eval_loss": 0.42856693267822266,
+      "eval_runtime": 218.5993,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 19000
+    },
+    {
+      "epoch": 43.19705549263873,
+      "grad_norm": 0.9998382329940796,
+      "learning_rate": 8.084784254352763e-06,
+      "loss": 0.1617,
+      "step": 19050
+    },
+    {
+      "epoch": 43.31030577576444,
+      "grad_norm": 0.9849778413772583,
+      "learning_rate": 7.580116073681555e-06,
+      "loss": 0.1603,
+      "step": 19100
+    },
+    {
+      "epoch": 43.31030577576444,
+      "eval_loss": 0.4269334077835083,
+      "eval_runtime": 218.6737,
+      "eval_samples_per_second": 7.175,
+      "eval_steps_per_second": 0.901,
+      "step": 19100
+    },
+    {
+      "epoch": 43.42355605889015,
+      "grad_norm": 1.2009530067443848,
+      "learning_rate": 7.0754478930103465e-06,
+      "loss": 0.157,
+      "step": 19150
+    },
+    {
+      "epoch": 43.53680634201586,
+      "grad_norm": 0.8868136405944824,
+      "learning_rate": 6.570779712339137e-06,
+      "loss": 0.1582,
+      "step": 19200
+    },
+    {
+      "epoch": 43.53680634201586,
+      "eval_loss": 0.42409417033195496,
+      "eval_runtime": 218.6076,
+      "eval_samples_per_second": 7.177,
+      "eval_steps_per_second": 0.901,
+      "step": 19200
+    },
+    {
+      "epoch": 43.650056625141566,
+      "grad_norm": 0.8435959815979004,
+      "learning_rate": 6.0661115316679285e-06,
+      "loss": 0.158,
+      "step": 19250
+    },
+    {
+      "epoch": 43.76330690826727,
+      "grad_norm": 1.1476356983184814,
+      "learning_rate": 5.56144335099672e-06,
+      "loss": 0.1608,
+      "step": 19300
+    },
+    {
+      "epoch": 43.76330690826727,
+      "eval_loss": 0.422664076089859,
+      "eval_runtime": 218.5875,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 19300
+    },
+    {
+      "epoch": 43.876557191392976,
+      "grad_norm": 0.765332043170929,
+      "learning_rate": 5.056775170325511e-06,
+      "loss": 0.1606,
+      "step": 19350
+    },
+    {
+      "epoch": 43.989807474518685,
+      "grad_norm": 0.9879748821258545,
+      "learning_rate": 4.552106989654302e-06,
+      "loss": 0.1573,
+      "step": 19400
+    },
+    {
+      "epoch": 43.989807474518685,
+      "eval_loss": 0.4201904535293579,
+      "eval_runtime": 218.5744,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 19400
+    },
+    {
+      "epoch": 44.104190260475654,
+      "grad_norm": 0.6540424227714539,
+      "learning_rate": 4.047438808983093e-06,
+      "loss": 0.1572,
+      "step": 19450
+    },
+    {
+      "epoch": 44.217440543601356,
+      "grad_norm": 0.9124572277069092,
+      "learning_rate": 3.542770628311885e-06,
+      "loss": 0.1498,
+      "step": 19500
+    },
+    {
+      "epoch": 44.217440543601356,
+      "eval_loss": 0.4200960695743561,
+      "eval_runtime": 218.5932,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 19500
+    },
+    {
+      "epoch": 44.330690826727064,
+      "grad_norm": 0.8609676957130432,
+      "learning_rate": 3.0381024476406765e-06,
+      "loss": 0.1509,
+      "step": 19550
+    },
+    {
+      "epoch": 44.44394110985277,
+      "grad_norm": 0.7417690753936768,
+      "learning_rate": 2.533434266969468e-06,
+      "loss": 0.1492,
+      "step": 19600
+    },
+    {
+      "epoch": 44.44394110985277,
+      "eval_loss": 0.41948238015174866,
+      "eval_runtime": 218.5587,
+      "eval_samples_per_second": 7.179,
+      "eval_steps_per_second": 0.901,
+      "step": 19600
+    },
+    {
+      "epoch": 44.55719139297848,
+      "grad_norm": 0.8361729979515076,
+      "learning_rate": 2.0287660862982593e-06,
+      "loss": 0.1541,
+      "step": 19650
+    },
+    {
+      "epoch": 44.67044167610419,
+      "grad_norm": 0.911729097366333,
+      "learning_rate": 1.5240979056270503e-06,
+      "loss": 0.1559,
+      "step": 19700
+    },
+    {
+      "epoch": 44.67044167610419,
+      "eval_loss": 0.41870439052581787,
+      "eval_runtime": 218.5239,
+      "eval_samples_per_second": 7.18,
+      "eval_steps_per_second": 0.902,
+      "step": 19700
+    },
+    {
+      "epoch": 44.7836919592299,
+      "grad_norm": 0.7706825733184814,
+      "learning_rate": 1.0194297249558415e-06,
+      "loss": 0.1554,
+      "step": 19750
+    },
+    {
+      "epoch": 44.89694224235561,
+      "grad_norm": 0.9403465986251831,
+      "learning_rate": 5.147615442846329e-07,
+      "loss": 0.1549,
+      "step": 19800
+    },
+    {
+      "epoch": 44.89694224235561,
+      "eval_loss": 0.4180174469947815,
+      "eval_runtime": 218.6086,
+      "eval_samples_per_second": 7.177,
+      "eval_steps_per_second": 0.901,
+      "step": 19800
+    },
+    {
+      "epoch": 45.01132502831257,
+      "grad_norm": 0.9403154253959656,
+      "learning_rate": 8.532637580325652e-06,
+      "loss": 0.1533,
+      "step": 19850
+    },
+    {
+      "epoch": 45.12457531143828,
+      "grad_norm": 0.8529797196388245,
+      "learning_rate": 8.049475769435185e-06,
+      "loss": 0.1507,
+      "step": 19900
+    },
+    {
+      "epoch": 45.12457531143828,
+      "eval_loss": 0.41985705494880676,
+      "eval_runtime": 218.5997,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 19900
+    },
+    {
+      "epoch": 45.237825594563986,
+      "grad_norm": 0.877526581287384,
+      "learning_rate": 7.5663139585447175e-06,
+      "loss": 0.1498,
+      "step": 19950
+    },
+    {
+      "epoch": 45.351075877689695,
+      "grad_norm": 0.9668393731117249,
+      "learning_rate": 7.0831521476542495e-06,
+      "loss": 0.152,
+      "step": 20000
+    },
+    {
+      "epoch": 45.351075877689695,
+      "eval_loss": 0.41871750354766846,
+      "eval_runtime": 218.6395,
+      "eval_samples_per_second": 7.176,
+      "eval_steps_per_second": 0.901,
+      "step": 20000
+    },
+    {
+      "epoch": 45.4643261608154,
+      "grad_norm": 1.0251694917678833,
+      "learning_rate": 6.599990336763782e-06,
+      "loss": 0.1529,
+      "step": 20050
+    },
+    {
+      "epoch": 45.57757644394111,
+      "grad_norm": 1.4579505920410156,
+      "learning_rate": 6.116828525873315e-06,
+      "loss": 0.1571,
+      "step": 20100
+    },
+    {
+      "epoch": 45.57757644394111,
+      "eval_loss": 0.4161282181739807,
+      "eval_runtime": 218.584,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 20100
+    },
+    {
+      "epoch": 45.69082672706682,
+      "grad_norm": 0.7462686896324158,
+      "learning_rate": 5.633666714982848e-06,
+      "loss": 0.1611,
+      "step": 20150
+    },
+    {
+      "epoch": 45.80407701019253,
+      "grad_norm": 0.9031079411506653,
+      "learning_rate": 5.150504904092381e-06,
+      "loss": 0.153,
+      "step": 20200
+    },
+    {
+      "epoch": 45.80407701019253,
+      "eval_loss": 0.41474393010139465,
+      "eval_runtime": 218.6388,
+      "eval_samples_per_second": 7.176,
+      "eval_steps_per_second": 0.901,
+      "step": 20200
+    },
+    {
+      "epoch": 45.91732729331823,
+      "grad_norm": 0.8560954332351685,
+      "learning_rate": 4.667343093201913e-06,
+      "loss": 0.1531,
+      "step": 20250
+    },
+    {
+      "epoch": 46.0317100792752,
+      "grad_norm": 1.1464442014694214,
+      "learning_rate": 4.184181282311446e-06,
+      "loss": 0.1535,
+      "step": 20300
+    },
+    {
+      "epoch": 46.0317100792752,
+      "eval_loss": 0.414587140083313,
+      "eval_runtime": 218.5994,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 20300
+    },
+    {
+      "epoch": 46.14496036240091,
+      "grad_norm": 0.8384661674499512,
+      "learning_rate": 3.7010194714209794e-06,
+      "loss": 0.1488,
+      "step": 20350
+    },
+    {
+      "epoch": 46.25821064552662,
+      "grad_norm": 0.8300140500068665,
+      "learning_rate": 3.217857660530512e-06,
+      "loss": 0.1507,
+      "step": 20400
+    },
+    {
+      "epoch": 46.25821064552662,
+      "eval_loss": 0.413276344537735,
+      "eval_runtime": 218.6607,
+      "eval_samples_per_second": 7.176,
+      "eval_steps_per_second": 0.901,
+      "step": 20400
+    },
+    {
+      "epoch": 46.37146092865232,
+      "grad_norm": 0.7903048396110535,
+      "learning_rate": 2.7346958496400447e-06,
+      "loss": 0.148,
+      "step": 20450
+    },
+    {
+      "epoch": 46.48471121177803,
+      "grad_norm": 0.888008713722229,
+      "learning_rate": 2.2515340387495775e-06,
+      "loss": 0.1447,
+      "step": 20500
+    },
+    {
+      "epoch": 46.48471121177803,
+      "eval_loss": 0.4132575988769531,
+      "eval_runtime": 218.6308,
+      "eval_samples_per_second": 7.176,
+      "eval_steps_per_second": 0.901,
+      "step": 20500
+    },
+    {
+      "epoch": 46.597961494903736,
+      "grad_norm": 0.975723147392273,
+      "learning_rate": 1.7683722278591102e-06,
+      "loss": 0.1448,
+      "step": 20550
+    },
+    {
+      "epoch": 46.711211778029444,
+      "grad_norm": 0.7616918087005615,
+      "learning_rate": 1.2852104169686428e-06,
+      "loss": 0.1489,
+      "step": 20600
+    },
+    {
+      "epoch": 46.711211778029444,
+      "eval_loss": 0.4121854305267334,
+      "eval_runtime": 218.5727,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 0.901,
+      "step": 20600
+    },
+    {
+      "epoch": 46.82446206115515,
+      "grad_norm": 0.8662727475166321,
+      "learning_rate": 8.117118422959849e-07,
+      "loss": 0.1483,
+      "step": 20650
+    },
+    {
+      "epoch": 46.93771234428086,
+      "grad_norm": 0.7502096891403198,
+      "learning_rate": 3.2855003140551773e-07,
+      "loss": 0.1504,
+      "step": 20700
+    },
+    {
+      "epoch": 46.93771234428086,
+      "eval_loss": 0.41195544600486755,
+      "eval_runtime": 218.7035,
+      "eval_samples_per_second": 7.174,
+      "eval_steps_per_second": 0.901,
+      "step": 20700
+    },
+    {
+      "epoch": 47.052095130237824,
+      "grad_norm": 0.9510757923126221,
+      "learning_rate": 1.1871026339691191e-05,
+      "loss": 0.1467,
+      "step": 20750
+    },
+    {
+      "epoch": 47.16534541336353,
+      "grad_norm": 1.0743557214736938,
+      "learning_rate": 1.1416893732970029e-05,
+      "loss": 0.1497,
+      "step": 20800
+    },
+    {
+      "epoch": 47.16534541336353,
+      "eval_loss": 0.4156714379787445,
+      "eval_runtime": 217.4784,
+      "eval_samples_per_second": 7.215,
+      "eval_steps_per_second": 0.906,
+      "step": 20800
+    },
+    {
+      "epoch": 47.27859569648924,
+      "grad_norm": 1.567784070968628,
+      "learning_rate": 1.0962761126248864e-05,
+      "loss": 0.1513,
+      "step": 20850
+    },
+    {
+      "epoch": 47.39184597961495,
+      "grad_norm": 1.3992472887039185,
+      "learning_rate": 1.0508628519527702e-05,
+      "loss": 0.1533,
+      "step": 20900
+    },
+    {
+      "epoch": 47.39184597961495,
+      "eval_loss": 0.4152044653892517,
+      "eval_runtime": 217.5597,
+      "eval_samples_per_second": 7.212,
+      "eval_steps_per_second": 0.905,
+      "step": 20900
+    },
+    {
+      "epoch": 47.50509626274066,
+      "grad_norm": 1.5980275869369507,
+      "learning_rate": 1.005449591280654e-05,
+      "loss": 0.1523,
+      "step": 20950
+    },
+    {
+      "epoch": 47.618346545866366,
+      "grad_norm": 1.2810208797454834,
+      "learning_rate": 9.600363306085377e-06,
+      "loss": 0.1502,
+      "step": 21000
+    },
+    {
+      "epoch": 47.618346545866366,
+      "eval_loss": 0.4143332839012146,
+      "eval_runtime": 218.7933,
+      "eval_samples_per_second": 7.171,
+      "eval_steps_per_second": 0.9,
+      "step": 21000
+    },
+    {
+      "epoch": 47.731596828992075,
+      "grad_norm": 1.4590628147125244,
+      "learning_rate": 9.146230699364216e-06,
+      "loss": 0.1512,
+      "step": 21050
+    },
+    {
+      "epoch": 47.84484711211778,
+      "grad_norm": 1.3043591976165771,
+      "learning_rate": 8.692098092643053e-06,
+      "loss": 0.1561,
+      "step": 21100
+    },
+    {
+      "epoch": 47.84484711211778,
+      "eval_loss": 0.41214144229888916,
+      "eval_runtime": 218.7674,
+      "eval_samples_per_second": 7.172,
+      "eval_steps_per_second": 0.9,
+      "step": 21100
+    },
+    {
+      "epoch": 47.958097395243485,
+      "grad_norm": 0.8709500432014465,
+      "learning_rate": 8.247048138056313e-06,
+      "loss": 0.1478,
+      "step": 21150
+    },
+    {
+      "epoch": 48.072480181200454,
+      "grad_norm": 1.005632758140564,
+      "learning_rate": 7.79291553133515e-06,
+      "loss": 0.1534,
+      "step": 21200
+    },
+    {
+      "epoch": 48.072480181200454,
+      "eval_loss": 0.4120267927646637,
+      "eval_runtime": 218.9152,
+      "eval_samples_per_second": 7.167,
+      "eval_steps_per_second": 0.9,
+      "step": 21200
+    },
+    {
+      "epoch": 48.18573046432616,
+      "grad_norm": 1.2001721858978271,
+      "learning_rate": 7.347865576748411e-06,
+      "loss": 0.1431,
+      "step": 21250
+    },
+    {
+      "epoch": 48.29898074745187,
+      "grad_norm": 1.2004830837249756,
+      "learning_rate": 6.893732970027249e-06,
+      "loss": 0.1457,
+      "step": 21300
+    },
+    {
+      "epoch": 48.29898074745187,
+      "eval_loss": 0.4105300009250641,
+      "eval_runtime": 218.8468,
+      "eval_samples_per_second": 7.169,
+      "eval_steps_per_second": 0.9,
+      "step": 21300
+    },
+    {
+      "epoch": 48.41223103057758,
+      "grad_norm": 1.0889978408813477,
+      "learning_rate": 6.439600363306085e-06,
+      "loss": 0.1462,
+      "step": 21350
+    },
+    {
+      "epoch": 48.52548131370328,
+      "grad_norm": 0.9354040026664734,
+      "learning_rate": 5.985467756584924e-06,
+      "loss": 0.1464,
+      "step": 21400
+    },
+    {
+      "epoch": 48.52548131370328,
+      "eval_loss": 0.40966492891311646,
+      "eval_runtime": 218.8783,
+      "eval_samples_per_second": 7.168,
+      "eval_steps_per_second": 0.9,
+      "step": 21400
+    },
+    {
+      "epoch": 48.63873159682899,
+      "grad_norm": 0.8427848815917969,
+      "learning_rate": 5.53133514986376e-06,
+      "loss": 0.146,
+      "step": 21450
+    },
+    {
+      "epoch": 48.7519818799547,
+      "grad_norm": 0.9390880465507507,
+      "learning_rate": 5.077202543142598e-06,
+      "loss": 0.1462,
+      "step": 21500
+    },
+    {
+      "epoch": 48.7519818799547,
+      "eval_loss": 0.40723294019699097,
+      "eval_runtime": 218.8819,
+      "eval_samples_per_second": 7.168,
+      "eval_steps_per_second": 0.9,
+      "step": 21500
+    },
+    {
+      "epoch": 48.86523216308041,
+      "grad_norm": 1.0009453296661377,
+      "learning_rate": 4.623069936421435e-06,
+      "loss": 0.1442,
+      "step": 21550
+    },
+    {
+      "epoch": 48.978482446206115,
+      "grad_norm": 1.11566960811615,
+      "learning_rate": 4.168937329700273e-06,
+      "loss": 0.1469,
+      "step": 21600
+    },
+    {
+      "epoch": 48.978482446206115,
+      "eval_loss": 0.405407190322876,
+      "eval_runtime": 218.8588,
+      "eval_samples_per_second": 7.169,
+      "eval_steps_per_second": 0.9,
+      "step": 21600
+    },
+    {
+      "epoch": 49.09286523216308,
+      "grad_norm": 0.8854078054428101,
+      "learning_rate": 3.71480472297911e-06,
+      "loss": 0.1435,
+      "step": 21650
+    },
+    {
+      "epoch": 49.206115515288786,
+      "grad_norm": 0.8558112978935242,
+      "learning_rate": 3.260672116257948e-06,
+      "loss": 0.1378,
+      "step": 21700
+    },
+    {
+      "epoch": 49.206115515288786,
+      "eval_loss": 0.4061279296875,
+      "eval_runtime": 218.8569,
+      "eval_samples_per_second": 7.169,
+      "eval_steps_per_second": 0.9,
+      "step": 21700
+    },
+    {
+      "epoch": 49.319365798414495,
+      "grad_norm": 0.7999886870384216,
+      "learning_rate": 2.806539509536785e-06,
+      "loss": 0.1417,
+      "step": 21750
+    },
+    {
+      "epoch": 49.4326160815402,
+      "grad_norm": 0.948358952999115,
+      "learning_rate": 2.3524069028156224e-06,
+      "loss": 0.1415,
+      "step": 21800
+    },
+    {
+      "epoch": 49.4326160815402,
+      "eval_loss": 0.40446802973747253,
+      "eval_runtime": 218.7745,
+      "eval_samples_per_second": 7.172,
+      "eval_steps_per_second": 0.9,
+      "step": 21800
+    },
+    {
+      "epoch": 49.54586636466591,
+      "grad_norm": 0.7728579640388489,
+      "learning_rate": 1.8982742960944597e-06,
+      "loss": 0.1396,
+      "step": 21850
+    },
+    {
+      "epoch": 49.65911664779162,
+      "grad_norm": 0.7241719365119934,
+      "learning_rate": 1.4441416893732972e-06,
+      "loss": 0.1398,
+      "step": 21900
+    },
+    {
+      "epoch": 49.65911664779162,
+      "eval_loss": 0.4039037525653839,
+      "eval_runtime": 218.8617,
+      "eval_samples_per_second": 7.169,
+      "eval_steps_per_second": 0.9,
+      "step": 21900
+    },
+    {
+      "epoch": 49.77236693091733,
+      "grad_norm": 0.7789280414581299,
+      "learning_rate": 9.900090826521344e-07,
+      "loss": 0.1427,
+      "step": 21950
+    },
+    {
+      "epoch": 49.88561721404304,
+      "grad_norm": 0.8703135848045349,
+      "learning_rate": 5.358764759309719e-07,
+      "loss": 0.139,
+      "step": 22000
+    },
+    {
+      "epoch": 49.88561721404304,
+      "eval_loss": 0.40355798602104187,
+      "eval_runtime": 218.7677,
+      "eval_samples_per_second": 7.172,
+      "eval_steps_per_second": 0.9,
+      "step": 22000
+    },
+    {
+      "epoch": 49.998867497168746,
+      "grad_norm": 0.8729577660560608,
+      "learning_rate": 8.174386920980928e-08,
+      "loss": 0.1422,
+      "step": 22050
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 22050,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.11661035307008e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}