{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 7566,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00013217023526301876,
      "grad_norm": 6.957700714032043,
      "learning_rate": 0.0,
      "loss": 1.0983,
      "mean_token_accuracy": 0.7192040085792542,
      "num_tokens": 65536.0,
      "step": 1
    },
    {
      "epoch": 0.0002643404705260375,
      "grad_norm": 7.1641672338970865,
      "learning_rate": 1.3210039630118892e-08,
      "loss": 1.1494,
      "mean_token_accuracy": 0.7012574672698975,
      "num_tokens": 131072.0,
      "step": 2
    },
    {
      "epoch": 0.0003965107057890563,
      "grad_norm": 6.8095072604849705,
      "learning_rate": 2.6420079260237783e-08,
      "loss": 1.0964,
      "mean_token_accuracy": 0.7189750671386719,
      "num_tokens": 196608.0,
      "step": 3
    },
    {
      "epoch": 0.000528680941052075,
      "grad_norm": 6.347712549380873,
      "learning_rate": 3.9630118890356674e-08,
      "loss": 1.053,
      "mean_token_accuracy": 0.7296117544174194,
      "num_tokens": 262144.0,
      "step": 4
    },
    {
      "epoch": 0.0006608511763150939,
      "grad_norm": 6.421823322800878,
      "learning_rate": 5.284015852047557e-08,
      "loss": 1.0693,
      "mean_token_accuracy": 0.7282230257987976,
      "num_tokens": 327680.0,
      "step": 5
    },
    {
      "epoch": 0.0007930214115781126,
      "grad_norm": 7.505086399864066,
      "learning_rate": 6.605019815059445e-08,
      "loss": 1.1291,
      "mean_token_accuracy": 0.7070870399475098,
      "num_tokens": 393216.0,
      "step": 6
    },
    {
      "epoch": 0.0009251916468411313,
      "grad_norm": 7.471167856269708,
      "learning_rate": 7.926023778071335e-08,
      "loss": 1.1172,
      "mean_token_accuracy": 0.7096965909004211,
      "num_tokens": 458752.0,
      "step": 7
    },
    {
      "epoch": 0.00105736188210415,
      "grad_norm": 6.3763571120938725,
      "learning_rate": 9.247027741083225e-08,
      "loss": 1.0567,
      "mean_token_accuracy": 0.7274295091629028,
      "num_tokens": 524288.0,
      "step": 8
    },
    {
      "epoch": 0.0011895321173671688,
      "grad_norm": 6.648417263026968,
      "learning_rate": 1.0568031704095113e-07,
      "loss": 1.108,
      "mean_token_accuracy": 0.7143816351890564,
      "num_tokens": 589824.0,
      "step": 9
    },
    {
      "epoch": 0.0013217023526301878,
      "grad_norm": 7.7373278081337595,
      "learning_rate": 1.1889035667107001e-07,
      "loss": 1.2152,
      "mean_token_accuracy": 0.6888353228569031,
      "num_tokens": 655360.0,
      "step": 10
    },
    {
      "epoch": 0.0014538725878932065,
      "grad_norm": 6.615297236440097,
      "learning_rate": 1.321003963011889e-07,
      "loss": 1.0899,
      "mean_token_accuracy": 0.7199517488479614,
      "num_tokens": 720896.0,
      "step": 11
    },
    {
      "epoch": 0.0015860428231562252,
      "grad_norm": 8.144764086900624,
      "learning_rate": 1.4531043593130781e-07,
      "loss": 1.1564,
      "mean_token_accuracy": 0.6984189748764038,
      "num_tokens": 786432.0,
      "step": 12
    },
    {
      "epoch": 0.001718213058419244,
      "grad_norm": 6.970620047800608,
      "learning_rate": 1.585204755614267e-07,
      "loss": 1.1247,
      "mean_token_accuracy": 0.7095134854316711,
      "num_tokens": 851968.0,
      "step": 13
    },
    {
      "epoch": 0.0018503832936822627,
      "grad_norm": 6.364672535544319,
      "learning_rate": 1.717305151915456e-07,
      "loss": 1.0948,
      "mean_token_accuracy": 0.7188377380371094,
      "num_tokens": 917504.0,
      "step": 14
    },
    {
      "epoch": 0.0019825535289452814,
      "grad_norm": 6.6392520741193115,
      "learning_rate": 1.849405548216645e-07,
      "loss": 1.1362,
      "mean_token_accuracy": 0.7114973664283752,
      "num_tokens": 983040.0,
      "step": 15
    },
    {
      "epoch": 0.0021147237642083,
      "grad_norm": 7.0539462144113765,
      "learning_rate": 1.9815059445178336e-07,
      "loss": 1.1366,
      "mean_token_accuracy": 0.7088115215301514,
      "num_tokens": 1048576.0,
      "step": 16
    },
    {
      "epoch": 0.002246893999471319,
      "grad_norm": 6.573898584405452,
      "learning_rate": 2.1136063408190227e-07,
      "loss": 1.1159,
      "mean_token_accuracy": 0.7138780355453491,
      "num_tokens": 1114112.0,
      "step": 17
    },
    {
      "epoch": 0.0023790642347343376,
      "grad_norm": 6.9753962714477735,
      "learning_rate": 2.2457067371202117e-07,
      "loss": 1.1236,
      "mean_token_accuracy": 0.7106885313987732,
      "num_tokens": 1179648.0,
      "step": 18
    },
    {
      "epoch": 0.0025112344699973568,
      "grad_norm": 6.420970725687045,
      "learning_rate": 2.3778071334214003e-07,
      "loss": 1.1217,
      "mean_token_accuracy": 0.7096965909004211,
      "num_tokens": 1245184.0,
      "step": 19
    },
    {
      "epoch": 0.0026434047052603755,
      "grad_norm": 7.190737085921202,
      "learning_rate": 2.5099075297225896e-07,
      "loss": 1.1344,
      "mean_token_accuracy": 0.7049505710601807,
      "num_tokens": 1310720.0,
      "step": 20
    },
    {
      "epoch": 0.0027755749405233942,
      "grad_norm": 6.618450148060287,
      "learning_rate": 2.642007926023778e-07,
      "loss": 1.1232,
      "mean_token_accuracy": 0.7096202969551086,
      "num_tokens": 1376256.0,
      "step": 21
    },
    {
      "epoch": 0.002907745175786413,
      "grad_norm": 6.661187211154599,
      "learning_rate": 2.774108322324967e-07,
      "loss": 1.1099,
      "mean_token_accuracy": 0.7140153646469116,
      "num_tokens": 1441792.0,
      "step": 22
    },
    {
      "epoch": 0.0030399154110494317,
      "grad_norm": 6.345009601233029,
      "learning_rate": 2.9062087186261563e-07,
      "loss": 1.0761,
      "mean_token_accuracy": 0.7224240303039551,
      "num_tokens": 1507328.0,
      "step": 23
    },
    {
      "epoch": 0.0031720856463124504,
      "grad_norm": 6.692214391165073,
      "learning_rate": 3.0383091149273453e-07,
      "loss": 1.1303,
      "mean_token_accuracy": 0.706415593624115,
      "num_tokens": 1572864.0,
      "step": 24
    },
    {
      "epoch": 0.003304255881575469,
      "grad_norm": 6.859221073925105,
      "learning_rate": 3.170409511228534e-07,
      "loss": 1.0964,
      "mean_token_accuracy": 0.7123672366142273,
      "num_tokens": 1638400.0,
      "step": 25
    },
    {
      "epoch": 0.003436426116838488,
      "grad_norm": 6.137929317346025,
      "learning_rate": 3.302509907529723e-07,
      "loss": 1.0901,
      "mean_token_accuracy": 0.7146716117858887,
      "num_tokens": 1703936.0,
      "step": 26
    },
    {
      "epoch": 0.0035685963521015066,
      "grad_norm": 6.22433789902895,
      "learning_rate": 3.434610303830912e-07,
      "loss": 1.1297,
      "mean_token_accuracy": 0.7058662176132202,
      "num_tokens": 1769472.0,
      "step": 27
    },
    {
      "epoch": 0.0037007665873645254,
      "grad_norm": 6.00276604313404,
      "learning_rate": 3.5667107001321006e-07,
      "loss": 1.1621,
      "mean_token_accuracy": 0.6918874382972717,
      "num_tokens": 1835008.0,
      "step": 28
    },
    {
      "epoch": 0.003832936822627544,
      "grad_norm": 5.511226091344694,
      "learning_rate": 3.69881109643329e-07,
      "loss": 1.0854,
      "mean_token_accuracy": 0.7167317867279053,
      "num_tokens": 1900544.0,
      "step": 29
    },
    {
      "epoch": 0.003965107057890563,
      "grad_norm": 5.994356961141411,
      "learning_rate": 3.8309114927344787e-07,
      "loss": 1.0953,
      "mean_token_accuracy": 0.7111005783081055,
      "num_tokens": 1966080.0,
      "step": 30
    },
    {
      "epoch": 0.004097277293153582,
      "grad_norm": 6.067553529025381,
      "learning_rate": 3.963011889035667e-07,
      "loss": 1.1199,
      "mean_token_accuracy": 0.7103680968284607,
      "num_tokens": 2031616.0,
      "step": 31
    },
    {
      "epoch": 0.0042294475284166,
      "grad_norm": 6.218810066437411,
      "learning_rate": 4.095112285336857e-07,
      "loss": 1.1463,
      "mean_token_accuracy": 0.7032413482666016,
      "num_tokens": 2097152.0,
      "step": 32
    },
    {
      "epoch": 0.0043616177636796195,
      "grad_norm": 5.842525746365554,
      "learning_rate": 4.2272126816380454e-07,
      "loss": 1.0766,
      "mean_token_accuracy": 0.7208826541900635,
      "num_tokens": 2162688.0,
      "step": 33
    },
    {
      "epoch": 0.004493787998942638,
      "grad_norm": 5.620671372295368,
      "learning_rate": 4.359313077939234e-07,
      "loss": 1.1391,
      "mean_token_accuracy": 0.6971065998077393,
      "num_tokens": 2228224.0,
      "step": 34
    },
    {
      "epoch": 0.004625958234205657,
      "grad_norm": 5.583696434132944,
      "learning_rate": 4.4914134742404235e-07,
      "loss": 1.1067,
      "mean_token_accuracy": 0.710749626159668,
      "num_tokens": 2293760.0,
      "step": 35
    },
    {
      "epoch": 0.004758128469468675,
      "grad_norm": 4.688088516753559,
      "learning_rate": 4.623513870541612e-07,
      "loss": 1.1175,
      "mean_token_accuracy": 0.7068734169006348,
      "num_tokens": 2359296.0,
      "step": 36
    },
    {
      "epoch": 0.004890298704731694,
      "grad_norm": 3.944155727288372,
      "learning_rate": 4.7556142668428006e-07,
      "loss": 1.0424,
      "mean_token_accuracy": 0.7219356894493103,
      "num_tokens": 2424832.0,
      "step": 37
    },
    {
      "epoch": 0.0050224689399947136,
      "grad_norm": 3.4088892906599106,
      "learning_rate": 4.88771466314399e-07,
      "loss": 0.9575,
      "mean_token_accuracy": 0.7496489882469177,
      "num_tokens": 2490368.0,
      "step": 38
    },
    {
      "epoch": 0.005154639175257732,
      "grad_norm": 3.2618638709763745,
      "learning_rate": 5.019815059445179e-07,
      "loss": 1.0604,
      "mean_token_accuracy": 0.7096813321113586,
      "num_tokens": 2555904.0,
      "step": 39
    },
    {
      "epoch": 0.005286809410520751,
      "grad_norm": 3.712266007679404,
      "learning_rate": 5.151915455746368e-07,
      "loss": 1.0714,
      "mean_token_accuracy": 0.7127792835235596,
      "num_tokens": 2621440.0,
      "step": 40
    },
    {
      "epoch": 0.005418979645783769,
      "grad_norm": 2.85827477809128,
      "learning_rate": 5.284015852047556e-07,
      "loss": 0.9977,
      "mean_token_accuracy": 0.7294286489486694,
      "num_tokens": 2686976.0,
      "step": 41
    },
    {
      "epoch": 0.0055511498810467885,
      "grad_norm": 3.1073956750772584,
      "learning_rate": 5.416116248348746e-07,
      "loss": 1.0333,
      "mean_token_accuracy": 0.7258729338645935,
      "num_tokens": 2752512.0,
      "step": 42
    },
    {
      "epoch": 0.005683320116309807,
      "grad_norm": 3.190817507950437,
      "learning_rate": 5.548216644649934e-07,
      "loss": 1.0319,
      "mean_token_accuracy": 0.7236448526382446,
      "num_tokens": 2818048.0,
      "step": 43
    },
    {
      "epoch": 0.005815490351572826,
      "grad_norm": 3.034654849473094,
      "learning_rate": 5.680317040951124e-07,
      "loss": 1.08,
      "mean_token_accuracy": 0.7105359435081482,
      "num_tokens": 2883584.0,
      "step": 44
    },
    {
      "epoch": 0.005947660586835844,
      "grad_norm": 2.9224782406362246,
      "learning_rate": 5.812417437252313e-07,
      "loss": 0.9883,
      "mean_token_accuracy": 0.7297338247299194,
      "num_tokens": 2949120.0,
      "step": 45
    },
    {
      "epoch": 0.006079830822098863,
      "grad_norm": 2.5273790436134735,
      "learning_rate": 5.944517833553501e-07,
      "loss": 0.9925,
      "mean_token_accuracy": 0.731488823890686,
      "num_tokens": 3014656.0,
      "step": 46
    },
    {
      "epoch": 0.006212001057361882,
      "grad_norm": 2.7242956629213118,
      "learning_rate": 6.076618229854691e-07,
      "loss": 1.0685,
      "mean_token_accuracy": 0.7128403186798096,
      "num_tokens": 3080192.0,
      "step": 47
    },
    {
      "epoch": 0.006344171292624901,
      "grad_norm": 2.8802758070784376,
      "learning_rate": 6.208718626155879e-07,
      "loss": 1.0775,
      "mean_token_accuracy": 0.7116041779518127,
      "num_tokens": 3145728.0,
      "step": 48
    },
    {
      "epoch": 0.00647634152788792,
      "grad_norm": 2.299955792020621,
      "learning_rate": 6.340819022457068e-07,
      "loss": 0.9791,
      "mean_token_accuracy": 0.7343120574951172,
      "num_tokens": 3211264.0,
      "step": 49
    },
    {
      "epoch": 0.006608511763150938,
      "grad_norm": 1.8273130934916917,
      "learning_rate": 6.472919418758257e-07,
      "loss": 1.0571,
      "mean_token_accuracy": 0.706476628780365,
      "num_tokens": 3276800.0,
      "step": 50
    },
    {
      "epoch": 0.0067406819984139575,
      "grad_norm": 1.6886931474260805,
      "learning_rate": 6.605019815059446e-07,
      "loss": 0.9893,
      "mean_token_accuracy": 0.7291234135627747,
      "num_tokens": 3342336.0,
      "step": 51
    },
    {
      "epoch": 0.006872852233676976,
      "grad_norm": 1.6370475395820292,
      "learning_rate": 6.737120211360634e-07,
      "loss": 1.0628,
      "mean_token_accuracy": 0.7128403186798096,
      "num_tokens": 3407872.0,
      "step": 52
    },
    {
      "epoch": 0.007005022468939995,
      "grad_norm": 1.4536353189160003,
      "learning_rate": 6.869220607661824e-07,
      "loss": 0.995,
      "mean_token_accuracy": 0.7282230257987976,
      "num_tokens": 3473408.0,
      "step": 53
    },
    {
      "epoch": 0.007137192704203013,
      "grad_norm": 1.5100616157585254,
      "learning_rate": 7.001321003963013e-07,
      "loss": 1.0327,
      "mean_token_accuracy": 0.716350257396698,
      "num_tokens": 3538944.0,
      "step": 54
    },
    {
      "epoch": 0.0072693629394660324,
      "grad_norm": 1.4388359377055655,
      "learning_rate": 7.133421400264201e-07,
      "loss": 1.0409,
      "mean_token_accuracy": 0.7122451663017273,
      "num_tokens": 3604480.0,
      "step": 55
    },
    {
      "epoch": 0.007401533174729051,
      "grad_norm": 1.3596538775172875,
      "learning_rate": 7.265521796565391e-07,
      "loss": 0.9287,
      "mean_token_accuracy": 0.7452234029769897,
      "num_tokens": 3670016.0,
      "step": 56
    },
    {
      "epoch": 0.00753370340999207,
      "grad_norm": 1.4056840831280957,
      "learning_rate": 7.39762219286658e-07,
      "loss": 0.9769,
      "mean_token_accuracy": 0.7321755290031433,
      "num_tokens": 3735552.0,
      "step": 57
    },
    {
      "epoch": 0.007665873645255088,
      "grad_norm": 1.3660244371219448,
      "learning_rate": 7.529722589167768e-07,
      "loss": 0.9772,
      "mean_token_accuracy": 0.7328165173530579,
      "num_tokens": 3801088.0,
      "step": 58
    },
    {
      "epoch": 0.007798043880518107,
      "grad_norm": 1.2873708030814357,
      "learning_rate": 7.661822985468957e-07,
      "loss": 0.948,
      "mean_token_accuracy": 0.7344036102294922,
      "num_tokens": 3866624.0,
      "step": 59
    },
    {
      "epoch": 0.007930214115781126,
      "grad_norm": 1.3001906700079386,
      "learning_rate": 7.793923381770147e-07,
      "loss": 0.9852,
      "mean_token_accuracy": 0.7268496155738831,
      "num_tokens": 3932160.0,
      "step": 60
    },
    {
      "epoch": 0.008062384351044146,
      "grad_norm": 1.370849879948316,
      "learning_rate": 7.926023778071334e-07,
      "loss": 1.054,
      "mean_token_accuracy": 0.7053778767585754,
      "num_tokens": 3997696.0,
      "step": 61
    },
    {
      "epoch": 0.008194554586307164,
      "grad_norm": 1.2274046770147693,
      "learning_rate": 8.058124174372524e-07,
      "loss": 0.9613,
      "mean_token_accuracy": 0.7323892116546631,
      "num_tokens": 4063232.0,
      "step": 62
    },
    {
      "epoch": 0.008326724821570182,
      "grad_norm": 1.1633431521899247,
      "learning_rate": 8.190224570673714e-07,
      "loss": 0.8995,
      "mean_token_accuracy": 0.7525485157966614,
      "num_tokens": 4128768.0,
      "step": 63
    },
    {
      "epoch": 0.0084588950568332,
      "grad_norm": 1.1737035757402159,
      "learning_rate": 8.322324966974901e-07,
      "loss": 0.9435,
      "mean_token_accuracy": 0.7386155724525452,
      "num_tokens": 4194304.0,
      "step": 64
    },
    {
      "epoch": 0.00859106529209622,
      "grad_norm": 1.2164647609947612,
      "learning_rate": 8.454425363276091e-07,
      "loss": 0.9722,
      "mean_token_accuracy": 0.7283298969268799,
      "num_tokens": 4259840.0,
      "step": 65
    },
    {
      "epoch": 0.008723235527359239,
      "grad_norm": 1.1271297598243555,
      "learning_rate": 8.58652575957728e-07,
      "loss": 0.9849,
      "mean_token_accuracy": 0.7222256064414978,
      "num_tokens": 4325376.0,
      "step": 66
    },
    {
      "epoch": 0.008855405762622257,
      "grad_norm": 1.1324507469468128,
      "learning_rate": 8.718626155878468e-07,
      "loss": 0.9801,
      "mean_token_accuracy": 0.7276278734207153,
      "num_tokens": 4390912.0,
      "step": 67
    },
    {
      "epoch": 0.008987575997885276,
      "grad_norm": 1.1133189033725213,
      "learning_rate": 8.850726552179657e-07,
      "loss": 0.9473,
      "mean_token_accuracy": 0.7363722324371338,
      "num_tokens": 4456448.0,
      "step": 68
    },
    {
      "epoch": 0.009119746233148296,
      "grad_norm": 1.0435466150540147,
      "learning_rate": 8.982826948480847e-07,
      "loss": 0.941,
      "mean_token_accuracy": 0.7331064343452454,
      "num_tokens": 4521984.0,
      "step": 69
    },
    {
      "epoch": 0.009251916468411314,
      "grad_norm": 1.1049484316105527,
      "learning_rate": 9.114927344782034e-07,
      "loss": 0.9997,
      "mean_token_accuracy": 0.7185019850730896,
      "num_tokens": 4587520.0,
      "step": 70
    },
    {
      "epoch": 0.009384086703674332,
      "grad_norm": 1.0140348771137748,
      "learning_rate": 9.247027741083224e-07,
      "loss": 0.9475,
      "mean_token_accuracy": 0.7320229411125183,
      "num_tokens": 4653056.0,
      "step": 71
    },
    {
      "epoch": 0.00951625693893735,
      "grad_norm": 0.9342213186334061,
      "learning_rate": 9.379128137384414e-07,
      "loss": 0.8563,
      "mean_token_accuracy": 0.7617201805114746,
      "num_tokens": 4718592.0,
      "step": 72
    },
    {
      "epoch": 0.00964842717420037,
      "grad_norm": 0.9361677240088865,
      "learning_rate": 9.511228533685601e-07,
      "loss": 0.8835,
      "mean_token_accuracy": 0.7502442002296448,
      "num_tokens": 4784128.0,
      "step": 73
    },
    {
      "epoch": 0.009780597409463389,
      "grad_norm": 0.9736155278924413,
      "learning_rate": 9.64332892998679e-07,
      "loss": 0.9569,
      "mean_token_accuracy": 0.726284921169281,
      "num_tokens": 4849664.0,
      "step": 74
    },
    {
      "epoch": 0.009912767644726407,
      "grad_norm": 0.9837630705056091,
      "learning_rate": 9.77542932628798e-07,
      "loss": 0.9593,
      "mean_token_accuracy": 0.7262086272239685,
      "num_tokens": 4915200.0,
      "step": 75
    },
    {
      "epoch": 0.010044937879989427,
      "grad_norm": 0.8946493094277936,
      "learning_rate": 9.907529722589168e-07,
      "loss": 0.8638,
      "mean_token_accuracy": 0.7511292695999146,
      "num_tokens": 4980736.0,
      "step": 76
    },
    {
      "epoch": 0.010177108115252445,
      "grad_norm": 0.9441929300417938,
      "learning_rate": 1.0039630118890358e-06,
      "loss": 0.9864,
      "mean_token_accuracy": 0.7187004089355469,
      "num_tokens": 5046272.0,
      "step": 77
    },
    {
      "epoch": 0.010309278350515464,
      "grad_norm": 0.9082959440881991,
      "learning_rate": 1.0171730515191547e-06,
      "loss": 0.9093,
      "mean_token_accuracy": 0.7393480539321899,
      "num_tokens": 5111808.0,
      "step": 78
    },
    {
      "epoch": 0.010441448585778482,
      "grad_norm": 0.8525971904448233,
      "learning_rate": 1.0303830911492736e-06,
      "loss": 0.9037,
      "mean_token_accuracy": 0.7359907031059265,
      "num_tokens": 5177344.0,
      "step": 79
    },
    {
      "epoch": 0.010573618821041502,
      "grad_norm": 0.8406455973339398,
      "learning_rate": 1.0435931307793924e-06,
      "loss": 0.8803,
      "mean_token_accuracy": 0.749847412109375,
      "num_tokens": 5242880.0,
      "step": 80
    },
    {
      "epoch": 0.01070578905630452,
      "grad_norm": 0.8608474494064567,
      "learning_rate": 1.0568031704095113e-06,
      "loss": 0.9418,
      "mean_token_accuracy": 0.7286198139190674,
      "num_tokens": 5308416.0,
      "step": 81
    },
    {
      "epoch": 0.010837959291567539,
      "grad_norm": 0.8541023753737392,
      "learning_rate": 1.0700132100396301e-06,
      "loss": 0.9473,
      "mean_token_accuracy": 0.7230802178382874,
      "num_tokens": 5373952.0,
      "step": 82
    },
    {
      "epoch": 0.010970129526830557,
      "grad_norm": 0.8732108060019078,
      "learning_rate": 1.0832232496697492e-06,
      "loss": 0.94,
      "mean_token_accuracy": 0.7307868599891663,
      "num_tokens": 5439488.0,
      "step": 83
    },
    {
      "epoch": 0.011102299762093577,
      "grad_norm": 0.8103886777629647,
      "learning_rate": 1.096433289299868e-06,
      "loss": 0.8806,
      "mean_token_accuracy": 0.7434532046318054,
      "num_tokens": 5505024.0,
      "step": 84
    },
    {
      "epoch": 0.011234469997356595,
      "grad_norm": 0.8457127504662689,
      "learning_rate": 1.1096433289299869e-06,
      "loss": 0.8914,
      "mean_token_accuracy": 0.7421102523803711,
      "num_tokens": 5570560.0,
      "step": 85
    },
    {
      "epoch": 0.011366640232619614,
      "grad_norm": 0.8311653447548312,
      "learning_rate": 1.1228533685601057e-06,
      "loss": 0.934,
      "mean_token_accuracy": 0.7344341278076172,
      "num_tokens": 5636096.0,
      "step": 86
    },
    {
      "epoch": 0.011498810467882634,
      "grad_norm": 0.8430781567300121,
      "learning_rate": 1.1360634081902248e-06,
      "loss": 0.905,
      "mean_token_accuracy": 0.7408893704414368,
      "num_tokens": 5701632.0,
      "step": 87
    },
    {
      "epoch": 0.011630980703145652,
      "grad_norm": 0.8376456510339795,
      "learning_rate": 1.1492734478203434e-06,
      "loss": 0.9564,
      "mean_token_accuracy": 0.7225155830383301,
      "num_tokens": 5767168.0,
      "step": 88
    },
    {
      "epoch": 0.01176315093840867,
      "grad_norm": 0.7847804139810242,
      "learning_rate": 1.1624834874504625e-06,
      "loss": 0.936,
      "mean_token_accuracy": 0.731214165687561,
      "num_tokens": 5832704.0,
      "step": 89
    },
    {
      "epoch": 0.011895321173671689,
      "grad_norm": 0.7931066437831544,
      "learning_rate": 1.1756935270805814e-06,
      "loss": 0.9144,
      "mean_token_accuracy": 0.7337474226951599,
      "num_tokens": 5898240.0,
      "step": 90
    },
    {
      "epoch": 0.012027491408934709,
      "grad_norm": 0.7678763695649288,
      "learning_rate": 1.1889035667107002e-06,
      "loss": 0.8798,
      "mean_token_accuracy": 0.7453454732894897,
      "num_tokens": 5963776.0,
      "step": 91
    },
    {
      "epoch": 0.012159661644197727,
      "grad_norm": 0.8252597838926503,
      "learning_rate": 1.202113606340819e-06,
      "loss": 0.909,
      "mean_token_accuracy": 0.7366469502449036,
      "num_tokens": 6029312.0,
      "step": 92
    },
    {
      "epoch": 0.012291831879460745,
      "grad_norm": 0.7710129639070472,
      "learning_rate": 1.2153236459709381e-06,
      "loss": 0.8477,
      "mean_token_accuracy": 0.7530826330184937,
      "num_tokens": 6094848.0,
      "step": 93
    },
    {
      "epoch": 0.012424002114723763,
      "grad_norm": 0.8163925541175688,
      "learning_rate": 1.2285336856010568e-06,
      "loss": 0.8986,
      "mean_token_accuracy": 0.7384018898010254,
      "num_tokens": 6160384.0,
      "step": 94
    },
    {
      "epoch": 0.012556172349986783,
      "grad_norm": 0.8253101441918174,
      "learning_rate": 1.2417437252311758e-06,
      "loss": 0.9133,
      "mean_token_accuracy": 0.7352887392044067,
      "num_tokens": 6225920.0,
      "step": 95
    },
    {
      "epoch": 0.012688342585249802,
      "grad_norm": 0.765668665869954,
      "learning_rate": 1.2549537648612947e-06,
      "loss": 0.8728,
      "mean_token_accuracy": 0.7450860738754272,
      "num_tokens": 6291456.0,
      "step": 96
    },
    {
      "epoch": 0.01282051282051282,
      "grad_norm": 0.7800072717525395,
      "learning_rate": 1.2681638044914136e-06,
      "loss": 0.929,
      "mean_token_accuracy": 0.7280246615409851,
      "num_tokens": 6356992.0,
      "step": 97
    },
    {
      "epoch": 0.01295268305577584,
      "grad_norm": 0.7834134475051282,
      "learning_rate": 1.2813738441215326e-06,
      "loss": 0.9254,
      "mean_token_accuracy": 0.7311988472938538,
      "num_tokens": 6422528.0,
      "step": 98
    },
    {
      "epoch": 0.013084853291038858,
      "grad_norm": 0.7347659712555972,
      "learning_rate": 1.2945838837516515e-06,
      "loss": 0.8523,
      "mean_token_accuracy": 0.7514039874076843,
      "num_tokens": 6488064.0,
      "step": 99
    },
    {
      "epoch": 0.013217023526301877,
      "grad_norm": 0.8259396129218242,
      "learning_rate": 1.3077939233817701e-06,
      "loss": 0.9136,
      "mean_token_accuracy": 0.731305718421936,
      "num_tokens": 6553600.0,
      "step": 100
    },
    {
      "epoch": 0.013349193761564895,
      "grad_norm": 0.696184875743928,
      "learning_rate": 1.3210039630118892e-06,
      "loss": 0.8067,
      "mean_token_accuracy": 0.7654132843017578,
      "num_tokens": 6619136.0,
      "step": 101
    },
    {
      "epoch": 0.013481363996827915,
      "grad_norm": 0.7409308148014699,
      "learning_rate": 1.334214002642008e-06,
      "loss": 0.889,
      "mean_token_accuracy": 0.7436057925224304,
      "num_tokens": 6684672.0,
      "step": 102
    },
    {
      "epoch": 0.013613534232090933,
      "grad_norm": 0.7778519466298204,
      "learning_rate": 1.3474240422721269e-06,
      "loss": 0.944,
      "mean_token_accuracy": 0.725888192653656,
      "num_tokens": 6750208.0,
      "step": 103
    },
    {
      "epoch": 0.013745704467353952,
      "grad_norm": 0.7788415223735142,
      "learning_rate": 1.360634081902246e-06,
      "loss": 0.9368,
      "mean_token_accuracy": 0.7246825695037842,
      "num_tokens": 6815744.0,
      "step": 104
    },
    {
      "epoch": 0.01387787470261697,
      "grad_norm": 0.733464533735661,
      "learning_rate": 1.3738441215323648e-06,
      "loss": 0.9066,
      "mean_token_accuracy": 0.7374709844589233,
      "num_tokens": 6881280.0,
      "step": 105
    },
    {
      "epoch": 0.01401004493787999,
      "grad_norm": 0.7633797658675768,
      "learning_rate": 1.3870541611624834e-06,
      "loss": 0.8931,
      "mean_token_accuracy": 0.7331369519233704,
      "num_tokens": 6946816.0,
      "step": 106
    },
    {
      "epoch": 0.014142215173143008,
      "grad_norm": 0.7267903751935816,
      "learning_rate": 1.4002642007926025e-06,
      "loss": 0.9005,
      "mean_token_accuracy": 0.7335489988327026,
      "num_tokens": 7012352.0,
      "step": 107
    },
    {
      "epoch": 0.014274385408406027,
      "grad_norm": 0.7643446738040165,
      "learning_rate": 1.4134742404227214e-06,
      "loss": 0.8908,
      "mean_token_accuracy": 0.7413777112960815,
      "num_tokens": 7077888.0,
      "step": 108
    },
    {
      "epoch": 0.014406555643669047,
      "grad_norm": 0.6772256860008208,
      "learning_rate": 1.4266842800528402e-06,
      "loss": 0.8463,
      "mean_token_accuracy": 0.7537236213684082,
      "num_tokens": 7143424.0,
      "step": 109
    },
    {
      "epoch": 0.014538725878932065,
      "grad_norm": 0.7609062026270402,
      "learning_rate": 1.4398943196829593e-06,
      "loss": 0.8842,
      "mean_token_accuracy": 0.7386766076087952,
      "num_tokens": 7208960.0,
      "step": 110
    },
    {
      "epoch": 0.014670896114195083,
      "grad_norm": 0.7225536354591765,
      "learning_rate": 1.4531043593130781e-06,
      "loss": 0.88,
      "mean_token_accuracy": 0.7402331829071045,
      "num_tokens": 7274496.0,
      "step": 111
    },
    {
      "epoch": 0.014803066349458101,
      "grad_norm": 0.7780220914766722,
      "learning_rate": 1.4663143989431968e-06,
      "loss": 0.8615,
      "mean_token_accuracy": 0.7509766817092896,
      "num_tokens": 7340032.0,
      "step": 112
    },
    {
      "epoch": 0.014935236584721122,
      "grad_norm": 0.7584207358035956,
      "learning_rate": 1.479524438573316e-06,
      "loss": 0.8626,
      "mean_token_accuracy": 0.7442772388458252,
      "num_tokens": 7405568.0,
      "step": 113
    },
    {
      "epoch": 0.01506740681998414,
      "grad_norm": 0.7163184678477569,
      "learning_rate": 1.4927344782034347e-06,
      "loss": 0.8717,
      "mean_token_accuracy": 0.7387834191322327,
      "num_tokens": 7471104.0,
      "step": 114
    },
    {
      "epoch": 0.015199577055247158,
      "grad_norm": 0.730280213325568,
      "learning_rate": 1.5059445178335536e-06,
      "loss": 0.8406,
      "mean_token_accuracy": 0.7508546113967896,
      "num_tokens": 7536640.0,
      "step": 115
    },
    {
      "epoch": 0.015331747290510176,
      "grad_norm": 0.7054418606824134,
      "learning_rate": 1.5191545574636726e-06,
      "loss": 0.8733,
      "mean_token_accuracy": 0.7415303587913513,
      "num_tokens": 7602176.0,
      "step": 116
    },
    {
      "epoch": 0.015463917525773196,
      "grad_norm": 0.7344535005657318,
      "learning_rate": 1.5323645970937915e-06,
      "loss": 0.8746,
      "mean_token_accuracy": 0.7372115850448608,
      "num_tokens": 7667712.0,
      "step": 117
    },
    {
      "epoch": 0.015596087761036215,
      "grad_norm": 0.7250817490786946,
      "learning_rate": 1.5455746367239103e-06,
      "loss": 0.8756,
      "mean_token_accuracy": 0.7432852983474731,
      "num_tokens": 7733248.0,
      "step": 118
    },
    {
      "epoch": 0.015728257996299233,
      "grad_norm": 0.7693856296766783,
      "learning_rate": 1.5587846763540294e-06,
      "loss": 0.9179,
      "mean_token_accuracy": 0.7280399203300476,
      "num_tokens": 7798784.0,
      "step": 119
    },
    {
      "epoch": 0.01586042823156225,
      "grad_norm": 0.7409731580889363,
      "learning_rate": 1.571994715984148e-06,
      "loss": 0.8644,
      "mean_token_accuracy": 0.7407978177070618,
      "num_tokens": 7864320.0,
      "step": 120
    },
    {
      "epoch": 0.01599259846682527,
      "grad_norm": 0.7091728049779311,
      "learning_rate": 1.5852047556142669e-06,
      "loss": 0.8192,
      "mean_token_accuracy": 0.7562568783760071,
      "num_tokens": 7929856.0,
      "step": 121
    },
    {
      "epoch": 0.01612476870208829,
      "grad_norm": 0.7645451723592865,
      "learning_rate": 1.598414795244386e-06,
      "loss": 0.8394,
      "mean_token_accuracy": 0.7513887286186218,
      "num_tokens": 7995392.0,
      "step": 122
    },
    {
      "epoch": 0.01625693893735131,
      "grad_norm": 0.7424407841223357,
      "learning_rate": 1.6116248348745048e-06,
      "loss": 0.8706,
      "mean_token_accuracy": 0.7409809827804565,
      "num_tokens": 8060928.0,
      "step": 123
    },
    {
      "epoch": 0.016389109172614328,
      "grad_norm": 0.757890891705412,
      "learning_rate": 1.6248348745046237e-06,
      "loss": 0.8886,
      "mean_token_accuracy": 0.7355023622512817,
      "num_tokens": 8126464.0,
      "step": 124
    },
    {
      "epoch": 0.016521279407877346,
      "grad_norm": 0.7853282693829975,
      "learning_rate": 1.6380449141347427e-06,
      "loss": 0.937,
      "mean_token_accuracy": 0.720806360244751,
      "num_tokens": 8192000.0,
      "step": 125
    },
    {
      "epoch": 0.016653449643140365,
      "grad_norm": 0.7249840691226063,
      "learning_rate": 1.6512549537648614e-06,
      "loss": 0.8445,
      "mean_token_accuracy": 0.7489928007125854,
      "num_tokens": 8257536.0,
      "step": 126
    },
    {
      "epoch": 0.016785619878403383,
      "grad_norm": 0.7161037903754257,
      "learning_rate": 1.6644649933949802e-06,
      "loss": 0.8827,
      "mean_token_accuracy": 0.7360517382621765,
      "num_tokens": 8323072.0,
      "step": 127
    },
    {
      "epoch": 0.0169177901136664,
      "grad_norm": 0.709625479934526,
      "learning_rate": 1.6776750330250993e-06,
      "loss": 0.9001,
      "mean_token_accuracy": 0.7337626814842224,
      "num_tokens": 8388608.0,
      "step": 128
    },
    {
      "epoch": 0.01704996034892942,
      "grad_norm": 0.717977471732701,
      "learning_rate": 1.6908850726552181e-06,
      "loss": 0.8957,
      "mean_token_accuracy": 0.7344493865966797,
      "num_tokens": 8454144.0,
      "step": 129
    },
    {
      "epoch": 0.01718213058419244,
      "grad_norm": 0.7611425621021748,
      "learning_rate": 1.704095112285337e-06,
      "loss": 0.8821,
      "mean_token_accuracy": 0.7405994534492493,
      "num_tokens": 8519680.0,
      "step": 130
    },
    {
      "epoch": 0.01731430081945546,
      "grad_norm": 0.6872765931282789,
      "learning_rate": 1.717305151915456e-06,
      "loss": 0.8004,
      "mean_token_accuracy": 0.7653064131736755,
      "num_tokens": 8585216.0,
      "step": 131
    },
    {
      "epoch": 0.017446471054718478,
      "grad_norm": 0.6916386075663681,
      "learning_rate": 1.7305151915455747e-06,
      "loss": 0.8314,
      "mean_token_accuracy": 0.7548986673355103,
      "num_tokens": 8650752.0,
      "step": 132
    },
    {
      "epoch": 0.017578641289981496,
      "grad_norm": 0.7201869596362779,
      "learning_rate": 1.7437252311756936e-06,
      "loss": 0.8309,
      "mean_token_accuracy": 0.7539525032043457,
      "num_tokens": 8716288.0,
      "step": 133
    },
    {
      "epoch": 0.017710811525244514,
      "grad_norm": 0.7428115741343573,
      "learning_rate": 1.7569352708058126e-06,
      "loss": 0.848,
      "mean_token_accuracy": 0.7475125193595886,
      "num_tokens": 8781824.0,
      "step": 134
    },
    {
      "epoch": 0.017842981760507533,
      "grad_norm": 0.7354543020678891,
      "learning_rate": 1.7701453104359315e-06,
      "loss": 0.8064,
      "mean_token_accuracy": 0.7611860632896423,
      "num_tokens": 8847360.0,
      "step": 135
    },
    {
      "epoch": 0.01797515199577055,
      "grad_norm": 0.7173735624310742,
      "learning_rate": 1.7833553500660503e-06,
      "loss": 0.8643,
      "mean_token_accuracy": 0.7417134642601013,
      "num_tokens": 8912896.0,
      "step": 136
    },
    {
      "epoch": 0.018107322231033573,
      "grad_norm": 0.7039234038441876,
      "learning_rate": 1.7965653896961694e-06,
      "loss": 0.7757,
      "mean_token_accuracy": 0.7678702473640442,
      "num_tokens": 8978432.0,
      "step": 137
    },
    {
      "epoch": 0.01823949246629659,
      "grad_norm": 0.7524570417419832,
      "learning_rate": 1.809775429326288e-06,
      "loss": 0.8415,
      "mean_token_accuracy": 0.7514650225639343,
      "num_tokens": 9043968.0,
      "step": 138
    },
    {
      "epoch": 0.01837166270155961,
      "grad_norm": 0.7341665927461095,
      "learning_rate": 1.8229854689564069e-06,
      "loss": 0.8575,
      "mean_token_accuracy": 0.7472835779190063,
      "num_tokens": 9109504.0,
      "step": 139
    },
    {
      "epoch": 0.018503832936822628,
      "grad_norm": 0.7034133841500246,
      "learning_rate": 1.836195508586526e-06,
      "loss": 0.8095,
      "mean_token_accuracy": 0.7555548548698425,
      "num_tokens": 9175040.0,
      "step": 140
    },
    {
      "epoch": 0.018636003172085646,
      "grad_norm": 0.757168652500877,
      "learning_rate": 1.8494055482166448e-06,
      "loss": 0.8715,
      "mean_token_accuracy": 0.7405079007148743,
      "num_tokens": 9240576.0,
      "step": 141
    },
    {
      "epoch": 0.018768173407348664,
      "grad_norm": 0.7451104664175263,
      "learning_rate": 1.8626155878467637e-06,
      "loss": 0.8649,
      "mean_token_accuracy": 0.7421102523803711,
      "num_tokens": 9306112.0,
      "step": 142
    },
    {
      "epoch": 0.018900343642611683,
      "grad_norm": 0.7482632623511752,
      "learning_rate": 1.8758256274768827e-06,
      "loss": 0.8249,
      "mean_token_accuracy": 0.7554938197135925,
      "num_tokens": 9371648.0,
      "step": 143
    },
    {
      "epoch": 0.0190325138778747,
      "grad_norm": 0.7169049812067287,
      "learning_rate": 1.8890356671070016e-06,
      "loss": 0.8391,
      "mean_token_accuracy": 0.7514497637748718,
      "num_tokens": 9437184.0,
      "step": 144
    },
    {
      "epoch": 0.019164684113137723,
      "grad_norm": 0.7840028002580148,
      "learning_rate": 1.9022457067371202e-06,
      "loss": 0.8632,
      "mean_token_accuracy": 0.7407978177070618,
      "num_tokens": 9502720.0,
      "step": 145
    },
    {
      "epoch": 0.01929685434840074,
      "grad_norm": 0.751976730811151,
      "learning_rate": 1.9154557463672395e-06,
      "loss": 0.8197,
      "mean_token_accuracy": 0.7525332570075989,
      "num_tokens": 9568256.0,
      "step": 146
    },
    {
      "epoch": 0.01942902458366376,
      "grad_norm": 0.7728936585269056,
      "learning_rate": 1.928665785997358e-06,
      "loss": 0.8385,
      "mean_token_accuracy": 0.7471462488174438,
      "num_tokens": 9633792.0,
      "step": 147
    },
    {
      "epoch": 0.019561194818926778,
      "grad_norm": 0.7296169074733622,
      "learning_rate": 1.9418758256274768e-06,
      "loss": 0.7878,
      "mean_token_accuracy": 0.7613539099693298,
      "num_tokens": 9699328.0,
      "step": 148
    },
    {
      "epoch": 0.019693365054189796,
      "grad_norm": 0.7437287829533681,
      "learning_rate": 1.955085865257596e-06,
      "loss": 0.8466,
      "mean_token_accuracy": 0.7513887286186218,
      "num_tokens": 9764864.0,
      "step": 149
    },
    {
      "epoch": 0.019825535289452814,
      "grad_norm": 0.7300176221580168,
      "learning_rate": 1.968295904887715e-06,
      "loss": 0.8194,
      "mean_token_accuracy": 0.7548681497573853,
      "num_tokens": 9830400.0,
      "step": 150
    },
    {
      "epoch": 0.019957705524715832,
      "grad_norm": 0.6855477463238256,
      "learning_rate": 1.9815059445178336e-06,
      "loss": 0.8287,
      "mean_token_accuracy": 0.7540440559387207,
      "num_tokens": 9895936.0,
      "step": 151
    },
    {
      "epoch": 0.020089875759978854,
      "grad_norm": 0.7160434127250255,
      "learning_rate": 1.9947159841479526e-06,
      "loss": 0.8026,
      "mean_token_accuracy": 0.7601941227912903,
      "num_tokens": 9961472.0,
      "step": 152
    },
    {
      "epoch": 0.020222045995241873,
      "grad_norm": 0.756620779427381,
      "learning_rate": 2.0079260237780717e-06,
      "loss": 0.8662,
      "mean_token_accuracy": 0.7397295832633972,
      "num_tokens": 10027008.0,
      "step": 153
    },
    {
      "epoch": 0.02035421623050489,
      "grad_norm": 0.7161792888717843,
      "learning_rate": 2.0211360634081903e-06,
      "loss": 0.8189,
      "mean_token_accuracy": 0.7562568783760071,
      "num_tokens": 10092544.0,
      "step": 154
    },
    {
      "epoch": 0.02048638646576791,
      "grad_norm": 0.7223239903986668,
      "learning_rate": 2.0343461030383094e-06,
      "loss": 0.7906,
      "mean_token_accuracy": 0.7672140002250671,
      "num_tokens": 10158080.0,
      "step": 155
    },
    {
      "epoch": 0.020618556701030927,
      "grad_norm": 0.7295178067082708,
      "learning_rate": 2.047556142668428e-06,
      "loss": 0.7749,
      "mean_token_accuracy": 0.7662373185157776,
      "num_tokens": 10223616.0,
      "step": 156
    },
    {
      "epoch": 0.020750726936293946,
      "grad_norm": 0.7033934649323509,
      "learning_rate": 2.060766182298547e-06,
      "loss": 0.7906,
      "mean_token_accuracy": 0.7612013220787048,
      "num_tokens": 10289152.0,
      "step": 157
    },
    {
      "epoch": 0.020882897171556964,
      "grad_norm": 0.7714248017323682,
      "learning_rate": 2.073976221928666e-06,
      "loss": 0.8809,
      "mean_token_accuracy": 0.7308631539344788,
      "num_tokens": 10354688.0,
      "step": 158
    },
    {
      "epoch": 0.021015067406819986,
      "grad_norm": 0.7267939427010185,
      "learning_rate": 2.087186261558785e-06,
      "loss": 0.8413,
      "mean_token_accuracy": 0.7505951523780823,
      "num_tokens": 10420224.0,
      "step": 159
    },
    {
      "epoch": 0.021147237642083004,
      "grad_norm": 0.6926840522099964,
      "learning_rate": 2.1003963011889035e-06,
      "loss": 0.7986,
      "mean_token_accuracy": 0.7612928748130798,
      "num_tokens": 10485760.0,
      "step": 160
    },
    {
      "epoch": 0.021279407877346022,
      "grad_norm": 0.6803683006365302,
      "learning_rate": 2.1136063408190225e-06,
      "loss": 0.7373,
      "mean_token_accuracy": 0.7798956036567688,
      "num_tokens": 10551296.0,
      "step": 161
    },
    {
      "epoch": 0.02141157811260904,
      "grad_norm": 0.7301445690185864,
      "learning_rate": 2.1268163804491416e-06,
      "loss": 0.8019,
      "mean_token_accuracy": 0.758851170539856,
      "num_tokens": 10616832.0,
      "step": 162
    },
    {
      "epoch": 0.02154374834787206,
      "grad_norm": 0.7608866124324192,
      "learning_rate": 2.1400264200792602e-06,
      "loss": 0.8337,
      "mean_token_accuracy": 0.7478482723236084,
      "num_tokens": 10682368.0,
      "step": 163
    },
    {
      "epoch": 0.021675918583135077,
      "grad_norm": 0.7237344170367529,
      "learning_rate": 2.1532364597093793e-06,
      "loss": 0.7998,
      "mean_token_accuracy": 0.7569283246994019,
      "num_tokens": 10747904.0,
      "step": 164
    },
    {
      "epoch": 0.021808088818398096,
      "grad_norm": 0.7392523985813007,
      "learning_rate": 2.1664464993394984e-06,
      "loss": 0.7699,
      "mean_token_accuracy": 0.7671834826469421,
      "num_tokens": 10813440.0,
      "step": 165
    },
    {
      "epoch": 0.021940259053661114,
      "grad_norm": 0.6696173473328371,
      "learning_rate": 2.179656538969617e-06,
      "loss": 0.7985,
      "mean_token_accuracy": 0.7582255005836487,
      "num_tokens": 10878976.0,
      "step": 166
    },
    {
      "epoch": 0.022072429288924136,
      "grad_norm": 0.7138637661283654,
      "learning_rate": 2.192866578599736e-06,
      "loss": 0.7973,
      "mean_token_accuracy": 0.7612013220787048,
      "num_tokens": 10944512.0,
      "step": 167
    },
    {
      "epoch": 0.022204599524187154,
      "grad_norm": 0.7550641944545804,
      "learning_rate": 2.2060766182298547e-06,
      "loss": 0.8538,
      "mean_token_accuracy": 0.7430258989334106,
      "num_tokens": 11010048.0,
      "step": 168
    },
    {
      "epoch": 0.022336769759450172,
      "grad_norm": 0.7688619154383091,
      "learning_rate": 2.2192866578599738e-06,
      "loss": 0.8761,
      "mean_token_accuracy": 0.7371047735214233,
      "num_tokens": 11075584.0,
      "step": 169
    },
    {
      "epoch": 0.02246893999471319,
      "grad_norm": 0.7730721194852236,
      "learning_rate": 2.232496697490093e-06,
      "loss": 0.8163,
      "mean_token_accuracy": 0.7537236213684082,
      "num_tokens": 11141120.0,
      "step": 170
    },
    {
      "epoch": 0.02260111022997621,
      "grad_norm": 0.7489275808059612,
      "learning_rate": 2.2457067371202115e-06,
      "loss": 0.8573,
      "mean_token_accuracy": 0.7428579926490784,
      "num_tokens": 11206656.0,
      "step": 171
    },
    {
      "epoch": 0.022733280465239227,
      "grad_norm": 0.759385860381698,
      "learning_rate": 2.2589167767503305e-06,
      "loss": 0.8114,
      "mean_token_accuracy": 0.7543492913246155,
      "num_tokens": 11272192.0,
      "step": 172
    },
    {
      "epoch": 0.022865450700502245,
      "grad_norm": 0.7305776370029441,
      "learning_rate": 2.2721268163804496e-06,
      "loss": 0.8583,
      "mean_token_accuracy": 0.7429496049880981,
      "num_tokens": 11337728.0,
      "step": 173
    },
    {
      "epoch": 0.022997620935765267,
      "grad_norm": 0.7146889374434929,
      "learning_rate": 2.2853368560105682e-06,
      "loss": 0.7946,
      "mean_token_accuracy": 0.7610639929771423,
      "num_tokens": 11403264.0,
      "step": 174
    },
    {
      "epoch": 0.023129791171028286,
      "grad_norm": 0.7561430706192427,
      "learning_rate": 2.298546895640687e-06,
      "loss": 0.8276,
      "mean_token_accuracy": 0.7516023516654968,
      "num_tokens": 11468800.0,
      "step": 175
    },
    {
      "epoch": 0.023261961406291304,
      "grad_norm": 0.765564717455702,
      "learning_rate": 2.311756935270806e-06,
      "loss": 0.8678,
      "mean_token_accuracy": 0.7350903153419495,
      "num_tokens": 11534336.0,
      "step": 176
    },
    {
      "epoch": 0.023394131641554322,
      "grad_norm": 0.7390946820804956,
      "learning_rate": 2.324966974900925e-06,
      "loss": 0.8138,
      "mean_token_accuracy": 0.7526400685310364,
      "num_tokens": 11599872.0,
      "step": 177
    },
    {
      "epoch": 0.02352630187681734,
      "grad_norm": 0.7075473430340745,
      "learning_rate": 2.3381770145310437e-06,
      "loss": 0.7686,
      "mean_token_accuracy": 0.773989737033844,
      "num_tokens": 11665408.0,
      "step": 178
    },
    {
      "epoch": 0.02365847211208036,
      "grad_norm": 0.7325726585721395,
      "learning_rate": 2.3513870541611627e-06,
      "loss": 0.7877,
      "mean_token_accuracy": 0.7652453780174255,
      "num_tokens": 11730944.0,
      "step": 179
    },
    {
      "epoch": 0.023790642347343377,
      "grad_norm": 0.7099949221444268,
      "learning_rate": 2.3645970937912814e-06,
      "loss": 0.7896,
      "mean_token_accuracy": 0.7602856755256653,
      "num_tokens": 11796480.0,
      "step": 180
    },
    {
      "epoch": 0.023922812582606395,
      "grad_norm": 0.7271040479289158,
      "learning_rate": 2.3778071334214004e-06,
      "loss": 0.8143,
      "mean_token_accuracy": 0.7537541389465332,
      "num_tokens": 11862016.0,
      "step": 181
    },
    {
      "epoch": 0.024054982817869417,
      "grad_norm": 0.7244938914523293,
      "learning_rate": 2.3910171730515195e-06,
      "loss": 0.7953,
      "mean_token_accuracy": 0.7637498378753662,
      "num_tokens": 11927552.0,
      "step": 182
    },
    {
      "epoch": 0.024187153053132435,
      "grad_norm": 0.692347393450686,
      "learning_rate": 2.404227212681638e-06,
      "loss": 0.7725,
      "mean_token_accuracy": 0.7665730714797974,
      "num_tokens": 11993088.0,
      "step": 183
    },
    {
      "epoch": 0.024319323288395454,
      "grad_norm": 0.7626537046166831,
      "learning_rate": 2.417437252311757e-06,
      "loss": 0.7536,
      "mean_token_accuracy": 0.7713801860809326,
      "num_tokens": 12058624.0,
      "step": 184
    },
    {
      "epoch": 0.024451493523658472,
      "grad_norm": 0.7236166663175728,
      "learning_rate": 2.4306472919418763e-06,
      "loss": 0.8052,
      "mean_token_accuracy": 0.7583628296852112,
      "num_tokens": 12124160.0,
      "step": 185
    },
    {
      "epoch": 0.02458366375892149,
      "grad_norm": 0.7467941027216998,
      "learning_rate": 2.443857331571995e-06,
      "loss": 0.792,
      "mean_token_accuracy": 0.758881688117981,
      "num_tokens": 12189696.0,
      "step": 186
    },
    {
      "epoch": 0.02471583399418451,
      "grad_norm": 0.7510723021233771,
      "learning_rate": 2.4570673712021136e-06,
      "loss": 0.8331,
      "mean_token_accuracy": 0.7464748024940491,
      "num_tokens": 12255232.0,
      "step": 187
    },
    {
      "epoch": 0.024848004229447527,
      "grad_norm": 0.8190386784303135,
      "learning_rate": 2.4702774108322326e-06,
      "loss": 0.7918,
      "mean_token_accuracy": 0.7612623572349548,
      "num_tokens": 12320768.0,
      "step": 188
    },
    {
      "epoch": 0.02498017446471055,
      "grad_norm": 0.7226337462447449,
      "learning_rate": 2.4834874504623517e-06,
      "loss": 0.7586,
      "mean_token_accuracy": 0.7695794105529785,
      "num_tokens": 12386304.0,
      "step": 189
    },
    {
      "epoch": 0.025112344699973567,
      "grad_norm": 0.782511039355095,
      "learning_rate": 2.4966974900924703e-06,
      "loss": 0.8048,
      "mean_token_accuracy": 0.7548071146011353,
      "num_tokens": 12451840.0,
      "step": 190
    },
    {
      "epoch": 0.025244514935236585,
      "grad_norm": 0.73799158866485,
      "learning_rate": 2.5099075297225894e-06,
      "loss": 0.8012,
      "mean_token_accuracy": 0.7567757368087769,
      "num_tokens": 12517376.0,
      "step": 191
    },
    {
      "epoch": 0.025376685170499604,
      "grad_norm": 0.7129513532555495,
      "learning_rate": 2.523117569352708e-06,
      "loss": 0.8076,
      "mean_token_accuracy": 0.7566841840744019,
      "num_tokens": 12582912.0,
      "step": 192
    },
    {
      "epoch": 0.025508855405762622,
      "grad_norm": 0.7399902223014233,
      "learning_rate": 2.536327608982827e-06,
      "loss": 0.8226,
      "mean_token_accuracy": 0.7526248097419739,
      "num_tokens": 12648448.0,
      "step": 193
    },
    {
      "epoch": 0.02564102564102564,
      "grad_norm": 0.7732238089258137,
      "learning_rate": 2.5495376486129457e-06,
      "loss": 0.7736,
      "mean_token_accuracy": 0.7655353546142578,
      "num_tokens": 12713984.0,
      "step": 194
    },
    {
      "epoch": 0.02577319587628866,
      "grad_norm": 0.7766725449949912,
      "learning_rate": 2.5627476882430652e-06,
      "loss": 0.7817,
      "mean_token_accuracy": 0.7632309794425964,
      "num_tokens": 12779520.0,
      "step": 195
    },
    {
      "epoch": 0.02590536611155168,
      "grad_norm": 0.6966504055642281,
      "learning_rate": 2.575957727873184e-06,
      "loss": 0.7675,
      "mean_token_accuracy": 0.7668324708938599,
      "num_tokens": 12845056.0,
      "step": 196
    },
    {
      "epoch": 0.0260375363468147,
      "grad_norm": 0.8004707627981364,
      "learning_rate": 2.589167767503303e-06,
      "loss": 0.7956,
      "mean_token_accuracy": 0.7596447467803955,
      "num_tokens": 12910592.0,
      "step": 197
    },
    {
      "epoch": 0.026169706582077717,
      "grad_norm": 0.7800020209616247,
      "learning_rate": 2.6023778071334216e-06,
      "loss": 0.7696,
      "mean_token_accuracy": 0.7634751796722412,
      "num_tokens": 12976128.0,
      "step": 198
    },
    {
      "epoch": 0.026301876817340735,
      "grad_norm": 0.7392216791931434,
      "learning_rate": 2.6155878467635402e-06,
      "loss": 0.7822,
      "mean_token_accuracy": 0.7671987414360046,
      "num_tokens": 13041664.0,
      "step": 199
    },
    {
      "epoch": 0.026434047052603753,
      "grad_norm": 0.7494411643230846,
      "learning_rate": 2.6287978863936593e-06,
      "loss": 0.7805,
      "mean_token_accuracy": 0.7617049217224121,
      "num_tokens": 13107200.0,
      "step": 200
    },
    {
      "epoch": 0.02656621728786677,
      "grad_norm": 0.7367926384927534,
      "learning_rate": 2.6420079260237784e-06,
      "loss": 0.806,
      "mean_token_accuracy": 0.7534336447715759,
      "num_tokens": 13172736.0,
      "step": 201
    },
    {
      "epoch": 0.02669838752312979,
      "grad_norm": 0.7095891168305133,
      "learning_rate": 2.6552179656538974e-06,
      "loss": 0.767,
      "mean_token_accuracy": 0.7671377062797546,
      "num_tokens": 13238272.0,
      "step": 202
    },
    {
      "epoch": 0.02683055775839281,
      "grad_norm": 0.7342382484019445,
      "learning_rate": 2.668428005284016e-06,
      "loss": 0.77,
      "mean_token_accuracy": 0.7702508568763733,
      "num_tokens": 13303808.0,
      "step": 203
    },
    {
      "epoch": 0.02696272799365583,
      "grad_norm": 0.6856032201011079,
      "learning_rate": 2.681638044914135e-06,
      "loss": 0.761,
      "mean_token_accuracy": 0.7726467847824097,
      "num_tokens": 13369344.0,
      "step": 204
    },
    {
      "epoch": 0.02709489822891885,
      "grad_norm": 0.7386335937637796,
      "learning_rate": 2.6948480845442538e-06,
      "loss": 0.7765,
      "mean_token_accuracy": 0.7630783915519714,
      "num_tokens": 13434880.0,
      "step": 205
    },
    {
      "epoch": 0.027227068464181867,
      "grad_norm": 0.7857040795781662,
      "learning_rate": 2.7080581241743724e-06,
      "loss": 0.7986,
      "mean_token_accuracy": 0.7572335600852966,
      "num_tokens": 13500416.0,
      "step": 206
    },
    {
      "epoch": 0.027359238699444885,
      "grad_norm": 0.8042749309956072,
      "learning_rate": 2.721268163804492e-06,
      "loss": 0.8933,
      "mean_token_accuracy": 0.7255829572677612,
      "num_tokens": 13565952.0,
      "step": 207
    },
    {
      "epoch": 0.027491408934707903,
      "grad_norm": 0.7884984846085789,
      "learning_rate": 2.7344782034346105e-06,
      "loss": 0.8,
      "mean_token_accuracy": 0.7513734698295593,
      "num_tokens": 13631488.0,
      "step": 208
    },
    {
      "epoch": 0.02762357916997092,
      "grad_norm": 0.8173438302461916,
      "learning_rate": 2.7476882430647296e-06,
      "loss": 0.8103,
      "mean_token_accuracy": 0.7516328692436218,
      "num_tokens": 13697024.0,
      "step": 209
    },
    {
      "epoch": 0.02775574940523394,
      "grad_norm": 0.7491783948329647,
      "learning_rate": 2.7608982826948483e-06,
      "loss": 0.7987,
      "mean_token_accuracy": 0.7549902200698853,
      "num_tokens": 13762560.0,
      "step": 210
    },
    {
      "epoch": 0.02788791964049696,
      "grad_norm": 0.7993251624251987,
      "learning_rate": 2.774108322324967e-06,
      "loss": 0.8227,
      "mean_token_accuracy": 0.7496184706687927,
      "num_tokens": 13828096.0,
      "step": 211
    },
    {
      "epoch": 0.02802008987575998,
      "grad_norm": 0.7412940564728008,
      "learning_rate": 2.787318361955086e-06,
      "loss": 0.7842,
      "mean_token_accuracy": 0.7608197927474976,
      "num_tokens": 13893632.0,
      "step": 212
    },
    {
      "epoch": 0.028152260111022998,
      "grad_norm": 0.7778621669671549,
      "learning_rate": 2.800528401585205e-06,
      "loss": 0.7714,
      "mean_token_accuracy": 0.7626663446426392,
      "num_tokens": 13959168.0,
      "step": 213
    },
    {
      "epoch": 0.028284430346286017,
      "grad_norm": 0.7494896164725238,
      "learning_rate": 2.813738441215324e-06,
      "loss": 0.7952,
      "mean_token_accuracy": 0.7571877837181091,
      "num_tokens": 14024704.0,
      "step": 214
    },
    {
      "epoch": 0.028416600581549035,
      "grad_norm": 0.8293792649180755,
      "learning_rate": 2.8269484808454427e-06,
      "loss": 0.7937,
      "mean_token_accuracy": 0.758729100227356,
      "num_tokens": 14090240.0,
      "step": 215
    },
    {
      "epoch": 0.028548770816812053,
      "grad_norm": 0.7967839171526191,
      "learning_rate": 2.840158520475562e-06,
      "loss": 0.803,
      "mean_token_accuracy": 0.7561653256416321,
      "num_tokens": 14155776.0,
      "step": 216
    },
    {
      "epoch": 0.02868094105207507,
      "grad_norm": 0.7698044670136173,
      "learning_rate": 2.8533685601056804e-06,
      "loss": 0.8302,
      "mean_token_accuracy": 0.7507019639015198,
      "num_tokens": 14221312.0,
      "step": 217
    },
    {
      "epoch": 0.028813111287338093,
      "grad_norm": 0.8314135816686421,
      "learning_rate": 2.866578599735799e-06,
      "loss": 0.8302,
      "mean_token_accuracy": 0.7464442849159241,
      "num_tokens": 14286848.0,
      "step": 218
    },
    {
      "epoch": 0.02894528152260111,
      "grad_norm": 0.7631844030754845,
      "learning_rate": 2.8797886393659186e-06,
      "loss": 0.7495,
      "mean_token_accuracy": 0.7717617154121399,
      "num_tokens": 14352384.0,
      "step": 219
    },
    {
      "epoch": 0.02907745175786413,
      "grad_norm": 0.7587201067062704,
      "learning_rate": 2.8929986789960372e-06,
      "loss": 0.8187,
      "mean_token_accuracy": 0.7503967881202698,
      "num_tokens": 14417920.0,
      "step": 220
    },
    {
      "epoch": 0.029209621993127148,
      "grad_norm": 0.8249983948928367,
      "learning_rate": 2.9062087186261563e-06,
      "loss": 0.8157,
      "mean_token_accuracy": 0.7501373291015625,
      "num_tokens": 14483456.0,
      "step": 221
    },
    {
      "epoch": 0.029341792228390166,
      "grad_norm": 0.7608513828539731,
      "learning_rate": 2.919418758256275e-06,
      "loss": 0.7778,
      "mean_token_accuracy": 0.7628494501113892,
      "num_tokens": 14548992.0,
      "step": 222
    },
    {
      "epoch": 0.029473962463653185,
      "grad_norm": 0.7315677069441571,
      "learning_rate": 2.9326287978863936e-06,
      "loss": 0.7316,
      "mean_token_accuracy": 0.7739744782447815,
      "num_tokens": 14614528.0,
      "step": 223
    },
    {
      "epoch": 0.029606132698916203,
      "grad_norm": 0.886143655639606,
      "learning_rate": 2.9458388375165126e-06,
      "loss": 0.856,
      "mean_token_accuracy": 0.7354718446731567,
      "num_tokens": 14680064.0,
      "step": 224
    },
    {
      "epoch": 0.02973830293417922,
      "grad_norm": 0.7799622807493779,
      "learning_rate": 2.959048877146632e-06,
      "loss": 0.7807,
      "mean_token_accuracy": 0.758637547492981,
      "num_tokens": 14745600.0,
      "step": 225
    },
    {
      "epoch": 0.029870473169442243,
      "grad_norm": 0.7872482293279625,
      "learning_rate": 2.9722589167767508e-06,
      "loss": 0.7681,
      "mean_token_accuracy": 0.7635362148284912,
      "num_tokens": 14811136.0,
      "step": 226
    },
    {
      "epoch": 0.03000264340470526,
      "grad_norm": 0.7727062092535665,
      "learning_rate": 2.9854689564068694e-06,
      "loss": 0.7454,
      "mean_token_accuracy": 0.7714259624481201,
      "num_tokens": 14876672.0,
      "step": 227
    },
    {
      "epoch": 0.03013481363996828,
      "grad_norm": 0.9284326278866231,
      "learning_rate": 2.9986789960369885e-06,
      "loss": 0.8229,
      "mean_token_accuracy": 0.7516633868217468,
      "num_tokens": 14942208.0,
      "step": 228
    },
    {
      "epoch": 0.030266983875231298,
      "grad_norm": 0.8318704629856479,
      "learning_rate": 3.011889035667107e-06,
      "loss": 0.8108,
      "mean_token_accuracy": 0.751083493232727,
      "num_tokens": 15007744.0,
      "step": 229
    },
    {
      "epoch": 0.030399154110494316,
      "grad_norm": 0.8153947456727185,
      "learning_rate": 3.0250990752972257e-06,
      "loss": 0.8347,
      "mean_token_accuracy": 0.7486723065376282,
      "num_tokens": 15073280.0,
      "step": 230
    },
    {
      "epoch": 0.030531324345757335,
      "grad_norm": 0.7818867415806732,
      "learning_rate": 3.0383091149273452e-06,
      "loss": 0.7699,
      "mean_token_accuracy": 0.7646044492721558,
      "num_tokens": 15138816.0,
      "step": 231
    },
    {
      "epoch": 0.030663494581020353,
      "grad_norm": 0.8213369799217602,
      "learning_rate": 3.051519154557464e-06,
      "loss": 0.8126,
      "mean_token_accuracy": 0.7500762939453125,
      "num_tokens": 15204352.0,
      "step": 232
    },
    {
      "epoch": 0.030795664816283375,
      "grad_norm": 0.7468218351932058,
      "learning_rate": 3.064729194187583e-06,
      "loss": 0.6947,
      "mean_token_accuracy": 0.7859998941421509,
      "num_tokens": 15269888.0,
      "step": 233
    },
    {
      "epoch": 0.030927835051546393,
      "grad_norm": 0.813319229197614,
      "learning_rate": 3.0779392338177016e-06,
      "loss": 0.829,
      "mean_token_accuracy": 0.7482144832611084,
      "num_tokens": 15335424.0,
      "step": 234
    },
    {
      "epoch": 0.03106000528680941,
      "grad_norm": 0.7615909587388535,
      "learning_rate": 3.0911492734478207e-06,
      "loss": 0.7843,
      "mean_token_accuracy": 0.7608503103256226,
      "num_tokens": 15400960.0,
      "step": 235
    },
    {
      "epoch": 0.03119217552207243,
      "grad_norm": 0.7802406753894858,
      "learning_rate": 3.1043593130779393e-06,
      "loss": 0.7488,
      "mean_token_accuracy": 0.7706018686294556,
      "num_tokens": 15466496.0,
      "step": 236
    },
    {
      "epoch": 0.03132434575733545,
      "grad_norm": 0.8225929038621069,
      "learning_rate": 3.1175693527080588e-06,
      "loss": 0.8405,
      "mean_token_accuracy": 0.7418965697288513,
      "num_tokens": 15532032.0,
      "step": 237
    },
    {
      "epoch": 0.031456515992598466,
      "grad_norm": 0.7491735931144728,
      "learning_rate": 3.1307793923381774e-06,
      "loss": 0.7734,
      "mean_token_accuracy": 0.7630326151847839,
      "num_tokens": 15597568.0,
      "step": 238
    },
    {
      "epoch": 0.031588686227861484,
      "grad_norm": 0.7343188087094665,
      "learning_rate": 3.143989431968296e-06,
      "loss": 0.7429,
      "mean_token_accuracy": 0.7754089832305908,
      "num_tokens": 15663104.0,
      "step": 239
    },
    {
      "epoch": 0.0317208564631245,
      "grad_norm": 0.7659153382456473,
      "learning_rate": 3.157199471598415e-06,
      "loss": 0.8062,
      "mean_token_accuracy": 0.7547155618667603,
      "num_tokens": 15728640.0,
      "step": 240
    },
    {
      "epoch": 0.03185302669838752,
      "grad_norm": 0.8047577272847064,
      "learning_rate": 3.1704095112285338e-06,
      "loss": 0.8046,
      "mean_token_accuracy": 0.7516481280326843,
      "num_tokens": 15794176.0,
      "step": 241
    },
    {
      "epoch": 0.03198519693365054,
      "grad_norm": 0.731082618376276,
      "learning_rate": 3.1836195508586524e-06,
      "loss": 0.7653,
      "mean_token_accuracy": 0.7666035890579224,
      "num_tokens": 15859712.0,
      "step": 242
    },
    {
      "epoch": 0.03211736716891356,
      "grad_norm": 0.7647451039688387,
      "learning_rate": 3.196829590488772e-06,
      "loss": 0.7707,
      "mean_token_accuracy": 0.7668324708938599,
      "num_tokens": 15925248.0,
      "step": 243
    },
    {
      "epoch": 0.03224953740417658,
      "grad_norm": 0.788879499478051,
      "learning_rate": 3.2100396301188905e-06,
      "loss": 0.7828,
      "mean_token_accuracy": 0.7588664293289185,
      "num_tokens": 15990784.0,
      "step": 244
    },
    {
      "epoch": 0.0323817076394396,
      "grad_norm": 0.8636566367710148,
      "learning_rate": 3.2232496697490096e-06,
      "loss": 0.864,
      "mean_token_accuracy": 0.7368605732917786,
      "num_tokens": 16056320.0,
      "step": 245
    },
    {
      "epoch": 0.03251387787470262,
      "grad_norm": 0.825325913983544,
      "learning_rate": 3.2364597093791283e-06,
      "loss": 0.7704,
      "mean_token_accuracy": 0.7668172121047974,
      "num_tokens": 16121856.0,
      "step": 246
    },
    {
      "epoch": 0.03264604810996564,
      "grad_norm": 0.7914401211055546,
      "learning_rate": 3.2496697490092473e-06,
      "loss": 0.7752,
      "mean_token_accuracy": 0.7657947540283203,
      "num_tokens": 16187392.0,
      "step": 247
    },
    {
      "epoch": 0.032778218345228656,
      "grad_norm": 0.8027576313873162,
      "learning_rate": 3.262879788639366e-06,
      "loss": 0.7961,
      "mean_token_accuracy": 0.7575998306274414,
      "num_tokens": 16252928.0,
      "step": 248
    },
    {
      "epoch": 0.032910388580491674,
      "grad_norm": 0.7952435693627449,
      "learning_rate": 3.2760898282694855e-06,
      "loss": 0.7998,
      "mean_token_accuracy": 0.7556617259979248,
      "num_tokens": 16318464.0,
      "step": 249
    },
    {
      "epoch": 0.03304255881575469,
      "grad_norm": 0.8051664422889488,
      "learning_rate": 3.289299867899604e-06,
      "loss": 0.7978,
      "mean_token_accuracy": 0.7572945952415466,
      "num_tokens": 16384000.0,
      "step": 250
    },
    {
      "epoch": 0.03317472905101771,
      "grad_norm": 0.7868129025179686,
      "learning_rate": 3.3025099075297227e-06,
      "loss": 0.7851,
      "mean_token_accuracy": 0.7589579820632935,
      "num_tokens": 16449536.0,
      "step": 251
    },
    {
      "epoch": 0.03330689928628073,
      "grad_norm": 0.7954351935241238,
      "learning_rate": 3.315719947159842e-06,
      "loss": 0.7821,
      "mean_token_accuracy": 0.7594463229179382,
      "num_tokens": 16515072.0,
      "step": 252
    },
    {
      "epoch": 0.03343906952154375,
      "grad_norm": 0.8191292971746249,
      "learning_rate": 3.3289299867899604e-06,
      "loss": 0.8229,
      "mean_token_accuracy": 0.7464442849159241,
      "num_tokens": 16580608.0,
      "step": 253
    },
    {
      "epoch": 0.033571239756806766,
      "grad_norm": 0.8293448838395114,
      "learning_rate": 3.342140026420079e-06,
      "loss": 0.8023,
      "mean_token_accuracy": 0.7550512552261353,
      "num_tokens": 16646144.0,
      "step": 254
    },
    {
      "epoch": 0.033703409992069784,
      "grad_norm": 0.8257046815827183,
      "learning_rate": 3.3553500660501986e-06,
      "loss": 0.8425,
      "mean_token_accuracy": 0.7445977330207825,
      "num_tokens": 16711680.0,
      "step": 255
    },
    {
      "epoch": 0.0338355802273328,
      "grad_norm": 0.7835744834205397,
      "learning_rate": 3.3685601056803176e-06,
      "loss": 0.8239,
      "mean_token_accuracy": 0.7463527321815491,
      "num_tokens": 16777216.0,
      "step": 256
    },
    {
      "epoch": 0.03396775046259582,
      "grad_norm": 0.8118731489646601,
      "learning_rate": 3.3817701453104363e-06,
      "loss": 0.7661,
      "mean_token_accuracy": 0.7631089091300964,
      "num_tokens": 16842752.0,
      "step": 257
    },
    {
      "epoch": 0.03409992069785884,
      "grad_norm": 0.8134648560447796,
      "learning_rate": 3.394980184940555e-06,
      "loss": 0.8032,
      "mean_token_accuracy": 0.7540898323059082,
      "num_tokens": 16908288.0,
      "step": 258
    },
    {
      "epoch": 0.034232090933121864,
      "grad_norm": 0.7485261751792613,
      "learning_rate": 3.408190224570674e-06,
      "loss": 0.7689,
      "mean_token_accuracy": 0.7659474015235901,
      "num_tokens": 16973824.0,
      "step": 259
    },
    {
      "epoch": 0.03436426116838488,
      "grad_norm": 0.7503113103184508,
      "learning_rate": 3.4214002642007926e-06,
      "loss": 0.7676,
      "mean_token_accuracy": 0.7672902941703796,
      "num_tokens": 17039360.0,
      "step": 260
    },
    {
      "epoch": 0.0344964314036479,
      "grad_norm": 0.7118092730357078,
      "learning_rate": 3.434610303830912e-06,
      "loss": 0.7206,
      "mean_token_accuracy": 0.7767061591148376,
      "num_tokens": 17104896.0,
      "step": 261
    },
    {
      "epoch": 0.03462860163891092,
      "grad_norm": 0.776050869021872,
      "learning_rate": 3.4478203434610308e-06,
      "loss": 0.7591,
      "mean_token_accuracy": 0.7679618000984192,
      "num_tokens": 17170432.0,
      "step": 262
    },
    {
      "epoch": 0.03476077187417394,
      "grad_norm": 0.8173065698441644,
      "learning_rate": 3.4610303830911494e-06,
      "loss": 0.7495,
      "mean_token_accuracy": 0.7705255746841431,
      "num_tokens": 17235968.0,
      "step": 263
    },
    {
      "epoch": 0.034892942109436956,
      "grad_norm": 0.8312055916006524,
      "learning_rate": 3.4742404227212685e-06,
      "loss": 0.769,
      "mean_token_accuracy": 0.7613233923912048,
      "num_tokens": 17301504.0,
      "step": 264
    },
    {
      "epoch": 0.035025112344699974,
      "grad_norm": 0.802789717544756,
      "learning_rate": 3.487450462351387e-06,
      "loss": 0.8,
      "mean_token_accuracy": 0.7529758214950562,
      "num_tokens": 17367040.0,
      "step": 265
    },
    {
      "epoch": 0.03515728257996299,
      "grad_norm": 0.8467904216580417,
      "learning_rate": 3.500660501981506e-06,
      "loss": 0.8279,
      "mean_token_accuracy": 0.7460322380065918,
      "num_tokens": 17432576.0,
      "step": 266
    },
    {
      "epoch": 0.03528945281522601,
      "grad_norm": 0.7263767900447556,
      "learning_rate": 3.5138705416116252e-06,
      "loss": 0.7736,
      "mean_token_accuracy": 0.7648791074752808,
      "num_tokens": 17498112.0,
      "step": 267
    },
    {
      "epoch": 0.03542162305048903,
      "grad_norm": 0.8524931844140684,
      "learning_rate": 3.5270805812417443e-06,
      "loss": 0.799,
      "mean_token_accuracy": 0.7560431957244873,
      "num_tokens": 17563648.0,
      "step": 268
    },
    {
      "epoch": 0.03555379328575205,
      "grad_norm": 0.7912877977679494,
      "learning_rate": 3.540290620871863e-06,
      "loss": 0.7627,
      "mean_token_accuracy": 0.7661610245704651,
      "num_tokens": 17629184.0,
      "step": 269
    },
    {
      "epoch": 0.035685963521015066,
      "grad_norm": 0.7914778002908024,
      "learning_rate": 3.5535006605019816e-06,
      "loss": 0.7494,
      "mean_token_accuracy": 0.7691368460655212,
      "num_tokens": 17694720.0,
      "step": 270
    },
    {
      "epoch": 0.035818133756278084,
      "grad_norm": 0.8324048422784303,
      "learning_rate": 3.5667107001321007e-06,
      "loss": 0.7946,
      "mean_token_accuracy": 0.75529545545578,
      "num_tokens": 17760256.0,
      "step": 271
    },
    {
      "epoch": 0.0359503039915411,
      "grad_norm": 0.80358437819994,
      "learning_rate": 3.5799207397622193e-06,
      "loss": 0.7579,
      "mean_token_accuracy": 0.7649402022361755,
      "num_tokens": 17825792.0,
      "step": 272
    },
    {
      "epoch": 0.03608247422680412,
      "grad_norm": 0.7457434995534333,
      "learning_rate": 3.5931307793923388e-06,
      "loss": 0.7369,
      "mean_token_accuracy": 0.7720211148262024,
      "num_tokens": 17891328.0,
      "step": 273
    },
    {
      "epoch": 0.036214644462067146,
      "grad_norm": 0.7605445325932457,
      "learning_rate": 3.6063408190224574e-06,
      "loss": 0.7958,
      "mean_token_accuracy": 0.7579202651977539,
      "num_tokens": 17956864.0,
      "step": 274
    },
    {
      "epoch": 0.036346814697330164,
      "grad_norm": 0.7997125651710348,
      "learning_rate": 3.619550858652576e-06,
      "loss": 0.7745,
      "mean_token_accuracy": 0.7619643807411194,
      "num_tokens": 18022400.0,
      "step": 275
    },
    {
      "epoch": 0.03647898493259318,
      "grad_norm": 0.8375163195592626,
      "learning_rate": 3.632760898282695e-06,
      "loss": 0.8248,
      "mean_token_accuracy": 0.7419576644897461,
      "num_tokens": 18087936.0,
      "step": 276
    },
    {
      "epoch": 0.0366111551678562,
      "grad_norm": 0.737882558386852,
      "learning_rate": 3.6459709379128138e-06,
      "loss": 0.7236,
      "mean_token_accuracy": 0.779498815536499,
      "num_tokens": 18153472.0,
      "step": 277
    },
    {
      "epoch": 0.03674332540311922,
      "grad_norm": 0.8082147847763389,
      "learning_rate": 3.659180977542933e-06,
      "loss": 0.7659,
      "mean_token_accuracy": 0.7673666477203369,
      "num_tokens": 18219008.0,
      "step": 278
    },
    {
      "epoch": 0.03687549563838224,
      "grad_norm": 0.8357458469206095,
      "learning_rate": 3.672391017173052e-06,
      "loss": 0.8334,
      "mean_token_accuracy": 0.7431174516677856,
      "num_tokens": 18284544.0,
      "step": 279
    },
    {
      "epoch": 0.037007665873645255,
      "grad_norm": 0.7738832077420589,
      "learning_rate": 3.685601056803171e-06,
      "loss": 0.7489,
      "mean_token_accuracy": 0.7691978812217712,
      "num_tokens": 18350080.0,
      "step": 280
    },
    {
      "epoch": 0.037139836108908274,
      "grad_norm": 0.7448950230466799,
      "learning_rate": 3.6988110964332896e-06,
      "loss": 0.6904,
      "mean_token_accuracy": 0.7872207164764404,
      "num_tokens": 18415616.0,
      "step": 281
    },
    {
      "epoch": 0.03727200634417129,
      "grad_norm": 0.7541355940986763,
      "learning_rate": 3.7120211360634083e-06,
      "loss": 0.7922,
      "mean_token_accuracy": 0.7564705014228821,
      "num_tokens": 18481152.0,
      "step": 282
    },
    {
      "epoch": 0.03740417657943431,
      "grad_norm": 0.8046762892170491,
      "learning_rate": 3.7252311756935273e-06,
      "loss": 0.7819,
      "mean_token_accuracy": 0.7605298757553101,
      "num_tokens": 18546688.0,
      "step": 283
    },
    {
      "epoch": 0.03753634681469733,
      "grad_norm": 0.7519925702199056,
      "learning_rate": 3.738441215323646e-06,
      "loss": 0.6779,
      "mean_token_accuracy": 0.79355388879776,
      "num_tokens": 18612224.0,
      "step": 284
    },
    {
      "epoch": 0.03766851704996035,
      "grad_norm": 0.8069577803910146,
      "learning_rate": 3.7516512549537655e-06,
      "loss": 0.7362,
      "mean_token_accuracy": 0.7709071040153503,
      "num_tokens": 18677760.0,
      "step": 285
    },
    {
      "epoch": 0.037800687285223365,
      "grad_norm": 0.7954811826334626,
      "learning_rate": 3.764861294583884e-06,
      "loss": 0.761,
      "mean_token_accuracy": 0.7645281553268433,
      "num_tokens": 18743296.0,
      "step": 286
    },
    {
      "epoch": 0.037932857520486384,
      "grad_norm": 0.7634335030030928,
      "learning_rate": 3.778071334214003e-06,
      "loss": 0.7273,
      "mean_token_accuracy": 0.7760651707649231,
      "num_tokens": 18808832.0,
      "step": 287
    },
    {
      "epoch": 0.0380650277557494,
      "grad_norm": 0.7932369164813577,
      "learning_rate": 3.791281373844122e-06,
      "loss": 0.7483,
      "mean_token_accuracy": 0.7709528803825378,
      "num_tokens": 18874368.0,
      "step": 288
    },
    {
      "epoch": 0.03819719799101243,
      "grad_norm": 0.8589644421736623,
      "learning_rate": 3.8044914134742404e-06,
      "loss": 0.7886,
      "mean_token_accuracy": 0.7590190172195435,
      "num_tokens": 18939904.0,
      "step": 289
    },
    {
      "epoch": 0.038329368226275445,
      "grad_norm": 0.8032151044010292,
      "learning_rate": 3.8177014531043595e-06,
      "loss": 0.7932,
      "mean_token_accuracy": 0.7566231489181519,
      "num_tokens": 19005440.0,
      "step": 290
    },
    {
      "epoch": 0.038461538461538464,
      "grad_norm": 0.8010758735120755,
      "learning_rate": 3.830911492734479e-06,
      "loss": 0.7438,
      "mean_token_accuracy": 0.7710444331169128,
      "num_tokens": 19070976.0,
      "step": 291
    },
    {
      "epoch": 0.03859370869680148,
      "grad_norm": 0.821093625466762,
      "learning_rate": 3.844121532364598e-06,
      "loss": 0.7685,
      "mean_token_accuracy": 0.7618880271911621,
      "num_tokens": 19136512.0,
      "step": 292
    },
    {
      "epoch": 0.0387258789320645,
      "grad_norm": 0.8600298111603055,
      "learning_rate": 3.857331571994716e-06,
      "loss": 0.7465,
      "mean_token_accuracy": 0.769686222076416,
      "num_tokens": 19202048.0,
      "step": 293
    },
    {
      "epoch": 0.03885804916732752,
      "grad_norm": 0.8699801634158648,
      "learning_rate": 3.870541611624835e-06,
      "loss": 0.803,
      "mean_token_accuracy": 0.7535557150840759,
      "num_tokens": 19267584.0,
      "step": 294
    },
    {
      "epoch": 0.03899021940259054,
      "grad_norm": 0.7565806721543882,
      "learning_rate": 3.8837516512549536e-06,
      "loss": 0.697,
      "mean_token_accuracy": 0.7820473909378052,
      "num_tokens": 19333120.0,
      "step": 295
    },
    {
      "epoch": 0.039122389637853555,
      "grad_norm": 0.8451752711228975,
      "learning_rate": 3.896961690885073e-06,
      "loss": 0.7954,
      "mean_token_accuracy": 0.7590343356132507,
      "num_tokens": 19398656.0,
      "step": 296
    },
    {
      "epoch": 0.03925455987311657,
      "grad_norm": 0.7858913864520309,
      "learning_rate": 3.910171730515192e-06,
      "loss": 0.7661,
      "mean_token_accuracy": 0.7638719081878662,
      "num_tokens": 19464192.0,
      "step": 297
    },
    {
      "epoch": 0.03938673010837959,
      "grad_norm": 0.7960011239384529,
      "learning_rate": 3.923381770145311e-06,
      "loss": 0.7901,
      "mean_token_accuracy": 0.7573708891868591,
      "num_tokens": 19529728.0,
      "step": 298
    },
    {
      "epoch": 0.03951890034364261,
      "grad_norm": 0.8203552824856194,
      "learning_rate": 3.93659180977543e-06,
      "loss": 0.7837,
      "mean_token_accuracy": 0.7592784762382507,
      "num_tokens": 19595264.0,
      "step": 299
    },
    {
      "epoch": 0.03965107057890563,
      "grad_norm": 0.7617552409352167,
      "learning_rate": 3.9498018494055485e-06,
      "loss": 0.7549,
      "mean_token_accuracy": 0.7704797983169556,
      "num_tokens": 19660800.0,
      "step": 300
    },
    {
      "epoch": 0.03978324081416865,
      "grad_norm": 0.7744668759991761,
      "learning_rate": 3.963011889035667e-06,
      "loss": 0.7334,
      "mean_token_accuracy": 0.7743560075759888,
      "num_tokens": 19726336.0,
      "step": 301
    },
    {
      "epoch": 0.039915411049431665,
      "grad_norm": 0.810766790517258,
      "learning_rate": 3.976221928665786e-06,
      "loss": 0.7757,
      "mean_token_accuracy": 0.7606824636459351,
      "num_tokens": 19791872.0,
      "step": 302
    },
    {
      "epoch": 0.04004758128469469,
      "grad_norm": 0.8348352682205219,
      "learning_rate": 3.989431968295905e-06,
      "loss": 0.7608,
      "mean_token_accuracy": 0.7663441300392151,
      "num_tokens": 19857408.0,
      "step": 303
    },
    {
      "epoch": 0.04017975151995771,
      "grad_norm": 0.7923842195606253,
      "learning_rate": 4.002642007926024e-06,
      "loss": 0.8103,
      "mean_token_accuracy": 0.7527469396591187,
      "num_tokens": 19922944.0,
      "step": 304
    },
    {
      "epoch": 0.04031192175522073,
      "grad_norm": 0.8506819643585403,
      "learning_rate": 4.015852047556143e-06,
      "loss": 0.821,
      "mean_token_accuracy": 0.750839352607727,
      "num_tokens": 19988480.0,
      "step": 305
    },
    {
      "epoch": 0.040444091990483745,
      "grad_norm": 0.8201201119504129,
      "learning_rate": 4.029062087186262e-06,
      "loss": 0.7591,
      "mean_token_accuracy": 0.7660084366798401,
      "num_tokens": 20054016.0,
      "step": 306
    },
    {
      "epoch": 0.04057626222574676,
      "grad_norm": 0.8350274851038256,
      "learning_rate": 4.042272126816381e-06,
      "loss": 0.7575,
      "mean_token_accuracy": 0.7639787793159485,
      "num_tokens": 20119552.0,
      "step": 307
    },
    {
      "epoch": 0.04070843246100978,
      "grad_norm": 0.7407879878607747,
      "learning_rate": 4.0554821664465e-06,
      "loss": 0.7624,
      "mean_token_accuracy": 0.7669698596000671,
      "num_tokens": 20185088.0,
      "step": 308
    },
    {
      "epoch": 0.0408406026962728,
      "grad_norm": 0.8593153940583875,
      "learning_rate": 4.068692206076619e-06,
      "loss": 0.7674,
      "mean_token_accuracy": 0.7631241679191589,
      "num_tokens": 20250624.0,
      "step": 309
    },
    {
      "epoch": 0.04097277293153582,
      "grad_norm": 0.7642521367921372,
      "learning_rate": 4.0819022457067374e-06,
      "loss": 0.7853,
      "mean_token_accuracy": 0.7610487341880798,
      "num_tokens": 20316160.0,
      "step": 310
    },
    {
      "epoch": 0.04110494316679884,
      "grad_norm": 0.7930646566889225,
      "learning_rate": 4.095112285336856e-06,
      "loss": 0.7865,
      "mean_token_accuracy": 0.758942723274231,
      "num_tokens": 20381696.0,
      "step": 311
    },
    {
      "epoch": 0.041237113402061855,
      "grad_norm": 0.8535947898193181,
      "learning_rate": 4.1083223249669756e-06,
      "loss": 0.793,
      "mean_token_accuracy": 0.755142867565155,
      "num_tokens": 20447232.0,
      "step": 312
    },
    {
      "epoch": 0.04136928363732487,
      "grad_norm": 0.831024900230466,
      "learning_rate": 4.121532364597094e-06,
      "loss": 0.7471,
      "mean_token_accuracy": 0.7705713510513306,
      "num_tokens": 20512768.0,
      "step": 313
    },
    {
      "epoch": 0.04150145387258789,
      "grad_norm": 0.8418394640752138,
      "learning_rate": 4.134742404227214e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.7681143879890442,
      "num_tokens": 20578304.0,
      "step": 314
    },
    {
      "epoch": 0.04163362410785091,
      "grad_norm": 0.8334835994584365,
      "learning_rate": 4.147952443857332e-06,
      "loss": 0.7634,
      "mean_token_accuracy": 0.7637803554534912,
      "num_tokens": 20643840.0,
      "step": 315
    },
    {
      "epoch": 0.04176579434311393,
      "grad_norm": 0.8122306424676199,
      "learning_rate": 4.161162483487451e-06,
      "loss": 0.7814,
      "mean_token_accuracy": 0.7608045339584351,
      "num_tokens": 20709376.0,
      "step": 316
    },
    {
      "epoch": 0.041897964578376946,
      "grad_norm": 0.8285204145293741,
      "learning_rate": 4.17437252311757e-06,
      "loss": 0.7323,
      "mean_token_accuracy": 0.7748748660087585,
      "num_tokens": 20774912.0,
      "step": 317
    },
    {
      "epoch": 0.04203013481363997,
      "grad_norm": 0.8493327317390713,
      "learning_rate": 4.187582562747688e-06,
      "loss": 0.809,
      "mean_token_accuracy": 0.750869870185852,
      "num_tokens": 20840448.0,
      "step": 318
    },
    {
      "epoch": 0.04216230504890299,
      "grad_norm": 0.8727262296489746,
      "learning_rate": 4.200792602377807e-06,
      "loss": 0.8038,
      "mean_token_accuracy": 0.7517855167388916,
      "num_tokens": 20905984.0,
      "step": 319
    },
    {
      "epoch": 0.04229447528416601,
      "grad_norm": 0.8579294625256043,
      "learning_rate": 4.214002642007926e-06,
      "loss": 0.7537,
      "mean_token_accuracy": 0.7702661752700806,
      "num_tokens": 20971520.0,
      "step": 320
    },
    {
      "epoch": 0.042426645519429027,
      "grad_norm": 0.8286790525035163,
      "learning_rate": 4.227212681638045e-06,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7799413800239563,
      "num_tokens": 21037056.0,
      "step": 321
    },
    {
      "epoch": 0.042558815754692045,
      "grad_norm": 0.8503892110484725,
      "learning_rate": 4.2404227212681645e-06,
      "loss": 0.8131,
      "mean_token_accuracy": 0.7507325410842896,
      "num_tokens": 21102592.0,
      "step": 322
    },
    {
      "epoch": 0.04269098598995506,
      "grad_norm": 0.8611085525731758,
      "learning_rate": 4.253632760898283e-06,
      "loss": 0.8082,
      "mean_token_accuracy": 0.7513582110404968,
      "num_tokens": 21168128.0,
      "step": 323
    },
    {
      "epoch": 0.04282315622521808,
      "grad_norm": 0.8134939114077576,
      "learning_rate": 4.266842800528402e-06,
      "loss": 0.7176,
      "mean_token_accuracy": 0.7768740057945251,
      "num_tokens": 21233664.0,
      "step": 324
    },
    {
      "epoch": 0.0429553264604811,
      "grad_norm": 0.7966307893631472,
      "learning_rate": 4.2800528401585204e-06,
      "loss": 0.6981,
      "mean_token_accuracy": 0.784824788570404,
      "num_tokens": 21299200.0,
      "step": 325
    },
    {
      "epoch": 0.04308749669574412,
      "grad_norm": 0.7620776996811601,
      "learning_rate": 4.29326287978864e-06,
      "loss": 0.733,
      "mean_token_accuracy": 0.7726162672042847,
      "num_tokens": 21364736.0,
      "step": 326
    },
    {
      "epoch": 0.043219666931007136,
      "grad_norm": 0.8213464371711094,
      "learning_rate": 4.306472919418759e-06,
      "loss": 0.7748,
      "mean_token_accuracy": 0.7580270767211914,
      "num_tokens": 21430272.0,
      "step": 327
    },
    {
      "epoch": 0.043351837166270155,
      "grad_norm": 0.7951694154071558,
      "learning_rate": 4.319682959048877e-06,
      "loss": 0.7707,
      "mean_token_accuracy": 0.7612928748130798,
      "num_tokens": 21495808.0,
      "step": 328
    },
    {
      "epoch": 0.04348400740153317,
      "grad_norm": 0.839440425143574,
      "learning_rate": 4.332892998678997e-06,
      "loss": 0.7865,
      "mean_token_accuracy": 0.7550054788589478,
      "num_tokens": 21561344.0,
      "step": 329
    },
    {
      "epoch": 0.04361617763679619,
      "grad_norm": 0.8216745932265515,
      "learning_rate": 4.346103038309115e-06,
      "loss": 0.7754,
      "mean_token_accuracy": 0.7603314518928528,
      "num_tokens": 21626880.0,
      "step": 330
    },
    {
      "epoch": 0.04374834787205921,
      "grad_norm": 0.8030483480434127,
      "learning_rate": 4.359313077939234e-06,
      "loss": 0.7419,
      "mean_token_accuracy": 0.7715480327606201,
      "num_tokens": 21692416.0,
      "step": 331
    },
    {
      "epoch": 0.04388051810732223,
      "grad_norm": 0.8208128498656216,
      "learning_rate": 4.3725231175693535e-06,
      "loss": 0.7704,
      "mean_token_accuracy": 0.7628952264785767,
      "num_tokens": 21757952.0,
      "step": 332
    },
    {
      "epoch": 0.04401268834258525,
      "grad_norm": 0.765913894270719,
      "learning_rate": 4.385733157199472e-06,
      "loss": 0.7393,
      "mean_token_accuracy": 0.7719295620918274,
      "num_tokens": 21823488.0,
      "step": 333
    },
    {
      "epoch": 0.04414485857784827,
      "grad_norm": 0.8254741936625415,
      "learning_rate": 4.398943196829591e-06,
      "loss": 0.8096,
      "mean_token_accuracy": 0.7482755184173584,
      "num_tokens": 21889024.0,
      "step": 334
    },
    {
      "epoch": 0.04427702881311129,
      "grad_norm": 0.8876120460370389,
      "learning_rate": 4.412153236459709e-06,
      "loss": 0.8549,
      "mean_token_accuracy": 0.7370895147323608,
      "num_tokens": 21954560.0,
      "step": 335
    },
    {
      "epoch": 0.04440919904837431,
      "grad_norm": 0.812164422091014,
      "learning_rate": 4.425363276089829e-06,
      "loss": 0.7478,
      "mean_token_accuracy": 0.769716739654541,
      "num_tokens": 22020096.0,
      "step": 336
    },
    {
      "epoch": 0.044541369283637326,
      "grad_norm": 0.7720524884619422,
      "learning_rate": 4.4385733157199475e-06,
      "loss": 0.6853,
      "mean_token_accuracy": 0.7860304117202759,
      "num_tokens": 22085632.0,
      "step": 337
    },
    {
      "epoch": 0.044673539518900345,
      "grad_norm": 0.8150231008640392,
      "learning_rate": 4.451783355350067e-06,
      "loss": 0.7983,
      "mean_token_accuracy": 0.7550970315933228,
      "num_tokens": 22151168.0,
      "step": 338
    },
    {
      "epoch": 0.04480570975416336,
      "grad_norm": 0.7748678756868259,
      "learning_rate": 4.464993394980186e-06,
      "loss": 0.6987,
      "mean_token_accuracy": 0.782810389995575,
      "num_tokens": 22216704.0,
      "step": 339
    },
    {
      "epoch": 0.04493787998942638,
      "grad_norm": 0.8041543542119833,
      "learning_rate": 4.478203434610304e-06,
      "loss": 0.7378,
      "mean_token_accuracy": 0.7727689146995544,
      "num_tokens": 22282240.0,
      "step": 340
    },
    {
      "epoch": 0.0450700502246894,
      "grad_norm": 0.8161970748893086,
      "learning_rate": 4.491413474240423e-06,
      "loss": 0.7592,
      "mean_token_accuracy": 0.7667561769485474,
      "num_tokens": 22347776.0,
      "step": 341
    },
    {
      "epoch": 0.04520222045995242,
      "grad_norm": 0.8168495971138188,
      "learning_rate": 4.504623513870542e-06,
      "loss": 0.7794,
      "mean_token_accuracy": 0.7613691687583923,
      "num_tokens": 22413312.0,
      "step": 342
    },
    {
      "epoch": 0.045334390695215436,
      "grad_norm": 0.8036867279831807,
      "learning_rate": 4.517833553500661e-06,
      "loss": 0.7377,
      "mean_token_accuracy": 0.7698388695716858,
      "num_tokens": 22478848.0,
      "step": 343
    },
    {
      "epoch": 0.045466560930478454,
      "grad_norm": 0.8152795645996423,
      "learning_rate": 4.53104359313078e-06,
      "loss": 0.7387,
      "mean_token_accuracy": 0.7706629037857056,
      "num_tokens": 22544384.0,
      "step": 344
    },
    {
      "epoch": 0.04559873116574147,
      "grad_norm": 0.8308068350740329,
      "learning_rate": 4.544253632760899e-06,
      "loss": 0.746,
      "mean_token_accuracy": 0.7691978812217712,
      "num_tokens": 22609920.0,
      "step": 345
    },
    {
      "epoch": 0.04573090140100449,
      "grad_norm": 0.765666589214006,
      "learning_rate": 4.557463672391018e-06,
      "loss": 0.7288,
      "mean_token_accuracy": 0.774859607219696,
      "num_tokens": 22675456.0,
      "step": 346
    },
    {
      "epoch": 0.04586307163626751,
      "grad_norm": 0.868658894333656,
      "learning_rate": 4.5706737120211365e-06,
      "loss": 0.7787,
      "mean_token_accuracy": 0.7579813003540039,
      "num_tokens": 22740992.0,
      "step": 347
    },
    {
      "epoch": 0.045995241871530534,
      "grad_norm": 0.8116544175175842,
      "learning_rate": 4.583883751651255e-06,
      "loss": 0.7444,
      "mean_token_accuracy": 0.7721126675605774,
      "num_tokens": 22806528.0,
      "step": 348
    },
    {
      "epoch": 0.04612741210679355,
      "grad_norm": 0.880266916814189,
      "learning_rate": 4.597093791281374e-06,
      "loss": 0.7349,
      "mean_token_accuracy": 0.7749359011650085,
      "num_tokens": 22872064.0,
      "step": 349
    },
    {
      "epoch": 0.04625958234205657,
      "grad_norm": 0.7422024161311556,
      "learning_rate": 4.610303830911493e-06,
      "loss": 0.6878,
      "mean_token_accuracy": 0.7873122692108154,
      "num_tokens": 22937600.0,
      "step": 350
    },
    {
      "epoch": 0.04639175257731959,
      "grad_norm": 0.9281909716981132,
      "learning_rate": 4.623513870541612e-06,
      "loss": 0.7453,
      "mean_token_accuracy": 0.769625186920166,
      "num_tokens": 23003136.0,
      "step": 351
    },
    {
      "epoch": 0.04652392281258261,
      "grad_norm": 0.8720314985821085,
      "learning_rate": 4.6367239101717306e-06,
      "loss": 0.694,
      "mean_token_accuracy": 0.7842601537704468,
      "num_tokens": 23068672.0,
      "step": 352
    },
    {
      "epoch": 0.046656093047845626,
      "grad_norm": 0.7925575940566519,
      "learning_rate": 4.64993394980185e-06,
      "loss": 0.7073,
      "mean_token_accuracy": 0.782871425151825,
      "num_tokens": 23134208.0,
      "step": 353
    },
    {
      "epoch": 0.046788263283108644,
      "grad_norm": 0.8387168983330182,
      "learning_rate": 4.663143989431969e-06,
      "loss": 0.7387,
      "mean_token_accuracy": 0.769564151763916,
      "num_tokens": 23199744.0,
      "step": 354
    },
    {
      "epoch": 0.04692043351837166,
      "grad_norm": 0.8646449279376699,
      "learning_rate": 4.676354029062087e-06,
      "loss": 0.7867,
      "mean_token_accuracy": 0.7530826330184937,
      "num_tokens": 23265280.0,
      "step": 355
    },
    {
      "epoch": 0.04705260375363468,
      "grad_norm": 0.8424204302539733,
      "learning_rate": 4.689564068692207e-06,
      "loss": 0.7204,
      "mean_token_accuracy": 0.773898184299469,
      "num_tokens": 23330816.0,
      "step": 356
    },
    {
      "epoch": 0.0471847739888977,
      "grad_norm": 0.8445931914018319,
      "learning_rate": 4.7027741083223255e-06,
      "loss": 0.7651,
      "mean_token_accuracy": 0.7664052248001099,
      "num_tokens": 23396352.0,
      "step": 357
    },
    {
      "epoch": 0.04731694422416072,
      "grad_norm": 0.8078596370906337,
      "learning_rate": 4.715984147952444e-06,
      "loss": 0.7045,
      "mean_token_accuracy": 0.7815590500831604,
      "num_tokens": 23461888.0,
      "step": 358
    },
    {
      "epoch": 0.047449114459423736,
      "grad_norm": 0.8488977667046452,
      "learning_rate": 4.729194187582563e-06,
      "loss": 0.7485,
      "mean_token_accuracy": 0.7676260471343994,
      "num_tokens": 23527424.0,
      "step": 359
    },
    {
      "epoch": 0.047581284694686754,
      "grad_norm": 0.845450039982898,
      "learning_rate": 4.742404227212682e-06,
      "loss": 0.7565,
      "mean_token_accuracy": 0.7680380940437317,
      "num_tokens": 23592960.0,
      "step": 360
    },
    {
      "epoch": 0.04771345492994977,
      "grad_norm": 0.7644552684916214,
      "learning_rate": 4.755614266842801e-06,
      "loss": 0.6755,
      "mean_token_accuracy": 0.792561948299408,
      "num_tokens": 23658496.0,
      "step": 361
    },
    {
      "epoch": 0.04784562516521279,
      "grad_norm": 0.8104869634256515,
      "learning_rate": 4.76882430647292e-06,
      "loss": 0.742,
      "mean_token_accuracy": 0.7688469290733337,
      "num_tokens": 23724032.0,
      "step": 362
    },
    {
      "epoch": 0.047977795400475816,
      "grad_norm": 0.7839027206489168,
      "learning_rate": 4.782034346103039e-06,
      "loss": 0.7335,
      "mean_token_accuracy": 0.7746459245681763,
      "num_tokens": 23789568.0,
      "step": 363
    },
    {
      "epoch": 0.048109965635738834,
      "grad_norm": 0.8267151455182563,
      "learning_rate": 4.795244385733158e-06,
      "loss": 0.7279,
      "mean_token_accuracy": 0.7729977965354919,
      "num_tokens": 23855104.0,
      "step": 364
    },
    {
      "epoch": 0.04824213587100185,
      "grad_norm": 0.7931530778237736,
      "learning_rate": 4.808454425363276e-06,
      "loss": 0.6906,
      "mean_token_accuracy": 0.788853645324707,
      "num_tokens": 23920640.0,
      "step": 365
    },
    {
      "epoch": 0.04837430610626487,
      "grad_norm": 0.8799404307776028,
      "learning_rate": 4.821664464993395e-06,
      "loss": 0.7463,
      "mean_token_accuracy": 0.7689842581748962,
      "num_tokens": 23986176.0,
      "step": 366
    },
    {
      "epoch": 0.04850647634152789,
      "grad_norm": 0.8178568681545735,
      "learning_rate": 4.834874504623514e-06,
      "loss": 0.7131,
      "mean_token_accuracy": 0.7789646983146667,
      "num_tokens": 24051712.0,
      "step": 367
    },
    {
      "epoch": 0.04863864657679091,
      "grad_norm": 0.8476321126694517,
      "learning_rate": 4.848084544253633e-06,
      "loss": 0.7263,
      "mean_token_accuracy": 0.7729215025901794,
      "num_tokens": 24117248.0,
      "step": 368
    },
    {
      "epoch": 0.048770816812053926,
      "grad_norm": 0.8154680039026881,
      "learning_rate": 4.8612945838837526e-06,
      "loss": 0.7307,
      "mean_token_accuracy": 0.7726315259933472,
      "num_tokens": 24182784.0,
      "step": 369
    },
    {
      "epoch": 0.048902987047316944,
      "grad_norm": 0.8234731661992672,
      "learning_rate": 4.874504623513871e-06,
      "loss": 0.8041,
      "mean_token_accuracy": 0.7538609504699707,
      "num_tokens": 24248320.0,
      "step": 370
    },
    {
      "epoch": 0.04903515728257996,
      "grad_norm": 0.883781765172588,
      "learning_rate": 4.88771466314399e-06,
      "loss": 0.7421,
      "mean_token_accuracy": 0.7664357423782349,
      "num_tokens": 24313856.0,
      "step": 371
    },
    {
      "epoch": 0.04916732751784298,
      "grad_norm": 0.8536063978020105,
      "learning_rate": 4.9009247027741085e-06,
      "loss": 0.6988,
      "mean_token_accuracy": 0.7807502150535583,
      "num_tokens": 24379392.0,
      "step": 372
    },
    {
      "epoch": 0.049299497753106,
      "grad_norm": 0.7540634084830988,
      "learning_rate": 4.914134742404227e-06,
      "loss": 0.6725,
      "mean_token_accuracy": 0.7919820547103882,
      "num_tokens": 24444928.0,
      "step": 373
    },
    {
      "epoch": 0.04943166798836902,
      "grad_norm": 0.8083450524640311,
      "learning_rate": 4.927344782034347e-06,
      "loss": 0.76,
      "mean_token_accuracy": 0.7617354393005371,
      "num_tokens": 24510464.0,
      "step": 374
    },
    {
      "epoch": 0.049563838223632035,
      "grad_norm": 0.8711024289549478,
      "learning_rate": 4.940554821664465e-06,
      "loss": 0.7722,
      "mean_token_accuracy": 0.7590953707695007,
      "num_tokens": 24576000.0,
      "step": 375
    },
    {
      "epoch": 0.049696008458895054,
      "grad_norm": 0.8297197307892307,
      "learning_rate": 4.953764861294585e-06,
      "loss": 0.7365,
      "mean_token_accuracy": 0.7729825377464294,
      "num_tokens": 24641536.0,
      "step": 376
    },
    {
      "epoch": 0.04982817869415808,
      "grad_norm": 0.9190559602708935,
      "learning_rate": 4.966974900924703e-06,
      "loss": 0.8069,
      "mean_token_accuracy": 0.7458949089050293,
      "num_tokens": 24707072.0,
      "step": 377
    },
    {
      "epoch": 0.0499603489294211,
      "grad_norm": 0.8174662550181419,
      "learning_rate": 4.980184940554822e-06,
      "loss": 0.7621,
      "mean_token_accuracy": 0.7605451345443726,
      "num_tokens": 24772608.0,
      "step": 378
    },
    {
      "epoch": 0.050092519164684116,
      "grad_norm": 0.788788214652604,
      "learning_rate": 4.993394980184941e-06,
      "loss": 0.7025,
      "mean_token_accuracy": 0.7788578867912292,
      "num_tokens": 24838144.0,
      "step": 379
    },
    {
      "epoch": 0.050224689399947134,
      "grad_norm": 0.8943032990306043,
      "learning_rate": 5.006605019815059e-06,
      "loss": 0.7896,
      "mean_token_accuracy": 0.7537999153137207,
      "num_tokens": 24903680.0,
      "step": 380
    },
    {
      "epoch": 0.05035685963521015,
      "grad_norm": 0.7962417586098434,
      "learning_rate": 5.019815059445179e-06,
      "loss": 0.7482,
      "mean_token_accuracy": 0.7694268226623535,
      "num_tokens": 24969216.0,
      "step": 381
    },
    {
      "epoch": 0.05048902987047317,
      "grad_norm": 0.7787215372913533,
      "learning_rate": 5.0330250990752974e-06,
      "loss": 0.7064,
      "mean_token_accuracy": 0.7787510752677917,
      "num_tokens": 25034752.0,
      "step": 382
    },
    {
      "epoch": 0.05062120010573619,
      "grad_norm": 0.8388662268116762,
      "learning_rate": 5.046235138705416e-06,
      "loss": 0.7741,
      "mean_token_accuracy": 0.7590190172195435,
      "num_tokens": 25100288.0,
      "step": 383
    },
    {
      "epoch": 0.05075337034099921,
      "grad_norm": 0.8077542768918237,
      "learning_rate": 5.0594451783355356e-06,
      "loss": 0.7212,
      "mean_token_accuracy": 0.7763551473617554,
      "num_tokens": 25165824.0,
      "step": 384
    },
    {
      "epoch": 0.050885540576262225,
      "grad_norm": 0.8729830435913907,
      "learning_rate": 5.072655217965654e-06,
      "loss": 0.7543,
      "mean_token_accuracy": 0.7634599208831787,
      "num_tokens": 25231360.0,
      "step": 385
    },
    {
      "epoch": 0.051017710811525244,
      "grad_norm": 0.855027553761253,
      "learning_rate": 5.085865257595774e-06,
      "loss": 0.7512,
      "mean_token_accuracy": 0.764024555683136,
      "num_tokens": 25296896.0,
      "step": 386
    },
    {
      "epoch": 0.05114988104678826,
      "grad_norm": 0.908186950302715,
      "learning_rate": 5.0990752972258915e-06,
      "loss": 0.7635,
      "mean_token_accuracy": 0.7636277675628662,
      "num_tokens": 25362432.0,
      "step": 387
    },
    {
      "epoch": 0.05128205128205128,
      "grad_norm": 0.9147056202753256,
      "learning_rate": 5.112285336856011e-06,
      "loss": 0.8294,
      "mean_token_accuracy": 0.7418355345726013,
      "num_tokens": 25427968.0,
      "step": 388
    },
    {
      "epoch": 0.0514142215173143,
      "grad_norm": 0.8169617352583163,
      "learning_rate": 5.1254953764861305e-06,
      "loss": 0.7136,
      "mean_token_accuracy": 0.779285192489624,
      "num_tokens": 25493504.0,
      "step": 389
    },
    {
      "epoch": 0.05154639175257732,
      "grad_norm": 0.8177295481534437,
      "learning_rate": 5.138705416116248e-06,
      "loss": 0.7481,
      "mean_token_accuracy": 0.7690758109092712,
      "num_tokens": 25559040.0,
      "step": 390
    },
    {
      "epoch": 0.051678561987840335,
      "grad_norm": 0.7649579660987758,
      "learning_rate": 5.151915455746368e-06,
      "loss": 0.6764,
      "mean_token_accuracy": 0.7894335389137268,
      "num_tokens": 25624576.0,
      "step": 391
    },
    {
      "epoch": 0.05181073222310336,
      "grad_norm": 0.7960263847219581,
      "learning_rate": 5.165125495376486e-06,
      "loss": 0.6942,
      "mean_token_accuracy": 0.7849469184875488,
      "num_tokens": 25690112.0,
      "step": 392
    },
    {
      "epoch": 0.05194290245836638,
      "grad_norm": 0.8672495033350632,
      "learning_rate": 5.178335535006606e-06,
      "loss": 0.7373,
      "mean_token_accuracy": 0.7717158794403076,
      "num_tokens": 25755648.0,
      "step": 393
    },
    {
      "epoch": 0.0520750726936294,
      "grad_norm": 0.7417904926697516,
      "learning_rate": 5.191545574636724e-06,
      "loss": 0.705,
      "mean_token_accuracy": 0.7809943556785583,
      "num_tokens": 25821184.0,
      "step": 394
    },
    {
      "epoch": 0.052207242928892415,
      "grad_norm": 0.7841262854278931,
      "learning_rate": 5.204755614266843e-06,
      "loss": 0.707,
      "mean_token_accuracy": 0.7816506028175354,
      "num_tokens": 25886720.0,
      "step": 395
    },
    {
      "epoch": 0.052339413164155434,
      "grad_norm": 0.7864141475938489,
      "learning_rate": 5.217965653896963e-06,
      "loss": 0.7388,
      "mean_token_accuracy": 0.7709681391716003,
      "num_tokens": 25952256.0,
      "step": 396
    },
    {
      "epoch": 0.05247158339941845,
      "grad_norm": 0.8644070495960862,
      "learning_rate": 5.2311756935270805e-06,
      "loss": 0.7413,
      "mean_token_accuracy": 0.7689079642295837,
      "num_tokens": 26017792.0,
      "step": 397
    },
    {
      "epoch": 0.05260375363468147,
      "grad_norm": 0.8238542366787851,
      "learning_rate": 5.2443857331572e-06,
      "loss": 0.7353,
      "mean_token_accuracy": 0.7706018686294556,
      "num_tokens": 26083328.0,
      "step": 398
    },
    {
      "epoch": 0.05273592386994449,
      "grad_norm": 0.7934797058458861,
      "learning_rate": 5.257595772787319e-06,
      "loss": 0.7142,
      "mean_token_accuracy": 0.778171181678772,
      "num_tokens": 26148864.0,
      "step": 399
    },
    {
      "epoch": 0.05286809410520751,
      "grad_norm": 0.8255772941050236,
      "learning_rate": 5.270805812417438e-06,
      "loss": 0.7675,
      "mean_token_accuracy": 0.7655048370361328,
      "num_tokens": 26214400.0,
      "step": 400
    },
    {
      "epoch": 0.053000264340470525,
      "grad_norm": 0.8133959792691043,
      "learning_rate": 5.284015852047557e-06,
      "loss": 0.7093,
      "mean_token_accuracy": 0.7800635099411011,
      "num_tokens": 26279936.0,
      "step": 401
    },
    {
      "epoch": 0.05313243457573354,
      "grad_norm": 0.8482117456791908,
      "learning_rate": 5.297225891677675e-06,
      "loss": 0.7247,
      "mean_token_accuracy": 0.773959219455719,
      "num_tokens": 26345472.0,
      "step": 402
    },
    {
      "epoch": 0.05326460481099656,
      "grad_norm": 0.8261648648563853,
      "learning_rate": 5.310435931307795e-06,
      "loss": 0.7638,
      "mean_token_accuracy": 0.7618575096130371,
      "num_tokens": 26411008.0,
      "step": 403
    },
    {
      "epoch": 0.05339677504625958,
      "grad_norm": 0.8093045708068551,
      "learning_rate": 5.323645970937913e-06,
      "loss": 0.7078,
      "mean_token_accuracy": 0.7796972393989563,
      "num_tokens": 26476544.0,
      "step": 404
    },
    {
      "epoch": 0.0535289452815226,
      "grad_norm": 0.8463526417826424,
      "learning_rate": 5.336856010568032e-06,
      "loss": 0.8107,
      "mean_token_accuracy": 0.7501220703125,
      "num_tokens": 26542080.0,
      "step": 405
    },
    {
      "epoch": 0.05366111551678562,
      "grad_norm": 0.8591591203105969,
      "learning_rate": 5.350066050198151e-06,
      "loss": 0.7308,
      "mean_token_accuracy": 0.7746306657791138,
      "num_tokens": 26607616.0,
      "step": 406
    },
    {
      "epoch": 0.05379328575204864,
      "grad_norm": 0.8401932003934568,
      "learning_rate": 5.36327608982827e-06,
      "loss": 0.7262,
      "mean_token_accuracy": 0.7747222781181335,
      "num_tokens": 26673152.0,
      "step": 407
    },
    {
      "epoch": 0.05392545598731166,
      "grad_norm": 0.8744408036569079,
      "learning_rate": 5.376486129458389e-06,
      "loss": 0.7854,
      "mean_token_accuracy": 0.7579202651977539,
      "num_tokens": 26738688.0,
      "step": 408
    },
    {
      "epoch": 0.05405762622257468,
      "grad_norm": 0.8319454134207498,
      "learning_rate": 5.3896961690885075e-06,
      "loss": 0.7445,
      "mean_token_accuracy": 0.7688164114952087,
      "num_tokens": 26804224.0,
      "step": 409
    },
    {
      "epoch": 0.0541897964578377,
      "grad_norm": 0.8430064262452798,
      "learning_rate": 5.402906208718627e-06,
      "loss": 0.7995,
      "mean_token_accuracy": 0.7493895888328552,
      "num_tokens": 26869760.0,
      "step": 410
    },
    {
      "epoch": 0.054321966693100715,
      "grad_norm": 0.8625405318456912,
      "learning_rate": 5.416116248348745e-06,
      "loss": 0.7267,
      "mean_token_accuracy": 0.7731503844261169,
      "num_tokens": 26935296.0,
      "step": 411
    },
    {
      "epoch": 0.05445413692836373,
      "grad_norm": 0.8468518752796168,
      "learning_rate": 5.429326287978864e-06,
      "loss": 0.7581,
      "mean_token_accuracy": 0.7635514736175537,
      "num_tokens": 27000832.0,
      "step": 412
    },
    {
      "epoch": 0.05458630716362675,
      "grad_norm": 0.8236696867012405,
      "learning_rate": 5.442536327608984e-06,
      "loss": 0.7143,
      "mean_token_accuracy": 0.7759278416633606,
      "num_tokens": 27066368.0,
      "step": 413
    },
    {
      "epoch": 0.05471847739888977,
      "grad_norm": 0.7931068037218557,
      "learning_rate": 5.455746367239102e-06,
      "loss": 0.6959,
      "mean_token_accuracy": 0.783497154712677,
      "num_tokens": 27131904.0,
      "step": 414
    },
    {
      "epoch": 0.05485064763415279,
      "grad_norm": 0.8317450136013517,
      "learning_rate": 5.468956406869221e-06,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7768282294273376,
      "num_tokens": 27197440.0,
      "step": 415
    },
    {
      "epoch": 0.054982817869415807,
      "grad_norm": 0.8178403663362296,
      "learning_rate": 5.48216644649934e-06,
      "loss": 0.739,
      "mean_token_accuracy": 0.769289493560791,
      "num_tokens": 27262976.0,
      "step": 416
    },
    {
      "epoch": 0.055114988104678825,
      "grad_norm": 0.901135376681888,
      "learning_rate": 5.495376486129459e-06,
      "loss": 0.7552,
      "mean_token_accuracy": 0.7635972499847412,
      "num_tokens": 27328512.0,
      "step": 417
    },
    {
      "epoch": 0.05524715833994184,
      "grad_norm": 0.8017759583426457,
      "learning_rate": 5.508586525759577e-06,
      "loss": 0.6849,
      "mean_token_accuracy": 0.7871444225311279,
      "num_tokens": 27394048.0,
      "step": 418
    },
    {
      "epoch": 0.05537932857520486,
      "grad_norm": 0.7439681230552563,
      "learning_rate": 5.5217965653896965e-06,
      "loss": 0.6641,
      "mean_token_accuracy": 0.7982236742973328,
      "num_tokens": 27459584.0,
      "step": 419
    },
    {
      "epoch": 0.05551149881046788,
      "grad_norm": 0.8378129295018933,
      "learning_rate": 5.535006605019816e-06,
      "loss": 0.7626,
      "mean_token_accuracy": 0.7625290155410767,
      "num_tokens": 27525120.0,
      "step": 420
    },
    {
      "epoch": 0.0556436690457309,
      "grad_norm": 0.8813531965115541,
      "learning_rate": 5.548216644649934e-06,
      "loss": 0.7128,
      "mean_token_accuracy": 0.7726773023605347,
      "num_tokens": 27590656.0,
      "step": 421
    },
    {
      "epoch": 0.05577583928099392,
      "grad_norm": 0.8772065095474026,
      "learning_rate": 5.561426684280053e-06,
      "loss": 0.8099,
      "mean_token_accuracy": 0.7506256699562073,
      "num_tokens": 27656192.0,
      "step": 422
    },
    {
      "epoch": 0.05590800951625694,
      "grad_norm": 0.8037611398860487,
      "learning_rate": 5.574636723910172e-06,
      "loss": 0.7215,
      "mean_token_accuracy": 0.7775149345397949,
      "num_tokens": 27721728.0,
      "step": 423
    },
    {
      "epoch": 0.05604017975151996,
      "grad_norm": 0.7930191303087958,
      "learning_rate": 5.587846763540291e-06,
      "loss": 0.635,
      "mean_token_accuracy": 0.803305447101593,
      "num_tokens": 27787264.0,
      "step": 424
    },
    {
      "epoch": 0.05617234998678298,
      "grad_norm": 0.8924072755343615,
      "learning_rate": 5.60105680317041e-06,
      "loss": 0.7134,
      "mean_token_accuracy": 0.7774386405944824,
      "num_tokens": 27852800.0,
      "step": 425
    },
    {
      "epoch": 0.056304520222045996,
      "grad_norm": 0.9028409113052922,
      "learning_rate": 5.614266842800529e-06,
      "loss": 0.7817,
      "mean_token_accuracy": 0.7571420073509216,
      "num_tokens": 27918336.0,
      "step": 426
    },
    {
      "epoch": 0.056436690457309015,
      "grad_norm": 0.8443937173648478,
      "learning_rate": 5.627476882430648e-06,
      "loss": 0.7204,
      "mean_token_accuracy": 0.7755768299102783,
      "num_tokens": 27983872.0,
      "step": 427
    },
    {
      "epoch": 0.05656886069257203,
      "grad_norm": 0.8418508487659485,
      "learning_rate": 5.640686922060766e-06,
      "loss": 0.7683,
      "mean_token_accuracy": 0.7626968622207642,
      "num_tokens": 28049408.0,
      "step": 428
    },
    {
      "epoch": 0.05670103092783505,
      "grad_norm": 0.8401787460121175,
      "learning_rate": 5.6538969616908855e-06,
      "loss": 0.7565,
      "mean_token_accuracy": 0.7651843428611755,
      "num_tokens": 28114944.0,
      "step": 429
    },
    {
      "epoch": 0.05683320116309807,
      "grad_norm": 0.8447684940724468,
      "learning_rate": 5.667107001321004e-06,
      "loss": 0.7316,
      "mean_token_accuracy": 0.7694268226623535,
      "num_tokens": 28180480.0,
      "step": 430
    },
    {
      "epoch": 0.05696537139836109,
      "grad_norm": 0.815267052170806,
      "learning_rate": 5.680317040951124e-06,
      "loss": 0.7314,
      "mean_token_accuracy": 0.775073230266571,
      "num_tokens": 28246016.0,
      "step": 431
    },
    {
      "epoch": 0.057097541633624106,
      "grad_norm": 0.8549071879036857,
      "learning_rate": 5.693527080581242e-06,
      "loss": 0.7561,
      "mean_token_accuracy": 0.7642839550971985,
      "num_tokens": 28311552.0,
      "step": 432
    },
    {
      "epoch": 0.057229711868887125,
      "grad_norm": 0.7963408394077313,
      "learning_rate": 5.706737120211361e-06,
      "loss": 0.7077,
      "mean_token_accuracy": 0.7841991186141968,
      "num_tokens": 28377088.0,
      "step": 433
    },
    {
      "epoch": 0.05736188210415014,
      "grad_norm": 0.8609156831778504,
      "learning_rate": 5.71994715984148e-06,
      "loss": 0.7535,
      "mean_token_accuracy": 0.7654895782470703,
      "num_tokens": 28442624.0,
      "step": 434
    },
    {
      "epoch": 0.05749405233941316,
      "grad_norm": 0.8358823402511072,
      "learning_rate": 5.733157199471598e-06,
      "loss": 0.7738,
      "mean_token_accuracy": 0.7624374032020569,
      "num_tokens": 28508160.0,
      "step": 435
    },
    {
      "epoch": 0.057626222574676186,
      "grad_norm": 0.8968508271747427,
      "learning_rate": 5.746367239101718e-06,
      "loss": 0.7392,
      "mean_token_accuracy": 0.7735929489135742,
      "num_tokens": 28573696.0,
      "step": 436
    },
    {
      "epoch": 0.057758392809939205,
      "grad_norm": 0.8669378349313499,
      "learning_rate": 5.759577278731837e-06,
      "loss": 0.7371,
      "mean_token_accuracy": 0.769472599029541,
      "num_tokens": 28639232.0,
      "step": 437
    },
    {
      "epoch": 0.05789056304520222,
      "grad_norm": 0.8172904745979976,
      "learning_rate": 5.772787318361956e-06,
      "loss": 0.6621,
      "mean_token_accuracy": 0.7948510646820068,
      "num_tokens": 28704768.0,
      "step": 438
    },
    {
      "epoch": 0.05802273328046524,
      "grad_norm": 0.8970439168423383,
      "learning_rate": 5.7859973579920744e-06,
      "loss": 0.7676,
      "mean_token_accuracy": 0.7612623572349548,
      "num_tokens": 28770304.0,
      "step": 439
    },
    {
      "epoch": 0.05815490351572826,
      "grad_norm": 0.8264360572238322,
      "learning_rate": 5.799207397622193e-06,
      "loss": 0.7481,
      "mean_token_accuracy": 0.7669393420219421,
      "num_tokens": 28835840.0,
      "step": 440
    },
    {
      "epoch": 0.05828707375099128,
      "grad_norm": 0.8905918423477456,
      "learning_rate": 5.8124174372523126e-06,
      "loss": 0.7794,
      "mean_token_accuracy": 0.7583933472633362,
      "num_tokens": 28901376.0,
      "step": 441
    },
    {
      "epoch": 0.058419243986254296,
      "grad_norm": 0.802200423857209,
      "learning_rate": 5.82562747688243e-06,
      "loss": 0.6884,
      "mean_token_accuracy": 0.784794270992279,
      "num_tokens": 28966912.0,
      "step": 442
    },
    {
      "epoch": 0.058551414221517314,
      "grad_norm": 0.872485261785001,
      "learning_rate": 5.83883751651255e-06,
      "loss": 0.7713,
      "mean_token_accuracy": 0.7584696412086487,
      "num_tokens": 29032448.0,
      "step": 443
    },
    {
      "epoch": 0.05868358445678033,
      "grad_norm": 0.8222034928254408,
      "learning_rate": 5.852047556142669e-06,
      "loss": 0.7243,
      "mean_token_accuracy": 0.7779574990272522,
      "num_tokens": 29097984.0,
      "step": 444
    },
    {
      "epoch": 0.05881575469204335,
      "grad_norm": 0.8123746553982175,
      "learning_rate": 5.865257595772787e-06,
      "loss": 0.7286,
      "mean_token_accuracy": 0.7730588316917419,
      "num_tokens": 29163520.0,
      "step": 445
    },
    {
      "epoch": 0.05894792492730637,
      "grad_norm": 0.8861670815957295,
      "learning_rate": 5.878467635402907e-06,
      "loss": 0.7096,
      "mean_token_accuracy": 0.778415322303772,
      "num_tokens": 29229056.0,
      "step": 446
    },
    {
      "epoch": 0.05908009516256939,
      "grad_norm": 0.8454495284994684,
      "learning_rate": 5.891677675033025e-06,
      "loss": 0.716,
      "mean_token_accuracy": 0.7753326892852783,
      "num_tokens": 29294592.0,
      "step": 447
    },
    {
      "epoch": 0.059212265397832406,
      "grad_norm": 0.8573829196537468,
      "learning_rate": 5.904887714663145e-06,
      "loss": 0.7142,
      "mean_token_accuracy": 0.779346227645874,
      "num_tokens": 29360128.0,
      "step": 448
    },
    {
      "epoch": 0.059344435633095424,
      "grad_norm": 0.8149731867764495,
      "learning_rate": 5.918097754293264e-06,
      "loss": 0.6899,
      "mean_token_accuracy": 0.7838175892829895,
      "num_tokens": 29425664.0,
      "step": 449
    },
    {
      "epoch": 0.05947660586835844,
      "grad_norm": 0.8583521110789449,
      "learning_rate": 5.931307793923382e-06,
      "loss": 0.7468,
      "mean_token_accuracy": 0.7667256593704224,
      "num_tokens": 29491200.0,
      "step": 450
    },
    {
      "epoch": 0.05960877610362147,
      "grad_norm": 0.871938013117209,
      "learning_rate": 5.9445178335535015e-06,
      "loss": 0.7483,
      "mean_token_accuracy": 0.7637803554534912,
      "num_tokens": 29556736.0,
      "step": 451
    },
    {
      "epoch": 0.059740946338884486,
      "grad_norm": 0.9031568950684211,
      "learning_rate": 5.957727873183619e-06,
      "loss": 0.7354,
      "mean_token_accuracy": 0.7704187631607056,
      "num_tokens": 29622272.0,
      "step": 452
    },
    {
      "epoch": 0.059873116574147504,
      "grad_norm": 0.8242640210663928,
      "learning_rate": 5.970937912813739e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.7635972499847412,
      "num_tokens": 29687808.0,
      "step": 453
    },
    {
      "epoch": 0.06000528680941052,
      "grad_norm": 0.8247062935405328,
      "learning_rate": 5.9841479524438574e-06,
      "loss": 0.711,
      "mean_token_accuracy": 0.7802618741989136,
      "num_tokens": 29753344.0,
      "step": 454
    },
    {
      "epoch": 0.06013745704467354,
      "grad_norm": 0.8355840544828255,
      "learning_rate": 5.997357992073977e-06,
      "loss": 0.7209,
      "mean_token_accuracy": 0.7766756415367126,
      "num_tokens": 29818880.0,
      "step": 455
    },
    {
      "epoch": 0.06026962727993656,
      "grad_norm": 0.8318710197817185,
      "learning_rate": 6.0105680317040956e-06,
      "loss": 0.6861,
      "mean_token_accuracy": 0.7860456705093384,
      "num_tokens": 29884416.0,
      "step": 456
    },
    {
      "epoch": 0.06040179751519958,
      "grad_norm": 0.9596985006495974,
      "learning_rate": 6.023778071334214e-06,
      "loss": 0.7574,
      "mean_token_accuracy": 0.7617049217224121,
      "num_tokens": 29949952.0,
      "step": 457
    },
    {
      "epoch": 0.060533967750462596,
      "grad_norm": 0.8672064341834685,
      "learning_rate": 6.036988110964334e-06,
      "loss": 0.7321,
      "mean_token_accuracy": 0.775134265422821,
      "num_tokens": 30015488.0,
      "step": 458
    },
    {
      "epoch": 0.060666137985725614,
      "grad_norm": 0.8215191562300795,
      "learning_rate": 6.0501981505944515e-06,
      "loss": 0.7247,
      "mean_token_accuracy": 0.7717922329902649,
      "num_tokens": 30081024.0,
      "step": 459
    },
    {
      "epoch": 0.06079830822098863,
      "grad_norm": 0.842728668708872,
      "learning_rate": 6.063408190224571e-06,
      "loss": 0.7273,
      "mean_token_accuracy": 0.7706629037857056,
      "num_tokens": 30146560.0,
      "step": 460
    },
    {
      "epoch": 0.06093047845625165,
      "grad_norm": 0.8321088409082924,
      "learning_rate": 6.0766182298546905e-06,
      "loss": 0.7212,
      "mean_token_accuracy": 0.7764772176742554,
      "num_tokens": 30212096.0,
      "step": 461
    },
    {
      "epoch": 0.06106264869151467,
      "grad_norm": 0.8337073004634691,
      "learning_rate": 6.089828269484809e-06,
      "loss": 0.7286,
      "mean_token_accuracy": 0.7719295620918274,
      "num_tokens": 30277632.0,
      "step": 462
    },
    {
      "epoch": 0.06119481892677769,
      "grad_norm": 0.8308493878809249,
      "learning_rate": 6.103038309114928e-06,
      "loss": 0.7268,
      "mean_token_accuracy": 0.7753937244415283,
      "num_tokens": 30343168.0,
      "step": 463
    },
    {
      "epoch": 0.061326989162040706,
      "grad_norm": 0.8086135457731484,
      "learning_rate": 6.116248348745046e-06,
      "loss": 0.6991,
      "mean_token_accuracy": 0.7824899554252625,
      "num_tokens": 30408704.0,
      "step": 464
    },
    {
      "epoch": 0.061459159397303724,
      "grad_norm": 0.8551861374624733,
      "learning_rate": 6.129458388375166e-06,
      "loss": 0.7077,
      "mean_token_accuracy": 0.7785984873771667,
      "num_tokens": 30474240.0,
      "step": 465
    },
    {
      "epoch": 0.06159132963256675,
      "grad_norm": 0.9303105710777785,
      "learning_rate": 6.142668428005285e-06,
      "loss": 0.7448,
      "mean_token_accuracy": 0.7659779191017151,
      "num_tokens": 30539776.0,
      "step": 466
    },
    {
      "epoch": 0.06172349986782977,
      "grad_norm": 0.8020935397837817,
      "learning_rate": 6.155878467635403e-06,
      "loss": 0.7055,
      "mean_token_accuracy": 0.7766298651695251,
      "num_tokens": 30605312.0,
      "step": 467
    },
    {
      "epoch": 0.061855670103092786,
      "grad_norm": 0.8123332489944033,
      "learning_rate": 6.169088507265523e-06,
      "loss": 0.708,
      "mean_token_accuracy": 0.7792394161224365,
      "num_tokens": 30670848.0,
      "step": 468
    },
    {
      "epoch": 0.061987840338355804,
      "grad_norm": 0.9054271462501108,
      "learning_rate": 6.182298546895641e-06,
      "loss": 0.8004,
      "mean_token_accuracy": 0.7459712028503418,
      "num_tokens": 30736384.0,
      "step": 469
    },
    {
      "epoch": 0.06212001057361882,
      "grad_norm": 0.8148327669953519,
      "learning_rate": 6.19550858652576e-06,
      "loss": 0.7697,
      "mean_token_accuracy": 0.7593242526054382,
      "num_tokens": 30801920.0,
      "step": 470
    },
    {
      "epoch": 0.06225218080888184,
      "grad_norm": 0.8384366903514612,
      "learning_rate": 6.208718626155879e-06,
      "loss": 0.7055,
      "mean_token_accuracy": 0.7797735333442688,
      "num_tokens": 30867456.0,
      "step": 471
    },
    {
      "epoch": 0.06238435104414486,
      "grad_norm": 0.7920556053101887,
      "learning_rate": 6.221928665785998e-06,
      "loss": 0.7111,
      "mean_token_accuracy": 0.7795599102973938,
      "num_tokens": 30932992.0,
      "step": 472
    },
    {
      "epoch": 0.06251652127940788,
      "grad_norm": 0.8851069581810109,
      "learning_rate": 6.2351387054161176e-06,
      "loss": 0.7273,
      "mean_token_accuracy": 0.7742797136306763,
      "num_tokens": 30998528.0,
      "step": 473
    },
    {
      "epoch": 0.0626486915146709,
      "grad_norm": 0.8191190676127398,
      "learning_rate": 6.248348745046235e-06,
      "loss": 0.7625,
      "mean_token_accuracy": 0.7601178288459778,
      "num_tokens": 31064064.0,
      "step": 474
    },
    {
      "epoch": 0.06278086174993391,
      "grad_norm": 0.8305902065049863,
      "learning_rate": 6.261558784676355e-06,
      "loss": 0.732,
      "mean_token_accuracy": 0.7718685269355774,
      "num_tokens": 31129600.0,
      "step": 475
    },
    {
      "epoch": 0.06291303198519693,
      "grad_norm": 0.8303561576440054,
      "learning_rate": 6.274768824306473e-06,
      "loss": 0.698,
      "mean_token_accuracy": 0.7843517065048218,
      "num_tokens": 31195136.0,
      "step": 476
    },
    {
      "epoch": 0.06304520222045995,
      "grad_norm": 0.928287215775691,
      "learning_rate": 6.287978863936592e-06,
      "loss": 0.7225,
      "mean_token_accuracy": 0.7722042202949524,
      "num_tokens": 31260672.0,
      "step": 477
    },
    {
      "epoch": 0.06317737245572297,
      "grad_norm": 0.7801884285244164,
      "learning_rate": 6.301188903566712e-06,
      "loss": 0.7087,
      "mean_token_accuracy": 0.7819863557815552,
      "num_tokens": 31326208.0,
      "step": 478
    },
    {
      "epoch": 0.06330954269098599,
      "grad_norm": 0.8245273202764889,
      "learning_rate": 6.31439894319683e-06,
      "loss": 0.7371,
      "mean_token_accuracy": 0.7715785503387451,
      "num_tokens": 31391744.0,
      "step": 479
    },
    {
      "epoch": 0.063441712926249,
      "grad_norm": 0.7944464841325167,
      "learning_rate": 6.32760898282695e-06,
      "loss": 0.6906,
      "mean_token_accuracy": 0.783619225025177,
      "num_tokens": 31457280.0,
      "step": 480
    },
    {
      "epoch": 0.06357388316151202,
      "grad_norm": 0.9065494840465366,
      "learning_rate": 6.3408190224570676e-06,
      "loss": 0.7352,
      "mean_token_accuracy": 0.7709528803825378,
      "num_tokens": 31522816.0,
      "step": 481
    },
    {
      "epoch": 0.06370605339677504,
      "grad_norm": 0.8603281428158277,
      "learning_rate": 6.354029062087187e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 31588352.0,
      "step": 482
    },
    {
      "epoch": 0.06383822363203806,
      "grad_norm": 0.8550435111506404,
      "learning_rate": 6.367239101717305e-06,
      "loss": 0.6978,
      "mean_token_accuracy": 0.7814216613769531,
      "num_tokens": 31653888.0,
      "step": 483
    },
    {
      "epoch": 0.06397039386730108,
      "grad_norm": 0.8547121110107044,
      "learning_rate": 6.380449141347424e-06,
      "loss": 0.6985,
      "mean_token_accuracy": 0.778262734413147,
      "num_tokens": 31719424.0,
      "step": 484
    },
    {
      "epoch": 0.0641025641025641,
      "grad_norm": 0.8682307008968082,
      "learning_rate": 6.393659180977544e-06,
      "loss": 0.7315,
      "mean_token_accuracy": 0.7746001482009888,
      "num_tokens": 31784960.0,
      "step": 485
    },
    {
      "epoch": 0.06423473433782712,
      "grad_norm": 0.9704314197447439,
      "learning_rate": 6.4068692206076625e-06,
      "loss": 0.7106,
      "mean_token_accuracy": 0.7768434882164001,
      "num_tokens": 31850496.0,
      "step": 486
    },
    {
      "epoch": 0.06436690457309013,
      "grad_norm": 0.859075086800721,
      "learning_rate": 6.420079260237781e-06,
      "loss": 0.6899,
      "mean_token_accuracy": 0.7845653891563416,
      "num_tokens": 31916032.0,
      "step": 487
    },
    {
      "epoch": 0.06449907480835317,
      "grad_norm": 0.8481498535439828,
      "learning_rate": 6.4332892998679e-06,
      "loss": 0.7828,
      "mean_token_accuracy": 0.7573556303977966,
      "num_tokens": 31981568.0,
      "step": 488
    },
    {
      "epoch": 0.06463124504361618,
      "grad_norm": 0.8895913641146433,
      "learning_rate": 6.446499339498019e-06,
      "loss": 0.7706,
      "mean_token_accuracy": 0.755264937877655,
      "num_tokens": 32047104.0,
      "step": 489
    },
    {
      "epoch": 0.0647634152788792,
      "grad_norm": 0.8944655317819636,
      "learning_rate": 6.459709379128139e-06,
      "loss": 0.7374,
      "mean_token_accuracy": 0.7680075764656067,
      "num_tokens": 32112640.0,
      "step": 490
    },
    {
      "epoch": 0.06489558551414222,
      "grad_norm": 0.907821262810655,
      "learning_rate": 6.4729194187582565e-06,
      "loss": 0.729,
      "mean_token_accuracy": 0.7698541283607483,
      "num_tokens": 32178176.0,
      "step": 491
    },
    {
      "epoch": 0.06502775574940524,
      "grad_norm": 0.8990320982328557,
      "learning_rate": 6.486129458388376e-06,
      "loss": 0.7405,
      "mean_token_accuracy": 0.7705289721488953,
      "num_tokens": 32243007.0,
      "step": 492
    },
    {
      "epoch": 0.06515992598466826,
      "grad_norm": 0.8793567125163431,
      "learning_rate": 6.499339498018495e-06,
      "loss": 0.7021,
      "mean_token_accuracy": 0.7803534269332886,
      "num_tokens": 32308543.0,
      "step": 493
    },
    {
      "epoch": 0.06529209621993128,
      "grad_norm": 0.8100524795593216,
      "learning_rate": 6.512549537648613e-06,
      "loss": 0.7155,
      "mean_token_accuracy": 0.7773165702819824,
      "num_tokens": 32374079.0,
      "step": 494
    },
    {
      "epoch": 0.0654242664551943,
      "grad_norm": 0.8330636158067326,
      "learning_rate": 6.525759577278732e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.764085590839386,
      "num_tokens": 32439615.0,
      "step": 495
    },
    {
      "epoch": 0.06555643669045731,
      "grad_norm": 0.9252329544554811,
      "learning_rate": 6.538969616908851e-06,
      "loss": 0.7626,
      "mean_token_accuracy": 0.7645739316940308,
      "num_tokens": 32505151.0,
      "step": 496
    },
    {
      "epoch": 0.06568860692572033,
      "grad_norm": 0.8806139278424625,
      "learning_rate": 6.552179656538971e-06,
      "loss": 0.7506,
      "mean_token_accuracy": 0.7625290155410767,
      "num_tokens": 32570687.0,
      "step": 497
    },
    {
      "epoch": 0.06582077716098335,
      "grad_norm": 0.8949745159278039,
      "learning_rate": 6.565389696169089e-06,
      "loss": 0.7519,
      "mean_token_accuracy": 0.7662068009376526,
      "num_tokens": 32636223.0,
      "step": 498
    },
    {
      "epoch": 0.06595294739624637,
      "grad_norm": 0.8071974661194145,
      "learning_rate": 6.578599735799208e-06,
      "loss": 0.6755,
      "mean_token_accuracy": 0.7895403504371643,
      "num_tokens": 32701759.0,
      "step": 499
    },
    {
      "epoch": 0.06608511763150939,
      "grad_norm": 0.8281226339872482,
      "learning_rate": 6.591809775429327e-06,
      "loss": 0.7133,
      "mean_token_accuracy": 0.7760346531867981,
      "num_tokens": 32767295.0,
      "step": 500
    },
    {
      "epoch": 0.0662172878667724,
      "grad_norm": 0.8561655100760255,
      "learning_rate": 6.6050198150594455e-06,
      "loss": 0.7124,
      "mean_token_accuracy": 0.7788578867912292,
      "num_tokens": 32832831.0,
      "step": 501
    },
    {
      "epoch": 0.06634945810203542,
      "grad_norm": 0.85775697997907,
      "learning_rate": 6.618229854689565e-06,
      "loss": 0.717,
      "mean_token_accuracy": 0.7784610986709595,
      "num_tokens": 32898367.0,
      "step": 502
    },
    {
      "epoch": 0.06648162833729844,
      "grad_norm": 0.8307686961924842,
      "learning_rate": 6.631439894319684e-06,
      "loss": 0.7226,
      "mean_token_accuracy": 0.7735776901245117,
      "num_tokens": 32963903.0,
      "step": 503
    },
    {
      "epoch": 0.06661379857256146,
      "grad_norm": 0.8822178571070023,
      "learning_rate": 6.644649933949803e-06,
      "loss": 0.7392,
      "mean_token_accuracy": 0.7673666477203369,
      "num_tokens": 33029439.0,
      "step": 504
    },
    {
      "epoch": 0.06674596880782448,
      "grad_norm": 0.8612414357604269,
      "learning_rate": 6.657859973579921e-06,
      "loss": 0.7307,
      "mean_token_accuracy": 0.7717464566230774,
      "num_tokens": 33094975.0,
      "step": 505
    },
    {
      "epoch": 0.0668781390430875,
      "grad_norm": 0.951321297983899,
      "learning_rate": 6.67107001321004e-06,
      "loss": 0.764,
      "mean_token_accuracy": 0.7666646242141724,
      "num_tokens": 33160511.0,
      "step": 506
    },
    {
      "epoch": 0.06701030927835051,
      "grad_norm": 0.9573599715034806,
      "learning_rate": 6.684280052840158e-06,
      "loss": 0.7777,
      "mean_token_accuracy": 0.7590953707695007,
      "num_tokens": 33226047.0,
      "step": 507
    },
    {
      "epoch": 0.06714247951361353,
      "grad_norm": 0.8169385581010877,
      "learning_rate": 6.697490092470278e-06,
      "loss": 0.6854,
      "mean_token_accuracy": 0.7855115532875061,
      "num_tokens": 33291583.0,
      "step": 508
    },
    {
      "epoch": 0.06727464974887655,
      "grad_norm": 0.9402206811339456,
      "learning_rate": 6.710700132100397e-06,
      "loss": 0.7392,
      "mean_token_accuracy": 0.7682669758796692,
      "num_tokens": 33357119.0,
      "step": 509
    },
    {
      "epoch": 0.06740681998413957,
      "grad_norm": 0.7869756223515435,
      "learning_rate": 6.723910171730516e-06,
      "loss": 0.7066,
      "mean_token_accuracy": 0.7799871563911438,
      "num_tokens": 33422655.0,
      "step": 510
    },
    {
      "epoch": 0.06753899021940259,
      "grad_norm": 0.8969915393867541,
      "learning_rate": 6.737120211360635e-06,
      "loss": 0.717,
      "mean_token_accuracy": 0.7711970210075378,
      "num_tokens": 33488191.0,
      "step": 511
    },
    {
      "epoch": 0.0676711604546656,
      "grad_norm": 0.8669165474295265,
      "learning_rate": 6.750330250990753e-06,
      "loss": 0.7319,
      "mean_token_accuracy": 0.7709376215934753,
      "num_tokens": 33553727.0,
      "step": 512
    },
    {
      "epoch": 0.06780333068992862,
      "grad_norm": 0.8020745678087539,
      "learning_rate": 6.7635402906208726e-06,
      "loss": 0.7053,
      "mean_token_accuracy": 0.7811927795410156,
      "num_tokens": 33619263.0,
      "step": 513
    },
    {
      "epoch": 0.06793550092519164,
      "grad_norm": 0.9025885916709108,
      "learning_rate": 6.776750330250992e-06,
      "loss": 0.7123,
      "mean_token_accuracy": 0.7770418524742126,
      "num_tokens": 33684799.0,
      "step": 514
    },
    {
      "epoch": 0.06806767116045466,
      "grad_norm": 0.9137515553587665,
      "learning_rate": 6.78996036988111e-06,
      "loss": 0.7126,
      "mean_token_accuracy": 0.7774081230163574,
      "num_tokens": 33750335.0,
      "step": 515
    },
    {
      "epoch": 0.06819984139571768,
      "grad_norm": 0.9124967973036683,
      "learning_rate": 6.803170409511229e-06,
      "loss": 0.7336,
      "mean_token_accuracy": 0.7715938091278076,
      "num_tokens": 33815871.0,
      "step": 516
    },
    {
      "epoch": 0.0683320116309807,
      "grad_norm": 0.7549753019450375,
      "learning_rate": 6.816380449141348e-06,
      "loss": 0.6407,
      "mean_token_accuracy": 0.7968959808349609,
      "num_tokens": 33881407.0,
      "step": 517
    },
    {
      "epoch": 0.06846418186624373,
      "grad_norm": 0.95099721434128,
      "learning_rate": 6.829590488771467e-06,
      "loss": 0.7852,
      "mean_token_accuracy": 0.755509078502655,
      "num_tokens": 33946943.0,
      "step": 518
    },
    {
      "epoch": 0.06859635210150675,
      "grad_norm": 0.9968586672709484,
      "learning_rate": 6.842800528401585e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.7630783915519714,
      "num_tokens": 34012479.0,
      "step": 519
    },
    {
      "epoch": 0.06872852233676977,
      "grad_norm": 0.8617140334427917,
      "learning_rate": 6.856010568031705e-06,
      "loss": 0.6766,
      "mean_token_accuracy": 0.7866560816764832,
      "num_tokens": 34078015.0,
      "step": 520
    },
    {
      "epoch": 0.06886069257203278,
      "grad_norm": 0.8585260309686527,
      "learning_rate": 6.869220607661824e-06,
      "loss": 0.6931,
      "mean_token_accuracy": 0.783832848072052,
      "num_tokens": 34143551.0,
      "step": 521
    },
    {
      "epoch": 0.0689928628072958,
      "grad_norm": 0.9057668228899581,
      "learning_rate": 6.882430647291942e-06,
      "loss": 0.6665,
      "mean_token_accuracy": 0.7913563847541809,
      "num_tokens": 34209087.0,
      "step": 522
    },
    {
      "epoch": 0.06912503304255882,
      "grad_norm": 0.8259505394675988,
      "learning_rate": 6.8956406869220615e-06,
      "loss": 0.7352,
      "mean_token_accuracy": 0.7706476449966431,
      "num_tokens": 34274623.0,
      "step": 523
    },
    {
      "epoch": 0.06925720327782184,
      "grad_norm": 0.9079550207693405,
      "learning_rate": 6.90885072655218e-06,
      "loss": 0.7324,
      "mean_token_accuracy": 0.7700524926185608,
      "num_tokens": 34340159.0,
      "step": 524
    },
    {
      "epoch": 0.06938937351308486,
      "grad_norm": 0.960120943737717,
      "learning_rate": 6.922060766182299e-06,
      "loss": 0.7571,
      "mean_token_accuracy": 0.7628341913223267,
      "num_tokens": 34405695.0,
      "step": 525
    },
    {
      "epoch": 0.06952154374834787,
      "grad_norm": 0.9197098405385515,
      "learning_rate": 6.935270805812418e-06,
      "loss": 0.7153,
      "mean_token_accuracy": 0.7773928642272949,
      "num_tokens": 34471231.0,
      "step": 526
    },
    {
      "epoch": 0.0696537139836109,
      "grad_norm": 0.846754995308951,
      "learning_rate": 6.948480845442537e-06,
      "loss": 0.7211,
      "mean_token_accuracy": 0.7714869976043701,
      "num_tokens": 34536767.0,
      "step": 527
    },
    {
      "epoch": 0.06978588421887391,
      "grad_norm": 0.8409605490303296,
      "learning_rate": 6.9616908850726564e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.797613263130188,
      "num_tokens": 34602303.0,
      "step": 528
    },
    {
      "epoch": 0.06991805445413693,
      "grad_norm": 0.8339167486455162,
      "learning_rate": 6.974900924702774e-06,
      "loss": 0.6789,
      "mean_token_accuracy": 0.7900134325027466,
      "num_tokens": 34667839.0,
      "step": 529
    },
    {
      "epoch": 0.07005022468939995,
      "grad_norm": 0.8982102926170575,
      "learning_rate": 6.988110964332894e-06,
      "loss": 0.7145,
      "mean_token_accuracy": 0.7762788534164429,
      "num_tokens": 34733375.0,
      "step": 530
    },
    {
      "epoch": 0.07018239492466297,
      "grad_norm": 0.9565920703936324,
      "learning_rate": 7.001321003963012e-06,
      "loss": 0.7733,
      "mean_token_accuracy": 0.7567299604415894,
      "num_tokens": 34798911.0,
      "step": 531
    },
    {
      "epoch": 0.07031456515992598,
      "grad_norm": 0.8636680030924074,
      "learning_rate": 7.014531043593131e-06,
      "loss": 0.7284,
      "mean_token_accuracy": 0.7743712663650513,
      "num_tokens": 34864447.0,
      "step": 532
    },
    {
      "epoch": 0.070446735395189,
      "grad_norm": 0.8230151040630274,
      "learning_rate": 7.0277410832232505e-06,
      "loss": 0.7573,
      "mean_token_accuracy": 0.7638413906097412,
      "num_tokens": 34929983.0,
      "step": 533
    },
    {
      "epoch": 0.07057890563045202,
      "grad_norm": 0.9135581594239227,
      "learning_rate": 7.040951122853369e-06,
      "loss": 0.7793,
      "mean_token_accuracy": 0.7550054788589478,
      "num_tokens": 34995519.0,
      "step": 534
    },
    {
      "epoch": 0.07071107586571504,
      "grad_norm": 0.9534681697021468,
      "learning_rate": 7.054161162483489e-06,
      "loss": 0.7593,
      "mean_token_accuracy": 0.7615218162536621,
      "num_tokens": 35061055.0,
      "step": 535
    },
    {
      "epoch": 0.07084324610097806,
      "grad_norm": 0.9673069884733553,
      "learning_rate": 7.067371202113606e-06,
      "loss": 0.7308,
      "mean_token_accuracy": 0.7723110914230347,
      "num_tokens": 35126591.0,
      "step": 536
    },
    {
      "epoch": 0.07097541633624108,
      "grad_norm": 1.0113764535804923,
      "learning_rate": 7.080581241743726e-06,
      "loss": 0.7452,
      "mean_token_accuracy": 0.7664204835891724,
      "num_tokens": 35192127.0,
      "step": 537
    },
    {
      "epoch": 0.0711075865715041,
      "grad_norm": 1.4432393310032265,
      "learning_rate": 7.093791281373845e-06,
      "loss": 0.7261,
      "mean_token_accuracy": 0.7723568677902222,
      "num_tokens": 35257663.0,
      "step": 538
    },
    {
      "epoch": 0.07123975680676711,
      "grad_norm": 0.8974505690177144,
      "learning_rate": 7.107001321003963e-06,
      "loss": 0.7027,
      "mean_token_accuracy": 0.7805213332176208,
      "num_tokens": 35323199.0,
      "step": 539
    },
    {
      "epoch": 0.07137192704203013,
      "grad_norm": 1.0445652588674534,
      "learning_rate": 7.120211360634083e-06,
      "loss": 0.7604,
      "mean_token_accuracy": 0.7606824636459351,
      "num_tokens": 35388735.0,
      "step": 540
    },
    {
      "epoch": 0.07150409727729315,
      "grad_norm": 0.8963541763057167,
      "learning_rate": 7.133421400264201e-06,
      "loss": 0.7363,
      "mean_token_accuracy": 0.7717922329902649,
      "num_tokens": 35454271.0,
      "step": 541
    },
    {
      "epoch": 0.07163626751255617,
      "grad_norm": 0.8643859418809366,
      "learning_rate": 7.146631439894321e-06,
      "loss": 0.7481,
      "mean_token_accuracy": 0.7665730714797974,
      "num_tokens": 35519807.0,
      "step": 542
    },
    {
      "epoch": 0.07176843774781919,
      "grad_norm": 0.8604224811618412,
      "learning_rate": 7.159841479524439e-06,
      "loss": 0.6938,
      "mean_token_accuracy": 0.7831003665924072,
      "num_tokens": 35585343.0,
      "step": 543
    },
    {
      "epoch": 0.0719006079830822,
      "grad_norm": 0.8998537383154747,
      "learning_rate": 7.173051519154558e-06,
      "loss": 0.7002,
      "mean_token_accuracy": 0.7814064025878906,
      "num_tokens": 35650879.0,
      "step": 544
    },
    {
      "epoch": 0.07203277821834522,
      "grad_norm": 0.9086850112757792,
      "learning_rate": 7.1862615587846776e-06,
      "loss": 0.7557,
      "mean_token_accuracy": 0.7660084366798401,
      "num_tokens": 35716415.0,
      "step": 545
    },
    {
      "epoch": 0.07216494845360824,
      "grad_norm": 0.8446986389358476,
      "learning_rate": 7.199471598414795e-06,
      "loss": 0.6845,
      "mean_token_accuracy": 0.783558189868927,
      "num_tokens": 35781951.0,
      "step": 546
    },
    {
      "epoch": 0.07229711868887127,
      "grad_norm": 0.9292815178337758,
      "learning_rate": 7.212681638044915e-06,
      "loss": 0.7224,
      "mean_token_accuracy": 0.774081289768219,
      "num_tokens": 35847487.0,
      "step": 547
    },
    {
      "epoch": 0.07242928892413429,
      "grad_norm": 0.8974451332363738,
      "learning_rate": 7.2258916776750335e-06,
      "loss": 0.7377,
      "mean_token_accuracy": 0.7679312825202942,
      "num_tokens": 35913023.0,
      "step": 548
    },
    {
      "epoch": 0.07256145915939731,
      "grad_norm": 0.9413592987335078,
      "learning_rate": 7.239101717305152e-06,
      "loss": 0.7741,
      "mean_token_accuracy": 0.7586833238601685,
      "num_tokens": 35978559.0,
      "step": 549
    },
    {
      "epoch": 0.07269362939466033,
      "grad_norm": 0.9836939169092944,
      "learning_rate": 7.252311756935272e-06,
      "loss": 0.7633,
      "mean_token_accuracy": 0.7594768404960632,
      "num_tokens": 36044095.0,
      "step": 550
    },
    {
      "epoch": 0.07282579962992335,
      "grad_norm": 0.8654460469600876,
      "learning_rate": 7.26552179656539e-06,
      "loss": 0.6844,
      "mean_token_accuracy": 0.7895861268043518,
      "num_tokens": 36109631.0,
      "step": 551
    },
    {
      "epoch": 0.07295796986518636,
      "grad_norm": 0.9145406740747142,
      "learning_rate": 7.27873183619551e-06,
      "loss": 0.7158,
      "mean_token_accuracy": 0.7771029472351074,
      "num_tokens": 36175167.0,
      "step": 552
    },
    {
      "epoch": 0.07309014010044938,
      "grad_norm": 0.8941584061951514,
      "learning_rate": 7.2919418758256276e-06,
      "loss": 0.7205,
      "mean_token_accuracy": 0.7732572555541992,
      "num_tokens": 36240703.0,
      "step": 553
    },
    {
      "epoch": 0.0732223103357124,
      "grad_norm": 0.824965932601898,
      "learning_rate": 7.305151915455747e-06,
      "loss": 0.6825,
      "mean_token_accuracy": 0.7852826118469238,
      "num_tokens": 36306239.0,
      "step": 554
    },
    {
      "epoch": 0.07335448057097542,
      "grad_norm": 0.8728184022553787,
      "learning_rate": 7.318361955085866e-06,
      "loss": 0.7111,
      "mean_token_accuracy": 0.7775607109069824,
      "num_tokens": 36371775.0,
      "step": 555
    },
    {
      "epoch": 0.07348665080623844,
      "grad_norm": 0.9238618515729171,
      "learning_rate": 7.331571994715984e-06,
      "loss": 0.7185,
      "mean_token_accuracy": 0.7717006206512451,
      "num_tokens": 36437311.0,
      "step": 556
    },
    {
      "epoch": 0.07361882104150146,
      "grad_norm": 1.0279498714213355,
      "learning_rate": 7.344782034346104e-06,
      "loss": 0.7742,
      "mean_token_accuracy": 0.7568062543869019,
      "num_tokens": 36502847.0,
      "step": 557
    },
    {
      "epoch": 0.07375099127676447,
      "grad_norm": 0.9451901336404311,
      "learning_rate": 7.3579920739762225e-06,
      "loss": 0.7576,
      "mean_token_accuracy": 0.7635667324066162,
      "num_tokens": 36568383.0,
      "step": 558
    },
    {
      "epoch": 0.07388316151202749,
      "grad_norm": 0.9144896927745266,
      "learning_rate": 7.371202113606342e-06,
      "loss": 0.7388,
      "mean_token_accuracy": 0.7674276828765869,
      "num_tokens": 36633919.0,
      "step": 559
    },
    {
      "epoch": 0.07401533174729051,
      "grad_norm": 0.8771010076146156,
      "learning_rate": 7.38441215323646e-06,
      "loss": 0.763,
      "mean_token_accuracy": 0.7620711922645569,
      "num_tokens": 36699455.0,
      "step": 560
    },
    {
      "epoch": 0.07414750198255353,
      "grad_norm": 0.8865133147092913,
      "learning_rate": 7.397622192866579e-06,
      "loss": 0.7055,
      "mean_token_accuracy": 0.7799261212348938,
      "num_tokens": 36764991.0,
      "step": 561
    },
    {
      "epoch": 0.07427967221781655,
      "grad_norm": 0.840694642390859,
      "learning_rate": 7.410832232496699e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7912189960479736,
      "num_tokens": 36830527.0,
      "step": 562
    },
    {
      "epoch": 0.07441184245307957,
      "grad_norm": 0.982653191657337,
      "learning_rate": 7.4240422721268165e-06,
      "loss": 0.712,
      "mean_token_accuracy": 0.7787968516349792,
      "num_tokens": 36896063.0,
      "step": 563
    },
    {
      "epoch": 0.07454401268834258,
      "grad_norm": 0.9392785374402683,
      "learning_rate": 7.437252311756936e-06,
      "loss": 0.7416,
      "mean_token_accuracy": 0.7685874700546265,
      "num_tokens": 36961599.0,
      "step": 564
    },
    {
      "epoch": 0.0746761829236056,
      "grad_norm": 0.8103161032594277,
      "learning_rate": 7.450462351387055e-06,
      "loss": 0.6594,
      "mean_token_accuracy": 0.7956598997116089,
      "num_tokens": 37027135.0,
      "step": 565
    },
    {
      "epoch": 0.07480835315886862,
      "grad_norm": 0.8165712222928677,
      "learning_rate": 7.463672391017174e-06,
      "loss": 0.6094,
      "mean_token_accuracy": 0.8101574778556824,
      "num_tokens": 37092671.0,
      "step": 566
    },
    {
      "epoch": 0.07494052339413164,
      "grad_norm": 1.0247286381362133,
      "learning_rate": 7.476882430647292e-06,
      "loss": 0.742,
      "mean_token_accuracy": 0.7668324708938599,
      "num_tokens": 37158207.0,
      "step": 567
    },
    {
      "epoch": 0.07507269362939466,
      "grad_norm": 0.8946589192744797,
      "learning_rate": 7.490092470277411e-06,
      "loss": 0.7234,
      "mean_token_accuracy": 0.7729367613792419,
      "num_tokens": 37223743.0,
      "step": 568
    },
    {
      "epoch": 0.07520486386465768,
      "grad_norm": 0.8889651821230654,
      "learning_rate": 7.503302509907531e-06,
      "loss": 0.7342,
      "mean_token_accuracy": 0.7705103158950806,
      "num_tokens": 37289279.0,
      "step": 569
    },
    {
      "epoch": 0.0753370340999207,
      "grad_norm": 0.9529915389962619,
      "learning_rate": 7.516512549537649e-06,
      "loss": 0.712,
      "mean_token_accuracy": 0.7729825377464294,
      "num_tokens": 37354815.0,
      "step": 570
    },
    {
      "epoch": 0.07546920433518371,
      "grad_norm": 0.866690353706755,
      "learning_rate": 7.529722589167768e-06,
      "loss": 0.7214,
      "mean_token_accuracy": 0.7730588316917419,
      "num_tokens": 37420351.0,
      "step": 571
    },
    {
      "epoch": 0.07560137457044673,
      "grad_norm": 0.9789671695574619,
      "learning_rate": 7.542932628797887e-06,
      "loss": 0.7239,
      "mean_token_accuracy": 0.769381046295166,
      "num_tokens": 37485887.0,
      "step": 572
    },
    {
      "epoch": 0.07573354480570975,
      "grad_norm": 0.8795218393323827,
      "learning_rate": 7.556142668428006e-06,
      "loss": 0.7208,
      "mean_token_accuracy": 0.774111807346344,
      "num_tokens": 37551423.0,
      "step": 573
    },
    {
      "epoch": 0.07586571504097277,
      "grad_norm": 0.88888134465908,
      "learning_rate": 7.569352708058125e-06,
      "loss": 0.7017,
      "mean_token_accuracy": 0.7783085107803345,
      "num_tokens": 37616959.0,
      "step": 574
    },
    {
      "epoch": 0.07599788527623579,
      "grad_norm": 0.9112273619391054,
      "learning_rate": 7.582562747688244e-06,
      "loss": 0.7584,
      "mean_token_accuracy": 0.7615218162536621,
      "num_tokens": 37682495.0,
      "step": 575
    },
    {
      "epoch": 0.0761300555114988,
      "grad_norm": 0.8772804564535248,
      "learning_rate": 7.595772787318363e-06,
      "loss": 0.7167,
      "mean_token_accuracy": 0.7758343815803528,
      "num_tokens": 37746652.0,
      "step": 576
    },
    {
      "epoch": 0.07626222574676184,
      "grad_norm": 0.9139183896880267,
      "learning_rate": 7.608982826948481e-06,
      "loss": 0.7587,
      "mean_token_accuracy": 0.7624679803848267,
      "num_tokens": 37812188.0,
      "step": 577
    },
    {
      "epoch": 0.07639439598202485,
      "grad_norm": 0.8491005575380884,
      "learning_rate": 7.6221928665786e-06,
      "loss": 0.7146,
      "mean_token_accuracy": 0.7776980996131897,
      "num_tokens": 37877724.0,
      "step": 578
    },
    {
      "epoch": 0.07652656621728787,
      "grad_norm": 0.9308193164797792,
      "learning_rate": 7.635402906208719e-06,
      "loss": 0.7358,
      "mean_token_accuracy": 0.7698236107826233,
      "num_tokens": 37943260.0,
      "step": 579
    },
    {
      "epoch": 0.07665873645255089,
      "grad_norm": 0.8561060954528057,
      "learning_rate": 7.648612945838839e-06,
      "loss": 0.7303,
      "mean_token_accuracy": 0.7709681391716003,
      "num_tokens": 38008796.0,
      "step": 580
    },
    {
      "epoch": 0.07679090668781391,
      "grad_norm": 0.8920783704448746,
      "learning_rate": 7.661822985468958e-06,
      "loss": 0.687,
      "mean_token_accuracy": 0.7819100022315979,
      "num_tokens": 38074332.0,
      "step": 581
    },
    {
      "epoch": 0.07692307692307693,
      "grad_norm": 0.9153234182253237,
      "learning_rate": 7.675033025099076e-06,
      "loss": 0.7307,
      "mean_token_accuracy": 0.7701898217201233,
      "num_tokens": 38139868.0,
      "step": 582
    },
    {
      "epoch": 0.07705524715833995,
      "grad_norm": 0.9007467085815235,
      "learning_rate": 7.688243064729195e-06,
      "loss": 0.7757,
      "mean_token_accuracy": 0.758942723274231,
      "num_tokens": 38205404.0,
      "step": 583
    },
    {
      "epoch": 0.07718741739360296,
      "grad_norm": 0.862487369030809,
      "learning_rate": 7.701453104359313e-06,
      "loss": 0.6986,
      "mean_token_accuracy": 0.778262734413147,
      "num_tokens": 38270940.0,
      "step": 584
    },
    {
      "epoch": 0.07731958762886598,
      "grad_norm": 0.9219322994883185,
      "learning_rate": 7.714663143989433e-06,
      "loss": 0.7027,
      "mean_token_accuracy": 0.7771182060241699,
      "num_tokens": 38336476.0,
      "step": 585
    },
    {
      "epoch": 0.077451757864129,
      "grad_norm": 0.8586460534702335,
      "learning_rate": 7.727873183619552e-06,
      "loss": 0.6667,
      "mean_token_accuracy": 0.7877700924873352,
      "num_tokens": 38402012.0,
      "step": 586
    },
    {
      "epoch": 0.07758392809939202,
      "grad_norm": 0.9258116423208996,
      "learning_rate": 7.74108322324967e-06,
      "loss": 0.6999,
      "mean_token_accuracy": 0.779346227645874,
      "num_tokens": 38467548.0,
      "step": 587
    },
    {
      "epoch": 0.07771609833465504,
      "grad_norm": 0.8980592714881938,
      "learning_rate": 7.75429326287979e-06,
      "loss": 0.727,
      "mean_token_accuracy": 0.7673208117485046,
      "num_tokens": 38533084.0,
      "step": 588
    },
    {
      "epoch": 0.07784826856991806,
      "grad_norm": 0.793058539253305,
      "learning_rate": 7.767503302509907e-06,
      "loss": 0.6315,
      "mean_token_accuracy": 0.8005585670471191,
      "num_tokens": 38598620.0,
      "step": 589
    },
    {
      "epoch": 0.07798043880518107,
      "grad_norm": 0.8499887110666704,
      "learning_rate": 7.780713342140027e-06,
      "loss": 0.6943,
      "mean_token_accuracy": 0.7849164009094238,
      "num_tokens": 38664156.0,
      "step": 590
    },
    {
      "epoch": 0.07811260904044409,
      "grad_norm": 0.8900124655109088,
      "learning_rate": 7.793923381770146e-06,
      "loss": 0.6803,
      "mean_token_accuracy": 0.7873886227607727,
      "num_tokens": 38729692.0,
      "step": 591
    },
    {
      "epoch": 0.07824477927570711,
      "grad_norm": 0.9028271965856384,
      "learning_rate": 7.807133421400266e-06,
      "loss": 0.728,
      "mean_token_accuracy": 0.7710749506950378,
      "num_tokens": 38795228.0,
      "step": 592
    },
    {
      "epoch": 0.07837694951097013,
      "grad_norm": 1.0142441202488046,
      "learning_rate": 7.820343461030383e-06,
      "loss": 0.7528,
      "mean_token_accuracy": 0.7634904384613037,
      "num_tokens": 38860764.0,
      "step": 593
    },
    {
      "epoch": 0.07850911974623315,
      "grad_norm": 0.8819524989670187,
      "learning_rate": 7.833553500660503e-06,
      "loss": 0.7136,
      "mean_token_accuracy": 0.7740965485572815,
      "num_tokens": 38926300.0,
      "step": 594
    },
    {
      "epoch": 0.07864128998149617,
      "grad_norm": 0.902605277691991,
      "learning_rate": 7.846763540290622e-06,
      "loss": 0.7247,
      "mean_token_accuracy": 0.7726773023605347,
      "num_tokens": 38991836.0,
      "step": 595
    },
    {
      "epoch": 0.07877346021675918,
      "grad_norm": 0.9681945864702138,
      "learning_rate": 7.85997357992074e-06,
      "loss": 0.7173,
      "mean_token_accuracy": 0.7740965485572815,
      "num_tokens": 39057372.0,
      "step": 596
    },
    {
      "epoch": 0.0789056304520222,
      "grad_norm": 0.9201650934536937,
      "learning_rate": 7.87318361955086e-06,
      "loss": 0.666,
      "mean_token_accuracy": 0.7897844910621643,
      "num_tokens": 39122908.0,
      "step": 597
    },
    {
      "epoch": 0.07903780068728522,
      "grad_norm": 0.9143373994140365,
      "learning_rate": 7.886393659180979e-06,
      "loss": 0.7471,
      "mean_token_accuracy": 0.764055073261261,
      "num_tokens": 39188444.0,
      "step": 598
    },
    {
      "epoch": 0.07916997092254824,
      "grad_norm": 0.9089495436695441,
      "learning_rate": 7.899603698811097e-06,
      "loss": 0.6765,
      "mean_token_accuracy": 0.7849926948547363,
      "num_tokens": 39253980.0,
      "step": 599
    },
    {
      "epoch": 0.07930214115781126,
      "grad_norm": 0.9294342177221803,
      "learning_rate": 7.912813738441216e-06,
      "loss": 0.7275,
      "mean_token_accuracy": 0.7705713510513306,
      "num_tokens": 39319516.0,
      "step": 600
    },
    {
      "epoch": 0.07943431139307428,
      "grad_norm": 0.9139241746172192,
      "learning_rate": 7.926023778071334e-06,
      "loss": 0.7141,
      "mean_token_accuracy": 0.7741575837135315,
      "num_tokens": 39385052.0,
      "step": 601
    },
    {
      "epoch": 0.0795664816283373,
      "grad_norm": 0.8462100167604867,
      "learning_rate": 7.939233817701454e-06,
      "loss": 0.7419,
      "mean_token_accuracy": 0.7720058560371399,
      "num_tokens": 39450588.0,
      "step": 602
    },
    {
      "epoch": 0.07969865186360031,
      "grad_norm": 0.8680144106236815,
      "learning_rate": 7.952443857331572e-06,
      "loss": 0.7179,
      "mean_token_accuracy": 0.7762025594711304,
      "num_tokens": 39516124.0,
      "step": 603
    },
    {
      "epoch": 0.07983082209886333,
      "grad_norm": 0.9208432692864699,
      "learning_rate": 7.965653896961691e-06,
      "loss": 0.7318,
      "mean_token_accuracy": 0.7697778344154358,
      "num_tokens": 39581660.0,
      "step": 604
    },
    {
      "epoch": 0.07996299233412635,
      "grad_norm": 0.9468431390109421,
      "learning_rate": 7.97886393659181e-06,
      "loss": 0.7418,
      "mean_token_accuracy": 0.7648638486862183,
      "num_tokens": 39647196.0,
      "step": 605
    },
    {
      "epoch": 0.08009516256938938,
      "grad_norm": 0.8392096876567526,
      "learning_rate": 7.992073976221928e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7948052883148193,
      "num_tokens": 39712732.0,
      "step": 606
    },
    {
      "epoch": 0.0802273328046524,
      "grad_norm": 0.8840618309255123,
      "learning_rate": 8.005284015852048e-06,
      "loss": 0.7274,
      "mean_token_accuracy": 0.7699151635169983,
      "num_tokens": 39778268.0,
      "step": 607
    },
    {
      "epoch": 0.08035950303991542,
      "grad_norm": 0.920225633239678,
      "learning_rate": 8.018494055482167e-06,
      "loss": 0.7028,
      "mean_token_accuracy": 0.778171181678772,
      "num_tokens": 39843804.0,
      "step": 608
    },
    {
      "epoch": 0.08049167327517844,
      "grad_norm": 0.9441401877984895,
      "learning_rate": 8.031704095112287e-06,
      "loss": 0.7432,
      "mean_token_accuracy": 0.7658100128173828,
      "num_tokens": 39909340.0,
      "step": 609
    },
    {
      "epoch": 0.08062384351044145,
      "grad_norm": 0.9727958123865195,
      "learning_rate": 8.044914134742405e-06,
      "loss": 0.7532,
      "mean_token_accuracy": 0.764055073261261,
      "num_tokens": 39974876.0,
      "step": 610
    },
    {
      "epoch": 0.08075601374570447,
      "grad_norm": 0.8639159966236043,
      "learning_rate": 8.058124174372524e-06,
      "loss": 0.6752,
      "mean_token_accuracy": 0.789097785949707,
      "num_tokens": 40040412.0,
      "step": 611
    },
    {
      "epoch": 0.08088818398096749,
      "grad_norm": 0.8932204258944219,
      "learning_rate": 8.071334214002644e-06,
      "loss": 0.6702,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 40105948.0,
      "step": 612
    },
    {
      "epoch": 0.08102035421623051,
      "grad_norm": 0.8151665439327641,
      "learning_rate": 8.084544253632761e-06,
      "loss": 0.652,
      "mean_token_accuracy": 0.7930350303649902,
      "num_tokens": 40171484.0,
      "step": 613
    },
    {
      "epoch": 0.08115252445149353,
      "grad_norm": 0.8632537733400508,
      "learning_rate": 8.09775429326288e-06,
      "loss": 0.6349,
      "mean_token_accuracy": 0.79897141456604,
      "num_tokens": 40237020.0,
      "step": 614
    },
    {
      "epoch": 0.08128469468675655,
      "grad_norm": 0.9112801962245389,
      "learning_rate": 8.110964332893e-06,
      "loss": 0.7317,
      "mean_token_accuracy": 0.7689232230186462,
      "num_tokens": 40302556.0,
      "step": 615
    },
    {
      "epoch": 0.08141686492201956,
      "grad_norm": 0.9436209991621812,
      "learning_rate": 8.124174372523118e-06,
      "loss": 0.7503,
      "mean_token_accuracy": 0.7655963897705078,
      "num_tokens": 40368092.0,
      "step": 616
    },
    {
      "epoch": 0.08154903515728258,
      "grad_norm": 0.9397199460609994,
      "learning_rate": 8.137384412153238e-06,
      "loss": 0.7238,
      "mean_token_accuracy": 0.7710902094841003,
      "num_tokens": 40433628.0,
      "step": 617
    },
    {
      "epoch": 0.0816812053925456,
      "grad_norm": 0.8366382966885092,
      "learning_rate": 8.150594451783355e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.807669997215271,
      "num_tokens": 40499164.0,
      "step": 618
    },
    {
      "epoch": 0.08181337562780862,
      "grad_norm": 0.8580979609724044,
      "learning_rate": 8.163804491413475e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.8100201487541199,
      "num_tokens": 40564700.0,
      "step": 619
    },
    {
      "epoch": 0.08194554586307164,
      "grad_norm": 0.9058085960171806,
      "learning_rate": 8.177014531043593e-06,
      "loss": 0.6615,
      "mean_token_accuracy": 0.7922720313072205,
      "num_tokens": 40630236.0,
      "step": 620
    },
    {
      "epoch": 0.08207771609833465,
      "grad_norm": 0.8912284885871566,
      "learning_rate": 8.190224570673712e-06,
      "loss": 0.6594,
      "mean_token_accuracy": 0.7972622513771057,
      "num_tokens": 40695772.0,
      "step": 621
    },
    {
      "epoch": 0.08220988633359767,
      "grad_norm": 0.8277811925273747,
      "learning_rate": 8.203434610303832e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7795904278755188,
      "num_tokens": 40761308.0,
      "step": 622
    },
    {
      "epoch": 0.08234205656886069,
      "grad_norm": 0.8908104096131122,
      "learning_rate": 8.216644649933951e-06,
      "loss": 0.7055,
      "mean_token_accuracy": 0.7788731455802917,
      "num_tokens": 40826844.0,
      "step": 623
    },
    {
      "epoch": 0.08247422680412371,
      "grad_norm": 0.9086484462772032,
      "learning_rate": 8.229854689564069e-06,
      "loss": 0.7256,
      "mean_token_accuracy": 0.7706018686294556,
      "num_tokens": 40892380.0,
      "step": 624
    },
    {
      "epoch": 0.08260639703938673,
      "grad_norm": 0.8805391817739724,
      "learning_rate": 8.243064729194188e-06,
      "loss": 0.701,
      "mean_token_accuracy": 0.7796514630317688,
      "num_tokens": 40957916.0,
      "step": 625
    },
    {
      "epoch": 0.08273856727464975,
      "grad_norm": 0.8866057795658359,
      "learning_rate": 8.256274768824308e-06,
      "loss": 0.708,
      "mean_token_accuracy": 0.7771029472351074,
      "num_tokens": 41023452.0,
      "step": 626
    },
    {
      "epoch": 0.08287073750991276,
      "grad_norm": 0.9202412099051084,
      "learning_rate": 8.269484808454427e-06,
      "loss": 0.7365,
      "mean_token_accuracy": 0.768419623374939,
      "num_tokens": 41088988.0,
      "step": 627
    },
    {
      "epoch": 0.08300290774517578,
      "grad_norm": 0.9078083849274796,
      "learning_rate": 8.282694848084545e-06,
      "loss": 0.7222,
      "mean_token_accuracy": 0.7723568677902222,
      "num_tokens": 41154524.0,
      "step": 628
    },
    {
      "epoch": 0.0831350779804388,
      "grad_norm": 0.9509132611008836,
      "learning_rate": 8.295904887714665e-06,
      "loss": 0.7478,
      "mean_token_accuracy": 0.7687095403671265,
      "num_tokens": 41220060.0,
      "step": 629
    },
    {
      "epoch": 0.08326724821570182,
      "grad_norm": 0.9278103898687908,
      "learning_rate": 8.309114927344782e-06,
      "loss": 0.7252,
      "mean_token_accuracy": 0.7762483358383179,
      "num_tokens": 41285596.0,
      "step": 630
    },
    {
      "epoch": 0.08339941845096484,
      "grad_norm": 0.8942933745725473,
      "learning_rate": 8.322324966974902e-06,
      "loss": 0.7205,
      "mean_token_accuracy": 0.7729520201683044,
      "num_tokens": 41351132.0,
      "step": 631
    },
    {
      "epoch": 0.08353158868622786,
      "grad_norm": 0.8288100068940627,
      "learning_rate": 8.33553500660502e-06,
      "loss": 0.6946,
      "mean_token_accuracy": 0.7813606262207031,
      "num_tokens": 41416668.0,
      "step": 632
    },
    {
      "epoch": 0.08366375892149087,
      "grad_norm": 0.9470753236867425,
      "learning_rate": 8.34874504623514e-06,
      "loss": 0.6739,
      "mean_token_accuracy": 0.7883958220481873,
      "num_tokens": 41482204.0,
      "step": 633
    },
    {
      "epoch": 0.08379592915675389,
      "grad_norm": 0.8826788586721321,
      "learning_rate": 8.361955085865259e-06,
      "loss": 0.675,
      "mean_token_accuracy": 0.7885484099388123,
      "num_tokens": 41547740.0,
      "step": 634
    },
    {
      "epoch": 0.08392809939201691,
      "grad_norm": 0.9296276987736091,
      "learning_rate": 8.375165125495377e-06,
      "loss": 0.6895,
      "mean_token_accuracy": 0.7821999788284302,
      "num_tokens": 41613276.0,
      "step": 635
    },
    {
      "epoch": 0.08406026962727994,
      "grad_norm": 0.9741772500873176,
      "learning_rate": 8.388375165125496e-06,
      "loss": 0.7456,
      "mean_token_accuracy": 0.7662830948829651,
      "num_tokens": 41678812.0,
      "step": 636
    },
    {
      "epoch": 0.08419243986254296,
      "grad_norm": 0.9128332125015621,
      "learning_rate": 8.401585204755614e-06,
      "loss": 0.7364,
      "mean_token_accuracy": 0.769411563873291,
      "num_tokens": 41744348.0,
      "step": 637
    },
    {
      "epoch": 0.08432461009780598,
      "grad_norm": 0.9259617889009492,
      "learning_rate": 8.414795244385733e-06,
      "loss": 0.7265,
      "mean_token_accuracy": 0.7740965485572815,
      "num_tokens": 41809884.0,
      "step": 638
    },
    {
      "epoch": 0.084456780333069,
      "grad_norm": 0.9486391758084334,
      "learning_rate": 8.428005284015853e-06,
      "loss": 0.7363,
      "mean_token_accuracy": 0.7672292590141296,
      "num_tokens": 41875420.0,
      "step": 639
    },
    {
      "epoch": 0.08458895056833202,
      "grad_norm": 0.8397963670569345,
      "learning_rate": 8.441215323645972e-06,
      "loss": 0.6671,
      "mean_token_accuracy": 0.7894945740699768,
      "num_tokens": 41940956.0,
      "step": 640
    },
    {
      "epoch": 0.08472112080359503,
      "grad_norm": 0.8718681032480261,
      "learning_rate": 8.45442536327609e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7810554504394531,
      "num_tokens": 42006492.0,
      "step": 641
    },
    {
      "epoch": 0.08485329103885805,
      "grad_norm": 0.9118178823363788,
      "learning_rate": 8.46763540290621e-06,
      "loss": 0.6963,
      "mean_token_accuracy": 0.782871425151825,
      "num_tokens": 42072028.0,
      "step": 642
    },
    {
      "epoch": 0.08498546127412107,
      "grad_norm": 0.8522403517370312,
      "learning_rate": 8.480845442536329e-06,
      "loss": 0.6739,
      "mean_token_accuracy": 0.7873886227607727,
      "num_tokens": 42137564.0,
      "step": 643
    },
    {
      "epoch": 0.08511763150938409,
      "grad_norm": 1.0265911604684996,
      "learning_rate": 8.494055482166447e-06,
      "loss": 0.7829,
      "mean_token_accuracy": 0.7535099387168884,
      "num_tokens": 42203100.0,
      "step": 644
    },
    {
      "epoch": 0.08524980174464711,
      "grad_norm": 0.9458454389253749,
      "learning_rate": 8.507265521796566e-06,
      "loss": 0.7108,
      "mean_token_accuracy": 0.7773165702819824,
      "num_tokens": 42268636.0,
      "step": 645
    },
    {
      "epoch": 0.08538197197991013,
      "grad_norm": 0.9725821236520416,
      "learning_rate": 8.520475561426686e-06,
      "loss": 0.7344,
      "mean_token_accuracy": 0.7684348821640015,
      "num_tokens": 42334172.0,
      "step": 646
    },
    {
      "epoch": 0.08551414221517314,
      "grad_norm": 0.9431877993555253,
      "learning_rate": 8.533685601056804e-06,
      "loss": 0.7251,
      "mean_token_accuracy": 0.7720363736152649,
      "num_tokens": 42399708.0,
      "step": 647
    },
    {
      "epoch": 0.08564631245043616,
      "grad_norm": 0.9334982796149303,
      "learning_rate": 8.546895640686923e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7766298651695251,
      "num_tokens": 42465244.0,
      "step": 648
    },
    {
      "epoch": 0.08577848268569918,
      "grad_norm": 0.9588233403400039,
      "learning_rate": 8.560105680317041e-06,
      "loss": 0.696,
      "mean_token_accuracy": 0.7803229093551636,
      "num_tokens": 42530780.0,
      "step": 649
    },
    {
      "epoch": 0.0859106529209622,
      "grad_norm": 0.9869886419214788,
      "learning_rate": 8.57331571994716e-06,
      "loss": 0.7368,
      "mean_token_accuracy": 0.7713344097137451,
      "num_tokens": 42596316.0,
      "step": 650
    },
    {
      "epoch": 0.08604282315622522,
      "grad_norm": 0.9038928518003985,
      "learning_rate": 8.58652575957728e-06,
      "loss": 0.6815,
      "mean_token_accuracy": 0.7857404351234436,
      "num_tokens": 42661852.0,
      "step": 651
    },
    {
      "epoch": 0.08617499339148824,
      "grad_norm": 0.9181572903628505,
      "learning_rate": 8.599735799207398e-06,
      "loss": 0.7297,
      "mean_token_accuracy": 0.7675192356109619,
      "num_tokens": 42727388.0,
      "step": 652
    },
    {
      "epoch": 0.08630716362675125,
      "grad_norm": 0.8851916555942252,
      "learning_rate": 8.612945838837517e-06,
      "loss": 0.6641,
      "mean_token_accuracy": 0.7905780673027039,
      "num_tokens": 42792924.0,
      "step": 653
    },
    {
      "epoch": 0.08643933386201427,
      "grad_norm": 0.9362668134639162,
      "learning_rate": 8.626155878467637e-06,
      "loss": 0.6927,
      "mean_token_accuracy": 0.7820321321487427,
      "num_tokens": 42858460.0,
      "step": 654
    },
    {
      "epoch": 0.08657150409727729,
      "grad_norm": 0.979239384359082,
      "learning_rate": 8.639365918097754e-06,
      "loss": 0.7734,
      "mean_token_accuracy": 0.7574624419212341,
      "num_tokens": 42923996.0,
      "step": 655
    },
    {
      "epoch": 0.08670367433254031,
      "grad_norm": 0.9441975776089329,
      "learning_rate": 8.652575957727874e-06,
      "loss": 0.6842,
      "mean_token_accuracy": 0.7809790968894958,
      "num_tokens": 42989532.0,
      "step": 656
    },
    {
      "epoch": 0.08683584456780333,
      "grad_norm": 0.9623236292343107,
      "learning_rate": 8.665785997357993e-06,
      "loss": 0.7238,
      "mean_token_accuracy": 0.7712886333465576,
      "num_tokens": 43055068.0,
      "step": 657
    },
    {
      "epoch": 0.08696801480306635,
      "grad_norm": 0.799055999823451,
      "learning_rate": 8.678996036988113e-06,
      "loss": 0.6407,
      "mean_token_accuracy": 0.7983152270317078,
      "num_tokens": 43120604.0,
      "step": 658
    },
    {
      "epoch": 0.08710018503832936,
      "grad_norm": 0.9300620601028979,
      "learning_rate": 8.69220607661823e-06,
      "loss": 0.7052,
      "mean_token_accuracy": 0.7744323015213013,
      "num_tokens": 43186140.0,
      "step": 659
    },
    {
      "epoch": 0.08723235527359238,
      "grad_norm": 0.8734424711174437,
      "learning_rate": 8.70541611624835e-06,
      "loss": 0.6764,
      "mean_token_accuracy": 0.789250373840332,
      "num_tokens": 43251676.0,
      "step": 660
    },
    {
      "epoch": 0.0873645255088554,
      "grad_norm": 0.9528220384998026,
      "learning_rate": 8.718626155878468e-06,
      "loss": 0.7389,
      "mean_token_accuracy": 0.7696709632873535,
      "num_tokens": 43317212.0,
      "step": 661
    },
    {
      "epoch": 0.08749669574411842,
      "grad_norm": 0.8250260589795071,
      "learning_rate": 8.731836195508587e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7965602278709412,
      "num_tokens": 43382748.0,
      "step": 662
    },
    {
      "epoch": 0.08762886597938144,
      "grad_norm": 0.8848120985584734,
      "learning_rate": 8.745046235138707e-06,
      "loss": 0.7264,
      "mean_token_accuracy": 0.7718532681465149,
      "num_tokens": 43448284.0,
      "step": 663
    },
    {
      "epoch": 0.08776103621464446,
      "grad_norm": 0.8675321255063198,
      "learning_rate": 8.758256274768825e-06,
      "loss": 0.7001,
      "mean_token_accuracy": 0.779254674911499,
      "num_tokens": 43513820.0,
      "step": 664
    },
    {
      "epoch": 0.08789320644990749,
      "grad_norm": 0.8623704175280138,
      "learning_rate": 8.771466314398944e-06,
      "loss": 0.6861,
      "mean_token_accuracy": 0.7833750247955322,
      "num_tokens": 43579356.0,
      "step": 665
    },
    {
      "epoch": 0.0880253766851705,
      "grad_norm": 0.9114140404077363,
      "learning_rate": 8.784676354029062e-06,
      "loss": 0.6825,
      "mean_token_accuracy": 0.7833445072174072,
      "num_tokens": 43644892.0,
      "step": 666
    },
    {
      "epoch": 0.08815754692043352,
      "grad_norm": 0.9340879698240353,
      "learning_rate": 8.797886393659182e-06,
      "loss": 0.7086,
      "mean_token_accuracy": 0.7803839445114136,
      "num_tokens": 43710428.0,
      "step": 667
    },
    {
      "epoch": 0.08828971715569654,
      "grad_norm": 0.8584843662901755,
      "learning_rate": 8.8110964332893e-06,
      "loss": 0.671,
      "mean_token_accuracy": 0.789280891418457,
      "num_tokens": 43775964.0,
      "step": 668
    },
    {
      "epoch": 0.08842188739095956,
      "grad_norm": 0.9183205942704075,
      "learning_rate": 8.824306472919419e-06,
      "loss": 0.6893,
      "mean_token_accuracy": 0.7792394161224365,
      "num_tokens": 43841500.0,
      "step": 669
    },
    {
      "epoch": 0.08855405762622258,
      "grad_norm": 0.8929088409325849,
      "learning_rate": 8.837516512549538e-06,
      "loss": 0.6529,
      "mean_token_accuracy": 0.7895708680152893,
      "num_tokens": 43907036.0,
      "step": 670
    },
    {
      "epoch": 0.0886862278614856,
      "grad_norm": 0.9959435019376949,
      "learning_rate": 8.850726552179658e-06,
      "loss": 0.7674,
      "mean_token_accuracy": 0.7589579820632935,
      "num_tokens": 43972572.0,
      "step": 671
    },
    {
      "epoch": 0.08881839809674862,
      "grad_norm": 0.8913607307676132,
      "learning_rate": 8.863936591809776e-06,
      "loss": 0.7196,
      "mean_token_accuracy": 0.7740660309791565,
      "num_tokens": 44038108.0,
      "step": 672
    },
    {
      "epoch": 0.08895056833201163,
      "grad_norm": 1.0062832144237732,
      "learning_rate": 8.877146631439895e-06,
      "loss": 0.7404,
      "mean_token_accuracy": 0.7659931778907776,
      "num_tokens": 44103644.0,
      "step": 673
    },
    {
      "epoch": 0.08908273856727465,
      "grad_norm": 1.0304663425672973,
      "learning_rate": 8.890356671070015e-06,
      "loss": 0.7355,
      "mean_token_accuracy": 0.7674429416656494,
      "num_tokens": 44169180.0,
      "step": 674
    },
    {
      "epoch": 0.08921490880253767,
      "grad_norm": 0.8769166657649058,
      "learning_rate": 8.903566710700134e-06,
      "loss": 0.6753,
      "mean_token_accuracy": 0.7896319031715393,
      "num_tokens": 44234716.0,
      "step": 675
    },
    {
      "epoch": 0.08934707903780069,
      "grad_norm": 0.9546513978603935,
      "learning_rate": 8.916776750330252e-06,
      "loss": 0.7387,
      "mean_token_accuracy": 0.7662220597267151,
      "num_tokens": 44300252.0,
      "step": 676
    },
    {
      "epoch": 0.08947924927306371,
      "grad_norm": 0.8359316172031233,
      "learning_rate": 8.929986789960371e-06,
      "loss": 0.6318,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 44365788.0,
      "step": 677
    },
    {
      "epoch": 0.08961141950832673,
      "grad_norm": 1.0339596845979173,
      "learning_rate": 8.943196829590489e-06,
      "loss": 0.7169,
      "mean_token_accuracy": 0.7754547595977783,
      "num_tokens": 44431324.0,
      "step": 678
    },
    {
      "epoch": 0.08974358974358974,
      "grad_norm": 1.0831503085946088,
      "learning_rate": 8.956406869220609e-06,
      "loss": 0.7214,
      "mean_token_accuracy": 0.7717769742012024,
      "num_tokens": 44496860.0,
      "step": 679
    },
    {
      "epoch": 0.08987575997885276,
      "grad_norm": 0.9289800071356433,
      "learning_rate": 8.969616908850726e-06,
      "loss": 0.6983,
      "mean_token_accuracy": 0.7795751690864563,
      "num_tokens": 44562396.0,
      "step": 680
    },
    {
      "epoch": 0.09000793021411578,
      "grad_norm": 0.9275729998273565,
      "learning_rate": 8.982826948480846e-06,
      "loss": 0.6747,
      "mean_token_accuracy": 0.7870681285858154,
      "num_tokens": 44627932.0,
      "step": 681
    },
    {
      "epoch": 0.0901401004493788,
      "grad_norm": 0.9525966875799872,
      "learning_rate": 8.996036988110965e-06,
      "loss": 0.7132,
      "mean_token_accuracy": 0.7800635099411011,
      "num_tokens": 44693468.0,
      "step": 682
    },
    {
      "epoch": 0.09027227068464182,
      "grad_norm": 1.007616329044657,
      "learning_rate": 9.009247027741083e-06,
      "loss": 0.7122,
      "mean_token_accuracy": 0.775073230266571,
      "num_tokens": 44759004.0,
      "step": 683
    },
    {
      "epoch": 0.09040444091990484,
      "grad_norm": 1.0094951572236746,
      "learning_rate": 9.022457067371203e-06,
      "loss": 0.7797,
      "mean_token_accuracy": 0.7547155618667603,
      "num_tokens": 44824540.0,
      "step": 684
    },
    {
      "epoch": 0.09053661115516785,
      "grad_norm": 0.7810798425126518,
      "learning_rate": 9.035667107001322e-06,
      "loss": 0.6569,
      "mean_token_accuracy": 0.7909901142120361,
      "num_tokens": 44890076.0,
      "step": 685
    },
    {
      "epoch": 0.09066878139043087,
      "grad_norm": 0.8635804541028439,
      "learning_rate": 9.04887714663144e-06,
      "loss": 0.6365,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 44955612.0,
      "step": 686
    },
    {
      "epoch": 0.09080095162569389,
      "grad_norm": 0.9890023910800286,
      "learning_rate": 9.06208718626156e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.7905170321464539,
      "num_tokens": 45021148.0,
      "step": 687
    },
    {
      "epoch": 0.09093312186095691,
      "grad_norm": 1.027632273767516,
      "learning_rate": 9.075297225891679e-06,
      "loss": 0.7563,
      "mean_token_accuracy": 0.7618117332458496,
      "num_tokens": 45086684.0,
      "step": 688
    },
    {
      "epoch": 0.09106529209621993,
      "grad_norm": 0.9306587355996779,
      "learning_rate": 9.088507265521798e-06,
      "loss": 0.7114,
      "mean_token_accuracy": 0.7713954448699951,
      "num_tokens": 45152220.0,
      "step": 689
    },
    {
      "epoch": 0.09119746233148295,
      "grad_norm": 0.8928169324682294,
      "learning_rate": 9.101717305151916e-06,
      "loss": 0.6991,
      "mean_token_accuracy": 0.784580647945404,
      "num_tokens": 45217756.0,
      "step": 690
    },
    {
      "epoch": 0.09132963256674596,
      "grad_norm": 0.9011703747697934,
      "learning_rate": 9.114927344782036e-06,
      "loss": 0.6966,
      "mean_token_accuracy": 0.7775149345397949,
      "num_tokens": 45283292.0,
      "step": 691
    },
    {
      "epoch": 0.09146180280200898,
      "grad_norm": 1.016460519927283,
      "learning_rate": 9.128137384412154e-06,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7705255746841431,
      "num_tokens": 45348828.0,
      "step": 692
    },
    {
      "epoch": 0.091593973037272,
      "grad_norm": 0.9854065671121898,
      "learning_rate": 9.141347424042273e-06,
      "loss": 0.7246,
      "mean_token_accuracy": 0.7712733745574951,
      "num_tokens": 45414364.0,
      "step": 693
    },
    {
      "epoch": 0.09172614327253502,
      "grad_norm": 0.953122464003638,
      "learning_rate": 9.154557463672392e-06,
      "loss": 0.7412,
      "mean_token_accuracy": 0.7649402022361755,
      "num_tokens": 45479900.0,
      "step": 694
    },
    {
      "epoch": 0.09185831350779805,
      "grad_norm": 0.9425012355143312,
      "learning_rate": 9.16776750330251e-06,
      "loss": 0.6704,
      "mean_token_accuracy": 0.7893114686012268,
      "num_tokens": 45545436.0,
      "step": 695
    },
    {
      "epoch": 0.09199048374306107,
      "grad_norm": 0.9235498069937826,
      "learning_rate": 9.18097754293263e-06,
      "loss": 0.7005,
      "mean_token_accuracy": 0.7787358164787292,
      "num_tokens": 45610972.0,
      "step": 696
    },
    {
      "epoch": 0.09212265397832409,
      "grad_norm": 0.9082344107284032,
      "learning_rate": 9.194187582562748e-06,
      "loss": 0.6909,
      "mean_token_accuracy": 0.7821847200393677,
      "num_tokens": 45676508.0,
      "step": 697
    },
    {
      "epoch": 0.0922548242135871,
      "grad_norm": 0.907650418429372,
      "learning_rate": 9.207397622192867e-06,
      "loss": 0.6852,
      "mean_token_accuracy": 0.7845959067344666,
      "num_tokens": 45742044.0,
      "step": 698
    },
    {
      "epoch": 0.09238699444885012,
      "grad_norm": 1.002476781805203,
      "learning_rate": 9.220607661822987e-06,
      "loss": 0.7323,
      "mean_token_accuracy": 0.7702661752700806,
      "num_tokens": 45807580.0,
      "step": 699
    },
    {
      "epoch": 0.09251916468411314,
      "grad_norm": 0.9042132725128953,
      "learning_rate": 9.233817701453104e-06,
      "loss": 0.6448,
      "mean_token_accuracy": 0.7973843216896057,
      "num_tokens": 45873116.0,
      "step": 700
    },
    {
      "epoch": 0.09265133491937616,
      "grad_norm": 1.0368746426118989,
      "learning_rate": 9.247027741083224e-06,
      "loss": 0.7678,
      "mean_token_accuracy": 0.7561195492744446,
      "num_tokens": 45938652.0,
      "step": 701
    },
    {
      "epoch": 0.09278350515463918,
      "grad_norm": 0.8261434782062146,
      "learning_rate": 9.260237780713343e-06,
      "loss": 0.6876,
      "mean_token_accuracy": 0.7839549779891968,
      "num_tokens": 46004188.0,
      "step": 702
    },
    {
      "epoch": 0.0929156753899022,
      "grad_norm": 0.9224786230883056,
      "learning_rate": 9.273447820343461e-06,
      "loss": 0.7788,
      "mean_token_accuracy": 0.7572488188743591,
      "num_tokens": 46069724.0,
      "step": 703
    },
    {
      "epoch": 0.09304784562516522,
      "grad_norm": 0.8735028343286196,
      "learning_rate": 9.28665785997358e-06,
      "loss": 0.643,
      "mean_token_accuracy": 0.7969570159912109,
      "num_tokens": 46135260.0,
      "step": 704
    },
    {
      "epoch": 0.09318001586042823,
      "grad_norm": 1.0793180507177433,
      "learning_rate": 9.2998678996037e-06,
      "loss": 0.7244,
      "mean_token_accuracy": 0.7695183753967285,
      "num_tokens": 46200796.0,
      "step": 705
    },
    {
      "epoch": 0.09331218609569125,
      "grad_norm": 0.9800538972425604,
      "learning_rate": 9.31307793923382e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7853894233703613,
      "num_tokens": 46266332.0,
      "step": 706
    },
    {
      "epoch": 0.09344435633095427,
      "grad_norm": 0.8755494541942357,
      "learning_rate": 9.326287978863937e-06,
      "loss": 0.6764,
      "mean_token_accuracy": 0.7901049852371216,
      "num_tokens": 46331868.0,
      "step": 707
    },
    {
      "epoch": 0.09357652656621729,
      "grad_norm": 0.8892130212590553,
      "learning_rate": 9.339498018494057e-06,
      "loss": 0.6208,
      "mean_token_accuracy": 0.8037480115890503,
      "num_tokens": 46397404.0,
      "step": 708
    },
    {
      "epoch": 0.0937086968014803,
      "grad_norm": 0.9887768301984661,
      "learning_rate": 9.352708058124175e-06,
      "loss": 0.6964,
      "mean_token_accuracy": 0.7805060148239136,
      "num_tokens": 46462940.0,
      "step": 709
    },
    {
      "epoch": 0.09384086703674333,
      "grad_norm": 0.9993112282819103,
      "learning_rate": 9.365918097754294e-06,
      "loss": 0.715,
      "mean_token_accuracy": 0.774981677532196,
      "num_tokens": 46528476.0,
      "step": 710
    },
    {
      "epoch": 0.09397303727200634,
      "grad_norm": 0.9835583686240726,
      "learning_rate": 9.379128137384414e-06,
      "loss": 0.7581,
      "mean_token_accuracy": 0.7596752643585205,
      "num_tokens": 46594012.0,
      "step": 711
    },
    {
      "epoch": 0.09410520750726936,
      "grad_norm": 0.8493840431200598,
      "learning_rate": 9.392338177014531e-06,
      "loss": 0.6502,
      "mean_token_accuracy": 0.7956751585006714,
      "num_tokens": 46659548.0,
      "step": 712
    },
    {
      "epoch": 0.09423737774253238,
      "grad_norm": 0.9853194145617228,
      "learning_rate": 9.405548216644651e-06,
      "loss": 0.7203,
      "mean_token_accuracy": 0.7758362889289856,
      "num_tokens": 46725084.0,
      "step": 713
    },
    {
      "epoch": 0.0943695479777954,
      "grad_norm": 0.9769939998967881,
      "learning_rate": 9.418758256274769e-06,
      "loss": 0.6925,
      "mean_token_accuracy": 0.7825815081596375,
      "num_tokens": 46790620.0,
      "step": 714
    },
    {
      "epoch": 0.09450171821305842,
      "grad_norm": 0.9674821484532731,
      "learning_rate": 9.431968295904888e-06,
      "loss": 0.746,
      "mean_token_accuracy": 0.7626205682754517,
      "num_tokens": 46856156.0,
      "step": 715
    },
    {
      "epoch": 0.09463388844832143,
      "grad_norm": 0.7890664204064178,
      "learning_rate": 9.445178335535008e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.7942711710929871,
      "num_tokens": 46921692.0,
      "step": 716
    },
    {
      "epoch": 0.09476605868358445,
      "grad_norm": 0.8198363379509263,
      "learning_rate": 9.458388375165125e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.8018556833267212,
      "num_tokens": 46987228.0,
      "step": 717
    },
    {
      "epoch": 0.09489822891884747,
      "grad_norm": 0.8902148782694503,
      "learning_rate": 9.471598414795245e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7941642999649048,
      "num_tokens": 47052764.0,
      "step": 718
    },
    {
      "epoch": 0.09503039915411049,
      "grad_norm": 0.9176090027478911,
      "learning_rate": 9.484808454425364e-06,
      "loss": 0.6653,
      "mean_token_accuracy": 0.7917073369026184,
      "num_tokens": 47118300.0,
      "step": 719
    },
    {
      "epoch": 0.09516256938937351,
      "grad_norm": 0.9520031383700688,
      "learning_rate": 9.498018494055484e-06,
      "loss": 0.7561,
      "mean_token_accuracy": 0.7647417783737183,
      "num_tokens": 47183836.0,
      "step": 720
    },
    {
      "epoch": 0.09529473962463653,
      "grad_norm": 0.9533157329431929,
      "learning_rate": 9.511228533685602e-06,
      "loss": 0.686,
      "mean_token_accuracy": 0.7828561663627625,
      "num_tokens": 47249372.0,
      "step": 721
    },
    {
      "epoch": 0.09542690985989954,
      "grad_norm": 1.033332789698973,
      "learning_rate": 9.524438573315721e-06,
      "loss": 0.7732,
      "mean_token_accuracy": 0.7574929594993591,
      "num_tokens": 47314908.0,
      "step": 722
    },
    {
      "epoch": 0.09555908009516256,
      "grad_norm": 1.0427924704530043,
      "learning_rate": 9.53764861294584e-06,
      "loss": 0.6918,
      "mean_token_accuracy": 0.7805060148239136,
      "num_tokens": 47380444.0,
      "step": 723
    },
    {
      "epoch": 0.09569125033042558,
      "grad_norm": 1.0796605781091755,
      "learning_rate": 9.550858652575959e-06,
      "loss": 0.7637,
      "mean_token_accuracy": 0.7606824636459351,
      "num_tokens": 47445980.0,
      "step": 724
    },
    {
      "epoch": 0.09582342056568861,
      "grad_norm": 0.8792114928465437,
      "learning_rate": 9.564068692206078e-06,
      "loss": 0.6909,
      "mean_token_accuracy": 0.784458577632904,
      "num_tokens": 47511516.0,
      "step": 725
    },
    {
      "epoch": 0.09595559080095163,
      "grad_norm": 0.8664194384692256,
      "learning_rate": 9.577278731836196e-06,
      "loss": 0.6835,
      "mean_token_accuracy": 0.7819710373878479,
      "num_tokens": 47577052.0,
      "step": 726
    },
    {
      "epoch": 0.09608776103621465,
      "grad_norm": 0.9338705253193075,
      "learning_rate": 9.590488771466315e-06,
      "loss": 0.6828,
      "mean_token_accuracy": 0.7852978706359863,
      "num_tokens": 47642588.0,
      "step": 727
    },
    {
      "epoch": 0.09621993127147767,
      "grad_norm": 0.9131503258321092,
      "learning_rate": 9.603698811096433e-06,
      "loss": 0.7106,
      "mean_token_accuracy": 0.775103747844696,
      "num_tokens": 47708124.0,
      "step": 728
    },
    {
      "epoch": 0.09635210150674069,
      "grad_norm": 0.9011507784108407,
      "learning_rate": 9.616908850726553e-06,
      "loss": 0.747,
      "mean_token_accuracy": 0.7637040615081787,
      "num_tokens": 47773660.0,
      "step": 729
    },
    {
      "epoch": 0.0964842717420037,
      "grad_norm": 0.8992709630170962,
      "learning_rate": 9.630118890356672e-06,
      "loss": 0.7383,
      "mean_token_accuracy": 0.7688011527061462,
      "num_tokens": 47839196.0,
      "step": 730
    },
    {
      "epoch": 0.09661644197726672,
      "grad_norm": 0.9247466180595372,
      "learning_rate": 9.64332892998679e-06,
      "loss": 0.729,
      "mean_token_accuracy": 0.7692283987998962,
      "num_tokens": 47904732.0,
      "step": 731
    },
    {
      "epoch": 0.09674861221252974,
      "grad_norm": 1.0621546739866514,
      "learning_rate": 9.65653896961691e-06,
      "loss": 0.7402,
      "mean_token_accuracy": 0.7660694718360901,
      "num_tokens": 47970268.0,
      "step": 732
    },
    {
      "epoch": 0.09688078244779276,
      "grad_norm": 0.8593659190253683,
      "learning_rate": 9.669749009247029e-06,
      "loss": 0.6832,
      "mean_token_accuracy": 0.783863365650177,
      "num_tokens": 48035804.0,
      "step": 733
    },
    {
      "epoch": 0.09701295268305578,
      "grad_norm": 0.8639328478180783,
      "learning_rate": 9.682959048877147e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7900592088699341,
      "num_tokens": 48101340.0,
      "step": 734
    },
    {
      "epoch": 0.0971451229183188,
      "grad_norm": 0.8884532799459596,
      "learning_rate": 9.696169088507266e-06,
      "loss": 0.7174,
      "mean_token_accuracy": 0.7774844169616699,
      "num_tokens": 48166876.0,
      "step": 735
    },
    {
      "epoch": 0.09727729315358181,
      "grad_norm": 0.8683034489771582,
      "learning_rate": 9.709379128137386e-06,
      "loss": 0.6514,
      "mean_token_accuracy": 0.7970027923583984,
      "num_tokens": 48232412.0,
      "step": 736
    },
    {
      "epoch": 0.09740946338884483,
      "grad_norm": 0.9401700354881638,
      "learning_rate": 9.722589167767505e-06,
      "loss": 0.7275,
      "mean_token_accuracy": 0.7714564800262451,
      "num_tokens": 48297948.0,
      "step": 737
    },
    {
      "epoch": 0.09754163362410785,
      "grad_norm": 0.8827242819247497,
      "learning_rate": 9.735799207397623e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7916920781135559,
      "num_tokens": 48363484.0,
      "step": 738
    },
    {
      "epoch": 0.09767380385937087,
      "grad_norm": 0.8830694637040988,
      "learning_rate": 9.749009247027742e-06,
      "loss": 0.6776,
      "mean_token_accuracy": 0.7891740798950195,
      "num_tokens": 48429020.0,
      "step": 739
    },
    {
      "epoch": 0.09780597409463389,
      "grad_norm": 1.0370488659835977,
      "learning_rate": 9.76221928665786e-06,
      "loss": 0.6642,
      "mean_token_accuracy": 0.7905780673027039,
      "num_tokens": 48494556.0,
      "step": 740
    },
    {
      "epoch": 0.0979381443298969,
      "grad_norm": 0.8600996198959471,
      "learning_rate": 9.77542932628798e-06,
      "loss": 0.6528,
      "mean_token_accuracy": 0.7958124876022339,
      "num_tokens": 48560092.0,
      "step": 741
    },
    {
      "epoch": 0.09807031456515992,
      "grad_norm": 0.8629864382861568,
      "learning_rate": 9.7886393659181e-06,
      "loss": 0.698,
      "mean_token_accuracy": 0.7823220491409302,
      "num_tokens": 48625628.0,
      "step": 742
    },
    {
      "epoch": 0.09820248480042294,
      "grad_norm": 1.0014845048678342,
      "learning_rate": 9.801849405548217e-06,
      "loss": 0.6938,
      "mean_token_accuracy": 0.7804144620895386,
      "num_tokens": 48691164.0,
      "step": 743
    },
    {
      "epoch": 0.09833465503568596,
      "grad_norm": 0.9169069015175981,
      "learning_rate": 9.815059445178336e-06,
      "loss": 0.6841,
      "mean_token_accuracy": 0.7862135171890259,
      "num_tokens": 48756700.0,
      "step": 744
    },
    {
      "epoch": 0.09846682527094898,
      "grad_norm": 1.007247983913248,
      "learning_rate": 9.828269484808454e-06,
      "loss": 0.758,
      "mean_token_accuracy": 0.7602246403694153,
      "num_tokens": 48822236.0,
      "step": 745
    },
    {
      "epoch": 0.098598995506212,
      "grad_norm": 0.8824989385133425,
      "learning_rate": 9.841479524438574e-06,
      "loss": 0.7135,
      "mean_token_accuracy": 0.774050772190094,
      "num_tokens": 48887772.0,
      "step": 746
    },
    {
      "epoch": 0.09873116574147502,
      "grad_norm": 0.9297697267885442,
      "learning_rate": 9.854689564068693e-06,
      "loss": 0.7593,
      "mean_token_accuracy": 0.759660005569458,
      "num_tokens": 48953308.0,
      "step": 747
    },
    {
      "epoch": 0.09886333597673803,
      "grad_norm": 0.9081666394528274,
      "learning_rate": 9.867899603698811e-06,
      "loss": 0.7179,
      "mean_token_accuracy": 0.7717922329902649,
      "num_tokens": 49018844.0,
      "step": 748
    },
    {
      "epoch": 0.09899550621200105,
      "grad_norm": 0.9340654834743484,
      "learning_rate": 9.88110964332893e-06,
      "loss": 0.7108,
      "mean_token_accuracy": 0.7751953601837158,
      "num_tokens": 49084380.0,
      "step": 749
    },
    {
      "epoch": 0.09912767644726407,
      "grad_norm": 0.9612286882108003,
      "learning_rate": 9.89431968295905e-06,
      "loss": 0.7337,
      "mean_token_accuracy": 0.7660236954689026,
      "num_tokens": 49149916.0,
      "step": 750
    },
    {
      "epoch": 0.09925984668252709,
      "grad_norm": 0.9452550565565518,
      "learning_rate": 9.90752972258917e-06,
      "loss": 0.6957,
      "mean_token_accuracy": 0.783558189868927,
      "num_tokens": 49215452.0,
      "step": 751
    },
    {
      "epoch": 0.09939201691779011,
      "grad_norm": 0.8888474896386511,
      "learning_rate": 9.920739762219287e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.7921956777572632,
      "num_tokens": 49280988.0,
      "step": 752
    },
    {
      "epoch": 0.09952418715305313,
      "grad_norm": 1.042198198231858,
      "learning_rate": 9.933949801849407e-06,
      "loss": 0.6981,
      "mean_token_accuracy": 0.778354287147522,
      "num_tokens": 49346524.0,
      "step": 753
    },
    {
      "epoch": 0.09965635738831616,
      "grad_norm": 0.9810508072384632,
      "learning_rate": 9.947159841479526e-06,
      "loss": 0.7242,
      "mean_token_accuracy": 0.7744628190994263,
      "num_tokens": 49412060.0,
      "step": 754
    },
    {
      "epoch": 0.09978852762357918,
      "grad_norm": 0.9314540366562482,
      "learning_rate": 9.960369881109644e-06,
      "loss": 0.6912,
      "mean_token_accuracy": 0.7829172015190125,
      "num_tokens": 49477596.0,
      "step": 755
    },
    {
      "epoch": 0.0999206978588422,
      "grad_norm": 0.9662428288943913,
      "learning_rate": 9.973579920739764e-06,
      "loss": 0.704,
      "mean_token_accuracy": 0.7758210301399231,
      "num_tokens": 49543132.0,
      "step": 756
    },
    {
      "epoch": 0.10005286809410521,
      "grad_norm": 0.9313529747537305,
      "learning_rate": 9.986789960369881e-06,
      "loss": 0.6568,
      "mean_token_accuracy": 0.7931113243103027,
      "num_tokens": 49608668.0,
      "step": 757
    },
    {
      "epoch": 0.10018503832936823,
      "grad_norm": 1.0014809464335597,
      "learning_rate": 1e-05,
      "loss": 0.7462,
      "mean_token_accuracy": 0.763963520526886,
      "num_tokens": 49674204.0,
      "step": 758
    },
    {
      "epoch": 0.10031720856463125,
      "grad_norm": 0.9430340835849269,
      "learning_rate": 9.999999521021978e-06,
      "loss": 0.6822,
      "mean_token_accuracy": 0.7861982583999634,
      "num_tokens": 49739740.0,
      "step": 759
    },
    {
      "epoch": 0.10044937879989427,
      "grad_norm": 1.0203813811846874,
      "learning_rate": 9.99999808408801e-06,
      "loss": 0.7561,
      "mean_token_accuracy": 0.7611402869224548,
      "num_tokens": 49805276.0,
      "step": 760
    },
    {
      "epoch": 0.10058154903515729,
      "grad_norm": 0.982559502776188,
      "learning_rate": 9.999995689198402e-06,
      "loss": 0.7009,
      "mean_token_accuracy": 0.7778964638710022,
      "num_tokens": 49870812.0,
      "step": 761
    },
    {
      "epoch": 0.1007137192704203,
      "grad_norm": 0.9373688626067402,
      "learning_rate": 9.999992336353665e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7871901988983154,
      "num_tokens": 49936348.0,
      "step": 762
    },
    {
      "epoch": 0.10084588950568332,
      "grad_norm": 0.8649253731422805,
      "learning_rate": 9.999988025554514e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7826425433158875,
      "num_tokens": 50001884.0,
      "step": 763
    },
    {
      "epoch": 0.10097805974094634,
      "grad_norm": 0.9164884605175503,
      "learning_rate": 9.999982756801866e-06,
      "loss": 0.6813,
      "mean_token_accuracy": 0.7804449796676636,
      "num_tokens": 50067420.0,
      "step": 764
    },
    {
      "epoch": 0.10111022997620936,
      "grad_norm": 0.92140376282921,
      "learning_rate": 9.99997653009684e-06,
      "loss": 0.7044,
      "mean_token_accuracy": 0.7756531834602356,
      "num_tokens": 50132956.0,
      "step": 765
    },
    {
      "epoch": 0.10124240021147238,
      "grad_norm": 0.9674548788760647,
      "learning_rate": 9.999969345440764e-06,
      "loss": 0.6992,
      "mean_token_accuracy": 0.7774233818054199,
      "num_tokens": 50198492.0,
      "step": 766
    },
    {
      "epoch": 0.1013745704467354,
      "grad_norm": 1.061472237365588,
      "learning_rate": 9.999961202835167e-06,
      "loss": 0.7751,
      "mean_token_accuracy": 0.7587443590164185,
      "num_tokens": 50264028.0,
      "step": 767
    },
    {
      "epoch": 0.10150674068199841,
      "grad_norm": 1.0718050527019864,
      "learning_rate": 9.999952102281784e-06,
      "loss": 0.7291,
      "mean_token_accuracy": 0.7700524926185608,
      "num_tokens": 50329564.0,
      "step": 768
    },
    {
      "epoch": 0.10163891091726143,
      "grad_norm": 0.9774679052359275,
      "learning_rate": 9.999942043782547e-06,
      "loss": 0.6746,
      "mean_token_accuracy": 0.7849469184875488,
      "num_tokens": 50395100.0,
      "step": 769
    },
    {
      "epoch": 0.10177108115252445,
      "grad_norm": 1.0987481570317323,
      "learning_rate": 9.999931027339603e-06,
      "loss": 0.695,
      "mean_token_accuracy": 0.7805518507957458,
      "num_tokens": 50460636.0,
      "step": 770
    },
    {
      "epoch": 0.10190325138778747,
      "grad_norm": 0.9173513176937407,
      "learning_rate": 9.999919052955296e-06,
      "loss": 0.6933,
      "mean_token_accuracy": 0.7797430157661438,
      "num_tokens": 50526172.0,
      "step": 771
    },
    {
      "epoch": 0.10203542162305049,
      "grad_norm": 0.9356961531994727,
      "learning_rate": 9.999906120632174e-06,
      "loss": 0.6996,
      "mean_token_accuracy": 0.778476357460022,
      "num_tokens": 50591708.0,
      "step": 772
    },
    {
      "epoch": 0.1021675918583135,
      "grad_norm": 0.8586536103441378,
      "learning_rate": 9.999892230372989e-06,
      "loss": 0.6524,
      "mean_token_accuracy": 0.7929587364196777,
      "num_tokens": 50657244.0,
      "step": 773
    },
    {
      "epoch": 0.10229976209357652,
      "grad_norm": 1.0464520642122521,
      "learning_rate": 9.999877382180701e-06,
      "loss": 0.6819,
      "mean_token_accuracy": 0.7834360599517822,
      "num_tokens": 50722780.0,
      "step": 774
    },
    {
      "epoch": 0.10243193232883954,
      "grad_norm": 1.0148467036225517,
      "learning_rate": 9.999861576058467e-06,
      "loss": 0.7023,
      "mean_token_accuracy": 0.7780948877334595,
      "num_tokens": 50788316.0,
      "step": 775
    },
    {
      "epoch": 0.10256410256410256,
      "grad_norm": 0.940518356891561,
      "learning_rate": 9.999844812009655e-06,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7796667218208313,
      "num_tokens": 50853852.0,
      "step": 776
    },
    {
      "epoch": 0.10269627279936558,
      "grad_norm": 0.9875405193923856,
      "learning_rate": 9.999827090037831e-06,
      "loss": 0.7308,
      "mean_token_accuracy": 0.7690910696983337,
      "num_tokens": 50919388.0,
      "step": 777
    },
    {
      "epoch": 0.1028284430346286,
      "grad_norm": 0.9450213294380596,
      "learning_rate": 9.99980841014677e-06,
      "loss": 0.6813,
      "mean_token_accuracy": 0.7801550626754761,
      "num_tokens": 50984924.0,
      "step": 778
    },
    {
      "epoch": 0.10296061326989162,
      "grad_norm": 1.0427888364624014,
      "learning_rate": 9.999788772340448e-06,
      "loss": 0.7585,
      "mean_token_accuracy": 0.7576150894165039,
      "num_tokens": 51050460.0,
      "step": 779
    },
    {
      "epoch": 0.10309278350515463,
      "grad_norm": 1.0454403511119628,
      "learning_rate": 9.999768176623045e-06,
      "loss": 0.7071,
      "mean_token_accuracy": 0.7777286171913147,
      "num_tokens": 51115996.0,
      "step": 780
    },
    {
      "epoch": 0.10322495374041765,
      "grad_norm": 1.0255545423734915,
      "learning_rate": 9.999746622998946e-06,
      "loss": 0.7119,
      "mean_token_accuracy": 0.775012195110321,
      "num_tokens": 51181532.0,
      "step": 781
    },
    {
      "epoch": 0.10335712397568067,
      "grad_norm": 1.163451661645414,
      "learning_rate": 9.99972411147274e-06,
      "loss": 0.7054,
      "mean_token_accuracy": 0.7772707939147949,
      "num_tokens": 51247068.0,
      "step": 782
    },
    {
      "epoch": 0.10348929421094369,
      "grad_norm": 1.0051393853660504,
      "learning_rate": 9.999700642049216e-06,
      "loss": 0.6388,
      "mean_token_accuracy": 0.8001770377159119,
      "num_tokens": 51312604.0,
      "step": 783
    },
    {
      "epoch": 0.10362146444620672,
      "grad_norm": 1.1091026537005302,
      "learning_rate": 9.999676214733372e-06,
      "loss": 0.7127,
      "mean_token_accuracy": 0.7747222781181335,
      "num_tokens": 51378140.0,
      "step": 784
    },
    {
      "epoch": 0.10375363468146974,
      "grad_norm": 1.0405449447275483,
      "learning_rate": 9.999650829530409e-06,
      "loss": 0.701,
      "mean_token_accuracy": 0.7786595225334167,
      "num_tokens": 51443676.0,
      "step": 785
    },
    {
      "epoch": 0.10388580491673276,
      "grad_norm": 0.9636452845660398,
      "learning_rate": 9.999624486445732e-06,
      "loss": 0.6845,
      "mean_token_accuracy": 0.783619225025177,
      "num_tokens": 51509212.0,
      "step": 786
    },
    {
      "epoch": 0.10401797515199578,
      "grad_norm": 1.0508220221650595,
      "learning_rate": 9.999597185484945e-06,
      "loss": 0.6557,
      "mean_token_accuracy": 0.7916768193244934,
      "num_tokens": 51574748.0,
      "step": 787
    },
    {
      "epoch": 0.1041501453872588,
      "grad_norm": 1.0857027915374344,
      "learning_rate": 9.999568926653864e-06,
      "loss": 0.7351,
      "mean_token_accuracy": 0.7666951417922974,
      "num_tokens": 51640284.0,
      "step": 788
    },
    {
      "epoch": 0.10428231562252181,
      "grad_norm": 0.8597793822268793,
      "learning_rate": 9.999539709958501e-06,
      "loss": 0.659,
      "mean_token_accuracy": 0.7898761034011841,
      "num_tokens": 51705820.0,
      "step": 789
    },
    {
      "epoch": 0.10441448585778483,
      "grad_norm": 0.9414718347748537,
      "learning_rate": 9.999509535405078e-06,
      "loss": 0.7049,
      "mean_token_accuracy": 0.7771334648132324,
      "num_tokens": 51771356.0,
      "step": 790
    },
    {
      "epoch": 0.10454665609304785,
      "grad_norm": 0.9591808744615186,
      "learning_rate": 9.999478403000017e-06,
      "loss": 0.7399,
      "mean_token_accuracy": 0.7639024257659912,
      "num_tokens": 51836892.0,
      "step": 791
    },
    {
      "epoch": 0.10467882632831087,
      "grad_norm": 0.8200431658427246,
      "learning_rate": 9.999446312749948e-06,
      "loss": 0.6573,
      "mean_token_accuracy": 0.792592465877533,
      "num_tokens": 51902428.0,
      "step": 792
    },
    {
      "epoch": 0.10481099656357389,
      "grad_norm": 0.913394319013771,
      "learning_rate": 9.9994132646617e-06,
      "loss": 0.7164,
      "mean_token_accuracy": 0.7718074917793274,
      "num_tokens": 51967964.0,
      "step": 793
    },
    {
      "epoch": 0.1049431667988369,
      "grad_norm": 1.036265999860957,
      "learning_rate": 9.99937925874231e-06,
      "loss": 0.7478,
      "mean_token_accuracy": 0.7620101571083069,
      "num_tokens": 52033500.0,
      "step": 794
    },
    {
      "epoch": 0.10507533703409992,
      "grad_norm": 1.1944388343368708,
      "learning_rate": 9.999344294999015e-06,
      "loss": 0.7767,
      "mean_token_accuracy": 0.7543187737464905,
      "num_tokens": 52099036.0,
      "step": 795
    },
    {
      "epoch": 0.10520750726936294,
      "grad_norm": 1.0682747666973347,
      "learning_rate": 9.999308373439258e-06,
      "loss": 0.7187,
      "mean_token_accuracy": 0.7696099281311035,
      "num_tokens": 52164572.0,
      "step": 796
    },
    {
      "epoch": 0.10533967750462596,
      "grad_norm": 0.9669417891534334,
      "learning_rate": 9.99927149407069e-06,
      "loss": 0.715,
      "mean_token_accuracy": 0.7719753384590149,
      "num_tokens": 52230108.0,
      "step": 797
    },
    {
      "epoch": 0.10547184773988898,
      "grad_norm": 0.9764642578196258,
      "learning_rate": 9.999233656901157e-06,
      "loss": 0.7537,
      "mean_token_accuracy": 0.7619643807411194,
      "num_tokens": 52295644.0,
      "step": 798
    },
    {
      "epoch": 0.105604017975152,
      "grad_norm": 0.9453582653957044,
      "learning_rate": 9.999194861938714e-06,
      "loss": 0.6752,
      "mean_token_accuracy": 0.7860456705093384,
      "num_tokens": 52361180.0,
      "step": 799
    },
    {
      "epoch": 0.10573618821041501,
      "grad_norm": 0.849547840596546,
      "learning_rate": 9.999155109191625e-06,
      "loss": 0.6568,
      "mean_token_accuracy": 0.7913411259651184,
      "num_tokens": 52426716.0,
      "step": 800
    },
    {
      "epoch": 0.10586835844567803,
      "grad_norm": 0.9348660562652361,
      "learning_rate": 9.999114398668348e-06,
      "loss": 0.7022,
      "mean_token_accuracy": 0.7777438759803772,
      "num_tokens": 52492252.0,
      "step": 801
    },
    {
      "epoch": 0.10600052868094105,
      "grad_norm": 0.7887642054039251,
      "learning_rate": 9.99907273037755e-06,
      "loss": 0.6086,
      "mean_token_accuracy": 0.8078073263168335,
      "num_tokens": 52557788.0,
      "step": 802
    },
    {
      "epoch": 0.10613269891620407,
      "grad_norm": 1.049108793645844,
      "learning_rate": 9.999030104328098e-06,
      "loss": 0.7175,
      "mean_token_accuracy": 0.7750579714775085,
      "num_tokens": 52623324.0,
      "step": 803
    },
    {
      "epoch": 0.10626486915146709,
      "grad_norm": 0.9366084484596768,
      "learning_rate": 9.998986520529073e-06,
      "loss": 0.6992,
      "mean_token_accuracy": 0.779346227645874,
      "num_tokens": 52688860.0,
      "step": 804
    },
    {
      "epoch": 0.1063970393867301,
      "grad_norm": 0.9833211972694238,
      "learning_rate": 9.998941978989751e-06,
      "loss": 0.7494,
      "mean_token_accuracy": 0.7624221444129944,
      "num_tokens": 52754396.0,
      "step": 805
    },
    {
      "epoch": 0.10652920962199312,
      "grad_norm": 0.9072400740208796,
      "learning_rate": 9.998896479719611e-06,
      "loss": 0.6784,
      "mean_token_accuracy": 0.7832376956939697,
      "num_tokens": 52819932.0,
      "step": 806
    },
    {
      "epoch": 0.10666137985725614,
      "grad_norm": 0.8434848258323817,
      "learning_rate": 9.99885002272834e-06,
      "loss": 0.6861,
      "mean_token_accuracy": 0.7792088985443115,
      "num_tokens": 52885468.0,
      "step": 807
    },
    {
      "epoch": 0.10679355009251916,
      "grad_norm": 1.0222562130785922,
      "learning_rate": 9.99880260802583e-06,
      "loss": 0.7759,
      "mean_token_accuracy": 0.7532423734664917,
      "num_tokens": 52947699.0,
      "step": 808
    },
    {
      "epoch": 0.10692572032778218,
      "grad_norm": 1.1131237280666386,
      "learning_rate": 9.998754235622171e-06,
      "loss": 0.7576,
      "mean_token_accuracy": 0.7607129812240601,
      "num_tokens": 53013235.0,
      "step": 809
    },
    {
      "epoch": 0.1070578905630452,
      "grad_norm": 0.9836697091907768,
      "learning_rate": 9.998704905527666e-06,
      "loss": 0.6608,
      "mean_token_accuracy": 0.7888689041137695,
      "num_tokens": 53078771.0,
      "step": 810
    },
    {
      "epoch": 0.10719006079830821,
      "grad_norm": 0.909118908158412,
      "learning_rate": 9.99865461775281e-06,
      "loss": 0.7456,
      "mean_token_accuracy": 0.7639177441596985,
      "num_tokens": 53144307.0,
      "step": 811
    },
    {
      "epoch": 0.10732223103357123,
      "grad_norm": 0.9444877200843256,
      "learning_rate": 9.998603372308312e-06,
      "loss": 0.6854,
      "mean_token_accuracy": 0.7820626497268677,
      "num_tokens": 53209843.0,
      "step": 812
    },
    {
      "epoch": 0.10745440126883427,
      "grad_norm": 0.8949543039579927,
      "learning_rate": 9.998551169205079e-06,
      "loss": 0.7041,
      "mean_token_accuracy": 0.779437780380249,
      "num_tokens": 53275379.0,
      "step": 813
    },
    {
      "epoch": 0.10758657150409728,
      "grad_norm": 0.971852638328109,
      "learning_rate": 9.998498008454228e-06,
      "loss": 0.7382,
      "mean_token_accuracy": 0.7656726837158203,
      "num_tokens": 53340915.0,
      "step": 814
    },
    {
      "epoch": 0.1077187417393603,
      "grad_norm": 0.9368949272731937,
      "learning_rate": 9.99844389006707e-06,
      "loss": 0.721,
      "mean_token_accuracy": 0.7728757262229919,
      "num_tokens": 53406451.0,
      "step": 815
    },
    {
      "epoch": 0.10785091197462332,
      "grad_norm": 0.9235024682924179,
      "learning_rate": 9.998388814055128e-06,
      "loss": 0.667,
      "mean_token_accuracy": 0.7889909744262695,
      "num_tokens": 53471987.0,
      "step": 816
    },
    {
      "epoch": 0.10798308220988634,
      "grad_norm": 1.039756218673928,
      "learning_rate": 9.998332780430128e-06,
      "loss": 0.7634,
      "mean_token_accuracy": 0.7605756521224976,
      "num_tokens": 53537523.0,
      "step": 817
    },
    {
      "epoch": 0.10811525244514936,
      "grad_norm": 0.9620164652432289,
      "learning_rate": 9.998275789203998e-06,
      "loss": 0.688,
      "mean_token_accuracy": 0.78265780210495,
      "num_tokens": 53603059.0,
      "step": 818
    },
    {
      "epoch": 0.10824742268041238,
      "grad_norm": 0.9282576932444709,
      "learning_rate": 9.99821784038887e-06,
      "loss": 0.6947,
      "mean_token_accuracy": 0.7822457551956177,
      "num_tokens": 53668595.0,
      "step": 819
    },
    {
      "epoch": 0.1083795929156754,
      "grad_norm": 0.8638011932130402,
      "learning_rate": 9.998158933997078e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7931265830993652,
      "num_tokens": 53734131.0,
      "step": 820
    },
    {
      "epoch": 0.10851176315093841,
      "grad_norm": 1.0038225527421831,
      "learning_rate": 9.998099070041167e-06,
      "loss": 0.7085,
      "mean_token_accuracy": 0.7760193943977356,
      "num_tokens": 53799667.0,
      "step": 821
    },
    {
      "epoch": 0.10864393338620143,
      "grad_norm": 0.9589252367027318,
      "learning_rate": 9.998038248533875e-06,
      "loss": 0.7096,
      "mean_token_accuracy": 0.7768434882164001,
      "num_tokens": 53865203.0,
      "step": 822
    },
    {
      "epoch": 0.10877610362146445,
      "grad_norm": 0.9931717965096524,
      "learning_rate": 9.997976469488153e-06,
      "loss": 0.6822,
      "mean_token_accuracy": 0.783497154712677,
      "num_tokens": 53930739.0,
      "step": 823
    },
    {
      "epoch": 0.10890827385672747,
      "grad_norm": 0.9521003385853303,
      "learning_rate": 9.99791373291715e-06,
      "loss": 0.7456,
      "mean_token_accuracy": 0.7618727684020996,
      "num_tokens": 53996275.0,
      "step": 824
    },
    {
      "epoch": 0.10904044409199048,
      "grad_norm": 1.0120205662747463,
      "learning_rate": 9.997850038834226e-06,
      "loss": 0.6675,
      "mean_token_accuracy": 0.7864577174186707,
      "num_tokens": 54061811.0,
      "step": 825
    },
    {
      "epoch": 0.1091726143272535,
      "grad_norm": 0.9066329203115422,
      "learning_rate": 9.997785387252935e-06,
      "loss": 0.7194,
      "mean_token_accuracy": 0.7719600796699524,
      "num_tokens": 54127347.0,
      "step": 826
    },
    {
      "epoch": 0.10930478456251652,
      "grad_norm": 0.9644939174847917,
      "learning_rate": 9.997719778187042e-06,
      "loss": 0.7523,
      "mean_token_accuracy": 0.7592326998710632,
      "num_tokens": 54192883.0,
      "step": 827
    },
    {
      "epoch": 0.10943695479777954,
      "grad_norm": 0.8352333732072047,
      "learning_rate": 9.997653211650515e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7932639718055725,
      "num_tokens": 54258419.0,
      "step": 828
    },
    {
      "epoch": 0.10956912503304256,
      "grad_norm": 1.0013775511099468,
      "learning_rate": 9.997585687657523e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.7876785397529602,
      "num_tokens": 54323955.0,
      "step": 829
    },
    {
      "epoch": 0.10970129526830558,
      "grad_norm": 1.0413257412200287,
      "learning_rate": 9.99751720622244e-06,
      "loss": 0.7264,
      "mean_token_accuracy": 0.7716548442840576,
      "num_tokens": 54389491.0,
      "step": 830
    },
    {
      "epoch": 0.1098334655035686,
      "grad_norm": 0.9668747151904575,
      "learning_rate": 9.997447767359846e-06,
      "loss": 0.6878,
      "mean_token_accuracy": 0.783558189868927,
      "num_tokens": 54455027.0,
      "step": 831
    },
    {
      "epoch": 0.10996563573883161,
      "grad_norm": 1.028564018371081,
      "learning_rate": 9.997377371084522e-06,
      "loss": 0.7323,
      "mean_token_accuracy": 0.7657947540283203,
      "num_tokens": 54520563.0,
      "step": 832
    },
    {
      "epoch": 0.11009780597409463,
      "grad_norm": 1.0258673112735959,
      "learning_rate": 9.997306017411455e-06,
      "loss": 0.7421,
      "mean_token_accuracy": 0.7644671201705933,
      "num_tokens": 54586099.0,
      "step": 833
    },
    {
      "epoch": 0.11022997620935765,
      "grad_norm": 0.944806147065333,
      "learning_rate": 9.997233706355833e-06,
      "loss": 0.6851,
      "mean_token_accuracy": 0.7830851078033447,
      "num_tokens": 54651635.0,
      "step": 834
    },
    {
      "epoch": 0.11036214644462067,
      "grad_norm": 0.9660036106713333,
      "learning_rate": 9.997160437933051e-06,
      "loss": 0.7063,
      "mean_token_accuracy": 0.7746459245681763,
      "num_tokens": 54717171.0,
      "step": 835
    },
    {
      "epoch": 0.11049431667988369,
      "grad_norm": 0.867073563302699,
      "learning_rate": 9.997086212158705e-06,
      "loss": 0.6752,
      "mean_token_accuracy": 0.784428060054779,
      "num_tokens": 54782707.0,
      "step": 836
    },
    {
      "epoch": 0.1106264869151467,
      "grad_norm": 1.0226059030444568,
      "learning_rate": 9.997011029048598e-06,
      "loss": 0.701,
      "mean_token_accuracy": 0.7761873006820679,
      "num_tokens": 54848243.0,
      "step": 837
    },
    {
      "epoch": 0.11075865715040972,
      "grad_norm": 0.9668023227900814,
      "learning_rate": 9.996934888618732e-06,
      "loss": 0.7332,
      "mean_token_accuracy": 0.7701898217201233,
      "num_tokens": 54913779.0,
      "step": 838
    },
    {
      "epoch": 0.11089082738567274,
      "grad_norm": 0.8988865064257372,
      "learning_rate": 9.99685779088532e-06,
      "loss": 0.6655,
      "mean_token_accuracy": 0.7859693765640259,
      "num_tokens": 54979315.0,
      "step": 839
    },
    {
      "epoch": 0.11102299762093576,
      "grad_norm": 1.0351219975452641,
      "learning_rate": 9.996779735864769e-06,
      "loss": 0.6614,
      "mean_token_accuracy": 0.7897844910621643,
      "num_tokens": 55044851.0,
      "step": 840
    },
    {
      "epoch": 0.11115516785619878,
      "grad_norm": 0.9523718301833014,
      "learning_rate": 9.9967007235737e-06,
      "loss": 0.6861,
      "mean_token_accuracy": 0.7812232971191406,
      "num_tokens": 55110387.0,
      "step": 841
    },
    {
      "epoch": 0.1112873380914618,
      "grad_norm": 0.8998057433332352,
      "learning_rate": 9.996620754028931e-06,
      "loss": 0.7088,
      "mean_token_accuracy": 0.778201699256897,
      "num_tokens": 55175923.0,
      "step": 842
    },
    {
      "epoch": 0.11141950832672483,
      "grad_norm": 0.907618772434734,
      "learning_rate": 9.996539827247486e-06,
      "loss": 0.7039,
      "mean_token_accuracy": 0.7755463123321533,
      "num_tokens": 55241459.0,
      "step": 843
    },
    {
      "epoch": 0.11155167856198785,
      "grad_norm": 0.8480347421124249,
      "learning_rate": 9.996457943246592e-06,
      "loss": 0.705,
      "mean_token_accuracy": 0.7784305810928345,
      "num_tokens": 55306995.0,
      "step": 844
    },
    {
      "epoch": 0.11168384879725086,
      "grad_norm": 0.9037112220201505,
      "learning_rate": 9.996375102043683e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7802618741989136,
      "num_tokens": 55372531.0,
      "step": 845
    },
    {
      "epoch": 0.11181601903251388,
      "grad_norm": 0.8734307122610332,
      "learning_rate": 9.996291303656392e-06,
      "loss": 0.6997,
      "mean_token_accuracy": 0.778323769569397,
      "num_tokens": 55438067.0,
      "step": 846
    },
    {
      "epoch": 0.1119481892677769,
      "grad_norm": 0.8212643452822223,
      "learning_rate": 9.996206548102556e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7944542765617371,
      "num_tokens": 55503603.0,
      "step": 847
    },
    {
      "epoch": 0.11208035950303992,
      "grad_norm": 0.8256631430003405,
      "learning_rate": 9.996120835400222e-06,
      "loss": 0.63,
      "mean_token_accuracy": 0.7977811098098755,
      "num_tokens": 55569139.0,
      "step": 848
    },
    {
      "epoch": 0.11221252973830294,
      "grad_norm": 0.918818423451415,
      "learning_rate": 9.996034165567635e-06,
      "loss": 0.6777,
      "mean_token_accuracy": 0.7831156253814697,
      "num_tokens": 55634675.0,
      "step": 849
    },
    {
      "epoch": 0.11234469997356596,
      "grad_norm": 0.9621811300485074,
      "learning_rate": 9.995946538623243e-06,
      "loss": 0.6875,
      "mean_token_accuracy": 0.7852978706359863,
      "num_tokens": 55700211.0,
      "step": 850
    },
    {
      "epoch": 0.11247687020882897,
      "grad_norm": 0.8556945353457956,
      "learning_rate": 9.995857954585702e-06,
      "loss": 0.6786,
      "mean_token_accuracy": 0.784489095211029,
      "num_tokens": 55765747.0,
      "step": 851
    },
    {
      "epoch": 0.11260904044409199,
      "grad_norm": 0.8901788793276064,
      "learning_rate": 9.995768413473869e-06,
      "loss": 0.6575,
      "mean_token_accuracy": 0.7918447256088257,
      "num_tokens": 55831283.0,
      "step": 852
    },
    {
      "epoch": 0.11274121067935501,
      "grad_norm": 0.9680345995600157,
      "learning_rate": 9.995677915306805e-06,
      "loss": 0.7311,
      "mean_token_accuracy": 0.7670919299125671,
      "num_tokens": 55896819.0,
      "step": 853
    },
    {
      "epoch": 0.11287338091461803,
      "grad_norm": 0.9404163691382692,
      "learning_rate": 9.995586460103779e-06,
      "loss": 0.7674,
      "mean_token_accuracy": 0.7610792517662048,
      "num_tokens": 55962355.0,
      "step": 854
    },
    {
      "epoch": 0.11300555114988105,
      "grad_norm": 0.903379085911433,
      "learning_rate": 9.995494047884253e-06,
      "loss": 0.6657,
      "mean_token_accuracy": 0.7879074811935425,
      "num_tokens": 56027891.0,
      "step": 855
    },
    {
      "epoch": 0.11313772138514407,
      "grad_norm": 1.0060337890054836,
      "learning_rate": 9.995400678667904e-06,
      "loss": 0.7631,
      "mean_token_accuracy": 0.7580576539039612,
      "num_tokens": 56093427.0,
      "step": 856
    },
    {
      "epoch": 0.11326989162040708,
      "grad_norm": 0.8858640199203629,
      "learning_rate": 9.995306352474608e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7884873747825623,
      "num_tokens": 56158963.0,
      "step": 857
    },
    {
      "epoch": 0.1134020618556701,
      "grad_norm": 1.0282708360318873,
      "learning_rate": 9.995211069324446e-06,
      "loss": 0.7413,
      "mean_token_accuracy": 0.7637650966644287,
      "num_tokens": 56224499.0,
      "step": 858
    },
    {
      "epoch": 0.11353423209093312,
      "grad_norm": 0.9835742300711621,
      "learning_rate": 9.995114829237702e-06,
      "loss": 0.7475,
      "mean_token_accuracy": 0.7602704167366028,
      "num_tokens": 56290035.0,
      "step": 859
    },
    {
      "epoch": 0.11366640232619614,
      "grad_norm": 0.9389487528171833,
      "learning_rate": 9.995017632234858e-06,
      "loss": 0.7079,
      "mean_token_accuracy": 0.7746917605400085,
      "num_tokens": 56355571.0,
      "step": 860
    },
    {
      "epoch": 0.11379857256145916,
      "grad_norm": 0.9557709794271193,
      "learning_rate": 9.99491947833661e-06,
      "loss": 0.7167,
      "mean_token_accuracy": 0.7722805738449097,
      "num_tokens": 56421107.0,
      "step": 861
    },
    {
      "epoch": 0.11393074279672218,
      "grad_norm": 0.9155564882093563,
      "learning_rate": 9.994820367563855e-06,
      "loss": 0.6999,
      "mean_token_accuracy": 0.7796514630317688,
      "num_tokens": 56486643.0,
      "step": 862
    },
    {
      "epoch": 0.1140629130319852,
      "grad_norm": 0.9234931305826509,
      "learning_rate": 9.994720299937686e-06,
      "loss": 0.7094,
      "mean_token_accuracy": 0.7763398885726929,
      "num_tokens": 56552179.0,
      "step": 863
    },
    {
      "epoch": 0.11419508326724821,
      "grad_norm": 0.8995387128851795,
      "learning_rate": 9.99461927547941e-06,
      "loss": 0.7425,
      "mean_token_accuracy": 0.7668324708938599,
      "num_tokens": 56617715.0,
      "step": 864
    },
    {
      "epoch": 0.11432725350251123,
      "grad_norm": 0.8889530099096715,
      "learning_rate": 9.994517294210532e-06,
      "loss": 0.6493,
      "mean_token_accuracy": 0.7931723594665527,
      "num_tokens": 56683251.0,
      "step": 865
    },
    {
      "epoch": 0.11445942373777425,
      "grad_norm": 0.8942246411231233,
      "learning_rate": 9.994414356152759e-06,
      "loss": 0.6782,
      "mean_token_accuracy": 0.7864729762077332,
      "num_tokens": 56748787.0,
      "step": 866
    },
    {
      "epoch": 0.11459159397303727,
      "grad_norm": 0.95180070935939,
      "learning_rate": 9.994310461328007e-06,
      "loss": 0.6952,
      "mean_token_accuracy": 0.7807654738426208,
      "num_tokens": 56814323.0,
      "step": 867
    },
    {
      "epoch": 0.11472376420830029,
      "grad_norm": 0.952185637676156,
      "learning_rate": 9.994205609758392e-06,
      "loss": 0.7111,
      "mean_token_accuracy": 0.7730740904808044,
      "num_tokens": 56879859.0,
      "step": 868
    },
    {
      "epoch": 0.1148559344435633,
      "grad_norm": 1.0216560721238308,
      "learning_rate": 9.994099801466234e-06,
      "loss": 0.7393,
      "mean_token_accuracy": 0.765047013759613,
      "num_tokens": 56945395.0,
      "step": 869
    },
    {
      "epoch": 0.11498810467882632,
      "grad_norm": 0.9372859065479991,
      "learning_rate": 9.99399303647406e-06,
      "loss": 0.6798,
      "mean_token_accuracy": 0.7822610139846802,
      "num_tokens": 57010931.0,
      "step": 870
    },
    {
      "epoch": 0.11512027491408934,
      "grad_norm": 0.8668952910209262,
      "learning_rate": 9.993885314804596e-06,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7883347868919373,
      "num_tokens": 57076467.0,
      "step": 871
    },
    {
      "epoch": 0.11525244514935237,
      "grad_norm": 1.0387812713948474,
      "learning_rate": 9.993776636480774e-06,
      "loss": 0.7535,
      "mean_token_accuracy": 0.7608045339584351,
      "num_tokens": 57142003.0,
      "step": 872
    },
    {
      "epoch": 0.11538461538461539,
      "grad_norm": 0.9173675510065151,
      "learning_rate": 9.993667001525727e-06,
      "loss": 0.6924,
      "mean_token_accuracy": 0.7818794846534729,
      "num_tokens": 57207539.0,
      "step": 873
    },
    {
      "epoch": 0.11551678561987841,
      "grad_norm": 0.8383367189789802,
      "learning_rate": 9.9935564099628e-06,
      "loss": 0.6227,
      "mean_token_accuracy": 0.8040074706077576,
      "num_tokens": 57273075.0,
      "step": 874
    },
    {
      "epoch": 0.11564895585514143,
      "grad_norm": 0.9395578852213122,
      "learning_rate": 9.993444861815529e-06,
      "loss": 0.6931,
      "mean_token_accuracy": 0.7845043540000916,
      "num_tokens": 57338611.0,
      "step": 875
    },
    {
      "epoch": 0.11578112609040445,
      "grad_norm": 0.9340266482328976,
      "learning_rate": 9.993332357107665e-06,
      "loss": 0.7297,
      "mean_token_accuracy": 0.7719905972480774,
      "num_tokens": 57404147.0,
      "step": 876
    },
    {
      "epoch": 0.11591329632566746,
      "grad_norm": 0.9437587044745644,
      "learning_rate": 9.993218895863155e-06,
      "loss": 0.6958,
      "mean_token_accuracy": 0.7773470878601074,
      "num_tokens": 57469683.0,
      "step": 877
    },
    {
      "epoch": 0.11604546656093048,
      "grad_norm": 0.9608546314555536,
      "learning_rate": 9.993104478106157e-06,
      "loss": 0.6648,
      "mean_token_accuracy": 0.787861704826355,
      "num_tokens": 57535219.0,
      "step": 878
    },
    {
      "epoch": 0.1161776367961935,
      "grad_norm": 0.880921291364097,
      "learning_rate": 9.992989103861019e-06,
      "loss": 0.7074,
      "mean_token_accuracy": 0.7759431004524231,
      "num_tokens": 57600755.0,
      "step": 879
    },
    {
      "epoch": 0.11630980703145652,
      "grad_norm": 0.861641756500726,
      "learning_rate": 9.992872773152312e-06,
      "loss": 0.6182,
      "mean_token_accuracy": 0.8070290684700012,
      "num_tokens": 57666291.0,
      "step": 880
    },
    {
      "epoch": 0.11644197726671954,
      "grad_norm": 0.9754829480869345,
      "learning_rate": 9.992755486004797e-06,
      "loss": 0.6831,
      "mean_token_accuracy": 0.7807959914207458,
      "num_tokens": 57731827.0,
      "step": 881
    },
    {
      "epoch": 0.11657414750198256,
      "grad_norm": 0.867212191150789,
      "learning_rate": 9.992637242443436e-06,
      "loss": 0.6586,
      "mean_token_accuracy": 0.7891130447387695,
      "num_tokens": 57797363.0,
      "step": 882
    },
    {
      "epoch": 0.11670631773724557,
      "grad_norm": 0.8858946319538707,
      "learning_rate": 9.99251804249341e-06,
      "loss": 0.6784,
      "mean_token_accuracy": 0.7829782962799072,
      "num_tokens": 57862899.0,
      "step": 883
    },
    {
      "epoch": 0.11683848797250859,
      "grad_norm": 0.8722676774926225,
      "learning_rate": 9.992397886180089e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7965144515037537,
      "num_tokens": 57928435.0,
      "step": 884
    },
    {
      "epoch": 0.11697065820777161,
      "grad_norm": 1.0906197812303131,
      "learning_rate": 9.992276773529051e-06,
      "loss": 0.723,
      "mean_token_accuracy": 0.7719753384590149,
      "num_tokens": 57993971.0,
      "step": 885
    },
    {
      "epoch": 0.11710282844303463,
      "grad_norm": 0.9119308642924936,
      "learning_rate": 9.992154704566081e-06,
      "loss": 0.6533,
      "mean_token_accuracy": 0.7970790863037109,
      "num_tokens": 58059507.0,
      "step": 886
    },
    {
      "epoch": 0.11723499867829765,
      "grad_norm": 0.9106905431395972,
      "learning_rate": 9.992031679317164e-06,
      "loss": 0.694,
      "mean_token_accuracy": 0.7808265089988708,
      "num_tokens": 58125043.0,
      "step": 887
    },
    {
      "epoch": 0.11736716891356067,
      "grad_norm": 0.9221750635411498,
      "learning_rate": 9.99190769780849e-06,
      "loss": 0.6329,
      "mean_token_accuracy": 0.7994750142097473,
      "num_tokens": 58190579.0,
      "step": 888
    },
    {
      "epoch": 0.11749933914882368,
      "grad_norm": 0.9137786744310805,
      "learning_rate": 9.99178276006645e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.7942406535148621,
      "num_tokens": 58256115.0,
      "step": 889
    },
    {
      "epoch": 0.1176315093840867,
      "grad_norm": 0.9488628731409298,
      "learning_rate": 9.991656866117642e-06,
      "loss": 0.6728,
      "mean_token_accuracy": 0.783588707447052,
      "num_tokens": 58321651.0,
      "step": 890
    },
    {
      "epoch": 0.11776367961934972,
      "grad_norm": 0.9559427553289405,
      "learning_rate": 9.991530015988868e-06,
      "loss": 0.7184,
      "mean_token_accuracy": 0.7728757262229919,
      "num_tokens": 58387187.0,
      "step": 891
    },
    {
      "epoch": 0.11789584985461274,
      "grad_norm": 0.9995999769480649,
      "learning_rate": 9.991402209707129e-06,
      "loss": 0.6948,
      "mean_token_accuracy": 0.7796819806098938,
      "num_tokens": 58452723.0,
      "step": 892
    },
    {
      "epoch": 0.11802802008987576,
      "grad_norm": 0.9645381502260573,
      "learning_rate": 9.991273447299632e-06,
      "loss": 0.7074,
      "mean_token_accuracy": 0.7745238542556763,
      "num_tokens": 58518259.0,
      "step": 893
    },
    {
      "epoch": 0.11816019032513878,
      "grad_norm": 0.9223338674987897,
      "learning_rate": 9.991143728793791e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7867171168327332,
      "num_tokens": 58583795.0,
      "step": 894
    },
    {
      "epoch": 0.1182923605604018,
      "grad_norm": 0.9388080310726603,
      "learning_rate": 9.991013054217217e-06,
      "loss": 0.7205,
      "mean_token_accuracy": 0.7691521048545837,
      "num_tokens": 58649331.0,
      "step": 895
    },
    {
      "epoch": 0.11842453079566481,
      "grad_norm": 0.8867886409134217,
      "learning_rate": 9.99088142359773e-06,
      "loss": 0.6856,
      "mean_token_accuracy": 0.7815743088722229,
      "num_tokens": 58714867.0,
      "step": 896
    },
    {
      "epoch": 0.11855670103092783,
      "grad_norm": 0.8990568953642215,
      "learning_rate": 9.99074883696335e-06,
      "loss": 0.6465,
      "mean_token_accuracy": 0.792439877986908,
      "num_tokens": 58780403.0,
      "step": 897
    },
    {
      "epoch": 0.11868887126619085,
      "grad_norm": 0.8478829720958001,
      "learning_rate": 9.990615294342306e-06,
      "loss": 0.6851,
      "mean_token_accuracy": 0.7842296361923218,
      "num_tokens": 58845939.0,
      "step": 898
    },
    {
      "epoch": 0.11882104150145387,
      "grad_norm": 1.0089900852077847,
      "learning_rate": 9.99048079576302e-06,
      "loss": 0.6908,
      "mean_token_accuracy": 0.779529333114624,
      "num_tokens": 58911475.0,
      "step": 899
    },
    {
      "epoch": 0.11895321173671689,
      "grad_norm": 0.9919234547448456,
      "learning_rate": 9.990345341254126e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7867476344108582,
      "num_tokens": 58977011.0,
      "step": 900
    },
    {
      "epoch": 0.1190853819719799,
      "grad_norm": 0.8712888380509383,
      "learning_rate": 9.990208930844464e-06,
      "loss": 0.6987,
      "mean_token_accuracy": 0.7795140743255615,
      "num_tokens": 59042547.0,
      "step": 901
    },
    {
      "epoch": 0.11921755220724294,
      "grad_norm": 0.9579832137301596,
      "learning_rate": 9.990071564563067e-06,
      "loss": 0.7135,
      "mean_token_accuracy": 0.7717922329902649,
      "num_tokens": 59108083.0,
      "step": 902
    },
    {
      "epoch": 0.11934972244250595,
      "grad_norm": 1.1044232349910548,
      "learning_rate": 9.98993324243918e-06,
      "loss": 0.6748,
      "mean_token_accuracy": 0.7824899554252625,
      "num_tokens": 59173619.0,
      "step": 903
    },
    {
      "epoch": 0.11948189267776897,
      "grad_norm": 0.9865849815400511,
      "learning_rate": 9.989793964502251e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.7870833873748779,
      "num_tokens": 59239155.0,
      "step": 904
    },
    {
      "epoch": 0.11961406291303199,
      "grad_norm": 0.8754623461263403,
      "learning_rate": 9.989653730781924e-06,
      "loss": 0.6428,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 59304691.0,
      "step": 905
    },
    {
      "epoch": 0.11974623314829501,
      "grad_norm": 0.8894933171387212,
      "learning_rate": 9.989512541308056e-06,
      "loss": 0.6728,
      "mean_token_accuracy": 0.7856793999671936,
      "num_tokens": 59370227.0,
      "step": 906
    },
    {
      "epoch": 0.11987840338355803,
      "grad_norm": 0.9901173135814125,
      "learning_rate": 9.989370396110703e-06,
      "loss": 0.684,
      "mean_token_accuracy": 0.782871425151825,
      "num_tokens": 59435763.0,
      "step": 907
    },
    {
      "epoch": 0.12001057361882105,
      "grad_norm": 0.9298988709560575,
      "learning_rate": 9.989227295220123e-06,
      "loss": 0.6622,
      "mean_token_accuracy": 0.7873122692108154,
      "num_tokens": 59501299.0,
      "step": 908
    },
    {
      "epoch": 0.12014274385408406,
      "grad_norm": 0.9447884941925063,
      "learning_rate": 9.989083238666782e-06,
      "loss": 0.7242,
      "mean_token_accuracy": 0.7677481174468994,
      "num_tokens": 59566835.0,
      "step": 909
    },
    {
      "epoch": 0.12027491408934708,
      "grad_norm": 0.9081142747345232,
      "learning_rate": 9.988938226481342e-06,
      "loss": 0.6612,
      "mean_token_accuracy": 0.7900592088699341,
      "num_tokens": 59632371.0,
      "step": 910
    },
    {
      "epoch": 0.1204070843246101,
      "grad_norm": 1.0547624929397803,
      "learning_rate": 9.988792258694677e-06,
      "loss": 0.7014,
      "mean_token_accuracy": 0.7766756415367126,
      "num_tokens": 59697907.0,
      "step": 911
    },
    {
      "epoch": 0.12053925455987312,
      "grad_norm": 1.0039868615552447,
      "learning_rate": 9.98864533533786e-06,
      "loss": 0.7114,
      "mean_token_accuracy": 0.7745848894119263,
      "num_tokens": 59763443.0,
      "step": 912
    },
    {
      "epoch": 0.12067142479513614,
      "grad_norm": 0.9852799902864808,
      "learning_rate": 9.988497456442167e-06,
      "loss": 0.714,
      "mean_token_accuracy": 0.7720516324043274,
      "num_tokens": 59828979.0,
      "step": 913
    },
    {
      "epoch": 0.12080359503039916,
      "grad_norm": 0.9385337169021991,
      "learning_rate": 9.988348622039079e-06,
      "loss": 0.6717,
      "mean_token_accuracy": 0.7857404351234436,
      "num_tokens": 59894515.0,
      "step": 914
    },
    {
      "epoch": 0.12093576526566217,
      "grad_norm": 0.9521004447014574,
      "learning_rate": 9.988198832160278e-06,
      "loss": 0.6473,
      "mean_token_accuracy": 0.7928061485290527,
      "num_tokens": 59960051.0,
      "step": 915
    },
    {
      "epoch": 0.12106793550092519,
      "grad_norm": 0.969083719400874,
      "learning_rate": 9.988048086837655e-06,
      "loss": 0.6809,
      "mean_token_accuracy": 0.7864729762077332,
      "num_tokens": 60025587.0,
      "step": 916
    },
    {
      "epoch": 0.12120010573618821,
      "grad_norm": 0.9195510720987833,
      "learning_rate": 9.987896386103295e-06,
      "loss": 0.6204,
      "mean_token_accuracy": 0.8054572343826294,
      "num_tokens": 60091123.0,
      "step": 917
    },
    {
      "epoch": 0.12133227597145123,
      "grad_norm": 0.8450266038480477,
      "learning_rate": 9.987743729989496e-06,
      "loss": 0.6793,
      "mean_token_accuracy": 0.7822610139846802,
      "num_tokens": 60156659.0,
      "step": 918
    },
    {
      "epoch": 0.12146444620671425,
      "grad_norm": 0.923007560860558,
      "learning_rate": 9.987590118528754e-06,
      "loss": 0.7089,
      "mean_token_accuracy": 0.7738524079322815,
      "num_tokens": 60222195.0,
      "step": 919
    },
    {
      "epoch": 0.12159661644197726,
      "grad_norm": 0.902583141393507,
      "learning_rate": 9.987435551753771e-06,
      "loss": 0.685,
      "mean_token_accuracy": 0.7762778401374817,
      "num_tokens": 60283614.0,
      "step": 920
    },
    {
      "epoch": 0.12172878667724028,
      "grad_norm": 0.8755593920192344,
      "learning_rate": 9.98728002969745e-06,
      "loss": 0.647,
      "mean_token_accuracy": 0.7920430898666382,
      "num_tokens": 60349150.0,
      "step": 921
    },
    {
      "epoch": 0.1218609569125033,
      "grad_norm": 0.9541454143588372,
      "learning_rate": 9.987123552392897e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.7957056760787964,
      "num_tokens": 60414686.0,
      "step": 922
    },
    {
      "epoch": 0.12199312714776632,
      "grad_norm": 1.002403460403259,
      "learning_rate": 9.986966119873426e-06,
      "loss": 0.7346,
      "mean_token_accuracy": 0.7657794952392578,
      "num_tokens": 60480222.0,
      "step": 923
    },
    {
      "epoch": 0.12212529738302934,
      "grad_norm": 0.9426688071570617,
      "learning_rate": 9.986807732172547e-06,
      "loss": 0.6446,
      "mean_token_accuracy": 0.7945916056632996,
      "num_tokens": 60545758.0,
      "step": 924
    },
    {
      "epoch": 0.12225746761829236,
      "grad_norm": 1.0225958433981603,
      "learning_rate": 9.986648389323981e-06,
      "loss": 0.7031,
      "mean_token_accuracy": 0.7776218056678772,
      "num_tokens": 60611294.0,
      "step": 925
    },
    {
      "epoch": 0.12238963785355537,
      "grad_norm": 1.0250087037131155,
      "learning_rate": 9.986488091361647e-06,
      "loss": 0.6952,
      "mean_token_accuracy": 0.7804907560348511,
      "num_tokens": 60676830.0,
      "step": 926
    },
    {
      "epoch": 0.12252180808881839,
      "grad_norm": 0.9032038558143899,
      "learning_rate": 9.986326838319669e-06,
      "loss": 0.6763,
      "mean_token_accuracy": 0.7856946587562561,
      "num_tokens": 60742366.0,
      "step": 927
    },
    {
      "epoch": 0.12265397832408141,
      "grad_norm": 1.0823495816711548,
      "learning_rate": 9.986164630232375e-06,
      "loss": 0.7339,
      "mean_token_accuracy": 0.7673055529594421,
      "num_tokens": 60807902.0,
      "step": 928
    },
    {
      "epoch": 0.12278614855934443,
      "grad_norm": 0.9494094797697544,
      "learning_rate": 9.986001467134296e-06,
      "loss": 0.7376,
      "mean_token_accuracy": 0.7675497531890869,
      "num_tokens": 60873438.0,
      "step": 929
    },
    {
      "epoch": 0.12291831879460745,
      "grad_norm": 0.8627790303448464,
      "learning_rate": 9.985837349060166e-06,
      "loss": 0.6664,
      "mean_token_accuracy": 0.7858319878578186,
      "num_tokens": 60938974.0,
      "step": 930
    },
    {
      "epoch": 0.12305048902987048,
      "grad_norm": 1.0973531160857062,
      "learning_rate": 9.98567227604492e-06,
      "loss": 0.7385,
      "mean_token_accuracy": 0.7671987414360046,
      "num_tokens": 61004510.0,
      "step": 931
    },
    {
      "epoch": 0.1231826592651335,
      "grad_norm": 0.8853175123170495,
      "learning_rate": 9.985506248123702e-06,
      "loss": 0.6804,
      "mean_token_accuracy": 0.7836344838142395,
      "num_tokens": 61070046.0,
      "step": 932
    },
    {
      "epoch": 0.12331482950039652,
      "grad_norm": 1.0289596913696817,
      "learning_rate": 9.985339265331855e-06,
      "loss": 0.7467,
      "mean_token_accuracy": 0.7626663446426392,
      "num_tokens": 61135582.0,
      "step": 933
    },
    {
      "epoch": 0.12344699973565953,
      "grad_norm": 0.9710350766291331,
      "learning_rate": 9.985171327704926e-06,
      "loss": 0.7377,
      "mean_token_accuracy": 0.7665425539016724,
      "num_tokens": 61201118.0,
      "step": 934
    },
    {
      "epoch": 0.12357916997092255,
      "grad_norm": 0.9403788888528369,
      "learning_rate": 9.985002435278663e-06,
      "loss": 0.7266,
      "mean_token_accuracy": 0.7687400579452515,
      "num_tokens": 61266654.0,
      "step": 935
    },
    {
      "epoch": 0.12371134020618557,
      "grad_norm": 0.9081524291068247,
      "learning_rate": 9.984832588089023e-06,
      "loss": 0.6812,
      "mean_token_accuracy": 0.7854352593421936,
      "num_tokens": 61332190.0,
      "step": 936
    },
    {
      "epoch": 0.12384351044144859,
      "grad_norm": 0.9561679695103382,
      "learning_rate": 9.98466178617216e-06,
      "loss": 0.6681,
      "mean_token_accuracy": 0.7835734486579895,
      "num_tokens": 61397726.0,
      "step": 937
    },
    {
      "epoch": 0.12397568067671161,
      "grad_norm": 0.8953070599534535,
      "learning_rate": 9.984490029564438e-06,
      "loss": 0.6285,
      "mean_token_accuracy": 0.7960718870162964,
      "num_tokens": 61463262.0,
      "step": 938
    },
    {
      "epoch": 0.12410785091197463,
      "grad_norm": 1.002482176826035,
      "learning_rate": 9.984317318302415e-06,
      "loss": 0.6743,
      "mean_token_accuracy": 0.7821999788284302,
      "num_tokens": 61528798.0,
      "step": 939
    },
    {
      "epoch": 0.12424002114723764,
      "grad_norm": 0.8897718671881556,
      "learning_rate": 9.984143652422864e-06,
      "loss": 0.6905,
      "mean_token_accuracy": 0.779285192489624,
      "num_tokens": 61594334.0,
      "step": 940
    },
    {
      "epoch": 0.12437219138250066,
      "grad_norm": 0.9480685181767987,
      "learning_rate": 9.983969031962749e-06,
      "loss": 0.7009,
      "mean_token_accuracy": 0.7775454521179199,
      "num_tokens": 61659870.0,
      "step": 941
    },
    {
      "epoch": 0.12450436161776368,
      "grad_norm": 0.8895504652440092,
      "learning_rate": 9.983793456959247e-06,
      "loss": 0.6754,
      "mean_token_accuracy": 0.7808570265769958,
      "num_tokens": 61725406.0,
      "step": 942
    },
    {
      "epoch": 0.1246365318530267,
      "grad_norm": 0.9479886110736038,
      "learning_rate": 9.983616927449733e-06,
      "loss": 0.7205,
      "mean_token_accuracy": 0.7711054682731628,
      "num_tokens": 61790942.0,
      "step": 943
    },
    {
      "epoch": 0.12476870208828972,
      "grad_norm": 1.0128379242922825,
      "learning_rate": 9.983439443471786e-06,
      "loss": 0.7078,
      "mean_token_accuracy": 0.7763551473617554,
      "num_tokens": 61856478.0,
      "step": 944
    },
    {
      "epoch": 0.12490087232355274,
      "grad_norm": 0.9279821369026368,
      "learning_rate": 9.98326100506319e-06,
      "loss": 0.7324,
      "mean_token_accuracy": 0.7667409181594849,
      "num_tokens": 61922014.0,
      "step": 945
    },
    {
      "epoch": 0.12503304255881575,
      "grad_norm": 0.8843651053362263,
      "learning_rate": 9.983081612261927e-06,
      "loss": 0.6619,
      "mean_token_accuracy": 0.7877548336982727,
      "num_tokens": 61987550.0,
      "step": 946
    },
    {
      "epoch": 0.12516521279407877,
      "grad_norm": 0.9246097213854958,
      "learning_rate": 9.982901265106193e-06,
      "loss": 0.7139,
      "mean_token_accuracy": 0.7731198668479919,
      "num_tokens": 62053086.0,
      "step": 947
    },
    {
      "epoch": 0.1252973830293418,
      "grad_norm": 0.9154746252499102,
      "learning_rate": 9.982719963634373e-06,
      "loss": 0.6986,
      "mean_token_accuracy": 0.7778659462928772,
      "num_tokens": 62118622.0,
      "step": 948
    },
    {
      "epoch": 0.1254295532646048,
      "grad_norm": 0.8922775999284589,
      "learning_rate": 9.982537707885064e-06,
      "loss": 0.6644,
      "mean_token_accuracy": 0.7926992774009705,
      "num_tokens": 62184158.0,
      "step": 949
    },
    {
      "epoch": 0.12556172349986783,
      "grad_norm": 0.906960272858688,
      "learning_rate": 9.982354497897068e-06,
      "loss": 0.6809,
      "mean_token_accuracy": 0.783588707447052,
      "num_tokens": 62249694.0,
      "step": 950
    },
    {
      "epoch": 0.12569389373513085,
      "grad_norm": 0.9832039122550026,
      "learning_rate": 9.982170333709384e-06,
      "loss": 0.6723,
      "mean_token_accuracy": 0.784611165523529,
      "num_tokens": 62315230.0,
      "step": 951
    },
    {
      "epoch": 0.12582606397039386,
      "grad_norm": 0.9152105428156156,
      "learning_rate": 9.981985215361214e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.7889909744262695,
      "num_tokens": 62380766.0,
      "step": 952
    },
    {
      "epoch": 0.12595823420565688,
      "grad_norm": 0.9600460196765886,
      "learning_rate": 9.981799142891972e-06,
      "loss": 0.716,
      "mean_token_accuracy": 0.7750884890556335,
      "num_tokens": 62446302.0,
      "step": 953
    },
    {
      "epoch": 0.1260904044409199,
      "grad_norm": 0.9007002791104399,
      "learning_rate": 9.981612116341267e-06,
      "loss": 0.6648,
      "mean_token_accuracy": 0.7898455858230591,
      "num_tokens": 62511838.0,
      "step": 954
    },
    {
      "epoch": 0.12622257467618292,
      "grad_norm": 0.8494179057391127,
      "learning_rate": 9.981424135748908e-06,
      "loss": 0.6668,
      "mean_token_accuracy": 0.7884721159934998,
      "num_tokens": 62577374.0,
      "step": 955
    },
    {
      "epoch": 0.12635474491144594,
      "grad_norm": 0.9595709358747062,
      "learning_rate": 9.981235201154918e-06,
      "loss": 0.6829,
      "mean_token_accuracy": 0.7815743088722229,
      "num_tokens": 62642910.0,
      "step": 956
    },
    {
      "epoch": 0.12648691514670896,
      "grad_norm": 0.932101823962142,
      "learning_rate": 9.981045312599515e-06,
      "loss": 0.6747,
      "mean_token_accuracy": 0.7863203287124634,
      "num_tokens": 62708446.0,
      "step": 957
    },
    {
      "epoch": 0.12661908538197197,
      "grad_norm": 0.9117187189192303,
      "learning_rate": 9.980854470123122e-06,
      "loss": 0.6882,
      "mean_token_accuracy": 0.7816506028175354,
      "num_tokens": 62773982.0,
      "step": 958
    },
    {
      "epoch": 0.126751255617235,
      "grad_norm": 0.8365262645202238,
      "learning_rate": 9.980662673766366e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 62839518.0,
      "step": 959
    },
    {
      "epoch": 0.126883425852498,
      "grad_norm": 0.9573553143690938,
      "learning_rate": 9.980469923570076e-06,
      "loss": 0.6662,
      "mean_token_accuracy": 0.78801429271698,
      "num_tokens": 62905054.0,
      "step": 960
    },
    {
      "epoch": 0.12701559608776103,
      "grad_norm": 1.0216074437108345,
      "learning_rate": 9.980276219575286e-06,
      "loss": 0.7476,
      "mean_token_accuracy": 0.7608655691146851,
      "num_tokens": 62970590.0,
      "step": 961
    },
    {
      "epoch": 0.12714776632302405,
      "grad_norm": 0.9815355140084292,
      "learning_rate": 9.98008156182323e-06,
      "loss": 0.666,
      "mean_token_accuracy": 0.7865034937858582,
      "num_tokens": 63036126.0,
      "step": 962
    },
    {
      "epoch": 0.12727993655828707,
      "grad_norm": 0.9143585725234424,
      "learning_rate": 9.979885950355344e-06,
      "loss": 0.6947,
      "mean_token_accuracy": 0.7788273692131042,
      "num_tokens": 63101662.0,
      "step": 963
    },
    {
      "epoch": 0.12741210679355008,
      "grad_norm": 0.9414908022839665,
      "learning_rate": 9.979689385213275e-06,
      "loss": 0.6677,
      "mean_token_accuracy": 0.7913411259651184,
      "num_tokens": 63167198.0,
      "step": 964
    },
    {
      "epoch": 0.1275442770288131,
      "grad_norm": 0.9718640550727926,
      "learning_rate": 9.979491866438864e-06,
      "loss": 0.6947,
      "mean_token_accuracy": 0.7785984873771667,
      "num_tokens": 63232734.0,
      "step": 965
    },
    {
      "epoch": 0.12767644726407612,
      "grad_norm": 0.8587235221563922,
      "learning_rate": 9.979293394074161e-06,
      "loss": 0.6746,
      "mean_token_accuracy": 0.7850384712219238,
      "num_tokens": 63298270.0,
      "step": 966
    },
    {
      "epoch": 0.12780861749933914,
      "grad_norm": 0.9871523630067054,
      "learning_rate": 9.979093968161415e-06,
      "loss": 0.7118,
      "mean_token_accuracy": 0.7731962203979492,
      "num_tokens": 63363806.0,
      "step": 967
    },
    {
      "epoch": 0.12794078773460216,
      "grad_norm": 0.9970624203293192,
      "learning_rate": 9.978893588743079e-06,
      "loss": 0.6914,
      "mean_token_accuracy": 0.7802160978317261,
      "num_tokens": 63429342.0,
      "step": 968
    },
    {
      "epoch": 0.12807295796986518,
      "grad_norm": 0.9337359626366359,
      "learning_rate": 9.97869225586181e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.8057318925857544,
      "num_tokens": 63494878.0,
      "step": 969
    },
    {
      "epoch": 0.1282051282051282,
      "grad_norm": 0.9212579135458363,
      "learning_rate": 9.97848996956047e-06,
      "loss": 0.6931,
      "mean_token_accuracy": 0.778537392616272,
      "num_tokens": 63560414.0,
      "step": 970
    },
    {
      "epoch": 0.1283372984403912,
      "grad_norm": 0.9049517834386506,
      "learning_rate": 9.978286729882118e-06,
      "loss": 0.6469,
      "mean_token_accuracy": 0.7940269708633423,
      "num_tokens": 63625950.0,
      "step": 971
    },
    {
      "epoch": 0.12846946867565423,
      "grad_norm": 1.0590383721574919,
      "learning_rate": 9.978082536870024e-06,
      "loss": 0.7275,
      "mean_token_accuracy": 0.7683738470077515,
      "num_tokens": 63691486.0,
      "step": 972
    },
    {
      "epoch": 0.12860163891091725,
      "grad_norm": 0.9455764398096234,
      "learning_rate": 9.97787739056765e-06,
      "loss": 0.6355,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 63757022.0,
      "step": 973
    },
    {
      "epoch": 0.12873380914618027,
      "grad_norm": 1.0193827871158871,
      "learning_rate": 9.977671291018672e-06,
      "loss": 0.6638,
      "mean_token_accuracy": 0.7885941863059998,
      "num_tokens": 63822558.0,
      "step": 974
    },
    {
      "epoch": 0.12886597938144329,
      "grad_norm": 0.877101426384349,
      "learning_rate": 9.977464238266963e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.7895098328590393,
      "num_tokens": 63888094.0,
      "step": 975
    },
    {
      "epoch": 0.12899814961670633,
      "grad_norm": 1.0037643045070037,
      "learning_rate": 9.9772562323566e-06,
      "loss": 0.6988,
      "mean_token_accuracy": 0.7766146063804626,
      "num_tokens": 63953630.0,
      "step": 976
    },
    {
      "epoch": 0.12913031985196935,
      "grad_norm": 0.8853418242175783,
      "learning_rate": 9.977047273331865e-06,
      "loss": 0.6653,
      "mean_token_accuracy": 0.7904102206230164,
      "num_tokens": 64019166.0,
      "step": 977
    },
    {
      "epoch": 0.12926249008723237,
      "grad_norm": 1.0772923562458603,
      "learning_rate": 9.97683736123724e-06,
      "loss": 0.7016,
      "mean_token_accuracy": 0.773867666721344,
      "num_tokens": 64084702.0,
      "step": 978
    },
    {
      "epoch": 0.1293946603224954,
      "grad_norm": 1.0139448331360623,
      "learning_rate": 9.97662649611741e-06,
      "loss": 0.76,
      "mean_token_accuracy": 0.7578592300415039,
      "num_tokens": 64150238.0,
      "step": 979
    },
    {
      "epoch": 0.1295268305577584,
      "grad_norm": 0.9358137874227191,
      "learning_rate": 9.976414678017262e-06,
      "loss": 0.7146,
      "mean_token_accuracy": 0.774737536907196,
      "num_tokens": 64215774.0,
      "step": 980
    },
    {
      "epoch": 0.12965900079302142,
      "grad_norm": 0.9780090780431341,
      "learning_rate": 9.976201906981891e-06,
      "loss": 0.6994,
      "mean_token_accuracy": 0.7769350409507751,
      "num_tokens": 64281310.0,
      "step": 981
    },
    {
      "epoch": 0.12979117102828444,
      "grad_norm": 0.9940297557274543,
      "learning_rate": 9.975988183056593e-06,
      "loss": 0.7058,
      "mean_token_accuracy": 0.7743712663650513,
      "num_tokens": 64346846.0,
      "step": 982
    },
    {
      "epoch": 0.12992334126354746,
      "grad_norm": 0.8766567993202298,
      "learning_rate": 9.97577350628686e-06,
      "loss": 0.667,
      "mean_token_accuracy": 0.7852368354797363,
      "num_tokens": 64412382.0,
      "step": 983
    },
    {
      "epoch": 0.13005551149881048,
      "grad_norm": 0.8947374968480177,
      "learning_rate": 9.975557876718393e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.7886247038841248,
      "num_tokens": 64477918.0,
      "step": 984
    },
    {
      "epoch": 0.1301876817340735,
      "grad_norm": 1.2233268325525508,
      "learning_rate": 9.9753412943971e-06,
      "loss": 0.7325,
      "mean_token_accuracy": 0.7689689993858337,
      "num_tokens": 64543454.0,
      "step": 985
    },
    {
      "epoch": 0.13031985196933651,
      "grad_norm": 1.018689042565179,
      "learning_rate": 9.975123759369084e-06,
      "loss": 0.7106,
      "mean_token_accuracy": 0.7733640670776367,
      "num_tokens": 64608990.0,
      "step": 986
    },
    {
      "epoch": 0.13045202220459953,
      "grad_norm": 0.9751959123251318,
      "learning_rate": 9.974905271680653e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.7925772070884705,
      "num_tokens": 64674526.0,
      "step": 987
    },
    {
      "epoch": 0.13058419243986255,
      "grad_norm": 1.0191307945256143,
      "learning_rate": 9.974685831378318e-06,
      "loss": 0.68,
      "mean_token_accuracy": 0.7824136018753052,
      "num_tokens": 64740062.0,
      "step": 988
    },
    {
      "epoch": 0.13071636267512557,
      "grad_norm": 0.9734364720451695,
      "learning_rate": 9.974465438508794e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.7905628085136414,
      "num_tokens": 64805598.0,
      "step": 989
    },
    {
      "epoch": 0.1308485329103886,
      "grad_norm": 0.8859262497091723,
      "learning_rate": 9.974244093119e-06,
      "loss": 0.6415,
      "mean_token_accuracy": 0.7953699231147766,
      "num_tokens": 64871134.0,
      "step": 990
    },
    {
      "epoch": 0.1309807031456516,
      "grad_norm": 1.0889977980053904,
      "learning_rate": 9.974021795256053e-06,
      "loss": 0.7099,
      "mean_token_accuracy": 0.7754395008087158,
      "num_tokens": 64936670.0,
      "step": 991
    },
    {
      "epoch": 0.13111287338091462,
      "grad_norm": 0.8535525903870504,
      "learning_rate": 9.973798544967277e-06,
      "loss": 0.6332,
      "mean_token_accuracy": 0.7971554398536682,
      "num_tokens": 65002206.0,
      "step": 992
    },
    {
      "epoch": 0.13124504361617764,
      "grad_norm": 0.8756330201737383,
      "learning_rate": 9.973574342300198e-06,
      "loss": 0.644,
      "mean_token_accuracy": 0.7963160872459412,
      "num_tokens": 65067742.0,
      "step": 993
    },
    {
      "epoch": 0.13137721385144066,
      "grad_norm": 0.8888252811174543,
      "learning_rate": 9.973349187302541e-06,
      "loss": 0.6878,
      "mean_token_accuracy": 0.7802313566207886,
      "num_tokens": 65133278.0,
      "step": 994
    },
    {
      "epoch": 0.13150938408670368,
      "grad_norm": 0.820512880655112,
      "learning_rate": 9.97312308002224e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.8267763257026672,
      "num_tokens": 65198814.0,
      "step": 995
    },
    {
      "epoch": 0.1316415543219667,
      "grad_norm": 0.9133793400372747,
      "learning_rate": 9.972896020507425e-06,
      "loss": 0.6817,
      "mean_token_accuracy": 0.7849621772766113,
      "num_tokens": 65264350.0,
      "step": 996
    },
    {
      "epoch": 0.13177372455722972,
      "grad_norm": 1.1112319367561379,
      "learning_rate": 9.972668008806438e-06,
      "loss": 0.7221,
      "mean_token_accuracy": 0.7699151635169983,
      "num_tokens": 65329886.0,
      "step": 997
    },
    {
      "epoch": 0.13190589479249273,
      "grad_norm": 0.9900928014934821,
      "learning_rate": 9.972439044967813e-06,
      "loss": 0.7369,
      "mean_token_accuracy": 0.7636735439300537,
      "num_tokens": 65395422.0,
      "step": 998
    },
    {
      "epoch": 0.13203806502775575,
      "grad_norm": 0.9411058190916453,
      "learning_rate": 9.972209129040293e-06,
      "loss": 0.6605,
      "mean_token_accuracy": 0.788044810295105,
      "num_tokens": 65460958.0,
      "step": 999
    },
    {
      "epoch": 0.13217023526301877,
      "grad_norm": 0.895888253802484,
      "learning_rate": 9.971978261072824e-06,
      "loss": 0.6731,
      "mean_token_accuracy": 0.7878311276435852,
      "num_tokens": 65526494.0,
      "step": 1000
    },
    {
      "epoch": 0.1323024054982818,
      "grad_norm": 1.0902689350771437,
      "learning_rate": 9.97174644111455e-06,
      "loss": 0.7171,
      "mean_token_accuracy": 0.7725247144699097,
      "num_tokens": 65592030.0,
      "step": 1001
    },
    {
      "epoch": 0.1324345757335448,
      "grad_norm": 1.0523546924747915,
      "learning_rate": 9.971513669214819e-06,
      "loss": 0.6749,
      "mean_token_accuracy": 0.7832834720611572,
      "num_tokens": 65657566.0,
      "step": 1002
    },
    {
      "epoch": 0.13256674596880783,
      "grad_norm": 1.0419510775789709,
      "learning_rate": 9.971279945423191e-06,
      "loss": 0.7028,
      "mean_token_accuracy": 0.7762483358383179,
      "num_tokens": 65723102.0,
      "step": 1003
    },
    {
      "epoch": 0.13269891620407084,
      "grad_norm": 0.9511858904861961,
      "learning_rate": 9.971045269789414e-06,
      "loss": 0.6927,
      "mean_token_accuracy": 0.7789494395256042,
      "num_tokens": 65788638.0,
      "step": 1004
    },
    {
      "epoch": 0.13283108643933386,
      "grad_norm": 0.9768900937927131,
      "learning_rate": 9.970809642363449e-06,
      "loss": 0.6796,
      "mean_token_accuracy": 0.7851452827453613,
      "num_tokens": 65854174.0,
      "step": 1005
    },
    {
      "epoch": 0.13296325667459688,
      "grad_norm": 0.9700812356655776,
      "learning_rate": 9.970573063195455e-06,
      "loss": 0.6896,
      "mean_token_accuracy": 0.782627284526825,
      "num_tokens": 65919710.0,
      "step": 1006
    },
    {
      "epoch": 0.1330954269098599,
      "grad_norm": 0.9622502222005809,
      "learning_rate": 9.970335532335793e-06,
      "loss": 0.6389,
      "mean_token_accuracy": 0.7989256381988525,
      "num_tokens": 65985246.0,
      "step": 1007
    },
    {
      "epoch": 0.13322759714512292,
      "grad_norm": 1.0048587825059812,
      "learning_rate": 9.97009704983503e-06,
      "loss": 0.6624,
      "mean_token_accuracy": 0.7901965379714966,
      "num_tokens": 66050782.0,
      "step": 1008
    },
    {
      "epoch": 0.13335976738038594,
      "grad_norm": 1.0840263469801044,
      "learning_rate": 9.969857615743936e-06,
      "loss": 0.6433,
      "mean_token_accuracy": 0.7936301827430725,
      "num_tokens": 66116318.0,
      "step": 1009
    },
    {
      "epoch": 0.13349193761564895,
      "grad_norm": 1.100085223970143,
      "learning_rate": 9.969617230113478e-06,
      "loss": 0.7095,
      "mean_token_accuracy": 0.7739744782447815,
      "num_tokens": 66181854.0,
      "step": 1010
    },
    {
      "epoch": 0.13362410785091197,
      "grad_norm": 0.9727718941515714,
      "learning_rate": 9.969375892994832e-06,
      "loss": 0.6667,
      "mean_token_accuracy": 0.7893572449684143,
      "num_tokens": 66247390.0,
      "step": 1011
    },
    {
      "epoch": 0.133756278086175,
      "grad_norm": 0.9044191974826781,
      "learning_rate": 9.969133604439372e-06,
      "loss": 0.671,
      "mean_token_accuracy": 0.7876785397529602,
      "num_tokens": 66312926.0,
      "step": 1012
    },
    {
      "epoch": 0.133888448321438,
      "grad_norm": 0.9631479676027578,
      "learning_rate": 9.968890364498675e-06,
      "loss": 0.7117,
      "mean_token_accuracy": 0.7755920886993408,
      "num_tokens": 66378462.0,
      "step": 1013
    },
    {
      "epoch": 0.13402061855670103,
      "grad_norm": 1.0098592628471563,
      "learning_rate": 9.968646173224523e-06,
      "loss": 0.6919,
      "mean_token_accuracy": 0.7778049111366272,
      "num_tokens": 66443998.0,
      "step": 1014
    },
    {
      "epoch": 0.13415278879196404,
      "grad_norm": 1.1051431815606423,
      "learning_rate": 9.9684010306689e-06,
      "loss": 0.6769,
      "mean_token_accuracy": 0.7862135171890259,
      "num_tokens": 66509534.0,
      "step": 1015
    },
    {
      "epoch": 0.13428495902722706,
      "grad_norm": 0.9588636348933702,
      "learning_rate": 9.968154936883991e-06,
      "loss": 0.7107,
      "mean_token_accuracy": 0.7736387252807617,
      "num_tokens": 66575070.0,
      "step": 1016
    },
    {
      "epoch": 0.13441712926249008,
      "grad_norm": 0.8772178367199948,
      "learning_rate": 9.967907891922186e-06,
      "loss": 0.6168,
      "mean_token_accuracy": 0.7995360493659973,
      "num_tokens": 66640606.0,
      "step": 1017
    },
    {
      "epoch": 0.1345492994977531,
      "grad_norm": 0.9354573894693121,
      "learning_rate": 9.96765989583607e-06,
      "loss": 0.7,
      "mean_token_accuracy": 0.7753784656524658,
      "num_tokens": 66706142.0,
      "step": 1018
    },
    {
      "epoch": 0.13468146973301612,
      "grad_norm": 1.0146713540206533,
      "learning_rate": 9.967410948678445e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7946678996086121,
      "num_tokens": 66771678.0,
      "step": 1019
    },
    {
      "epoch": 0.13481363996827914,
      "grad_norm": 0.9407949218280257,
      "learning_rate": 9.967161050502298e-06,
      "loss": 0.6726,
      "mean_token_accuracy": 0.7859541177749634,
      "num_tokens": 66837214.0,
      "step": 1020
    },
    {
      "epoch": 0.13494581020354215,
      "grad_norm": 0.9815467412955742,
      "learning_rate": 9.966910201360835e-06,
      "loss": 0.6499,
      "mean_token_accuracy": 0.7938896417617798,
      "num_tokens": 66902750.0,
      "step": 1021
    },
    {
      "epoch": 0.13507798043880517,
      "grad_norm": 0.9729466138115945,
      "learning_rate": 9.966658401307448e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7810096740722656,
      "num_tokens": 66968286.0,
      "step": 1022
    },
    {
      "epoch": 0.1352101506740682,
      "grad_norm": 0.8310575383514612,
      "learning_rate": 9.966405650395748e-06,
      "loss": 0.6427,
      "mean_token_accuracy": 0.7964839339256287,
      "num_tokens": 67033822.0,
      "step": 1023
    },
    {
      "epoch": 0.1353423209093312,
      "grad_norm": 0.8595723106828415,
      "learning_rate": 9.966151948679534e-06,
      "loss": 0.6304,
      "mean_token_accuracy": 0.7963160872459412,
      "num_tokens": 67099358.0,
      "step": 1024
    },
    {
      "epoch": 0.13547449114459423,
      "grad_norm": 0.8683271071646329,
      "learning_rate": 9.965897296212818e-06,
      "loss": 0.6237,
      "mean_token_accuracy": 0.7999480962753296,
      "num_tokens": 67164894.0,
      "step": 1025
    },
    {
      "epoch": 0.13560666137985725,
      "grad_norm": 1.1392655215593825,
      "learning_rate": 9.96564169304981e-06,
      "loss": 0.7267,
      "mean_token_accuracy": 0.765138566493988,
      "num_tokens": 67230430.0,
      "step": 1026
    },
    {
      "epoch": 0.13573883161512026,
      "grad_norm": 0.9179146433501987,
      "learning_rate": 9.96538513924492e-06,
      "loss": 0.6516,
      "mean_token_accuracy": 0.7922109365463257,
      "num_tokens": 67295966.0,
      "step": 1027
    },
    {
      "epoch": 0.13587100185038328,
      "grad_norm": 1.069768171737084,
      "learning_rate": 9.965127634852764e-06,
      "loss": 0.6853,
      "mean_token_accuracy": 0.7800940275192261,
      "num_tokens": 67361502.0,
      "step": 1028
    },
    {
      "epoch": 0.1360031720856463,
      "grad_norm": 0.8853531920703698,
      "learning_rate": 9.96486917992816e-06,
      "loss": 0.6368,
      "mean_token_accuracy": 0.7967281341552734,
      "num_tokens": 67427038.0,
      "step": 1029
    },
    {
      "epoch": 0.13613534232090932,
      "grad_norm": 0.9835424281872198,
      "learning_rate": 9.96460977452613e-06,
      "loss": 0.6942,
      "mean_token_accuracy": 0.7797887921333313,
      "num_tokens": 67492574.0,
      "step": 1030
    },
    {
      "epoch": 0.13626751255617234,
      "grad_norm": 0.8268860036598262,
      "learning_rate": 9.96434941870189e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8102185130119324,
      "num_tokens": 67558110.0,
      "step": 1031
    },
    {
      "epoch": 0.13639968279143536,
      "grad_norm": 0.9534704228063442,
      "learning_rate": 9.964088112510869e-06,
      "loss": 0.6748,
      "mean_token_accuracy": 0.7825509905815125,
      "num_tokens": 67623646.0,
      "step": 1032
    },
    {
      "epoch": 0.13653185302669837,
      "grad_norm": 0.8365973925145966,
      "learning_rate": 9.963825856008692e-06,
      "loss": 0.6457,
      "mean_token_accuracy": 0.7915852665901184,
      "num_tokens": 67689182.0,
      "step": 1033
    },
    {
      "epoch": 0.1366640232619614,
      "grad_norm": 0.863571038951319,
      "learning_rate": 9.963562649251188e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.7959803342819214,
      "num_tokens": 67754718.0,
      "step": 1034
    },
    {
      "epoch": 0.13679619349722444,
      "grad_norm": 0.8870133209291085,
      "learning_rate": 9.963298492294388e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7903186678886414,
      "num_tokens": 67820254.0,
      "step": 1035
    },
    {
      "epoch": 0.13692836373248746,
      "grad_norm": 0.9124377665904825,
      "learning_rate": 9.963033385194527e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7939659357070923,
      "num_tokens": 67885790.0,
      "step": 1036
    },
    {
      "epoch": 0.13706053396775048,
      "grad_norm": 0.8815330110595144,
      "learning_rate": 9.962767328008039e-06,
      "loss": 0.6778,
      "mean_token_accuracy": 0.7849774360656738,
      "num_tokens": 67951326.0,
      "step": 1037
    },
    {
      "epoch": 0.1371927042030135,
      "grad_norm": 0.8694792073974773,
      "learning_rate": 9.962500320791564e-06,
      "loss": 0.7314,
      "mean_token_accuracy": 0.7657032012939453,
      "num_tokens": 68016862.0,
      "step": 1038
    },
    {
      "epoch": 0.1373248744382765,
      "grad_norm": 0.8472605620903012,
      "learning_rate": 9.96223236360194e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.812248170375824,
      "num_tokens": 68082398.0,
      "step": 1039
    },
    {
      "epoch": 0.13745704467353953,
      "grad_norm": 0.892615536850603,
      "learning_rate": 9.96196345649621e-06,
      "loss": 0.6687,
      "mean_token_accuracy": 0.7866713404655457,
      "num_tokens": 68147934.0,
      "step": 1040
    },
    {
      "epoch": 0.13758921490880255,
      "grad_norm": 0.9250037265609001,
      "learning_rate": 9.96169359953162e-06,
      "loss": 0.7265,
      "mean_token_accuracy": 0.7697625160217285,
      "num_tokens": 68213470.0,
      "step": 1041
    },
    {
      "epoch": 0.13772138514406557,
      "grad_norm": 0.8853640486800978,
      "learning_rate": 9.961422792765618e-06,
      "loss": 0.6322,
      "mean_token_accuracy": 0.7965754866600037,
      "num_tokens": 68279006.0,
      "step": 1042
    },
    {
      "epoch": 0.13785355537932859,
      "grad_norm": 0.9149721736260128,
      "learning_rate": 9.961151036255849e-06,
      "loss": 0.6447,
      "mean_token_accuracy": 0.7911274433135986,
      "num_tokens": 68344542.0,
      "step": 1043
    },
    {
      "epoch": 0.1379857256145916,
      "grad_norm": 0.7688083515422365,
      "learning_rate": 9.960878330060167e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8184897899627686,
      "num_tokens": 68410078.0,
      "step": 1044
    },
    {
      "epoch": 0.13811789584985462,
      "grad_norm": 0.8499400553425173,
      "learning_rate": 9.960604674236624e-06,
      "loss": 0.6557,
      "mean_token_accuracy": 0.7900897264480591,
      "num_tokens": 68475614.0,
      "step": 1045
    },
    {
      "epoch": 0.13825006608511764,
      "grad_norm": 0.962603756822811,
      "learning_rate": 9.960330068843477e-06,
      "loss": 0.6981,
      "mean_token_accuracy": 0.7744628190994263,
      "num_tokens": 68541150.0,
      "step": 1046
    },
    {
      "epoch": 0.13838223632038066,
      "grad_norm": 0.9098215114956856,
      "learning_rate": 9.960054513939183e-06,
      "loss": 0.6595,
      "mean_token_accuracy": 0.7869613170623779,
      "num_tokens": 68606686.0,
      "step": 1047
    },
    {
      "epoch": 0.13851440655564368,
      "grad_norm": 0.908042831892974,
      "learning_rate": 9.959778009582403e-06,
      "loss": 0.6831,
      "mean_token_accuracy": 0.779193639755249,
      "num_tokens": 68672222.0,
      "step": 1048
    },
    {
      "epoch": 0.1386465767909067,
      "grad_norm": 0.929749077630452,
      "learning_rate": 9.959500555831999e-06,
      "loss": 0.6744,
      "mean_token_accuracy": 0.7838786244392395,
      "num_tokens": 68737758.0,
      "step": 1049
    },
    {
      "epoch": 0.1387787470261697,
      "grad_norm": 0.8911745950645077,
      "learning_rate": 9.959222152747032e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7905170321464539,
      "num_tokens": 68803294.0,
      "step": 1050
    },
    {
      "epoch": 0.13891091726143273,
      "grad_norm": 0.8556219335054143,
      "learning_rate": 9.958942800386772e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7995818853378296,
      "num_tokens": 68868830.0,
      "step": 1051
    },
    {
      "epoch": 0.13904308749669575,
      "grad_norm": 0.9721488583298523,
      "learning_rate": 9.958662498810687e-06,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7736082077026367,
      "num_tokens": 68934366.0,
      "step": 1052
    },
    {
      "epoch": 0.13917525773195877,
      "grad_norm": 1.1517631349247677,
      "learning_rate": 9.958381248078443e-06,
      "loss": 0.767,
      "mean_token_accuracy": 0.7611860632896423,
      "num_tokens": 68999902.0,
      "step": 1053
    },
    {
      "epoch": 0.1393074279672218,
      "grad_norm": 0.9519639276651319,
      "learning_rate": 9.958099048249917e-06,
      "loss": 0.6818,
      "mean_token_accuracy": 0.7804297208786011,
      "num_tokens": 69065438.0,
      "step": 1054
    },
    {
      "epoch": 0.1394395982024848,
      "grad_norm": 0.9362198204494818,
      "learning_rate": 9.957815899385183e-06,
      "loss": 0.6882,
      "mean_token_accuracy": 0.7770571112632751,
      "num_tokens": 69130974.0,
      "step": 1055
    },
    {
      "epoch": 0.13957176843774782,
      "grad_norm": 0.9314685796412732,
      "learning_rate": 9.957531801544516e-06,
      "loss": 0.7108,
      "mean_token_accuracy": 0.779163122177124,
      "num_tokens": 69196510.0,
      "step": 1056
    },
    {
      "epoch": 0.13970393867301084,
      "grad_norm": 0.8687470557155744,
      "learning_rate": 9.957246754788396e-06,
      "loss": 0.6913,
      "mean_token_accuracy": 0.7811775207519531,
      "num_tokens": 69262046.0,
      "step": 1057
    },
    {
      "epoch": 0.13983610890827386,
      "grad_norm": 0.8788134273281856,
      "learning_rate": 9.956960759177503e-06,
      "loss": 0.6613,
      "mean_token_accuracy": 0.7894945740699768,
      "num_tokens": 69327582.0,
      "step": 1058
    },
    {
      "epoch": 0.13996827914353688,
      "grad_norm": 0.8862691241191796,
      "learning_rate": 9.956673814772715e-06,
      "loss": 0.6717,
      "mean_token_accuracy": 0.788227915763855,
      "num_tokens": 69393118.0,
      "step": 1059
    },
    {
      "epoch": 0.1401004493787999,
      "grad_norm": 0.8421897361364111,
      "learning_rate": 9.956385921635124e-06,
      "loss": 0.6494,
      "mean_token_accuracy": 0.7915242314338684,
      "num_tokens": 69458654.0,
      "step": 1060
    },
    {
      "epoch": 0.14023261961406291,
      "grad_norm": 0.9042812043388583,
      "learning_rate": 9.95609707982601e-06,
      "loss": 0.6274,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 69524190.0,
      "step": 1061
    },
    {
      "epoch": 0.14036478984932593,
      "grad_norm": 0.8377943476936827,
      "learning_rate": 9.955807289406866e-06,
      "loss": 0.6128,
      "mean_token_accuracy": 0.8047246932983398,
      "num_tokens": 69589726.0,
      "step": 1062
    },
    {
      "epoch": 0.14049696008458895,
      "grad_norm": 0.8740613395997775,
      "learning_rate": 9.955516550439382e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7916005253791809,
      "num_tokens": 69655262.0,
      "step": 1063
    },
    {
      "epoch": 0.14062913031985197,
      "grad_norm": 0.8578712182233826,
      "learning_rate": 9.955224862985447e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 69720798.0,
      "step": 1064
    },
    {
      "epoch": 0.140761300555115,
      "grad_norm": 0.9344980299386291,
      "learning_rate": 9.95493222710716e-06,
      "loss": 0.6649,
      "mean_token_accuracy": 0.7897234559059143,
      "num_tokens": 69786334.0,
      "step": 1065
    },
    {
      "epoch": 0.140893470790378,
      "grad_norm": 1.0111411487789108,
      "learning_rate": 9.954638642866813e-06,
      "loss": 0.696,
      "mean_token_accuracy": 0.778140664100647,
      "num_tokens": 69851870.0,
      "step": 1066
    },
    {
      "epoch": 0.14102564102564102,
      "grad_norm": 0.9355115301639955,
      "learning_rate": 9.954344110326903e-06,
      "loss": 0.677,
      "mean_token_accuracy": 0.782932460308075,
      "num_tokens": 69917406.0,
      "step": 1067
    },
    {
      "epoch": 0.14115781126090404,
      "grad_norm": 0.9646068673774497,
      "learning_rate": 9.954048629550131e-06,
      "loss": 0.6802,
      "mean_token_accuracy": 0.7832682132720947,
      "num_tokens": 69982942.0,
      "step": 1068
    },
    {
      "epoch": 0.14128998149616706,
      "grad_norm": 0.894926872508572,
      "learning_rate": 9.953752200599403e-06,
      "loss": 0.6811,
      "mean_token_accuracy": 0.7812538146972656,
      "num_tokens": 70048478.0,
      "step": 1069
    },
    {
      "epoch": 0.14142215173143008,
      "grad_norm": 0.9682420386283926,
      "learning_rate": 9.953454823537817e-06,
      "loss": 0.6934,
      "mean_token_accuracy": 0.7777438759803772,
      "num_tokens": 70114014.0,
      "step": 1070
    },
    {
      "epoch": 0.1415543219666931,
      "grad_norm": 0.9578478292043625,
      "learning_rate": 9.953156498428682e-06,
      "loss": 0.6152,
      "mean_token_accuracy": 0.7996276617050171,
      "num_tokens": 70179550.0,
      "step": 1071
    },
    {
      "epoch": 0.14168649220195612,
      "grad_norm": 0.9069208508718571,
      "learning_rate": 9.952857225335502e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7930197715759277,
      "num_tokens": 70245086.0,
      "step": 1072
    },
    {
      "epoch": 0.14181866243721913,
      "grad_norm": 0.9241188288501931,
      "learning_rate": 9.952557004321988e-06,
      "loss": 0.6845,
      "mean_token_accuracy": 0.7820931673049927,
      "num_tokens": 70310622.0,
      "step": 1073
    },
    {
      "epoch": 0.14195083267248215,
      "grad_norm": 0.9595858671296851,
      "learning_rate": 9.952255835452053e-06,
      "loss": 0.6955,
      "mean_token_accuracy": 0.7802923917770386,
      "num_tokens": 70376158.0,
      "step": 1074
    },
    {
      "epoch": 0.14208300290774517,
      "grad_norm": 0.8462433844736211,
      "learning_rate": 9.951953718789805e-06,
      "loss": 0.644,
      "mean_token_accuracy": 0.7964839339256287,
      "num_tokens": 70441694.0,
      "step": 1075
    },
    {
      "epoch": 0.1422151731430082,
      "grad_norm": 0.9302675975624267,
      "learning_rate": 9.95165065439956e-06,
      "loss": 0.6508,
      "mean_token_accuracy": 0.7920430898666382,
      "num_tokens": 70507230.0,
      "step": 1076
    },
    {
      "epoch": 0.1423473433782712,
      "grad_norm": 1.1360993545209015,
      "learning_rate": 9.951346642345835e-06,
      "loss": 0.672,
      "mean_token_accuracy": 0.7861365675926208,
      "num_tokens": 70565593.0,
      "step": 1077
    },
    {
      "epoch": 0.14247951361353423,
      "grad_norm": 0.9294808024564196,
      "learning_rate": 9.951041682693347e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7987425327301025,
      "num_tokens": 70631129.0,
      "step": 1078
    },
    {
      "epoch": 0.14261168384879724,
      "grad_norm": 0.9028711966880869,
      "learning_rate": 9.950735775507017e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7974911332130432,
      "num_tokens": 70696665.0,
      "step": 1079
    },
    {
      "epoch": 0.14274385408406026,
      "grad_norm": 0.8554119907211457,
      "learning_rate": 9.950428920851964e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 70762201.0,
      "step": 1080
    },
    {
      "epoch": 0.14287602431932328,
      "grad_norm": 1.0886202879117104,
      "learning_rate": 9.950121118793512e-06,
      "loss": 0.6988,
      "mean_token_accuracy": 0.7726467847824097,
      "num_tokens": 70827737.0,
      "step": 1081
    },
    {
      "epoch": 0.1430081945545863,
      "grad_norm": 0.9267026622972465,
      "learning_rate": 9.949812369397184e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7920888662338257,
      "num_tokens": 70893273.0,
      "step": 1082
    },
    {
      "epoch": 0.14314036478984932,
      "grad_norm": 0.876566409561952,
      "learning_rate": 9.94950267272871e-06,
      "loss": 0.6767,
      "mean_token_accuracy": 0.784794270992279,
      "num_tokens": 70958809.0,
      "step": 1083
    },
    {
      "epoch": 0.14327253502511234,
      "grad_norm": 0.9893632770939967,
      "learning_rate": 9.949192028854017e-06,
      "loss": 0.6826,
      "mean_token_accuracy": 0.7842143774032593,
      "num_tokens": 71024345.0,
      "step": 1084
    },
    {
      "epoch": 0.14340470526037535,
      "grad_norm": 0.9974199535010636,
      "learning_rate": 9.94888043783923e-06,
      "loss": 0.681,
      "mean_token_accuracy": 0.7841075658798218,
      "num_tokens": 71089881.0,
      "step": 1085
    },
    {
      "epoch": 0.14353687549563837,
      "grad_norm": 0.9744568566702576,
      "learning_rate": 9.948567899750687e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.7886704802513123,
      "num_tokens": 71155417.0,
      "step": 1086
    },
    {
      "epoch": 0.1436690457309014,
      "grad_norm": 0.8564215519787488,
      "learning_rate": 9.948254414654918e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.8028476238250732,
      "num_tokens": 71220953.0,
      "step": 1087
    },
    {
      "epoch": 0.1438012159661644,
      "grad_norm": 0.9453253381400458,
      "learning_rate": 9.947939982618655e-06,
      "loss": 0.6827,
      "mean_token_accuracy": 0.7818947434425354,
      "num_tokens": 71286489.0,
      "step": 1088
    },
    {
      "epoch": 0.14393338620142743,
      "grad_norm": 0.9188220598560102,
      "learning_rate": 9.947624603708835e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7928061485290527,
      "num_tokens": 71352025.0,
      "step": 1089
    },
    {
      "epoch": 0.14406555643669045,
      "grad_norm": 0.9544505781383696,
      "learning_rate": 9.947308277992599e-06,
      "loss": 0.7005,
      "mean_token_accuracy": 0.7769502997398376,
      "num_tokens": 71417561.0,
      "step": 1090
    },
    {
      "epoch": 0.14419772667195346,
      "grad_norm": 0.9379415523908812,
      "learning_rate": 9.946991005537283e-06,
      "loss": 0.6697,
      "mean_token_accuracy": 0.7875869870185852,
      "num_tokens": 71483097.0,
      "step": 1091
    },
    {
      "epoch": 0.14432989690721648,
      "grad_norm": 0.9014399525751047,
      "learning_rate": 9.946672786410427e-06,
      "loss": 0.6603,
      "mean_token_accuracy": 0.7884873747825623,
      "num_tokens": 71548633.0,
      "step": 1092
    },
    {
      "epoch": 0.1444620671424795,
      "grad_norm": 0.887491491456773,
      "learning_rate": 9.946353620679775e-06,
      "loss": 0.6651,
      "mean_token_accuracy": 0.7907917499542236,
      "num_tokens": 71614169.0,
      "step": 1093
    },
    {
      "epoch": 0.14459423737774255,
      "grad_norm": 0.8414730325543806,
      "learning_rate": 9.946033508413273e-06,
      "loss": 0.6701,
      "mean_token_accuracy": 0.7877395749092102,
      "num_tokens": 71679705.0,
      "step": 1094
    },
    {
      "epoch": 0.14472640761300556,
      "grad_norm": 0.9836641641056272,
      "learning_rate": 9.94571244967906e-06,
      "loss": 0.6957,
      "mean_token_accuracy": 0.779071569442749,
      "num_tokens": 71745241.0,
      "step": 1095
    },
    {
      "epoch": 0.14485857784826858,
      "grad_norm": 1.0177965595221194,
      "learning_rate": 9.94539044454549e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7775149345397949,
      "num_tokens": 71810777.0,
      "step": 1096
    },
    {
      "epoch": 0.1449907480835316,
      "grad_norm": 0.892041054382695,
      "learning_rate": 9.945067493081105e-06,
      "loss": 0.634,
      "mean_token_accuracy": 0.7974911332130432,
      "num_tokens": 71876313.0,
      "step": 1097
    },
    {
      "epoch": 0.14512291831879462,
      "grad_norm": 0.8596095748702742,
      "learning_rate": 9.944743595354657e-06,
      "loss": 0.6819,
      "mean_token_accuracy": 0.7832529544830322,
      "num_tokens": 71941849.0,
      "step": 1098
    },
    {
      "epoch": 0.14525508855405764,
      "grad_norm": 0.9536641891447016,
      "learning_rate": 9.944418751435096e-06,
      "loss": 0.7069,
      "mean_token_accuracy": 0.7727231383323669,
      "num_tokens": 72007385.0,
      "step": 1099
    },
    {
      "epoch": 0.14538725878932066,
      "grad_norm": 1.024072206529439,
      "learning_rate": 9.944092961391579e-06,
      "loss": 0.7428,
      "mean_token_accuracy": 0.7628189325332642,
      "num_tokens": 72072921.0,
      "step": 1100
    },
    {
      "epoch": 0.14551942902458367,
      "grad_norm": 0.9885288599980392,
      "learning_rate": 9.943766225293452e-06,
      "loss": 0.7432,
      "mean_token_accuracy": 0.7627121210098267,
      "num_tokens": 72138457.0,
      "step": 1101
    },
    {
      "epoch": 0.1456515992598467,
      "grad_norm": 0.9529569413786795,
      "learning_rate": 9.943438543210279e-06,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7797277569770813,
      "num_tokens": 72203993.0,
      "step": 1102
    },
    {
      "epoch": 0.1457837694951097,
      "grad_norm": 1.0229010233428322,
      "learning_rate": 9.943109915211811e-06,
      "loss": 0.7333,
      "mean_token_accuracy": 0.7676718235015869,
      "num_tokens": 72269529.0,
      "step": 1103
    },
    {
      "epoch": 0.14591593973037273,
      "grad_norm": 0.8690515644350644,
      "learning_rate": 9.942780341368008e-06,
      "loss": 0.5911,
      "mean_token_accuracy": 0.8147357106208801,
      "num_tokens": 72335065.0,
      "step": 1104
    },
    {
      "epoch": 0.14604810996563575,
      "grad_norm": 0.8171505596428643,
      "learning_rate": 9.942449821749028e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7939659357070923,
      "num_tokens": 72400601.0,
      "step": 1105
    },
    {
      "epoch": 0.14618028020089877,
      "grad_norm": 0.9002863485756976,
      "learning_rate": 9.942118356425232e-06,
      "loss": 0.6749,
      "mean_token_accuracy": 0.784763753414154,
      "num_tokens": 72466137.0,
      "step": 1106
    },
    {
      "epoch": 0.14631245043616178,
      "grad_norm": 0.9757659146864498,
      "learning_rate": 9.941785945467184e-06,
      "loss": 0.6575,
      "mean_token_accuracy": 0.7904102206230164,
      "num_tokens": 72531673.0,
      "step": 1107
    },
    {
      "epoch": 0.1464446206714248,
      "grad_norm": 0.882514253211209,
      "learning_rate": 9.941452588945645e-06,
      "loss": 0.677,
      "mean_token_accuracy": 0.7855725884437561,
      "num_tokens": 72597209.0,
      "step": 1108
    },
    {
      "epoch": 0.14657679090668782,
      "grad_norm": 0.8404195887579491,
      "learning_rate": 9.941118286931582e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7938286066055298,
      "num_tokens": 72662745.0,
      "step": 1109
    },
    {
      "epoch": 0.14670896114195084,
      "grad_norm": 0.8678826075720316,
      "learning_rate": 9.940783039496157e-06,
      "loss": 0.6471,
      "mean_token_accuracy": 0.7946984767913818,
      "num_tokens": 72728281.0,
      "step": 1110
    },
    {
      "epoch": 0.14684113137721386,
      "grad_norm": 1.03492095625639,
      "learning_rate": 9.940446846710742e-06,
      "loss": 0.6902,
      "mean_token_accuracy": 0.7776675820350647,
      "num_tokens": 72793817.0,
      "step": 1111
    },
    {
      "epoch": 0.14697330161247688,
      "grad_norm": 0.9765971206295362,
      "learning_rate": 9.940109708646903e-06,
      "loss": 0.6369,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 72859353.0,
      "step": 1112
    },
    {
      "epoch": 0.1471054718477399,
      "grad_norm": 0.8450152159427284,
      "learning_rate": 9.93977162537641e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7991698384284973,
      "num_tokens": 72924889.0,
      "step": 1113
    },
    {
      "epoch": 0.1472376420830029,
      "grad_norm": 0.9163421324409412,
      "learning_rate": 9.939432596971233e-06,
      "loss": 0.6368,
      "mean_token_accuracy": 0.7956140637397766,
      "num_tokens": 72990425.0,
      "step": 1114
    },
    {
      "epoch": 0.14736981231826593,
      "grad_norm": 0.9328841581520145,
      "learning_rate": 9.939092623503545e-06,
      "loss": 0.7029,
      "mean_token_accuracy": 0.7782169580459595,
      "num_tokens": 73055961.0,
      "step": 1115
    },
    {
      "epoch": 0.14750198255352895,
      "grad_norm": 1.0164345425446133,
      "learning_rate": 9.938751705045719e-06,
      "loss": 0.6996,
      "mean_token_accuracy": 0.7747833132743835,
      "num_tokens": 73121497.0,
      "step": 1116
    },
    {
      "epoch": 0.14763415278879197,
      "grad_norm": 0.9410879293347721,
      "learning_rate": 9.93840984167033e-06,
      "loss": 0.7075,
      "mean_token_accuracy": 0.7752716541290283,
      "num_tokens": 73187033.0,
      "step": 1117
    },
    {
      "epoch": 0.14776632302405499,
      "grad_norm": 0.8738992535147295,
      "learning_rate": 9.938067033450151e-06,
      "loss": 0.6442,
      "mean_token_accuracy": 0.79343181848526,
      "num_tokens": 73252569.0,
      "step": 1118
    },
    {
      "epoch": 0.147898493259318,
      "grad_norm": 1.026179328164957,
      "learning_rate": 9.937723280458163e-06,
      "loss": 0.6501,
      "mean_token_accuracy": 0.7897692322731018,
      "num_tokens": 73318105.0,
      "step": 1119
    },
    {
      "epoch": 0.14803066349458102,
      "grad_norm": 0.8671622756479657,
      "learning_rate": 9.93737858276754e-06,
      "loss": 0.6777,
      "mean_token_accuracy": 0.7850689888000488,
      "num_tokens": 73383641.0,
      "step": 1120
    },
    {
      "epoch": 0.14816283372984404,
      "grad_norm": 0.9859404621275468,
      "learning_rate": 9.937032940451665e-06,
      "loss": 0.7012,
      "mean_token_accuracy": 0.7732419967651367,
      "num_tokens": 73449177.0,
      "step": 1121
    },
    {
      "epoch": 0.14829500396510706,
      "grad_norm": 0.9443533478969246,
      "learning_rate": 9.936686353584115e-06,
      "loss": 0.67,
      "mean_token_accuracy": 0.7849316596984863,
      "num_tokens": 73514713.0,
      "step": 1122
    },
    {
      "epoch": 0.14842717420037008,
      "grad_norm": 0.8488910261759884,
      "learning_rate": 9.936338822238669e-06,
      "loss": 0.6817,
      "mean_token_accuracy": 0.7821389436721802,
      "num_tokens": 73580249.0,
      "step": 1123
    },
    {
      "epoch": 0.1485593444356331,
      "grad_norm": 1.075368144847345,
      "learning_rate": 9.935990346489315e-06,
      "loss": 0.6829,
      "mean_token_accuracy": 0.7797430157661438,
      "num_tokens": 73645785.0,
      "step": 1124
    },
    {
      "epoch": 0.1486915146708961,
      "grad_norm": 0.9152910139642173,
      "learning_rate": 9.93564092641023e-06,
      "loss": 0.6714,
      "mean_token_accuracy": 0.7861982583999634,
      "num_tokens": 73711321.0,
      "step": 1125
    },
    {
      "epoch": 0.14882368490615913,
      "grad_norm": 0.8775265267873539,
      "learning_rate": 9.935290562075803e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7994139790534973,
      "num_tokens": 73776857.0,
      "step": 1126
    },
    {
      "epoch": 0.14895585514142215,
      "grad_norm": 1.0473585944196988,
      "learning_rate": 9.934939253560618e-06,
      "loss": 0.7172,
      "mean_token_accuracy": 0.7704492807388306,
      "num_tokens": 73842393.0,
      "step": 1127
    },
    {
      "epoch": 0.14908802537668517,
      "grad_norm": 1.0932646096042495,
      "learning_rate": 9.93458700093946e-06,
      "loss": 0.6736,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 73907929.0,
      "step": 1128
    },
    {
      "epoch": 0.1492201956119482,
      "grad_norm": 1.0471250377043435,
      "learning_rate": 9.934233804287317e-06,
      "loss": 0.7085,
      "mean_token_accuracy": 0.774737536907196,
      "num_tokens": 73973465.0,
      "step": 1129
    },
    {
      "epoch": 0.1493523658472112,
      "grad_norm": 0.9503237862489462,
      "learning_rate": 9.933879663679378e-06,
      "loss": 0.6919,
      "mean_token_accuracy": 0.778079628944397,
      "num_tokens": 74039001.0,
      "step": 1130
    },
    {
      "epoch": 0.14948453608247422,
      "grad_norm": 0.9284450141417617,
      "learning_rate": 9.933524579191029e-06,
      "loss": 0.7235,
      "mean_token_accuracy": 0.7681601643562317,
      "num_tokens": 74104537.0,
      "step": 1131
    },
    {
      "epoch": 0.14961670631773724,
      "grad_norm": 0.9195764956867251,
      "learning_rate": 9.933168550897865e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.7896013855934143,
      "num_tokens": 74170073.0,
      "step": 1132
    },
    {
      "epoch": 0.14974887655300026,
      "grad_norm": 0.9265434447544788,
      "learning_rate": 9.932811578875673e-06,
      "loss": 0.6508,
      "mean_token_accuracy": 0.7902728319168091,
      "num_tokens": 74235609.0,
      "step": 1133
    },
    {
      "epoch": 0.14988104678826328,
      "grad_norm": 0.9716520964618579,
      "learning_rate": 9.932453663200446e-06,
      "loss": 0.759,
      "mean_token_accuracy": 0.7608503103256226,
      "num_tokens": 74301145.0,
      "step": 1134
    },
    {
      "epoch": 0.1500132170235263,
      "grad_norm": 0.9107597198686291,
      "learning_rate": 9.932094803948379e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.7987120151519775,
      "num_tokens": 74366681.0,
      "step": 1135
    },
    {
      "epoch": 0.15014538725878931,
      "grad_norm": 0.8661413514356903,
      "learning_rate": 9.931735001195862e-06,
      "loss": 0.6647,
      "mean_token_accuracy": 0.7870070934295654,
      "num_tokens": 74432217.0,
      "step": 1136
    },
    {
      "epoch": 0.15027755749405233,
      "grad_norm": 0.8737401580557701,
      "learning_rate": 9.931374255019493e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.8045110702514648,
      "num_tokens": 74497753.0,
      "step": 1137
    },
    {
      "epoch": 0.15040972772931535,
      "grad_norm": 1.2897952600455251,
      "learning_rate": 9.931012565496065e-06,
      "loss": 0.6978,
      "mean_token_accuracy": 0.7770571112632751,
      "num_tokens": 74563289.0,
      "step": 1138
    },
    {
      "epoch": 0.15054189796457837,
      "grad_norm": 0.9774119286026643,
      "learning_rate": 9.930649932702573e-06,
      "loss": 0.6488,
      "mean_token_accuracy": 0.7904102206230164,
      "num_tokens": 74628825.0,
      "step": 1139
    },
    {
      "epoch": 0.1506740681998414,
      "grad_norm": 1.063288191490499,
      "learning_rate": 9.930286356716217e-06,
      "loss": 0.6998,
      "mean_token_accuracy": 0.7717006206512451,
      "num_tokens": 74694361.0,
      "step": 1140
    },
    {
      "epoch": 0.1508062384351044,
      "grad_norm": 0.9619404741463552,
      "learning_rate": 9.929921837614392e-06,
      "loss": 0.7164,
      "mean_token_accuracy": 0.7723568677902222,
      "num_tokens": 74759897.0,
      "step": 1141
    },
    {
      "epoch": 0.15093840867036742,
      "grad_norm": 1.0050478743753513,
      "learning_rate": 9.9295563754747e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.7974453568458557,
      "num_tokens": 74825433.0,
      "step": 1142
    },
    {
      "epoch": 0.15107057890563044,
      "grad_norm": 0.9365515582355503,
      "learning_rate": 9.929189970374935e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.78819739818573,
      "num_tokens": 74890969.0,
      "step": 1143
    },
    {
      "epoch": 0.15120274914089346,
      "grad_norm": 0.9393418080789252,
      "learning_rate": 9.928822622393104e-06,
      "loss": 0.6762,
      "mean_token_accuracy": 0.7843669652938843,
      "num_tokens": 74956505.0,
      "step": 1144
    },
    {
      "epoch": 0.15133491937615648,
      "grad_norm": 0.9762670350296174,
      "learning_rate": 9.928454331607403e-06,
      "loss": 0.6987,
      "mean_token_accuracy": 0.775073230266571,
      "num_tokens": 75022041.0,
      "step": 1145
    },
    {
      "epoch": 0.1514670896114195,
      "grad_norm": 0.946611930293099,
      "learning_rate": 9.928085098096232e-06,
      "loss": 0.6515,
      "mean_token_accuracy": 0.7925161719322205,
      "num_tokens": 75087577.0,
      "step": 1146
    },
    {
      "epoch": 0.15159925984668252,
      "grad_norm": 1.1250556994894747,
      "learning_rate": 9.927714921938197e-06,
      "loss": 0.6801,
      "mean_token_accuracy": 0.7830393314361572,
      "num_tokens": 75153113.0,
      "step": 1147
    },
    {
      "epoch": 0.15173143008194553,
      "grad_norm": 0.9054581262689795,
      "learning_rate": 9.927343803212099e-06,
      "loss": 0.6008,
      "mean_token_accuracy": 0.8059760928153992,
      "num_tokens": 75218649.0,
      "step": 1148
    },
    {
      "epoch": 0.15186360031720855,
      "grad_norm": 1.033619247545382,
      "learning_rate": 9.92697174199694e-06,
      "loss": 0.6993,
      "mean_token_accuracy": 0.7759431004524231,
      "num_tokens": 75284185.0,
      "step": 1149
    },
    {
      "epoch": 0.15199577055247157,
      "grad_norm": 0.8847812361215461,
      "learning_rate": 9.926598738371927e-06,
      "loss": 0.69,
      "mean_token_accuracy": 0.7801703214645386,
      "num_tokens": 75349721.0,
      "step": 1150
    },
    {
      "epoch": 0.1521279407877346,
      "grad_norm": 0.987622181418002,
      "learning_rate": 9.926224792416465e-06,
      "loss": 0.7021,
      "mean_token_accuracy": 0.7757294774055481,
      "num_tokens": 75415257.0,
      "step": 1151
    },
    {
      "epoch": 0.1522601110229976,
      "grad_norm": 1.03148460017212,
      "learning_rate": 9.925849904210154e-06,
      "loss": 0.6811,
      "mean_token_accuracy": 0.7818642258644104,
      "num_tokens": 75480793.0,
      "step": 1152
    },
    {
      "epoch": 0.15239228125826065,
      "grad_norm": 0.9532651715463231,
      "learning_rate": 9.925474073832807e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.788975715637207,
      "num_tokens": 75546329.0,
      "step": 1153
    },
    {
      "epoch": 0.15252445149352367,
      "grad_norm": 0.895857411971557,
      "learning_rate": 9.925097301364425e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.789250373840332,
      "num_tokens": 75611865.0,
      "step": 1154
    },
    {
      "epoch": 0.1526566217287867,
      "grad_norm": 0.8795835598156908,
      "learning_rate": 9.924719586885216e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.8010163307189941,
      "num_tokens": 75677401.0,
      "step": 1155
    },
    {
      "epoch": 0.1527887919640497,
      "grad_norm": 0.9788247130207582,
      "learning_rate": 9.924340930475591e-06,
      "loss": 0.6839,
      "mean_token_accuracy": 0.7808875441551208,
      "num_tokens": 75742937.0,
      "step": 1156
    },
    {
      "epoch": 0.15292096219931273,
      "grad_norm": 0.899389872614553,
      "learning_rate": 9.923961332216154e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.7899981737136841,
      "num_tokens": 75808473.0,
      "step": 1157
    },
    {
      "epoch": 0.15305313243457574,
      "grad_norm": 0.8616069921870672,
      "learning_rate": 9.923580792187714e-06,
      "loss": 0.6311,
      "mean_token_accuracy": 0.8009095191955566,
      "num_tokens": 75874009.0,
      "step": 1158
    },
    {
      "epoch": 0.15318530266983876,
      "grad_norm": 1.0889486729331206,
      "learning_rate": 9.923199310471284e-06,
      "loss": 0.7136,
      "mean_token_accuracy": 0.7716395854949951,
      "num_tokens": 75939545.0,
      "step": 1159
    },
    {
      "epoch": 0.15331747290510178,
      "grad_norm": 0.898305466001605,
      "learning_rate": 9.922816887148068e-06,
      "loss": 0.6677,
      "mean_token_accuracy": 0.7885484099388123,
      "num_tokens": 76005081.0,
      "step": 1160
    },
    {
      "epoch": 0.1534496431403648,
      "grad_norm": 0.8368443441672713,
      "learning_rate": 9.92243352229948e-06,
      "loss": 0.6906,
      "mean_token_accuracy": 0.7819710373878479,
      "num_tokens": 76070617.0,
      "step": 1161
    },
    {
      "epoch": 0.15358181337562782,
      "grad_norm": 0.8557533758249913,
      "learning_rate": 9.922049216007128e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7960566282272339,
      "num_tokens": 76136153.0,
      "step": 1162
    },
    {
      "epoch": 0.15371398361089084,
      "grad_norm": 1.0285949479040217,
      "learning_rate": 9.921663968352825e-06,
      "loss": 0.7183,
      "mean_token_accuracy": 0.7716090679168701,
      "num_tokens": 76201689.0,
      "step": 1163
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 0.9140787859216385,
      "learning_rate": 9.92127777941858e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7895861268043518,
      "num_tokens": 76267225.0,
      "step": 1164
    },
    {
      "epoch": 0.15397832408141687,
      "grad_norm": 0.9120412807153789,
      "learning_rate": 9.920890649286603e-06,
      "loss": 0.6374,
      "mean_token_accuracy": 0.7966518402099609,
      "num_tokens": 76332761.0,
      "step": 1165
    },
    {
      "epoch": 0.1541104943166799,
      "grad_norm": 0.966162616578369,
      "learning_rate": 9.920502578039312e-06,
      "loss": 0.6558,
      "mean_token_accuracy": 0.7887162566184998,
      "num_tokens": 76398297.0,
      "step": 1166
    },
    {
      "epoch": 0.1542426645519429,
      "grad_norm": 0.8410943956558941,
      "learning_rate": 9.920113565759313e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.8186119198799133,
      "num_tokens": 76463833.0,
      "step": 1167
    },
    {
      "epoch": 0.15437483478720593,
      "grad_norm": 1.0633779453668328,
      "learning_rate": 9.919723612529423e-06,
      "loss": 0.6813,
      "mean_token_accuracy": 0.7820626497268677,
      "num_tokens": 76529369.0,
      "step": 1168
    },
    {
      "epoch": 0.15450700502246895,
      "grad_norm": 1.0308604268997452,
      "learning_rate": 9.919332718432652e-06,
      "loss": 0.6789,
      "mean_token_accuracy": 0.7790104746818542,
      "num_tokens": 76594905.0,
      "step": 1169
    },
    {
      "epoch": 0.15463917525773196,
      "grad_norm": 0.8693764579217933,
      "learning_rate": 9.918940883552216e-06,
      "loss": 0.6351,
      "mean_token_accuracy": 0.7956904172897339,
      "num_tokens": 76660441.0,
      "step": 1170
    },
    {
      "epoch": 0.15477134549299498,
      "grad_norm": 0.9690846698839317,
      "learning_rate": 9.918548107971525e-06,
      "loss": 0.7109,
      "mean_token_accuracy": 0.7728604674339294,
      "num_tokens": 76725977.0,
      "step": 1171
    },
    {
      "epoch": 0.154903515728258,
      "grad_norm": 0.9514476359059755,
      "learning_rate": 9.918154391774194e-06,
      "loss": 0.6714,
      "mean_token_accuracy": 0.7823678255081177,
      "num_tokens": 76791513.0,
      "step": 1172
    },
    {
      "epoch": 0.15503568596352102,
      "grad_norm": 0.8787515564126637,
      "learning_rate": 9.917759735044038e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.8056708574295044,
      "num_tokens": 76857049.0,
      "step": 1173
    },
    {
      "epoch": 0.15516785619878404,
      "grad_norm": 0.9486633748824271,
      "learning_rate": 9.917364137865072e-06,
      "loss": 0.694,
      "mean_token_accuracy": 0.7806739211082458,
      "num_tokens": 76922585.0,
      "step": 1174
    },
    {
      "epoch": 0.15530002643404706,
      "grad_norm": 0.9045819019807799,
      "learning_rate": 9.916967600321506e-06,
      "loss": 0.6958,
      "mean_token_accuracy": 0.7804449796676636,
      "num_tokens": 76988121.0,
      "step": 1175
    },
    {
      "epoch": 0.15543219666931007,
      "grad_norm": 0.8842170142209329,
      "learning_rate": 9.91657012249776e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7945458292961121,
      "num_tokens": 77053657.0,
      "step": 1176
    },
    {
      "epoch": 0.1555643669045731,
      "grad_norm": 0.9060609406726621,
      "learning_rate": 9.916171704478445e-06,
      "loss": 0.6569,
      "mean_token_accuracy": 0.788823127746582,
      "num_tokens": 77119193.0,
      "step": 1177
    },
    {
      "epoch": 0.1556965371398361,
      "grad_norm": 0.9474565314583847,
      "learning_rate": 9.915772346348378e-06,
      "loss": 0.7216,
      "mean_token_accuracy": 0.7709833979606628,
      "num_tokens": 77184729.0,
      "step": 1178
    },
    {
      "epoch": 0.15582870737509913,
      "grad_norm": 0.9431042735008638,
      "learning_rate": 9.915372048192573e-06,
      "loss": 0.7101,
      "mean_token_accuracy": 0.7718074917793274,
      "num_tokens": 77250265.0,
      "step": 1179
    },
    {
      "epoch": 0.15596087761036215,
      "grad_norm": 0.8481946039158941,
      "learning_rate": 9.914970810096245e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.8050146698951721,
      "num_tokens": 77315801.0,
      "step": 1180
    },
    {
      "epoch": 0.15609304784562517,
      "grad_norm": 0.9256076392534206,
      "learning_rate": 9.91456863214481e-06,
      "loss": 0.694,
      "mean_token_accuracy": 0.778171181678772,
      "num_tokens": 77381337.0,
      "step": 1181
    },
    {
      "epoch": 0.15622521808088818,
      "grad_norm": 0.9198135619918268,
      "learning_rate": 9.914165514423881e-06,
      "loss": 0.6821,
      "mean_token_accuracy": 0.7819710373878479,
      "num_tokens": 77446873.0,
      "step": 1182
    },
    {
      "epoch": 0.1563573883161512,
      "grad_norm": 0.8743815188758204,
      "learning_rate": 9.913761457019276e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7915700078010559,
      "num_tokens": 77512409.0,
      "step": 1183
    },
    {
      "epoch": 0.15648955855141422,
      "grad_norm": 0.8816638499066038,
      "learning_rate": 9.91335646001701e-06,
      "loss": 0.6785,
      "mean_token_accuracy": 0.7819405198097229,
      "num_tokens": 77577945.0,
      "step": 1184
    },
    {
      "epoch": 0.15662172878667724,
      "grad_norm": 1.0084161914729342,
      "learning_rate": 9.912950523503298e-06,
      "loss": 0.7162,
      "mean_token_accuracy": 0.7701135277748108,
      "num_tokens": 77643481.0,
      "step": 1185
    },
    {
      "epoch": 0.15675389902194026,
      "grad_norm": 0.9235780220735706,
      "learning_rate": 9.912543647564555e-06,
      "loss": 0.6421,
      "mean_token_accuracy": 0.7934470772743225,
      "num_tokens": 77709017.0,
      "step": 1186
    },
    {
      "epoch": 0.15688606925720328,
      "grad_norm": 0.8676808488248516,
      "learning_rate": 9.912135832287396e-06,
      "loss": 0.6806,
      "mean_token_accuracy": 0.7838481068611145,
      "num_tokens": 77774553.0,
      "step": 1187
    },
    {
      "epoch": 0.1570182394924663,
      "grad_norm": 0.9429710325562722,
      "learning_rate": 9.91172707775864e-06,
      "loss": 0.655,
      "mean_token_accuracy": 0.7891435623168945,
      "num_tokens": 77840089.0,
      "step": 1188
    },
    {
      "epoch": 0.1571504097277293,
      "grad_norm": 0.8704267682848033,
      "learning_rate": 9.911317384065297e-06,
      "loss": 0.6624,
      "mean_token_accuracy": 0.7931418418884277,
      "num_tokens": 77905625.0,
      "step": 1189
    },
    {
      "epoch": 0.15728257996299233,
      "grad_norm": 0.9136358102079282,
      "learning_rate": 9.910906751294585e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7821694612503052,
      "num_tokens": 77971161.0,
      "step": 1190
    },
    {
      "epoch": 0.15741475019825535,
      "grad_norm": 0.893623590648476,
      "learning_rate": 9.91049517953392e-06,
      "loss": 0.6628,
      "mean_token_accuracy": 0.7857862114906311,
      "num_tokens": 78036697.0,
      "step": 1191
    },
    {
      "epoch": 0.15754692043351837,
      "grad_norm": 0.8212530188017377,
      "learning_rate": 9.910082668870915e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.8056250810623169,
      "num_tokens": 78102233.0,
      "step": 1192
    },
    {
      "epoch": 0.15767909066878139,
      "grad_norm": 0.9769688540562474,
      "learning_rate": 9.909669219393383e-06,
      "loss": 0.653,
      "mean_token_accuracy": 0.7928366661071777,
      "num_tokens": 78167769.0,
      "step": 1193
    },
    {
      "epoch": 0.1578112609040444,
      "grad_norm": 0.8642823273011028,
      "learning_rate": 9.909254831189344e-06,
      "loss": 0.6831,
      "mean_token_accuracy": 0.7817116379737854,
      "num_tokens": 78233305.0,
      "step": 1194
    },
    {
      "epoch": 0.15794343113930742,
      "grad_norm": 0.9935799202482417,
      "learning_rate": 9.90883950434701e-06,
      "loss": 0.6954,
      "mean_token_accuracy": 0.7779269814491272,
      "num_tokens": 78298841.0,
      "step": 1195
    },
    {
      "epoch": 0.15807560137457044,
      "grad_norm": 0.9545068757485078,
      "learning_rate": 9.908423238954796e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7945458292961121,
      "num_tokens": 78364377.0,
      "step": 1196
    },
    {
      "epoch": 0.15820777160983346,
      "grad_norm": 0.8946062641116954,
      "learning_rate": 9.908006035101313e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7983762621879578,
      "num_tokens": 78429913.0,
      "step": 1197
    },
    {
      "epoch": 0.15833994184509648,
      "grad_norm": 0.9120656456796986,
      "learning_rate": 9.90758789287538e-06,
      "loss": 0.617,
      "mean_token_accuracy": 0.8047739267349243,
      "num_tokens": 78494103.0,
      "step": 1198
    },
    {
      "epoch": 0.1584721120803595,
      "grad_norm": 0.9994974718951292,
      "learning_rate": 9.907168812366008e-06,
      "loss": 0.6292,
      "mean_token_accuracy": 0.7960413694381714,
      "num_tokens": 78559639.0,
      "step": 1199
    },
    {
      "epoch": 0.1586042823156225,
      "grad_norm": 1.1030041706797222,
      "learning_rate": 9.906748793662412e-06,
      "loss": 0.6913,
      "mean_token_accuracy": 0.7772097587585449,
      "num_tokens": 78625175.0,
      "step": 1200
    },
    {
      "epoch": 0.15873645255088553,
      "grad_norm": 0.9840862447824148,
      "learning_rate": 9.906327836854002e-06,
      "loss": 0.671,
      "mean_token_accuracy": 0.7847484946250916,
      "num_tokens": 78690711.0,
      "step": 1201
    },
    {
      "epoch": 0.15886862278614855,
      "grad_norm": 0.9286744209744534,
      "learning_rate": 9.905905942030394e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8042210936546326,
      "num_tokens": 78756247.0,
      "step": 1202
    },
    {
      "epoch": 0.15900079302141157,
      "grad_norm": 0.9676816185046337,
      "learning_rate": 9.9054831092814e-06,
      "loss": 0.6263,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 78821783.0,
      "step": 1203
    },
    {
      "epoch": 0.1591329632566746,
      "grad_norm": 0.9998497109909211,
      "learning_rate": 9.905059338697031e-06,
      "loss": 0.6939,
      "mean_token_accuracy": 0.7792699337005615,
      "num_tokens": 78887319.0,
      "step": 1204
    },
    {
      "epoch": 0.1592651334919376,
      "grad_norm": 1.1193031834118379,
      "learning_rate": 9.9046346303675e-06,
      "loss": 0.6871,
      "mean_token_accuracy": 0.7806891798973083,
      "num_tokens": 78952855.0,
      "step": 1205
    },
    {
      "epoch": 0.15939730372720062,
      "grad_norm": 0.9362426436458505,
      "learning_rate": 9.904208984383218e-06,
      "loss": 0.6415,
      "mean_token_accuracy": 0.7930045127868652,
      "num_tokens": 79018391.0,
      "step": 1206
    },
    {
      "epoch": 0.15952947396246364,
      "grad_norm": 0.9408356248486869,
      "learning_rate": 9.903782400834799e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.8049230575561523,
      "num_tokens": 79083927.0,
      "step": 1207
    },
    {
      "epoch": 0.15966164419772666,
      "grad_norm": 0.9174871717190558,
      "learning_rate": 9.90335487981305e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7955988049507141,
      "num_tokens": 79149463.0,
      "step": 1208
    },
    {
      "epoch": 0.15979381443298968,
      "grad_norm": 1.1256232969742122,
      "learning_rate": 9.902926421408979e-06,
      "loss": 0.6483,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 79214999.0,
      "step": 1209
    },
    {
      "epoch": 0.1599259846682527,
      "grad_norm": 0.9364421010879062,
      "learning_rate": 9.902497025713803e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8080667853355408,
      "num_tokens": 79280535.0,
      "step": 1210
    },
    {
      "epoch": 0.16005815490351571,
      "grad_norm": 0.9455608865770978,
      "learning_rate": 9.902066692818929e-06,
      "loss": 0.6428,
      "mean_token_accuracy": 0.7956904172897339,
      "num_tokens": 79346071.0,
      "step": 1211
    },
    {
      "epoch": 0.16019032513877876,
      "grad_norm": 0.8191576689163846,
      "learning_rate": 9.901635422815961e-06,
      "loss": 0.6611,
      "mean_token_accuracy": 0.7897844910621643,
      "num_tokens": 79411607.0,
      "step": 1212
    },
    {
      "epoch": 0.16032249537404178,
      "grad_norm": 0.9720608633502831,
      "learning_rate": 9.901203215796711e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.787922739982605,
      "num_tokens": 79477143.0,
      "step": 1213
    },
    {
      "epoch": 0.1604546656093048,
      "grad_norm": 0.8900243386984109,
      "learning_rate": 9.90077007185319e-06,
      "loss": 0.6474,
      "mean_token_accuracy": 0.7932028770446777,
      "num_tokens": 79542679.0,
      "step": 1214
    },
    {
      "epoch": 0.16058683584456782,
      "grad_norm": 0.9347260902616729,
      "learning_rate": 9.9003359910776e-06,
      "loss": 0.6593,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 79608215.0,
      "step": 1215
    },
    {
      "epoch": 0.16071900607983083,
      "grad_norm": 0.8711783208408314,
      "learning_rate": 9.899900973562351e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.8028934001922607,
      "num_tokens": 79673751.0,
      "step": 1216
    },
    {
      "epoch": 0.16085117631509385,
      "grad_norm": 0.9648024794303179,
      "learning_rate": 9.899465019400048e-06,
      "loss": 0.6308,
      "mean_token_accuracy": 0.798071026802063,
      "num_tokens": 79739287.0,
      "step": 1217
    },
    {
      "epoch": 0.16098334655035687,
      "grad_norm": 0.9763297406209126,
      "learning_rate": 9.899028128683496e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7982847094535828,
      "num_tokens": 79804823.0,
      "step": 1218
    },
    {
      "epoch": 0.1611155167856199,
      "grad_norm": 0.8579891697349534,
      "learning_rate": 9.8985903015057e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7906848788261414,
      "num_tokens": 79870359.0,
      "step": 1219
    },
    {
      "epoch": 0.1612476870208829,
      "grad_norm": 0.9176485030936076,
      "learning_rate": 9.898151537959866e-06,
      "loss": 0.6517,
      "mean_token_accuracy": 0.7908833026885986,
      "num_tokens": 79935895.0,
      "step": 1220
    },
    {
      "epoch": 0.16137985725614593,
      "grad_norm": 0.9368885006627146,
      "learning_rate": 9.897711838139396e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 80001431.0,
      "step": 1221
    },
    {
      "epoch": 0.16151202749140894,
      "grad_norm": 0.9993551892374481,
      "learning_rate": 9.897271202137892e-06,
      "loss": 0.6643,
      "mean_token_accuracy": 0.7873581051826477,
      "num_tokens": 80066967.0,
      "step": 1222
    },
    {
      "epoch": 0.16164419772667196,
      "grad_norm": 0.8133803806447244,
      "learning_rate": 9.89682963004916e-06,
      "loss": 0.6438,
      "mean_token_accuracy": 0.7959040403366089,
      "num_tokens": 80132503.0,
      "step": 1223
    },
    {
      "epoch": 0.16177636796193498,
      "grad_norm": 0.8907991277509718,
      "learning_rate": 9.896387121967196e-06,
      "loss": 0.707,
      "mean_token_accuracy": 0.7744780778884888,
      "num_tokens": 80198039.0,
      "step": 1224
    },
    {
      "epoch": 0.161908538197198,
      "grad_norm": 0.9290537368066726,
      "learning_rate": 9.895943677986207e-06,
      "loss": 0.6985,
      "mean_token_accuracy": 0.7789341807365417,
      "num_tokens": 80263575.0,
      "step": 1225
    },
    {
      "epoch": 0.16204070843246102,
      "grad_norm": 0.839735689753056,
      "learning_rate": 9.895499298200588e-06,
      "loss": 0.6611,
      "mean_token_accuracy": 0.7907153964042664,
      "num_tokens": 80329111.0,
      "step": 1226
    },
    {
      "epoch": 0.16217287866772404,
      "grad_norm": 0.9506271433798448,
      "learning_rate": 9.895053982704938e-06,
      "loss": 0.7258,
      "mean_token_accuracy": 0.7698693871498108,
      "num_tokens": 80394647.0,
      "step": 1227
    },
    {
      "epoch": 0.16230504890298705,
      "grad_norm": 0.9558424543945652,
      "learning_rate": 9.894607731594058e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.7882126569747925,
      "num_tokens": 80460183.0,
      "step": 1228
    },
    {
      "epoch": 0.16243721913825007,
      "grad_norm": 0.9397506140671511,
      "learning_rate": 9.894160544962946e-06,
      "loss": 0.6587,
      "mean_token_accuracy": 0.7902117967605591,
      "num_tokens": 80525719.0,
      "step": 1229
    },
    {
      "epoch": 0.1625693893735131,
      "grad_norm": 0.9055123233634069,
      "learning_rate": 9.893712422906797e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7895556092262268,
      "num_tokens": 80591255.0,
      "step": 1230
    },
    {
      "epoch": 0.1627015596087761,
      "grad_norm": 0.8879108363965126,
      "learning_rate": 9.893263365521008e-06,
      "loss": 0.6809,
      "mean_token_accuracy": 0.7809638381004333,
      "num_tokens": 80656791.0,
      "step": 1231
    },
    {
      "epoch": 0.16283372984403913,
      "grad_norm": 0.9792412526000229,
      "learning_rate": 9.892813372901173e-06,
      "loss": 0.7307,
      "mean_token_accuracy": 0.7653064131736755,
      "num_tokens": 80722327.0,
      "step": 1232
    },
    {
      "epoch": 0.16296590007930215,
      "grad_norm": 0.87612075225771,
      "learning_rate": 9.892362445143086e-06,
      "loss": 0.6816,
      "mean_token_accuracy": 0.783558189868927,
      "num_tokens": 80787863.0,
      "step": 1233
    },
    {
      "epoch": 0.16309807031456516,
      "grad_norm": 0.893255338015196,
      "learning_rate": 9.891910582342739e-06,
      "loss": 0.6446,
      "mean_token_accuracy": 0.792500913143158,
      "num_tokens": 80853399.0,
      "step": 1234
    },
    {
      "epoch": 0.16323024054982818,
      "grad_norm": 0.8643788800073087,
      "learning_rate": 9.891457784596327e-06,
      "loss": 0.6527,
      "mean_token_accuracy": 0.7900744676589966,
      "num_tokens": 80918935.0,
      "step": 1235
    },
    {
      "epoch": 0.1633624107850912,
      "grad_norm": 0.9495119992089435,
      "learning_rate": 9.891004052000239e-06,
      "loss": 0.6869,
      "mean_token_accuracy": 0.7806281447410583,
      "num_tokens": 80984471.0,
      "step": 1236
    },
    {
      "epoch": 0.16349458102035422,
      "grad_norm": 0.8849969095518591,
      "learning_rate": 9.890549384651067e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.7983152270317078,
      "num_tokens": 81050007.0,
      "step": 1237
    },
    {
      "epoch": 0.16362675125561724,
      "grad_norm": 0.9385893344106662,
      "learning_rate": 9.890093782645598e-06,
      "loss": 0.6627,
      "mean_token_accuracy": 0.7846264243125916,
      "num_tokens": 81115543.0,
      "step": 1238
    },
    {
      "epoch": 0.16375892149088025,
      "grad_norm": 0.9565969955380248,
      "learning_rate": 9.88963724608082e-06,
      "loss": 0.6721,
      "mean_token_accuracy": 0.783558189868927,
      "num_tokens": 81181079.0,
      "step": 1239
    },
    {
      "epoch": 0.16389109172614327,
      "grad_norm": 1.0093918455951816,
      "learning_rate": 9.889179775053925e-06,
      "loss": 0.654,
      "mean_token_accuracy": 0.7885636687278748,
      "num_tokens": 81246615.0,
      "step": 1240
    },
    {
      "epoch": 0.1640232619614063,
      "grad_norm": 0.9557635762195118,
      "learning_rate": 9.888721369662293e-06,
      "loss": 0.6358,
      "mean_token_accuracy": 0.7952478528022766,
      "num_tokens": 81312151.0,
      "step": 1241
    },
    {
      "epoch": 0.1641554321966693,
      "grad_norm": 0.9165506551092701,
      "learning_rate": 9.888262030003512e-06,
      "loss": 0.6441,
      "mean_token_accuracy": 0.7942101359367371,
      "num_tokens": 81377687.0,
      "step": 1242
    },
    {
      "epoch": 0.16428760243193233,
      "grad_norm": 1.0323300392190096,
      "learning_rate": 9.887801756175365e-06,
      "loss": 0.7344,
      "mean_token_accuracy": 0.7665120363235474,
      "num_tokens": 81443223.0,
      "step": 1243
    },
    {
      "epoch": 0.16441977266719535,
      "grad_norm": 0.9977001976903689,
      "learning_rate": 9.887340548275833e-06,
      "loss": 0.6954,
      "mean_token_accuracy": 0.7763246297836304,
      "num_tokens": 81508759.0,
      "step": 1244
    },
    {
      "epoch": 0.16455194290245836,
      "grad_norm": 1.1429945831891475,
      "learning_rate": 9.886878406403101e-06,
      "loss": 0.7449,
      "mean_token_accuracy": 0.7609266042709351,
      "num_tokens": 81574295.0,
      "step": 1245
    },
    {
      "epoch": 0.16468411313772138,
      "grad_norm": 0.9392456901563346,
      "learning_rate": 9.886415330655547e-06,
      "loss": 0.7212,
      "mean_token_accuracy": 0.7704340219497681,
      "num_tokens": 81639831.0,
      "step": 1246
    },
    {
      "epoch": 0.1648162833729844,
      "grad_norm": 0.9047333757801315,
      "learning_rate": 9.885951321131752e-06,
      "loss": 0.6963,
      "mean_token_accuracy": 0.7772555351257324,
      "num_tokens": 81705367.0,
      "step": 1247
    },
    {
      "epoch": 0.16494845360824742,
      "grad_norm": 0.9488332812076795,
      "learning_rate": 9.885486377930492e-06,
      "loss": 0.69,
      "mean_token_accuracy": 0.7774538993835449,
      "num_tokens": 81770903.0,
      "step": 1248
    },
    {
      "epoch": 0.16508062384351044,
      "grad_norm": 0.9190988383465787,
      "learning_rate": 9.885020501150746e-06,
      "loss": 0.6379,
      "mean_token_accuracy": 0.7970333099365234,
      "num_tokens": 81836439.0,
      "step": 1249
    },
    {
      "epoch": 0.16521279407877346,
      "grad_norm": 0.9519558869659647,
      "learning_rate": 9.884553690891687e-06,
      "loss": 0.6604,
      "mean_token_accuracy": 0.7863050699234009,
      "num_tokens": 81901975.0,
      "step": 1250
    },
    {
      "epoch": 0.16534496431403647,
      "grad_norm": 0.912744701865262,
      "learning_rate": 9.884085947252688e-06,
      "loss": 0.6304,
      "mean_token_accuracy": 0.7949578762054443,
      "num_tokens": 81967511.0,
      "step": 1251
    },
    {
      "epoch": 0.1654771345492995,
      "grad_norm": 1.0527587168903114,
      "learning_rate": 9.883617270333326e-06,
      "loss": 0.6895,
      "mean_token_accuracy": 0.7782169580459595,
      "num_tokens": 82033047.0,
      "step": 1252
    },
    {
      "epoch": 0.1656093047845625,
      "grad_norm": 0.9696671126027039,
      "learning_rate": 9.88314766023337e-06,
      "loss": 0.7464,
      "mean_token_accuracy": 0.758942723274231,
      "num_tokens": 82098583.0,
      "step": 1253
    },
    {
      "epoch": 0.16574147501982553,
      "grad_norm": 0.9232313565697643,
      "learning_rate": 9.88267711705279e-06,
      "loss": 0.6241,
      "mean_token_accuracy": 0.7990171909332275,
      "num_tokens": 82164119.0,
      "step": 1254
    },
    {
      "epoch": 0.16587364525508855,
      "grad_norm": 0.9802605924957764,
      "learning_rate": 9.882205640891757e-06,
      "loss": 0.664,
      "mean_token_accuracy": 0.78831946849823,
      "num_tokens": 82229655.0,
      "step": 1255
    },
    {
      "epoch": 0.16600581549035157,
      "grad_norm": 0.9053292451273841,
      "learning_rate": 9.881733231850637e-06,
      "loss": 0.6041,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 82295191.0,
      "step": 1256
    },
    {
      "epoch": 0.16613798572561458,
      "grad_norm": 1.0035373494472681,
      "learning_rate": 9.881259890029996e-06,
      "loss": 0.6561,
      "mean_token_accuracy": 0.7924551367759705,
      "num_tokens": 82360727.0,
      "step": 1257
    },
    {
      "epoch": 0.1662701559608776,
      "grad_norm": 1.0034888422736006,
      "learning_rate": 9.880785615530597e-06,
      "loss": 0.6659,
      "mean_token_accuracy": 0.7878158688545227,
      "num_tokens": 82426263.0,
      "step": 1258
    },
    {
      "epoch": 0.16640232619614062,
      "grad_norm": 0.9677517373876307,
      "learning_rate": 9.880310408453405e-06,
      "loss": 0.705,
      "mean_token_accuracy": 0.7737608551979065,
      "num_tokens": 82491799.0,
      "step": 1259
    },
    {
      "epoch": 0.16653449643140364,
      "grad_norm": 0.9947021537524772,
      "learning_rate": 9.879834268899582e-06,
      "loss": 0.6498,
      "mean_token_accuracy": 0.792561948299408,
      "num_tokens": 82557335.0,
      "step": 1260
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.8263185837974127,
      "learning_rate": 9.879357196970488e-06,
      "loss": 0.6187,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 82622871.0,
      "step": 1261
    },
    {
      "epoch": 0.16679883690192968,
      "grad_norm": 0.9471726747300354,
      "learning_rate": 9.878879192767679e-06,
      "loss": 0.6819,
      "mean_token_accuracy": 0.7807654738426208,
      "num_tokens": 82688407.0,
      "step": 1262
    },
    {
      "epoch": 0.1669310071371927,
      "grad_norm": 1.004256583995644,
      "learning_rate": 9.878400256392916e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7911732196807861,
      "num_tokens": 82753943.0,
      "step": 1263
    },
    {
      "epoch": 0.1670631773724557,
      "grad_norm": 1.0124224653495666,
      "learning_rate": 9.877920387948153e-06,
      "loss": 0.6941,
      "mean_token_accuracy": 0.7801092863082886,
      "num_tokens": 82819479.0,
      "step": 1264
    },
    {
      "epoch": 0.16719534760771873,
      "grad_norm": 0.9384625722186272,
      "learning_rate": 9.877439587535542e-06,
      "loss": 0.6828,
      "mean_token_accuracy": 0.7808417677879333,
      "num_tokens": 82885015.0,
      "step": 1265
    },
    {
      "epoch": 0.16732751784298175,
      "grad_norm": 1.3284726082886855,
      "learning_rate": 9.876957855257438e-06,
      "loss": 0.6336,
      "mean_token_accuracy": 0.7945000529289246,
      "num_tokens": 82950551.0,
      "step": 1266
    },
    {
      "epoch": 0.16745968807824477,
      "grad_norm": 1.1432618966741628,
      "learning_rate": 9.876475191216391e-06,
      "loss": 0.6807,
      "mean_token_accuracy": 0.7848095297813416,
      "num_tokens": 83016087.0,
      "step": 1267
    },
    {
      "epoch": 0.16759185831350779,
      "grad_norm": 0.9579713169020756,
      "learning_rate": 9.875991595515152e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.7901965379714966,
      "num_tokens": 83081623.0,
      "step": 1268
    },
    {
      "epoch": 0.1677240285487708,
      "grad_norm": 0.8840167448007369,
      "learning_rate": 9.875507068256664e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.7960718870162964,
      "num_tokens": 83147159.0,
      "step": 1269
    },
    {
      "epoch": 0.16785619878403382,
      "grad_norm": 0.9785101933911587,
      "learning_rate": 9.875021609544076e-06,
      "loss": 0.6572,
      "mean_token_accuracy": 0.7894030213356018,
      "num_tokens": 83212695.0,
      "step": 1270
    },
    {
      "epoch": 0.16798836901929687,
      "grad_norm": 0.9360547107971098,
      "learning_rate": 9.874535219480732e-06,
      "loss": 0.6691,
      "mean_token_accuracy": 0.7847179770469666,
      "num_tokens": 83278231.0,
      "step": 1271
    },
    {
      "epoch": 0.1681205392545599,
      "grad_norm": 0.8591775776925492,
      "learning_rate": 9.874047898170172e-06,
      "loss": 0.6601,
      "mean_token_accuracy": 0.7881516218185425,
      "num_tokens": 83343767.0,
      "step": 1272
    },
    {
      "epoch": 0.1682527094898229,
      "grad_norm": 0.951815654511452,
      "learning_rate": 9.873559645716139e-06,
      "loss": 0.6638,
      "mean_token_accuracy": 0.7853894233703613,
      "num_tokens": 83409303.0,
      "step": 1273
    },
    {
      "epoch": 0.16838487972508592,
      "grad_norm": 0.8478201321180603,
      "learning_rate": 9.87307046222257e-06,
      "loss": 0.709,
      "mean_token_accuracy": 0.7753174304962158,
      "num_tokens": 83474839.0,
      "step": 1274
    },
    {
      "epoch": 0.16851704996034894,
      "grad_norm": 0.9871590583051391,
      "learning_rate": 9.872580347793603e-06,
      "loss": 0.6565,
      "mean_token_accuracy": 0.7881211042404175,
      "num_tokens": 83540375.0,
      "step": 1275
    },
    {
      "epoch": 0.16864922019561196,
      "grad_norm": 1.371591920062193,
      "learning_rate": 9.872089302533573e-06,
      "loss": 0.689,
      "mean_token_accuracy": 0.7803076505661011,
      "num_tokens": 83605911.0,
      "step": 1276
    },
    {
      "epoch": 0.16878139043087498,
      "grad_norm": 0.9825047881604158,
      "learning_rate": 9.871597326547014e-06,
      "loss": 0.6687,
      "mean_token_accuracy": 0.7852063179016113,
      "num_tokens": 83671447.0,
      "step": 1277
    },
    {
      "epoch": 0.168913560666138,
      "grad_norm": 1.082303823529906,
      "learning_rate": 9.871104419938656e-06,
      "loss": 0.6825,
      "mean_token_accuracy": 0.7801550626754761,
      "num_tokens": 83736983.0,
      "step": 1278
    },
    {
      "epoch": 0.16904573090140101,
      "grad_norm": 0.8640464693059535,
      "learning_rate": 9.870610582813429e-06,
      "loss": 0.5873,
      "mean_token_accuracy": 0.8119887709617615,
      "num_tokens": 83802519.0,
      "step": 1279
    },
    {
      "epoch": 0.16917790113666403,
      "grad_norm": 0.9624843124434719,
      "learning_rate": 9.87011581527646e-06,
      "loss": 0.6843,
      "mean_token_accuracy": 0.7796362042427063,
      "num_tokens": 83868055.0,
      "step": 1280
    },
    {
      "epoch": 0.16931007137192705,
      "grad_norm": 0.9300884183272228,
      "learning_rate": 9.869620117433076e-06,
      "loss": 0.6663,
      "mean_token_accuracy": 0.783710777759552,
      "num_tokens": 83933591.0,
      "step": 1281
    },
    {
      "epoch": 0.16944224160719007,
      "grad_norm": 0.936221849243793,
      "learning_rate": 9.869123489388801e-06,
      "loss": 0.6742,
      "mean_token_accuracy": 0.784763753414154,
      "num_tokens": 83999127.0,
      "step": 1282
    },
    {
      "epoch": 0.1695744118424531,
      "grad_norm": 0.9591014688156937,
      "learning_rate": 9.868625931249353e-06,
      "loss": 0.6892,
      "mean_token_accuracy": 0.7782169580459595,
      "num_tokens": 84064663.0,
      "step": 1283
    },
    {
      "epoch": 0.1697065820777161,
      "grad_norm": 0.9529369920554657,
      "learning_rate": 9.868127443120658e-06,
      "loss": 0.6812,
      "mean_token_accuracy": 0.7847484946250916,
      "num_tokens": 84130199.0,
      "step": 1284
    },
    {
      "epoch": 0.16983875231297912,
      "grad_norm": 0.9350907906406681,
      "learning_rate": 9.867628025108828e-06,
      "loss": 0.6657,
      "mean_token_accuracy": 0.7861219644546509,
      "num_tokens": 84195735.0,
      "step": 1285
    },
    {
      "epoch": 0.16997092254824214,
      "grad_norm": 0.9287949961913327,
      "learning_rate": 9.867127677320182e-06,
      "loss": 0.6644,
      "mean_token_accuracy": 0.7864271998405457,
      "num_tokens": 84261271.0,
      "step": 1286
    },
    {
      "epoch": 0.17010309278350516,
      "grad_norm": 0.9635621034614099,
      "learning_rate": 9.866626399861233e-06,
      "loss": 0.6639,
      "mean_token_accuracy": 0.7845653891563416,
      "num_tokens": 84326807.0,
      "step": 1287
    },
    {
      "epoch": 0.17023526301876818,
      "grad_norm": 0.9434038535120434,
      "learning_rate": 9.866124192838691e-06,
      "loss": 0.6489,
      "mean_token_accuracy": 0.7943016886711121,
      "num_tokens": 84392343.0,
      "step": 1288
    },
    {
      "epoch": 0.1703674332540312,
      "grad_norm": 1.1781475131187245,
      "learning_rate": 9.865621056359467e-06,
      "loss": 0.6941,
      "mean_token_accuracy": 0.7801092863082886,
      "num_tokens": 84457879.0,
      "step": 1289
    },
    {
      "epoch": 0.17049960348929422,
      "grad_norm": 0.8833479302523939,
      "learning_rate": 9.865116990530666e-06,
      "loss": 0.612,
      "mean_token_accuracy": 0.8043736815452576,
      "num_tokens": 84523415.0,
      "step": 1290
    },
    {
      "epoch": 0.17063177372455723,
      "grad_norm": 0.9871268129658752,
      "learning_rate": 9.864611995459597e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7953699231147766,
      "num_tokens": 84588951.0,
      "step": 1291
    },
    {
      "epoch": 0.17076394395982025,
      "grad_norm": 1.0910890040786683,
      "learning_rate": 9.864106071253759e-06,
      "loss": 0.6945,
      "mean_token_accuracy": 0.7795446515083313,
      "num_tokens": 84654487.0,
      "step": 1292
    },
    {
      "epoch": 0.17089611419508327,
      "grad_norm": 0.9139742840554016,
      "learning_rate": 9.863599218020857e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7972012162208557,
      "num_tokens": 84720023.0,
      "step": 1293
    },
    {
      "epoch": 0.1710282844303463,
      "grad_norm": 0.922275218360911,
      "learning_rate": 9.863091435868785e-06,
      "loss": 0.6824,
      "mean_token_accuracy": 0.7812690734863281,
      "num_tokens": 84785559.0,
      "step": 1294
    },
    {
      "epoch": 0.1711604546656093,
      "grad_norm": 0.8887213710499219,
      "learning_rate": 9.86258272490564e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.8017488718032837,
      "num_tokens": 84851095.0,
      "step": 1295
    },
    {
      "epoch": 0.17129262490087233,
      "grad_norm": 1.039124507481392,
      "learning_rate": 9.86207308523972e-06,
      "loss": 0.7356,
      "mean_token_accuracy": 0.7633988261222839,
      "num_tokens": 84916631.0,
      "step": 1296
    },
    {
      "epoch": 0.17142479513613534,
      "grad_norm": 0.8900941581491117,
      "learning_rate": 9.861562516979512e-06,
      "loss": 0.6431,
      "mean_token_accuracy": 0.7921041250228882,
      "num_tokens": 84982167.0,
      "step": 1297
    },
    {
      "epoch": 0.17155696537139836,
      "grad_norm": 0.8975754975217649,
      "learning_rate": 9.861051020233707e-06,
      "loss": 0.6413,
      "mean_token_accuracy": 0.7949120998382568,
      "num_tokens": 85047703.0,
      "step": 1298
    },
    {
      "epoch": 0.17168913560666138,
      "grad_norm": 1.0799519124563421,
      "learning_rate": 9.86053859511119e-06,
      "loss": 0.697,
      "mean_token_accuracy": 0.7729520201683044,
      "num_tokens": 85113239.0,
      "step": 1299
    },
    {
      "epoch": 0.1718213058419244,
      "grad_norm": 0.9641748201121061,
      "learning_rate": 9.86002524172105e-06,
      "loss": 0.6716,
      "mean_token_accuracy": 0.78789222240448,
      "num_tokens": 85178775.0,
      "step": 1300
    },
    {
      "epoch": 0.17195347607718742,
      "grad_norm": 0.8802971700761781,
      "learning_rate": 9.859510960172566e-06,
      "loss": 0.6319,
      "mean_token_accuracy": 0.7978421449661255,
      "num_tokens": 85244311.0,
      "step": 1301
    },
    {
      "epoch": 0.17208564631245044,
      "grad_norm": 0.8819053126711329,
      "learning_rate": 9.85899575057522e-06,
      "loss": 0.6862,
      "mean_token_accuracy": 0.7787815928459167,
      "num_tokens": 85309847.0,
      "step": 1302
    },
    {
      "epoch": 0.17221781654771345,
      "grad_norm": 0.9131809927097894,
      "learning_rate": 9.858479613038688e-06,
      "loss": 0.6142,
      "mean_token_accuracy": 0.8017946481704712,
      "num_tokens": 85375383.0,
      "step": 1303
    },
    {
      "epoch": 0.17234998678297647,
      "grad_norm": 1.0458234254847547,
      "learning_rate": 9.857962547672844e-06,
      "loss": 0.6661,
      "mean_token_accuracy": 0.783710777759552,
      "num_tokens": 85440919.0,
      "step": 1304
    },
    {
      "epoch": 0.1724821570182395,
      "grad_norm": 0.8982556181722628,
      "learning_rate": 9.85744455458776e-06,
      "loss": 0.6296,
      "mean_token_accuracy": 0.798818826675415,
      "num_tokens": 85506455.0,
      "step": 1305
    },
    {
      "epoch": 0.1726143272535025,
      "grad_norm": 1.0140451092015126,
      "learning_rate": 9.856925633893708e-06,
      "loss": 0.6362,
      "mean_token_accuracy": 0.7952478528022766,
      "num_tokens": 85571991.0,
      "step": 1306
    },
    {
      "epoch": 0.17274649748876553,
      "grad_norm": 0.9234142015921987,
      "learning_rate": 9.856405785701156e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7900592088699341,
      "num_tokens": 85637527.0,
      "step": 1307
    },
    {
      "epoch": 0.17287866772402855,
      "grad_norm": 0.9162896603344114,
      "learning_rate": 9.855885010120767e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.7861982583999634,
      "num_tokens": 85703063.0,
      "step": 1308
    },
    {
      "epoch": 0.17301083795929156,
      "grad_norm": 0.9511791432064948,
      "learning_rate": 9.855363307263403e-06,
      "loss": 0.6441,
      "mean_token_accuracy": 0.7930960655212402,
      "num_tokens": 85768599.0,
      "step": 1309
    },
    {
      "epoch": 0.17314300819455458,
      "grad_norm": 0.9096258060742883,
      "learning_rate": 9.854840677240125e-06,
      "loss": 0.6246,
      "mean_token_accuracy": 0.7997497320175171,
      "num_tokens": 85834135.0,
      "step": 1310
    },
    {
      "epoch": 0.1732751784298176,
      "grad_norm": 0.8609116190299754,
      "learning_rate": 9.854317120162187e-06,
      "loss": 0.6489,
      "mean_token_accuracy": 0.7914326786994934,
      "num_tokens": 85899671.0,
      "step": 1311
    },
    {
      "epoch": 0.17340734866508062,
      "grad_norm": 0.9846639737432349,
      "learning_rate": 9.85379263614105e-06,
      "loss": 0.6394,
      "mean_token_accuracy": 0.7927908897399902,
      "num_tokens": 85965207.0,
      "step": 1312
    },
    {
      "epoch": 0.17353951890034364,
      "grad_norm": 0.9555170099784397,
      "learning_rate": 9.853267225288359e-06,
      "loss": 0.6667,
      "mean_token_accuracy": 0.7811470031738281,
      "num_tokens": 86030743.0,
      "step": 1313
    },
    {
      "epoch": 0.17367168913560665,
      "grad_norm": 1.0039293584716256,
      "learning_rate": 9.852740887715964e-06,
      "loss": 0.6566,
      "mean_token_accuracy": 0.7914631962776184,
      "num_tokens": 86096279.0,
      "step": 1314
    },
    {
      "epoch": 0.17380385937086967,
      "grad_norm": 0.9894639884676422,
      "learning_rate": 9.852213623535914e-06,
      "loss": 0.6291,
      "mean_token_accuracy": 0.7966823577880859,
      "num_tokens": 86161815.0,
      "step": 1315
    },
    {
      "epoch": 0.1739360296061327,
      "grad_norm": 0.9878855614082256,
      "learning_rate": 9.851685432860451e-06,
      "loss": 0.6733,
      "mean_token_accuracy": 0.7830851078033447,
      "num_tokens": 86227351.0,
      "step": 1316
    },
    {
      "epoch": 0.1740681998413957,
      "grad_norm": 1.0139887222774475,
      "learning_rate": 9.851156315802016e-06,
      "loss": 0.7212,
      "mean_token_accuracy": 0.7684348821640015,
      "num_tokens": 86292887.0,
      "step": 1317
    },
    {
      "epoch": 0.17420037007665873,
      "grad_norm": 1.0005285771997272,
      "learning_rate": 9.850626272473248e-06,
      "loss": 0.6766,
      "mean_token_accuracy": 0.7822915315628052,
      "num_tokens": 86358423.0,
      "step": 1318
    },
    {
      "epoch": 0.17433254031192175,
      "grad_norm": 0.9677574596065749,
      "learning_rate": 9.85009530298698e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7952173352241516,
      "num_tokens": 86423959.0,
      "step": 1319
    },
    {
      "epoch": 0.17446471054718476,
      "grad_norm": 0.8629414619061192,
      "learning_rate": 9.849563407456245e-06,
      "loss": 0.6145,
      "mean_token_accuracy": 0.7998565435409546,
      "num_tokens": 86489495.0,
      "step": 1320
    },
    {
      "epoch": 0.17459688078244778,
      "grad_norm": 1.0061627372421336,
      "learning_rate": 9.849030585994275e-06,
      "loss": 0.6865,
      "mean_token_accuracy": 0.779163122177124,
      "num_tokens": 86555031.0,
      "step": 1321
    },
    {
      "epoch": 0.1747290510177108,
      "grad_norm": 0.9334561053089653,
      "learning_rate": 9.848496838714492e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8090434670448303,
      "num_tokens": 86620567.0,
      "step": 1322
    },
    {
      "epoch": 0.17486122125297382,
      "grad_norm": 0.9075108913837475,
      "learning_rate": 9.847962165730525e-06,
      "loss": 0.6667,
      "mean_token_accuracy": 0.7876175045967102,
      "num_tokens": 86686103.0,
      "step": 1323
    },
    {
      "epoch": 0.17499339148823684,
      "grad_norm": 0.8844030824087846,
      "learning_rate": 9.84742656715619e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.8004211783409119,
      "num_tokens": 86751639.0,
      "step": 1324
    },
    {
      "epoch": 0.17512556172349986,
      "grad_norm": 0.8235672848502303,
      "learning_rate": 9.846890043105507e-06,
      "loss": 0.5907,
      "mean_token_accuracy": 0.8149645924568176,
      "num_tokens": 86817175.0,
      "step": 1325
    },
    {
      "epoch": 0.17525773195876287,
      "grad_norm": 0.9567712579503406,
      "learning_rate": 9.846352593692689e-06,
      "loss": 0.6598,
      "mean_token_accuracy": 0.7865034937858582,
      "num_tokens": 86882711.0,
      "step": 1326
    },
    {
      "epoch": 0.1753899021940259,
      "grad_norm": 0.8713705018400273,
      "learning_rate": 9.84581421903215e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7944847941398621,
      "num_tokens": 86948247.0,
      "step": 1327
    },
    {
      "epoch": 0.1755220724292889,
      "grad_norm": 0.9926102519186335,
      "learning_rate": 9.845274919238499e-06,
      "loss": 0.659,
      "mean_token_accuracy": 0.7855725884437561,
      "num_tokens": 87013783.0,
      "step": 1328
    },
    {
      "epoch": 0.17565424266455193,
      "grad_norm": 0.926419017593105,
      "learning_rate": 9.844734694426538e-06,
      "loss": 0.5962,
      "mean_token_accuracy": 0.8098064661026001,
      "num_tokens": 87079319.0,
      "step": 1329
    },
    {
      "epoch": 0.17578641289981498,
      "grad_norm": 0.9818115514546042,
      "learning_rate": 9.844193544711273e-06,
      "loss": 0.7328,
      "mean_token_accuracy": 0.7673361301422119,
      "num_tokens": 87144855.0,
      "step": 1330
    },
    {
      "epoch": 0.175918583135078,
      "grad_norm": 0.8835296486756568,
      "learning_rate": 9.843651470207906e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7975369095802307,
      "num_tokens": 87210391.0,
      "step": 1331
    },
    {
      "epoch": 0.176050753370341,
      "grad_norm": 1.0100116861413588,
      "learning_rate": 9.843108471031826e-06,
      "loss": 0.6598,
      "mean_token_accuracy": 0.7869002819061279,
      "num_tokens": 87275927.0,
      "step": 1332
    },
    {
      "epoch": 0.17618292360560403,
      "grad_norm": 0.9293445742379592,
      "learning_rate": 9.842564547298629e-06,
      "loss": 0.6704,
      "mean_token_accuracy": 0.7824746966362,
      "num_tokens": 87341463.0,
      "step": 1333
    },
    {
      "epoch": 0.17631509384086705,
      "grad_norm": 0.9240201011586546,
      "learning_rate": 9.84201969912411e-06,
      "loss": 0.6203,
      "mean_token_accuracy": 0.8010609149932861,
      "num_tokens": 87406697.0,
      "step": 1334
    },
    {
      "epoch": 0.17644726407613007,
      "grad_norm": 0.939073430054967,
      "learning_rate": 9.841473926624249e-06,
      "loss": 0.6284,
      "mean_token_accuracy": 0.7978421449661255,
      "num_tokens": 87472233.0,
      "step": 1335
    },
    {
      "epoch": 0.17657943431139309,
      "grad_norm": 0.9660688716129535,
      "learning_rate": 9.840927229915235e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7946068644523621,
      "num_tokens": 87537769.0,
      "step": 1336
    },
    {
      "epoch": 0.1767116045466561,
      "grad_norm": 0.8994283263409526,
      "learning_rate": 9.840379609113445e-06,
      "loss": 0.6466,
      "mean_token_accuracy": 0.793584406375885,
      "num_tokens": 87603305.0,
      "step": 1337
    },
    {
      "epoch": 0.17684377478191912,
      "grad_norm": 0.8804278724223576,
      "learning_rate": 9.839831064335454e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 87668841.0,
      "step": 1338
    },
    {
      "epoch": 0.17697594501718214,
      "grad_norm": 0.9604722405682151,
      "learning_rate": 9.839281595698042e-06,
      "loss": 0.6661,
      "mean_token_accuracy": 0.7867018580436707,
      "num_tokens": 87734377.0,
      "step": 1339
    },
    {
      "epoch": 0.17710811525244516,
      "grad_norm": 0.8266092081051303,
      "learning_rate": 9.838731203318175e-06,
      "loss": 0.6071,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 87799913.0,
      "step": 1340
    },
    {
      "epoch": 0.17724028548770818,
      "grad_norm": 1.0629284230087956,
      "learning_rate": 9.838179887313019e-06,
      "loss": 0.7084,
      "mean_token_accuracy": 0.7723873853683472,
      "num_tokens": 87865449.0,
      "step": 1341
    },
    {
      "epoch": 0.1773724557229712,
      "grad_norm": 0.9466943501105813,
      "learning_rate": 9.837627647799942e-06,
      "loss": 0.655,
      "mean_token_accuracy": 0.7917684316635132,
      "num_tokens": 87930985.0,
      "step": 1342
    },
    {
      "epoch": 0.1775046259582342,
      "grad_norm": 0.8772425343796448,
      "learning_rate": 9.837074484896501e-06,
      "loss": 0.6532,
      "mean_token_accuracy": 0.7895250916481018,
      "num_tokens": 87996521.0,
      "step": 1343
    },
    {
      "epoch": 0.17763679619349723,
      "grad_norm": 0.9862203104513761,
      "learning_rate": 9.836520398720456e-06,
      "loss": 0.6797,
      "mean_token_accuracy": 0.7814980149269104,
      "num_tokens": 88062057.0,
      "step": 1344
    },
    {
      "epoch": 0.17776896642876025,
      "grad_norm": 0.9358378369182915,
      "learning_rate": 9.835965389389756e-06,
      "loss": 0.689,
      "mean_token_accuracy": 0.7783085107803345,
      "num_tokens": 88127593.0,
      "step": 1345
    },
    {
      "epoch": 0.17790113666402327,
      "grad_norm": 0.9674383192109677,
      "learning_rate": 9.835409457022553e-06,
      "loss": 0.6792,
      "mean_token_accuracy": 0.7816963791847229,
      "num_tokens": 88193129.0,
      "step": 1346
    },
    {
      "epoch": 0.1780333068992863,
      "grad_norm": 0.9929386940809185,
      "learning_rate": 9.834852601737193e-06,
      "loss": 0.6884,
      "mean_token_accuracy": 0.7787358164787292,
      "num_tokens": 88258665.0,
      "step": 1347
    },
    {
      "epoch": 0.1781654771345493,
      "grad_norm": 0.935370976154982,
      "learning_rate": 9.83429482365222e-06,
      "loss": 0.6914,
      "mean_token_accuracy": 0.7783695459365845,
      "num_tokens": 88324201.0,
      "step": 1348
    },
    {
      "epoch": 0.17829764736981232,
      "grad_norm": 0.903262308820978,
      "learning_rate": 9.833736122886373e-06,
      "loss": 0.6709,
      "mean_token_accuracy": 0.7843517065048218,
      "num_tokens": 88389737.0,
      "step": 1349
    },
    {
      "epoch": 0.17842981760507534,
      "grad_norm": 0.8276959660944334,
      "learning_rate": 9.833176499558586e-06,
      "loss": 0.6482,
      "mean_token_accuracy": 0.7897539734840393,
      "num_tokens": 88455273.0,
      "step": 1350
    },
    {
      "epoch": 0.17856198784033836,
      "grad_norm": 0.9252480094605522,
      "learning_rate": 9.832615953787993e-06,
      "loss": 0.6343,
      "mean_token_accuracy": 0.7980557680130005,
      "num_tokens": 88520809.0,
      "step": 1351
    },
    {
      "epoch": 0.17869415807560138,
      "grad_norm": 0.9085146314555204,
      "learning_rate": 9.832054485693923e-06,
      "loss": 0.6545,
      "mean_token_accuracy": 0.788823127746582,
      "num_tokens": 88586345.0,
      "step": 1352
    },
    {
      "epoch": 0.1788263283108644,
      "grad_norm": 0.8637588697148874,
      "learning_rate": 9.831492095395899e-06,
      "loss": 0.6075,
      "mean_token_accuracy": 0.8034886121749878,
      "num_tokens": 88651881.0,
      "step": 1353
    },
    {
      "epoch": 0.17895849854612741,
      "grad_norm": 0.8677726142284643,
      "learning_rate": 9.830928783013642e-06,
      "loss": 0.634,
      "mean_token_accuracy": 0.7945763468742371,
      "num_tokens": 88717417.0,
      "step": 1354
    },
    {
      "epoch": 0.17909066878139043,
      "grad_norm": 0.9395627962614365,
      "learning_rate": 9.830364548667074e-06,
      "loss": 0.6792,
      "mean_token_accuracy": 0.7808875441551208,
      "num_tokens": 88782953.0,
      "step": 1355
    },
    {
      "epoch": 0.17922283901665345,
      "grad_norm": 0.9128859705861864,
      "learning_rate": 9.829799392476302e-06,
      "loss": 0.6604,
      "mean_token_accuracy": 0.789250373840332,
      "num_tokens": 88848489.0,
      "step": 1356
    },
    {
      "epoch": 0.17935500925191647,
      "grad_norm": 1.1141714370868738,
      "learning_rate": 9.829233314561637e-06,
      "loss": 0.704,
      "mean_token_accuracy": 0.768450140953064,
      "num_tokens": 88914025.0,
      "step": 1357
    },
    {
      "epoch": 0.1794871794871795,
      "grad_norm": 0.9016242371452367,
      "learning_rate": 9.828666315043591e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7896013855934143,
      "num_tokens": 88979561.0,
      "step": 1358
    },
    {
      "epoch": 0.1796193497224425,
      "grad_norm": 0.9924985955520164,
      "learning_rate": 9.82809839404286e-06,
      "loss": 0.7145,
      "mean_token_accuracy": 0.7674429416656494,
      "num_tokens": 89045097.0,
      "step": 1359
    },
    {
      "epoch": 0.17975151995770552,
      "grad_norm": 0.886043743566956,
      "learning_rate": 9.827529551680348e-06,
      "loss": 0.6108,
      "mean_token_accuracy": 0.8060981631278992,
      "num_tokens": 89110633.0,
      "step": 1360
    },
    {
      "epoch": 0.17988369019296854,
      "grad_norm": 0.9877129444719637,
      "learning_rate": 9.826959788077146e-06,
      "loss": 0.711,
      "mean_token_accuracy": 0.7722042202949524,
      "num_tokens": 89176169.0,
      "step": 1361
    },
    {
      "epoch": 0.18001586042823156,
      "grad_norm": 0.9631870531024037,
      "learning_rate": 9.826389103354543e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.797704815864563,
      "num_tokens": 89241705.0,
      "step": 1362
    },
    {
      "epoch": 0.18014803066349458,
      "grad_norm": 1.0207167576372949,
      "learning_rate": 9.82581749763403e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 89307241.0,
      "step": 1363
    },
    {
      "epoch": 0.1802802008987576,
      "grad_norm": 0.9089226335590224,
      "learning_rate": 9.825244971037289e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.8057013750076294,
      "num_tokens": 89372777.0,
      "step": 1364
    },
    {
      "epoch": 0.18041237113402062,
      "grad_norm": 0.9354499220621271,
      "learning_rate": 9.824671523686199e-06,
      "loss": 0.6623,
      "mean_token_accuracy": 0.7904407382011414,
      "num_tokens": 89438313.0,
      "step": 1365
    },
    {
      "epoch": 0.18054454136928363,
      "grad_norm": 0.9315649805561835,
      "learning_rate": 9.824097155702831e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.8167501091957092,
      "num_tokens": 89503849.0,
      "step": 1366
    },
    {
      "epoch": 0.18067671160454665,
      "grad_norm": 0.9662723856108263,
      "learning_rate": 9.823521867209461e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7928519248962402,
      "num_tokens": 89569385.0,
      "step": 1367
    },
    {
      "epoch": 0.18080888183980967,
      "grad_norm": 0.8476969402232826,
      "learning_rate": 9.822945658328555e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 89634921.0,
      "step": 1368
    },
    {
      "epoch": 0.1809410520750727,
      "grad_norm": 0.9778234159891745,
      "learning_rate": 9.822368529182773e-06,
      "loss": 0.7147,
      "mean_token_accuracy": 0.7724941968917847,
      "num_tokens": 89700457.0,
      "step": 1369
    },
    {
      "epoch": 0.1810732223103357,
      "grad_norm": 0.9866251900466837,
      "learning_rate": 9.821790479894979e-06,
      "loss": 0.6481,
      "mean_token_accuracy": 0.7896166443824768,
      "num_tokens": 89765993.0,
      "step": 1370
    },
    {
      "epoch": 0.18120539254559873,
      "grad_norm": 0.9036453383514018,
      "learning_rate": 9.821211510588222e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.7995055317878723,
      "num_tokens": 89831529.0,
      "step": 1371
    },
    {
      "epoch": 0.18133756278086174,
      "grad_norm": 0.9188090528381188,
      "learning_rate": 9.820631621385754e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.792684018611908,
      "num_tokens": 89897065.0,
      "step": 1372
    },
    {
      "epoch": 0.18146973301612476,
      "grad_norm": 0.9643278415685957,
      "learning_rate": 9.820050812411024e-06,
      "loss": 0.6866,
      "mean_token_accuracy": 0.7774691581726074,
      "num_tokens": 89962601.0,
      "step": 1373
    },
    {
      "epoch": 0.18160190325138778,
      "grad_norm": 0.9397324879627454,
      "learning_rate": 9.819469083787672e-06,
      "loss": 0.6849,
      "mean_token_accuracy": 0.7816811203956604,
      "num_tokens": 90028137.0,
      "step": 1374
    },
    {
      "epoch": 0.1817340734866508,
      "grad_norm": 0.9448417356721739,
      "learning_rate": 9.818886435639535e-06,
      "loss": 0.6922,
      "mean_token_accuracy": 0.7802466154098511,
      "num_tokens": 90093673.0,
      "step": 1375
    },
    {
      "epoch": 0.18186624372191382,
      "grad_norm": 0.9238469271686846,
      "learning_rate": 9.818302868090646e-06,
      "loss": 0.6525,
      "mean_token_accuracy": 0.788945198059082,
      "num_tokens": 90159209.0,
      "step": 1376
    },
    {
      "epoch": 0.18199841395717684,
      "grad_norm": 1.0095325435568423,
      "learning_rate": 9.81771838126524e-06,
      "loss": 0.7288,
      "mean_token_accuracy": 0.7677175998687744,
      "num_tokens": 90224745.0,
      "step": 1377
    },
    {
      "epoch": 0.18213058419243985,
      "grad_norm": 1.0430123683002919,
      "learning_rate": 9.817132975287736e-06,
      "loss": 0.7015,
      "mean_token_accuracy": 0.7729215025901794,
      "num_tokens": 90290281.0,
      "step": 1378
    },
    {
      "epoch": 0.18226275442770287,
      "grad_norm": 0.9964682479244527,
      "learning_rate": 9.816546650282756e-06,
      "loss": 0.6621,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 90355817.0,
      "step": 1379
    },
    {
      "epoch": 0.1823949246629659,
      "grad_norm": 0.9285749977314866,
      "learning_rate": 9.815959406375119e-06,
      "loss": 0.6587,
      "mean_token_accuracy": 0.7896013855934143,
      "num_tokens": 90421353.0,
      "step": 1380
    },
    {
      "epoch": 0.1825270948982289,
      "grad_norm": 0.9451589339238917,
      "learning_rate": 9.815371243689832e-06,
      "loss": 0.661,
      "mean_token_accuracy": 0.7846264243125916,
      "num_tokens": 90486889.0,
      "step": 1381
    },
    {
      "epoch": 0.18265926513349193,
      "grad_norm": 0.9123405242577993,
      "learning_rate": 9.81478216235211e-06,
      "loss": 0.5907,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 90552425.0,
      "step": 1382
    },
    {
      "epoch": 0.18279143536875495,
      "grad_norm": 0.8932188787876817,
      "learning_rate": 9.81419216248735e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.8051825165748596,
      "num_tokens": 90617961.0,
      "step": 1383
    },
    {
      "epoch": 0.18292360560401796,
      "grad_norm": 1.005368045538355,
      "learning_rate": 9.813601244221152e-06,
      "loss": 0.6551,
      "mean_token_accuracy": 0.7885026335716248,
      "num_tokens": 90683497.0,
      "step": 1384
    },
    {
      "epoch": 0.18305577583928098,
      "grad_norm": 0.9815458475585331,
      "learning_rate": 9.813009407679311e-06,
      "loss": 0.6717,
      "mean_token_accuracy": 0.7814064025878906,
      "num_tokens": 90749033.0,
      "step": 1385
    },
    {
      "epoch": 0.183187946074544,
      "grad_norm": 0.8574053625912543,
      "learning_rate": 9.812416652987816e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 90814569.0,
      "step": 1386
    },
    {
      "epoch": 0.18332011630980702,
      "grad_norm": 0.8660295876199258,
      "learning_rate": 9.811822980272851e-06,
      "loss": 0.6132,
      "mean_token_accuracy": 0.8019777536392212,
      "num_tokens": 90880105.0,
      "step": 1387
    },
    {
      "epoch": 0.18345228654507004,
      "grad_norm": 1.0010940061197475,
      "learning_rate": 9.8112283896608e-06,
      "loss": 0.6777,
      "mean_token_accuracy": 0.7817268967628479,
      "num_tokens": 90945641.0,
      "step": 1388
    },
    {
      "epoch": 0.18358445678033306,
      "grad_norm": 0.8647786128423647,
      "learning_rate": 9.810632881278237e-06,
      "loss": 0.6455,
      "mean_token_accuracy": 0.7896776795387268,
      "num_tokens": 91011177.0,
      "step": 1389
    },
    {
      "epoch": 0.1837166270155961,
      "grad_norm": 0.9561463072009646,
      "learning_rate": 9.810036455251933e-06,
      "loss": 0.6752,
      "mean_token_accuracy": 0.7834055423736572,
      "num_tokens": 91076713.0,
      "step": 1390
    },
    {
      "epoch": 0.18384879725085912,
      "grad_norm": 0.9533836444395889,
      "learning_rate": 9.809439111708853e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.7943016886711121,
      "num_tokens": 91142249.0,
      "step": 1391
    },
    {
      "epoch": 0.18398096748612214,
      "grad_norm": 0.9809188259828288,
      "learning_rate": 9.808840850776163e-06,
      "loss": 0.6844,
      "mean_token_accuracy": 0.7774067521095276,
      "num_tokens": 91204249.0,
      "step": 1392
    },
    {
      "epoch": 0.18411313772138516,
      "grad_norm": 0.9066952078344019,
      "learning_rate": 9.808241672581215e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7908833026885986,
      "num_tokens": 91269785.0,
      "step": 1393
    },
    {
      "epoch": 0.18424530795664817,
      "grad_norm": 0.9499554013234547,
      "learning_rate": 9.807641577251566e-06,
      "loss": 0.6932,
      "mean_token_accuracy": 0.7779727578163147,
      "num_tokens": 91335321.0,
      "step": 1394
    },
    {
      "epoch": 0.1843774781919112,
      "grad_norm": 0.9418567508264616,
      "learning_rate": 9.807040564914964e-06,
      "loss": 0.701,
      "mean_token_accuracy": 0.7759736180305481,
      "num_tokens": 91400857.0,
      "step": 1395
    },
    {
      "epoch": 0.1845096484271742,
      "grad_norm": 0.8202124462074374,
      "learning_rate": 9.806438635699347e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8122940063476562,
      "num_tokens": 91466393.0,
      "step": 1396
    },
    {
      "epoch": 0.18464181866243723,
      "grad_norm": 0.8579670628193289,
      "learning_rate": 9.80583578973286e-06,
      "loss": 0.6026,
      "mean_token_accuracy": 0.8045415878295898,
      "num_tokens": 91531929.0,
      "step": 1397
    },
    {
      "epoch": 0.18477398889770025,
      "grad_norm": 0.8461055629616895,
      "learning_rate": 9.805232027143831e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 91597465.0,
      "step": 1398
    },
    {
      "epoch": 0.18490615913296327,
      "grad_norm": 0.8638048880354257,
      "learning_rate": 9.80462734806079e-06,
      "loss": 0.5976,
      "mean_token_accuracy": 0.8050757050514221,
      "num_tokens": 91663001.0,
      "step": 1399
    },
    {
      "epoch": 0.18503832936822628,
      "grad_norm": 0.8859410271571465,
      "learning_rate": 9.804021752612462e-06,
      "loss": 0.6822,
      "mean_token_accuracy": 0.7850384712219238,
      "num_tokens": 91728537.0,
      "step": 1400
    },
    {
      "epoch": 0.1851704996034893,
      "grad_norm": 0.928596216499485,
      "learning_rate": 9.803415240927762e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7990171909332275,
      "num_tokens": 91794073.0,
      "step": 1401
    },
    {
      "epoch": 0.18530266983875232,
      "grad_norm": 1.0444295160699733,
      "learning_rate": 9.802807813135808e-06,
      "loss": 0.6293,
      "mean_token_accuracy": 0.7967891693115234,
      "num_tokens": 91859609.0,
      "step": 1402
    },
    {
      "epoch": 0.18543484007401534,
      "grad_norm": 0.92500748031671,
      "learning_rate": 9.802199469365904e-06,
      "loss": 0.6746,
      "mean_token_accuracy": 0.7849010825157166,
      "num_tokens": 91925145.0,
      "step": 1403
    },
    {
      "epoch": 0.18556701030927836,
      "grad_norm": 0.913272031525666,
      "learning_rate": 9.801590209747559e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.8071663975715637,
      "num_tokens": 91990681.0,
      "step": 1404
    },
    {
      "epoch": 0.18569918054454138,
      "grad_norm": 1.0776290291765847,
      "learning_rate": 9.80098003441047e-06,
      "loss": 0.6279,
      "mean_token_accuracy": 0.7946832180023193,
      "num_tokens": 92056217.0,
      "step": 1405
    },
    {
      "epoch": 0.1858313507798044,
      "grad_norm": 0.9408250953500615,
      "learning_rate": 9.800368943484527e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7916310429573059,
      "num_tokens": 92121753.0,
      "step": 1406
    },
    {
      "epoch": 0.1859635210150674,
      "grad_norm": 0.9681150740296479,
      "learning_rate": 9.799756937099823e-06,
      "loss": 0.6264,
      "mean_token_accuracy": 0.7979031801223755,
      "num_tokens": 92187289.0,
      "step": 1407
    },
    {
      "epoch": 0.18609569125033043,
      "grad_norm": 0.9444163750366893,
      "learning_rate": 9.79914401538664e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7978116273880005,
      "num_tokens": 92252825.0,
      "step": 1408
    },
    {
      "epoch": 0.18622786148559345,
      "grad_norm": 0.9432299196638532,
      "learning_rate": 9.798530178475453e-06,
      "loss": 0.6274,
      "mean_token_accuracy": 0.7963008284568787,
      "num_tokens": 92318361.0,
      "step": 1409
    },
    {
      "epoch": 0.18636003172085647,
      "grad_norm": 0.8945422793706773,
      "learning_rate": 9.79791542649694e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.803122341632843,
      "num_tokens": 92383897.0,
      "step": 1410
    },
    {
      "epoch": 0.18649220195611949,
      "grad_norm": 0.8675879435017366,
      "learning_rate": 9.797299759581967e-06,
      "loss": 0.6345,
      "mean_token_accuracy": 0.7941795587539673,
      "num_tokens": 92449433.0,
      "step": 1411
    },
    {
      "epoch": 0.1866243721913825,
      "grad_norm": 0.8964170617619291,
      "learning_rate": 9.796683177861595e-06,
      "loss": 0.672,
      "mean_token_accuracy": 0.7840617895126343,
      "num_tokens": 92514969.0,
      "step": 1412
    },
    {
      "epoch": 0.18675654242664552,
      "grad_norm": 0.9259256489425671,
      "learning_rate": 9.796065681467083e-06,
      "loss": 0.6741,
      "mean_token_accuracy": 0.7854810357093811,
      "num_tokens": 92580505.0,
      "step": 1413
    },
    {
      "epoch": 0.18688871266190854,
      "grad_norm": 0.925153924410743,
      "learning_rate": 9.795447270529883e-06,
      "loss": 0.6649,
      "mean_token_accuracy": 0.7862592935562134,
      "num_tokens": 92646041.0,
      "step": 1414
    },
    {
      "epoch": 0.18702088289717156,
      "grad_norm": 1.0706615747803976,
      "learning_rate": 9.794827945181642e-06,
      "loss": 0.7271,
      "mean_token_accuracy": 0.7663747072219849,
      "num_tokens": 92711577.0,
      "step": 1415
    },
    {
      "epoch": 0.18715305313243458,
      "grad_norm": 0.9028351513094618,
      "learning_rate": 9.7942077055542e-06,
      "loss": 0.6704,
      "mean_token_accuracy": 0.7845043540000916,
      "num_tokens": 92777113.0,
      "step": 1416
    },
    {
      "epoch": 0.1872852233676976,
      "grad_norm": 0.8959123905701855,
      "learning_rate": 9.793586551779595e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7885941863059998,
      "num_tokens": 92842649.0,
      "step": 1417
    },
    {
      "epoch": 0.1874173936029606,
      "grad_norm": 0.8180733587396213,
      "learning_rate": 9.792964483990058e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8088756203651428,
      "num_tokens": 92908185.0,
      "step": 1418
    },
    {
      "epoch": 0.18754956383822363,
      "grad_norm": 0.956409794929243,
      "learning_rate": 9.792341502318012e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.7939811944961548,
      "num_tokens": 92973721.0,
      "step": 1419
    },
    {
      "epoch": 0.18768173407348665,
      "grad_norm": 0.8473071094740312,
      "learning_rate": 9.791717606896076e-06,
      "loss": 0.6321,
      "mean_token_accuracy": 0.7959955930709839,
      "num_tokens": 93039257.0,
      "step": 1420
    },
    {
      "epoch": 0.18781390430874967,
      "grad_norm": 0.8899920129706828,
      "learning_rate": 9.791092797857069e-06,
      "loss": 0.6733,
      "mean_token_accuracy": 0.784855306148529,
      "num_tokens": 93104793.0,
      "step": 1421
    },
    {
      "epoch": 0.1879460745440127,
      "grad_norm": 0.9329375208394649,
      "learning_rate": 9.790467075333994e-06,
      "loss": 0.6827,
      "mean_token_accuracy": 0.7790868282318115,
      "num_tokens": 93170329.0,
      "step": 1422
    },
    {
      "epoch": 0.1880782447792757,
      "grad_norm": 0.9062085012552816,
      "learning_rate": 9.789840439460058e-06,
      "loss": 0.6817,
      "mean_token_accuracy": 0.7810554504394531,
      "num_tokens": 93235865.0,
      "step": 1423
    },
    {
      "epoch": 0.18821041501453872,
      "grad_norm": 0.9981082310059484,
      "learning_rate": 9.78921289036866e-06,
      "loss": 0.6932,
      "mean_token_accuracy": 0.7785984873771667,
      "num_tokens": 93301401.0,
      "step": 1424
    },
    {
      "epoch": 0.18834258524980174,
      "grad_norm": 0.9008275043170475,
      "learning_rate": 9.788584428193389e-06,
      "loss": 0.7008,
      "mean_token_accuracy": 0.7789494395256042,
      "num_tokens": 93366937.0,
      "step": 1425
    },
    {
      "epoch": 0.18847475548506476,
      "grad_norm": 1.0162367330982403,
      "learning_rate": 9.78795505306803e-06,
      "loss": 0.6928,
      "mean_token_accuracy": 0.7766298651695251,
      "num_tokens": 93432473.0,
      "step": 1426
    },
    {
      "epoch": 0.18860692572032778,
      "grad_norm": 0.9345319619774259,
      "learning_rate": 9.78732476512657e-06,
      "loss": 0.7389,
      "mean_token_accuracy": 0.7631699442863464,
      "num_tokens": 93498009.0,
      "step": 1427
    },
    {
      "epoch": 0.1887390959555908,
      "grad_norm": 0.9657768084713326,
      "learning_rate": 9.786693564503176e-06,
      "loss": 0.6795,
      "mean_token_accuracy": 0.783527672290802,
      "num_tokens": 93563545.0,
      "step": 1428
    },
    {
      "epoch": 0.18887126619085381,
      "grad_norm": 1.0319355866880708,
      "learning_rate": 9.786061451332227e-06,
      "loss": 0.6895,
      "mean_token_accuracy": 0.779346227645874,
      "num_tokens": 93629081.0,
      "step": 1429
    },
    {
      "epoch": 0.18900343642611683,
      "grad_norm": 0.9790024573740668,
      "learning_rate": 9.785428425748278e-06,
      "loss": 0.6551,
      "mean_token_accuracy": 0.792531430721283,
      "num_tokens": 93694617.0,
      "step": 1430
    },
    {
      "epoch": 0.18913560666137985,
      "grad_norm": 0.9572590257865498,
      "learning_rate": 9.78479448788609e-06,
      "loss": 0.682,
      "mean_token_accuracy": 0.7796056866645813,
      "num_tokens": 93760153.0,
      "step": 1431
    },
    {
      "epoch": 0.18926777689664287,
      "grad_norm": 0.9405175116054256,
      "learning_rate": 9.784159637880617e-06,
      "loss": 0.674,
      "mean_token_accuracy": 0.78290194272995,
      "num_tokens": 93825689.0,
      "step": 1432
    },
    {
      "epoch": 0.1893999471319059,
      "grad_norm": 1.1243236051605074,
      "learning_rate": 9.783523875867004e-06,
      "loss": 0.6525,
      "mean_token_accuracy": 0.7895523905754089,
      "num_tokens": 93885213.0,
      "step": 1433
    },
    {
      "epoch": 0.1895321173671689,
      "grad_norm": 0.9252553515303926,
      "learning_rate": 9.782887201980592e-06,
      "loss": 0.6531,
      "mean_token_accuracy": 0.7916768193244934,
      "num_tokens": 93950749.0,
      "step": 1434
    },
    {
      "epoch": 0.18966428760243192,
      "grad_norm": 1.0281400867670165,
      "learning_rate": 9.782249616356914e-06,
      "loss": 0.6685,
      "mean_token_accuracy": 0.7847790122032166,
      "num_tokens": 94016285.0,
      "step": 1435
    },
    {
      "epoch": 0.18979645783769494,
      "grad_norm": 1.0169624669921602,
      "learning_rate": 9.781611119131699e-06,
      "loss": 0.6867,
      "mean_token_accuracy": 0.7804449796676636,
      "num_tokens": 94081821.0,
      "step": 1436
    },
    {
      "epoch": 0.18992862807295796,
      "grad_norm": 0.9377679796642454,
      "learning_rate": 9.780971710440872e-06,
      "loss": 0.6743,
      "mean_token_accuracy": 0.7822915315628052,
      "num_tokens": 94147357.0,
      "step": 1437
    },
    {
      "epoch": 0.19006079830822098,
      "grad_norm": 0.9982180451384826,
      "learning_rate": 9.780331390420548e-06,
      "loss": 0.7017,
      "mean_token_accuracy": 0.7770571112632751,
      "num_tokens": 94212893.0,
      "step": 1438
    },
    {
      "epoch": 0.190192968543484,
      "grad_norm": 0.9513267097312461,
      "learning_rate": 9.779690159207035e-06,
      "loss": 0.6455,
      "mean_token_accuracy": 0.7913411259651184,
      "num_tokens": 94278429.0,
      "step": 1439
    },
    {
      "epoch": 0.19032513877874702,
      "grad_norm": 0.9957413048070929,
      "learning_rate": 9.779048016936844e-06,
      "loss": 0.6818,
      "mean_token_accuracy": 0.7815132737159729,
      "num_tokens": 94343965.0,
      "step": 1440
    },
    {
      "epoch": 0.19045730901401003,
      "grad_norm": 0.9923671861432982,
      "learning_rate": 9.77840496374667e-06,
      "loss": 0.6558,
      "mean_token_accuracy": 0.7883500456809998,
      "num_tokens": 94409501.0,
      "step": 1441
    },
    {
      "epoch": 0.19058947924927305,
      "grad_norm": 0.9045682851222839,
      "learning_rate": 9.777760999773403e-06,
      "loss": 0.671,
      "mean_token_accuracy": 0.7803534269332886,
      "num_tokens": 94475037.0,
      "step": 1442
    },
    {
      "epoch": 0.19072164948453607,
      "grad_norm": 1.0343631941993414,
      "learning_rate": 9.777116125154136e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7948815822601318,
      "num_tokens": 94540573.0,
      "step": 1443
    },
    {
      "epoch": 0.1908538197197991,
      "grad_norm": 0.957962316671755,
      "learning_rate": 9.776470340026144e-06,
      "loss": 0.6484,
      "mean_token_accuracy": 0.7911121845245361,
      "num_tokens": 94606109.0,
      "step": 1444
    },
    {
      "epoch": 0.1909859899550621,
      "grad_norm": 1.0152715528457255,
      "learning_rate": 9.775823644526902e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.8058692216873169,
      "num_tokens": 94671645.0,
      "step": 1445
    },
    {
      "epoch": 0.19111816019032513,
      "grad_norm": 0.8667517250252373,
      "learning_rate": 9.77517603879408e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.8000396490097046,
      "num_tokens": 94737181.0,
      "step": 1446
    },
    {
      "epoch": 0.19125033042558814,
      "grad_norm": 1.0149030709402402,
      "learning_rate": 9.774527522965536e-06,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7693657875061035,
      "num_tokens": 94802717.0,
      "step": 1447
    },
    {
      "epoch": 0.19138250066085116,
      "grad_norm": 0.930011498242128,
      "learning_rate": 9.77387809717933e-06,
      "loss": 0.6193,
      "mean_token_accuracy": 0.8012147545814514,
      "num_tokens": 94868253.0,
      "step": 1448
    },
    {
      "epoch": 0.1915146708961142,
      "grad_norm": 0.9155311771380652,
      "learning_rate": 9.773227761573712e-06,
      "loss": 0.639,
      "mean_token_accuracy": 0.7950341701507568,
      "num_tokens": 94933789.0,
      "step": 1449
    },
    {
      "epoch": 0.19164684113137723,
      "grad_norm": 1.12231666603925,
      "learning_rate": 9.77257651628712e-06,
      "loss": 0.7146,
      "mean_token_accuracy": 0.769655704498291,
      "num_tokens": 94999325.0,
      "step": 1450
    },
    {
      "epoch": 0.19177901136664025,
      "grad_norm": 0.9235678874850407,
      "learning_rate": 9.77192436145819e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.7913716435432434,
      "num_tokens": 95064861.0,
      "step": 1451
    },
    {
      "epoch": 0.19191118160190326,
      "grad_norm": 0.9274238571508051,
      "learning_rate": 9.771271297225758e-06,
      "loss": 0.6632,
      "mean_token_accuracy": 0.7841838598251343,
      "num_tokens": 95130397.0,
      "step": 1452
    },
    {
      "epoch": 0.19204335183716628,
      "grad_norm": 0.9222527596335646,
      "learning_rate": 9.770617323728844e-06,
      "loss": 0.6874,
      "mean_token_accuracy": 0.7791478633880615,
      "num_tokens": 95195933.0,
      "step": 1453
    },
    {
      "epoch": 0.1921755220724293,
      "grad_norm": 0.8933771994033721,
      "learning_rate": 9.769962441106665e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7919973134994507,
      "num_tokens": 95261469.0,
      "step": 1454
    },
    {
      "epoch": 0.19230769230769232,
      "grad_norm": 0.870286838166974,
      "learning_rate": 9.769306649498634e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.8012910485267639,
      "num_tokens": 95327005.0,
      "step": 1455
    },
    {
      "epoch": 0.19243986254295534,
      "grad_norm": 0.9498506643795248,
      "learning_rate": 9.768649949044351e-06,
      "loss": 0.6853,
      "mean_token_accuracy": 0.7783390283584595,
      "num_tokens": 95392541.0,
      "step": 1456
    },
    {
      "epoch": 0.19257203277821835,
      "grad_norm": 0.9385986074135884,
      "learning_rate": 9.76799233988362e-06,
      "loss": 0.6641,
      "mean_token_accuracy": 0.7870528697967529,
      "num_tokens": 95458077.0,
      "step": 1457
    },
    {
      "epoch": 0.19270420301348137,
      "grad_norm": 0.9625605020917336,
      "learning_rate": 9.767333822156429e-06,
      "loss": 0.6792,
      "mean_token_accuracy": 0.7820016145706177,
      "num_tokens": 95523613.0,
      "step": 1458
    },
    {
      "epoch": 0.1928363732487444,
      "grad_norm": 0.8743884025431465,
      "learning_rate": 9.766674396002963e-06,
      "loss": 0.6316,
      "mean_token_accuracy": 0.7946832180023193,
      "num_tokens": 95589149.0,
      "step": 1459
    },
    {
      "epoch": 0.1929685434840074,
      "grad_norm": 0.9438718586938065,
      "learning_rate": 9.766014061563597e-06,
      "loss": 0.6283,
      "mean_token_accuracy": 0.7975369095802307,
      "num_tokens": 95654685.0,
      "step": 1460
    },
    {
      "epoch": 0.19310071371927043,
      "grad_norm": 0.9739413113526605,
      "learning_rate": 9.765352818978908e-06,
      "loss": 0.6588,
      "mean_token_accuracy": 0.7876022458076477,
      "num_tokens": 95720221.0,
      "step": 1461
    },
    {
      "epoch": 0.19323288395453345,
      "grad_norm": 0.8948593279916657,
      "learning_rate": 9.764690668389658e-06,
      "loss": 0.6628,
      "mean_token_accuracy": 0.7845043540000916,
      "num_tokens": 95785757.0,
      "step": 1462
    },
    {
      "epoch": 0.19336505418979646,
      "grad_norm": 1.0409145018795645,
      "learning_rate": 9.764027609936803e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 95851293.0,
      "step": 1463
    },
    {
      "epoch": 0.19349722442505948,
      "grad_norm": 0.9052705882355866,
      "learning_rate": 9.763363643761497e-06,
      "loss": 0.6455,
      "mean_token_accuracy": 0.7919210195541382,
      "num_tokens": 95916829.0,
      "step": 1464
    },
    {
      "epoch": 0.1936293946603225,
      "grad_norm": 0.9934580783435344,
      "learning_rate": 9.762698770005084e-06,
      "loss": 0.6332,
      "mean_token_accuracy": 0.7984830737113953,
      "num_tokens": 95982365.0,
      "step": 1465
    },
    {
      "epoch": 0.19376156489558552,
      "grad_norm": 0.9605828375258496,
      "learning_rate": 9.762032988809103e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.788914680480957,
      "num_tokens": 96047901.0,
      "step": 1466
    },
    {
      "epoch": 0.19389373513084854,
      "grad_norm": 0.9998875544257554,
      "learning_rate": 9.761366300315282e-06,
      "loss": 0.641,
      "mean_token_accuracy": 0.7967433929443359,
      "num_tokens": 96113437.0,
      "step": 1467
    },
    {
      "epoch": 0.19402590536611156,
      "grad_norm": 0.887171314927199,
      "learning_rate": 9.760698704665546e-06,
      "loss": 0.6254,
      "mean_token_accuracy": 0.7974758744239807,
      "num_tokens": 96178973.0,
      "step": 1468
    },
    {
      "epoch": 0.19415807560137457,
      "grad_norm": 0.9622286747669133,
      "learning_rate": 9.760030202002015e-06,
      "loss": 0.6296,
      "mean_token_accuracy": 0.7957361936569214,
      "num_tokens": 96244509.0,
      "step": 1469
    },
    {
      "epoch": 0.1942902458366376,
      "grad_norm": 0.9765417543518619,
      "learning_rate": 9.759360792466996e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 96310045.0,
      "step": 1470
    },
    {
      "epoch": 0.1944224160719006,
      "grad_norm": 0.8745935829873474,
      "learning_rate": 9.758690476202991e-06,
      "loss": 0.6327,
      "mean_token_accuracy": 0.7961024045944214,
      "num_tokens": 96375581.0,
      "step": 1471
    },
    {
      "epoch": 0.19455458630716363,
      "grad_norm": 1.0061737240753048,
      "learning_rate": 9.758019253352702e-06,
      "loss": 0.7123,
      "mean_token_accuracy": 0.7712122797966003,
      "num_tokens": 96441117.0,
      "step": 1472
    },
    {
      "epoch": 0.19468675654242665,
      "grad_norm": 1.0512275273574168,
      "learning_rate": 9.757347124059014e-06,
      "loss": 0.7149,
      "mean_token_accuracy": 0.768419623374939,
      "num_tokens": 96506653.0,
      "step": 1473
    },
    {
      "epoch": 0.19481892677768967,
      "grad_norm": 1.0203510757189855,
      "learning_rate": 9.75667408846501e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.798757791519165,
      "num_tokens": 96572189.0,
      "step": 1474
    },
    {
      "epoch": 0.19495109701295268,
      "grad_norm": 0.8868296730595451,
      "learning_rate": 9.756000146713966e-06,
      "loss": 0.6152,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 96637725.0,
      "step": 1475
    },
    {
      "epoch": 0.1950832672482157,
      "grad_norm": 0.8820692737631309,
      "learning_rate": 9.755325298949348e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7983610033988953,
      "num_tokens": 96703261.0,
      "step": 1476
    },
    {
      "epoch": 0.19521543748347872,
      "grad_norm": 1.021352522589375,
      "learning_rate": 9.754649545314821e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7919973134994507,
      "num_tokens": 96768797.0,
      "step": 1477
    },
    {
      "epoch": 0.19534760771874174,
      "grad_norm": 1.026871041989811,
      "learning_rate": 9.753972885954235e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7874954342842102,
      "num_tokens": 96834333.0,
      "step": 1478
    },
    {
      "epoch": 0.19547977795400476,
      "grad_norm": 1.0051416805902722,
      "learning_rate": 9.753295321011638e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.788945198059082,
      "num_tokens": 96899869.0,
      "step": 1479
    },
    {
      "epoch": 0.19561194818926778,
      "grad_norm": 0.8581285005428064,
      "learning_rate": 9.752616850631271e-06,
      "loss": 0.565,
      "mean_token_accuracy": 0.8171926736831665,
      "num_tokens": 96965405.0,
      "step": 1480
    },
    {
      "epoch": 0.1957441184245308,
      "grad_norm": 1.0156984659765331,
      "learning_rate": 9.751937474957564e-06,
      "loss": 0.6543,
      "mean_token_accuracy": 0.7869460582733154,
      "num_tokens": 97030941.0,
      "step": 1481
    },
    {
      "epoch": 0.1958762886597938,
      "grad_norm": 0.9700574783986211,
      "learning_rate": 9.751257194135142e-06,
      "loss": 0.6277,
      "mean_token_accuracy": 0.7984830737113953,
      "num_tokens": 97096477.0,
      "step": 1482
    },
    {
      "epoch": 0.19600845889505683,
      "grad_norm": 0.9189192249328523,
      "learning_rate": 9.750576008308824e-06,
      "loss": 0.6001,
      "mean_token_accuracy": 0.8040990233421326,
      "num_tokens": 97162013.0,
      "step": 1483
    },
    {
      "epoch": 0.19614062913031985,
      "grad_norm": 0.9476214108657696,
      "learning_rate": 9.749893917623618e-06,
      "loss": 0.6439,
      "mean_token_accuracy": 0.7928519248962402,
      "num_tokens": 97227549.0,
      "step": 1484
    },
    {
      "epoch": 0.19627279936558287,
      "grad_norm": 0.885609086563772,
      "learning_rate": 9.74921092222473e-06,
      "loss": 0.6234,
      "mean_token_accuracy": 0.79878830909729,
      "num_tokens": 97293085.0,
      "step": 1485
    },
    {
      "epoch": 0.19640496960084589,
      "grad_norm": 0.9736418619039101,
      "learning_rate": 9.748527022257553e-06,
      "loss": 0.6847,
      "mean_token_accuracy": 0.7769197821617126,
      "num_tokens": 97358621.0,
      "step": 1486
    },
    {
      "epoch": 0.1965371398361089,
      "grad_norm": 0.8036672758816947,
      "learning_rate": 9.747842217867677e-06,
      "loss": 0.5545,
      "mean_token_accuracy": 0.8217403292655945,
      "num_tokens": 97424157.0,
      "step": 1487
    },
    {
      "epoch": 0.19666931007137192,
      "grad_norm": 0.962928633175098,
      "learning_rate": 9.747156509200878e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 97489693.0,
      "step": 1488
    },
    {
      "epoch": 0.19680148030663494,
      "grad_norm": 0.8726593267199936,
      "learning_rate": 9.746469896403138e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7910664081573486,
      "num_tokens": 97555229.0,
      "step": 1489
    },
    {
      "epoch": 0.19693365054189796,
      "grad_norm": 0.9127511240555193,
      "learning_rate": 9.745782379620612e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7963923811912537,
      "num_tokens": 97620765.0,
      "step": 1490
    },
    {
      "epoch": 0.19706582077716098,
      "grad_norm": 0.9435798472505577,
      "learning_rate": 9.745093958999664e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7906696200370789,
      "num_tokens": 97686301.0,
      "step": 1491
    },
    {
      "epoch": 0.197197991012424,
      "grad_norm": 1.0095533791938227,
      "learning_rate": 9.744404634686845e-06,
      "loss": 0.7158,
      "mean_token_accuracy": 0.7681449055671692,
      "num_tokens": 97751837.0,
      "step": 1492
    },
    {
      "epoch": 0.197330161247687,
      "grad_norm": 0.9861693913982669,
      "learning_rate": 9.743714406828896e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.8039769530296326,
      "num_tokens": 97817373.0,
      "step": 1493
    },
    {
      "epoch": 0.19746233148295003,
      "grad_norm": 0.9176210619332914,
      "learning_rate": 9.74302327557275e-06,
      "loss": 0.6882,
      "mean_token_accuracy": 0.7798956036567688,
      "num_tokens": 97882909.0,
      "step": 1494
    },
    {
      "epoch": 0.19759450171821305,
      "grad_norm": 1.0055800461064726,
      "learning_rate": 9.742331241065541e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7787968516349792,
      "num_tokens": 97948445.0,
      "step": 1495
    },
    {
      "epoch": 0.19772667195347607,
      "grad_norm": 0.9131081113103628,
      "learning_rate": 9.741638303454579e-06,
      "loss": 0.6644,
      "mean_token_accuracy": 0.7848095297813416,
      "num_tokens": 98013981.0,
      "step": 1496
    },
    {
      "epoch": 0.1978588421887391,
      "grad_norm": 1.169037105757483,
      "learning_rate": 9.740944462887384e-06,
      "loss": 0.7211,
      "mean_token_accuracy": 0.7683128118515015,
      "num_tokens": 98079517.0,
      "step": 1497
    },
    {
      "epoch": 0.1979910124240021,
      "grad_norm": 0.9465639480298889,
      "learning_rate": 9.740249719511657e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8073647618293762,
      "num_tokens": 98145053.0,
      "step": 1498
    },
    {
      "epoch": 0.19812318265926512,
      "grad_norm": 0.9168648251477732,
      "learning_rate": 9.739554073475295e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 98210589.0,
      "step": 1499
    },
    {
      "epoch": 0.19825535289452814,
      "grad_norm": 0.9371436351732721,
      "learning_rate": 9.738857524926385e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.7870681285858154,
      "num_tokens": 98276125.0,
      "step": 1500
    },
    {
      "epoch": 0.19838752312979116,
      "grad_norm": 0.8842688723924053,
      "learning_rate": 9.73816007401321e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7922109365463257,
      "num_tokens": 98341661.0,
      "step": 1501
    },
    {
      "epoch": 0.19851969336505418,
      "grad_norm": 0.9554878331508121,
      "learning_rate": 9.73746172088424e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.7956140637397766,
      "num_tokens": 98407197.0,
      "step": 1502
    },
    {
      "epoch": 0.1986518636003172,
      "grad_norm": 0.8903078972000071,
      "learning_rate": 9.736762465688142e-06,
      "loss": 0.6614,
      "mean_token_accuracy": 0.789097785949707,
      "num_tokens": 98472733.0,
      "step": 1503
    },
    {
      "epoch": 0.19878403383558021,
      "grad_norm": 0.9099386580086062,
      "learning_rate": 9.736062308573775e-06,
      "loss": 0.6606,
      "mean_token_accuracy": 0.789067268371582,
      "num_tokens": 98538269.0,
      "step": 1504
    },
    {
      "epoch": 0.19891620407084323,
      "grad_norm": 0.9641323448503957,
      "learning_rate": 9.735361249690183e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7942101359367371,
      "num_tokens": 98603805.0,
      "step": 1505
    },
    {
      "epoch": 0.19904837430610625,
      "grad_norm": 1.11596203149268,
      "learning_rate": 9.73465928918661e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.7958430051803589,
      "num_tokens": 98669341.0,
      "step": 1506
    },
    {
      "epoch": 0.19918054454136927,
      "grad_norm": 0.9962287984584,
      "learning_rate": 9.733956427212487e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.8053045868873596,
      "num_tokens": 98734877.0,
      "step": 1507
    },
    {
      "epoch": 0.19931271477663232,
      "grad_norm": 0.8144639898115308,
      "learning_rate": 9.733252663917439e-06,
      "loss": 0.6141,
      "mean_token_accuracy": 0.8026034832000732,
      "num_tokens": 98800413.0,
      "step": 1508
    },
    {
      "epoch": 0.19944488501189533,
      "grad_norm": 0.9594569389052402,
      "learning_rate": 9.732547999451284e-06,
      "loss": 0.6567,
      "mean_token_accuracy": 0.7892045974731445,
      "num_tokens": 98865949.0,
      "step": 1509
    },
    {
      "epoch": 0.19957705524715835,
      "grad_norm": 1.168791493434508,
      "learning_rate": 9.731842433964027e-06,
      "loss": 0.6813,
      "mean_token_accuracy": 0.7813148498535156,
      "num_tokens": 98931485.0,
      "step": 1510
    },
    {
      "epoch": 0.19970922548242137,
      "grad_norm": 1.265082160138673,
      "learning_rate": 9.73113596760587e-06,
      "loss": 0.7122,
      "mean_token_accuracy": 0.7699914574623108,
      "num_tokens": 98997021.0,
      "step": 1511
    },
    {
      "epoch": 0.1998413957176844,
      "grad_norm": 1.0281255686015152,
      "learning_rate": 9.730428600527207e-06,
      "loss": 0.6759,
      "mean_token_accuracy": 0.7840923070907593,
      "num_tokens": 99062557.0,
      "step": 1512
    },
    {
      "epoch": 0.1999735659529474,
      "grad_norm": 0.955307789788948,
      "learning_rate": 9.72972033287862e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.7895403504371643,
      "num_tokens": 99128093.0,
      "step": 1513
    },
    {
      "epoch": 0.20010573618821043,
      "grad_norm": 1.074268062276227,
      "learning_rate": 9.729011164810885e-06,
      "loss": 0.6497,
      "mean_token_accuracy": 0.7919973134994507,
      "num_tokens": 99193629.0,
      "step": 1514
    },
    {
      "epoch": 0.20023790642347344,
      "grad_norm": 1.045498457651409,
      "learning_rate": 9.728301096474966e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7941948771476746,
      "num_tokens": 99259165.0,
      "step": 1515
    },
    {
      "epoch": 0.20037007665873646,
      "grad_norm": 1.0300515560971952,
      "learning_rate": 9.727590128022026e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.7861982583999634,
      "num_tokens": 99324701.0,
      "step": 1516
    },
    {
      "epoch": 0.20050224689399948,
      "grad_norm": 0.9571270682809071,
      "learning_rate": 9.726878259603411e-06,
      "loss": 0.6786,
      "mean_token_accuracy": 0.7795599102973938,
      "num_tokens": 99390237.0,
      "step": 1517
    },
    {
      "epoch": 0.2006344171292625,
      "grad_norm": 0.9939146345733468,
      "learning_rate": 9.726165491370668e-06,
      "loss": 0.6427,
      "mean_token_accuracy": 0.7924246191978455,
      "num_tokens": 99455773.0,
      "step": 1518
    },
    {
      "epoch": 0.20076658736452552,
      "grad_norm": 1.090350878242779,
      "learning_rate": 9.725451823475527e-06,
      "loss": 0.6836,
      "mean_token_accuracy": 0.7802923917770386,
      "num_tokens": 99521309.0,
      "step": 1519
    },
    {
      "epoch": 0.20089875759978854,
      "grad_norm": 1.1481766562359819,
      "learning_rate": 9.724737256069915e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.7855420708656311,
      "num_tokens": 99586845.0,
      "step": 1520
    },
    {
      "epoch": 0.20103092783505155,
      "grad_norm": 0.9579081989508901,
      "learning_rate": 9.724021789305945e-06,
      "loss": 0.6533,
      "mean_token_accuracy": 0.7912037372589111,
      "num_tokens": 99652381.0,
      "step": 1521
    },
    {
      "epoch": 0.20116309807031457,
      "grad_norm": 0.999316833166846,
      "learning_rate": 9.72330542333593e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.7903034090995789,
      "num_tokens": 99717917.0,
      "step": 1522
    },
    {
      "epoch": 0.2012952683055776,
      "grad_norm": 0.9893011323224558,
      "learning_rate": 9.722588158312367e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7992613911628723,
      "num_tokens": 99783453.0,
      "step": 1523
    },
    {
      "epoch": 0.2014274385408406,
      "grad_norm": 0.9815657809046194,
      "learning_rate": 9.721869994387943e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.8033207058906555,
      "num_tokens": 99848989.0,
      "step": 1524
    },
    {
      "epoch": 0.20155960877610363,
      "grad_norm": 0.9872337035433623,
      "learning_rate": 9.721150931715545e-06,
      "loss": 0.664,
      "mean_token_accuracy": 0.7849010825157166,
      "num_tokens": 99914525.0,
      "step": 1525
    },
    {
      "epoch": 0.20169177901136665,
      "grad_norm": 1.0244069233551267,
      "learning_rate": 9.720430970448246e-06,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7883500456809998,
      "num_tokens": 99980061.0,
      "step": 1526
    },
    {
      "epoch": 0.20182394924662966,
      "grad_norm": 1.0138698274506799,
      "learning_rate": 9.719710110739307e-06,
      "loss": 0.7196,
      "mean_token_accuracy": 0.768572211265564,
      "num_tokens": 100045597.0,
      "step": 1527
    },
    {
      "epoch": 0.20195611948189268,
      "grad_norm": 0.9872821492356394,
      "learning_rate": 9.718988352742189e-06,
      "loss": 0.6868,
      "mean_token_accuracy": 0.7816048264503479,
      "num_tokens": 100111133.0,
      "step": 1528
    },
    {
      "epoch": 0.2020882897171557,
      "grad_norm": 1.0134441280767594,
      "learning_rate": 9.718265696610537e-06,
      "loss": 0.6744,
      "mean_token_accuracy": 0.7828409075737,
      "num_tokens": 100176669.0,
      "step": 1529
    },
    {
      "epoch": 0.20222045995241872,
      "grad_norm": 1.1749009673541193,
      "learning_rate": 9.717542142498187e-06,
      "loss": 0.7119,
      "mean_token_accuracy": 0.7723110914230347,
      "num_tokens": 100242205.0,
      "step": 1530
    },
    {
      "epoch": 0.20235263018768174,
      "grad_norm": 0.887081277605388,
      "learning_rate": 9.716817690559173e-06,
      "loss": 0.6329,
      "mean_token_accuracy": 0.7946678996086121,
      "num_tokens": 100307741.0,
      "step": 1531
    },
    {
      "epoch": 0.20248480042294476,
      "grad_norm": 0.8574826016809914,
      "learning_rate": 9.716092340947712e-06,
      "loss": 0.6798,
      "mean_token_accuracy": 0.7816811203956604,
      "num_tokens": 100373277.0,
      "step": 1532
    },
    {
      "epoch": 0.20261697065820777,
      "grad_norm": 1.024465564062011,
      "learning_rate": 9.715366093818218e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.8048620223999023,
      "num_tokens": 100438813.0,
      "step": 1533
    },
    {
      "epoch": 0.2027491408934708,
      "grad_norm": 0.9155589302076796,
      "learning_rate": 9.714638949325295e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.8044347167015076,
      "num_tokens": 100504349.0,
      "step": 1534
    },
    {
      "epoch": 0.2028813111287338,
      "grad_norm": 0.9812432212719909,
      "learning_rate": 9.713910907623732e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7980252504348755,
      "num_tokens": 100569885.0,
      "step": 1535
    },
    {
      "epoch": 0.20301348136399683,
      "grad_norm": 1.0335824461265497,
      "learning_rate": 9.713181968868518e-06,
      "loss": 0.7148,
      "mean_token_accuracy": 0.7662983536720276,
      "num_tokens": 100635421.0,
      "step": 1536
    },
    {
      "epoch": 0.20314565159925985,
      "grad_norm": 0.85805277669818,
      "learning_rate": 9.712452133214828e-06,
      "loss": 0.6501,
      "mean_token_accuracy": 0.792714536190033,
      "num_tokens": 100700957.0,
      "step": 1537
    },
    {
      "epoch": 0.20327782183452286,
      "grad_norm": 0.8896585196595803,
      "learning_rate": 9.711721400818028e-06,
      "loss": 0.6288,
      "mean_token_accuracy": 0.7973538041114807,
      "num_tokens": 100766493.0,
      "step": 1538
    },
    {
      "epoch": 0.20340999206978588,
      "grad_norm": 1.035017232490739,
      "learning_rate": 9.710989771833676e-06,
      "loss": 0.6898,
      "mean_token_accuracy": 0.7759125828742981,
      "num_tokens": 100832029.0,
      "step": 1539
    },
    {
      "epoch": 0.2035421623050489,
      "grad_norm": 0.9507170562350905,
      "learning_rate": 9.710257246417522e-06,
      "loss": 0.6412,
      "mean_token_accuracy": 0.7935081124305725,
      "num_tokens": 100897565.0,
      "step": 1540
    },
    {
      "epoch": 0.20367433254031192,
      "grad_norm": 1.0825260882107708,
      "learning_rate": 9.709523824725503e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 100963101.0,
      "step": 1541
    },
    {
      "epoch": 0.20380650277557494,
      "grad_norm": 0.9080851698011513,
      "learning_rate": 9.708789506913751e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.784580647945404,
      "num_tokens": 101028637.0,
      "step": 1542
    },
    {
      "epoch": 0.20393867301083796,
      "grad_norm": 0.9337132906956461,
      "learning_rate": 9.708054293138586e-06,
      "loss": 0.6508,
      "mean_token_accuracy": 0.7899066209793091,
      "num_tokens": 101094173.0,
      "step": 1543
    },
    {
      "epoch": 0.20407084324610097,
      "grad_norm": 1.0252753575144258,
      "learning_rate": 9.707318183556519e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8051672577857971,
      "num_tokens": 101159709.0,
      "step": 1544
    },
    {
      "epoch": 0.204203013481364,
      "grad_norm": 0.9161673252143762,
      "learning_rate": 9.706581178324253e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7898608446121216,
      "num_tokens": 101225245.0,
      "step": 1545
    },
    {
      "epoch": 0.204335183716627,
      "grad_norm": 0.9836941677133094,
      "learning_rate": 9.705843277598683e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7959040403366089,
      "num_tokens": 101290781.0,
      "step": 1546
    },
    {
      "epoch": 0.20446735395189003,
      "grad_norm": 0.9494269924536325,
      "learning_rate": 9.70510448153689e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.8018099069595337,
      "num_tokens": 101356317.0,
      "step": 1547
    },
    {
      "epoch": 0.20459952418715305,
      "grad_norm": 0.9518011086037416,
      "learning_rate": 9.704364790296147e-06,
      "loss": 0.685,
      "mean_token_accuracy": 0.778232216835022,
      "num_tokens": 101421853.0,
      "step": 1548
    },
    {
      "epoch": 0.20473169442241607,
      "grad_norm": 0.8844780639358497,
      "learning_rate": 9.703624204033925e-06,
      "loss": 0.6433,
      "mean_token_accuracy": 0.7929892539978027,
      "num_tokens": 101487389.0,
      "step": 1549
    },
    {
      "epoch": 0.20486386465767908,
      "grad_norm": 1.0408928346702688,
      "learning_rate": 9.70288272290787e-06,
      "loss": 0.6389,
      "mean_token_accuracy": 0.7937523126602173,
      "num_tokens": 101552925.0,
      "step": 1550
    },
    {
      "epoch": 0.2049960348929421,
      "grad_norm": 1.0382957922386056,
      "learning_rate": 9.702140347075839e-06,
      "loss": 0.6857,
      "mean_token_accuracy": 0.7816963791847229,
      "num_tokens": 101618461.0,
      "step": 1551
    },
    {
      "epoch": 0.20512820512820512,
      "grad_norm": 0.8832037934656131,
      "learning_rate": 9.70139707669586e-06,
      "loss": 0.6558,
      "mean_token_accuracy": 0.7912037372589111,
      "num_tokens": 101683997.0,
      "step": 1552
    },
    {
      "epoch": 0.20526037536346814,
      "grad_norm": 0.8435099666810807,
      "learning_rate": 9.700652911926163e-06,
      "loss": 0.6205,
      "mean_token_accuracy": 0.7990171909332275,
      "num_tokens": 101749533.0,
      "step": 1553
    },
    {
      "epoch": 0.20539254559873116,
      "grad_norm": 0.8843394725387055,
      "learning_rate": 9.699907852925162e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.8021456599235535,
      "num_tokens": 101815069.0,
      "step": 1554
    },
    {
      "epoch": 0.20552471583399418,
      "grad_norm": 1.0520836606620807,
      "learning_rate": 9.699161899851467e-06,
      "loss": 0.669,
      "mean_token_accuracy": 0.784794270992279,
      "num_tokens": 101880605.0,
      "step": 1555
    },
    {
      "epoch": 0.2056568860692572,
      "grad_norm": 0.9074301750029589,
      "learning_rate": 9.698415052863878e-06,
      "loss": 0.6481,
      "mean_token_accuracy": 0.7906085848808289,
      "num_tokens": 101946141.0,
      "step": 1556
    },
    {
      "epoch": 0.2057890563045202,
      "grad_norm": 0.9310266025309851,
      "learning_rate": 9.69766731212138e-06,
      "loss": 0.6538,
      "mean_token_accuracy": 0.7869613170623779,
      "num_tokens": 102011677.0,
      "step": 1557
    },
    {
      "epoch": 0.20592122653978323,
      "grad_norm": 0.9193801615252842,
      "learning_rate": 9.696918677783153e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.8009247779846191,
      "num_tokens": 102077213.0,
      "step": 1558
    },
    {
      "epoch": 0.20605339677504625,
      "grad_norm": 0.9018867712806348,
      "learning_rate": 9.696169150008563e-06,
      "loss": 0.6079,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 102142749.0,
      "step": 1559
    },
    {
      "epoch": 0.20618556701030927,
      "grad_norm": 1.0048869287333844,
      "learning_rate": 9.695418728957174e-06,
      "loss": 0.6824,
      "mean_token_accuracy": 0.7796209454536438,
      "num_tokens": 102208285.0,
      "step": 1560
    },
    {
      "epoch": 0.20631773724557229,
      "grad_norm": 0.9371625443134994,
      "learning_rate": 9.694667414788728e-06,
      "loss": 0.6688,
      "mean_token_accuracy": 0.7819710373878479,
      "num_tokens": 102273821.0,
      "step": 1561
    },
    {
      "epoch": 0.2064499074808353,
      "grad_norm": 0.8437241563382782,
      "learning_rate": 9.693915207663168e-06,
      "loss": 0.6443,
      "mean_token_accuracy": 0.7950799465179443,
      "num_tokens": 102339357.0,
      "step": 1562
    },
    {
      "epoch": 0.20658207771609832,
      "grad_norm": 1.009352942133089,
      "learning_rate": 9.693162107740624e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.7889909744262695,
      "num_tokens": 102404893.0,
      "step": 1563
    },
    {
      "epoch": 0.20671424795136134,
      "grad_norm": 1.0235082337531658,
      "learning_rate": 9.692408115181415e-06,
      "loss": 0.6613,
      "mean_token_accuracy": 0.7853131294250488,
      "num_tokens": 102470429.0,
      "step": 1564
    },
    {
      "epoch": 0.20684641818662436,
      "grad_norm": 0.9958916018866385,
      "learning_rate": 9.691653230146049e-06,
      "loss": 0.6439,
      "mean_token_accuracy": 0.7909748554229736,
      "num_tokens": 102535965.0,
      "step": 1565
    },
    {
      "epoch": 0.20697858842188738,
      "grad_norm": 0.914413545903517,
      "learning_rate": 9.690897452795225e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7884568572044373,
      "num_tokens": 102601501.0,
      "step": 1566
    },
    {
      "epoch": 0.20711075865715042,
      "grad_norm": 1.1082745444736712,
      "learning_rate": 9.690140783289834e-06,
      "loss": 0.7226,
      "mean_token_accuracy": 0.7666035890579224,
      "num_tokens": 102667037.0,
      "step": 1567
    },
    {
      "epoch": 0.20724292889241344,
      "grad_norm": 0.9056305693739503,
      "learning_rate": 9.689383221790952e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7949883937835693,
      "num_tokens": 102732573.0,
      "step": 1568
    },
    {
      "epoch": 0.20737509912767646,
      "grad_norm": 0.9954590010607698,
      "learning_rate": 9.688624768459852e-06,
      "loss": 0.6627,
      "mean_token_accuracy": 0.784519612789154,
      "num_tokens": 102798109.0,
      "step": 1569
    },
    {
      "epoch": 0.20750726936293948,
      "grad_norm": 0.933465776303074,
      "learning_rate": 9.687865423457991e-06,
      "loss": 0.643,
      "mean_token_accuracy": 0.7920583486557007,
      "num_tokens": 102863645.0,
      "step": 1570
    },
    {
      "epoch": 0.2076394395982025,
      "grad_norm": 1.0376829770056086,
      "learning_rate": 9.687105186947017e-06,
      "loss": 0.7313,
      "mean_token_accuracy": 0.7674429416656494,
      "num_tokens": 102929181.0,
      "step": 1571
    },
    {
      "epoch": 0.20777160983346551,
      "grad_norm": 0.9330204233122568,
      "learning_rate": 9.686344059088769e-06,
      "loss": 0.6373,
      "mean_token_accuracy": 0.7918752431869507,
      "num_tokens": 102994717.0,
      "step": 1572
    },
    {
      "epoch": 0.20790378006872853,
      "grad_norm": 1.0162313337684123,
      "learning_rate": 9.685582040045277e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.7868086695671082,
      "num_tokens": 103060253.0,
      "step": 1573
    },
    {
      "epoch": 0.20803595030399155,
      "grad_norm": 0.8339978139123361,
      "learning_rate": 9.684819129978754e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8108289837837219,
      "num_tokens": 103125789.0,
      "step": 1574
    },
    {
      "epoch": 0.20816812053925457,
      "grad_norm": 0.9234543165006864,
      "learning_rate": 9.684055329051613e-06,
      "loss": 0.6076,
      "mean_token_accuracy": 0.802191436290741,
      "num_tokens": 103191325.0,
      "step": 1575
    },
    {
      "epoch": 0.2083002907745176,
      "grad_norm": 0.8973299175804911,
      "learning_rate": 9.68329063742645e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.797948956489563,
      "num_tokens": 103256861.0,
      "step": 1576
    },
    {
      "epoch": 0.2084324610097806,
      "grad_norm": 0.9037318922866201,
      "learning_rate": 9.68252505526605e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.8019472360610962,
      "num_tokens": 103322397.0,
      "step": 1577
    },
    {
      "epoch": 0.20856463124504362,
      "grad_norm": 0.9822306050485301,
      "learning_rate": 9.68175858273339e-06,
      "loss": 0.6971,
      "mean_token_accuracy": 0.7793920040130615,
      "num_tokens": 103387933.0,
      "step": 1578
    },
    {
      "epoch": 0.20869680148030664,
      "grad_norm": 0.9672856577797303,
      "learning_rate": 9.680991219991637e-06,
      "loss": 0.6431,
      "mean_token_accuracy": 0.7891130447387695,
      "num_tokens": 103453469.0,
      "step": 1579
    },
    {
      "epoch": 0.20882897171556966,
      "grad_norm": 0.9537185477091711,
      "learning_rate": 9.680222967204147e-06,
      "loss": 0.6375,
      "mean_token_accuracy": 0.792500913143158,
      "num_tokens": 103519005.0,
      "step": 1580
    },
    {
      "epoch": 0.20896114195083268,
      "grad_norm": 0.9123528993983928,
      "learning_rate": 9.679453824534464e-06,
      "loss": 0.5941,
      "mean_token_accuracy": 0.8071358799934387,
      "num_tokens": 103584541.0,
      "step": 1581
    },
    {
      "epoch": 0.2090933121860957,
      "grad_norm": 0.9672526596176259,
      "learning_rate": 9.678683792146321e-06,
      "loss": 0.6613,
      "mean_token_accuracy": 0.7874954342842102,
      "num_tokens": 103650077.0,
      "step": 1582
    },
    {
      "epoch": 0.20922548242135872,
      "grad_norm": 0.9225914280745993,
      "learning_rate": 9.677912870203646e-06,
      "loss": 0.649,
      "mean_token_accuracy": 0.7910816669464111,
      "num_tokens": 103715613.0,
      "step": 1583
    },
    {
      "epoch": 0.20935765265662173,
      "grad_norm": 0.9431065917213796,
      "learning_rate": 9.677141058870548e-06,
      "loss": 0.6696,
      "mean_token_accuracy": 0.7836650013923645,
      "num_tokens": 103781149.0,
      "step": 1584
    },
    {
      "epoch": 0.20948982289188475,
      "grad_norm": 0.917533658327395,
      "learning_rate": 9.67636835831133e-06,
      "loss": 0.665,
      "mean_token_accuracy": 0.7840160131454468,
      "num_tokens": 103846685.0,
      "step": 1585
    },
    {
      "epoch": 0.20962199312714777,
      "grad_norm": 0.9301138677996366,
      "learning_rate": 9.675594768690487e-06,
      "loss": 0.6733,
      "mean_token_accuracy": 0.7834208011627197,
      "num_tokens": 103912221.0,
      "step": 1586
    },
    {
      "epoch": 0.2097541633624108,
      "grad_norm": 0.8669028902154545,
      "learning_rate": 9.674820290172695e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 103977757.0,
      "step": 1587
    },
    {
      "epoch": 0.2098863335976738,
      "grad_norm": 0.9374584838647813,
      "learning_rate": 9.67404492292283e-06,
      "loss": 0.7093,
      "mean_token_accuracy": 0.775073230266571,
      "num_tokens": 104043293.0,
      "step": 1588
    },
    {
      "epoch": 0.21001850383293683,
      "grad_norm": 0.8830002769410339,
      "learning_rate": 9.673268667105944e-06,
      "loss": 0.6619,
      "mean_token_accuracy": 0.7856946587562561,
      "num_tokens": 104108829.0,
      "step": 1589
    },
    {
      "epoch": 0.21015067406819984,
      "grad_norm": 0.928915006551426,
      "learning_rate": 9.672491522887295e-06,
      "loss": 0.6582,
      "mean_token_accuracy": 0.7847790122032166,
      "num_tokens": 104174365.0,
      "step": 1590
    },
    {
      "epoch": 0.21028284430346286,
      "grad_norm": 0.850228759470226,
      "learning_rate": 9.671713490432315e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7994597554206848,
      "num_tokens": 104239901.0,
      "step": 1591
    },
    {
      "epoch": 0.21041501453872588,
      "grad_norm": 0.8962460308301236,
      "learning_rate": 9.670934569906632e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7922415137290955,
      "num_tokens": 104305437.0,
      "step": 1592
    },
    {
      "epoch": 0.2105471847739889,
      "grad_norm": 0.810120802803322,
      "learning_rate": 9.670154761476062e-06,
      "loss": 0.5981,
      "mean_token_accuracy": 0.8061286807060242,
      "num_tokens": 104370973.0,
      "step": 1593
    },
    {
      "epoch": 0.21067935500925192,
      "grad_norm": 0.8938639671174305,
      "learning_rate": 9.669374065306611e-06,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7857251763343811,
      "num_tokens": 104436509.0,
      "step": 1594
    },
    {
      "epoch": 0.21081152524451494,
      "grad_norm": 0.9490271729139327,
      "learning_rate": 9.668592481564469e-06,
      "loss": 0.6839,
      "mean_token_accuracy": 0.7807196974754333,
      "num_tokens": 104502045.0,
      "step": 1595
    },
    {
      "epoch": 0.21094369547977795,
      "grad_norm": 0.890054197772487,
      "learning_rate": 9.667810010416023e-06,
      "loss": 0.585,
      "mean_token_accuracy": 0.8095775842666626,
      "num_tokens": 104567581.0,
      "step": 1596
    },
    {
      "epoch": 0.21107586571504097,
      "grad_norm": 0.8332538895514837,
      "learning_rate": 9.667026652027843e-06,
      "loss": 0.6336,
      "mean_token_accuracy": 0.7956598997116089,
      "num_tokens": 104633117.0,
      "step": 1597
    },
    {
      "epoch": 0.211208035950304,
      "grad_norm": 0.9523443046739365,
      "learning_rate": 9.666242406566691e-06,
      "loss": 0.6694,
      "mean_token_accuracy": 0.7841228246688843,
      "num_tokens": 104698653.0,
      "step": 1598
    },
    {
      "epoch": 0.211340206185567,
      "grad_norm": 0.9314480012640454,
      "learning_rate": 9.665457274199515e-06,
      "loss": 0.6473,
      "mean_token_accuracy": 0.7906391024589539,
      "num_tokens": 104764189.0,
      "step": 1599
    },
    {
      "epoch": 0.21147237642083003,
      "grad_norm": 0.9320717004715612,
      "learning_rate": 9.664671255093454e-06,
      "loss": 0.6756,
      "mean_token_accuracy": 0.7849926948547363,
      "num_tokens": 104829725.0,
      "step": 1600
    },
    {
      "epoch": 0.21160454665609305,
      "grad_norm": 0.9194674824241271,
      "learning_rate": 9.663884349415835e-06,
      "loss": 0.6395,
      "mean_token_accuracy": 0.7928061485290527,
      "num_tokens": 104895261.0,
      "step": 1601
    },
    {
      "epoch": 0.21173671689135606,
      "grad_norm": 0.893671965985691,
      "learning_rate": 9.663096557334172e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 104960797.0,
      "step": 1602
    },
    {
      "epoch": 0.21186888712661908,
      "grad_norm": 0.8770623747694093,
      "learning_rate": 9.662307879016173e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.7957209348678589,
      "num_tokens": 105026333.0,
      "step": 1603
    },
    {
      "epoch": 0.2120010573618821,
      "grad_norm": 0.8582516739579196,
      "learning_rate": 9.661518314629729e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8062354922294617,
      "num_tokens": 105091869.0,
      "step": 1604
    },
    {
      "epoch": 0.21213322759714512,
      "grad_norm": 1.0044531281153133,
      "learning_rate": 9.660727864342922e-06,
      "loss": 0.7155,
      "mean_token_accuracy": 0.769625186920166,
      "num_tokens": 105157405.0,
      "step": 1605
    },
    {
      "epoch": 0.21226539783240814,
      "grad_norm": 0.8511540963497923,
      "learning_rate": 9.659936528324021e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8054572343826294,
      "num_tokens": 105222941.0,
      "step": 1606
    },
    {
      "epoch": 0.21239756806767116,
      "grad_norm": 0.8235950800202272,
      "learning_rate": 9.659144306741487e-06,
      "loss": 0.5735,
      "mean_token_accuracy": 0.8148730397224426,
      "num_tokens": 105288477.0,
      "step": 1607
    },
    {
      "epoch": 0.21252973830293417,
      "grad_norm": 0.898535905580162,
      "learning_rate": 9.658351199763967e-06,
      "loss": 0.6965,
      "mean_token_accuracy": 0.775103747844696,
      "num_tokens": 105354013.0,
      "step": 1608
    },
    {
      "epoch": 0.2126619085381972,
      "grad_norm": 0.9576452101520214,
      "learning_rate": 9.657557207560299e-06,
      "loss": 0.6596,
      "mean_token_accuracy": 0.7872817516326904,
      "num_tokens": 105419549.0,
      "step": 1609
    },
    {
      "epoch": 0.2127940787734602,
      "grad_norm": 0.8731569544249325,
      "learning_rate": 9.656762330299501e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7984220385551453,
      "num_tokens": 105485085.0,
      "step": 1610
    },
    {
      "epoch": 0.21292624900872323,
      "grad_norm": 0.9352779609045179,
      "learning_rate": 9.655966568150792e-06,
      "loss": 0.6715,
      "mean_token_accuracy": 0.7832987308502197,
      "num_tokens": 105550621.0,
      "step": 1611
    },
    {
      "epoch": 0.21305841924398625,
      "grad_norm": 0.9283058375710963,
      "learning_rate": 9.65516992128357e-06,
      "loss": 0.6848,
      "mean_token_accuracy": 0.7809333205223083,
      "num_tokens": 105616157.0,
      "step": 1612
    },
    {
      "epoch": 0.21319058947924927,
      "grad_norm": 0.9635307011518228,
      "learning_rate": 9.654372389867426e-06,
      "loss": 0.6459,
      "mean_token_accuracy": 0.7910969257354736,
      "num_tokens": 105681693.0,
      "step": 1613
    },
    {
      "epoch": 0.21332275971451228,
      "grad_norm": 0.9214023783163029,
      "learning_rate": 9.65357397407214e-06,
      "loss": 0.6914,
      "mean_token_accuracy": 0.7803992033004761,
      "num_tokens": 105747229.0,
      "step": 1614
    },
    {
      "epoch": 0.2134549299497753,
      "grad_norm": 0.9583027271205059,
      "learning_rate": 9.652774674067672e-06,
      "loss": 0.6438,
      "mean_token_accuracy": 0.7939201593399048,
      "num_tokens": 105812765.0,
      "step": 1615
    },
    {
      "epoch": 0.21358710018503832,
      "grad_norm": 1.0202310197033955,
      "learning_rate": 9.65197449002418e-06,
      "loss": 0.6498,
      "mean_token_accuracy": 0.7910969257354736,
      "num_tokens": 105878301.0,
      "step": 1616
    },
    {
      "epoch": 0.21371927042030134,
      "grad_norm": 0.8991894413337899,
      "learning_rate": 9.651173422112006e-06,
      "loss": 0.6186,
      "mean_token_accuracy": 0.8018556833267212,
      "num_tokens": 105943837.0,
      "step": 1617
    },
    {
      "epoch": 0.21385144065556436,
      "grad_norm": 0.9868905177437365,
      "learning_rate": 9.65037147050168e-06,
      "loss": 0.6336,
      "mean_token_accuracy": 0.7955377697944641,
      "num_tokens": 106009373.0,
      "step": 1618
    },
    {
      "epoch": 0.21398361089082737,
      "grad_norm": 0.9418834599313504,
      "learning_rate": 9.649568635363924e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7979642152786255,
      "num_tokens": 106074909.0,
      "step": 1619
    },
    {
      "epoch": 0.2141157811260904,
      "grad_norm": 0.9261297692839241,
      "learning_rate": 9.648764916869641e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7991393208503723,
      "num_tokens": 106140445.0,
      "step": 1620
    },
    {
      "epoch": 0.2142479513613534,
      "grad_norm": 1.0377110576698765,
      "learning_rate": 9.647960315189927e-06,
      "loss": 0.6594,
      "mean_token_accuracy": 0.7874343991279602,
      "num_tokens": 106205981.0,
      "step": 1621
    },
    {
      "epoch": 0.21438012159661643,
      "grad_norm": 0.9209268052409788,
      "learning_rate": 9.647154830496064e-06,
      "loss": 0.6557,
      "mean_token_accuracy": 0.7892351150512695,
      "num_tokens": 106271517.0,
      "step": 1622
    },
    {
      "epoch": 0.21451229183187945,
      "grad_norm": 0.9301566295442876,
      "learning_rate": 9.646348462959526e-06,
      "loss": 0.6356,
      "mean_token_accuracy": 0.7927298545837402,
      "num_tokens": 106337053.0,
      "step": 1623
    },
    {
      "epoch": 0.21464446206714247,
      "grad_norm": 0.8697870490433027,
      "learning_rate": 9.64554121275197e-06,
      "loss": 0.6292,
      "mean_token_accuracy": 0.7981168627738953,
      "num_tokens": 106402589.0,
      "step": 1624
    },
    {
      "epoch": 0.21477663230240548,
      "grad_norm": 0.8828305669101331,
      "learning_rate": 9.64473308004524e-06,
      "loss": 0.5812,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 106468125.0,
      "step": 1625
    },
    {
      "epoch": 0.21490880253766853,
      "grad_norm": 1.0174872207088737,
      "learning_rate": 9.643924065011374e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.7925466895103455,
      "num_tokens": 106533661.0,
      "step": 1626
    },
    {
      "epoch": 0.21504097277293155,
      "grad_norm": 0.9387633933874101,
      "learning_rate": 9.643114167822593e-06,
      "loss": 0.6253,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 106599197.0,
      "step": 1627
    },
    {
      "epoch": 0.21517314300819457,
      "grad_norm": 0.8729137392886279,
      "learning_rate": 9.642303388651309e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 106664733.0,
      "step": 1628
    },
    {
      "epoch": 0.21530531324345759,
      "grad_norm": 0.9728426503468591,
      "learning_rate": 9.64149172767012e-06,
      "loss": 0.659,
      "mean_token_accuracy": 0.7866408228874207,
      "num_tokens": 106730269.0,
      "step": 1629
    },
    {
      "epoch": 0.2154374834787206,
      "grad_norm": 0.9329724624250868,
      "learning_rate": 9.640679185051808e-06,
      "loss": 0.6545,
      "mean_token_accuracy": 0.7894640564918518,
      "num_tokens": 106795805.0,
      "step": 1630
    },
    {
      "epoch": 0.21556965371398362,
      "grad_norm": 0.9217443665662405,
      "learning_rate": 9.63986576096935e-06,
      "loss": 0.6471,
      "mean_token_accuracy": 0.792714536190033,
      "num_tokens": 106861341.0,
      "step": 1631
    },
    {
      "epoch": 0.21570182394924664,
      "grad_norm": 0.9702911913826888,
      "learning_rate": 9.639051455595903e-06,
      "loss": 0.6442,
      "mean_token_accuracy": 0.7916310429573059,
      "num_tokens": 106926877.0,
      "step": 1632
    },
    {
      "epoch": 0.21583399418450966,
      "grad_norm": 0.9877690822694865,
      "learning_rate": 9.63823626910482e-06,
      "loss": 0.692,
      "mean_token_accuracy": 0.7744780778884888,
      "num_tokens": 106992413.0,
      "step": 1633
    },
    {
      "epoch": 0.21596616441977268,
      "grad_norm": 0.9015081242023226,
      "learning_rate": 9.637420201669636e-06,
      "loss": 0.601,
      "mean_token_accuracy": 0.8040379881858826,
      "num_tokens": 107057949.0,
      "step": 1634
    },
    {
      "epoch": 0.2160983346550357,
      "grad_norm": 0.9936309686541511,
      "learning_rate": 9.636603253464072e-06,
      "loss": 0.6823,
      "mean_token_accuracy": 0.7806891798973083,
      "num_tokens": 107123485.0,
      "step": 1635
    },
    {
      "epoch": 0.2162305048902987,
      "grad_norm": 0.9058100506272008,
      "learning_rate": 9.635785424662044e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.8048467636108398,
      "num_tokens": 107189021.0,
      "step": 1636
    },
    {
      "epoch": 0.21636267512556173,
      "grad_norm": 1.081887885675095,
      "learning_rate": 9.634966715437646e-06,
      "loss": 0.6971,
      "mean_token_accuracy": 0.7743407487869263,
      "num_tokens": 107254557.0,
      "step": 1637
    },
    {
      "epoch": 0.21649484536082475,
      "grad_norm": 0.8826656298727678,
      "learning_rate": 9.634147125965168e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.807456374168396,
      "num_tokens": 107320093.0,
      "step": 1638
    },
    {
      "epoch": 0.21662701559608777,
      "grad_norm": 0.9156912627230275,
      "learning_rate": 9.633326656419081e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7805823683738708,
      "num_tokens": 107385629.0,
      "step": 1639
    },
    {
      "epoch": 0.2167591858313508,
      "grad_norm": 0.8459386153345732,
      "learning_rate": 9.632505306974047e-06,
      "loss": 0.6545,
      "mean_token_accuracy": 0.792592465877533,
      "num_tokens": 107451165.0,
      "step": 1640
    },
    {
      "epoch": 0.2168913560666138,
      "grad_norm": 1.0760178560923754,
      "learning_rate": 9.631683077804912e-06,
      "loss": 0.7096,
      "mean_token_accuracy": 0.7698999047279358,
      "num_tokens": 107516701.0,
      "step": 1641
    },
    {
      "epoch": 0.21702352630187682,
      "grad_norm": 0.9123784373972544,
      "learning_rate": 9.630859969086715e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7966060042381287,
      "num_tokens": 107582237.0,
      "step": 1642
    },
    {
      "epoch": 0.21715569653713984,
      "grad_norm": 0.9394532037144382,
      "learning_rate": 9.630035980994676e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.793401300907135,
      "num_tokens": 107647773.0,
      "step": 1643
    },
    {
      "epoch": 0.21728786677240286,
      "grad_norm": 0.9238138648859595,
      "learning_rate": 9.629211113704205e-06,
      "loss": 0.6999,
      "mean_token_accuracy": 0.7772402763366699,
      "num_tokens": 107713309.0,
      "step": 1644
    },
    {
      "epoch": 0.21742003700766588,
      "grad_norm": 0.9534112788085889,
      "learning_rate": 9.6283853673909e-06,
      "loss": 0.6498,
      "mean_token_accuracy": 0.7903797030448914,
      "num_tokens": 107778845.0,
      "step": 1645
    },
    {
      "epoch": 0.2175522072429289,
      "grad_norm": 0.9756141584447888,
      "learning_rate": 9.627558742230544e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7853741645812988,
      "num_tokens": 107844381.0,
      "step": 1646
    },
    {
      "epoch": 0.21768437747819191,
      "grad_norm": 1.0519930538734898,
      "learning_rate": 9.62673123839911e-06,
      "loss": 0.7124,
      "mean_token_accuracy": 0.7685874700546265,
      "num_tokens": 107909917.0,
      "step": 1647
    },
    {
      "epoch": 0.21781654771345493,
      "grad_norm": 0.972511791994036,
      "learning_rate": 9.625902856072757e-06,
      "loss": 0.6729,
      "mean_token_accuracy": 0.7834513783454895,
      "num_tokens": 107975453.0,
      "step": 1648
    },
    {
      "epoch": 0.21794871794871795,
      "grad_norm": 0.9280795600691134,
      "learning_rate": 9.625073595427826e-06,
      "loss": 0.6688,
      "mean_token_accuracy": 0.783893883228302,
      "num_tokens": 108040989.0,
      "step": 1649
    },
    {
      "epoch": 0.21808088818398097,
      "grad_norm": 0.885390369896784,
      "learning_rate": 9.624243456640853e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.8043889403343201,
      "num_tokens": 108106525.0,
      "step": 1650
    },
    {
      "epoch": 0.218213058419244,
      "grad_norm": 1.0252911054450393,
      "learning_rate": 9.623412439888556e-06,
      "loss": 0.6957,
      "mean_token_accuracy": 0.7784000635147095,
      "num_tokens": 108172061.0,
      "step": 1651
    },
    {
      "epoch": 0.218345228654507,
      "grad_norm": 1.006613900133797,
      "learning_rate": 9.62258054534784e-06,
      "loss": 0.6628,
      "mean_token_accuracy": 0.7855420708656311,
      "num_tokens": 108237597.0,
      "step": 1652
    },
    {
      "epoch": 0.21847739888977002,
      "grad_norm": 0.8610590617097599,
      "learning_rate": 9.6217477731958e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.8003448843955994,
      "num_tokens": 108303133.0,
      "step": 1653
    },
    {
      "epoch": 0.21860956912503304,
      "grad_norm": 0.9236784177742748,
      "learning_rate": 9.620914123609715e-06,
      "loss": 0.6815,
      "mean_token_accuracy": 0.7807959914207458,
      "num_tokens": 108368669.0,
      "step": 1654
    },
    {
      "epoch": 0.21874173936029606,
      "grad_norm": 0.88883993414048,
      "learning_rate": 9.620079596767052e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.793218195438385,
      "num_tokens": 108434205.0,
      "step": 1655
    },
    {
      "epoch": 0.21887390959555908,
      "grad_norm": 0.9181167812346851,
      "learning_rate": 9.619244192845463e-06,
      "loss": 0.6278,
      "mean_token_accuracy": 0.7969112396240234,
      "num_tokens": 108499741.0,
      "step": 1656
    },
    {
      "epoch": 0.2190060798308221,
      "grad_norm": 0.9808774512689974,
      "learning_rate": 9.618407912022789e-06,
      "loss": 0.6945,
      "mean_token_accuracy": 0.7746612429618835,
      "num_tokens": 108565277.0,
      "step": 1657
    },
    {
      "epoch": 0.21913825006608512,
      "grad_norm": 0.9117488604454976,
      "learning_rate": 9.617570754477056e-06,
      "loss": 0.6304,
      "mean_token_accuracy": 0.7930719256401062,
      "num_tokens": 108625475.0,
      "step": 1658
    },
    {
      "epoch": 0.21927042030134813,
      "grad_norm": 0.9473917202686751,
      "learning_rate": 9.61673272038648e-06,
      "loss": 0.6497,
      "mean_token_accuracy": 0.78813636302948,
      "num_tokens": 108691011.0,
      "step": 1659
    },
    {
      "epoch": 0.21940259053661115,
      "grad_norm": 1.0247585232242011,
      "learning_rate": 9.615893809929458e-06,
      "loss": 0.7088,
      "mean_token_accuracy": 0.7716548442840576,
      "num_tokens": 108756547.0,
      "step": 1660
    },
    {
      "epoch": 0.21953476077187417,
      "grad_norm": 0.9025305792653157,
      "learning_rate": 9.615054023284578e-06,
      "loss": 0.6581,
      "mean_token_accuracy": 0.7868544459342957,
      "num_tokens": 108822083.0,
      "step": 1661
    },
    {
      "epoch": 0.2196669310071372,
      "grad_norm": 0.8751807338868604,
      "learning_rate": 9.614213360630614e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7994292378425598,
      "num_tokens": 108887619.0,
      "step": 1662
    },
    {
      "epoch": 0.2197991012424002,
      "grad_norm": 0.8387761034632993,
      "learning_rate": 9.61337182214652e-06,
      "loss": 0.5831,
      "mean_token_accuracy": 0.8127670884132385,
      "num_tokens": 108953155.0,
      "step": 1663
    },
    {
      "epoch": 0.21993127147766323,
      "grad_norm": 0.8854687599751099,
      "learning_rate": 9.61252940801145e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 109018691.0,
      "step": 1664
    },
    {
      "epoch": 0.22006344171292624,
      "grad_norm": 0.9018300193482071,
      "learning_rate": 9.61168611840473e-06,
      "loss": 0.6538,
      "mean_token_accuracy": 0.7867934107780457,
      "num_tokens": 109084227.0,
      "step": 1665
    },
    {
      "epoch": 0.22019561194818926,
      "grad_norm": 0.8270614717811327,
      "learning_rate": 9.610841953505883e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8128586411476135,
      "num_tokens": 109149763.0,
      "step": 1666
    },
    {
      "epoch": 0.22032778218345228,
      "grad_norm": 0.9103998431449722,
      "learning_rate": 9.609996913494612e-06,
      "loss": 0.6263,
      "mean_token_accuracy": 0.8014283776283264,
      "num_tokens": 109215299.0,
      "step": 1667
    },
    {
      "epoch": 0.2204599524187153,
      "grad_norm": 0.9680445058661334,
      "learning_rate": 9.609150998550808e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7858625054359436,
      "num_tokens": 109280835.0,
      "step": 1668
    },
    {
      "epoch": 0.22059212265397832,
      "grad_norm": 0.9647725382233888,
      "learning_rate": 9.60830420885455e-06,
      "loss": 0.6546,
      "mean_token_accuracy": 0.784855306148529,
      "num_tokens": 109346371.0,
      "step": 1669
    },
    {
      "epoch": 0.22072429288924134,
      "grad_norm": 0.8836218186469366,
      "learning_rate": 9.6074565445861e-06,
      "loss": 0.5617,
      "mean_token_accuracy": 0.8133164644241333,
      "num_tokens": 109411907.0,
      "step": 1670
    },
    {
      "epoch": 0.22085646312450435,
      "grad_norm": 0.866793120090719,
      "learning_rate": 9.60660800592591e-06,
      "loss": 0.6014,
      "mean_token_accuracy": 0.806433916091919,
      "num_tokens": 109477443.0,
      "step": 1671
    },
    {
      "epoch": 0.22098863335976737,
      "grad_norm": 1.039205698149019,
      "learning_rate": 9.605758593054615e-06,
      "loss": 0.7259,
      "mean_token_accuracy": 0.7659168839454651,
      "num_tokens": 109542979.0,
      "step": 1672
    },
    {
      "epoch": 0.2211208035950304,
      "grad_norm": 0.9112030689108493,
      "learning_rate": 9.604908306153037e-06,
      "loss": 0.6684,
      "mean_token_accuracy": 0.7828409075737,
      "num_tokens": 109608515.0,
      "step": 1673
    },
    {
      "epoch": 0.2212529738302934,
      "grad_norm": 0.8555709902287687,
      "learning_rate": 9.604057145402186e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.7859236001968384,
      "num_tokens": 109674051.0,
      "step": 1674
    },
    {
      "epoch": 0.22138514406555643,
      "grad_norm": 0.8713294060756834,
      "learning_rate": 9.603205110983256e-06,
      "loss": 0.6286,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 109739587.0,
      "step": 1675
    },
    {
      "epoch": 0.22151731430081945,
      "grad_norm": 0.9187817633555885,
      "learning_rate": 9.602352203077625e-06,
      "loss": 0.6567,
      "mean_token_accuracy": 0.7903644442558289,
      "num_tokens": 109805123.0,
      "step": 1676
    },
    {
      "epoch": 0.22164948453608246,
      "grad_norm": 0.9615589479308542,
      "learning_rate": 9.601498421866862e-06,
      "loss": 0.6838,
      "mean_token_accuracy": 0.7792394161224365,
      "num_tokens": 109870659.0,
      "step": 1677
    },
    {
      "epoch": 0.22178165477134548,
      "grad_norm": 0.9279028358914845,
      "learning_rate": 9.600643767532717e-06,
      "loss": 0.6899,
      "mean_token_accuracy": 0.779071569442749,
      "num_tokens": 109936195.0,
      "step": 1678
    },
    {
      "epoch": 0.2219138250066085,
      "grad_norm": 0.8366181048400669,
      "learning_rate": 9.59978824025713e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7921193838119507,
      "num_tokens": 110001731.0,
      "step": 1679
    },
    {
      "epoch": 0.22204599524187152,
      "grad_norm": 0.8414835127573824,
      "learning_rate": 9.598931840222225e-06,
      "loss": 0.6488,
      "mean_token_accuracy": 0.793645441532135,
      "num_tokens": 110067267.0,
      "step": 1680
    },
    {
      "epoch": 0.22217816547713454,
      "grad_norm": 0.916298867138001,
      "learning_rate": 9.598074567610308e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7902117967605591,
      "num_tokens": 110132803.0,
      "step": 1681
    },
    {
      "epoch": 0.22231033571239756,
      "grad_norm": 0.900506820212438,
      "learning_rate": 9.59721642260388e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8108137249946594,
      "num_tokens": 110198339.0,
      "step": 1682
    },
    {
      "epoch": 0.22244250594766057,
      "grad_norm": 0.8717547357225575,
      "learning_rate": 9.596357405385617e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8114393949508667,
      "num_tokens": 110263875.0,
      "step": 1683
    },
    {
      "epoch": 0.2225746761829236,
      "grad_norm": 0.8384641875606359,
      "learning_rate": 9.59549751613839e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.8030765652656555,
      "num_tokens": 110329411.0,
      "step": 1684
    },
    {
      "epoch": 0.22270684641818664,
      "grad_norm": 0.9233702219865482,
      "learning_rate": 9.594636755045249e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 110394947.0,
      "step": 1685
    },
    {
      "epoch": 0.22283901665344966,
      "grad_norm": 1.0895071927082993,
      "learning_rate": 9.593775122289431e-06,
      "loss": 0.691,
      "mean_token_accuracy": 0.7756684422492981,
      "num_tokens": 110460483.0,
      "step": 1686
    },
    {
      "epoch": 0.22297118688871267,
      "grad_norm": 1.0262019120212662,
      "learning_rate": 9.592912618054363e-06,
      "loss": 0.6994,
      "mean_token_accuracy": 0.7711970210075378,
      "num_tokens": 110526019.0,
      "step": 1687
    },
    {
      "epoch": 0.2231033571239757,
      "grad_norm": 0.9047082193697615,
      "learning_rate": 9.592049242523654e-06,
      "loss": 0.6217,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 110591555.0,
      "step": 1688
    },
    {
      "epoch": 0.2232355273592387,
      "grad_norm": 1.0185608569059437,
      "learning_rate": 9.591184995881095e-06,
      "loss": 0.7062,
      "mean_token_accuracy": 0.7723263502120972,
      "num_tokens": 110657091.0,
      "step": 1689
    },
    {
      "epoch": 0.22336769759450173,
      "grad_norm": 0.835285637422747,
      "learning_rate": 9.59031987831067e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8191002607345581,
      "num_tokens": 110722627.0,
      "step": 1690
    },
    {
      "epoch": 0.22349986782976475,
      "grad_norm": 1.0497076968452759,
      "learning_rate": 9.589453889996539e-06,
      "loss": 0.7421,
      "mean_token_accuracy": 0.7618269920349121,
      "num_tokens": 110788163.0,
      "step": 1691
    },
    {
      "epoch": 0.22363203806502777,
      "grad_norm": 0.9101438081513669,
      "learning_rate": 9.588587031123061e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.793462336063385,
      "num_tokens": 110853699.0,
      "step": 1692
    },
    {
      "epoch": 0.22376420830029078,
      "grad_norm": 0.8880244375074078,
      "learning_rate": 9.587719301874765e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.8052740693092346,
      "num_tokens": 110919235.0,
      "step": 1693
    },
    {
      "epoch": 0.2238963785355538,
      "grad_norm": 0.9612777670776533,
      "learning_rate": 9.586850702436376e-06,
      "loss": 0.67,
      "mean_token_accuracy": 0.7824593782424927,
      "num_tokens": 110984771.0,
      "step": 1694
    },
    {
      "epoch": 0.22402854877081682,
      "grad_norm": 0.9153666091689532,
      "learning_rate": 9.585981232992798e-06,
      "loss": 0.6242,
      "mean_token_accuracy": 0.7990477085113525,
      "num_tokens": 111050307.0,
      "step": 1695
    },
    {
      "epoch": 0.22416071900607984,
      "grad_norm": 0.9602110925718562,
      "learning_rate": 9.585110893729126e-06,
      "loss": 0.6663,
      "mean_token_accuracy": 0.7849469184875488,
      "num_tokens": 111115843.0,
      "step": 1696
    },
    {
      "epoch": 0.22429288924134286,
      "grad_norm": 0.8067597239168758,
      "learning_rate": 9.584239684830636e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.8176962733268738,
      "num_tokens": 111181379.0,
      "step": 1697
    },
    {
      "epoch": 0.22442505947660588,
      "grad_norm": 0.8663762255253344,
      "learning_rate": 9.58336760648279e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.8014436364173889,
      "num_tokens": 111246915.0,
      "step": 1698
    },
    {
      "epoch": 0.2245572297118689,
      "grad_norm": 0.8694591956206948,
      "learning_rate": 9.582494658871234e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8061286807060242,
      "num_tokens": 111312451.0,
      "step": 1699
    },
    {
      "epoch": 0.2246893999471319,
      "grad_norm": 0.9189852273440423,
      "learning_rate": 9.581620842181803e-06,
      "loss": 0.6691,
      "mean_token_accuracy": 0.7867476344108582,
      "num_tokens": 111377987.0,
      "step": 1700
    },
    {
      "epoch": 0.22482157018239493,
      "grad_norm": 0.9724533160954082,
      "learning_rate": 9.58074615660051e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.7874038815498352,
      "num_tokens": 111443523.0,
      "step": 1701
    },
    {
      "epoch": 0.22495374041765795,
      "grad_norm": 0.8922929371862186,
      "learning_rate": 9.579870602313564e-06,
      "loss": 0.698,
      "mean_token_accuracy": 0.7764924764633179,
      "num_tokens": 111509059.0,
      "step": 1702
    },
    {
      "epoch": 0.22508591065292097,
      "grad_norm": 0.82478283336254,
      "learning_rate": 9.578994179507347e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.8027865886688232,
      "num_tokens": 111574595.0,
      "step": 1703
    },
    {
      "epoch": 0.22521808088818399,
      "grad_norm": 1.0116739986464884,
      "learning_rate": 9.57811688836843e-06,
      "loss": 0.7007,
      "mean_token_accuracy": 0.7716243267059326,
      "num_tokens": 111640131.0,
      "step": 1704
    },
    {
      "epoch": 0.225350251123447,
      "grad_norm": 0.9845841326270807,
      "learning_rate": 9.577238729083575e-06,
      "loss": 0.678,
      "mean_token_accuracy": 0.7807654738426208,
      "num_tokens": 111705667.0,
      "step": 1705
    },
    {
      "epoch": 0.22548242135871002,
      "grad_norm": 0.9959533426713644,
      "learning_rate": 9.576359701839721e-06,
      "loss": 0.6675,
      "mean_token_accuracy": 0.7847179770469666,
      "num_tokens": 111771203.0,
      "step": 1706
    },
    {
      "epoch": 0.22561459159397304,
      "grad_norm": 0.8719639919464789,
      "learning_rate": 9.575479806823994e-06,
      "loss": 0.6525,
      "mean_token_accuracy": 0.7895098328590393,
      "num_tokens": 111836739.0,
      "step": 1707
    },
    {
      "epoch": 0.22574676182923606,
      "grad_norm": 0.8736829819915821,
      "learning_rate": 9.574599044223706e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 111902275.0,
      "step": 1708
    },
    {
      "epoch": 0.22587893206449908,
      "grad_norm": 0.9786606559539217,
      "learning_rate": 9.573717414226353e-06,
      "loss": 0.6194,
      "mean_token_accuracy": 0.7999175786972046,
      "num_tokens": 111967811.0,
      "step": 1709
    },
    {
      "epoch": 0.2260111022997621,
      "grad_norm": 0.9862321840136307,
      "learning_rate": 9.572834917019616e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7952478528022766,
      "num_tokens": 112033347.0,
      "step": 1710
    },
    {
      "epoch": 0.2261432725350251,
      "grad_norm": 0.9142193257261422,
      "learning_rate": 9.57195155279136e-06,
      "loss": 0.5976,
      "mean_token_accuracy": 0.8067543506622314,
      "num_tokens": 112098883.0,
      "step": 1711
    },
    {
      "epoch": 0.22627544277028813,
      "grad_norm": 0.9096385892881067,
      "learning_rate": 9.571067321729634e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8091045022010803,
      "num_tokens": 112164419.0,
      "step": 1712
    },
    {
      "epoch": 0.22640761300555115,
      "grad_norm": 0.9096203323607365,
      "learning_rate": 9.570182224022674e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7913869023323059,
      "num_tokens": 112229955.0,
      "step": 1713
    },
    {
      "epoch": 0.22653978324081417,
      "grad_norm": 0.9385981547916755,
      "learning_rate": 9.569296259858896e-06,
      "loss": 0.6317,
      "mean_token_accuracy": 0.7965602278709412,
      "num_tokens": 112295491.0,
      "step": 1714
    },
    {
      "epoch": 0.2266719534760772,
      "grad_norm": 0.9254115177651856,
      "learning_rate": 9.568409429426906e-06,
      "loss": 0.6234,
      "mean_token_accuracy": 0.7998870611190796,
      "num_tokens": 112361027.0,
      "step": 1715
    },
    {
      "epoch": 0.2268041237113402,
      "grad_norm": 0.9402637377117012,
      "learning_rate": 9.567521732915492e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.7950341701507568,
      "num_tokens": 112426563.0,
      "step": 1716
    },
    {
      "epoch": 0.22693629394660322,
      "grad_norm": 0.9392198782914645,
      "learning_rate": 9.566633170513622e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7878464460372925,
      "num_tokens": 112492099.0,
      "step": 1717
    },
    {
      "epoch": 0.22706846418186624,
      "grad_norm": 0.909681051332698,
      "learning_rate": 9.565743742410456e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7966976165771484,
      "num_tokens": 112557635.0,
      "step": 1718
    },
    {
      "epoch": 0.22720063441712926,
      "grad_norm": 0.8912270467166583,
      "learning_rate": 9.564853448795337e-06,
      "loss": 0.6368,
      "mean_token_accuracy": 0.7912342548370361,
      "num_tokens": 112623171.0,
      "step": 1719
    },
    {
      "epoch": 0.22733280465239228,
      "grad_norm": 0.9136759000882673,
      "learning_rate": 9.563962289857783e-06,
      "loss": 0.6435,
      "mean_token_accuracy": 0.792409360408783,
      "num_tokens": 112688707.0,
      "step": 1720
    },
    {
      "epoch": 0.2274649748876553,
      "grad_norm": 1.0331778382108843,
      "learning_rate": 9.56307026578751e-06,
      "loss": 0.6688,
      "mean_token_accuracy": 0.7796819806098938,
      "num_tokens": 112754243.0,
      "step": 1721
    },
    {
      "epoch": 0.22759714512291832,
      "grad_norm": 1.1338237171716021,
      "learning_rate": 9.562177376774406e-06,
      "loss": 0.7308,
      "mean_token_accuracy": 0.7678244709968567,
      "num_tokens": 112819779.0,
      "step": 1722
    },
    {
      "epoch": 0.22772931535818133,
      "grad_norm": 0.9072299642738041,
      "learning_rate": 9.561283623008551e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7984525561332703,
      "num_tokens": 112885315.0,
      "step": 1723
    },
    {
      "epoch": 0.22786148559344435,
      "grad_norm": 0.8986072889771849,
      "learning_rate": 9.560389004680207e-06,
      "loss": 0.6415,
      "mean_token_accuracy": 0.7929434776306152,
      "num_tokens": 112950851.0,
      "step": 1724
    },
    {
      "epoch": 0.22799365582870737,
      "grad_norm": 1.0011480400730555,
      "learning_rate": 9.559493521979818e-06,
      "loss": 0.6835,
      "mean_token_accuracy": 0.7778506875038147,
      "num_tokens": 113016387.0,
      "step": 1725
    },
    {
      "epoch": 0.2281258260639704,
      "grad_norm": 0.9365786918325993,
      "learning_rate": 9.558597175098014e-06,
      "loss": 0.6414,
      "mean_token_accuracy": 0.7918752431869507,
      "num_tokens": 113081923.0,
      "step": 1726
    },
    {
      "epoch": 0.2282579962992334,
      "grad_norm": 1.060058090632705,
      "learning_rate": 9.55769996422561e-06,
      "loss": 0.6638,
      "mean_token_accuracy": 0.7876785397529602,
      "num_tokens": 113147459.0,
      "step": 1727
    },
    {
      "epoch": 0.22839016653449642,
      "grad_norm": 0.891698701152852,
      "learning_rate": 9.5568018895536e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7931113243103027,
      "num_tokens": 113212995.0,
      "step": 1728
    },
    {
      "epoch": 0.22852233676975944,
      "grad_norm": 0.957708918375653,
      "learning_rate": 9.555902951273169e-06,
      "loss": 0.6395,
      "mean_token_accuracy": 0.7944847941398621,
      "num_tokens": 113278531.0,
      "step": 1729
    },
    {
      "epoch": 0.22865450700502246,
      "grad_norm": 1.0534184442776535,
      "learning_rate": 9.555003149575682e-06,
      "loss": 0.6365,
      "mean_token_accuracy": 0.7972622513771057,
      "num_tokens": 113344067.0,
      "step": 1730
    },
    {
      "epoch": 0.22878667724028548,
      "grad_norm": 0.8981785122100139,
      "learning_rate": 9.554102484652685e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8249908685684204,
      "num_tokens": 113409603.0,
      "step": 1731
    },
    {
      "epoch": 0.2289188474755485,
      "grad_norm": 1.0246093787940425,
      "learning_rate": 9.553200956695915e-06,
      "loss": 0.6577,
      "mean_token_accuracy": 0.7870833873748779,
      "num_tokens": 113475139.0,
      "step": 1732
    },
    {
      "epoch": 0.22905101771081152,
      "grad_norm": 1.0632267057365188,
      "learning_rate": 9.552298565897284e-06,
      "loss": 0.6777,
      "mean_token_accuracy": 0.7772402763366699,
      "num_tokens": 113540675.0,
      "step": 1733
    },
    {
      "epoch": 0.22918318794607453,
      "grad_norm": 0.9585412502045005,
      "learning_rate": 9.551395312448895e-06,
      "loss": 0.6706,
      "mean_token_accuracy": 0.7838175892829895,
      "num_tokens": 113606211.0,
      "step": 1734
    },
    {
      "epoch": 0.22931535818133755,
      "grad_norm": 0.9730006364300338,
      "learning_rate": 9.55049119654303e-06,
      "loss": 0.6754,
      "mean_token_accuracy": 0.7806586623191833,
      "num_tokens": 113671747.0,
      "step": 1735
    },
    {
      "epoch": 0.22944752841660057,
      "grad_norm": 0.9978412384817414,
      "learning_rate": 9.549586218372159e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.8012300133705139,
      "num_tokens": 113737283.0,
      "step": 1736
    },
    {
      "epoch": 0.2295796986518636,
      "grad_norm": 0.9554238428051832,
      "learning_rate": 9.548680378128929e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.8003143668174744,
      "num_tokens": 113802819.0,
      "step": 1737
    },
    {
      "epoch": 0.2297118688871266,
      "grad_norm": 0.9403971956032114,
      "learning_rate": 9.547773676006178e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7970943450927734,
      "num_tokens": 113868355.0,
      "step": 1738
    },
    {
      "epoch": 0.22984403912238963,
      "grad_norm": 1.0336375318544322,
      "learning_rate": 9.546866112196924e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.7941948771476746,
      "num_tokens": 113933891.0,
      "step": 1739
    },
    {
      "epoch": 0.22997620935765264,
      "grad_norm": 0.9938138720583297,
      "learning_rate": 9.545957686894367e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8098217844963074,
      "num_tokens": 113999427.0,
      "step": 1740
    },
    {
      "epoch": 0.23010837959291566,
      "grad_norm": 0.931469436562264,
      "learning_rate": 9.545048400291891e-06,
      "loss": 0.6417,
      "mean_token_accuracy": 0.7918294668197632,
      "num_tokens": 114064963.0,
      "step": 1741
    },
    {
      "epoch": 0.23024054982817868,
      "grad_norm": 0.9350555450310755,
      "learning_rate": 9.544138252583066e-06,
      "loss": 0.6391,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 114130499.0,
      "step": 1742
    },
    {
      "epoch": 0.2303727200634417,
      "grad_norm": 0.981459648304761,
      "learning_rate": 9.543227243961641e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7991545796394348,
      "num_tokens": 114196035.0,
      "step": 1743
    },
    {
      "epoch": 0.23050489029870475,
      "grad_norm": 1.0111489822885797,
      "learning_rate": 9.542315374621554e-06,
      "loss": 0.6972,
      "mean_token_accuracy": 0.7760041356086731,
      "num_tokens": 114261571.0,
      "step": 1744
    },
    {
      "epoch": 0.23063706053396776,
      "grad_norm": 0.9405139083656008,
      "learning_rate": 9.541402644756921e-06,
      "loss": 0.6579,
      "mean_token_accuracy": 0.7870376110076904,
      "num_tokens": 114327107.0,
      "step": 1745
    },
    {
      "epoch": 0.23076923076923078,
      "grad_norm": 0.9626351867898938,
      "learning_rate": 9.540489054562042e-06,
      "loss": 0.6725,
      "mean_token_accuracy": 0.7827951312065125,
      "num_tokens": 114392643.0,
      "step": 1746
    },
    {
      "epoch": 0.2309014010044938,
      "grad_norm": 0.8869523993873011,
      "learning_rate": 9.539574604231403e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.8017488718032837,
      "num_tokens": 114458179.0,
      "step": 1747
    },
    {
      "epoch": 0.23103357123975682,
      "grad_norm": 0.9513566172830842,
      "learning_rate": 9.538659293959673e-06,
      "loss": 0.6437,
      "mean_token_accuracy": 0.7916615605354309,
      "num_tokens": 114523715.0,
      "step": 1748
    },
    {
      "epoch": 0.23116574147501984,
      "grad_norm": 0.8986070829871733,
      "learning_rate": 9.537743123941697e-06,
      "loss": 0.6491,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 114589251.0,
      "step": 1749
    },
    {
      "epoch": 0.23129791171028286,
      "grad_norm": 0.9109411462342658,
      "learning_rate": 9.536826094372514e-06,
      "loss": 0.6293,
      "mean_token_accuracy": 0.797796368598938,
      "num_tokens": 114654787.0,
      "step": 1750
    },
    {
      "epoch": 0.23143008194554587,
      "grad_norm": 0.9630063618408642,
      "learning_rate": 9.535908205447338e-06,
      "loss": 0.6581,
      "mean_token_accuracy": 0.7878158688545227,
      "num_tokens": 114720323.0,
      "step": 1751
    },
    {
      "epoch": 0.2315622521808089,
      "grad_norm": 0.8835217598389769,
      "learning_rate": 9.53498945736157e-06,
      "loss": 0.6467,
      "mean_token_accuracy": 0.7910511493682861,
      "num_tokens": 114785859.0,
      "step": 1752
    },
    {
      "epoch": 0.2316944224160719,
      "grad_norm": 0.9967870132547957,
      "learning_rate": 9.53406985031079e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7790563106536865,
      "num_tokens": 114851395.0,
      "step": 1753
    },
    {
      "epoch": 0.23182659265133493,
      "grad_norm": 0.851077914583138,
      "learning_rate": 9.533149384490765e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7995971441268921,
      "num_tokens": 114916931.0,
      "step": 1754
    },
    {
      "epoch": 0.23195876288659795,
      "grad_norm": 0.8892569080202939,
      "learning_rate": 9.53222806009744e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7978116273880005,
      "num_tokens": 114982467.0,
      "step": 1755
    },
    {
      "epoch": 0.23209093312186097,
      "grad_norm": 0.8729834215561599,
      "learning_rate": 9.531305877326949e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7971554398536682,
      "num_tokens": 115048003.0,
      "step": 1756
    },
    {
      "epoch": 0.23222310335712398,
      "grad_norm": 1.0111507112971583,
      "learning_rate": 9.530382836375604e-06,
      "loss": 0.691,
      "mean_token_accuracy": 0.779407262802124,
      "num_tokens": 115113539.0,
      "step": 1757
    },
    {
      "epoch": 0.232355273592387,
      "grad_norm": 0.8977026022179888,
      "learning_rate": 9.529458937439902e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7913258671760559,
      "num_tokens": 115179075.0,
      "step": 1758
    },
    {
      "epoch": 0.23248744382765002,
      "grad_norm": 0.9450806605925338,
      "learning_rate": 9.528534180716522e-06,
      "loss": 0.6713,
      "mean_token_accuracy": 0.7846874594688416,
      "num_tokens": 115244611.0,
      "step": 1759
    },
    {
      "epoch": 0.23261961406291304,
      "grad_norm": 0.9831689089117459,
      "learning_rate": 9.527608566402323e-06,
      "loss": 0.6786,
      "mean_token_accuracy": 0.7801245450973511,
      "num_tokens": 115310147.0,
      "step": 1760
    },
    {
      "epoch": 0.23275178429817606,
      "grad_norm": 0.983828503894242,
      "learning_rate": 9.526682094694352e-06,
      "loss": 0.6317,
      "mean_token_accuracy": 0.7967433929443359,
      "num_tokens": 115375683.0,
      "step": 1761
    },
    {
      "epoch": 0.23288395453343907,
      "grad_norm": 0.9770409658490196,
      "learning_rate": 9.525754765789835e-06,
      "loss": 0.6821,
      "mean_token_accuracy": 0.7804144620895386,
      "num_tokens": 115441219.0,
      "step": 1762
    },
    {
      "epoch": 0.2330161247687021,
      "grad_norm": 0.8824297821426986,
      "learning_rate": 9.524826579886178e-06,
      "loss": 0.6244,
      "mean_token_accuracy": 0.8009705543518066,
      "num_tokens": 115506755.0,
      "step": 1763
    },
    {
      "epoch": 0.2331482950039651,
      "grad_norm": 1.0409518338091426,
      "learning_rate": 9.523897537180976e-06,
      "loss": 0.6809,
      "mean_token_accuracy": 0.7775607109069824,
      "num_tokens": 115572291.0,
      "step": 1764
    },
    {
      "epoch": 0.23328046523922813,
      "grad_norm": 0.9788798471411949,
      "learning_rate": 9.522967637872e-06,
      "loss": 0.6686,
      "mean_token_accuracy": 0.7831461429595947,
      "num_tokens": 115637827.0,
      "step": 1765
    },
    {
      "epoch": 0.23341263547449115,
      "grad_norm": 0.9548203844559258,
      "learning_rate": 9.522036882157208e-06,
      "loss": 0.6544,
      "mean_token_accuracy": 0.7869918346405029,
      "num_tokens": 115703363.0,
      "step": 1766
    },
    {
      "epoch": 0.23354480570975417,
      "grad_norm": 0.8863347324429928,
      "learning_rate": 9.521105270234737e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.8042058348655701,
      "num_tokens": 115768899.0,
      "step": 1767
    },
    {
      "epoch": 0.23367697594501718,
      "grad_norm": 0.9507668733887814,
      "learning_rate": 9.520172802302908e-06,
      "loss": 0.6283,
      "mean_token_accuracy": 0.79897141456604,
      "num_tokens": 115834435.0,
      "step": 1768
    },
    {
      "epoch": 0.2338091461802802,
      "grad_norm": 1.0705024871930293,
      "learning_rate": 9.519239478560227e-06,
      "loss": 0.6796,
      "mean_token_accuracy": 0.7788273692131042,
      "num_tokens": 115899971.0,
      "step": 1769
    },
    {
      "epoch": 0.23394131641554322,
      "grad_norm": 0.9944554362641693,
      "learning_rate": 9.518305299205375e-06,
      "loss": 0.683,
      "mean_token_accuracy": 0.7794225215911865,
      "num_tokens": 115965507.0,
      "step": 1770
    },
    {
      "epoch": 0.23407348665080624,
      "grad_norm": 0.9235674166191595,
      "learning_rate": 9.517370264437223e-06,
      "loss": 0.6585,
      "mean_token_accuracy": 0.7872512340545654,
      "num_tokens": 116031043.0,
      "step": 1771
    },
    {
      "epoch": 0.23420565688606926,
      "grad_norm": 0.9737735662797847,
      "learning_rate": 9.516434374454816e-06,
      "loss": 0.6226,
      "mean_token_accuracy": 0.7998718023300171,
      "num_tokens": 116096579.0,
      "step": 1772
    },
    {
      "epoch": 0.23433782712133228,
      "grad_norm": 1.0171293051243362,
      "learning_rate": 9.515497629457387e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7877853512763977,
      "num_tokens": 116162115.0,
      "step": 1773
    },
    {
      "epoch": 0.2344699973565953,
      "grad_norm": 0.9263620542348565,
      "learning_rate": 9.514560029644353e-06,
      "loss": 0.5983,
      "mean_token_accuracy": 0.8038853406906128,
      "num_tokens": 116227651.0,
      "step": 1774
    },
    {
      "epoch": 0.2346021675918583,
      "grad_norm": 0.8616439807116294,
      "learning_rate": 9.513621575215306e-06,
      "loss": 0.6057,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 116293187.0,
      "step": 1775
    },
    {
      "epoch": 0.23473433782712133,
      "grad_norm": 0.8387625738177749,
      "learning_rate": 9.512682266370024e-06,
      "loss": 0.6317,
      "mean_token_accuracy": 0.7961787581443787,
      "num_tokens": 116358723.0,
      "step": 1776
    },
    {
      "epoch": 0.23486650806238435,
      "grad_norm": 0.9121710649952514,
      "learning_rate": 9.511742103308464e-06,
      "loss": 0.6516,
      "mean_token_accuracy": 0.792653501033783,
      "num_tokens": 116424259.0,
      "step": 1777
    },
    {
      "epoch": 0.23499867829764737,
      "grad_norm": 1.098113907421151,
      "learning_rate": 9.510801086230773e-06,
      "loss": 0.6973,
      "mean_token_accuracy": 0.773806631565094,
      "num_tokens": 116489795.0,
      "step": 1778
    },
    {
      "epoch": 0.23513084853291039,
      "grad_norm": 0.9369657744193574,
      "learning_rate": 9.509859215337268e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.7888994216918945,
      "num_tokens": 116555331.0,
      "step": 1779
    },
    {
      "epoch": 0.2352630187681734,
      "grad_norm": 0.8279706332255649,
      "learning_rate": 9.508916490828456e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.79337078332901,
      "num_tokens": 116620867.0,
      "step": 1780
    },
    {
      "epoch": 0.23539518900343642,
      "grad_norm": 0.920734419382891,
      "learning_rate": 9.507972912905024e-06,
      "loss": 0.6332,
      "mean_token_accuracy": 0.7935996651649475,
      "num_tokens": 116686403.0,
      "step": 1781
    },
    {
      "epoch": 0.23552735923869944,
      "grad_norm": 0.9760075926271272,
      "learning_rate": 9.507028481767838e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.8035954236984253,
      "num_tokens": 116751939.0,
      "step": 1782
    },
    {
      "epoch": 0.23565952947396246,
      "grad_norm": 1.0235316872072395,
      "learning_rate": 9.50608319761795e-06,
      "loss": 0.6624,
      "mean_token_accuracy": 0.7838481068611145,
      "num_tokens": 116817475.0,
      "step": 1783
    },
    {
      "epoch": 0.23579169970922548,
      "grad_norm": 0.9674695420497033,
      "learning_rate": 9.505137060656591e-06,
      "loss": 0.7,
      "mean_token_accuracy": 0.7760346531867981,
      "num_tokens": 116883011.0,
      "step": 1784
    },
    {
      "epoch": 0.2359238699444885,
      "grad_norm": 0.8323816180532012,
      "learning_rate": 9.504190071085172e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.808753490447998,
      "num_tokens": 116948547.0,
      "step": 1785
    },
    {
      "epoch": 0.23605604017975151,
      "grad_norm": 0.9231304500785604,
      "learning_rate": 9.503242229105288e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7897998094558716,
      "num_tokens": 117014083.0,
      "step": 1786
    },
    {
      "epoch": 0.23618821041501453,
      "grad_norm": 0.9675886368130625,
      "learning_rate": 9.502293534918716e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.8073342442512512,
      "num_tokens": 117079619.0,
      "step": 1787
    },
    {
      "epoch": 0.23632038065027755,
      "grad_norm": 1.0402133207841135,
      "learning_rate": 9.501343988727411e-06,
      "loss": 0.6307,
      "mean_token_accuracy": 0.7952783703804016,
      "num_tokens": 117145155.0,
      "step": 1788
    },
    {
      "epoch": 0.23645255088554057,
      "grad_norm": 1.0962742017463678,
      "learning_rate": 9.500393590733514e-06,
      "loss": 0.6916,
      "mean_token_accuracy": 0.7780032753944397,
      "num_tokens": 117210691.0,
      "step": 1789
    },
    {
      "epoch": 0.2365847211208036,
      "grad_norm": 0.8703580572066396,
      "learning_rate": 9.499442341139344e-06,
      "loss": 0.6393,
      "mean_token_accuracy": 0.7939049005508423,
      "num_tokens": 117276227.0,
      "step": 1790
    },
    {
      "epoch": 0.2367168913560666,
      "grad_norm": 0.9780959367431494,
      "learning_rate": 9.498490240147401e-06,
      "loss": 0.6472,
      "mean_token_accuracy": 0.788853645324707,
      "num_tokens": 117341763.0,
      "step": 1791
    },
    {
      "epoch": 0.23684906159132962,
      "grad_norm": 1.0994172164699159,
      "learning_rate": 9.497537287960368e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.7967739105224609,
      "num_tokens": 117407299.0,
      "step": 1792
    },
    {
      "epoch": 0.23698123182659264,
      "grad_norm": 1.0867119973717485,
      "learning_rate": 9.49658348478111e-06,
      "loss": 0.6219,
      "mean_token_accuracy": 0.7988340854644775,
      "num_tokens": 117472835.0,
      "step": 1793
    },
    {
      "epoch": 0.23711340206185566,
      "grad_norm": 0.957614507556028,
      "learning_rate": 9.49562883081267e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.798818826675415,
      "num_tokens": 117538371.0,
      "step": 1794
    },
    {
      "epoch": 0.23724557229711868,
      "grad_norm": 0.9891367804497504,
      "learning_rate": 9.494673326258274e-06,
      "loss": 0.6808,
      "mean_token_accuracy": 0.7777438759803772,
      "num_tokens": 117603907.0,
      "step": 1795
    },
    {
      "epoch": 0.2373777425323817,
      "grad_norm": 0.8726047723478764,
      "learning_rate": 9.493716971321331e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 117669443.0,
      "step": 1796
    },
    {
      "epoch": 0.23750991276764472,
      "grad_norm": 0.9617327007019884,
      "learning_rate": 9.492759766205427e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.8005127310752869,
      "num_tokens": 117734979.0,
      "step": 1797
    },
    {
      "epoch": 0.23764208300290773,
      "grad_norm": 0.971036495779359,
      "learning_rate": 9.491801711114333e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8048467636108398,
      "num_tokens": 117800515.0,
      "step": 1798
    },
    {
      "epoch": 0.23777425323817075,
      "grad_norm": 0.9977557351854482,
      "learning_rate": 9.490842806251996e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7945000529289246,
      "num_tokens": 117866051.0,
      "step": 1799
    },
    {
      "epoch": 0.23790642347343377,
      "grad_norm": 0.9401287382733089,
      "learning_rate": 9.489883051822549e-06,
      "loss": 0.6226,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 117931587.0,
      "step": 1800
    },
    {
      "epoch": 0.2380385937086968,
      "grad_norm": 0.9394301712772216,
      "learning_rate": 9.488922448030302e-06,
      "loss": 0.6427,
      "mean_token_accuracy": 0.7895403504371643,
      "num_tokens": 117997123.0,
      "step": 1801
    },
    {
      "epoch": 0.2381707639439598,
      "grad_norm": 0.9423909029139864,
      "learning_rate": 9.48796099507975e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8124160766601562,
      "num_tokens": 118062659.0,
      "step": 1802
    },
    {
      "epoch": 0.23830293417922285,
      "grad_norm": 0.9750122341906503,
      "learning_rate": 9.486998693175564e-06,
      "loss": 0.6747,
      "mean_token_accuracy": 0.7842754125595093,
      "num_tokens": 118128195.0,
      "step": 1803
    },
    {
      "epoch": 0.23843510441448587,
      "grad_norm": 0.9095549215045416,
      "learning_rate": 9.486035542522598e-06,
      "loss": 0.6234,
      "mean_token_accuracy": 0.7973538041114807,
      "num_tokens": 118193731.0,
      "step": 1804
    },
    {
      "epoch": 0.2385672746497489,
      "grad_norm": 0.9294210544296613,
      "learning_rate": 9.485071543325888e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.8026645183563232,
      "num_tokens": 118259267.0,
      "step": 1805
    },
    {
      "epoch": 0.2386994448850119,
      "grad_norm": 0.9487351980817182,
      "learning_rate": 9.484106695790648e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7853589057922363,
      "num_tokens": 118324803.0,
      "step": 1806
    },
    {
      "epoch": 0.23883161512027493,
      "grad_norm": 0.9021619543170522,
      "learning_rate": 9.483141000122277e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.8072732090950012,
      "num_tokens": 118390339.0,
      "step": 1807
    },
    {
      "epoch": 0.23896378535553794,
      "grad_norm": 1.024143567327278,
      "learning_rate": 9.482174456526348e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7695794105529785,
      "num_tokens": 118455875.0,
      "step": 1808
    },
    {
      "epoch": 0.23909595559080096,
      "grad_norm": 0.8781357498060012,
      "learning_rate": 9.481207065208617e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 118521411.0,
      "step": 1809
    },
    {
      "epoch": 0.23922812582606398,
      "grad_norm": 0.8948355471998354,
      "learning_rate": 9.480238826375025e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.802282989025116,
      "num_tokens": 118586947.0,
      "step": 1810
    },
    {
      "epoch": 0.239360296061327,
      "grad_norm": 0.8823524276361052,
      "learning_rate": 9.47926974023169e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8035801649093628,
      "num_tokens": 118652483.0,
      "step": 1811
    },
    {
      "epoch": 0.23949246629659002,
      "grad_norm": 0.9188034435322265,
      "learning_rate": 9.478299806984907e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.7955225110054016,
      "num_tokens": 118718019.0,
      "step": 1812
    },
    {
      "epoch": 0.23962463653185304,
      "grad_norm": 0.8626260851409737,
      "learning_rate": 9.477329026841154e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.8055487871170044,
      "num_tokens": 118783555.0,
      "step": 1813
    },
    {
      "epoch": 0.23975680676711605,
      "grad_norm": 0.9336602398375997,
      "learning_rate": 9.476357400007095e-06,
      "loss": 0.6969,
      "mean_token_accuracy": 0.7726010084152222,
      "num_tokens": 118849091.0,
      "step": 1814
    },
    {
      "epoch": 0.23988897700237907,
      "grad_norm": 0.8878695624217039,
      "learning_rate": 9.475384926689564e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.79343181848526,
      "num_tokens": 118914627.0,
      "step": 1815
    },
    {
      "epoch": 0.2400211472376421,
      "grad_norm": 0.9577532185957872,
      "learning_rate": 9.474411607095583e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.8008332252502441,
      "num_tokens": 118980163.0,
      "step": 1816
    },
    {
      "epoch": 0.2401533174729051,
      "grad_norm": 0.8592423961092747,
      "learning_rate": 9.47343744143235e-06,
      "loss": 0.584,
      "mean_token_accuracy": 0.807395339012146,
      "num_tokens": 119045699.0,
      "step": 1817
    },
    {
      "epoch": 0.24028548770816813,
      "grad_norm": 0.8404818599905308,
      "learning_rate": 9.472462429907245e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8274325728416443,
      "num_tokens": 119111235.0,
      "step": 1818
    },
    {
      "epoch": 0.24041765794343115,
      "grad_norm": 0.9065235335038258,
      "learning_rate": 9.471486572727828e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7983915209770203,
      "num_tokens": 119176771.0,
      "step": 1819
    },
    {
      "epoch": 0.24054982817869416,
      "grad_norm": 1.1007150204659122,
      "learning_rate": 9.470509870101839e-06,
      "loss": 0.6703,
      "mean_token_accuracy": 0.7847790122032166,
      "num_tokens": 119242307.0,
      "step": 1820
    },
    {
      "epoch": 0.24068199841395718,
      "grad_norm": 0.8766266248908138,
      "learning_rate": 9.469532322237197e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8139879107475281,
      "num_tokens": 119307843.0,
      "step": 1821
    },
    {
      "epoch": 0.2408141686492202,
      "grad_norm": 0.9324861370697489,
      "learning_rate": 9.468553929342001e-06,
      "loss": 0.6373,
      "mean_token_accuracy": 0.7930808067321777,
      "num_tokens": 119373379.0,
      "step": 1822
    },
    {
      "epoch": 0.24094633888448322,
      "grad_norm": 0.9830177634309687,
      "learning_rate": 9.46757469162453e-06,
      "loss": 0.6743,
      "mean_token_accuracy": 0.7789189219474792,
      "num_tokens": 119438915.0,
      "step": 1823
    },
    {
      "epoch": 0.24107850911974624,
      "grad_norm": 1.094645677116268,
      "learning_rate": 9.466594609293244e-06,
      "loss": 0.6488,
      "mean_token_accuracy": 0.7869918346405029,
      "num_tokens": 119504451.0,
      "step": 1824
    },
    {
      "epoch": 0.24121067935500926,
      "grad_norm": 1.011658555017231,
      "learning_rate": 9.465613682556784e-06,
      "loss": 0.7131,
      "mean_token_accuracy": 0.7725857496261597,
      "num_tokens": 119569987.0,
      "step": 1825
    },
    {
      "epoch": 0.24134284959027227,
      "grad_norm": 0.971048383159339,
      "learning_rate": 9.464631911623965e-06,
      "loss": 0.6739,
      "mean_token_accuracy": 0.7810554504394531,
      "num_tokens": 119635523.0,
      "step": 1826
    },
    {
      "epoch": 0.2414750198255353,
      "grad_norm": 0.9436663923492297,
      "learning_rate": 9.463649296703789e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.7950189113616943,
      "num_tokens": 119701059.0,
      "step": 1827
    },
    {
      "epoch": 0.2416071900607983,
      "grad_norm": 1.093044159303958,
      "learning_rate": 9.462665838005432e-06,
      "loss": 0.6552,
      "mean_token_accuracy": 0.7864577174186707,
      "num_tokens": 119766595.0,
      "step": 1828
    },
    {
      "epoch": 0.24173936029606133,
      "grad_norm": 1.1981361093465523,
      "learning_rate": 9.461681535738255e-06,
      "loss": 0.6927,
      "mean_token_accuracy": 0.7739439606666565,
      "num_tokens": 119832131.0,
      "step": 1829
    },
    {
      "epoch": 0.24187153053132435,
      "grad_norm": 0.9446165338006295,
      "learning_rate": 9.460696390111791e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.8040685057640076,
      "num_tokens": 119897667.0,
      "step": 1830
    },
    {
      "epoch": 0.24200370076658737,
      "grad_norm": 0.9265321231223395,
      "learning_rate": 9.459710401335758e-06,
      "loss": 0.6443,
      "mean_token_accuracy": 0.7905170321464539,
      "num_tokens": 119963203.0,
      "step": 1831
    },
    {
      "epoch": 0.24213587100185038,
      "grad_norm": 0.8932170737005273,
      "learning_rate": 9.458723569620054e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.8003296256065369,
      "num_tokens": 120028739.0,
      "step": 1832
    },
    {
      "epoch": 0.2422680412371134,
      "grad_norm": 1.0513436710108381,
      "learning_rate": 9.457735895174756e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7952936291694641,
      "num_tokens": 120094275.0,
      "step": 1833
    },
    {
      "epoch": 0.24240021147237642,
      "grad_norm": 0.9797281509955714,
      "learning_rate": 9.456747378210117e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7845959067344666,
      "num_tokens": 120159811.0,
      "step": 1834
    },
    {
      "epoch": 0.24253238170763944,
      "grad_norm": 0.8359022697160189,
      "learning_rate": 9.45575801893657e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8140184283256531,
      "num_tokens": 120225347.0,
      "step": 1835
    },
    {
      "epoch": 0.24266455194290246,
      "grad_norm": 0.8608301953947987,
      "learning_rate": 9.454767817564731e-06,
      "loss": 0.591,
      "mean_token_accuracy": 0.808356761932373,
      "num_tokens": 120290883.0,
      "step": 1836
    },
    {
      "epoch": 0.24279672217816547,
      "grad_norm": 1.076431190705244,
      "learning_rate": 9.453776774305396e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.7886399626731873,
      "num_tokens": 120356419.0,
      "step": 1837
    },
    {
      "epoch": 0.2429288924134285,
      "grad_norm": 0.9738480731187309,
      "learning_rate": 9.452784889369533e-06,
      "loss": 0.6395,
      "mean_token_accuracy": 0.7907764911651611,
      "num_tokens": 120421955.0,
      "step": 1838
    },
    {
      "epoch": 0.2430610626486915,
      "grad_norm": 0.9395254009627747,
      "learning_rate": 9.451792162968295e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.7984220385551453,
      "num_tokens": 120487491.0,
      "step": 1839
    },
    {
      "epoch": 0.24319323288395453,
      "grad_norm": 0.9921967085677467,
      "learning_rate": 9.450798595313013e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.7952478528022766,
      "num_tokens": 120553027.0,
      "step": 1840
    },
    {
      "epoch": 0.24332540311921755,
      "grad_norm": 0.9258901360103242,
      "learning_rate": 9.449804186615199e-06,
      "loss": 0.6713,
      "mean_token_accuracy": 0.7813148498535156,
      "num_tokens": 120618563.0,
      "step": 1841
    },
    {
      "epoch": 0.24345757335448057,
      "grad_norm": 0.9585442848944425,
      "learning_rate": 9.448808937086536e-06,
      "loss": 0.6948,
      "mean_token_accuracy": 0.7757294774055481,
      "num_tokens": 120684099.0,
      "step": 1842
    },
    {
      "epoch": 0.24358974358974358,
      "grad_norm": 0.9465315593402656,
      "learning_rate": 9.447812846938897e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.792470395565033,
      "num_tokens": 120749635.0,
      "step": 1843
    },
    {
      "epoch": 0.2437219138250066,
      "grad_norm": 0.8854996653914763,
      "learning_rate": 9.446815916384329e-06,
      "loss": 0.6129,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 120815171.0,
      "step": 1844
    },
    {
      "epoch": 0.24385408406026962,
      "grad_norm": 1.0128035654184662,
      "learning_rate": 9.445818145635053e-06,
      "loss": 0.6465,
      "mean_token_accuracy": 0.7912189960479736,
      "num_tokens": 120880707.0,
      "step": 1845
    },
    {
      "epoch": 0.24398625429553264,
      "grad_norm": 0.8694186613047896,
      "learning_rate": 9.44481953490348e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8144915103912354,
      "num_tokens": 120946243.0,
      "step": 1846
    },
    {
      "epoch": 0.24411842453079566,
      "grad_norm": 0.919548192643193,
      "learning_rate": 9.443820084402187e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7929129600524902,
      "num_tokens": 121011779.0,
      "step": 1847
    },
    {
      "epoch": 0.24425059476605868,
      "grad_norm": 0.8360918455768028,
      "learning_rate": 9.442819794343941e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.8018404245376587,
      "num_tokens": 121077315.0,
      "step": 1848
    },
    {
      "epoch": 0.2443827650013217,
      "grad_norm": 0.9519054963977452,
      "learning_rate": 9.44181866494168e-06,
      "loss": 0.6931,
      "mean_token_accuracy": 0.7741270661354065,
      "num_tokens": 121142851.0,
      "step": 1849
    },
    {
      "epoch": 0.2445149352365847,
      "grad_norm": 0.9686707920353679,
      "learning_rate": 9.440816696408524e-06,
      "loss": 0.6394,
      "mean_token_accuracy": 0.7939964532852173,
      "num_tokens": 121208387.0,
      "step": 1850
    },
    {
      "epoch": 0.24464710547184773,
      "grad_norm": 1.051825683139164,
      "learning_rate": 9.439813888957773e-06,
      "loss": 0.6893,
      "mean_token_accuracy": 0.7786290049552917,
      "num_tokens": 121273923.0,
      "step": 1851
    },
    {
      "epoch": 0.24477927570711075,
      "grad_norm": 0.8439170402332249,
      "learning_rate": 9.438810242802902e-06,
      "loss": 0.6242,
      "mean_token_accuracy": 0.7973690629005432,
      "num_tokens": 121339459.0,
      "step": 1852
    },
    {
      "epoch": 0.24491144594237377,
      "grad_norm": 0.8617445610914055,
      "learning_rate": 9.437805758157565e-06,
      "loss": 0.6014,
      "mean_token_accuracy": 0.8042668700218201,
      "num_tokens": 121404995.0,
      "step": 1853
    },
    {
      "epoch": 0.24504361617763679,
      "grad_norm": 0.8833147700251998,
      "learning_rate": 9.436800435235599e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7943779826164246,
      "num_tokens": 121470531.0,
      "step": 1854
    },
    {
      "epoch": 0.2451757864128998,
      "grad_norm": 0.8786957668019648,
      "learning_rate": 9.435794274251014e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 121536067.0,
      "step": 1855
    },
    {
      "epoch": 0.24530795664816282,
      "grad_norm": 0.8817475212809229,
      "learning_rate": 9.434787275418002e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8139421343803406,
      "num_tokens": 121601603.0,
      "step": 1856
    },
    {
      "epoch": 0.24544012688342584,
      "grad_norm": 0.8109231932231885,
      "learning_rate": 9.433779438950932e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.813179075717926,
      "num_tokens": 121667139.0,
      "step": 1857
    },
    {
      "epoch": 0.24557229711868886,
      "grad_norm": 0.8881966242482727,
      "learning_rate": 9.432770765064351e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.798879861831665,
      "num_tokens": 121732675.0,
      "step": 1858
    },
    {
      "epoch": 0.24570446735395188,
      "grad_norm": 0.9364255348415131,
      "learning_rate": 9.431761253972983e-06,
      "loss": 0.6818,
      "mean_token_accuracy": 0.7800176739692688,
      "num_tokens": 121798211.0,
      "step": 1859
    },
    {
      "epoch": 0.2458366375892149,
      "grad_norm": 0.8994408609791411,
      "learning_rate": 9.430750905891735e-06,
      "loss": 0.599,
      "mean_token_accuracy": 0.8047857284545898,
      "num_tokens": 121863747.0,
      "step": 1860
    },
    {
      "epoch": 0.24596880782447791,
      "grad_norm": 0.9673483922028961,
      "learning_rate": 9.429739721035687e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7986814975738525,
      "num_tokens": 121929283.0,
      "step": 1861
    },
    {
      "epoch": 0.24610097805974096,
      "grad_norm": 0.8895851503203144,
      "learning_rate": 9.428727699620099e-06,
      "loss": 0.626,
      "mean_token_accuracy": 0.797918438911438,
      "num_tokens": 121994819.0,
      "step": 1862
    },
    {
      "epoch": 0.24623314829500398,
      "grad_norm": 0.8779562880777441,
      "learning_rate": 9.42771484186041e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 122060355.0,
      "step": 1863
    },
    {
      "epoch": 0.246365318530267,
      "grad_norm": 0.8912655252859336,
      "learning_rate": 9.426701147972234e-06,
      "loss": 0.6496,
      "mean_token_accuracy": 0.7900134325027466,
      "num_tokens": 122125891.0,
      "step": 1864
    },
    {
      "epoch": 0.24649748876553002,
      "grad_norm": 0.9684826648320622,
      "learning_rate": 9.42568661817137e-06,
      "loss": 0.6512,
      "mean_token_accuracy": 0.7910358905792236,
      "num_tokens": 122191427.0,
      "step": 1865
    },
    {
      "epoch": 0.24662965900079303,
      "grad_norm": 0.9722461890949902,
      "learning_rate": 9.424671252673788e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 122256963.0,
      "step": 1866
    },
    {
      "epoch": 0.24676182923605605,
      "grad_norm": 0.9484152078624973,
      "learning_rate": 9.423655051695635e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.8000549674034119,
      "num_tokens": 122322499.0,
      "step": 1867
    },
    {
      "epoch": 0.24689399947131907,
      "grad_norm": 1.0138753259672488,
      "learning_rate": 9.422638015453243e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7761415243148804,
      "num_tokens": 122388035.0,
      "step": 1868
    },
    {
      "epoch": 0.2470261697065821,
      "grad_norm": 1.0922476428814787,
      "learning_rate": 9.421620144163113e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.806555986404419,
      "num_tokens": 122453571.0,
      "step": 1869
    },
    {
      "epoch": 0.2471583399418451,
      "grad_norm": 0.869666189802078,
      "learning_rate": 9.420601438041935e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8039616942405701,
      "num_tokens": 122519107.0,
      "step": 1870
    },
    {
      "epoch": 0.24729051017710812,
      "grad_norm": 0.8958144936076364,
      "learning_rate": 9.419581897306567e-06,
      "loss": 0.5725,
      "mean_token_accuracy": 0.8129807114601135,
      "num_tokens": 122584643.0,
      "step": 1871
    },
    {
      "epoch": 0.24742268041237114,
      "grad_norm": 1.0849115641458815,
      "learning_rate": 9.418561522174048e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7796514630317688,
      "num_tokens": 122650179.0,
      "step": 1872
    },
    {
      "epoch": 0.24755485064763416,
      "grad_norm": 0.9296809516710642,
      "learning_rate": 9.417540312861596e-06,
      "loss": 0.6485,
      "mean_token_accuracy": 0.7885484099388123,
      "num_tokens": 122715715.0,
      "step": 1873
    },
    {
      "epoch": 0.24768702088289718,
      "grad_norm": 0.9028084289480859,
      "learning_rate": 9.4165182695866e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.8075021505355835,
      "num_tokens": 122781251.0,
      "step": 1874
    },
    {
      "epoch": 0.2478191911181602,
      "grad_norm": 0.8803806843174133,
      "learning_rate": 9.415495392566638e-06,
      "loss": 0.6332,
      "mean_token_accuracy": 0.7950189113616943,
      "num_tokens": 122846787.0,
      "step": 1875
    },
    {
      "epoch": 0.24795136135342322,
      "grad_norm": 0.9109903154283326,
      "learning_rate": 9.414471682019455e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.8002685904502869,
      "num_tokens": 122912323.0,
      "step": 1876
    },
    {
      "epoch": 0.24808353158868623,
      "grad_norm": 0.9215063273364997,
      "learning_rate": 9.413447138162982e-06,
      "loss": 0.655,
      "mean_token_accuracy": 0.7855115532875061,
      "num_tokens": 122977859.0,
      "step": 1877
    },
    {
      "epoch": 0.24821570182394925,
      "grad_norm": 0.8025902578179923,
      "learning_rate": 9.412421761215319e-06,
      "loss": 0.556,
      "mean_token_accuracy": 0.8196954131126404,
      "num_tokens": 123043395.0,
      "step": 1878
    },
    {
      "epoch": 0.24834787205921227,
      "grad_norm": 0.8680901907886,
      "learning_rate": 9.411395551394746e-06,
      "loss": 0.5927,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 123108931.0,
      "step": 1879
    },
    {
      "epoch": 0.2484800422944753,
      "grad_norm": 0.9604845706839323,
      "learning_rate": 9.410368508919726e-06,
      "loss": 0.6324,
      "mean_token_accuracy": 0.7947442531585693,
      "num_tokens": 123174467.0,
      "step": 1880
    },
    {
      "epoch": 0.2486122125297383,
      "grad_norm": 0.9894532912585291,
      "learning_rate": 9.409340634008893e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7993834614753723,
      "num_tokens": 123240003.0,
      "step": 1881
    },
    {
      "epoch": 0.24874438276500133,
      "grad_norm": 0.8821388000739481,
      "learning_rate": 9.40831192688106e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7995055317878723,
      "num_tokens": 123305539.0,
      "step": 1882
    },
    {
      "epoch": 0.24887655300026434,
      "grad_norm": 1.0285495851627264,
      "learning_rate": 9.407282387755218e-06,
      "loss": 0.6664,
      "mean_token_accuracy": 0.7840007543563843,
      "num_tokens": 123371075.0,
      "step": 1883
    },
    {
      "epoch": 0.24900872323552736,
      "grad_norm": 0.9390022299351458,
      "learning_rate": 9.406252016850535e-06,
      "loss": 0.6479,
      "mean_token_accuracy": 0.78825843334198,
      "num_tokens": 123436611.0,
      "step": 1884
    },
    {
      "epoch": 0.24914089347079038,
      "grad_norm": 0.8222026724124181,
      "learning_rate": 9.405220814386352e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7993834614753723,
      "num_tokens": 123502147.0,
      "step": 1885
    },
    {
      "epoch": 0.2492730637060534,
      "grad_norm": 0.9080389189956668,
      "learning_rate": 9.404188780582194e-06,
      "loss": 0.6615,
      "mean_token_accuracy": 0.7878311276435852,
      "num_tokens": 123567683.0,
      "step": 1886
    },
    {
      "epoch": 0.24940523394131642,
      "grad_norm": 0.9567316937655581,
      "learning_rate": 9.403155915657756e-06,
      "loss": 0.6518,
      "mean_token_accuracy": 0.789128303527832,
      "num_tokens": 123633219.0,
      "step": 1887
    },
    {
      "epoch": 0.24953740417657944,
      "grad_norm": 1.265417694786738,
      "learning_rate": 9.402122219832918e-06,
      "loss": 0.709,
      "mean_token_accuracy": 0.7735471725463867,
      "num_tokens": 123698755.0,
      "step": 1888
    },
    {
      "epoch": 0.24966957441184245,
      "grad_norm": 0.9225576738704834,
      "learning_rate": 9.40108769332773e-06,
      "loss": 0.6499,
      "mean_token_accuracy": 0.7873886227607727,
      "num_tokens": 123764291.0,
      "step": 1889
    },
    {
      "epoch": 0.24980174464710547,
      "grad_norm": 0.9683318213447094,
      "learning_rate": 9.40005233636242e-06,
      "loss": 0.6362,
      "mean_token_accuracy": 0.7947747707366943,
      "num_tokens": 123829827.0,
      "step": 1890
    },
    {
      "epoch": 0.2499339148823685,
      "grad_norm": 0.9109430925121125,
      "learning_rate": 9.399016149157396e-06,
      "loss": 0.6724,
      "mean_token_accuracy": 0.7827951312065125,
      "num_tokens": 123895363.0,
      "step": 1891
    },
    {
      "epoch": 0.2500660851176315,
      "grad_norm": 0.9896005381235387,
      "learning_rate": 9.397979131933237e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7958582639694214,
      "num_tokens": 123960899.0,
      "step": 1892
    },
    {
      "epoch": 0.2501982553528945,
      "grad_norm": 0.9326907880298554,
      "learning_rate": 9.396941284910706e-06,
      "loss": 0.6302,
      "mean_token_accuracy": 0.7949120998382568,
      "num_tokens": 124026435.0,
      "step": 1893
    },
    {
      "epoch": 0.25033042558815755,
      "grad_norm": 0.8580925415764915,
      "learning_rate": 9.395902608310738e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.7991240620613098,
      "num_tokens": 124091971.0,
      "step": 1894
    },
    {
      "epoch": 0.25046259582342056,
      "grad_norm": 1.002672729145666,
      "learning_rate": 9.394863102354446e-06,
      "loss": 0.6884,
      "mean_token_accuracy": 0.7766451239585876,
      "num_tokens": 124157507.0,
      "step": 1895
    },
    {
      "epoch": 0.2505947660586836,
      "grad_norm": 0.8829138464557914,
      "learning_rate": 9.393822767263116e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.8178946375846863,
      "num_tokens": 124223043.0,
      "step": 1896
    },
    {
      "epoch": 0.2507269362939466,
      "grad_norm": 0.898031599973139,
      "learning_rate": 9.39278160325822e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8103559017181396,
      "num_tokens": 124288579.0,
      "step": 1897
    },
    {
      "epoch": 0.2508591065292096,
      "grad_norm": 0.8670335842682684,
      "learning_rate": 9.391739610561393e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.7994902729988098,
      "num_tokens": 124354115.0,
      "step": 1898
    },
    {
      "epoch": 0.25099127676447264,
      "grad_norm": 0.8747583071833034,
      "learning_rate": 9.390696789394456e-06,
      "loss": 0.6329,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 124419651.0,
      "step": 1899
    },
    {
      "epoch": 0.25112344699973566,
      "grad_norm": 0.9182519830993956,
      "learning_rate": 9.389653139979407e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 124485187.0,
      "step": 1900
    },
    {
      "epoch": 0.2512556172349987,
      "grad_norm": 0.7959109772649561,
      "learning_rate": 9.388608662538413e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8096691370010376,
      "num_tokens": 124550723.0,
      "step": 1901
    },
    {
      "epoch": 0.2513877874702617,
      "grad_norm": 0.9001432851425325,
      "learning_rate": 9.387563357293822e-06,
      "loss": 0.6714,
      "mean_token_accuracy": 0.7821999788284302,
      "num_tokens": 124616259.0,
      "step": 1902
    },
    {
      "epoch": 0.2515199577055247,
      "grad_norm": 1.0218151681463752,
      "learning_rate": 9.386517224468162e-06,
      "loss": 0.6567,
      "mean_token_accuracy": 0.78795325756073,
      "num_tokens": 124681795.0,
      "step": 1903
    },
    {
      "epoch": 0.25165212794078773,
      "grad_norm": 1.0025895504828934,
      "learning_rate": 9.385470264284127e-06,
      "loss": 0.6431,
      "mean_token_accuracy": 0.7888689041137695,
      "num_tokens": 124747331.0,
      "step": 1904
    },
    {
      "epoch": 0.25178429817605075,
      "grad_norm": 0.9536443007971245,
      "learning_rate": 9.384422476964596e-06,
      "loss": 0.6435,
      "mean_token_accuracy": 0.7952325940132141,
      "num_tokens": 124812867.0,
      "step": 1905
    },
    {
      "epoch": 0.25191646841131377,
      "grad_norm": 0.895142577116058,
      "learning_rate": 9.383373862732622e-06,
      "loss": 0.6301,
      "mean_token_accuracy": 0.7932944893836975,
      "num_tokens": 124878403.0,
      "step": 1906
    },
    {
      "epoch": 0.2520486386465768,
      "grad_norm": 0.8927248149963283,
      "learning_rate": 9.382324421811429e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7903339266777039,
      "num_tokens": 124943939.0,
      "step": 1907
    },
    {
      "epoch": 0.2521808088818398,
      "grad_norm": 1.0312193925388382,
      "learning_rate": 9.381274154424425e-06,
      "loss": 0.6264,
      "mean_token_accuracy": 0.7958277463912964,
      "num_tokens": 125009475.0,
      "step": 1908
    },
    {
      "epoch": 0.2523129791171028,
      "grad_norm": 0.9478767947160446,
      "learning_rate": 9.380223060795188e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7989256381988525,
      "num_tokens": 125075011.0,
      "step": 1909
    },
    {
      "epoch": 0.25244514935236584,
      "grad_norm": 0.9017555594436641,
      "learning_rate": 9.379171141147475e-06,
      "loss": 0.6201,
      "mean_token_accuracy": 0.799062967300415,
      "num_tokens": 125140547.0,
      "step": 1910
    },
    {
      "epoch": 0.25257731958762886,
      "grad_norm": 0.8587726247173779,
      "learning_rate": 9.378118395705218e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7940880060195923,
      "num_tokens": 125206083.0,
      "step": 1911
    },
    {
      "epoch": 0.2527094898228919,
      "grad_norm": 0.9449879130545829,
      "learning_rate": 9.377064824692525e-06,
      "loss": 0.6556,
      "mean_token_accuracy": 0.7883653044700623,
      "num_tokens": 125271619.0,
      "step": 1912
    },
    {
      "epoch": 0.2528416600581549,
      "grad_norm": 0.9330165230760934,
      "learning_rate": 9.376010428333676e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.803122341632843,
      "num_tokens": 125337155.0,
      "step": 1913
    },
    {
      "epoch": 0.2529738302934179,
      "grad_norm": 1.077869105256551,
      "learning_rate": 9.374955206853131e-06,
      "loss": 0.6466,
      "mean_token_accuracy": 0.7883653044700623,
      "num_tokens": 125402691.0,
      "step": 1914
    },
    {
      "epoch": 0.25310600052868093,
      "grad_norm": 0.9669899621004887,
      "learning_rate": 9.373899160475527e-06,
      "loss": 0.6463,
      "mean_token_accuracy": 0.7947289943695068,
      "num_tokens": 125468227.0,
      "step": 1915
    },
    {
      "epoch": 0.25323817076394395,
      "grad_norm": 0.8676014790433758,
      "learning_rate": 9.372842289425674e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 125533763.0,
      "step": 1916
    },
    {
      "epoch": 0.25337034099920697,
      "grad_norm": 0.9530647598012428,
      "learning_rate": 9.371784593928557e-06,
      "loss": 0.6724,
      "mean_token_accuracy": 0.7836955189704895,
      "num_tokens": 125599299.0,
      "step": 1917
    },
    {
      "epoch": 0.25350251123447,
      "grad_norm": 0.9131996295859557,
      "learning_rate": 9.370726074209333e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8087992668151855,
      "num_tokens": 125664835.0,
      "step": 1918
    },
    {
      "epoch": 0.253634681469733,
      "grad_norm": 0.8695229446908014,
      "learning_rate": 9.369666730493348e-06,
      "loss": 0.5485,
      "mean_token_accuracy": 0.8234189748764038,
      "num_tokens": 125730371.0,
      "step": 1919
    },
    {
      "epoch": 0.253766851704996,
      "grad_norm": 0.9209069654955194,
      "learning_rate": 9.368606563006107e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8091502785682678,
      "num_tokens": 125795907.0,
      "step": 1920
    },
    {
      "epoch": 0.25389902194025904,
      "grad_norm": 0.9489068352803224,
      "learning_rate": 9.367545571973298e-06,
      "loss": 0.6369,
      "mean_token_accuracy": 0.7940422296524048,
      "num_tokens": 125861443.0,
      "step": 1921
    },
    {
      "epoch": 0.25403119217552206,
      "grad_norm": 0.9135831250302456,
      "learning_rate": 9.366483757620787e-06,
      "loss": 0.6135,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 125926979.0,
      "step": 1922
    },
    {
      "epoch": 0.2541633624107851,
      "grad_norm": 0.8692861399511864,
      "learning_rate": 9.36542112017461e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 125992515.0,
      "step": 1923
    },
    {
      "epoch": 0.2542955326460481,
      "grad_norm": 0.986639728282799,
      "learning_rate": 9.36435765986098e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7898455858230591,
      "num_tokens": 126058051.0,
      "step": 1924
    },
    {
      "epoch": 0.2544277028813111,
      "grad_norm": 1.0042463582479513,
      "learning_rate": 9.363293376906287e-06,
      "loss": 0.6909,
      "mean_token_accuracy": 0.7776370644569397,
      "num_tokens": 126123587.0,
      "step": 1925
    },
    {
      "epoch": 0.25455987311657413,
      "grad_norm": 0.9719932345121652,
      "learning_rate": 9.362228271537092e-06,
      "loss": 0.6419,
      "mean_token_accuracy": 0.7915852665901184,
      "num_tokens": 126189123.0,
      "step": 1926
    },
    {
      "epoch": 0.25469204335183715,
      "grad_norm": 0.9548230311675161,
      "learning_rate": 9.361162343980136e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7947900295257568,
      "num_tokens": 126254659.0,
      "step": 1927
    },
    {
      "epoch": 0.25482421358710017,
      "grad_norm": 0.8880913941987343,
      "learning_rate": 9.360095594462335e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.788105845451355,
      "num_tokens": 126320195.0,
      "step": 1928
    },
    {
      "epoch": 0.2549563838223632,
      "grad_norm": 0.9362563007593189,
      "learning_rate": 9.359028023210772e-06,
      "loss": 0.6619,
      "mean_token_accuracy": 0.7852826118469238,
      "num_tokens": 126385731.0,
      "step": 1929
    },
    {
      "epoch": 0.2550885540576262,
      "grad_norm": 0.9771472549387902,
      "learning_rate": 9.357959630452715e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.8016725778579712,
      "num_tokens": 126451267.0,
      "step": 1930
    },
    {
      "epoch": 0.2552207242928892,
      "grad_norm": 1.0281526042328841,
      "learning_rate": 9.356890416415601e-06,
      "loss": 0.6287,
      "mean_token_accuracy": 0.7954919934272766,
      "num_tokens": 126516803.0,
      "step": 1931
    },
    {
      "epoch": 0.25535289452815224,
      "grad_norm": 0.9689502421750376,
      "learning_rate": 9.355820381327042e-06,
      "loss": 0.6912,
      "mean_token_accuracy": 0.7752411365509033,
      "num_tokens": 126582339.0,
      "step": 1932
    },
    {
      "epoch": 0.25548506476341526,
      "grad_norm": 0.8569725818230675,
      "learning_rate": 9.35474952541483e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 126647875.0,
      "step": 1933
    },
    {
      "epoch": 0.2556172349986783,
      "grad_norm": 1.0317783682240733,
      "learning_rate": 9.353677848906923e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 126713411.0,
      "step": 1934
    },
    {
      "epoch": 0.2557494052339413,
      "grad_norm": 1.0159933214150967,
      "learning_rate": 9.352605352031461e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8052740693092346,
      "num_tokens": 126778947.0,
      "step": 1935
    },
    {
      "epoch": 0.2558815754692043,
      "grad_norm": 0.9947913626653268,
      "learning_rate": 9.351532035016758e-06,
      "loss": 0.6554,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 126844483.0,
      "step": 1936
    },
    {
      "epoch": 0.25601374570446733,
      "grad_norm": 0.9252258090899483,
      "learning_rate": 9.3504578980913e-06,
      "loss": 0.6314,
      "mean_token_accuracy": 0.7963923811912537,
      "num_tokens": 126910019.0,
      "step": 1937
    },
    {
      "epoch": 0.25614591593973035,
      "grad_norm": 0.9284015045465931,
      "learning_rate": 9.349382941483743e-06,
      "loss": 0.6542,
      "mean_token_accuracy": 0.7853894233703613,
      "num_tokens": 126975555.0,
      "step": 1938
    },
    {
      "epoch": 0.25627808617499337,
      "grad_norm": 0.9239840410363293,
      "learning_rate": 9.34830716542293e-06,
      "loss": 0.6353,
      "mean_token_accuracy": 0.792500913143158,
      "num_tokens": 127041091.0,
      "step": 1939
    },
    {
      "epoch": 0.2564102564102564,
      "grad_norm": 0.944581044049613,
      "learning_rate": 9.347230570137868e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.7932028770446777,
      "num_tokens": 127106627.0,
      "step": 1940
    },
    {
      "epoch": 0.2565424266455194,
      "grad_norm": 0.9046602199286512,
      "learning_rate": 9.346153155857742e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.8020235896110535,
      "num_tokens": 127172163.0,
      "step": 1941
    },
    {
      "epoch": 0.2566745968807824,
      "grad_norm": 0.8914984298161447,
      "learning_rate": 9.345074922811912e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8155750036239624,
      "num_tokens": 127237699.0,
      "step": 1942
    },
    {
      "epoch": 0.25680676711604544,
      "grad_norm": 0.8558838566823536,
      "learning_rate": 9.343995871229909e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 127303235.0,
      "step": 1943
    },
    {
      "epoch": 0.25693893735130846,
      "grad_norm": 0.9161928842941214,
      "learning_rate": 9.34291600134144e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8107526302337646,
      "num_tokens": 127368771.0,
      "step": 1944
    },
    {
      "epoch": 0.2570711075865715,
      "grad_norm": 0.9478351110872871,
      "learning_rate": 9.341835313376392e-06,
      "loss": 0.6765,
      "mean_token_accuracy": 0.7828561663627625,
      "num_tokens": 127434307.0,
      "step": 1945
    },
    {
      "epoch": 0.2572032778218345,
      "grad_norm": 0.9063043822795291,
      "learning_rate": 9.340753807564817e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.806403398513794,
      "num_tokens": 127499843.0,
      "step": 1946
    },
    {
      "epoch": 0.2573354480570975,
      "grad_norm": 0.8605475316097865,
      "learning_rate": 9.339671484136943e-06,
      "loss": 0.5685,
      "mean_token_accuracy": 0.8149493336677551,
      "num_tokens": 127565379.0,
      "step": 1947
    },
    {
      "epoch": 0.25746761829236053,
      "grad_norm": 0.8666103258221681,
      "learning_rate": 9.338588343323178e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.8025729656219482,
      "num_tokens": 127630915.0,
      "step": 1948
    },
    {
      "epoch": 0.25759978852762355,
      "grad_norm": 0.9622761107691434,
      "learning_rate": 9.3375043853541e-06,
      "loss": 0.6444,
      "mean_token_accuracy": 0.789158821105957,
      "num_tokens": 127696451.0,
      "step": 1949
    },
    {
      "epoch": 0.25773195876288657,
      "grad_norm": 0.9606905016780597,
      "learning_rate": 9.336419610460458e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.7859846353530884,
      "num_tokens": 127761987.0,
      "step": 1950
    },
    {
      "epoch": 0.25786412899814964,
      "grad_norm": 0.9014035185839344,
      "learning_rate": 9.33533401887318e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 127827523.0,
      "step": 1951
    },
    {
      "epoch": 0.25799629923341266,
      "grad_norm": 0.9965171138540403,
      "learning_rate": 9.334247610823364e-06,
      "loss": 0.6251,
      "mean_token_accuracy": 0.7965449690818787,
      "num_tokens": 127893059.0,
      "step": 1952
    },
    {
      "epoch": 0.2581284694686757,
      "grad_norm": 0.990936172350865,
      "learning_rate": 9.333160386542289e-06,
      "loss": 0.6623,
      "mean_token_accuracy": 0.7862287759780884,
      "num_tokens": 127958595.0,
      "step": 1953
    },
    {
      "epoch": 0.2582606397039387,
      "grad_norm": 0.8927811908497439,
      "learning_rate": 9.332072346261395e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8004974722862244,
      "num_tokens": 128024131.0,
      "step": 1954
    },
    {
      "epoch": 0.2583928099392017,
      "grad_norm": 0.8728901704657233,
      "learning_rate": 9.330983490212308e-06,
      "loss": 0.6445,
      "mean_token_accuracy": 0.7920736074447632,
      "num_tokens": 128089667.0,
      "step": 1955
    },
    {
      "epoch": 0.25852498017446474,
      "grad_norm": 0.8532734864840654,
      "learning_rate": 9.32989381862682e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8086771965026855,
      "num_tokens": 128155203.0,
      "step": 1956
    },
    {
      "epoch": 0.25865715040972775,
      "grad_norm": 0.9673771189817012,
      "learning_rate": 9.3288033317369e-06,
      "loss": 0.6595,
      "mean_token_accuracy": 0.7870528697967529,
      "num_tokens": 128220739.0,
      "step": 1957
    },
    {
      "epoch": 0.2587893206449908,
      "grad_norm": 1.006717031393974,
      "learning_rate": 9.327712029774692e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.792287290096283,
      "num_tokens": 128286275.0,
      "step": 1958
    },
    {
      "epoch": 0.2589214908802538,
      "grad_norm": 0.8520237306924824,
      "learning_rate": 9.326619912972509e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8066627979278564,
      "num_tokens": 128351811.0,
      "step": 1959
    },
    {
      "epoch": 0.2590536611155168,
      "grad_norm": 0.8133174422623788,
      "learning_rate": 9.32552698156284e-06,
      "loss": 0.5832,
      "mean_token_accuracy": 0.8112257122993469,
      "num_tokens": 128417347.0,
      "step": 1960
    },
    {
      "epoch": 0.2591858313507798,
      "grad_norm": 0.9001422978098214,
      "learning_rate": 9.324433235778348e-06,
      "loss": 0.6475,
      "mean_token_accuracy": 0.7874191403388977,
      "num_tokens": 128482883.0,
      "step": 1961
    },
    {
      "epoch": 0.25931800158604285,
      "grad_norm": 0.9093498055789148,
      "learning_rate": 9.32333867585187e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.7956598997116089,
      "num_tokens": 128548419.0,
      "step": 1962
    },
    {
      "epoch": 0.25945017182130586,
      "grad_norm": 0.951344909010195,
      "learning_rate": 9.322243302016412e-06,
      "loss": 0.6514,
      "mean_token_accuracy": 0.7864577174186707,
      "num_tokens": 128613955.0,
      "step": 1963
    },
    {
      "epoch": 0.2595823420565689,
      "grad_norm": 0.9843881191061121,
      "learning_rate": 9.32114711450516e-06,
      "loss": 0.7037,
      "mean_token_accuracy": 0.7721889615058899,
      "num_tokens": 128679491.0,
      "step": 1964
    },
    {
      "epoch": 0.2597145122918319,
      "grad_norm": 0.902195689389118,
      "learning_rate": 9.320050113551464e-06,
      "loss": 0.6319,
      "mean_token_accuracy": 0.7955835461616516,
      "num_tokens": 128745027.0,
      "step": 1965
    },
    {
      "epoch": 0.2598466825270949,
      "grad_norm": 1.0945998055221586,
      "learning_rate": 9.318952299388857e-06,
      "loss": 0.679,
      "mean_token_accuracy": 0.7786442637443542,
      "num_tokens": 128810563.0,
      "step": 1966
    },
    {
      "epoch": 0.25997885276235794,
      "grad_norm": 0.8416144383827343,
      "learning_rate": 9.317853672251038e-06,
      "loss": 0.5782,
      "mean_token_accuracy": 0.8081430792808533,
      "num_tokens": 128876099.0,
      "step": 1967
    },
    {
      "epoch": 0.26011102299762096,
      "grad_norm": 0.9905264463874381,
      "learning_rate": 9.316754232371886e-06,
      "loss": 0.6596,
      "mean_token_accuracy": 0.783863365650177,
      "num_tokens": 128941635.0,
      "step": 1968
    },
    {
      "epoch": 0.260243193232884,
      "grad_norm": 0.8977125845485203,
      "learning_rate": 9.315653979985444e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.7926992774009705,
      "num_tokens": 129007171.0,
      "step": 1969
    },
    {
      "epoch": 0.260375363468147,
      "grad_norm": 0.8689691530567921,
      "learning_rate": 9.314552915325935e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.8108137249946594,
      "num_tokens": 129072707.0,
      "step": 1970
    },
    {
      "epoch": 0.26050753370341,
      "grad_norm": 0.9672470934114653,
      "learning_rate": 9.313451038627753e-06,
      "loss": 0.6141,
      "mean_token_accuracy": 0.8010469079017639,
      "num_tokens": 129138243.0,
      "step": 1971
    },
    {
      "epoch": 0.26063970393867303,
      "grad_norm": 1.1333660196598698,
      "learning_rate": 9.312348350125463e-06,
      "loss": 0.6704,
      "mean_token_accuracy": 0.7793920040130615,
      "num_tokens": 129203779.0,
      "step": 1972
    },
    {
      "epoch": 0.26077187417393605,
      "grad_norm": 0.9472020022423586,
      "learning_rate": 9.311244850053808e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 129269315.0,
      "step": 1973
    },
    {
      "epoch": 0.26090404440919907,
      "grad_norm": 0.9230769307582414,
      "learning_rate": 9.310140538647694e-06,
      "loss": 0.658,
      "mean_token_accuracy": 0.7892045974731445,
      "num_tokens": 129334851.0,
      "step": 1974
    },
    {
      "epoch": 0.2610362146444621,
      "grad_norm": 0.8914346853362635,
      "learning_rate": 9.30903541614221e-06,
      "loss": 0.6103,
      "mean_token_accuracy": 0.802160918712616,
      "num_tokens": 129400387.0,
      "step": 1975
    },
    {
      "epoch": 0.2611683848797251,
      "grad_norm": 1.0289720596255028,
      "learning_rate": 9.307929482772617e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.78801429271698,
      "num_tokens": 129465923.0,
      "step": 1976
    },
    {
      "epoch": 0.2613005551149881,
      "grad_norm": 0.9109540483628203,
      "learning_rate": 9.306822738774338e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8037785291671753,
      "num_tokens": 129531459.0,
      "step": 1977
    },
    {
      "epoch": 0.26143272535025114,
      "grad_norm": 0.9623092993518011,
      "learning_rate": 9.305715184382978e-06,
      "loss": 0.6285,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 129596995.0,
      "step": 1978
    },
    {
      "epoch": 0.26156489558551416,
      "grad_norm": 0.8926592245682847,
      "learning_rate": 9.304606819834313e-06,
      "loss": 0.6475,
      "mean_token_accuracy": 0.7931571006774902,
      "num_tokens": 129662531.0,
      "step": 1979
    },
    {
      "epoch": 0.2616970658207772,
      "grad_norm": 0.8934024279835936,
      "learning_rate": 9.303497645364291e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 129728067.0,
      "step": 1980
    },
    {
      "epoch": 0.2618292360560402,
      "grad_norm": 0.9508622324431005,
      "learning_rate": 9.30238766120903e-06,
      "loss": 0.6609,
      "mean_token_accuracy": 0.7864119410514832,
      "num_tokens": 129793603.0,
      "step": 1981
    },
    {
      "epoch": 0.2619614062913032,
      "grad_norm": 1.006344272181762,
      "learning_rate": 9.301276867604826e-06,
      "loss": 0.6761,
      "mean_token_accuracy": 0.7823830842971802,
      "num_tokens": 129859139.0,
      "step": 1982
    },
    {
      "epoch": 0.26209357652656623,
      "grad_norm": 0.9864023802397275,
      "learning_rate": 9.300165264788141e-06,
      "loss": 0.6521,
      "mean_token_accuracy": 0.7914937138557434,
      "num_tokens": 129924675.0,
      "step": 1983
    },
    {
      "epoch": 0.26222574676182925,
      "grad_norm": 0.910773758785726,
      "learning_rate": 9.299052852995614e-06,
      "loss": 0.6652,
      "mean_token_accuracy": 0.7851300239562988,
      "num_tokens": 129990211.0,
      "step": 1984
    },
    {
      "epoch": 0.26235791699709227,
      "grad_norm": 0.9475398605285934,
      "learning_rate": 9.297939632464053e-06,
      "loss": 0.6515,
      "mean_token_accuracy": 0.7876327633857727,
      "num_tokens": 130055747.0,
      "step": 1985
    },
    {
      "epoch": 0.2624900872323553,
      "grad_norm": 0.8936272300521232,
      "learning_rate": 9.296825603430438e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8117445707321167,
      "num_tokens": 130121283.0,
      "step": 1986
    },
    {
      "epoch": 0.2626222574676183,
      "grad_norm": 1.0220037262475277,
      "learning_rate": 9.295710766131925e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7907001376152039,
      "num_tokens": 130186819.0,
      "step": 1987
    },
    {
      "epoch": 0.2627544277028813,
      "grad_norm": 0.9167540229392905,
      "learning_rate": 9.29459512080584e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 130252355.0,
      "step": 1988
    },
    {
      "epoch": 0.26288659793814434,
      "grad_norm": 0.9576579675882241,
      "learning_rate": 9.293478667689675e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 130317891.0,
      "step": 1989
    },
    {
      "epoch": 0.26301876817340736,
      "grad_norm": 1.0140462256392249,
      "learning_rate": 9.292361407021108e-06,
      "loss": 0.6472,
      "mean_token_accuracy": 0.7899523973464966,
      "num_tokens": 130383427.0,
      "step": 1990
    },
    {
      "epoch": 0.2631509384086704,
      "grad_norm": 1.011970289002674,
      "learning_rate": 9.291243339037974e-06,
      "loss": 0.6439,
      "mean_token_accuracy": 0.7920125722885132,
      "num_tokens": 130448963.0,
      "step": 1991
    },
    {
      "epoch": 0.2632831086439334,
      "grad_norm": 0.9916175189213574,
      "learning_rate": 9.290124463978289e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7975979447364807,
      "num_tokens": 130514499.0,
      "step": 1992
    },
    {
      "epoch": 0.2634152788791964,
      "grad_norm": 0.8769900199175689,
      "learning_rate": 9.28900478208024e-06,
      "loss": 0.6465,
      "mean_token_accuracy": 0.7870070934295654,
      "num_tokens": 130580035.0,
      "step": 1993
    },
    {
      "epoch": 0.26354744911445943,
      "grad_norm": 0.8698454754896124,
      "learning_rate": 9.28788429358218e-06,
      "loss": 0.6572,
      "mean_token_accuracy": 0.7865340113639832,
      "num_tokens": 130645571.0,
      "step": 1994
    },
    {
      "epoch": 0.26367961934972245,
      "grad_norm": 0.9983251848306638,
      "learning_rate": 9.286762998722636e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7971249222755432,
      "num_tokens": 130711107.0,
      "step": 1995
    },
    {
      "epoch": 0.26381178958498547,
      "grad_norm": 0.8501816821938127,
      "learning_rate": 9.285640897740316e-06,
      "loss": 0.6023,
      "mean_token_accuracy": 0.8056555986404419,
      "num_tokens": 130776643.0,
      "step": 1996
    },
    {
      "epoch": 0.2639439598202485,
      "grad_norm": 0.9326037612127177,
      "learning_rate": 9.284517990874086e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.8025577068328857,
      "num_tokens": 130842179.0,
      "step": 1997
    },
    {
      "epoch": 0.2640761300555115,
      "grad_norm": 0.8619419764121355,
      "learning_rate": 9.28339427836299e-06,
      "loss": 0.664,
      "mean_token_accuracy": 0.7849010825157166,
      "num_tokens": 130907715.0,
      "step": 1998
    },
    {
      "epoch": 0.2642083002907745,
      "grad_norm": 0.9855429625619249,
      "learning_rate": 9.282269760446244e-06,
      "loss": 0.6215,
      "mean_token_accuracy": 0.7962245345115662,
      "num_tokens": 130973251.0,
      "step": 1999
    },
    {
      "epoch": 0.26434047052603754,
      "grad_norm": 0.9086477411709121,
      "learning_rate": 9.281144437363235e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7942101359367371,
      "num_tokens": 131038787.0,
      "step": 2000
    },
    {
      "epoch": 0.26447264076130056,
      "grad_norm": 0.9727373243057662,
      "learning_rate": 9.280018309353519e-06,
      "loss": 0.6692,
      "mean_token_accuracy": 0.7803076505661011,
      "num_tokens": 131104323.0,
      "step": 2001
    },
    {
      "epoch": 0.2646048109965636,
      "grad_norm": 0.8580551389918405,
      "learning_rate": 9.278891376656826e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8155292272567749,
      "num_tokens": 131169859.0,
      "step": 2002
    },
    {
      "epoch": 0.2647369812318266,
      "grad_norm": 0.8974483687321598,
      "learning_rate": 9.277763639513058e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.812873899936676,
      "num_tokens": 131235395.0,
      "step": 2003
    },
    {
      "epoch": 0.2648691514670896,
      "grad_norm": 1.0730307089569828,
      "learning_rate": 9.276635098162283e-06,
      "loss": 0.6793,
      "mean_token_accuracy": 0.7818337082862854,
      "num_tokens": 131300931.0,
      "step": 2004
    },
    {
      "epoch": 0.26500132170235263,
      "grad_norm": 0.9382138076384446,
      "learning_rate": 9.275505752844747e-06,
      "loss": 0.6686,
      "mean_token_accuracy": 0.7843517065048218,
      "num_tokens": 131366467.0,
      "step": 2005
    },
    {
      "epoch": 0.26513349193761565,
      "grad_norm": 0.958477115918525,
      "learning_rate": 9.274375603800864e-06,
      "loss": 0.6483,
      "mean_token_accuracy": 0.787861704826355,
      "num_tokens": 131432003.0,
      "step": 2006
    },
    {
      "epoch": 0.26526566217287867,
      "grad_norm": 0.9942005961521566,
      "learning_rate": 9.273244651271217e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7860761880874634,
      "num_tokens": 131497539.0,
      "step": 2007
    },
    {
      "epoch": 0.2653978324081417,
      "grad_norm": 1.0004310075895206,
      "learning_rate": 9.272112895496564e-06,
      "loss": 0.6511,
      "mean_token_accuracy": 0.7873581051826477,
      "num_tokens": 131563075.0,
      "step": 2008
    },
    {
      "epoch": 0.2655300026434047,
      "grad_norm": 0.9571689302050029,
      "learning_rate": 9.270980336717831e-06,
      "loss": 0.6707,
      "mean_token_accuracy": 0.7829782962799072,
      "num_tokens": 131628611.0,
      "step": 2009
    },
    {
      "epoch": 0.2656621728786677,
      "grad_norm": 0.9692660967439264,
      "learning_rate": 9.269846975176116e-06,
      "loss": 0.6854,
      "mean_token_accuracy": 0.7786290049552917,
      "num_tokens": 131694147.0,
      "step": 2010
    },
    {
      "epoch": 0.26579434311393074,
      "grad_norm": 0.9007509371821422,
      "learning_rate": 9.268712811112692e-06,
      "loss": 0.6129,
      "mean_token_accuracy": 0.8009858131408691,
      "num_tokens": 131759683.0,
      "step": 2011
    },
    {
      "epoch": 0.26592651334919376,
      "grad_norm": 0.9483126275535705,
      "learning_rate": 9.267577844768994e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7835429310798645,
      "num_tokens": 131825219.0,
      "step": 2012
    },
    {
      "epoch": 0.2660586835844568,
      "grad_norm": 1.020927252489909,
      "learning_rate": 9.266442076386632e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 131890755.0,
      "step": 2013
    },
    {
      "epoch": 0.2661908538197198,
      "grad_norm": 0.9110978066034525,
      "learning_rate": 9.265305506207392e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8051977753639221,
      "num_tokens": 131956291.0,
      "step": 2014
    },
    {
      "epoch": 0.2663230240549828,
      "grad_norm": 0.8986714756604866,
      "learning_rate": 9.264168134473222e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 132021827.0,
      "step": 2015
    },
    {
      "epoch": 0.26645519429024583,
      "grad_norm": 0.9513089383787798,
      "learning_rate": 9.263029961426246e-06,
      "loss": 0.6607,
      "mean_token_accuracy": 0.7838481068611145,
      "num_tokens": 132087363.0,
      "step": 2016
    },
    {
      "epoch": 0.26658736452550885,
      "grad_norm": 0.8825958820151437,
      "learning_rate": 9.26189098730876e-06,
      "loss": 0.6403,
      "mean_token_accuracy": 0.792378842830658,
      "num_tokens": 132152899.0,
      "step": 2017
    },
    {
      "epoch": 0.26671953476077187,
      "grad_norm": 0.8763386373632599,
      "learning_rate": 9.260751212363224e-06,
      "loss": 0.63,
      "mean_token_accuracy": 0.7955682873725891,
      "num_tokens": 132218435.0,
      "step": 2018
    },
    {
      "epoch": 0.2668517049960349,
      "grad_norm": 0.9573298576349816,
      "learning_rate": 9.259610636832275e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.783497154712677,
      "num_tokens": 132283971.0,
      "step": 2019
    },
    {
      "epoch": 0.2669838752312979,
      "grad_norm": 0.9467728204820139,
      "learning_rate": 9.258469260958714e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 132349507.0,
      "step": 2020
    },
    {
      "epoch": 0.2671160454665609,
      "grad_norm": 0.9442248862025644,
      "learning_rate": 9.25732708498552e-06,
      "loss": 0.6295,
      "mean_token_accuracy": 0.7963160872459412,
      "num_tokens": 132415043.0,
      "step": 2021
    },
    {
      "epoch": 0.26724821570182394,
      "grad_norm": 0.8602970994376822,
      "learning_rate": 9.256184109155837e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.8114241361618042,
      "num_tokens": 132480579.0,
      "step": 2022
    },
    {
      "epoch": 0.26738038593708696,
      "grad_norm": 0.9253657296584566,
      "learning_rate": 9.255040333712982e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8045873641967773,
      "num_tokens": 132546115.0,
      "step": 2023
    },
    {
      "epoch": 0.26751255617235,
      "grad_norm": 0.9004344306863008,
      "learning_rate": 9.253895758900437e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 132611651.0,
      "step": 2024
    },
    {
      "epoch": 0.267644726407613,
      "grad_norm": 0.944229027823422,
      "learning_rate": 9.252750384961862e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.7897539734840393,
      "num_tokens": 132677187.0,
      "step": 2025
    },
    {
      "epoch": 0.267776896642876,
      "grad_norm": 0.9374527240708559,
      "learning_rate": 9.251604212141083e-06,
      "loss": 0.619,
      "mean_token_accuracy": 0.8002228140830994,
      "num_tokens": 132742723.0,
      "step": 2026
    },
    {
      "epoch": 0.26790906687813903,
      "grad_norm": 0.9509940780520482,
      "learning_rate": 9.250457240682092e-06,
      "loss": 0.6396,
      "mean_token_accuracy": 0.7915242314338684,
      "num_tokens": 132808259.0,
      "step": 2027
    },
    {
      "epoch": 0.26804123711340205,
      "grad_norm": 0.9536575229393336,
      "learning_rate": 9.24930947082906e-06,
      "loss": 0.644,
      "mean_token_accuracy": 0.7919362783432007,
      "num_tokens": 132873795.0,
      "step": 2028
    },
    {
      "epoch": 0.26817340734866507,
      "grad_norm": 0.853673489919148,
      "learning_rate": 9.248160902826321e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8114851713180542,
      "num_tokens": 132939331.0,
      "step": 2029
    },
    {
      "epoch": 0.2683055775839281,
      "grad_norm": 0.9011508094031913,
      "learning_rate": 9.247011536918383e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.8021761775016785,
      "num_tokens": 133004867.0,
      "step": 2030
    },
    {
      "epoch": 0.2684377478191911,
      "grad_norm": 0.8578004381527786,
      "learning_rate": 9.24586137334992e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.8071663975715637,
      "num_tokens": 133070403.0,
      "step": 2031
    },
    {
      "epoch": 0.2685699180544541,
      "grad_norm": 0.9852604596388704,
      "learning_rate": 9.244710412365778e-06,
      "loss": 0.637,
      "mean_token_accuracy": 0.7928824424743652,
      "num_tokens": 133135939.0,
      "step": 2032
    },
    {
      "epoch": 0.26870208828971714,
      "grad_norm": 0.8368121456589511,
      "learning_rate": 9.243558654210973e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.7975674271583557,
      "num_tokens": 133201475.0,
      "step": 2033
    },
    {
      "epoch": 0.26883425852498016,
      "grad_norm": 0.9729672698125699,
      "learning_rate": 9.242406099130691e-06,
      "loss": 0.6511,
      "mean_token_accuracy": 0.7871444225311279,
      "num_tokens": 133267011.0,
      "step": 2034
    },
    {
      "epoch": 0.2689664287602432,
      "grad_norm": 0.9571863473957036,
      "learning_rate": 9.241252747370288e-06,
      "loss": 0.6323,
      "mean_token_accuracy": 0.7971706986427307,
      "num_tokens": 133332547.0,
      "step": 2035
    },
    {
      "epoch": 0.2690985989955062,
      "grad_norm": 0.911255702578991,
      "learning_rate": 9.240098599175284e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.812873899936676,
      "num_tokens": 133398083.0,
      "step": 2036
    },
    {
      "epoch": 0.2692307692307692,
      "grad_norm": 0.8312248395015077,
      "learning_rate": 9.238943654791378e-06,
      "loss": 0.546,
      "mean_token_accuracy": 0.8215113878250122,
      "num_tokens": 133463619.0,
      "step": 2037
    },
    {
      "epoch": 0.26936293946603224,
      "grad_norm": 0.9888101287443096,
      "learning_rate": 9.237787914464431e-06,
      "loss": 0.6899,
      "mean_token_accuracy": 0.7752411365509033,
      "num_tokens": 133529155.0,
      "step": 2038
    },
    {
      "epoch": 0.26949510970129525,
      "grad_norm": 0.8708937827634208,
      "learning_rate": 9.236631378440476e-06,
      "loss": 0.6649,
      "mean_token_accuracy": 0.7868544459342957,
      "num_tokens": 133594691.0,
      "step": 2039
    },
    {
      "epoch": 0.2696272799365583,
      "grad_norm": 0.8683594303309803,
      "learning_rate": 9.235474046965716e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8094555139541626,
      "num_tokens": 133660227.0,
      "step": 2040
    },
    {
      "epoch": 0.2697594501718213,
      "grad_norm": 1.0011184094364383,
      "learning_rate": 9.234315920286522e-06,
      "loss": 0.6794,
      "mean_token_accuracy": 0.7812076807022095,
      "num_tokens": 133725219.0,
      "step": 2041
    },
    {
      "epoch": 0.2698916204070843,
      "grad_norm": 0.8542215015718062,
      "learning_rate": 9.233156998649435e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.808356761932373,
      "num_tokens": 133790755.0,
      "step": 2042
    },
    {
      "epoch": 0.2700237906423473,
      "grad_norm": 0.8456385659536794,
      "learning_rate": 9.231997282301168e-06,
      "loss": 0.6509,
      "mean_token_accuracy": 0.78795325756073,
      "num_tokens": 133856291.0,
      "step": 2043
    },
    {
      "epoch": 0.27015596087761035,
      "grad_norm": 0.8528216110632207,
      "learning_rate": 9.230836771488596e-06,
      "loss": 0.6203,
      "mean_token_accuracy": 0.8014436364173889,
      "num_tokens": 133921827.0,
      "step": 2044
    },
    {
      "epoch": 0.27028813111287336,
      "grad_norm": 0.9057463675079385,
      "learning_rate": 9.22967546645877e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7887315154075623,
      "num_tokens": 133987363.0,
      "step": 2045
    },
    {
      "epoch": 0.2704203013481364,
      "grad_norm": 0.9499030864012954,
      "learning_rate": 9.228513367458907e-06,
      "loss": 0.6973,
      "mean_token_accuracy": 0.7746306657791138,
      "num_tokens": 134052899.0,
      "step": 2046
    },
    {
      "epoch": 0.2705524715833994,
      "grad_norm": 0.8492059761092982,
      "learning_rate": 9.227350474736394e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8080820441246033,
      "num_tokens": 134118435.0,
      "step": 2047
    },
    {
      "epoch": 0.2706846418186624,
      "grad_norm": 0.9202230860830348,
      "learning_rate": 9.226186788538786e-06,
      "loss": 0.6253,
      "mean_token_accuracy": 0.7944542765617371,
      "num_tokens": 134183971.0,
      "step": 2048
    },
    {
      "epoch": 0.27081681205392544,
      "grad_norm": 0.9224651132163894,
      "learning_rate": 9.22502230911381e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7914021611213684,
      "num_tokens": 134249507.0,
      "step": 2049
    },
    {
      "epoch": 0.27094898228918846,
      "grad_norm": 0.9453341493041125,
      "learning_rate": 9.223857036709355e-06,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7887162566184998,
      "num_tokens": 134315043.0,
      "step": 2050
    },
    {
      "epoch": 0.2710811525244515,
      "grad_norm": 1.0552538943367065,
      "learning_rate": 9.222690971573486e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.7899523973464966,
      "num_tokens": 134380579.0,
      "step": 2051
    },
    {
      "epoch": 0.2712133227597145,
      "grad_norm": 0.8743489571339375,
      "learning_rate": 9.221524113954434e-06,
      "loss": 0.629,
      "mean_token_accuracy": 0.7964686751365662,
      "num_tokens": 134446115.0,
      "step": 2052
    },
    {
      "epoch": 0.2713454929949775,
      "grad_norm": 0.8864706077068325,
      "learning_rate": 9.220356464100597e-06,
      "loss": 0.5795,
      "mean_token_accuracy": 0.812904417514801,
      "num_tokens": 134511651.0,
      "step": 2053
    },
    {
      "epoch": 0.27147766323024053,
      "grad_norm": 0.980771766224713,
      "learning_rate": 9.219188022260545e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7849010825157166,
      "num_tokens": 134577187.0,
      "step": 2054
    },
    {
      "epoch": 0.27160983346550355,
      "grad_norm": 0.9568417289088551,
      "learning_rate": 9.218018788683012e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7968349456787109,
      "num_tokens": 134642723.0,
      "step": 2055
    },
    {
      "epoch": 0.27174200370076657,
      "grad_norm": 0.8472809786723513,
      "learning_rate": 9.216848763616908e-06,
      "loss": 0.5969,
      "mean_token_accuracy": 0.8072732090950012,
      "num_tokens": 134708259.0,
      "step": 2056
    },
    {
      "epoch": 0.2718741739360296,
      "grad_norm": 0.8463958558842979,
      "learning_rate": 9.215677947311305e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8200463652610779,
      "num_tokens": 134773795.0,
      "step": 2057
    },
    {
      "epoch": 0.2720063441712926,
      "grad_norm": 1.0040506240205824,
      "learning_rate": 9.214506340015443e-06,
      "loss": 0.6446,
      "mean_token_accuracy": 0.792348325252533,
      "num_tokens": 134839331.0,
      "step": 2058
    },
    {
      "epoch": 0.2721385144065556,
      "grad_norm": 0.9221129722199896,
      "learning_rate": 9.213333941978734e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.788823127746582,
      "num_tokens": 134904867.0,
      "step": 2059
    },
    {
      "epoch": 0.27227068464181864,
      "grad_norm": 0.8675064509034546,
      "learning_rate": 9.21216075345076e-06,
      "loss": 0.639,
      "mean_token_accuracy": 0.7932639718055725,
      "num_tokens": 134970403.0,
      "step": 2060
    },
    {
      "epoch": 0.27240285487708166,
      "grad_norm": 0.9132132776678961,
      "learning_rate": 9.210986774681264e-06,
      "loss": 0.6376,
      "mean_token_accuracy": 0.793401300907135,
      "num_tokens": 135035939.0,
      "step": 2061
    },
    {
      "epoch": 0.2725350251123447,
      "grad_norm": 0.8701167648024186,
      "learning_rate": 9.209812005920163e-06,
      "loss": 0.6226,
      "mean_token_accuracy": 0.7976895570755005,
      "num_tokens": 135101475.0,
      "step": 2062
    },
    {
      "epoch": 0.2726671953476077,
      "grad_norm": 0.9460436263604217,
      "learning_rate": 9.208636447417543e-06,
      "loss": 0.6825,
      "mean_token_accuracy": 0.7799413800239563,
      "num_tokens": 135167011.0,
      "step": 2063
    },
    {
      "epoch": 0.2727993655828707,
      "grad_norm": 1.1139448695784306,
      "learning_rate": 9.207460099423653e-06,
      "loss": 0.703,
      "mean_token_accuracy": 0.7728757262229919,
      "num_tokens": 135232547.0,
      "step": 2064
    },
    {
      "epoch": 0.27293153581813373,
      "grad_norm": 0.8737320150891918,
      "learning_rate": 9.206282962188916e-06,
      "loss": 0.6612,
      "mean_token_accuracy": 0.7858167290687561,
      "num_tokens": 135298083.0,
      "step": 2065
    },
    {
      "epoch": 0.27306370605339675,
      "grad_norm": 0.885045793534967,
      "learning_rate": 9.205105035963914e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.7955225110054016,
      "num_tokens": 135363619.0,
      "step": 2066
    },
    {
      "epoch": 0.27319587628865977,
      "grad_norm": 1.014711918527345,
      "learning_rate": 9.203926320999411e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 135429155.0,
      "step": 2067
    },
    {
      "epoch": 0.2733280465239228,
      "grad_norm": 0.9112517648203219,
      "learning_rate": 9.202746817546326e-06,
      "loss": 0.6208,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 135494691.0,
      "step": 2068
    },
    {
      "epoch": 0.27346021675918586,
      "grad_norm": 0.8740669206083822,
      "learning_rate": 9.201566525855749e-06,
      "loss": 0.5995,
      "mean_token_accuracy": 0.8037174940109253,
      "num_tokens": 135560227.0,
      "step": 2069
    },
    {
      "epoch": 0.2735923869944489,
      "grad_norm": 0.9411109635662787,
      "learning_rate": 9.200385446178943e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.8018709421157837,
      "num_tokens": 135625763.0,
      "step": 2070
    },
    {
      "epoch": 0.2737245572297119,
      "grad_norm": 1.0225254668825812,
      "learning_rate": 9.199203578767335e-06,
      "loss": 0.6637,
      "mean_token_accuracy": 0.7845959067344666,
      "num_tokens": 135691299.0,
      "step": 2071
    },
    {
      "epoch": 0.2738567274649749,
      "grad_norm": 0.9102602530530413,
      "learning_rate": 9.198020923872517e-06,
      "loss": 0.6436,
      "mean_token_accuracy": 0.7905322909355164,
      "num_tokens": 135756835.0,
      "step": 2072
    },
    {
      "epoch": 0.27398889770023793,
      "grad_norm": 0.8623650075471355,
      "learning_rate": 9.196837481746254e-06,
      "loss": 0.6143,
      "mean_token_accuracy": 0.8019319772720337,
      "num_tokens": 135822371.0,
      "step": 2073
    },
    {
      "epoch": 0.27412106793550095,
      "grad_norm": 0.8963275523043815,
      "learning_rate": 9.195653252640476e-06,
      "loss": 0.6874,
      "mean_token_accuracy": 0.7800635099411011,
      "num_tokens": 135887907.0,
      "step": 2074
    },
    {
      "epoch": 0.27425323817076397,
      "grad_norm": 0.9503660860123728,
      "learning_rate": 9.19446823680728e-06,
      "loss": 0.6987,
      "mean_token_accuracy": 0.774737536907196,
      "num_tokens": 135953443.0,
      "step": 2075
    },
    {
      "epoch": 0.274385408406027,
      "grad_norm": 0.9376964456240039,
      "learning_rate": 9.193282434498933e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 136018979.0,
      "step": 2076
    },
    {
      "epoch": 0.27451757864129,
      "grad_norm": 0.885588908523124,
      "learning_rate": 9.192095845967864e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.8106000423431396,
      "num_tokens": 136084515.0,
      "step": 2077
    },
    {
      "epoch": 0.274649748876553,
      "grad_norm": 0.7860216869244849,
      "learning_rate": 9.190908471466674e-06,
      "loss": 0.5481,
      "mean_token_accuracy": 0.8197106719017029,
      "num_tokens": 136150051.0,
      "step": 2078
    },
    {
      "epoch": 0.27478191911181604,
      "grad_norm": 0.9758708410160224,
      "learning_rate": 9.189720311248132e-06,
      "loss": 0.6622,
      "mean_token_accuracy": 0.782932460308075,
      "num_tokens": 136215587.0,
      "step": 2079
    },
    {
      "epoch": 0.27491408934707906,
      "grad_norm": 1.0508389992379679,
      "learning_rate": 9.188531365565171e-06,
      "loss": 0.6705,
      "mean_token_accuracy": 0.7817268967628479,
      "num_tokens": 136281123.0,
      "step": 2080
    },
    {
      "epoch": 0.2750462595823421,
      "grad_norm": 0.9751724447367962,
      "learning_rate": 9.187341634670896e-06,
      "loss": 0.6776,
      "mean_token_accuracy": 0.7797277569770813,
      "num_tokens": 136346659.0,
      "step": 2081
    },
    {
      "epoch": 0.2751784298176051,
      "grad_norm": 0.8718911282814809,
      "learning_rate": 9.186151118818571e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8114241361618042,
      "num_tokens": 136412195.0,
      "step": 2082
    },
    {
      "epoch": 0.2753106000528681,
      "grad_norm": 0.9253287541424678,
      "learning_rate": 9.184959818261632e-06,
      "loss": 0.6388,
      "mean_token_accuracy": 0.7929587364196777,
      "num_tokens": 136477731.0,
      "step": 2083
    },
    {
      "epoch": 0.27544277028813113,
      "grad_norm": 0.9693536053359141,
      "learning_rate": 9.183767733253688e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.8003906607627869,
      "num_tokens": 136543267.0,
      "step": 2084
    },
    {
      "epoch": 0.27557494052339415,
      "grad_norm": 0.9310605567915836,
      "learning_rate": 9.182574864048504e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.8144152164459229,
      "num_tokens": 136608803.0,
      "step": 2085
    },
    {
      "epoch": 0.27570711075865717,
      "grad_norm": 0.9364292172680679,
      "learning_rate": 9.181381210900016e-06,
      "loss": 0.6839,
      "mean_token_accuracy": 0.7764924764633179,
      "num_tokens": 136674339.0,
      "step": 2086
    },
    {
      "epoch": 0.2758392809939202,
      "grad_norm": 1.1427888302490217,
      "learning_rate": 9.180186774062332e-06,
      "loss": 0.6394,
      "mean_token_accuracy": 0.7906085848808289,
      "num_tokens": 136739875.0,
      "step": 2087
    },
    {
      "epoch": 0.2759714512291832,
      "grad_norm": 0.9116778884638216,
      "learning_rate": 9.178991553789721e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 136805411.0,
      "step": 2088
    },
    {
      "epoch": 0.2761036214644462,
      "grad_norm": 0.8880208533373062,
      "learning_rate": 9.177795550336618e-06,
      "loss": 0.6321,
      "mean_token_accuracy": 0.799001932144165,
      "num_tokens": 136870947.0,
      "step": 2089
    },
    {
      "epoch": 0.27623579169970924,
      "grad_norm": 0.9665429519513113,
      "learning_rate": 9.176598763957629e-06,
      "loss": 0.6375,
      "mean_token_accuracy": 0.7926077246665955,
      "num_tokens": 136936483.0,
      "step": 2090
    },
    {
      "epoch": 0.27636796193497226,
      "grad_norm": 0.9698027754198711,
      "learning_rate": 9.175401194907527e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 137002019.0,
      "step": 2091
    },
    {
      "epoch": 0.2765001321702353,
      "grad_norm": 0.9128547516905146,
      "learning_rate": 9.174202843441246e-06,
      "loss": 0.6272,
      "mean_token_accuracy": 0.7961329221725464,
      "num_tokens": 137067555.0,
      "step": 2092
    },
    {
      "epoch": 0.2766323024054983,
      "grad_norm": 0.9551600581910106,
      "learning_rate": 9.173003709813893e-06,
      "loss": 0.6327,
      "mean_token_accuracy": 0.792561948299408,
      "num_tokens": 137133091.0,
      "step": 2093
    },
    {
      "epoch": 0.2767644726407613,
      "grad_norm": 0.8906900889382183,
      "learning_rate": 9.171803794280736e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.8006501197814941,
      "num_tokens": 137198627.0,
      "step": 2094
    },
    {
      "epoch": 0.27689664287602433,
      "grad_norm": 0.9653609268271502,
      "learning_rate": 9.170603097097213e-06,
      "loss": 0.6481,
      "mean_token_accuracy": 0.7905322909355164,
      "num_tokens": 137264163.0,
      "step": 2095
    },
    {
      "epoch": 0.27702881311128735,
      "grad_norm": 0.876728077159865,
      "learning_rate": 9.169401618518927e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.7988646030426025,
      "num_tokens": 137329699.0,
      "step": 2096
    },
    {
      "epoch": 0.27716098334655037,
      "grad_norm": 0.9420004363015568,
      "learning_rate": 9.168199358801649e-06,
      "loss": 0.6292,
      "mean_token_accuracy": 0.7940880060195923,
      "num_tokens": 137395235.0,
      "step": 2097
    },
    {
      "epoch": 0.2772931535818134,
      "grad_norm": 0.9173422717828118,
      "learning_rate": 9.166996318201313e-06,
      "loss": 0.632,
      "mean_token_accuracy": 0.7908680438995361,
      "num_tokens": 137460771.0,
      "step": 2098
    },
    {
      "epoch": 0.2774253238170764,
      "grad_norm": 0.931761586530365,
      "learning_rate": 9.165792496974021e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.8001617789268494,
      "num_tokens": 137526307.0,
      "step": 2099
    },
    {
      "epoch": 0.2775574940523394,
      "grad_norm": 0.964479862088126,
      "learning_rate": 9.164587895376045e-06,
      "loss": 0.652,
      "mean_token_accuracy": 0.7855268120765686,
      "num_tokens": 137591843.0,
      "step": 2100
    },
    {
      "epoch": 0.27768966428760244,
      "grad_norm": 0.968047658555628,
      "learning_rate": 9.163382513663817e-06,
      "loss": 0.615,
      "mean_token_accuracy": 0.798818826675415,
      "num_tokens": 137657379.0,
      "step": 2101
    },
    {
      "epoch": 0.27782183452286546,
      "grad_norm": 0.926207201374567,
      "learning_rate": 9.162176352093937e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.8017030954360962,
      "num_tokens": 137722915.0,
      "step": 2102
    },
    {
      "epoch": 0.2779540047581285,
      "grad_norm": 0.9566363561445175,
      "learning_rate": 9.160969410923173e-06,
      "loss": 0.6601,
      "mean_token_accuracy": 0.7851300239562988,
      "num_tokens": 137788451.0,
      "step": 2103
    },
    {
      "epoch": 0.2780861749933915,
      "grad_norm": 0.8418754305889412,
      "learning_rate": 9.159761690408456e-06,
      "loss": 0.6237,
      "mean_token_accuracy": 0.7992766499519348,
      "num_tokens": 137853987.0,
      "step": 2104
    },
    {
      "epoch": 0.2782183452286545,
      "grad_norm": 0.9281951429078775,
      "learning_rate": 9.158553190806884e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.8011232018470764,
      "num_tokens": 137919523.0,
      "step": 2105
    },
    {
      "epoch": 0.27835051546391754,
      "grad_norm": 1.0483434122953017,
      "learning_rate": 9.157343912375726e-06,
      "loss": 0.6662,
      "mean_token_accuracy": 0.7818642258644104,
      "num_tokens": 137985059.0,
      "step": 2106
    },
    {
      "epoch": 0.27848268569918055,
      "grad_norm": 0.947414147472181,
      "learning_rate": 9.156133855372407e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7957056760787964,
      "num_tokens": 138050595.0,
      "step": 2107
    },
    {
      "epoch": 0.2786148559344436,
      "grad_norm": 0.9200642495175755,
      "learning_rate": 9.154923020054525e-06,
      "loss": 0.6165,
      "mean_token_accuracy": 0.7995360493659973,
      "num_tokens": 138116131.0,
      "step": 2108
    },
    {
      "epoch": 0.2787470261697066,
      "grad_norm": 0.8291666366633876,
      "learning_rate": 9.153711406679842e-06,
      "loss": 0.6669,
      "mean_token_accuracy": 0.7870070934295654,
      "num_tokens": 138181667.0,
      "step": 2109
    },
    {
      "epoch": 0.2788791964049696,
      "grad_norm": 0.9161246675392296,
      "learning_rate": 9.152499015506285e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8088756203651428,
      "num_tokens": 138247203.0,
      "step": 2110
    },
    {
      "epoch": 0.2790113666402326,
      "grad_norm": 0.9122504293291069,
      "learning_rate": 9.151285846791945e-06,
      "loss": 0.6434,
      "mean_token_accuracy": 0.7894182801246643,
      "num_tokens": 138312739.0,
      "step": 2111
    },
    {
      "epoch": 0.27914353687549565,
      "grad_norm": 0.9523651996260055,
      "learning_rate": 9.150071900795082e-06,
      "loss": 0.6795,
      "mean_token_accuracy": 0.7787968516349792,
      "num_tokens": 138378275.0,
      "step": 2112
    },
    {
      "epoch": 0.27927570711075866,
      "grad_norm": 0.812349295379888,
      "learning_rate": 9.14885717777412e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.812782347202301,
      "num_tokens": 138443811.0,
      "step": 2113
    },
    {
      "epoch": 0.2794078773460217,
      "grad_norm": 0.9044466381317885,
      "learning_rate": 9.147641677987645e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.8017336130142212,
      "num_tokens": 138509347.0,
      "step": 2114
    },
    {
      "epoch": 0.2795400475812847,
      "grad_norm": 0.907369865387713,
      "learning_rate": 9.146425401694416e-06,
      "loss": 0.585,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 138574883.0,
      "step": 2115
    },
    {
      "epoch": 0.2796722178165477,
      "grad_norm": 0.926504032586058,
      "learning_rate": 9.145208349153351e-06,
      "loss": 0.6278,
      "mean_token_accuracy": 0.7956445813179016,
      "num_tokens": 138640419.0,
      "step": 2116
    },
    {
      "epoch": 0.27980438805181074,
      "grad_norm": 0.8660933235113314,
      "learning_rate": 9.143990520623534e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 138705955.0,
      "step": 2117
    },
    {
      "epoch": 0.27993655828707376,
      "grad_norm": 0.9294183538067444,
      "learning_rate": 9.142771916364218e-06,
      "loss": 0.6356,
      "mean_token_accuracy": 0.793340265750885,
      "num_tokens": 138771491.0,
      "step": 2118
    },
    {
      "epoch": 0.2800687285223368,
      "grad_norm": 0.8414955246722519,
      "learning_rate": 9.141552536634816e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.7999023199081421,
      "num_tokens": 138837027.0,
      "step": 2119
    },
    {
      "epoch": 0.2802008987575998,
      "grad_norm": 0.8307975015141212,
      "learning_rate": 9.140332381694907e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 138902563.0,
      "step": 2120
    },
    {
      "epoch": 0.2803330689928628,
      "grad_norm": 0.8436374717558158,
      "learning_rate": 9.13911145180424e-06,
      "loss": 0.614,
      "mean_token_accuracy": 0.8016420602798462,
      "num_tokens": 138968099.0,
      "step": 2121
    },
    {
      "epoch": 0.28046523922812583,
      "grad_norm": 0.8872520438338045,
      "learning_rate": 9.137889747222726e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8066627979278564,
      "num_tokens": 139033635.0,
      "step": 2122
    },
    {
      "epoch": 0.28059740946338885,
      "grad_norm": 0.8580132375351381,
      "learning_rate": 9.136667268210436e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7996124029159546,
      "num_tokens": 139099171.0,
      "step": 2123
    },
    {
      "epoch": 0.28072957969865187,
      "grad_norm": 0.8290399574630088,
      "learning_rate": 9.135444015027612e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8048315048217773,
      "num_tokens": 139164707.0,
      "step": 2124
    },
    {
      "epoch": 0.2808617499339149,
      "grad_norm": 1.0093356465456491,
      "learning_rate": 9.134219987934662e-06,
      "loss": 0.6721,
      "mean_token_accuracy": 0.7816506028175354,
      "num_tokens": 139230243.0,
      "step": 2125
    },
    {
      "epoch": 0.2809939201691779,
      "grad_norm": 0.8984753015881387,
      "learning_rate": 9.132995187192154e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 139295779.0,
      "step": 2126
    },
    {
      "epoch": 0.2811260904044409,
      "grad_norm": 0.928792833985375,
      "learning_rate": 9.131769613060819e-06,
      "loss": 0.6744,
      "mean_token_accuracy": 0.7805671095848083,
      "num_tokens": 139361315.0,
      "step": 2127
    },
    {
      "epoch": 0.28125826063970394,
      "grad_norm": 0.8500136343952563,
      "learning_rate": 9.130543265801562e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8030155301094055,
      "num_tokens": 139426851.0,
      "step": 2128
    },
    {
      "epoch": 0.28139043087496696,
      "grad_norm": 0.9068251125957514,
      "learning_rate": 9.129316145675443e-06,
      "loss": 0.6206,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 139492387.0,
      "step": 2129
    },
    {
      "epoch": 0.28152260111023,
      "grad_norm": 0.9700947789428213,
      "learning_rate": 9.128088252943691e-06,
      "loss": 0.6655,
      "mean_token_accuracy": 0.784458577632904,
      "num_tokens": 139557923.0,
      "step": 2130
    },
    {
      "epoch": 0.281654771345493,
      "grad_norm": 0.9068489302129902,
      "learning_rate": 9.1268595878677e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.7947747707366943,
      "num_tokens": 139623459.0,
      "step": 2131
    },
    {
      "epoch": 0.281786941580756,
      "grad_norm": 0.9051861493117492,
      "learning_rate": 9.125630150709027e-06,
      "loss": 0.6196,
      "mean_token_accuracy": 0.7959498167037964,
      "num_tokens": 139688995.0,
      "step": 2132
    },
    {
      "epoch": 0.28191911181601903,
      "grad_norm": 0.9665755343560879,
      "learning_rate": 9.124399941729392e-06,
      "loss": 0.6805,
      "mean_token_accuracy": 0.7772707939147949,
      "num_tokens": 139754531.0,
      "step": 2133
    },
    {
      "epoch": 0.28205128205128205,
      "grad_norm": 0.9179947256901094,
      "learning_rate": 9.12316896119068e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8110120892524719,
      "num_tokens": 139820067.0,
      "step": 2134
    },
    {
      "epoch": 0.28218345228654507,
      "grad_norm": 0.8426598169676379,
      "learning_rate": 9.121937209354943e-06,
      "loss": 0.6373,
      "mean_token_accuracy": 0.7904559969902039,
      "num_tokens": 139885603.0,
      "step": 2135
    },
    {
      "epoch": 0.2823156225218081,
      "grad_norm": 0.8319220080012821,
      "learning_rate": 9.120704686484394e-06,
      "loss": 0.5943,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 139951139.0,
      "step": 2136
    },
    {
      "epoch": 0.2824477927570711,
      "grad_norm": 0.8881983345784793,
      "learning_rate": 9.119471392841413e-06,
      "loss": 0.6472,
      "mean_token_accuracy": 0.7876022458076477,
      "num_tokens": 140016675.0,
      "step": 2137
    },
    {
      "epoch": 0.2825799629923341,
      "grad_norm": 0.879265549880044,
      "learning_rate": 9.118237328688541e-06,
      "loss": 0.6213,
      "mean_token_accuracy": 0.7964991927146912,
      "num_tokens": 140082211.0,
      "step": 2138
    },
    {
      "epoch": 0.28271213322759714,
      "grad_norm": 0.8928634793493556,
      "learning_rate": 9.117002494288487e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 140147747.0,
      "step": 2139
    },
    {
      "epoch": 0.28284430346286016,
      "grad_norm": 0.8477691456447004,
      "learning_rate": 9.11576688990412e-06,
      "loss": 0.6185,
      "mean_token_accuracy": 0.7984678149223328,
      "num_tokens": 140213283.0,
      "step": 2140
    },
    {
      "epoch": 0.2829764736981232,
      "grad_norm": 0.9521372547368884,
      "learning_rate": 9.11453051579847e-06,
      "loss": 0.6732,
      "mean_token_accuracy": 0.7805823683738708,
      "num_tokens": 140278819.0,
      "step": 2141
    },
    {
      "epoch": 0.2831086439333862,
      "grad_norm": 0.8719143660501445,
      "learning_rate": 9.113293372234741e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.7992156147956848,
      "num_tokens": 140344355.0,
      "step": 2142
    },
    {
      "epoch": 0.2832408141686492,
      "grad_norm": 0.875504536911158,
      "learning_rate": 9.112055459476294e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8004059195518494,
      "num_tokens": 140409891.0,
      "step": 2143
    },
    {
      "epoch": 0.28337298440391223,
      "grad_norm": 0.892269693497411,
      "learning_rate": 9.110816777786653e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.7957514524459839,
      "num_tokens": 140475427.0,
      "step": 2144
    },
    {
      "epoch": 0.28350515463917525,
      "grad_norm": 0.8191913435554,
      "learning_rate": 9.109577327429509e-06,
      "loss": 0.6095,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 140540963.0,
      "step": 2145
    },
    {
      "epoch": 0.28363732487443827,
      "grad_norm": 0.9030918728161837,
      "learning_rate": 9.108337108668715e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.7960108518600464,
      "num_tokens": 140606499.0,
      "step": 2146
    },
    {
      "epoch": 0.2837694951097013,
      "grad_norm": 0.8760118501275307,
      "learning_rate": 9.107096121768285e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7959955930709839,
      "num_tokens": 140672035.0,
      "step": 2147
    },
    {
      "epoch": 0.2839016653449643,
      "grad_norm": 0.9594055917831532,
      "learning_rate": 9.105854366992404e-06,
      "loss": 0.6331,
      "mean_token_accuracy": 0.7951715588569641,
      "num_tokens": 140737571.0,
      "step": 2148
    },
    {
      "epoch": 0.2840338355802273,
      "grad_norm": 0.893534922482763,
      "learning_rate": 9.104611844605413e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 140803107.0,
      "step": 2149
    },
    {
      "epoch": 0.28416600581549034,
      "grad_norm": 0.9591901974400653,
      "learning_rate": 9.103368554871816e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7861219644546509,
      "num_tokens": 140868643.0,
      "step": 2150
    },
    {
      "epoch": 0.28429817605075336,
      "grad_norm": 1.0002760568071154,
      "learning_rate": 9.102124498056289e-06,
      "loss": 0.6904,
      "mean_token_accuracy": 0.7758362889289856,
      "num_tokens": 140934179.0,
      "step": 2151
    },
    {
      "epoch": 0.2844303462860164,
      "grad_norm": 0.8688617934235381,
      "learning_rate": 9.100879674423664e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.7951715588569641,
      "num_tokens": 140999715.0,
      "step": 2152
    },
    {
      "epoch": 0.2845625165212794,
      "grad_norm": 0.8279023199966381,
      "learning_rate": 9.099634084238936e-06,
      "loss": 0.5632,
      "mean_token_accuracy": 0.8167348504066467,
      "num_tokens": 141065251.0,
      "step": 2153
    },
    {
      "epoch": 0.2846946867565424,
      "grad_norm": 0.986932872246236,
      "learning_rate": 9.098387727767268e-06,
      "loss": 0.6547,
      "mean_token_accuracy": 0.7890825271606445,
      "num_tokens": 141130787.0,
      "step": 2154
    },
    {
      "epoch": 0.28482685699180543,
      "grad_norm": 0.8671211903039557,
      "learning_rate": 9.09714060527398e-06,
      "loss": 0.6386,
      "mean_token_accuracy": 0.7935996651649475,
      "num_tokens": 141196323.0,
      "step": 2155
    },
    {
      "epoch": 0.28495902722706845,
      "grad_norm": 0.8968790235382021,
      "learning_rate": 9.09589271702456e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.7983304858207703,
      "num_tokens": 141261859.0,
      "step": 2156
    },
    {
      "epoch": 0.28509119746233147,
      "grad_norm": 0.8876179499115773,
      "learning_rate": 9.094644063284659e-06,
      "loss": 0.629,
      "mean_token_accuracy": 0.7953241467475891,
      "num_tokens": 141327395.0,
      "step": 2157
    },
    {
      "epoch": 0.2852233676975945,
      "grad_norm": 0.9750610557584023,
      "learning_rate": 9.093394644320086e-06,
      "loss": 0.6609,
      "mean_token_accuracy": 0.783863365650177,
      "num_tokens": 141392931.0,
      "step": 2158
    },
    {
      "epoch": 0.2853555379328575,
      "grad_norm": 0.9590408026020236,
      "learning_rate": 9.092144460396818e-06,
      "loss": 0.6583,
      "mean_token_accuracy": 0.7842296361923218,
      "num_tokens": 141458467.0,
      "step": 2159
    },
    {
      "epoch": 0.2854877081681205,
      "grad_norm": 0.9920597249892767,
      "learning_rate": 9.090893511780994e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7904102206230164,
      "num_tokens": 141524003.0,
      "step": 2160
    },
    {
      "epoch": 0.28561987840338354,
      "grad_norm": 0.9384690558088382,
      "learning_rate": 9.089641798738914e-06,
      "loss": 0.6598,
      "mean_token_accuracy": 0.7853436470031738,
      "num_tokens": 141589539.0,
      "step": 2161
    },
    {
      "epoch": 0.28575204863864656,
      "grad_norm": 0.9712954030523906,
      "learning_rate": 9.08838932153704e-06,
      "loss": 0.6455,
      "mean_token_accuracy": 0.7884110808372498,
      "num_tokens": 141655075.0,
      "step": 2162
    },
    {
      "epoch": 0.2858842188739096,
      "grad_norm": 0.9841879699725222,
      "learning_rate": 9.087136080441999e-06,
      "loss": 0.6872,
      "mean_token_accuracy": 0.7778812050819397,
      "num_tokens": 141720611.0,
      "step": 2163
    },
    {
      "epoch": 0.2860163891091726,
      "grad_norm": 0.9425693619881355,
      "learning_rate": 9.085882075720583e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8045415878295898,
      "num_tokens": 141786147.0,
      "step": 2164
    },
    {
      "epoch": 0.2861485593444356,
      "grad_norm": 0.9859627939453438,
      "learning_rate": 9.084627307639739e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7965602278709412,
      "num_tokens": 141851683.0,
      "step": 2165
    },
    {
      "epoch": 0.28628072957969863,
      "grad_norm": 0.9106666653317991,
      "learning_rate": 9.083371776466584e-06,
      "loss": 0.6204,
      "mean_token_accuracy": 0.7980252504348755,
      "num_tokens": 141917219.0,
      "step": 2166
    },
    {
      "epoch": 0.28641289981496165,
      "grad_norm": 0.9861728365082755,
      "learning_rate": 9.082115482468391e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.8012757897377014,
      "num_tokens": 141982755.0,
      "step": 2167
    },
    {
      "epoch": 0.28654507005022467,
      "grad_norm": 0.9394854985514932,
      "learning_rate": 9.080858425912604e-06,
      "loss": 0.6364,
      "mean_token_accuracy": 0.7940269708633423,
      "num_tokens": 142048291.0,
      "step": 2168
    },
    {
      "epoch": 0.2866772402854877,
      "grad_norm": 0.9179721083898756,
      "learning_rate": 9.07960060706682e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7972164750099182,
      "num_tokens": 142113827.0,
      "step": 2169
    },
    {
      "epoch": 0.2868094105207507,
      "grad_norm": 0.9231084772351387,
      "learning_rate": 9.078342026198803e-06,
      "loss": 0.5938,
      "mean_token_accuracy": 0.8066322803497314,
      "num_tokens": 142179363.0,
      "step": 2170
    },
    {
      "epoch": 0.2869415807560137,
      "grad_norm": 1.0085481035366408,
      "learning_rate": 9.077082683576479e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8055487871170044,
      "num_tokens": 142244899.0,
      "step": 2171
    },
    {
      "epoch": 0.28707375099127674,
      "grad_norm": 0.9183091879546013,
      "learning_rate": 9.075822579467937e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8043126463890076,
      "num_tokens": 142310435.0,
      "step": 2172
    },
    {
      "epoch": 0.28720592122653976,
      "grad_norm": 0.9282550694380084,
      "learning_rate": 9.074561714141424e-06,
      "loss": 0.6477,
      "mean_token_accuracy": 0.789097785949707,
      "num_tokens": 142375971.0,
      "step": 2173
    },
    {
      "epoch": 0.2873380914618028,
      "grad_norm": 0.9830020079625179,
      "learning_rate": 9.073300087865355e-06,
      "loss": 0.607,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 142441507.0,
      "step": 2174
    },
    {
      "epoch": 0.2874702616970658,
      "grad_norm": 0.8971501240490851,
      "learning_rate": 9.0720377009083e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.8002685904502869,
      "num_tokens": 142507043.0,
      "step": 2175
    },
    {
      "epoch": 0.2876024319323288,
      "grad_norm": 0.9571824367972285,
      "learning_rate": 9.070774553539e-06,
      "loss": 0.6492,
      "mean_token_accuracy": 0.788853645324707,
      "num_tokens": 142572579.0,
      "step": 2176
    },
    {
      "epoch": 0.28773460216759184,
      "grad_norm": 0.9745280665515139,
      "learning_rate": 9.069510646026348e-06,
      "loss": 0.6429,
      "mean_token_accuracy": 0.7928214073181152,
      "num_tokens": 142638115.0,
      "step": 2177
    },
    {
      "epoch": 0.28786677240285485,
      "grad_norm": 0.859497319201066,
      "learning_rate": 9.068245978639406e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 142703651.0,
      "step": 2178
    },
    {
      "epoch": 0.28799894263811787,
      "grad_norm": 0.9119296561756863,
      "learning_rate": 9.066980551647395e-06,
      "loss": 0.5926,
      "mean_token_accuracy": 0.8079141974449158,
      "num_tokens": 142769187.0,
      "step": 2179
    },
    {
      "epoch": 0.2881311128733809,
      "grad_norm": 1.0663892382161382,
      "learning_rate": 9.065714365319698e-06,
      "loss": 0.7139,
      "mean_token_accuracy": 0.7674734592437744,
      "num_tokens": 142834723.0,
      "step": 2180
    },
    {
      "epoch": 0.2882632831086439,
      "grad_norm": 0.9606482740497815,
      "learning_rate": 9.064447419925858e-06,
      "loss": 0.706,
      "mean_token_accuracy": 0.7724941968917847,
      "num_tokens": 142900259.0,
      "step": 2181
    },
    {
      "epoch": 0.2883954533439069,
      "grad_norm": 0.9615735376331483,
      "learning_rate": 9.063179715735586e-06,
      "loss": 0.6599,
      "mean_token_accuracy": 0.7831308841705322,
      "num_tokens": 142965795.0,
      "step": 2182
    },
    {
      "epoch": 0.28852762357916995,
      "grad_norm": 1.0097155567158933,
      "learning_rate": 9.061911253018742e-06,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7736998200416565,
      "num_tokens": 143031331.0,
      "step": 2183
    },
    {
      "epoch": 0.28865979381443296,
      "grad_norm": 0.9519045200908987,
      "learning_rate": 9.060642032045361e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7921956777572632,
      "num_tokens": 143096867.0,
      "step": 2184
    },
    {
      "epoch": 0.288791964049696,
      "grad_norm": 0.8949013984099442,
      "learning_rate": 9.059372053085635e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.8010621666908264,
      "num_tokens": 143162403.0,
      "step": 2185
    },
    {
      "epoch": 0.288924134284959,
      "grad_norm": 0.8519853948192043,
      "learning_rate": 9.058101316409911e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7995055317878723,
      "num_tokens": 143227939.0,
      "step": 2186
    },
    {
      "epoch": 0.289056304520222,
      "grad_norm": 0.8489169665915418,
      "learning_rate": 9.056829822288705e-06,
      "loss": 0.5822,
      "mean_token_accuracy": 0.8113936185836792,
      "num_tokens": 143293475.0,
      "step": 2187
    },
    {
      "epoch": 0.2891884747554851,
      "grad_norm": 0.842929640517054,
      "learning_rate": 9.05555757099269e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.7969570159912109,
      "num_tokens": 143359011.0,
      "step": 2188
    },
    {
      "epoch": 0.2893206449907481,
      "grad_norm": 0.9171088251588744,
      "learning_rate": 9.054284562792704e-06,
      "loss": 0.6039,
      "mean_token_accuracy": 0.8028781414031982,
      "num_tokens": 143424547.0,
      "step": 2189
    },
    {
      "epoch": 0.28945281522601113,
      "grad_norm": 0.9836071993677646,
      "learning_rate": 9.053010797959743e-06,
      "loss": 0.614,
      "mean_token_accuracy": 0.7967128753662109,
      "num_tokens": 143490083.0,
      "step": 2190
    },
    {
      "epoch": 0.28958498546127415,
      "grad_norm": 0.9055646510651447,
      "learning_rate": 9.051736276764963e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7995818853378296,
      "num_tokens": 143555619.0,
      "step": 2191
    },
    {
      "epoch": 0.28971715569653717,
      "grad_norm": 0.9685905887270542,
      "learning_rate": 9.050460999479685e-06,
      "loss": 0.6547,
      "mean_token_accuracy": 0.7864424586296082,
      "num_tokens": 143621155.0,
      "step": 2192
    },
    {
      "epoch": 0.2898493259318002,
      "grad_norm": 0.8945345955802729,
      "learning_rate": 9.04918496637539e-06,
      "loss": 0.6698,
      "mean_token_accuracy": 0.7816200852394104,
      "num_tokens": 143686691.0,
      "step": 2193
    },
    {
      "epoch": 0.2899814961670632,
      "grad_norm": 0.8433370821582323,
      "learning_rate": 9.047908177723715e-06,
      "loss": 0.627,
      "mean_token_accuracy": 0.7968654632568359,
      "num_tokens": 143752227.0,
      "step": 2194
    },
    {
      "epoch": 0.2901136664023262,
      "grad_norm": 0.9415098560343549,
      "learning_rate": 9.046630633796465e-06,
      "loss": 0.6015,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 143817763.0,
      "step": 2195
    },
    {
      "epoch": 0.29024583663758924,
      "grad_norm": 1.0293101626133758,
      "learning_rate": 9.045352334865602e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.8047094345092773,
      "num_tokens": 143883299.0,
      "step": 2196
    },
    {
      "epoch": 0.29037800687285226,
      "grad_norm": 0.8756434721433147,
      "learning_rate": 9.044073281203248e-06,
      "loss": 0.5981,
      "mean_token_accuracy": 0.8050299286842346,
      "num_tokens": 143948835.0,
      "step": 2197
    },
    {
      "epoch": 0.2905101771081153,
      "grad_norm": 0.8070253366813488,
      "learning_rate": 9.042793473081687e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8126907348632812,
      "num_tokens": 144014371.0,
      "step": 2198
    },
    {
      "epoch": 0.2906423473433783,
      "grad_norm": 0.9955201883736418,
      "learning_rate": 9.041512910773365e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.7949120998382568,
      "num_tokens": 144079907.0,
      "step": 2199
    },
    {
      "epoch": 0.2907745175786413,
      "grad_norm": 1.0120949182171766,
      "learning_rate": 9.040231594550886e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 144145443.0,
      "step": 2200
    },
    {
      "epoch": 0.29090668781390433,
      "grad_norm": 1.245788538154328,
      "learning_rate": 9.038949524687014e-06,
      "loss": 0.6883,
      "mean_token_accuracy": 0.7744170427322388,
      "num_tokens": 144210979.0,
      "step": 2201
    },
    {
      "epoch": 0.29103885804916735,
      "grad_norm": 0.9811301656731158,
      "learning_rate": 9.037666701454676e-06,
      "loss": 0.6374,
      "mean_token_accuracy": 0.7897539734840393,
      "num_tokens": 144276515.0,
      "step": 2202
    },
    {
      "epoch": 0.29117102828443037,
      "grad_norm": 0.875480200219596,
      "learning_rate": 9.036383125126958e-06,
      "loss": 0.6301,
      "mean_token_accuracy": 0.7948510646820068,
      "num_tokens": 144342051.0,
      "step": 2203
    },
    {
      "epoch": 0.2913031985196934,
      "grad_norm": 0.9100600999867663,
      "learning_rate": 9.035098795977108e-06,
      "loss": 0.6681,
      "mean_token_accuracy": 0.7807654738426208,
      "num_tokens": 144407587.0,
      "step": 2204
    },
    {
      "epoch": 0.2914353687549564,
      "grad_norm": 0.8777544658238806,
      "learning_rate": 9.033813714278533e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.807456374168396,
      "num_tokens": 144473123.0,
      "step": 2205
    },
    {
      "epoch": 0.2915675389902194,
      "grad_norm": 0.9294035836986703,
      "learning_rate": 9.032527880304797e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7899371385574341,
      "num_tokens": 144538659.0,
      "step": 2206
    },
    {
      "epoch": 0.29169970922548244,
      "grad_norm": 0.9491976300994068,
      "learning_rate": 9.03124129432963e-06,
      "loss": 0.6351,
      "mean_token_accuracy": 0.7920278310775757,
      "num_tokens": 144604195.0,
      "step": 2207
    },
    {
      "epoch": 0.29183187946074546,
      "grad_norm": 0.846594875562213,
      "learning_rate": 9.02995395662692e-06,
      "loss": 0.5856,
      "mean_token_accuracy": 0.8070901036262512,
      "num_tokens": 144669731.0,
      "step": 2208
    },
    {
      "epoch": 0.2919640496960085,
      "grad_norm": 0.8107449337898157,
      "learning_rate": 9.02866586747071e-06,
      "loss": 0.5705,
      "mean_token_accuracy": 0.8105237483978271,
      "num_tokens": 144735267.0,
      "step": 2209
    },
    {
      "epoch": 0.2920962199312715,
      "grad_norm": 0.892991045452015,
      "learning_rate": 9.027377027135212e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 144800803.0,
      "step": 2210
    },
    {
      "epoch": 0.2922283901665345,
      "grad_norm": 0.9649537982809895,
      "learning_rate": 9.026087435894789e-06,
      "loss": 0.6555,
      "mean_token_accuracy": 0.7895098328590393,
      "num_tokens": 144866339.0,
      "step": 2211
    },
    {
      "epoch": 0.29236056040179753,
      "grad_norm": 0.9350628452041935,
      "learning_rate": 9.024797094023971e-06,
      "loss": 0.6532,
      "mean_token_accuracy": 0.7907001376152039,
      "num_tokens": 144931875.0,
      "step": 2212
    },
    {
      "epoch": 0.29249273063706055,
      "grad_norm": 0.9125815886021972,
      "learning_rate": 9.023506001797445e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.8010469079017639,
      "num_tokens": 144997411.0,
      "step": 2213
    },
    {
      "epoch": 0.29262490087232357,
      "grad_norm": 0.8654405586804437,
      "learning_rate": 9.022214159490058e-06,
      "loss": 0.6243,
      "mean_token_accuracy": 0.7966518402099609,
      "num_tokens": 145062947.0,
      "step": 2214
    },
    {
      "epoch": 0.2927570711075866,
      "grad_norm": 0.9335341312891728,
      "learning_rate": 9.020921567376811e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7912189960479736,
      "num_tokens": 145128483.0,
      "step": 2215
    },
    {
      "epoch": 0.2928892413428496,
      "grad_norm": 0.9650986695481241,
      "learning_rate": 9.019628225732879e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7953088879585266,
      "num_tokens": 145194019.0,
      "step": 2216
    },
    {
      "epoch": 0.2930214115781126,
      "grad_norm": 0.8874418477118781,
      "learning_rate": 9.018334134833579e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7898913621902466,
      "num_tokens": 145259555.0,
      "step": 2217
    },
    {
      "epoch": 0.29315358181337564,
      "grad_norm": 0.9562561514659528,
      "learning_rate": 9.017039294954401e-06,
      "loss": 0.6277,
      "mean_token_accuracy": 0.7966670989990234,
      "num_tokens": 145325091.0,
      "step": 2218
    },
    {
      "epoch": 0.29328575204863866,
      "grad_norm": 0.8906996364539601,
      "learning_rate": 9.015743706370985e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8103559017181396,
      "num_tokens": 145390627.0,
      "step": 2219
    },
    {
      "epoch": 0.2934179222839017,
      "grad_norm": 0.9625473921159745,
      "learning_rate": 9.014447369359138e-06,
      "loss": 0.6756,
      "mean_token_accuracy": 0.7813606262207031,
      "num_tokens": 145456163.0,
      "step": 2220
    },
    {
      "epoch": 0.2935500925191647,
      "grad_norm": 0.9971933663883187,
      "learning_rate": 9.013150284194824e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 145521699.0,
      "step": 2221
    },
    {
      "epoch": 0.2936822627544277,
      "grad_norm": 0.9228615515196158,
      "learning_rate": 9.011852451154164e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.7941337823867798,
      "num_tokens": 145587235.0,
      "step": 2222
    },
    {
      "epoch": 0.29381443298969073,
      "grad_norm": 0.8606461263096068,
      "learning_rate": 9.010553870513437e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.816521167755127,
      "num_tokens": 145652771.0,
      "step": 2223
    },
    {
      "epoch": 0.29394660322495375,
      "grad_norm": 0.9958382696359359,
      "learning_rate": 9.009254542549088e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7879990339279175,
      "num_tokens": 145718307.0,
      "step": 2224
    },
    {
      "epoch": 0.29407877346021677,
      "grad_norm": 0.9104333529483869,
      "learning_rate": 9.007954467537714e-06,
      "loss": 0.6142,
      "mean_token_accuracy": 0.8008484840393066,
      "num_tokens": 145783843.0,
      "step": 2225
    },
    {
      "epoch": 0.2942109436954798,
      "grad_norm": 0.8961724906660297,
      "learning_rate": 9.006653645756075e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.7982541918754578,
      "num_tokens": 145849379.0,
      "step": 2226
    },
    {
      "epoch": 0.2943431139307428,
      "grad_norm": 0.9948765681547227,
      "learning_rate": 9.00535207748109e-06,
      "loss": 0.6725,
      "mean_token_accuracy": 0.7814369201660156,
      "num_tokens": 145914915.0,
      "step": 2227
    },
    {
      "epoch": 0.2944752841660058,
      "grad_norm": 0.9135068989850572,
      "learning_rate": 9.004049762989831e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8125076293945312,
      "num_tokens": 145980451.0,
      "step": 2228
    },
    {
      "epoch": 0.29460745440126884,
      "grad_norm": 0.9471397243128142,
      "learning_rate": 9.00274670255954e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7897387146949768,
      "num_tokens": 146045987.0,
      "step": 2229
    },
    {
      "epoch": 0.29473962463653186,
      "grad_norm": 1.0138121262905466,
      "learning_rate": 9.001442896467606e-06,
      "loss": 0.6855,
      "mean_token_accuracy": 0.7778812050819397,
      "num_tokens": 146111523.0,
      "step": 2230
    },
    {
      "epoch": 0.2948717948717949,
      "grad_norm": 0.9607842905566549,
      "learning_rate": 9.000138344991584e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7762178182601929,
      "num_tokens": 146177059.0,
      "step": 2231
    },
    {
      "epoch": 0.2950039651070579,
      "grad_norm": 0.9393360251450048,
      "learning_rate": 8.998833048409188e-06,
      "loss": 0.5856,
      "mean_token_accuracy": 0.8105847835540771,
      "num_tokens": 146242595.0,
      "step": 2232
    },
    {
      "epoch": 0.2951361353423209,
      "grad_norm": 1.0506070451764518,
      "learning_rate": 8.997527006998283e-06,
      "loss": 0.6557,
      "mean_token_accuracy": 0.788945198059082,
      "num_tokens": 146308131.0,
      "step": 2233
    },
    {
      "epoch": 0.29526830557758393,
      "grad_norm": 0.9164621335758351,
      "learning_rate": 8.996220221036903e-06,
      "loss": 0.6536,
      "mean_token_accuracy": 0.788975715637207,
      "num_tokens": 146373667.0,
      "step": 2234
    },
    {
      "epoch": 0.29540047581284695,
      "grad_norm": 0.9593689237895872,
      "learning_rate": 8.994912690803236e-06,
      "loss": 0.6457,
      "mean_token_accuracy": 0.7904559969902039,
      "num_tokens": 146439203.0,
      "step": 2235
    },
    {
      "epoch": 0.29553264604810997,
      "grad_norm": 0.9104682370648493,
      "learning_rate": 8.993604416575624e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.7926077246665955,
      "num_tokens": 146504739.0,
      "step": 2236
    },
    {
      "epoch": 0.295664816283373,
      "grad_norm": 0.9654941431220915,
      "learning_rate": 8.992295398632572e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.8005127310752869,
      "num_tokens": 146570275.0,
      "step": 2237
    },
    {
      "epoch": 0.295796986518636,
      "grad_norm": 0.9314046409574621,
      "learning_rate": 8.990985637252746e-06,
      "loss": 0.6609,
      "mean_token_accuracy": 0.7860456705093384,
      "num_tokens": 146635811.0,
      "step": 2238
    },
    {
      "epoch": 0.295929156753899,
      "grad_norm": 0.8998727791503571,
      "learning_rate": 8.989675132714962e-06,
      "loss": 0.6826,
      "mean_token_accuracy": 0.7748138308525085,
      "num_tokens": 146701347.0,
      "step": 2239
    },
    {
      "epoch": 0.29606132698916204,
      "grad_norm": 0.9871164522077248,
      "learning_rate": 8.988363885298202e-06,
      "loss": 0.7194,
      "mean_token_accuracy": 0.7677786350250244,
      "num_tokens": 146766883.0,
      "step": 2240
    },
    {
      "epoch": 0.29619349722442506,
      "grad_norm": 0.8756981518088149,
      "learning_rate": 8.987051895281602e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 146832419.0,
      "step": 2241
    },
    {
      "epoch": 0.2963256674596881,
      "grad_norm": 0.9052983639158521,
      "learning_rate": 8.985739162944458e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8102948069572449,
      "num_tokens": 146897955.0,
      "step": 2242
    },
    {
      "epoch": 0.2964578376949511,
      "grad_norm": 0.994405461349212,
      "learning_rate": 8.984425688566224e-06,
      "loss": 0.6526,
      "mean_token_accuracy": 0.7846264243125916,
      "num_tokens": 146963491.0,
      "step": 2243
    },
    {
      "epoch": 0.2965900079302141,
      "grad_norm": 0.9219028670708382,
      "learning_rate": 8.98311147242651e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 147029027.0,
      "step": 2244
    },
    {
      "epoch": 0.29672217816547714,
      "grad_norm": 0.8690884792059623,
      "learning_rate": 8.981796514805087e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8079752326011658,
      "num_tokens": 147094563.0,
      "step": 2245
    },
    {
      "epoch": 0.29685434840074015,
      "grad_norm": 0.9019140514511353,
      "learning_rate": 8.980480815981878e-06,
      "loss": 0.6542,
      "mean_token_accuracy": 0.7872664928436279,
      "num_tokens": 147160099.0,
      "step": 2246
    },
    {
      "epoch": 0.29698651863600317,
      "grad_norm": 0.8955039071211136,
      "learning_rate": 8.979164376236973e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7967739105224609,
      "num_tokens": 147225635.0,
      "step": 2247
    },
    {
      "epoch": 0.2971186888712662,
      "grad_norm": 0.9796200876152187,
      "learning_rate": 8.97784719585061e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 147291171.0,
      "step": 2248
    },
    {
      "epoch": 0.2972508591065292,
      "grad_norm": 0.8923175844909537,
      "learning_rate": 8.976529275103195e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.7988951206207275,
      "num_tokens": 147356707.0,
      "step": 2249
    },
    {
      "epoch": 0.2973830293417922,
      "grad_norm": 0.8764533727489483,
      "learning_rate": 8.975210614275277e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.799001932144165,
      "num_tokens": 147422243.0,
      "step": 2250
    },
    {
      "epoch": 0.29751519957705524,
      "grad_norm": 0.9154310927771917,
      "learning_rate": 8.97389121364758e-06,
      "loss": 0.6329,
      "mean_token_accuracy": 0.7947747707366943,
      "num_tokens": 147487779.0,
      "step": 2251
    },
    {
      "epoch": 0.29764736981231826,
      "grad_norm": 0.9572134538817247,
      "learning_rate": 8.97257107350097e-06,
      "loss": 0.664,
      "mean_token_accuracy": 0.783680260181427,
      "num_tokens": 147553315.0,
      "step": 2252
    },
    {
      "epoch": 0.2977795400475813,
      "grad_norm": 0.8726238264790459,
      "learning_rate": 8.971250194116483e-06,
      "loss": 0.5794,
      "mean_token_accuracy": 0.8112714886665344,
      "num_tokens": 147618851.0,
      "step": 2253
    },
    {
      "epoch": 0.2979117102828443,
      "grad_norm": 0.8665489376689989,
      "learning_rate": 8.969928575775305e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8047857284545898,
      "num_tokens": 147684387.0,
      "step": 2254
    },
    {
      "epoch": 0.2980438805181073,
      "grad_norm": 0.7902455451784721,
      "learning_rate": 8.968606218758778e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8143389225006104,
      "num_tokens": 147749923.0,
      "step": 2255
    },
    {
      "epoch": 0.29817605075337034,
      "grad_norm": 0.9777708378179922,
      "learning_rate": 8.967283123348407e-06,
      "loss": 0.6877,
      "mean_token_accuracy": 0.7798650860786438,
      "num_tokens": 147815459.0,
      "step": 2256
    },
    {
      "epoch": 0.29830822098863335,
      "grad_norm": 0.9526743466823063,
      "learning_rate": 8.965959289825851e-06,
      "loss": 0.638,
      "mean_token_accuracy": 0.7934775948524475,
      "num_tokens": 147880995.0,
      "step": 2257
    },
    {
      "epoch": 0.2984403912238964,
      "grad_norm": 1.0255789935341049,
      "learning_rate": 8.964634718472924e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7766146063804626,
      "num_tokens": 147946531.0,
      "step": 2258
    },
    {
      "epoch": 0.2985725614591594,
      "grad_norm": 1.0387360782634174,
      "learning_rate": 8.963309409571605e-06,
      "loss": 0.6329,
      "mean_token_accuracy": 0.7921499013900757,
      "num_tokens": 148012067.0,
      "step": 2259
    },
    {
      "epoch": 0.2987047316944224,
      "grad_norm": 0.9808966506769792,
      "learning_rate": 8.96198336340402e-06,
      "loss": 0.6434,
      "mean_token_accuracy": 0.7930197715759277,
      "num_tokens": 148077603.0,
      "step": 2260
    },
    {
      "epoch": 0.29883690192968543,
      "grad_norm": 0.9104561636043859,
      "learning_rate": 8.960656580252458e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.8066627979278564,
      "num_tokens": 148143139.0,
      "step": 2261
    },
    {
      "epoch": 0.29896907216494845,
      "grad_norm": 0.9044063783197026,
      "learning_rate": 8.959329060399365e-06,
      "loss": 0.6485,
      "mean_token_accuracy": 0.7905780673027039,
      "num_tokens": 148208675.0,
      "step": 2262
    },
    {
      "epoch": 0.29910124240021146,
      "grad_norm": 0.8801004206899724,
      "learning_rate": 8.958000804127338e-06,
      "loss": 0.6434,
      "mean_token_accuracy": 0.7922261953353882,
      "num_tokens": 148274211.0,
      "step": 2263
    },
    {
      "epoch": 0.2992334126354745,
      "grad_norm": 0.898166853885653,
      "learning_rate": 8.956671811719138e-06,
      "loss": 0.5862,
      "mean_token_accuracy": 0.8087992668151855,
      "num_tokens": 148339747.0,
      "step": 2264
    },
    {
      "epoch": 0.2993655828707375,
      "grad_norm": 0.8883578191864738,
      "learning_rate": 8.95534208345768e-06,
      "loss": 0.6471,
      "mean_token_accuracy": 0.7885789275169373,
      "num_tokens": 148405283.0,
      "step": 2265
    },
    {
      "epoch": 0.2994977531060005,
      "grad_norm": 0.9832147581755142,
      "learning_rate": 8.954011619626037e-06,
      "loss": 0.6614,
      "mean_token_accuracy": 0.7852673530578613,
      "num_tokens": 148470819.0,
      "step": 2266
    },
    {
      "epoch": 0.29962992334126354,
      "grad_norm": 0.9794672920026233,
      "learning_rate": 8.952680420507432e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.802313506603241,
      "num_tokens": 148536355.0,
      "step": 2267
    },
    {
      "epoch": 0.29976209357652656,
      "grad_norm": 0.8637463468327917,
      "learning_rate": 8.951348486385251e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8144304752349854,
      "num_tokens": 148601891.0,
      "step": 2268
    },
    {
      "epoch": 0.2998942638117896,
      "grad_norm": 0.902504238846881,
      "learning_rate": 8.95001581754304e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.8017793893814087,
      "num_tokens": 148667427.0,
      "step": 2269
    },
    {
      "epoch": 0.3000264340470526,
      "grad_norm": 0.878919587467285,
      "learning_rate": 8.94868241426449e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7971401810646057,
      "num_tokens": 148732963.0,
      "step": 2270
    },
    {
      "epoch": 0.3001586042823156,
      "grad_norm": 0.9237709929478668,
      "learning_rate": 8.947348276833457e-06,
      "loss": 0.6414,
      "mean_token_accuracy": 0.7903797030448914,
      "num_tokens": 148798499.0,
      "step": 2271
    },
    {
      "epoch": 0.30029077451757863,
      "grad_norm": 0.8853390619963056,
      "learning_rate": 8.946013405533953e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.8009944558143616,
      "num_tokens": 148862862.0,
      "step": 2272
    },
    {
      "epoch": 0.30042294475284165,
      "grad_norm": 0.8752419808358332,
      "learning_rate": 8.944677800650141e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.7991393208503723,
      "num_tokens": 148928398.0,
      "step": 2273
    },
    {
      "epoch": 0.30055511498810467,
      "grad_norm": 0.8831421372809154,
      "learning_rate": 8.943341462466347e-06,
      "loss": 0.6434,
      "mean_token_accuracy": 0.7920125722885132,
      "num_tokens": 148993934.0,
      "step": 2274
    },
    {
      "epoch": 0.3006872852233677,
      "grad_norm": 0.9148877116928811,
      "learning_rate": 8.942004391267045e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.8018709421157837,
      "num_tokens": 149059470.0,
      "step": 2275
    },
    {
      "epoch": 0.3008194554586307,
      "grad_norm": 0.9363270588432501,
      "learning_rate": 8.940666587336873e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.808478832244873,
      "num_tokens": 149125006.0,
      "step": 2276
    },
    {
      "epoch": 0.3009516256938937,
      "grad_norm": 1.0300078828099368,
      "learning_rate": 8.939328050960623e-06,
      "loss": 0.6758,
      "mean_token_accuracy": 0.7769045233726501,
      "num_tokens": 149190542.0,
      "step": 2277
    },
    {
      "epoch": 0.30108379592915674,
      "grad_norm": 0.9687364447019143,
      "learning_rate": 8.937988782423236e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.7958582639694214,
      "num_tokens": 149256078.0,
      "step": 2278
    },
    {
      "epoch": 0.30121596616441976,
      "grad_norm": 0.8544211763172235,
      "learning_rate": 8.936648782009817e-06,
      "loss": 0.6058,
      "mean_token_accuracy": 0.8026034832000732,
      "num_tokens": 149321614.0,
      "step": 2279
    },
    {
      "epoch": 0.3013481363996828,
      "grad_norm": 0.8808142151189784,
      "learning_rate": 8.935308050005626e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7948358058929443,
      "num_tokens": 149387150.0,
      "step": 2280
    },
    {
      "epoch": 0.3014803066349458,
      "grad_norm": 0.8957030642075092,
      "learning_rate": 8.933966586696073e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.8025119304656982,
      "num_tokens": 149452686.0,
      "step": 2281
    },
    {
      "epoch": 0.3016124768702088,
      "grad_norm": 0.9875200332375679,
      "learning_rate": 8.932624392366732e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7878464460372925,
      "num_tokens": 149518222.0,
      "step": 2282
    },
    {
      "epoch": 0.30174464710547183,
      "grad_norm": 0.8909338390775581,
      "learning_rate": 8.931281467303325e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7997649908065796,
      "num_tokens": 149583758.0,
      "step": 2283
    },
    {
      "epoch": 0.30187681734073485,
      "grad_norm": 0.9612504485597686,
      "learning_rate": 8.929937811791735e-06,
      "loss": 0.6321,
      "mean_token_accuracy": 0.7920888662338257,
      "num_tokens": 149649294.0,
      "step": 2284
    },
    {
      "epoch": 0.30200898757599787,
      "grad_norm": 0.8974192719272926,
      "learning_rate": 8.928593426117995e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8060371279716492,
      "num_tokens": 149714830.0,
      "step": 2285
    },
    {
      "epoch": 0.3021411578112609,
      "grad_norm": 0.8947208477091212,
      "learning_rate": 8.927248310568299e-06,
      "loss": 0.6428,
      "mean_token_accuracy": 0.7940422296524048,
      "num_tokens": 149780366.0,
      "step": 2286
    },
    {
      "epoch": 0.3022733280465239,
      "grad_norm": 0.8821240004462615,
      "learning_rate": 8.925902465428995e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8101879954338074,
      "num_tokens": 149845902.0,
      "step": 2287
    },
    {
      "epoch": 0.3024054982817869,
      "grad_norm": 0.9190223815900984,
      "learning_rate": 8.92455589098658e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8102185130119324,
      "num_tokens": 149911438.0,
      "step": 2288
    },
    {
      "epoch": 0.30253766851704994,
      "grad_norm": 1.0407329994889618,
      "learning_rate": 8.923208587527719e-06,
      "loss": 0.6692,
      "mean_token_accuracy": 0.7820473909378052,
      "num_tokens": 149976974.0,
      "step": 2289
    },
    {
      "epoch": 0.30266983875231296,
      "grad_norm": 0.9182211748715366,
      "learning_rate": 8.92186055533922e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8009705543518066,
      "num_tokens": 150042510.0,
      "step": 2290
    },
    {
      "epoch": 0.302802008987576,
      "grad_norm": 0.8485206157178055,
      "learning_rate": 8.920511794708052e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 150108046.0,
      "step": 2291
    },
    {
      "epoch": 0.302934179222839,
      "grad_norm": 0.9030549664302973,
      "learning_rate": 8.919162305921338e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7992003560066223,
      "num_tokens": 150173582.0,
      "step": 2292
    },
    {
      "epoch": 0.303066349458102,
      "grad_norm": 0.9256612706476463,
      "learning_rate": 8.917812089266355e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.7993376851081848,
      "num_tokens": 150239118.0,
      "step": 2293
    },
    {
      "epoch": 0.30319851969336503,
      "grad_norm": 0.9567557430447252,
      "learning_rate": 8.91646114503054e-06,
      "loss": 0.6277,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 150304654.0,
      "step": 2294
    },
    {
      "epoch": 0.30333068992862805,
      "grad_norm": 0.9996718572679602,
      "learning_rate": 8.915109473501475e-06,
      "loss": 0.7039,
      "mean_token_accuracy": 0.7728452086448669,
      "num_tokens": 150370190.0,
      "step": 2295
    },
    {
      "epoch": 0.30346286016389107,
      "grad_norm": 0.820178171463861,
      "learning_rate": 8.913757074966905e-06,
      "loss": 0.5896,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 150435726.0,
      "step": 2296
    },
    {
      "epoch": 0.3035950303991541,
      "grad_norm": 0.9141216889713629,
      "learning_rate": 8.91240394971473e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7869155406951904,
      "num_tokens": 150501262.0,
      "step": 2297
    },
    {
      "epoch": 0.3037272006344171,
      "grad_norm": 0.941639520942208,
      "learning_rate": 8.911050098032998e-06,
      "loss": 0.6282,
      "mean_token_accuracy": 0.7972012162208557,
      "num_tokens": 150566798.0,
      "step": 2298
    },
    {
      "epoch": 0.3038593708696801,
      "grad_norm": 0.9238971809775608,
      "learning_rate": 8.90969552020992e-06,
      "loss": 0.6517,
      "mean_token_accuracy": 0.7900134325027466,
      "num_tokens": 150632334.0,
      "step": 2299
    },
    {
      "epoch": 0.30399154110494314,
      "grad_norm": 0.9822798798837176,
      "learning_rate": 8.908340216533853e-06,
      "loss": 0.701,
      "mean_token_accuracy": 0.7745543718338013,
      "num_tokens": 150697870.0,
      "step": 2300
    },
    {
      "epoch": 0.30412371134020616,
      "grad_norm": 1.0091152259335516,
      "learning_rate": 8.906984187293316e-06,
      "loss": 0.6545,
      "mean_token_accuracy": 0.7852673530578613,
      "num_tokens": 150763406.0,
      "step": 2301
    },
    {
      "epoch": 0.3042558815754692,
      "grad_norm": 0.926199823351275,
      "learning_rate": 8.905627432776977e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8060829043388367,
      "num_tokens": 150828942.0,
      "step": 2302
    },
    {
      "epoch": 0.3043880518107322,
      "grad_norm": 0.9942810150381893,
      "learning_rate": 8.904269953273665e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.8147204518318176,
      "num_tokens": 150894478.0,
      "step": 2303
    },
    {
      "epoch": 0.3045202220459952,
      "grad_norm": 0.9174181417603734,
      "learning_rate": 8.902911749072353e-06,
      "loss": 0.5863,
      "mean_token_accuracy": 0.8069375157356262,
      "num_tokens": 150960014.0,
      "step": 2304
    },
    {
      "epoch": 0.30465239228125823,
      "grad_norm": 0.8408068811168339,
      "learning_rate": 8.901552820462178e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8095928430557251,
      "num_tokens": 151025550.0,
      "step": 2305
    },
    {
      "epoch": 0.3047845625165213,
      "grad_norm": 0.8666558598478961,
      "learning_rate": 8.900193167732428e-06,
      "loss": 0.5774,
      "mean_token_accuracy": 0.8098217844963074,
      "num_tokens": 151091086.0,
      "step": 2306
    },
    {
      "epoch": 0.3049167327517843,
      "grad_norm": 0.8319985213905827,
      "learning_rate": 8.898832791172542e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8063423037528992,
      "num_tokens": 151156622.0,
      "step": 2307
    },
    {
      "epoch": 0.30504890298704734,
      "grad_norm": 0.800677810650676,
      "learning_rate": 8.897471691072118e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 151222158.0,
      "step": 2308
    },
    {
      "epoch": 0.30518107322231036,
      "grad_norm": 0.9214466579370829,
      "learning_rate": 8.896109867720904e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7863203287124634,
      "num_tokens": 151287694.0,
      "step": 2309
    },
    {
      "epoch": 0.3053132434575734,
      "grad_norm": 0.9583290630287203,
      "learning_rate": 8.894747321408805e-06,
      "loss": 0.6363,
      "mean_token_accuracy": 0.7941032648086548,
      "num_tokens": 151353230.0,
      "step": 2310
    },
    {
      "epoch": 0.3054454136928364,
      "grad_norm": 0.9512588379069223,
      "learning_rate": 8.89338405242588e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.7903644442558289,
      "num_tokens": 151418766.0,
      "step": 2311
    },
    {
      "epoch": 0.3055775839280994,
      "grad_norm": 0.9196600159687395,
      "learning_rate": 8.892020061062338e-06,
      "loss": 0.6662,
      "mean_token_accuracy": 0.7829477190971375,
      "num_tokens": 151484302.0,
      "step": 2312
    },
    {
      "epoch": 0.30570975416336243,
      "grad_norm": 0.877172887253987,
      "learning_rate": 8.890655347608545e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.8022066950798035,
      "num_tokens": 151549838.0,
      "step": 2313
    },
    {
      "epoch": 0.30584192439862545,
      "grad_norm": 0.8811557191914634,
      "learning_rate": 8.889289912355023e-06,
      "loss": 0.5621,
      "mean_token_accuracy": 0.8150561451911926,
      "num_tokens": 151615374.0,
      "step": 2314
    },
    {
      "epoch": 0.30597409463388847,
      "grad_norm": 0.8505527432234398,
      "learning_rate": 8.887923755592439e-06,
      "loss": 0.6042,
      "mean_token_accuracy": 0.8025729656219482,
      "num_tokens": 151680910.0,
      "step": 2315
    },
    {
      "epoch": 0.3061062648691515,
      "grad_norm": 0.8796927791743655,
      "learning_rate": 8.886556877611623e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8041753172874451,
      "num_tokens": 151746446.0,
      "step": 2316
    },
    {
      "epoch": 0.3062384351044145,
      "grad_norm": 0.7974328579028492,
      "learning_rate": 8.885189278703553e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.8186119198799133,
      "num_tokens": 151811982.0,
      "step": 2317
    },
    {
      "epoch": 0.3063706053396775,
      "grad_norm": 0.9247334651787743,
      "learning_rate": 8.883820959159365e-06,
      "loss": 0.6364,
      "mean_token_accuracy": 0.7889909744262695,
      "num_tokens": 151877518.0,
      "step": 2318
    },
    {
      "epoch": 0.30650277557494054,
      "grad_norm": 0.8440498415365213,
      "learning_rate": 8.882451919270342e-06,
      "loss": 0.5656,
      "mean_token_accuracy": 0.8176352381706238,
      "num_tokens": 151943054.0,
      "step": 2319
    },
    {
      "epoch": 0.30663494581020356,
      "grad_norm": 0.8804169678585024,
      "learning_rate": 8.881082159327927e-06,
      "loss": 0.6445,
      "mean_token_accuracy": 0.7907917499542236,
      "num_tokens": 152008590.0,
      "step": 2320
    },
    {
      "epoch": 0.3067671160454666,
      "grad_norm": 0.8633762384913958,
      "learning_rate": 8.879711679623711e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8112257122993469,
      "num_tokens": 152074126.0,
      "step": 2321
    },
    {
      "epoch": 0.3068992862807296,
      "grad_norm": 0.8910635721868618,
      "learning_rate": 8.878340480449445e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.8013215661048889,
      "num_tokens": 152139662.0,
      "step": 2322
    },
    {
      "epoch": 0.3070314565159926,
      "grad_norm": 0.9618887147112565,
      "learning_rate": 8.876968562097023e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.7823983430862427,
      "num_tokens": 152205198.0,
      "step": 2323
    },
    {
      "epoch": 0.30716362675125564,
      "grad_norm": 0.9182609778328507,
      "learning_rate": 8.8755959248585e-06,
      "loss": 0.6572,
      "mean_token_accuracy": 0.7860914468765259,
      "num_tokens": 152270734.0,
      "step": 2324
    },
    {
      "epoch": 0.30729579698651865,
      "grad_norm": 0.8761002216613027,
      "learning_rate": 8.874222569026082e-06,
      "loss": 0.6087,
      "mean_token_accuracy": 0.8009400367736816,
      "num_tokens": 152336270.0,
      "step": 2325
    },
    {
      "epoch": 0.3074279672217817,
      "grad_norm": 0.8479180640428452,
      "learning_rate": 8.872848494892127e-06,
      "loss": 0.5962,
      "mean_token_accuracy": 0.8057318925857544,
      "num_tokens": 152401806.0,
      "step": 2326
    },
    {
      "epoch": 0.3075601374570447,
      "grad_norm": 0.9547513817912355,
      "learning_rate": 8.87147370274915e-06,
      "loss": 0.6205,
      "mean_token_accuracy": 0.7982084155082703,
      "num_tokens": 152467342.0,
      "step": 2327
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 1.009357768618026,
      "learning_rate": 8.870098192889812e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8023592829704285,
      "num_tokens": 152532878.0,
      "step": 2328
    },
    {
      "epoch": 0.3078244779275707,
      "grad_norm": 0.9192722045044818,
      "learning_rate": 8.86872196560693e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8112868070602417,
      "num_tokens": 152598414.0,
      "step": 2329
    },
    {
      "epoch": 0.30795664816283375,
      "grad_norm": 0.8593317422614496,
      "learning_rate": 8.867345021193475e-06,
      "loss": 0.6238,
      "mean_token_accuracy": 0.7975826859474182,
      "num_tokens": 152663950.0,
      "step": 2330
    },
    {
      "epoch": 0.30808881839809676,
      "grad_norm": 0.9580441183767402,
      "learning_rate": 8.865967359942573e-06,
      "loss": 0.6744,
      "mean_token_accuracy": 0.7790563106536865,
      "num_tokens": 152729486.0,
      "step": 2331
    },
    {
      "epoch": 0.3082209886333598,
      "grad_norm": 0.9268541483535062,
      "learning_rate": 8.864588982147495e-06,
      "loss": 0.672,
      "mean_token_accuracy": 0.7787052989006042,
      "num_tokens": 152795022.0,
      "step": 2332
    },
    {
      "epoch": 0.3083531588686228,
      "grad_norm": 0.8526021929364375,
      "learning_rate": 8.86320988810167e-06,
      "loss": 0.6399,
      "mean_token_accuracy": 0.7917225956916809,
      "num_tokens": 152860558.0,
      "step": 2333
    },
    {
      "epoch": 0.3084853291038858,
      "grad_norm": 0.970656227507614,
      "learning_rate": 8.861830078098678e-06,
      "loss": 0.6703,
      "mean_token_accuracy": 0.7828256487846375,
      "num_tokens": 152926094.0,
      "step": 2334
    },
    {
      "epoch": 0.30861749933914884,
      "grad_norm": 0.8407506841856429,
      "learning_rate": 8.860449552432252e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.7971249222755432,
      "num_tokens": 152991630.0,
      "step": 2335
    },
    {
      "epoch": 0.30874966957441186,
      "grad_norm": 0.9284733596033186,
      "learning_rate": 8.85906831139628e-06,
      "loss": 0.6634,
      "mean_token_accuracy": 0.7862297296524048,
      "num_tokens": 153056357.0,
      "step": 2336
    },
    {
      "epoch": 0.3088818398096749,
      "grad_norm": 0.9494564743856722,
      "learning_rate": 8.857686355284793e-06,
      "loss": 0.6944,
      "mean_token_accuracy": 0.7757752537727356,
      "num_tokens": 153121893.0,
      "step": 2337
    },
    {
      "epoch": 0.3090140100449379,
      "grad_norm": 0.8488956869408912,
      "learning_rate": 8.856303684391988e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.7949273586273193,
      "num_tokens": 153187429.0,
      "step": 2338
    },
    {
      "epoch": 0.3091461802802009,
      "grad_norm": 0.8571793289031248,
      "learning_rate": 8.8549202990122e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.8101574778556824,
      "num_tokens": 153252965.0,
      "step": 2339
    },
    {
      "epoch": 0.30927835051546393,
      "grad_norm": 1.0455868728034923,
      "learning_rate": 8.85353619943993e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7969722747802734,
      "num_tokens": 153318501.0,
      "step": 2340
    },
    {
      "epoch": 0.30941052075072695,
      "grad_norm": 0.9581100655290463,
      "learning_rate": 8.852151385969816e-06,
      "loss": 0.6556,
      "mean_token_accuracy": 0.7866408228874207,
      "num_tokens": 153384037.0,
      "step": 2341
    },
    {
      "epoch": 0.30954269098598997,
      "grad_norm": 0.9574057253578101,
      "learning_rate": 8.850765858896661e-06,
      "loss": 0.6334,
      "mean_token_accuracy": 0.7946832180023193,
      "num_tokens": 153449573.0,
      "step": 2342
    },
    {
      "epoch": 0.309674861221253,
      "grad_norm": 0.9460673813713146,
      "learning_rate": 8.849379618515414e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7847179770469666,
      "num_tokens": 153515109.0,
      "step": 2343
    },
    {
      "epoch": 0.309807031456516,
      "grad_norm": 0.8291027064938943,
      "learning_rate": 8.847992665121177e-06,
      "loss": 0.6689,
      "mean_token_accuracy": 0.7809638381004333,
      "num_tokens": 153580645.0,
      "step": 2344
    },
    {
      "epoch": 0.309939201691779,
      "grad_norm": 0.9303781251053317,
      "learning_rate": 8.846604999009201e-06,
      "loss": 0.6592,
      "mean_token_accuracy": 0.7875106930732727,
      "num_tokens": 153646181.0,
      "step": 2345
    },
    {
      "epoch": 0.31007137192704204,
      "grad_norm": 0.8746430327781565,
      "learning_rate": 8.845216620474895e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7942406535148621,
      "num_tokens": 153711717.0,
      "step": 2346
    },
    {
      "epoch": 0.31020354216230506,
      "grad_norm": 0.9071427386459227,
      "learning_rate": 8.843827529813812e-06,
      "loss": 0.6613,
      "mean_token_accuracy": 0.7867781519889832,
      "num_tokens": 153777253.0,
      "step": 2347
    },
    {
      "epoch": 0.3103357123975681,
      "grad_norm": 0.901859585629064,
      "learning_rate": 8.842437727321662e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.7928519248962402,
      "num_tokens": 153842789.0,
      "step": 2348
    },
    {
      "epoch": 0.3104678826328311,
      "grad_norm": 0.9651554127058362,
      "learning_rate": 8.841047213294306e-06,
      "loss": 0.6083,
      "mean_token_accuracy": 0.8012452721595764,
      "num_tokens": 153908325.0,
      "step": 2349
    },
    {
      "epoch": 0.3106000528680941,
      "grad_norm": 0.8962631845635136,
      "learning_rate": 8.839655988027752e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8106763362884521,
      "num_tokens": 153973861.0,
      "step": 2350
    },
    {
      "epoch": 0.31073222310335713,
      "grad_norm": 0.8657333316666335,
      "learning_rate": 8.838264051818167e-06,
      "loss": 0.6296,
      "mean_token_accuracy": 0.7963313460350037,
      "num_tokens": 154039397.0,
      "step": 2351
    },
    {
      "epoch": 0.31086439333862015,
      "grad_norm": 0.8485189721674056,
      "learning_rate": 8.836871404961864e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8096691370010376,
      "num_tokens": 154104933.0,
      "step": 2352
    },
    {
      "epoch": 0.31099656357388317,
      "grad_norm": 0.9184782998053846,
      "learning_rate": 8.835478047755306e-06,
      "loss": 0.6353,
      "mean_token_accuracy": 0.7940422296524048,
      "num_tokens": 154170469.0,
      "step": 2353
    },
    {
      "epoch": 0.3111287338091462,
      "grad_norm": 0.8952155808715548,
      "learning_rate": 8.834083980495112e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.8051977753639221,
      "num_tokens": 154236005.0,
      "step": 2354
    },
    {
      "epoch": 0.3112609040444092,
      "grad_norm": 0.9177458282671133,
      "learning_rate": 8.832689203478049e-06,
      "loss": 0.6946,
      "mean_token_accuracy": 0.7750884890556335,
      "num_tokens": 154301541.0,
      "step": 2355
    },
    {
      "epoch": 0.3113930742796722,
      "grad_norm": 1.2759820663864139,
      "learning_rate": 8.831293717001037e-06,
      "loss": 0.6679,
      "mean_token_accuracy": 0.78290194272995,
      "num_tokens": 154367077.0,
      "step": 2356
    },
    {
      "epoch": 0.31152524451493524,
      "grad_norm": 0.8884243239793926,
      "learning_rate": 8.829897521361144e-06,
      "loss": 0.5957,
      "mean_token_accuracy": 0.8058539628982544,
      "num_tokens": 154432613.0,
      "step": 2357
    },
    {
      "epoch": 0.31165741475019826,
      "grad_norm": 0.9399629352900049,
      "learning_rate": 8.828500616855591e-06,
      "loss": 0.6531,
      "mean_token_accuracy": 0.7887772917747498,
      "num_tokens": 154498149.0,
      "step": 2358
    },
    {
      "epoch": 0.3117895849854613,
      "grad_norm": 0.8937627366783282,
      "learning_rate": 8.827103003781754e-06,
      "loss": 0.6315,
      "mean_token_accuracy": 0.7915089726448059,
      "num_tokens": 154563685.0,
      "step": 2359
    },
    {
      "epoch": 0.3119217552207243,
      "grad_norm": 0.7612210302458428,
      "learning_rate": 8.825704682437151e-06,
      "loss": 0.5364,
      "mean_token_accuracy": 0.8247161507606506,
      "num_tokens": 154629221.0,
      "step": 2360
    },
    {
      "epoch": 0.3120539254559873,
      "grad_norm": 0.9237806932150346,
      "learning_rate": 8.824305653119457e-06,
      "loss": 0.6707,
      "mean_token_accuracy": 0.7829172015190125,
      "num_tokens": 154694757.0,
      "step": 2361
    },
    {
      "epoch": 0.31218609569125033,
      "grad_norm": 0.9481176749350988,
      "learning_rate": 8.822905916126496e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.7946068644523621,
      "num_tokens": 154760293.0,
      "step": 2362
    },
    {
      "epoch": 0.31231826592651335,
      "grad_norm": 0.860107107147992,
      "learning_rate": 8.82150547175624e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.7950494289398193,
      "num_tokens": 154825829.0,
      "step": 2363
    },
    {
      "epoch": 0.31245043616177637,
      "grad_norm": 0.9229779847990148,
      "learning_rate": 8.82010432030682e-06,
      "loss": 0.6508,
      "mean_token_accuracy": 0.7874191403388977,
      "num_tokens": 154891365.0,
      "step": 2364
    },
    {
      "epoch": 0.3125826063970394,
      "grad_norm": 0.8474869030324989,
      "learning_rate": 8.818702462076508e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 154956901.0,
      "step": 2365
    },
    {
      "epoch": 0.3127147766323024,
      "grad_norm": 0.8545190841272248,
      "learning_rate": 8.817299897363731e-06,
      "loss": 0.6373,
      "mean_token_accuracy": 0.7914631962776184,
      "num_tokens": 155022437.0,
      "step": 2366
    },
    {
      "epoch": 0.3128469468675654,
      "grad_norm": 0.9005387913205672,
      "learning_rate": 8.815896626467068e-06,
      "loss": 0.6594,
      "mean_token_accuracy": 0.7856336236000061,
      "num_tokens": 155087973.0,
      "step": 2367
    },
    {
      "epoch": 0.31297911710282844,
      "grad_norm": 0.8887641689959317,
      "learning_rate": 8.814492649685243e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7832529544830322,
      "num_tokens": 155153509.0,
      "step": 2368
    },
    {
      "epoch": 0.31311128733809146,
      "grad_norm": 0.8267407175111777,
      "learning_rate": 8.813087967317133e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 155219045.0,
      "step": 2369
    },
    {
      "epoch": 0.3132434575733545,
      "grad_norm": 0.910824737571424,
      "learning_rate": 8.81168257966177e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7866255640983582,
      "num_tokens": 155284581.0,
      "step": 2370
    },
    {
      "epoch": 0.3133756278086175,
      "grad_norm": 0.8983170397798581,
      "learning_rate": 8.810276487018326e-06,
      "loss": 0.63,
      "mean_token_accuracy": 0.79324871301651,
      "num_tokens": 155350117.0,
      "step": 2371
    },
    {
      "epoch": 0.3135077980438805,
      "grad_norm": 0.871349081584937,
      "learning_rate": 8.808869689686133e-06,
      "loss": 0.6264,
      "mean_token_accuracy": 0.7947289943695068,
      "num_tokens": 155415653.0,
      "step": 2372
    },
    {
      "epoch": 0.31363996827914353,
      "grad_norm": 0.8948260495686086,
      "learning_rate": 8.807462187964666e-06,
      "loss": 0.6177,
      "mean_token_accuracy": 0.7988951206207275,
      "num_tokens": 155481189.0,
      "step": 2373
    },
    {
      "epoch": 0.31377213851440655,
      "grad_norm": 0.8520339334883554,
      "learning_rate": 8.806053982153556e-06,
      "loss": 0.6132,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 155546725.0,
      "step": 2374
    },
    {
      "epoch": 0.31390430874966957,
      "grad_norm": 0.8535408013113766,
      "learning_rate": 8.804645072552578e-06,
      "loss": 0.6286,
      "mean_token_accuracy": 0.79343181848526,
      "num_tokens": 155612261.0,
      "step": 2375
    },
    {
      "epoch": 0.3140364789849326,
      "grad_norm": 0.8771245047919561,
      "learning_rate": 8.803235459461658e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.8062965273857117,
      "num_tokens": 155677797.0,
      "step": 2376
    },
    {
      "epoch": 0.3141686492201956,
      "grad_norm": 0.8790355176140782,
      "learning_rate": 8.801825143180878e-06,
      "loss": 0.5685,
      "mean_token_accuracy": 0.8141404986381531,
      "num_tokens": 155743333.0,
      "step": 2377
    },
    {
      "epoch": 0.3143008194554586,
      "grad_norm": 0.9068023419973125,
      "learning_rate": 8.800414124010461e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8035801649093628,
      "num_tokens": 155808869.0,
      "step": 2378
    },
    {
      "epoch": 0.31443298969072164,
      "grad_norm": 0.8061610337159947,
      "learning_rate": 8.799002402250785e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.802435576915741,
      "num_tokens": 155874405.0,
      "step": 2379
    },
    {
      "epoch": 0.31456515992598466,
      "grad_norm": 0.9096438546209022,
      "learning_rate": 8.797589978202376e-06,
      "loss": 0.6718,
      "mean_token_accuracy": 0.7808112502098083,
      "num_tokens": 155939941.0,
      "step": 2380
    },
    {
      "epoch": 0.3146973301612477,
      "grad_norm": 1.0553506264722528,
      "learning_rate": 8.79617685216591e-06,
      "loss": 0.6587,
      "mean_token_accuracy": 0.7863966822624207,
      "num_tokens": 156005477.0,
      "step": 2381
    },
    {
      "epoch": 0.3148295003965107,
      "grad_norm": 0.9349668328531844,
      "learning_rate": 8.794763024442208e-06,
      "loss": 0.6515,
      "mean_token_accuracy": 0.788227915763855,
      "num_tokens": 156071013.0,
      "step": 2382
    },
    {
      "epoch": 0.3149616706317737,
      "grad_norm": 0.9376000689893981,
      "learning_rate": 8.79334849533225e-06,
      "loss": 0.6665,
      "mean_token_accuracy": 0.7834360599517822,
      "num_tokens": 156136549.0,
      "step": 2383
    },
    {
      "epoch": 0.31509384086703673,
      "grad_norm": 0.8175411049248257,
      "learning_rate": 8.791933265137159e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8096233606338501,
      "num_tokens": 156202085.0,
      "step": 2384
    },
    {
      "epoch": 0.31522601110229975,
      "grad_norm": 0.8781561573164343,
      "learning_rate": 8.790517334158204e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 156267621.0,
      "step": 2385
    },
    {
      "epoch": 0.31535818133756277,
      "grad_norm": 0.8581746306901659,
      "learning_rate": 8.78910070269681e-06,
      "loss": 0.601,
      "mean_token_accuracy": 0.8050604462623596,
      "num_tokens": 156333157.0,
      "step": 2386
    },
    {
      "epoch": 0.3154903515728258,
      "grad_norm": 0.8457604357462093,
      "learning_rate": 8.78768337105455e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 156398693.0,
      "step": 2387
    },
    {
      "epoch": 0.3156225218080888,
      "grad_norm": 0.9136824802676242,
      "learning_rate": 8.786265339533142e-06,
      "loss": 0.6954,
      "mean_token_accuracy": 0.773684561252594,
      "num_tokens": 156464229.0,
      "step": 2388
    },
    {
      "epoch": 0.3157546920433518,
      "grad_norm": 0.9045947288632208,
      "learning_rate": 8.784846608434452e-06,
      "loss": 0.6095,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 156529765.0,
      "step": 2389
    },
    {
      "epoch": 0.31588686227861484,
      "grad_norm": 0.829486462052672,
      "learning_rate": 8.783427178060503e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.8028171062469482,
      "num_tokens": 156595301.0,
      "step": 2390
    },
    {
      "epoch": 0.31601903251387786,
      "grad_norm": 0.8809265304439264,
      "learning_rate": 8.782007048713462e-06,
      "loss": 0.6156,
      "mean_token_accuracy": 0.7982847094535828,
      "num_tokens": 156660837.0,
      "step": 2391
    },
    {
      "epoch": 0.3161512027491409,
      "grad_norm": 0.9154313875204084,
      "learning_rate": 8.780586220695644e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 156726373.0,
      "step": 2392
    },
    {
      "epoch": 0.3162833729844039,
      "grad_norm": 0.8747855612649462,
      "learning_rate": 8.779164694309512e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7957056760787964,
      "num_tokens": 156791909.0,
      "step": 2393
    },
    {
      "epoch": 0.3164155432196669,
      "grad_norm": 0.8755986498461772,
      "learning_rate": 8.777742469857682e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8124618530273438,
      "num_tokens": 156857445.0,
      "step": 2394
    },
    {
      "epoch": 0.31654771345492994,
      "grad_norm": 0.9251187728156477,
      "learning_rate": 8.776319547642914e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7957972288131714,
      "num_tokens": 156922981.0,
      "step": 2395
    },
    {
      "epoch": 0.31667988369019295,
      "grad_norm": 1.0065501342807333,
      "learning_rate": 8.774895927968119e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7975521683692932,
      "num_tokens": 156988517.0,
      "step": 2396
    },
    {
      "epoch": 0.31681205392545597,
      "grad_norm": 0.8815043162037656,
      "learning_rate": 8.773471611136356e-06,
      "loss": 0.6477,
      "mean_token_accuracy": 0.7868391871452332,
      "num_tokens": 157054053.0,
      "step": 2397
    },
    {
      "epoch": 0.316944224160719,
      "grad_norm": 0.9362605629511517,
      "learning_rate": 8.772046597450831e-06,
      "loss": 0.654,
      "mean_token_accuracy": 0.7858777642250061,
      "num_tokens": 157119589.0,
      "step": 2398
    },
    {
      "epoch": 0.317076394395982,
      "grad_norm": 0.8715043598124985,
      "learning_rate": 8.770620887214903e-06,
      "loss": 0.617,
      "mean_token_accuracy": 0.7985899448394775,
      "num_tokens": 157185125.0,
      "step": 2399
    },
    {
      "epoch": 0.317208564631245,
      "grad_norm": 0.8847335351627498,
      "learning_rate": 8.769194480732073e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8028323650360107,
      "num_tokens": 157250661.0,
      "step": 2400
    },
    {
      "epoch": 0.31734073486650805,
      "grad_norm": 0.9041303730019081,
      "learning_rate": 8.76776737830599e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.8061897158622742,
      "num_tokens": 157316197.0,
      "step": 2401
    },
    {
      "epoch": 0.31747290510177106,
      "grad_norm": 0.8579776535363052,
      "learning_rate": 8.766339580240462e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.808417797088623,
      "num_tokens": 157381733.0,
      "step": 2402
    },
    {
      "epoch": 0.3176050753370341,
      "grad_norm": 0.8584772647370953,
      "learning_rate": 8.764911086839435e-06,
      "loss": 0.6022,
      "mean_token_accuracy": 0.8025119304656982,
      "num_tokens": 157447269.0,
      "step": 2403
    },
    {
      "epoch": 0.3177372455722971,
      "grad_norm": 0.9644817036661937,
      "learning_rate": 8.763481898407003e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7899066209793091,
      "num_tokens": 157512805.0,
      "step": 2404
    },
    {
      "epoch": 0.3178694158075601,
      "grad_norm": 0.8777891875064359,
      "learning_rate": 8.762052015247409e-06,
      "loss": 0.6251,
      "mean_token_accuracy": 0.7974758744239807,
      "num_tokens": 157578341.0,
      "step": 2405
    },
    {
      "epoch": 0.31800158604282314,
      "grad_norm": 0.9244177729406278,
      "learning_rate": 8.76062143766505e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8028934001922607,
      "num_tokens": 157643877.0,
      "step": 2406
    },
    {
      "epoch": 0.31813375627808615,
      "grad_norm": 0.9622046955067595,
      "learning_rate": 8.759190165964464e-06,
      "loss": 0.6828,
      "mean_token_accuracy": 0.7766451239585876,
      "num_tokens": 157709413.0,
      "step": 2407
    },
    {
      "epoch": 0.3182659265133492,
      "grad_norm": 0.8738529457195275,
      "learning_rate": 8.757758200450336e-06,
      "loss": 0.5822,
      "mean_token_accuracy": 0.8087687492370605,
      "num_tokens": 157774949.0,
      "step": 2408
    },
    {
      "epoch": 0.3183980967486122,
      "grad_norm": 0.9539434668000792,
      "learning_rate": 8.756325541427507e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.806800127029419,
      "num_tokens": 157840485.0,
      "step": 2409
    },
    {
      "epoch": 0.3185302669838752,
      "grad_norm": 0.9768225179707614,
      "learning_rate": 8.754892189200955e-06,
      "loss": 0.6646,
      "mean_token_accuracy": 0.7837870717048645,
      "num_tokens": 157906021.0,
      "step": 2410
    },
    {
      "epoch": 0.31866243721913823,
      "grad_norm": 0.9151740209205181,
      "learning_rate": 8.753458144075815e-06,
      "loss": 0.6067,
      "mean_token_accuracy": 0.8040837645530701,
      "num_tokens": 157971557.0,
      "step": 2411
    },
    {
      "epoch": 0.31879460745440125,
      "grad_norm": 1.0184397723088412,
      "learning_rate": 8.752023406357365e-06,
      "loss": 0.6774,
      "mean_token_accuracy": 0.7833750247955322,
      "num_tokens": 158037093.0,
      "step": 2412
    },
    {
      "epoch": 0.31892677768966426,
      "grad_norm": 0.9008963484001334,
      "learning_rate": 8.750587976351028e-06,
      "loss": 0.5983,
      "mean_token_accuracy": 0.8049230575561523,
      "num_tokens": 158102629.0,
      "step": 2413
    },
    {
      "epoch": 0.3190589479249273,
      "grad_norm": 0.8589996359194224,
      "learning_rate": 8.749151854362376e-06,
      "loss": 0.5739,
      "mean_token_accuracy": 0.8143084049224854,
      "num_tokens": 158168165.0,
      "step": 2414
    },
    {
      "epoch": 0.3191911181601903,
      "grad_norm": 0.9000585953538921,
      "learning_rate": 8.747715040697131e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.798071026802063,
      "num_tokens": 158233701.0,
      "step": 2415
    },
    {
      "epoch": 0.3193232883954533,
      "grad_norm": 0.9811262920255028,
      "learning_rate": 8.746277535661166e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.8146288394927979,
      "num_tokens": 158299237.0,
      "step": 2416
    },
    {
      "epoch": 0.31945545863071634,
      "grad_norm": 0.8734756286028237,
      "learning_rate": 8.744839339560487e-06,
      "loss": 0.5784,
      "mean_token_accuracy": 0.8161702156066895,
      "num_tokens": 158364773.0,
      "step": 2417
    },
    {
      "epoch": 0.31958762886597936,
      "grad_norm": 0.978584476375097,
      "learning_rate": 8.743400452701261e-06,
      "loss": 0.6237,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 158430309.0,
      "step": 2418
    },
    {
      "epoch": 0.3197197991012424,
      "grad_norm": 0.8991936023951239,
      "learning_rate": 8.741960875389797e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7996886968612671,
      "num_tokens": 158495845.0,
      "step": 2419
    },
    {
      "epoch": 0.3198519693365054,
      "grad_norm": 0.9108808951851047,
      "learning_rate": 8.740520607932548e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.8110120892524719,
      "num_tokens": 158561381.0,
      "step": 2420
    },
    {
      "epoch": 0.3199841395717684,
      "grad_norm": 0.8576376914896167,
      "learning_rate": 8.73907965063612e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.7974911332130432,
      "num_tokens": 158626917.0,
      "step": 2421
    },
    {
      "epoch": 0.32011630980703143,
      "grad_norm": 0.905962294797804,
      "learning_rate": 8.737638003807262e-06,
      "loss": 0.6458,
      "mean_token_accuracy": 0.788975715637207,
      "num_tokens": 158692453.0,
      "step": 2422
    },
    {
      "epoch": 0.32024848004229445,
      "grad_norm": 0.9440678215552074,
      "learning_rate": 8.73619566775287e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7930502891540527,
      "num_tokens": 158757989.0,
      "step": 2423
    },
    {
      "epoch": 0.3203806502775575,
      "grad_norm": 0.918572916369652,
      "learning_rate": 8.734752642779985e-06,
      "loss": 0.626,
      "mean_token_accuracy": 0.797826886177063,
      "num_tokens": 158823525.0,
      "step": 2424
    },
    {
      "epoch": 0.32051282051282054,
      "grad_norm": 0.900964691435152,
      "learning_rate": 8.733308929195802e-06,
      "loss": 0.6466,
      "mean_token_accuracy": 0.7872207164764404,
      "num_tokens": 158889061.0,
      "step": 2425
    },
    {
      "epoch": 0.32064499074808356,
      "grad_norm": 0.8515654640999879,
      "learning_rate": 8.731864527307652e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8020846247673035,
      "num_tokens": 158954597.0,
      "step": 2426
    },
    {
      "epoch": 0.3207771609833466,
      "grad_norm": 0.9113865380545768,
      "learning_rate": 8.730419437423022e-06,
      "loss": 0.637,
      "mean_token_accuracy": 0.7911121845245361,
      "num_tokens": 159020133.0,
      "step": 2427
    },
    {
      "epoch": 0.3209093312186096,
      "grad_norm": 0.8784520508810029,
      "learning_rate": 8.728973659849542e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8058539628982544,
      "num_tokens": 159085669.0,
      "step": 2428
    },
    {
      "epoch": 0.3210415014538726,
      "grad_norm": 0.9456794027305049,
      "learning_rate": 8.727527194894984e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8008484840393066,
      "num_tokens": 159151205.0,
      "step": 2429
    },
    {
      "epoch": 0.32117367168913563,
      "grad_norm": 0.9036597773616318,
      "learning_rate": 8.726080042867272e-06,
      "loss": 0.5423,
      "mean_token_accuracy": 0.8222439289093018,
      "num_tokens": 159216741.0,
      "step": 2430
    },
    {
      "epoch": 0.32130584192439865,
      "grad_norm": 0.9293037241256877,
      "learning_rate": 8.724632204074474e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.792256772518158,
      "num_tokens": 159282277.0,
      "step": 2431
    },
    {
      "epoch": 0.32143801215966167,
      "grad_norm": 0.8893095874488872,
      "learning_rate": 8.723183678824806e-06,
      "loss": 0.6595,
      "mean_token_accuracy": 0.7835429310798645,
      "num_tokens": 159347813.0,
      "step": 2432
    },
    {
      "epoch": 0.3215701823949247,
      "grad_norm": 0.9447572379766249,
      "learning_rate": 8.721734467426627e-06,
      "loss": 0.6316,
      "mean_token_accuracy": 0.7931876182556152,
      "num_tokens": 159413349.0,
      "step": 2433
    },
    {
      "epoch": 0.3217023526301877,
      "grad_norm": 0.9496660809144506,
      "learning_rate": 8.720284570188446e-06,
      "loss": 0.6097,
      "mean_token_accuracy": 0.8034886121749878,
      "num_tokens": 159478885.0,
      "step": 2434
    },
    {
      "epoch": 0.3218345228654507,
      "grad_norm": 0.956663039325495,
      "learning_rate": 8.718833987418915e-06,
      "loss": 0.668,
      "mean_token_accuracy": 0.7831461429595947,
      "num_tokens": 159544421.0,
      "step": 2435
    },
    {
      "epoch": 0.32196669310071374,
      "grad_norm": 0.8387695992263109,
      "learning_rate": 8.717382719426832e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8140794634819031,
      "num_tokens": 159609957.0,
      "step": 2436
    },
    {
      "epoch": 0.32209886333597676,
      "grad_norm": 0.9643963274836685,
      "learning_rate": 8.715930766521142e-06,
      "loss": 0.652,
      "mean_token_accuracy": 0.7909748554229736,
      "num_tokens": 159675493.0,
      "step": 2437
    },
    {
      "epoch": 0.3222310335712398,
      "grad_norm": 0.8785464584867426,
      "learning_rate": 8.714478129010935e-06,
      "loss": 0.654,
      "mean_token_accuracy": 0.784458577632904,
      "num_tokens": 159741029.0,
      "step": 2438
    },
    {
      "epoch": 0.3223632038065028,
      "grad_norm": 0.8786824515594955,
      "learning_rate": 8.713024807205448e-06,
      "loss": 0.6285,
      "mean_token_accuracy": 0.7939811944961548,
      "num_tokens": 159806565.0,
      "step": 2439
    },
    {
      "epoch": 0.3224953740417658,
      "grad_norm": 0.8737553025330725,
      "learning_rate": 8.711570801414064e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.807395339012146,
      "num_tokens": 159872101.0,
      "step": 2440
    },
    {
      "epoch": 0.32262754427702883,
      "grad_norm": 1.094820694308025,
      "learning_rate": 8.710116111946309e-06,
      "loss": 0.6489,
      "mean_token_accuracy": 0.7864119410514832,
      "num_tokens": 159937637.0,
      "step": 2441
    },
    {
      "epoch": 0.32275971451229185,
      "grad_norm": 0.8515060112111363,
      "learning_rate": 8.708660739111857e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7871139049530029,
      "num_tokens": 160003173.0,
      "step": 2442
    },
    {
      "epoch": 0.32289188474755487,
      "grad_norm": 0.8691019567183977,
      "learning_rate": 8.707204683220522e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 160068709.0,
      "step": 2443
    },
    {
      "epoch": 0.3230240549828179,
      "grad_norm": 0.9115815918596598,
      "learning_rate": 8.705747944582273e-06,
      "loss": 0.6897,
      "mean_token_accuracy": 0.7762178182601929,
      "num_tokens": 160134245.0,
      "step": 2444
    },
    {
      "epoch": 0.3231562252180809,
      "grad_norm": 1.0561625818802622,
      "learning_rate": 8.704290523507219e-06,
      "loss": 0.7133,
      "mean_token_accuracy": 0.7663288712501526,
      "num_tokens": 160199781.0,
      "step": 2445
    },
    {
      "epoch": 0.3232883954533439,
      "grad_norm": 1.0251997119391083,
      "learning_rate": 8.702832420305614e-06,
      "loss": 0.6443,
      "mean_token_accuracy": 0.7899218797683716,
      "num_tokens": 160265317.0,
      "step": 2446
    },
    {
      "epoch": 0.32342056568860694,
      "grad_norm": 0.9757768619223063,
      "learning_rate": 8.701373635287855e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8093639612197876,
      "num_tokens": 160330853.0,
      "step": 2447
    },
    {
      "epoch": 0.32355273592386996,
      "grad_norm": 0.848427757949133,
      "learning_rate": 8.69991416876449e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8039922118186951,
      "num_tokens": 160396389.0,
      "step": 2448
    },
    {
      "epoch": 0.323684906159133,
      "grad_norm": 0.9553710695838499,
      "learning_rate": 8.698454021046208e-06,
      "loss": 0.6482,
      "mean_token_accuracy": 0.78795325756073,
      "num_tokens": 160461925.0,
      "step": 2449
    },
    {
      "epoch": 0.323817076394396,
      "grad_norm": 1.088233123651795,
      "learning_rate": 8.696993192443843e-06,
      "loss": 0.64,
      "mean_token_accuracy": 0.7919973134994507,
      "num_tokens": 160527461.0,
      "step": 2450
    },
    {
      "epoch": 0.323949246629659,
      "grad_norm": 1.0766053460761353,
      "learning_rate": 8.695531683268376e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.8006043434143066,
      "num_tokens": 160592997.0,
      "step": 2451
    },
    {
      "epoch": 0.32408141686492203,
      "grad_norm": 0.9110114013830227,
      "learning_rate": 8.694069493830932e-06,
      "loss": 0.6258,
      "mean_token_accuracy": 0.7955530285835266,
      "num_tokens": 160658533.0,
      "step": 2452
    },
    {
      "epoch": 0.32421358710018505,
      "grad_norm": 0.9281361452352263,
      "learning_rate": 8.69260662444278e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 160724069.0,
      "step": 2453
    },
    {
      "epoch": 0.32434575733544807,
      "grad_norm": 0.9152547501625761,
      "learning_rate": 8.691143075415334e-06,
      "loss": 0.5574,
      "mean_token_accuracy": 0.8187034726142883,
      "num_tokens": 160789605.0,
      "step": 2454
    },
    {
      "epoch": 0.3244779275707111,
      "grad_norm": 1.2569909960115986,
      "learning_rate": 8.689678847060155e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 160855141.0,
      "step": 2455
    },
    {
      "epoch": 0.3246100978059741,
      "grad_norm": 0.8657246240190803,
      "learning_rate": 8.688213939688943e-06,
      "loss": 0.5187,
      "mean_token_accuracy": 0.8285160660743713,
      "num_tokens": 160920677.0,
      "step": 2456
    },
    {
      "epoch": 0.3247422680412371,
      "grad_norm": 0.9613112016742487,
      "learning_rate": 8.686748353613549e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.8006501197814941,
      "num_tokens": 160986213.0,
      "step": 2457
    },
    {
      "epoch": 0.32487443827650014,
      "grad_norm": 0.9008236188114568,
      "learning_rate": 8.685282089145966e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.7974453568458557,
      "num_tokens": 161051749.0,
      "step": 2458
    },
    {
      "epoch": 0.32500660851176316,
      "grad_norm": 0.9536134243831126,
      "learning_rate": 8.68381514659833e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.798696756362915,
      "num_tokens": 161117285.0,
      "step": 2459
    },
    {
      "epoch": 0.3251387787470262,
      "grad_norm": 0.9395834457941873,
      "learning_rate": 8.682347526282922e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.7961024045944214,
      "num_tokens": 161182821.0,
      "step": 2460
    },
    {
      "epoch": 0.3252709489822892,
      "grad_norm": 0.92869135703498,
      "learning_rate": 8.680879228512168e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8053961396217346,
      "num_tokens": 161248357.0,
      "step": 2461
    },
    {
      "epoch": 0.3254031192175522,
      "grad_norm": 0.9210451293609164,
      "learning_rate": 8.679410253598638e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7923635840415955,
      "num_tokens": 161313893.0,
      "step": 2462
    },
    {
      "epoch": 0.32553528945281524,
      "grad_norm": 0.9032864346685816,
      "learning_rate": 8.677940601855047e-06,
      "loss": 0.6437,
      "mean_token_accuracy": 0.787983775138855,
      "num_tokens": 161379429.0,
      "step": 2463
    },
    {
      "epoch": 0.32566745968807825,
      "grad_norm": 0.9424515838918125,
      "learning_rate": 8.676470273594253e-06,
      "loss": 0.6674,
      "mean_token_accuracy": 0.7789646983146667,
      "num_tokens": 161444965.0,
      "step": 2464
    },
    {
      "epoch": 0.32579962992334127,
      "grad_norm": 0.8661446640745116,
      "learning_rate": 8.674999269129257e-06,
      "loss": 0.6221,
      "mean_token_accuracy": 0.7945763468742371,
      "num_tokens": 161510501.0,
      "step": 2465
    },
    {
      "epoch": 0.3259318001586043,
      "grad_norm": 0.8535855134796053,
      "learning_rate": 8.673527588773204e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8132401704788208,
      "num_tokens": 161576037.0,
      "step": 2466
    },
    {
      "epoch": 0.3260639703938673,
      "grad_norm": 0.9892252395925057,
      "learning_rate": 8.67205523283939e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7957819700241089,
      "num_tokens": 161641573.0,
      "step": 2467
    },
    {
      "epoch": 0.3261961406291303,
      "grad_norm": 0.8437042245719542,
      "learning_rate": 8.670582201641242e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 161707109.0,
      "step": 2468
    },
    {
      "epoch": 0.32632831086439335,
      "grad_norm": 0.8433617308498834,
      "learning_rate": 8.66910849549234e-06,
      "loss": 0.5528,
      "mean_token_accuracy": 0.8191612958908081,
      "num_tokens": 161772645.0,
      "step": 2469
    },
    {
      "epoch": 0.32646048109965636,
      "grad_norm": 0.850740253039004,
      "learning_rate": 8.667634114706407e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8153766393661499,
      "num_tokens": 161838181.0,
      "step": 2470
    },
    {
      "epoch": 0.3265926513349194,
      "grad_norm": 0.9054288266126265,
      "learning_rate": 8.666159059597306e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.7929739952087402,
      "num_tokens": 161903717.0,
      "step": 2471
    },
    {
      "epoch": 0.3267248215701824,
      "grad_norm": 0.9589750892229404,
      "learning_rate": 8.664683330479046e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.7976895570755005,
      "num_tokens": 161969253.0,
      "step": 2472
    },
    {
      "epoch": 0.3268569918054454,
      "grad_norm": 0.9708999089042306,
      "learning_rate": 8.663206927665778e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.812065064907074,
      "num_tokens": 162034789.0,
      "step": 2473
    },
    {
      "epoch": 0.32698916204070844,
      "grad_norm": 0.8671810057436768,
      "learning_rate": 8.661729851471796e-06,
      "loss": 0.6297,
      "mean_token_accuracy": 0.7942253947257996,
      "num_tokens": 162100325.0,
      "step": 2474
    },
    {
      "epoch": 0.32712133227597145,
      "grad_norm": 0.8963652262190156,
      "learning_rate": 8.660252102211546e-06,
      "loss": 0.5923,
      "mean_token_accuracy": 0.8073037266731262,
      "num_tokens": 162165861.0,
      "step": 2475
    },
    {
      "epoch": 0.3272535025112345,
      "grad_norm": 0.9414053616766523,
      "learning_rate": 8.6587736801996e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8050604462623596,
      "num_tokens": 162231397.0,
      "step": 2476
    },
    {
      "epoch": 0.3273856727464975,
      "grad_norm": 0.8515464338277571,
      "learning_rate": 8.65729458575069e-06,
      "loss": 0.5342,
      "mean_token_accuracy": 0.8298131823539734,
      "num_tokens": 162296933.0,
      "step": 2477
    },
    {
      "epoch": 0.3275178429817605,
      "grad_norm": 0.9781000367274026,
      "learning_rate": 8.655814819179683e-06,
      "loss": 0.6518,
      "mean_token_accuracy": 0.782627284526825,
      "num_tokens": 162362469.0,
      "step": 2478
    },
    {
      "epoch": 0.32765001321702353,
      "grad_norm": 1.0956978667833508,
      "learning_rate": 8.654334380801587e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.7865034937858582,
      "num_tokens": 162428005.0,
      "step": 2479
    },
    {
      "epoch": 0.32778218345228655,
      "grad_norm": 0.9255717445887992,
      "learning_rate": 8.652853270931562e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.806617021560669,
      "num_tokens": 162493541.0,
      "step": 2480
    },
    {
      "epoch": 0.32791435368754956,
      "grad_norm": 0.9770383033532589,
      "learning_rate": 8.651371489884902e-06,
      "loss": 0.6027,
      "mean_token_accuracy": 0.8048772811889648,
      "num_tokens": 162559077.0,
      "step": 2481
    },
    {
      "epoch": 0.3280465239228126,
      "grad_norm": 0.9977776550668475,
      "learning_rate": 8.649889037977046e-06,
      "loss": 0.6451,
      "mean_token_accuracy": 0.7880295515060425,
      "num_tokens": 162624613.0,
      "step": 2482
    },
    {
      "epoch": 0.3281786941580756,
      "grad_norm": 0.9350421853387343,
      "learning_rate": 8.64840591552358e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.7993071675300598,
      "num_tokens": 162690149.0,
      "step": 2483
    },
    {
      "epoch": 0.3283108643933386,
      "grad_norm": 0.8951413305538918,
      "learning_rate": 8.646922122840228e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8094249963760376,
      "num_tokens": 162755685.0,
      "step": 2484
    },
    {
      "epoch": 0.32844303462860164,
      "grad_norm": 0.980269659607189,
      "learning_rate": 8.64543766024286e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7965144515037537,
      "num_tokens": 162821221.0,
      "step": 2485
    },
    {
      "epoch": 0.32857520486386466,
      "grad_norm": 0.9247754882151237,
      "learning_rate": 8.643952528047486e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.7996124029159546,
      "num_tokens": 162886757.0,
      "step": 2486
    },
    {
      "epoch": 0.3287073750991277,
      "grad_norm": 0.926412181979683,
      "learning_rate": 8.642466726570259e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8102337718009949,
      "num_tokens": 162952293.0,
      "step": 2487
    },
    {
      "epoch": 0.3288395453343907,
      "grad_norm": 1.0300365741516075,
      "learning_rate": 8.640980256127475e-06,
      "loss": 0.666,
      "mean_token_accuracy": 0.782505214214325,
      "num_tokens": 163017829.0,
      "step": 2488
    },
    {
      "epoch": 0.3289717155696537,
      "grad_norm": 0.9909674252845144,
      "learning_rate": 8.639493117035576e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 163083365.0,
      "step": 2489
    },
    {
      "epoch": 0.32910388580491673,
      "grad_norm": 0.8857034512054988,
      "learning_rate": 8.638005309611137e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.7992003560066223,
      "num_tokens": 163148901.0,
      "step": 2490
    },
    {
      "epoch": 0.32923605604017975,
      "grad_norm": 0.9090812682849421,
      "learning_rate": 8.636516834170889e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7965297102928162,
      "num_tokens": 163214437.0,
      "step": 2491
    },
    {
      "epoch": 0.32936822627544277,
      "grad_norm": 1.0693613053762672,
      "learning_rate": 8.63502769103169e-06,
      "loss": 0.6608,
      "mean_token_accuracy": 0.7847179770469666,
      "num_tokens": 163279973.0,
      "step": 2492
    },
    {
      "epoch": 0.3295003965107058,
      "grad_norm": 1.0121654179971742,
      "learning_rate": 8.63353788051055e-06,
      "loss": 0.6254,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 163345509.0,
      "step": 2493
    },
    {
      "epoch": 0.3296325667459688,
      "grad_norm": 0.9029346879264794,
      "learning_rate": 8.632047402924618e-06,
      "loss": 0.619,
      "mean_token_accuracy": 0.7978421449661255,
      "num_tokens": 163411045.0,
      "step": 2494
    },
    {
      "epoch": 0.3297647369812318,
      "grad_norm": 0.8225680504042098,
      "learning_rate": 8.630556258591188e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.8024508357048035,
      "num_tokens": 163476581.0,
      "step": 2495
    },
    {
      "epoch": 0.32989690721649484,
      "grad_norm": 0.8159127389561031,
      "learning_rate": 8.629064447827691e-06,
      "loss": 0.5669,
      "mean_token_accuracy": 0.8158649802207947,
      "num_tokens": 163542117.0,
      "step": 2496
    },
    {
      "epoch": 0.33002907745175786,
      "grad_norm": 0.9714093283370153,
      "learning_rate": 8.627571970951703e-06,
      "loss": 0.5844,
      "mean_token_accuracy": 0.8070138096809387,
      "num_tokens": 163607653.0,
      "step": 2497
    },
    {
      "epoch": 0.3301612476870209,
      "grad_norm": 0.9234775698268015,
      "learning_rate": 8.626078828280942e-06,
      "loss": 0.6461,
      "mean_token_accuracy": 0.7895861268043518,
      "num_tokens": 163673189.0,
      "step": 2498
    },
    {
      "epoch": 0.3302934179222839,
      "grad_norm": 0.9659099815741066,
      "learning_rate": 8.624585020133266e-06,
      "loss": 0.6525,
      "mean_token_accuracy": 0.784855306148529,
      "num_tokens": 163738725.0,
      "step": 2499
    },
    {
      "epoch": 0.3304255881575469,
      "grad_norm": 0.9181327999690032,
      "learning_rate": 8.623090546826676e-06,
      "loss": 0.6206,
      "mean_token_accuracy": 0.7962245345115662,
      "num_tokens": 163804261.0,
      "step": 2500
    },
    {
      "epoch": 0.33055775839280993,
      "grad_norm": 0.8615395619337111,
      "learning_rate": 8.621595408679315e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7901507616043091,
      "num_tokens": 65536.0,
      "step": 2501
    },
    {
      "epoch": 0.33068992862807295,
      "grad_norm": 0.8361202755543437,
      "learning_rate": 8.620099606009464e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 131072.0,
      "step": 2502
    },
    {
      "epoch": 0.33082209886333597,
      "grad_norm": 0.9753098298978115,
      "learning_rate": 8.61860313913555e-06,
      "loss": 0.6661,
      "mean_token_accuracy": 0.7840160131454468,
      "num_tokens": 196608.0,
      "step": 2503
    },
    {
      "epoch": 0.330954269098599,
      "grad_norm": 0.864610922938665,
      "learning_rate": 8.61710600837614e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8098523020744324,
      "num_tokens": 262144.0,
      "step": 2504
    },
    {
      "epoch": 0.331086439333862,
      "grad_norm": 0.8715608986944299,
      "learning_rate": 8.615608214049942e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.806403398513794,
      "num_tokens": 327680.0,
      "step": 2505
    },
    {
      "epoch": 0.331218609569125,
      "grad_norm": 0.9138407680191035,
      "learning_rate": 8.614109756475805e-06,
      "loss": 0.64,
      "mean_token_accuracy": 0.7937523126602173,
      "num_tokens": 393216.0,
      "step": 2506
    },
    {
      "epoch": 0.33135077980438804,
      "grad_norm": 0.8973688941027385,
      "learning_rate": 8.612610635972717e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7970333099365234,
      "num_tokens": 458752.0,
      "step": 2507
    },
    {
      "epoch": 0.33148295003965106,
      "grad_norm": 0.8697632410479386,
      "learning_rate": 8.611110852859811e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.808631420135498,
      "num_tokens": 524288.0,
      "step": 2508
    },
    {
      "epoch": 0.3316151202749141,
      "grad_norm": 0.942270062307416,
      "learning_rate": 8.609610407456362e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7903491854667664,
      "num_tokens": 589824.0,
      "step": 2509
    },
    {
      "epoch": 0.3317472905101771,
      "grad_norm": 0.9234924710445781,
      "learning_rate": 8.60810930008178e-06,
      "loss": 0.6343,
      "mean_token_accuracy": 0.7918599843978882,
      "num_tokens": 655360.0,
      "step": 2510
    },
    {
      "epoch": 0.3318794607454401,
      "grad_norm": 0.8066238695861249,
      "learning_rate": 8.606607531055618e-06,
      "loss": 0.5415,
      "mean_token_accuracy": 0.8214350938796997,
      "num_tokens": 720896.0,
      "step": 2511
    },
    {
      "epoch": 0.33201163098070313,
      "grad_norm": 0.9281750879795779,
      "learning_rate": 8.605105100697578e-06,
      "loss": 0.6695,
      "mean_token_accuracy": 0.7813148498535156,
      "num_tokens": 786432.0,
      "step": 2512
    },
    {
      "epoch": 0.33214380121596615,
      "grad_norm": 0.9018210140640728,
      "learning_rate": 8.60360200932749e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.7935081124305725,
      "num_tokens": 851968.0,
      "step": 2513
    },
    {
      "epoch": 0.33227597145122917,
      "grad_norm": 0.905160848827546,
      "learning_rate": 8.602098257265334e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8075631856918335,
      "num_tokens": 917504.0,
      "step": 2514
    },
    {
      "epoch": 0.3324081416864922,
      "grad_norm": 0.9771154053462509,
      "learning_rate": 8.600593844831225e-06,
      "loss": 0.655,
      "mean_token_accuracy": 0.7874801754951477,
      "num_tokens": 983040.0,
      "step": 2515
    },
    {
      "epoch": 0.3325403119217552,
      "grad_norm": 0.9036032578943896,
      "learning_rate": 8.599088772345422e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 1048576.0,
      "step": 2516
    },
    {
      "epoch": 0.3326724821570182,
      "grad_norm": 0.9635874735480556,
      "learning_rate": 8.597583040128324e-06,
      "loss": 0.6799,
      "mean_token_accuracy": 0.7798345685005188,
      "num_tokens": 1114112.0,
      "step": 2517
    },
    {
      "epoch": 0.33280465239228124,
      "grad_norm": 0.8376600439261577,
      "learning_rate": 8.596076648500469e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7949120998382568,
      "num_tokens": 1179648.0,
      "step": 2518
    },
    {
      "epoch": 0.33293682262754426,
      "grad_norm": 0.9146350699020118,
      "learning_rate": 8.594569597782538e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.818413496017456,
      "num_tokens": 1245184.0,
      "step": 2519
    },
    {
      "epoch": 0.3330689928628073,
      "grad_norm": 0.8979884355346542,
      "learning_rate": 8.59306188829535e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7893877625465393,
      "num_tokens": 1310720.0,
      "step": 2520
    },
    {
      "epoch": 0.3332011630980703,
      "grad_norm": 0.9641074490164697,
      "learning_rate": 8.591553520359864e-06,
      "loss": 0.6847,
      "mean_token_accuracy": 0.7772860527038574,
      "num_tokens": 1376256.0,
      "step": 2521
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.8087351958384632,
      "learning_rate": 8.59004449429718e-06,
      "loss": 0.5788,
      "mean_token_accuracy": 0.8113478422164917,
      "num_tokens": 1441792.0,
      "step": 2522
    },
    {
      "epoch": 0.33346550356859633,
      "grad_norm": 0.8734812062448818,
      "learning_rate": 8.58853481042854e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.8170705437660217,
      "num_tokens": 1507328.0,
      "step": 2523
    },
    {
      "epoch": 0.33359767380385935,
      "grad_norm": 0.8874764425810446,
      "learning_rate": 8.58702446907532e-06,
      "loss": 0.6564,
      "mean_token_accuracy": 0.7862898111343384,
      "num_tokens": 1572864.0,
      "step": 2524
    },
    {
      "epoch": 0.33372984403912237,
      "grad_norm": 0.8323640912003499,
      "learning_rate": 8.585513470559045e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8150561451911926,
      "num_tokens": 1638400.0,
      "step": 2525
    },
    {
      "epoch": 0.3338620142743854,
      "grad_norm": 0.8617487264293487,
      "learning_rate": 8.584001815201373e-06,
      "loss": 0.5723,
      "mean_token_accuracy": 0.8139116168022156,
      "num_tokens": 1703936.0,
      "step": 2526
    },
    {
      "epoch": 0.3339941845096484,
      "grad_norm": 0.9981588971943244,
      "learning_rate": 8.582489503324104e-06,
      "loss": 0.6037,
      "mean_token_accuracy": 0.8019014596939087,
      "num_tokens": 1769472.0,
      "step": 2527
    },
    {
      "epoch": 0.3341263547449114,
      "grad_norm": 0.8938183444686,
      "learning_rate": 8.580976535249177e-06,
      "loss": 0.5958,
      "mean_token_accuracy": 0.8038548231124878,
      "num_tokens": 1835008.0,
      "step": 2528
    },
    {
      "epoch": 0.33425852498017444,
      "grad_norm": 0.8786098376009605,
      "learning_rate": 8.579462911298671e-06,
      "loss": 0.6341,
      "mean_token_accuracy": 0.7947900295257568,
      "num_tokens": 1900544.0,
      "step": 2529
    },
    {
      "epoch": 0.33439069521543746,
      "grad_norm": 0.9514764716621615,
      "learning_rate": 8.577948631794809e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7948968410491943,
      "num_tokens": 1966080.0,
      "step": 2530
    },
    {
      "epoch": 0.3345228654507005,
      "grad_norm": 0.9649872643913437,
      "learning_rate": 8.576433697059943e-06,
      "loss": 0.6389,
      "mean_token_accuracy": 0.7917378544807434,
      "num_tokens": 2031616.0,
      "step": 2531
    },
    {
      "epoch": 0.3346550356859635,
      "grad_norm": 0.8746794807700539,
      "learning_rate": 8.574918107416574e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 2097152.0,
      "step": 2532
    },
    {
      "epoch": 0.3347872059212265,
      "grad_norm": 0.8749038353805336,
      "learning_rate": 8.573401863187342e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8136674165725708,
      "num_tokens": 2162688.0,
      "step": 2533
    },
    {
      "epoch": 0.33491937615648953,
      "grad_norm": 0.8987688466746694,
      "learning_rate": 8.57188496469502e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.8001617789268494,
      "num_tokens": 2228224.0,
      "step": 2534
    },
    {
      "epoch": 0.33505154639175255,
      "grad_norm": 0.8943684388164892,
      "learning_rate": 8.570367412262524e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7955072522163391,
      "num_tokens": 2293760.0,
      "step": 2535
    },
    {
      "epoch": 0.33518371662701557,
      "grad_norm": 0.9111568602328286,
      "learning_rate": 8.568849206212914e-06,
      "loss": 0.6414,
      "mean_token_accuracy": 0.7886857390403748,
      "num_tokens": 2359296.0,
      "step": 2536
    },
    {
      "epoch": 0.3353158868622786,
      "grad_norm": 0.8748495934892646,
      "learning_rate": 8.567330346869378e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8168721795082092,
      "num_tokens": 2424832.0,
      "step": 2537
    },
    {
      "epoch": 0.3354480570975416,
      "grad_norm": 0.9631984986870546,
      "learning_rate": 8.565810834555253e-06,
      "loss": 0.6678,
      "mean_token_accuracy": 0.7813148498535156,
      "num_tokens": 2490368.0,
      "step": 2538
    },
    {
      "epoch": 0.3355802273328046,
      "grad_norm": 0.8760919124219432,
      "learning_rate": 8.564290669594012e-06,
      "loss": 0.5629,
      "mean_token_accuracy": 0.8152698278427124,
      "num_tokens": 2555904.0,
      "step": 2539
    },
    {
      "epoch": 0.33571239756806764,
      "grad_norm": 0.9431365359598192,
      "learning_rate": 8.562769852309263e-06,
      "loss": 0.6544,
      "mean_token_accuracy": 0.7851452827453613,
      "num_tokens": 2621440.0,
      "step": 2540
    },
    {
      "epoch": 0.33584456780333066,
      "grad_norm": 0.7884253797422751,
      "learning_rate": 8.56124838302476e-06,
      "loss": 0.5121,
      "mean_token_accuracy": 0.8334910273551941,
      "num_tokens": 2686976.0,
      "step": 2541
    },
    {
      "epoch": 0.33597673803859374,
      "grad_norm": 0.9252110020612568,
      "learning_rate": 8.55972626206439e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7992766499519348,
      "num_tokens": 2752512.0,
      "step": 2542
    },
    {
      "epoch": 0.33610890827385675,
      "grad_norm": 0.842647977487357,
      "learning_rate": 8.558203489752182e-06,
      "loss": 0.5163,
      "mean_token_accuracy": 0.8351696729660034,
      "num_tokens": 2818048.0,
      "step": 2543
    },
    {
      "epoch": 0.3362410785091198,
      "grad_norm": 1.0994118788415392,
      "learning_rate": 8.556680066412302e-06,
      "loss": 0.6871,
      "mean_token_accuracy": 0.779529333114624,
      "num_tokens": 2883584.0,
      "step": 2544
    },
    {
      "epoch": 0.3363732487443828,
      "grad_norm": 0.8659120364439395,
      "learning_rate": 8.555155992369053e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.8112409710884094,
      "num_tokens": 2949120.0,
      "step": 2545
    },
    {
      "epoch": 0.3365054189796458,
      "grad_norm": 0.8332172860516502,
      "learning_rate": 8.553631267946884e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8176657557487488,
      "num_tokens": 3014656.0,
      "step": 2546
    },
    {
      "epoch": 0.33663758921490883,
      "grad_norm": 0.9791537720753495,
      "learning_rate": 8.55210589347037e-06,
      "loss": 0.6623,
      "mean_token_accuracy": 0.7858777642250061,
      "num_tokens": 3080192.0,
      "step": 2547
    },
    {
      "epoch": 0.33676975945017185,
      "grad_norm": 0.9066973286821759,
      "learning_rate": 8.550579869264233e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8093487024307251,
      "num_tokens": 3145728.0,
      "step": 2548
    },
    {
      "epoch": 0.33690192968543486,
      "grad_norm": 0.837226100227639,
      "learning_rate": 8.549053195653337e-06,
      "loss": 0.5232,
      "mean_token_accuracy": 0.827081561088562,
      "num_tokens": 3211264.0,
      "step": 2549
    },
    {
      "epoch": 0.3370340999206979,
      "grad_norm": 0.9519742698685549,
      "learning_rate": 8.547525872962675e-06,
      "loss": 0.6569,
      "mean_token_accuracy": 0.7869460582733154,
      "num_tokens": 3276800.0,
      "step": 2550
    },
    {
      "epoch": 0.3371662701559609,
      "grad_norm": 0.8890820769852875,
      "learning_rate": 8.54599790151738e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7960413694381714,
      "num_tokens": 3342336.0,
      "step": 2551
    },
    {
      "epoch": 0.3372984403912239,
      "grad_norm": 0.8435523226450744,
      "learning_rate": 8.54446928164273e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.802405059337616,
      "num_tokens": 3407872.0,
      "step": 2552
    },
    {
      "epoch": 0.33743061062648694,
      "grad_norm": 0.8946791249867131,
      "learning_rate": 8.542940013664132e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8084330558776855,
      "num_tokens": 3473408.0,
      "step": 2553
    },
    {
      "epoch": 0.33756278086174996,
      "grad_norm": 0.9049299846532431,
      "learning_rate": 8.541410097907139e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.7995971441268921,
      "num_tokens": 3538944.0,
      "step": 2554
    },
    {
      "epoch": 0.337694951097013,
      "grad_norm": 0.9801434809885438,
      "learning_rate": 8.539879534697436e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.79878830909729,
      "num_tokens": 3604480.0,
      "step": 2555
    },
    {
      "epoch": 0.337827121332276,
      "grad_norm": 0.8438828477932089,
      "learning_rate": 8.538348324360846e-06,
      "loss": 0.5439,
      "mean_token_accuracy": 0.821633517742157,
      "num_tokens": 3670016.0,
      "step": 2556
    },
    {
      "epoch": 0.337959291567539,
      "grad_norm": 0.8680684318458061,
      "learning_rate": 8.536816467223336e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8122787475585938,
      "num_tokens": 3735552.0,
      "step": 2557
    },
    {
      "epoch": 0.33809146180280203,
      "grad_norm": 0.9400367596996524,
      "learning_rate": 8.535283963611003e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8098523020744324,
      "num_tokens": 3801088.0,
      "step": 2558
    },
    {
      "epoch": 0.33822363203806505,
      "grad_norm": 0.919680285121244,
      "learning_rate": 8.533750813850087e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 3866624.0,
      "step": 2559
    },
    {
      "epoch": 0.33835580227332807,
      "grad_norm": 0.9453790677787148,
      "learning_rate": 8.532217018266963e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.7999175786972046,
      "num_tokens": 3932160.0,
      "step": 2560
    },
    {
      "epoch": 0.3384879725085911,
      "grad_norm": 0.8759131974990597,
      "learning_rate": 8.530682577188144e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.7985441088676453,
      "num_tokens": 3997696.0,
      "step": 2561
    },
    {
      "epoch": 0.3386201427438541,
      "grad_norm": 0.9050247128733986,
      "learning_rate": 8.52914749094028e-06,
      "loss": 0.628,
      "mean_token_accuracy": 0.7945153117179871,
      "num_tokens": 4063232.0,
      "step": 2562
    },
    {
      "epoch": 0.3387523129791171,
      "grad_norm": 0.9844801766343543,
      "learning_rate": 8.527611759850158e-06,
      "loss": 0.6145,
      "mean_token_accuracy": 0.8007721900939941,
      "num_tokens": 4128768.0,
      "step": 2563
    },
    {
      "epoch": 0.33888448321438014,
      "grad_norm": 0.8581068809904097,
      "learning_rate": 8.526075384244707e-06,
      "loss": 0.5894,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 4194304.0,
      "step": 2564
    },
    {
      "epoch": 0.33901665344964316,
      "grad_norm": 0.8763895919617987,
      "learning_rate": 8.524538364450984e-06,
      "loss": 0.5773,
      "mean_token_accuracy": 0.8125381469726562,
      "num_tokens": 4259840.0,
      "step": 2565
    },
    {
      "epoch": 0.3391488236849062,
      "grad_norm": 0.9248688057629052,
      "learning_rate": 8.523000700796193e-06,
      "loss": 0.6567,
      "mean_token_accuracy": 0.7843974828720093,
      "num_tokens": 4325376.0,
      "step": 2566
    },
    {
      "epoch": 0.3392809939201692,
      "grad_norm": 0.9239042893418359,
      "learning_rate": 8.52146239360767e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8049688935279846,
      "num_tokens": 4390912.0,
      "step": 2567
    },
    {
      "epoch": 0.3394131641554322,
      "grad_norm": 0.945357268270459,
      "learning_rate": 8.519923443212882e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7900744676589966,
      "num_tokens": 4456448.0,
      "step": 2568
    },
    {
      "epoch": 0.33954533439069523,
      "grad_norm": 0.9331970375665739,
      "learning_rate": 8.518383849939447e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7948205471038818,
      "num_tokens": 4521984.0,
      "step": 2569
    },
    {
      "epoch": 0.33967750462595825,
      "grad_norm": 0.8679908362617621,
      "learning_rate": 8.516843614115111e-06,
      "loss": 0.6138,
      "mean_token_accuracy": 0.79884934425354,
      "num_tokens": 4587520.0,
      "step": 2570
    },
    {
      "epoch": 0.33980967486122127,
      "grad_norm": 0.9812539350795672,
      "learning_rate": 8.515302736067755e-06,
      "loss": 0.6363,
      "mean_token_accuracy": 0.7916463017463684,
      "num_tokens": 4653056.0,
      "step": 2571
    },
    {
      "epoch": 0.3399418450964843,
      "grad_norm": 0.9121191170857811,
      "learning_rate": 8.513761216125403e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.8035343885421753,
      "num_tokens": 4718592.0,
      "step": 2572
    },
    {
      "epoch": 0.3400740153317473,
      "grad_norm": 1.0808678715634603,
      "learning_rate": 8.51221905461621e-06,
      "loss": 0.6186,
      "mean_token_accuracy": 0.797857403755188,
      "num_tokens": 4784128.0,
      "step": 2573
    },
    {
      "epoch": 0.3402061855670103,
      "grad_norm": 1.073150148116403,
      "learning_rate": 8.51067625186847e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.8007874488830566,
      "num_tokens": 4849664.0,
      "step": 2574
    },
    {
      "epoch": 0.34033835580227334,
      "grad_norm": 0.9200140503978027,
      "learning_rate": 8.509132808210616e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.8012300133705139,
      "num_tokens": 4915200.0,
      "step": 2575
    },
    {
      "epoch": 0.34047052603753636,
      "grad_norm": 0.8490112091153091,
      "learning_rate": 8.507588723971213e-06,
      "loss": 0.5848,
      "mean_token_accuracy": 0.8087687492370605,
      "num_tokens": 4980736.0,
      "step": 2576
    },
    {
      "epoch": 0.3406026962727994,
      "grad_norm": 0.8865278716369352,
      "learning_rate": 8.506043999478963e-06,
      "loss": 0.5645,
      "mean_token_accuracy": 0.8143084049224854,
      "num_tokens": 5046272.0,
      "step": 2577
    },
    {
      "epoch": 0.3407348665080624,
      "grad_norm": 0.9511436109757307,
      "learning_rate": 8.504498635062707e-06,
      "loss": 0.6802,
      "mean_token_accuracy": 0.7770876288414001,
      "num_tokens": 5111808.0,
      "step": 2578
    },
    {
      "epoch": 0.3408670367433254,
      "grad_norm": 0.8918167692387188,
      "learning_rate": 8.502952631051425e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.806525468826294,
      "num_tokens": 5177344.0,
      "step": 2579
    },
    {
      "epoch": 0.34099920697858843,
      "grad_norm": 0.9390629603274221,
      "learning_rate": 8.501405987774222e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8063880801200867,
      "num_tokens": 5242880.0,
      "step": 2580
    },
    {
      "epoch": 0.34113137721385145,
      "grad_norm": 0.9028995027140456,
      "learning_rate": 8.49985870556035e-06,
      "loss": 0.5623,
      "mean_token_accuracy": 0.8157429099082947,
      "num_tokens": 5308416.0,
      "step": 2581
    },
    {
      "epoch": 0.34126354744911447,
      "grad_norm": 0.8223076375578332,
      "learning_rate": 8.498310784739192e-06,
      "loss": 0.6052,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 5373952.0,
      "step": 2582
    },
    {
      "epoch": 0.3413957176843775,
      "grad_norm": 1.0021514295411542,
      "learning_rate": 8.496762225640267e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.7985441088676453,
      "num_tokens": 5439488.0,
      "step": 2583
    },
    {
      "epoch": 0.3415278879196405,
      "grad_norm": 0.9484837172717233,
      "learning_rate": 8.495213028593232e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 5505024.0,
      "step": 2584
    },
    {
      "epoch": 0.3416600581549035,
      "grad_norm": 0.9087395899757372,
      "learning_rate": 8.493663193927878e-06,
      "loss": 0.5681,
      "mean_token_accuracy": 0.8148577809333801,
      "num_tokens": 5570560.0,
      "step": 2585
    },
    {
      "epoch": 0.34179222839016654,
      "grad_norm": 0.8693947364104772,
      "learning_rate": 8.492112721974136e-06,
      "loss": 0.5348,
      "mean_token_accuracy": 0.82615065574646,
      "num_tokens": 5636096.0,
      "step": 2586
    },
    {
      "epoch": 0.34192439862542956,
      "grad_norm": 0.8994116053313308,
      "learning_rate": 8.490561613062064e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 5701632.0,
      "step": 2587
    },
    {
      "epoch": 0.3420565688606926,
      "grad_norm": 0.8715868389507313,
      "learning_rate": 8.489009867521865e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 5767168.0,
      "step": 2588
    },
    {
      "epoch": 0.3421887390959556,
      "grad_norm": 0.8921604716543382,
      "learning_rate": 8.487457485683871e-06,
      "loss": 0.6307,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 5832704.0,
      "step": 2589
    },
    {
      "epoch": 0.3423209093312186,
      "grad_norm": 0.9023547585270546,
      "learning_rate": 8.485904467878549e-06,
      "loss": 0.6318,
      "mean_token_accuracy": 0.7916615605354309,
      "num_tokens": 5898240.0,
      "step": 2590
    },
    {
      "epoch": 0.34245307956648163,
      "grad_norm": 0.9259969030439005,
      "learning_rate": 8.48435081443651e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7949731349945068,
      "num_tokens": 5963776.0,
      "step": 2591
    },
    {
      "epoch": 0.34258524980174465,
      "grad_norm": 0.8869874546691676,
      "learning_rate": 8.48279652568849e-06,
      "loss": 0.6085,
      "mean_token_accuracy": 0.7998107671737671,
      "num_tokens": 6029312.0,
      "step": 2592
    },
    {
      "epoch": 0.34271742003700767,
      "grad_norm": 0.876232385992557,
      "learning_rate": 8.481241601965367e-06,
      "loss": 0.623,
      "mean_token_accuracy": 0.7992156147956848,
      "num_tokens": 6094848.0,
      "step": 2593
    },
    {
      "epoch": 0.3428495902722707,
      "grad_norm": 0.9253752569508531,
      "learning_rate": 8.47968604359815e-06,
      "loss": 0.6195,
      "mean_token_accuracy": 0.797826886177063,
      "num_tokens": 6160384.0,
      "step": 2594
    },
    {
      "epoch": 0.3429817605075337,
      "grad_norm": 0.8679588611065133,
      "learning_rate": 8.478129850917986e-06,
      "loss": 0.6564,
      "mean_token_accuracy": 0.7841686010360718,
      "num_tokens": 6225920.0,
      "step": 2595
    },
    {
      "epoch": 0.3431139307427967,
      "grad_norm": 0.8801550003118228,
      "learning_rate": 8.476573024256156e-06,
      "loss": 0.6107,
      "mean_token_accuracy": 0.7981473803520203,
      "num_tokens": 6291456.0,
      "step": 2596
    },
    {
      "epoch": 0.34324610097805974,
      "grad_norm": 0.898979549875201,
      "learning_rate": 8.475015563944074e-06,
      "loss": 0.6199,
      "mean_token_accuracy": 0.7964686751365662,
      "num_tokens": 6356992.0,
      "step": 2597
    },
    {
      "epoch": 0.34337827121332276,
      "grad_norm": 0.9098761028440198,
      "learning_rate": 8.473457470313294e-06,
      "loss": 0.5803,
      "mean_token_accuracy": 0.8093334436416626,
      "num_tokens": 6422528.0,
      "step": 2598
    },
    {
      "epoch": 0.3435104414485858,
      "grad_norm": 0.8778103162161616,
      "learning_rate": 8.471898743695499e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.8017336130142212,
      "num_tokens": 6488064.0,
      "step": 2599
    },
    {
      "epoch": 0.3436426116838488,
      "grad_norm": 0.9395499629916776,
      "learning_rate": 8.47033938442251e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.7983610033988953,
      "num_tokens": 6553600.0,
      "step": 2600
    },
    {
      "epoch": 0.3437747819191118,
      "grad_norm": 0.9527378360984219,
      "learning_rate": 8.468779392826283e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7892351150512695,
      "num_tokens": 6619136.0,
      "step": 2601
    },
    {
      "epoch": 0.34390695215437483,
      "grad_norm": 0.8655789860988728,
      "learning_rate": 8.467218769238907e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8028628826141357,
      "num_tokens": 6684672.0,
      "step": 2602
    },
    {
      "epoch": 0.34403912238963785,
      "grad_norm": 0.8898249116967958,
      "learning_rate": 8.465657513992604e-06,
      "loss": 0.5598,
      "mean_token_accuracy": 0.8191918134689331,
      "num_tokens": 6750208.0,
      "step": 2603
    },
    {
      "epoch": 0.34417129262490087,
      "grad_norm": 0.9691506278501141,
      "learning_rate": 8.464095627419737e-06,
      "loss": 0.6388,
      "mean_token_accuracy": 0.7916463017463684,
      "num_tokens": 6815744.0,
      "step": 2604
    },
    {
      "epoch": 0.3443034628601639,
      "grad_norm": 0.9532931177865578,
      "learning_rate": 8.462533109852797e-06,
      "loss": 0.6693,
      "mean_token_accuracy": 0.7811164855957031,
      "num_tokens": 6881280.0,
      "step": 2605
    },
    {
      "epoch": 0.3444356330954269,
      "grad_norm": 0.8804862889491312,
      "learning_rate": 8.46096996162441e-06,
      "loss": 0.6398,
      "mean_token_accuracy": 0.7903491854667664,
      "num_tokens": 6946816.0,
      "step": 2606
    },
    {
      "epoch": 0.3445678033306899,
      "grad_norm": 0.8597445105107968,
      "learning_rate": 8.45940618306734e-06,
      "loss": 0.6433,
      "mean_token_accuracy": 0.789189338684082,
      "num_tokens": 7012352.0,
      "step": 2607
    },
    {
      "epoch": 0.34469997356595294,
      "grad_norm": 0.8550717765690822,
      "learning_rate": 8.457841774514482e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 7077888.0,
      "step": 2608
    },
    {
      "epoch": 0.34483214380121596,
      "grad_norm": 0.8249283312186265,
      "learning_rate": 8.456276736298861e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 7143424.0,
      "step": 2609
    },
    {
      "epoch": 0.344964314036479,
      "grad_norm": 0.8469367780500178,
      "learning_rate": 8.45471106875365e-06,
      "loss": 0.613,
      "mean_token_accuracy": 0.7991393208503723,
      "num_tokens": 7208960.0,
      "step": 2610
    },
    {
      "epoch": 0.345096484271742,
      "grad_norm": 0.9503187288115993,
      "learning_rate": 8.453144772212143e-06,
      "loss": 0.6321,
      "mean_token_accuracy": 0.7960108518600464,
      "num_tokens": 7274496.0,
      "step": 2611
    },
    {
      "epoch": 0.345228654507005,
      "grad_norm": 0.8193712651569655,
      "learning_rate": 8.451577847007768e-06,
      "loss": 0.5788,
      "mean_token_accuracy": 0.8125839233398438,
      "num_tokens": 7340032.0,
      "step": 2612
    },
    {
      "epoch": 0.34536082474226804,
      "grad_norm": 0.9493837545188833,
      "learning_rate": 8.450010293474097e-06,
      "loss": 0.6668,
      "mean_token_accuracy": 0.7842448949813843,
      "num_tokens": 7405568.0,
      "step": 2613
    },
    {
      "epoch": 0.34549299497753105,
      "grad_norm": 0.9767074856182781,
      "learning_rate": 8.448442111944823e-06,
      "loss": 0.6451,
      "mean_token_accuracy": 0.7897539734840393,
      "num_tokens": 7471104.0,
      "step": 2614
    },
    {
      "epoch": 0.34562516521279407,
      "grad_norm": 0.8956163852289335,
      "learning_rate": 8.446873302753783e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.803274929523468,
      "num_tokens": 7536640.0,
      "step": 2615
    },
    {
      "epoch": 0.3457573354480571,
      "grad_norm": 0.8710934169733913,
      "learning_rate": 8.445303866234944e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 7602176.0,
      "step": 2616
    },
    {
      "epoch": 0.3458895056833201,
      "grad_norm": 0.988924113847472,
      "learning_rate": 8.443733802722406e-06,
      "loss": 0.6624,
      "mean_token_accuracy": 0.7872664928436279,
      "num_tokens": 7667712.0,
      "step": 2617
    },
    {
      "epoch": 0.3460216759185831,
      "grad_norm": 0.871252795212821,
      "learning_rate": 8.442163112550401e-06,
      "loss": 0.672,
      "mean_token_accuracy": 0.7816353440284729,
      "num_tokens": 7733248.0,
      "step": 2618
    },
    {
      "epoch": 0.34615384615384615,
      "grad_norm": 0.8530485316534514,
      "learning_rate": 8.440591796053299e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8052740693092346,
      "num_tokens": 7798784.0,
      "step": 2619
    },
    {
      "epoch": 0.34628601638910916,
      "grad_norm": 0.9148438520230256,
      "learning_rate": 8.439019853565598e-06,
      "loss": 0.6734,
      "mean_token_accuracy": 0.7801855802536011,
      "num_tokens": 7864320.0,
      "step": 2620
    },
    {
      "epoch": 0.3464181866243722,
      "grad_norm": 0.8757258597380174,
      "learning_rate": 8.437447285421931e-06,
      "loss": 0.6427,
      "mean_token_accuracy": 0.7894793152809143,
      "num_tokens": 7929856.0,
      "step": 2621
    },
    {
      "epoch": 0.3465503568596352,
      "grad_norm": 0.8934561763508148,
      "learning_rate": 8.435874091957067e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 7995392.0,
      "step": 2622
    },
    {
      "epoch": 0.3466825270948982,
      "grad_norm": 1.0480098668627473,
      "learning_rate": 8.434300273505907e-06,
      "loss": 0.6552,
      "mean_token_accuracy": 0.7823373079299927,
      "num_tokens": 8060928.0,
      "step": 2623
    },
    {
      "epoch": 0.34681469733016124,
      "grad_norm": 0.8595023485632383,
      "learning_rate": 8.432725830403481e-06,
      "loss": 0.619,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 8126464.0,
      "step": 2624
    },
    {
      "epoch": 0.34694686756542426,
      "grad_norm": 0.7907233201130566,
      "learning_rate": 8.431150762984958e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.817268967628479,
      "num_tokens": 8192000.0,
      "step": 2625
    },
    {
      "epoch": 0.3470790378006873,
      "grad_norm": 0.9035914050355538,
      "learning_rate": 8.429575071585634e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8053198456764221,
      "num_tokens": 8257536.0,
      "step": 2626
    },
    {
      "epoch": 0.3472112080359503,
      "grad_norm": 0.9152757150882904,
      "learning_rate": 8.427998756540942e-06,
      "loss": 0.6288,
      "mean_token_accuracy": 0.7939201593399048,
      "num_tokens": 8323072.0,
      "step": 2627
    },
    {
      "epoch": 0.3473433782712133,
      "grad_norm": 1.0250101738785335,
      "learning_rate": 8.42642181818645e-06,
      "loss": 0.6542,
      "mean_token_accuracy": 0.7845653891563416,
      "num_tokens": 8388608.0,
      "step": 2628
    },
    {
      "epoch": 0.34747554850647633,
      "grad_norm": 0.9336447921162287,
      "learning_rate": 8.424844256857849e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.8000854849815369,
      "num_tokens": 8454144.0,
      "step": 2629
    },
    {
      "epoch": 0.34760771874173935,
      "grad_norm": 0.9662100846411303,
      "learning_rate": 8.423266072890973e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7969417572021484,
      "num_tokens": 8519680.0,
      "step": 2630
    },
    {
      "epoch": 0.34773988897700236,
      "grad_norm": 0.9656465953724489,
      "learning_rate": 8.421687266621786e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8069375157356262,
      "num_tokens": 8585216.0,
      "step": 2631
    },
    {
      "epoch": 0.3478720592122654,
      "grad_norm": 0.9247389868612381,
      "learning_rate": 8.420107838386377e-06,
      "loss": 0.6004,
      "mean_token_accuracy": 0.8015810251235962,
      "num_tokens": 8650752.0,
      "step": 2632
    },
    {
      "epoch": 0.3480042294475284,
      "grad_norm": 0.8519821084784897,
      "learning_rate": 8.418527788520976e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7913411259651184,
      "num_tokens": 8716288.0,
      "step": 2633
    },
    {
      "epoch": 0.3481363996827914,
      "grad_norm": 0.8202436773685877,
      "learning_rate": 8.416947117361947e-06,
      "loss": 0.6489,
      "mean_token_accuracy": 0.7870376110076904,
      "num_tokens": 8781824.0,
      "step": 2634
    },
    {
      "epoch": 0.34826856991805444,
      "grad_norm": 0.949671729250387,
      "learning_rate": 8.415365825245774e-06,
      "loss": 0.6555,
      "mean_token_accuracy": 0.7859541177749634,
      "num_tokens": 8847360.0,
      "step": 2635
    },
    {
      "epoch": 0.34840074015331746,
      "grad_norm": 0.9298275325110751,
      "learning_rate": 8.41378391250909e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8094097375869751,
      "num_tokens": 8912896.0,
      "step": 2636
    },
    {
      "epoch": 0.3485329103885805,
      "grad_norm": 0.8717403004459024,
      "learning_rate": 8.412201379488643e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 8978432.0,
      "step": 2637
    },
    {
      "epoch": 0.3486650806238435,
      "grad_norm": 0.835654594971432,
      "learning_rate": 8.410618226521326e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 9043968.0,
      "step": 2638
    },
    {
      "epoch": 0.3487972508591065,
      "grad_norm": 0.8547107431895566,
      "learning_rate": 8.409034453944159e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.812248170375824,
      "num_tokens": 9109504.0,
      "step": 2639
    },
    {
      "epoch": 0.34892942109436953,
      "grad_norm": 0.8074560199861953,
      "learning_rate": 8.40745006209429e-06,
      "loss": 0.5669,
      "mean_token_accuracy": 0.8134537935256958,
      "num_tokens": 9175040.0,
      "step": 2640
    },
    {
      "epoch": 0.34906159132963255,
      "grad_norm": 0.9142081332880966,
      "learning_rate": 8.405865051309008e-06,
      "loss": 0.6786,
      "mean_token_accuracy": 0.7777438759803772,
      "num_tokens": 9240576.0,
      "step": 2641
    },
    {
      "epoch": 0.34919376156489557,
      "grad_norm": 0.9573420767358094,
      "learning_rate": 8.404279421925726e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.802435576915741,
      "num_tokens": 9306112.0,
      "step": 2642
    },
    {
      "epoch": 0.3493259318001586,
      "grad_norm": 0.9250558896205844,
      "learning_rate": 8.402693174281992e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8019930124282837,
      "num_tokens": 9371648.0,
      "step": 2643
    },
    {
      "epoch": 0.3494581020354216,
      "grad_norm": 0.8293696805599702,
      "learning_rate": 8.401106308715486e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.7965754866600037,
      "num_tokens": 9437184.0,
      "step": 2644
    },
    {
      "epoch": 0.3495902722706846,
      "grad_norm": 0.9344298140941584,
      "learning_rate": 8.399518825564017e-06,
      "loss": 0.6584,
      "mean_token_accuracy": 0.783893883228302,
      "num_tokens": 9502720.0,
      "step": 2645
    },
    {
      "epoch": 0.34972244250594764,
      "grad_norm": 0.9784391872748965,
      "learning_rate": 8.397930725165528e-06,
      "loss": 0.6638,
      "mean_token_accuracy": 0.784489095211029,
      "num_tokens": 9568256.0,
      "step": 2646
    },
    {
      "epoch": 0.34985461274121066,
      "grad_norm": 0.8734148966468284,
      "learning_rate": 8.396342007858092e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8020541071891785,
      "num_tokens": 9633792.0,
      "step": 2647
    },
    {
      "epoch": 0.3499867829764737,
      "grad_norm": 0.8196858689534208,
      "learning_rate": 8.394752673979913e-06,
      "loss": 0.6108,
      "mean_token_accuracy": 0.7978421449661255,
      "num_tokens": 9699328.0,
      "step": 2648
    },
    {
      "epoch": 0.3501189532117367,
      "grad_norm": 0.8546856247602161,
      "learning_rate": 8.393162723869328e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 9764864.0,
      "step": 2649
    },
    {
      "epoch": 0.3502511234469997,
      "grad_norm": 0.8002354330435868,
      "learning_rate": 8.391572157864803e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 9830400.0,
      "step": 2650
    },
    {
      "epoch": 0.35038329368226273,
      "grad_norm": 0.885816471026802,
      "learning_rate": 8.38998097630494e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.8043889403343201,
      "num_tokens": 9895936.0,
      "step": 2651
    },
    {
      "epoch": 0.35051546391752575,
      "grad_norm": 0.9089881800967381,
      "learning_rate": 8.388389179528463e-06,
      "loss": 0.6326,
      "mean_token_accuracy": 0.7956445813179016,
      "num_tokens": 9961472.0,
      "step": 2652
    },
    {
      "epoch": 0.35064763415278877,
      "grad_norm": 0.9494995389146966,
      "learning_rate": 8.386796767874237e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7963313460350037,
      "num_tokens": 10027008.0,
      "step": 2653
    },
    {
      "epoch": 0.3507798043880518,
      "grad_norm": 0.9510254682027826,
      "learning_rate": 8.38520374168125e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.7957209348678589,
      "num_tokens": 10092544.0,
      "step": 2654
    },
    {
      "epoch": 0.3509119746233148,
      "grad_norm": 0.9288212613708847,
      "learning_rate": 8.383610101288625e-06,
      "loss": 0.623,
      "mean_token_accuracy": 0.7927298545837402,
      "num_tokens": 10158080.0,
      "step": 2655
    },
    {
      "epoch": 0.3510441448585778,
      "grad_norm": 0.8560193170448361,
      "learning_rate": 8.382015847035615e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7968807220458984,
      "num_tokens": 10223616.0,
      "step": 2656
    },
    {
      "epoch": 0.35117631509384084,
      "grad_norm": 0.944752863252182,
      "learning_rate": 8.380420979261604e-06,
      "loss": 0.6161,
      "mean_token_accuracy": 0.7982694506645203,
      "num_tokens": 10289152.0,
      "step": 2657
    },
    {
      "epoch": 0.35130848532910386,
      "grad_norm": 0.9495249258083326,
      "learning_rate": 8.378825498306103e-06,
      "loss": 0.6404,
      "mean_token_accuracy": 0.7914937138557434,
      "num_tokens": 10354688.0,
      "step": 2658
    },
    {
      "epoch": 0.3514406555643669,
      "grad_norm": 0.9182526354693824,
      "learning_rate": 8.377229404508762e-06,
      "loss": 0.6483,
      "mean_token_accuracy": 0.788884162902832,
      "num_tokens": 10420224.0,
      "step": 2659
    },
    {
      "epoch": 0.35157282579962995,
      "grad_norm": 0.9098962562690277,
      "learning_rate": 8.375632698209352e-06,
      "loss": 0.6433,
      "mean_token_accuracy": 0.7893267273902893,
      "num_tokens": 10485760.0,
      "step": 2660
    },
    {
      "epoch": 0.35170499603489297,
      "grad_norm": 0.8536554761760546,
      "learning_rate": 8.37403537974778e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.7990935444831848,
      "num_tokens": 10551296.0,
      "step": 2661
    },
    {
      "epoch": 0.351837166270156,
      "grad_norm": 0.7497162617842362,
      "learning_rate": 8.372437449464079e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.8198174834251404,
      "num_tokens": 10616832.0,
      "step": 2662
    },
    {
      "epoch": 0.351969336505419,
      "grad_norm": 0.9694851257114392,
      "learning_rate": 8.37083890769842e-06,
      "loss": 0.6557,
      "mean_token_accuracy": 0.7895708680152893,
      "num_tokens": 10682368.0,
      "step": 2663
    },
    {
      "epoch": 0.352101506740682,
      "grad_norm": 0.8915301975915826,
      "learning_rate": 8.369239754791093e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8046331405639648,
      "num_tokens": 10747904.0,
      "step": 2664
    },
    {
      "epoch": 0.35223367697594504,
      "grad_norm": 0.8114331180912357,
      "learning_rate": 8.36763999108253e-06,
      "loss": 0.607,
      "mean_token_accuracy": 0.8039922118186951,
      "num_tokens": 10813440.0,
      "step": 2665
    },
    {
      "epoch": 0.35236584721120806,
      "grad_norm": 0.8674676842317048,
      "learning_rate": 8.366039616913285e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.8013215661048889,
      "num_tokens": 10878976.0,
      "step": 2666
    },
    {
      "epoch": 0.3524980174464711,
      "grad_norm": 0.8739506824354327,
      "learning_rate": 8.364438632624042e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8047399520874023,
      "num_tokens": 10944512.0,
      "step": 2667
    },
    {
      "epoch": 0.3526301876817341,
      "grad_norm": 0.8784413448008422,
      "learning_rate": 8.362837038555624e-06,
      "loss": 0.5785,
      "mean_token_accuracy": 0.8109205365180969,
      "num_tokens": 11010048.0,
      "step": 2668
    },
    {
      "epoch": 0.3527623579169971,
      "grad_norm": 0.9324655363599806,
      "learning_rate": 8.361234835048968e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7864424586296082,
      "num_tokens": 11075584.0,
      "step": 2669
    },
    {
      "epoch": 0.35289452815226013,
      "grad_norm": 0.9349226938902092,
      "learning_rate": 8.359632022445155e-06,
      "loss": 0.6175,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 11141120.0,
      "step": 2670
    },
    {
      "epoch": 0.35302669838752315,
      "grad_norm": 0.9461072758366249,
      "learning_rate": 8.35802860108539e-06,
      "loss": 0.6204,
      "mean_token_accuracy": 0.7962550520896912,
      "num_tokens": 11206656.0,
      "step": 2671
    },
    {
      "epoch": 0.35315886862278617,
      "grad_norm": 0.9588276222343258,
      "learning_rate": 8.356424571311005e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7985441088676453,
      "num_tokens": 11272192.0,
      "step": 2672
    },
    {
      "epoch": 0.3532910388580492,
      "grad_norm": 1.0117969710858976,
      "learning_rate": 8.354819933463468e-06,
      "loss": 0.6575,
      "mean_token_accuracy": 0.7877700924873352,
      "num_tokens": 11337728.0,
      "step": 2673
    },
    {
      "epoch": 0.3534232090933122,
      "grad_norm": 0.8943398386459634,
      "learning_rate": 8.353214687884372e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.7871291637420654,
      "num_tokens": 11403264.0,
      "step": 2674
    },
    {
      "epoch": 0.3535553793285752,
      "grad_norm": 0.8308424399191598,
      "learning_rate": 8.35160883491544e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 11468800.0,
      "step": 2675
    },
    {
      "epoch": 0.35368754956383824,
      "grad_norm": 0.941541808935706,
      "learning_rate": 8.350002374898522e-06,
      "loss": 0.6318,
      "mean_token_accuracy": 0.7926992774009705,
      "num_tokens": 11534336.0,
      "step": 2676
    },
    {
      "epoch": 0.35381971979910126,
      "grad_norm": 0.9425356145886276,
      "learning_rate": 8.348395308175605e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 11599872.0,
      "step": 2677
    },
    {
      "epoch": 0.3539518900343643,
      "grad_norm": 0.9471909373338293,
      "learning_rate": 8.346787635088796e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.7943627238273621,
      "num_tokens": 11665408.0,
      "step": 2678
    },
    {
      "epoch": 0.3540840602696273,
      "grad_norm": 0.9101691392459081,
      "learning_rate": 8.345179355980335e-06,
      "loss": 0.5916,
      "mean_token_accuracy": 0.8049841523170471,
      "num_tokens": 11730944.0,
      "step": 2679
    },
    {
      "epoch": 0.3542162305048903,
      "grad_norm": 0.9098051320131191,
      "learning_rate": 8.343570471192594e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.7883042097091675,
      "num_tokens": 11796480.0,
      "step": 2680
    },
    {
      "epoch": 0.35434840074015334,
      "grad_norm": 0.9618849832917813,
      "learning_rate": 8.341960981068069e-06,
      "loss": 0.6373,
      "mean_token_accuracy": 0.7937675714492798,
      "num_tokens": 11862016.0,
      "step": 2681
    },
    {
      "epoch": 0.35448057097541635,
      "grad_norm": 0.8910077969744956,
      "learning_rate": 8.340350885949387e-06,
      "loss": 0.5739,
      "mean_token_accuracy": 0.8126602172851562,
      "num_tokens": 11927552.0,
      "step": 2682
    },
    {
      "epoch": 0.35461274121067937,
      "grad_norm": 0.8410944010709256,
      "learning_rate": 8.338740186179302e-06,
      "loss": 0.6044,
      "mean_token_accuracy": 0.802069365978241,
      "num_tokens": 11993088.0,
      "step": 2683
    },
    {
      "epoch": 0.3547449114459424,
      "grad_norm": 0.8567962001663033,
      "learning_rate": 8.337128882100701e-06,
      "loss": 0.6129,
      "mean_token_accuracy": 0.7965144515037537,
      "num_tokens": 12058624.0,
      "step": 2684
    },
    {
      "epoch": 0.3548770816812054,
      "grad_norm": 0.9045343600363934,
      "learning_rate": 8.335516974056595e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.7939201593399048,
      "num_tokens": 12124160.0,
      "step": 2685
    },
    {
      "epoch": 0.3550092519164684,
      "grad_norm": 0.8332860584880486,
      "learning_rate": 8.333904462390128e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.7982541918754578,
      "num_tokens": 12189696.0,
      "step": 2686
    },
    {
      "epoch": 0.35514142215173145,
      "grad_norm": 0.8284171821040719,
      "learning_rate": 8.332291347444569e-06,
      "loss": 0.5322,
      "mean_token_accuracy": 0.8239836692810059,
      "num_tokens": 12255232.0,
      "step": 2687
    },
    {
      "epoch": 0.35527359238699446,
      "grad_norm": 0.9211894916566266,
      "learning_rate": 8.330677629563315e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8036717176437378,
      "num_tokens": 12320768.0,
      "step": 2688
    },
    {
      "epoch": 0.3554057626222575,
      "grad_norm": 0.8761895039556823,
      "learning_rate": 8.329063309089895e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.8008790016174316,
      "num_tokens": 12386304.0,
      "step": 2689
    },
    {
      "epoch": 0.3555379328575205,
      "grad_norm": 0.8491968266179418,
      "learning_rate": 8.32744838636796e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.8023898005485535,
      "num_tokens": 12451840.0,
      "step": 2690
    },
    {
      "epoch": 0.3556701030927835,
      "grad_norm": 0.9555489819859084,
      "learning_rate": 8.3258328617413e-06,
      "loss": 0.6469,
      "mean_token_accuracy": 0.78789222240448,
      "num_tokens": 12517376.0,
      "step": 2691
    },
    {
      "epoch": 0.35580227332804654,
      "grad_norm": 0.8522953997634031,
      "learning_rate": 8.324216735553822e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8044958114624023,
      "num_tokens": 12582912.0,
      "step": 2692
    },
    {
      "epoch": 0.35593444356330955,
      "grad_norm": 0.8883676279311865,
      "learning_rate": 8.322600008149565e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.816582202911377,
      "num_tokens": 12648448.0,
      "step": 2693
    },
    {
      "epoch": 0.3560666137985726,
      "grad_norm": 1.0431489091261683,
      "learning_rate": 8.3209826798727e-06,
      "loss": 0.6404,
      "mean_token_accuracy": 0.7885484099388123,
      "num_tokens": 12713984.0,
      "step": 2694
    },
    {
      "epoch": 0.3561987840338356,
      "grad_norm": 0.9637204024687999,
      "learning_rate": 8.31936475106752e-06,
      "loss": 0.635,
      "mean_token_accuracy": 0.7940727472305298,
      "num_tokens": 12779520.0,
      "step": 2695
    },
    {
      "epoch": 0.3563309542690986,
      "grad_norm": 0.8956279803133322,
      "learning_rate": 8.317746222078448e-06,
      "loss": 0.5495,
      "mean_token_accuracy": 0.8212367296218872,
      "num_tokens": 12845056.0,
      "step": 2696
    },
    {
      "epoch": 0.35646312450436163,
      "grad_norm": 0.8309698701461341,
      "learning_rate": 8.316127093250035e-06,
      "loss": 0.5436,
      "mean_token_accuracy": 0.8234494924545288,
      "num_tokens": 12910592.0,
      "step": 2697
    },
    {
      "epoch": 0.35659529473962465,
      "grad_norm": 0.8376986140442753,
      "learning_rate": 8.314507364926961e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8006043434143066,
      "num_tokens": 12976128.0,
      "step": 2698
    },
    {
      "epoch": 0.35672746497488766,
      "grad_norm": 0.9184807611091096,
      "learning_rate": 8.31288703745403e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.8067543506622314,
      "num_tokens": 13041664.0,
      "step": 2699
    },
    {
      "epoch": 0.3568596352101507,
      "grad_norm": 0.9086673148144371,
      "learning_rate": 8.311266111176181e-06,
      "loss": 0.6193,
      "mean_token_accuracy": 0.7988951206207275,
      "num_tokens": 13107200.0,
      "step": 2700
    },
    {
      "epoch": 0.3569918054454137,
      "grad_norm": 0.8958444684037814,
      "learning_rate": 8.30964458643847e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.8001160025596619,
      "num_tokens": 13172736.0,
      "step": 2701
    },
    {
      "epoch": 0.3571239756806767,
      "grad_norm": 0.8482105739857645,
      "learning_rate": 8.308022463586086e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8072274327278137,
      "num_tokens": 13238272.0,
      "step": 2702
    },
    {
      "epoch": 0.35725614591593974,
      "grad_norm": 0.8975586651409192,
      "learning_rate": 8.30639974296435e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.8080820441246033,
      "num_tokens": 13303808.0,
      "step": 2703
    },
    {
      "epoch": 0.35738831615120276,
      "grad_norm": 0.9030741782629323,
      "learning_rate": 8.304776424918701e-06,
      "loss": 0.5588,
      "mean_token_accuracy": 0.8159412741661072,
      "num_tokens": 13369344.0,
      "step": 2704
    },
    {
      "epoch": 0.3575204863864658,
      "grad_norm": 0.8581322839800193,
      "learning_rate": 8.30315250979471e-06,
      "loss": 0.5981,
      "mean_token_accuracy": 0.8034886121749878,
      "num_tokens": 13434880.0,
      "step": 2705
    },
    {
      "epoch": 0.3576526566217288,
      "grad_norm": 0.9573135240285804,
      "learning_rate": 8.301527997938076e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.7841228246688843,
      "num_tokens": 13500416.0,
      "step": 2706
    },
    {
      "epoch": 0.3577848268569918,
      "grad_norm": 0.8672018857005329,
      "learning_rate": 8.299902889694623e-06,
      "loss": 0.599,
      "mean_token_accuracy": 0.802313506603241,
      "num_tokens": 13565952.0,
      "step": 2707
    },
    {
      "epoch": 0.35791699709225483,
      "grad_norm": 0.936468896572165,
      "learning_rate": 8.298277185410301e-06,
      "loss": 0.6528,
      "mean_token_accuracy": 0.7840770483016968,
      "num_tokens": 13631488.0,
      "step": 2708
    },
    {
      "epoch": 0.35804916732751785,
      "grad_norm": 0.8798101979443432,
      "learning_rate": 8.296650885431192e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7968349456787109,
      "num_tokens": 13697024.0,
      "step": 2709
    },
    {
      "epoch": 0.35818133756278087,
      "grad_norm": 0.7979526744980291,
      "learning_rate": 8.295023990103497e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.808387279510498,
      "num_tokens": 13762560.0,
      "step": 2710
    },
    {
      "epoch": 0.3583135077980439,
      "grad_norm": 0.8367361289592121,
      "learning_rate": 8.293396499773552e-06,
      "loss": 0.5701,
      "mean_token_accuracy": 0.8149188160896301,
      "num_tokens": 13828096.0,
      "step": 2711
    },
    {
      "epoch": 0.3584456780333069,
      "grad_norm": 0.9419330386127697,
      "learning_rate": 8.291768414787816e-06,
      "loss": 0.6316,
      "mean_token_accuracy": 0.7917531728744507,
      "num_tokens": 13893632.0,
      "step": 2712
    },
    {
      "epoch": 0.3585778482685699,
      "grad_norm": 0.8503303223071446,
      "learning_rate": 8.290139735492871e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8089824318885803,
      "num_tokens": 13959168.0,
      "step": 2713
    },
    {
      "epoch": 0.35871001850383294,
      "grad_norm": 0.9821489606288948,
      "learning_rate": 8.288510462235428e-06,
      "loss": 0.642,
      "mean_token_accuracy": 0.78813636302948,
      "num_tokens": 14024704.0,
      "step": 2714
    },
    {
      "epoch": 0.35884218873909596,
      "grad_norm": 0.9198778845201958,
      "learning_rate": 8.286880595362329e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7854200005531311,
      "num_tokens": 14090240.0,
      "step": 2715
    },
    {
      "epoch": 0.358974358974359,
      "grad_norm": 0.9220700216173483,
      "learning_rate": 8.285250135220538e-06,
      "loss": 0.6465,
      "mean_token_accuracy": 0.7894640564918518,
      "num_tokens": 14155776.0,
      "step": 2716
    },
    {
      "epoch": 0.359106529209622,
      "grad_norm": 0.8360597017423399,
      "learning_rate": 8.283619082157144e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.7993529438972473,
      "num_tokens": 14221312.0,
      "step": 2717
    },
    {
      "epoch": 0.359238699444885,
      "grad_norm": 0.8411495225198162,
      "learning_rate": 8.281987436519365e-06,
      "loss": 0.5284,
      "mean_token_accuracy": 0.8259522914886475,
      "num_tokens": 14286848.0,
      "step": 2718
    },
    {
      "epoch": 0.35937086968014803,
      "grad_norm": 1.0219927958184205,
      "learning_rate": 8.280355198654545e-06,
      "loss": 0.6253,
      "mean_token_accuracy": 0.7937523126602173,
      "num_tokens": 14352384.0,
      "step": 2719
    },
    {
      "epoch": 0.35950303991541105,
      "grad_norm": 0.9386624768897718,
      "learning_rate": 8.278722368910153e-06,
      "loss": 0.6489,
      "mean_token_accuracy": 0.7861067056655884,
      "num_tokens": 14417920.0,
      "step": 2720
    },
    {
      "epoch": 0.35963521015067407,
      "grad_norm": 0.9213040622240265,
      "learning_rate": 8.277088947633785e-06,
      "loss": 0.645,
      "mean_token_accuracy": 0.7894793152809143,
      "num_tokens": 14483456.0,
      "step": 2721
    },
    {
      "epoch": 0.3597673803859371,
      "grad_norm": 0.9500195398474733,
      "learning_rate": 8.27545493517316e-06,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7830240726470947,
      "num_tokens": 14548992.0,
      "step": 2722
    },
    {
      "epoch": 0.3598995506212001,
      "grad_norm": 0.8703825821764608,
      "learning_rate": 8.273820331876126e-06,
      "loss": 0.5671,
      "mean_token_accuracy": 0.8129807114601135,
      "num_tokens": 14614528.0,
      "step": 2723
    },
    {
      "epoch": 0.3600317208564631,
      "grad_norm": 0.9234225539873369,
      "learning_rate": 8.272185138090659e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.7990477085113525,
      "num_tokens": 14680064.0,
      "step": 2724
    },
    {
      "epoch": 0.36016389109172614,
      "grad_norm": 0.8566599010218665,
      "learning_rate": 8.270549354164854e-06,
      "loss": 0.5854,
      "mean_token_accuracy": 0.8077157735824585,
      "num_tokens": 14745600.0,
      "step": 2725
    },
    {
      "epoch": 0.36029606132698916,
      "grad_norm": 0.8990355512762397,
      "learning_rate": 8.268912980446936e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.8037022352218628,
      "num_tokens": 14811136.0,
      "step": 2726
    },
    {
      "epoch": 0.3604282315622522,
      "grad_norm": 0.9126001120751068,
      "learning_rate": 8.267276017285256e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.8009095191955566,
      "num_tokens": 14876672.0,
      "step": 2727
    },
    {
      "epoch": 0.3605604017975152,
      "grad_norm": 1.000427972735225,
      "learning_rate": 8.265638465028288e-06,
      "loss": 0.6248,
      "mean_token_accuracy": 0.792714536190033,
      "num_tokens": 14942208.0,
      "step": 2728
    },
    {
      "epoch": 0.3606925720327782,
      "grad_norm": 0.8607734579782829,
      "learning_rate": 8.264000324024633e-06,
      "loss": 0.5503,
      "mean_token_accuracy": 0.822900116443634,
      "num_tokens": 15007744.0,
      "step": 2729
    },
    {
      "epoch": 0.36082474226804123,
      "grad_norm": 0.930713914176461,
      "learning_rate": 8.262361594623017e-06,
      "loss": 0.6391,
      "mean_token_accuracy": 0.7919210195541382,
      "num_tokens": 15073280.0,
      "step": 2730
    },
    {
      "epoch": 0.36095691250330425,
      "grad_norm": 1.0341541517517139,
      "learning_rate": 8.260722277172291e-06,
      "loss": 0.644,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 15138816.0,
      "step": 2731
    },
    {
      "epoch": 0.36108908273856727,
      "grad_norm": 0.9220591115525232,
      "learning_rate": 8.259082372021434e-06,
      "loss": 0.6724,
      "mean_token_accuracy": 0.7813758850097656,
      "num_tokens": 15204352.0,
      "step": 2732
    },
    {
      "epoch": 0.3612212529738303,
      "grad_norm": 0.8178069567069007,
      "learning_rate": 8.257441879519543e-06,
      "loss": 0.6179,
      "mean_token_accuracy": 0.798009991645813,
      "num_tokens": 15269888.0,
      "step": 2733
    },
    {
      "epoch": 0.3613534232090933,
      "grad_norm": 0.889977305203193,
      "learning_rate": 8.255800800015849e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7917836904525757,
      "num_tokens": 15335424.0,
      "step": 2734
    },
    {
      "epoch": 0.3614855934443563,
      "grad_norm": 0.9708747465405112,
      "learning_rate": 8.2541591338597e-06,
      "loss": 0.5429,
      "mean_token_accuracy": 0.8218013644218445,
      "num_tokens": 15400960.0,
      "step": 2735
    },
    {
      "epoch": 0.36161776367961934,
      "grad_norm": 0.8831488496879324,
      "learning_rate": 8.252516881400575e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.812934935092926,
      "num_tokens": 15466496.0,
      "step": 2736
    },
    {
      "epoch": 0.36174993391488236,
      "grad_norm": 0.8881745422518049,
      "learning_rate": 8.250874042988076e-06,
      "loss": 0.5612,
      "mean_token_accuracy": 0.8153461217880249,
      "num_tokens": 15532032.0,
      "step": 2737
    },
    {
      "epoch": 0.3618821041501454,
      "grad_norm": 0.8590580912318085,
      "learning_rate": 8.249230618971926e-06,
      "loss": 0.558,
      "mean_token_accuracy": 0.8162922859191895,
      "num_tokens": 15597568.0,
      "step": 2738
    },
    {
      "epoch": 0.3620142743854084,
      "grad_norm": 0.8432001827996196,
      "learning_rate": 8.247586609701975e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.8121413588523865,
      "num_tokens": 15663104.0,
      "step": 2739
    },
    {
      "epoch": 0.3621464446206714,
      "grad_norm": 0.8866309089467941,
      "learning_rate": 8.245942015528203e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7991240620613098,
      "num_tokens": 15728640.0,
      "step": 2740
    },
    {
      "epoch": 0.36227861485593443,
      "grad_norm": 1.024184035588567,
      "learning_rate": 8.244296836800705e-06,
      "loss": 0.6493,
      "mean_token_accuracy": 0.78819739818573,
      "num_tokens": 15794176.0,
      "step": 2741
    },
    {
      "epoch": 0.36241078509119745,
      "grad_norm": 0.946616876960701,
      "learning_rate": 8.24265107386971e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.8010926842689514,
      "num_tokens": 15859712.0,
      "step": 2742
    },
    {
      "epoch": 0.36254295532646047,
      "grad_norm": 0.8685601020590473,
      "learning_rate": 8.24100472708556e-06,
      "loss": 0.6144,
      "mean_token_accuracy": 0.7981016039848328,
      "num_tokens": 15925248.0,
      "step": 2743
    },
    {
      "epoch": 0.3626751255617235,
      "grad_norm": 0.9543776848647352,
      "learning_rate": 8.239357796798735e-06,
      "loss": 0.6518,
      "mean_token_accuracy": 0.7868391871452332,
      "num_tokens": 15990784.0,
      "step": 2744
    },
    {
      "epoch": 0.3628072957969865,
      "grad_norm": 0.916266228483153,
      "learning_rate": 8.237710283359827e-06,
      "loss": 0.6044,
      "mean_token_accuracy": 0.803458034992218,
      "num_tokens": 16056320.0,
      "step": 2745
    },
    {
      "epoch": 0.3629394660322495,
      "grad_norm": 1.0069986202835939,
      "learning_rate": 8.23606218711956e-06,
      "loss": 0.6635,
      "mean_token_accuracy": 0.7816811203956604,
      "num_tokens": 16121856.0,
      "step": 2746
    },
    {
      "epoch": 0.36307163626751254,
      "grad_norm": 0.8769156823132666,
      "learning_rate": 8.234413508428778e-06,
      "loss": 0.6139,
      "mean_token_accuracy": 0.7998107671737671,
      "num_tokens": 16187392.0,
      "step": 2747
    },
    {
      "epoch": 0.36320380650277556,
      "grad_norm": 0.9207917839348541,
      "learning_rate": 8.232764247638451e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8089366555213928,
      "num_tokens": 16252928.0,
      "step": 2748
    },
    {
      "epoch": 0.3633359767380386,
      "grad_norm": 0.8989321758052644,
      "learning_rate": 8.23111440509967e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 16318464.0,
      "step": 2749
    },
    {
      "epoch": 0.3634681469733016,
      "grad_norm": 0.813278704706255,
      "learning_rate": 8.229463981163654e-06,
      "loss": 0.5494,
      "mean_token_accuracy": 0.8199090361595154,
      "num_tokens": 16384000.0,
      "step": 2750
    },
    {
      "epoch": 0.3636003172085646,
      "grad_norm": 0.8782083130861672,
      "learning_rate": 8.227812976181745e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7951257228851318,
      "num_tokens": 16449536.0,
      "step": 2751
    },
    {
      "epoch": 0.36373248744382763,
      "grad_norm": 1.0172112862399605,
      "learning_rate": 8.226161390505405e-06,
      "loss": 0.6297,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 16515072.0,
      "step": 2752
    },
    {
      "epoch": 0.36386465767909065,
      "grad_norm": 0.9624301134251244,
      "learning_rate": 8.224509224486222e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7917225956916809,
      "num_tokens": 16580608.0,
      "step": 2753
    },
    {
      "epoch": 0.36399682791435367,
      "grad_norm": 0.8671077879053571,
      "learning_rate": 8.22285647847591e-06,
      "loss": 0.6215,
      "mean_token_accuracy": 0.7938896417617798,
      "num_tokens": 16646144.0,
      "step": 2754
    },
    {
      "epoch": 0.3641289981496167,
      "grad_norm": 0.946065761357932,
      "learning_rate": 8.221203152826304e-06,
      "loss": 0.6365,
      "mean_token_accuracy": 0.7898761034011841,
      "num_tokens": 16711680.0,
      "step": 2755
    },
    {
      "epoch": 0.3642611683848797,
      "grad_norm": 0.9110685584695599,
      "learning_rate": 8.21954924788936e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 16777216.0,
      "step": 2756
    },
    {
      "epoch": 0.3643933386201427,
      "grad_norm": 0.8832636306517235,
      "learning_rate": 8.21789476401716e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8046331405639648,
      "num_tokens": 16842752.0,
      "step": 2757
    },
    {
      "epoch": 0.36452550885540574,
      "grad_norm": 0.9411754705158212,
      "learning_rate": 8.216239701561912e-06,
      "loss": 0.6691,
      "mean_token_accuracy": 0.7797124981880188,
      "num_tokens": 16908288.0,
      "step": 2758
    },
    {
      "epoch": 0.36465767909066876,
      "grad_norm": 0.9117104175971673,
      "learning_rate": 8.214584060875945e-06,
      "loss": 0.6206,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 16973824.0,
      "step": 2759
    },
    {
      "epoch": 0.3647898493259318,
      "grad_norm": 0.877324434846399,
      "learning_rate": 8.212927842311704e-06,
      "loss": 0.5928,
      "mean_token_accuracy": 0.8069527745246887,
      "num_tokens": 17039360.0,
      "step": 2760
    },
    {
      "epoch": 0.3649220195611948,
      "grad_norm": 1.0094695094236337,
      "learning_rate": 8.211271046221767e-06,
      "loss": 0.6771,
      "mean_token_accuracy": 0.7796514630317688,
      "num_tokens": 17104896.0,
      "step": 2761
    },
    {
      "epoch": 0.3650541897964578,
      "grad_norm": 0.882614128146067,
      "learning_rate": 8.209613672958834e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7959498167037964,
      "num_tokens": 17170432.0,
      "step": 2762
    },
    {
      "epoch": 0.36518636003172084,
      "grad_norm": 0.9680592685045242,
      "learning_rate": 8.207955722875722e-06,
      "loss": 0.6442,
      "mean_token_accuracy": 0.7861829996109009,
      "num_tokens": 17235968.0,
      "step": 2763
    },
    {
      "epoch": 0.36531853026698385,
      "grad_norm": 0.9478989796436131,
      "learning_rate": 8.206297196325374e-06,
      "loss": 0.6615,
      "mean_token_accuracy": 0.7819710373878479,
      "num_tokens": 17301504.0,
      "step": 2764
    },
    {
      "epoch": 0.3654507005022469,
      "grad_norm": 0.9041935535988185,
      "learning_rate": 8.204638093660858e-06,
      "loss": 0.6393,
      "mean_token_accuracy": 0.7893267273902893,
      "num_tokens": 17367040.0,
      "step": 2765
    },
    {
      "epoch": 0.3655828707375099,
      "grad_norm": 0.9869215219135187,
      "learning_rate": 8.202978415235358e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7919362783432007,
      "num_tokens": 17432576.0,
      "step": 2766
    },
    {
      "epoch": 0.3657150409727729,
      "grad_norm": 0.8287728425950147,
      "learning_rate": 8.201318161402189e-06,
      "loss": 0.5965,
      "mean_token_accuracy": 0.8069069981575012,
      "num_tokens": 17498112.0,
      "step": 2767
    },
    {
      "epoch": 0.3658472112080359,
      "grad_norm": 0.9328058148409556,
      "learning_rate": 8.199657332514782e-06,
      "loss": 0.576,
      "mean_token_accuracy": 0.8071358799934387,
      "num_tokens": 17563648.0,
      "step": 2768
    },
    {
      "epoch": 0.36597938144329895,
      "grad_norm": 1.0128102619979122,
      "learning_rate": 8.197995928926694e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7812690734863281,
      "num_tokens": 17629184.0,
      "step": 2769
    },
    {
      "epoch": 0.36611155167856196,
      "grad_norm": 0.9681576828601398,
      "learning_rate": 8.196333950991605e-06,
      "loss": 0.6627,
      "mean_token_accuracy": 0.78265780210495,
      "num_tokens": 17694720.0,
      "step": 2770
    },
    {
      "epoch": 0.366243721913825,
      "grad_norm": 0.8267132890347159,
      "learning_rate": 8.19467139906331e-06,
      "loss": 0.5607,
      "mean_token_accuracy": 0.8157886862754822,
      "num_tokens": 17760256.0,
      "step": 2771
    },
    {
      "epoch": 0.366375892149088,
      "grad_norm": 0.9199920614019652,
      "learning_rate": 8.193008273495735e-06,
      "loss": 0.6415,
      "mean_token_accuracy": 0.7897998094558716,
      "num_tokens": 17825792.0,
      "step": 2772
    },
    {
      "epoch": 0.366508062384351,
      "grad_norm": 0.880106878068834,
      "learning_rate": 8.191344574642928e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8098217844963074,
      "num_tokens": 17891328.0,
      "step": 2773
    },
    {
      "epoch": 0.36664023261961404,
      "grad_norm": 1.1837895647159358,
      "learning_rate": 8.18968030285905e-06,
      "loss": 0.7035,
      "mean_token_accuracy": 0.7711970210075378,
      "num_tokens": 17956864.0,
      "step": 2774
    },
    {
      "epoch": 0.36677240285487706,
      "grad_norm": 0.9332539047474332,
      "learning_rate": 8.188015458498392e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.812034547328949,
      "num_tokens": 18022400.0,
      "step": 2775
    },
    {
      "epoch": 0.3669045730901401,
      "grad_norm": 0.9041345024795122,
      "learning_rate": 8.186350041915364e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8113325834274292,
      "num_tokens": 18087936.0,
      "step": 2776
    },
    {
      "epoch": 0.3670367433254031,
      "grad_norm": 0.9760302579277642,
      "learning_rate": 8.1846840534645e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7891435623168945,
      "num_tokens": 18153472.0,
      "step": 2777
    },
    {
      "epoch": 0.3671689135606661,
      "grad_norm": 0.8310650360967734,
      "learning_rate": 8.183017493500453e-06,
      "loss": 0.5899,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 18219008.0,
      "step": 2778
    },
    {
      "epoch": 0.3673010837959292,
      "grad_norm": 0.8400343776731278,
      "learning_rate": 8.181350362377999e-06,
      "loss": 0.5598,
      "mean_token_accuracy": 0.8169637322425842,
      "num_tokens": 18284544.0,
      "step": 2779
    },
    {
      "epoch": 0.3674332540311922,
      "grad_norm": 0.8580990079494961,
      "learning_rate": 8.179682660452034e-06,
      "loss": 0.6087,
      "mean_token_accuracy": 0.8001160025596619,
      "num_tokens": 18350080.0,
      "step": 2780
    },
    {
      "epoch": 0.3675654242664552,
      "grad_norm": 0.843396246902864,
      "learning_rate": 8.17801438807758e-06,
      "loss": 0.6343,
      "mean_token_accuracy": 0.7941337823867798,
      "num_tokens": 18415616.0,
      "step": 2781
    },
    {
      "epoch": 0.36769759450171824,
      "grad_norm": 0.8867058725762283,
      "learning_rate": 8.176345545609776e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7933860421180725,
      "num_tokens": 18481152.0,
      "step": 2782
    },
    {
      "epoch": 0.36782976473698126,
      "grad_norm": 0.8338184837962992,
      "learning_rate": 8.174676133403884e-06,
      "loss": 0.573,
      "mean_token_accuracy": 0.8112562298774719,
      "num_tokens": 18546688.0,
      "step": 2783
    },
    {
      "epoch": 0.3679619349722443,
      "grad_norm": 0.9172897401961427,
      "learning_rate": 8.173006151815283e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.8009552955627441,
      "num_tokens": 18612224.0,
      "step": 2784
    },
    {
      "epoch": 0.3680941052075073,
      "grad_norm": 0.861147464236057,
      "learning_rate": 8.171335601199485e-06,
      "loss": 0.6168,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 18677760.0,
      "step": 2785
    },
    {
      "epoch": 0.3682262754427703,
      "grad_norm": 0.8164022954632272,
      "learning_rate": 8.169664481912108e-06,
      "loss": 0.5844,
      "mean_token_accuracy": 0.808387279510498,
      "num_tokens": 18743296.0,
      "step": 2786
    },
    {
      "epoch": 0.36835844567803333,
      "grad_norm": 0.9289509791581361,
      "learning_rate": 8.1679927943089e-06,
      "loss": 0.5753,
      "mean_token_accuracy": 0.8140031695365906,
      "num_tokens": 18808832.0,
      "step": 2787
    },
    {
      "epoch": 0.36849061591329635,
      "grad_norm": 0.8524146242123298,
      "learning_rate": 8.166320538745734e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 18874368.0,
      "step": 2788
    },
    {
      "epoch": 0.36862278614855937,
      "grad_norm": 0.8023885186314234,
      "learning_rate": 8.16464771557859e-06,
      "loss": 0.5375,
      "mean_token_accuracy": 0.8247161507606506,
      "num_tokens": 18939904.0,
      "step": 2789
    },
    {
      "epoch": 0.3687549563838224,
      "grad_norm": 0.8738224286008437,
      "learning_rate": 8.162974325163585e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8052435517311096,
      "num_tokens": 19005440.0,
      "step": 2790
    },
    {
      "epoch": 0.3688871266190854,
      "grad_norm": 0.8718536249239904,
      "learning_rate": 8.161300367856942e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7910206317901611,
      "num_tokens": 19070976.0,
      "step": 2791
    },
    {
      "epoch": 0.3690192968543484,
      "grad_norm": 0.8424664964009686,
      "learning_rate": 8.159625844015017e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8113478422164917,
      "num_tokens": 19136512.0,
      "step": 2792
    },
    {
      "epoch": 0.36915146708961144,
      "grad_norm": 0.8728965698709412,
      "learning_rate": 8.157950753994278e-06,
      "loss": 0.5695,
      "mean_token_accuracy": 0.8133469820022583,
      "num_tokens": 19202048.0,
      "step": 2793
    },
    {
      "epoch": 0.36928363732487446,
      "grad_norm": 0.9474317330154577,
      "learning_rate": 8.156275098151317e-06,
      "loss": 0.6513,
      "mean_token_accuracy": 0.7865187525749207,
      "num_tokens": 19267584.0,
      "step": 2794
    },
    {
      "epoch": 0.3694158075601375,
      "grad_norm": 0.887454611007992,
      "learning_rate": 8.154598876842848e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8065407276153564,
      "num_tokens": 19333120.0,
      "step": 2795
    },
    {
      "epoch": 0.3695479777954005,
      "grad_norm": 0.9187798167170685,
      "learning_rate": 8.1529220904257e-06,
      "loss": 0.5941,
      "mean_token_accuracy": 0.8047704696655273,
      "num_tokens": 19398656.0,
      "step": 2796
    },
    {
      "epoch": 0.3696801480306635,
      "grad_norm": 0.9365313019838103,
      "learning_rate": 8.151244739256829e-06,
      "loss": 0.6428,
      "mean_token_accuracy": 0.7883347868919373,
      "num_tokens": 19464192.0,
      "step": 2797
    },
    {
      "epoch": 0.36981231826592653,
      "grad_norm": 0.8158653926008983,
      "learning_rate": 8.149566823693306e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8070138096809387,
      "num_tokens": 19529728.0,
      "step": 2798
    },
    {
      "epoch": 0.36994448850118955,
      "grad_norm": 0.8258528447976459,
      "learning_rate": 8.147888344092326e-06,
      "loss": 0.5752,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 19595264.0,
      "step": 2799
    },
    {
      "epoch": 0.37007665873645257,
      "grad_norm": 0.9317388114425198,
      "learning_rate": 8.146209300811201e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7869918346405029,
      "num_tokens": 19660800.0,
      "step": 2800
    },
    {
      "epoch": 0.3702088289717156,
      "grad_norm": 0.9349900846920335,
      "learning_rate": 8.144529694207366e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8012300133705139,
      "num_tokens": 19726336.0,
      "step": 2801
    },
    {
      "epoch": 0.3703409992069786,
      "grad_norm": 0.8993521744596975,
      "learning_rate": 8.142849524638372e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.8092418313026428,
      "num_tokens": 19791872.0,
      "step": 2802
    },
    {
      "epoch": 0.3704731694422416,
      "grad_norm": 0.8085380921631775,
      "learning_rate": 8.141168792461894e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.8041142821311951,
      "num_tokens": 19857408.0,
      "step": 2803
    },
    {
      "epoch": 0.37060533967750464,
      "grad_norm": 0.9533609779884369,
      "learning_rate": 8.139487498035724e-06,
      "loss": 0.64,
      "mean_token_accuracy": 0.7931876182556152,
      "num_tokens": 19922944.0,
      "step": 2804
    },
    {
      "epoch": 0.37073750991276766,
      "grad_norm": 0.870456247504486,
      "learning_rate": 8.137805641717772e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.8036259412765503,
      "num_tokens": 19988480.0,
      "step": 2805
    },
    {
      "epoch": 0.3708696801480307,
      "grad_norm": 0.9214708546276605,
      "learning_rate": 8.136123223866074e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.802405059337616,
      "num_tokens": 20054016.0,
      "step": 2806
    },
    {
      "epoch": 0.3710018503832937,
      "grad_norm": 0.9188107596257974,
      "learning_rate": 8.134440244838779e-06,
      "loss": 0.6922,
      "mean_token_accuracy": 0.774707019329071,
      "num_tokens": 20119552.0,
      "step": 2807
    },
    {
      "epoch": 0.3711340206185567,
      "grad_norm": 0.9739351746028901,
      "learning_rate": 8.132756704994157e-06,
      "loss": 0.6625,
      "mean_token_accuracy": 0.7835429310798645,
      "num_tokens": 20185088.0,
      "step": 2808
    },
    {
      "epoch": 0.37126619085381973,
      "grad_norm": 0.8995921657053408,
      "learning_rate": 8.131072604690605e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.8028628826141357,
      "num_tokens": 20250624.0,
      "step": 2809
    },
    {
      "epoch": 0.37139836108908275,
      "grad_norm": 0.870850351000316,
      "learning_rate": 8.129387944286626e-06,
      "loss": 0.6723,
      "mean_token_accuracy": 0.7807807326316833,
      "num_tokens": 20316160.0,
      "step": 2810
    },
    {
      "epoch": 0.37153053132434577,
      "grad_norm": 0.8876113902333307,
      "learning_rate": 8.127702724140853e-06,
      "loss": 0.6372,
      "mean_token_accuracy": 0.7918905019760132,
      "num_tokens": 20381696.0,
      "step": 2811
    },
    {
      "epoch": 0.3716627015596088,
      "grad_norm": 0.8644583701895683,
      "learning_rate": 8.126016944612029e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8098217844963074,
      "num_tokens": 20447232.0,
      "step": 2812
    },
    {
      "epoch": 0.3717948717948718,
      "grad_norm": 0.8867141652252141,
      "learning_rate": 8.124330606059028e-06,
      "loss": 0.5842,
      "mean_token_accuracy": 0.8046941757202148,
      "num_tokens": 20512768.0,
      "step": 2813
    },
    {
      "epoch": 0.3719270420301348,
      "grad_norm": 0.7973330472229624,
      "learning_rate": 8.122643708840833e-06,
      "loss": 0.5517,
      "mean_token_accuracy": 0.8197717070579529,
      "num_tokens": 20578304.0,
      "step": 2814
    },
    {
      "epoch": 0.37205921226539784,
      "grad_norm": 0.7938514351981222,
      "learning_rate": 8.120956253316547e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8134080171585083,
      "num_tokens": 20643840.0,
      "step": 2815
    },
    {
      "epoch": 0.37219138250066086,
      "grad_norm": 0.9442670195353868,
      "learning_rate": 8.119268239845396e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 20709376.0,
      "step": 2816
    },
    {
      "epoch": 0.3723235527359239,
      "grad_norm": 0.9392797565980398,
      "learning_rate": 8.117579668786726e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7900439500808716,
      "num_tokens": 20774912.0,
      "step": 2817
    },
    {
      "epoch": 0.3724557229711869,
      "grad_norm": 0.8843782813812272,
      "learning_rate": 8.115890540499991e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8082804083824158,
      "num_tokens": 20840448.0,
      "step": 2818
    },
    {
      "epoch": 0.3725878932064499,
      "grad_norm": 0.8984281869013508,
      "learning_rate": 8.114200855344781e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8063117861747742,
      "num_tokens": 20905984.0,
      "step": 2819
    },
    {
      "epoch": 0.37272006344171293,
      "grad_norm": 0.9289796143094232,
      "learning_rate": 8.112510613680788e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 20971520.0,
      "step": 2820
    },
    {
      "epoch": 0.37285223367697595,
      "grad_norm": 0.9629164892855089,
      "learning_rate": 8.11081981586783e-06,
      "loss": 0.6388,
      "mean_token_accuracy": 0.7915852665901184,
      "num_tokens": 21037056.0,
      "step": 2821
    },
    {
      "epoch": 0.37298440391223897,
      "grad_norm": 0.9192220389483864,
      "learning_rate": 8.109128462265842e-06,
      "loss": 0.6528,
      "mean_token_accuracy": 0.7851452827453613,
      "num_tokens": 21102592.0,
      "step": 2822
    },
    {
      "epoch": 0.373116574147502,
      "grad_norm": 0.891821490456738,
      "learning_rate": 8.10743655323488e-06,
      "loss": 0.6076,
      "mean_token_accuracy": 0.8025119304656982,
      "num_tokens": 21168128.0,
      "step": 2823
    },
    {
      "epoch": 0.373248744382765,
      "grad_norm": 0.8550678037461128,
      "learning_rate": 8.105744089135116e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8073037266731262,
      "num_tokens": 21233664.0,
      "step": 2824
    },
    {
      "epoch": 0.373380914618028,
      "grad_norm": 0.8957616797811808,
      "learning_rate": 8.10405107032684e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.811881959438324,
      "num_tokens": 21299200.0,
      "step": 2825
    },
    {
      "epoch": 0.37351308485329104,
      "grad_norm": 0.9124548915054164,
      "learning_rate": 8.102357497170457e-06,
      "loss": 0.6107,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 21364736.0,
      "step": 2826
    },
    {
      "epoch": 0.37364525508855406,
      "grad_norm": 0.8666357792257565,
      "learning_rate": 8.1006633700265e-06,
      "loss": 0.6344,
      "mean_token_accuracy": 0.7942711710929871,
      "num_tokens": 21430272.0,
      "step": 2827
    },
    {
      "epoch": 0.3737774253238171,
      "grad_norm": 0.8889518354266615,
      "learning_rate": 8.098968689255606e-06,
      "loss": 0.6274,
      "mean_token_accuracy": 0.7928824424743652,
      "num_tokens": 21495808.0,
      "step": 2828
    },
    {
      "epoch": 0.3739095955590801,
      "grad_norm": 1.3011415603734071,
      "learning_rate": 8.097273455218542e-06,
      "loss": 0.6712,
      "mean_token_accuracy": 0.7789799571037292,
      "num_tokens": 21561344.0,
      "step": 2829
    },
    {
      "epoch": 0.3740417657943431,
      "grad_norm": 0.8702757514865377,
      "learning_rate": 8.095577668276186e-06,
      "loss": 0.5736,
      "mean_token_accuracy": 0.8108442425727844,
      "num_tokens": 21626880.0,
      "step": 2830
    },
    {
      "epoch": 0.37417393602960614,
      "grad_norm": 0.8207807031029547,
      "learning_rate": 8.093881328789539e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.8198632597923279,
      "num_tokens": 21692416.0,
      "step": 2831
    },
    {
      "epoch": 0.37430610626486915,
      "grad_norm": 0.9660320155918214,
      "learning_rate": 8.09218443711971e-06,
      "loss": 0.6331,
      "mean_token_accuracy": 0.7946984767913818,
      "num_tokens": 21757952.0,
      "step": 2832
    },
    {
      "epoch": 0.37443827650013217,
      "grad_norm": 0.9059442860431556,
      "learning_rate": 8.090486993627936e-06,
      "loss": 0.6234,
      "mean_token_accuracy": 0.7966212630271912,
      "num_tokens": 21823488.0,
      "step": 2833
    },
    {
      "epoch": 0.3745704467353952,
      "grad_norm": 0.8855626284354287,
      "learning_rate": 8.088788998675567e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.7938286066055298,
      "num_tokens": 21889024.0,
      "step": 2834
    },
    {
      "epoch": 0.3747026169706582,
      "grad_norm": 0.8599482266646633,
      "learning_rate": 8.087090452624072e-06,
      "loss": 0.6182,
      "mean_token_accuracy": 0.7990171909332275,
      "num_tokens": 21954560.0,
      "step": 2835
    },
    {
      "epoch": 0.3748347872059212,
      "grad_norm": 0.9582642141086859,
      "learning_rate": 8.08539135583503e-06,
      "loss": 0.6567,
      "mean_token_accuracy": 0.7874649167060852,
      "num_tokens": 22020096.0,
      "step": 2836
    },
    {
      "epoch": 0.37496695744118425,
      "grad_norm": 0.9821319077493987,
      "learning_rate": 8.08369170867015e-06,
      "loss": 0.6459,
      "mean_token_accuracy": 0.7912953495979309,
      "num_tokens": 22085632.0,
      "step": 2837
    },
    {
      "epoch": 0.37509912767644726,
      "grad_norm": 0.9680271065387388,
      "learning_rate": 8.081991511491249e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8099896311759949,
      "num_tokens": 22151168.0,
      "step": 2838
    },
    {
      "epoch": 0.3752312979117103,
      "grad_norm": 0.7788829721223114,
      "learning_rate": 8.080290764660263e-06,
      "loss": 0.5133,
      "mean_token_accuracy": 0.8328195810317993,
      "num_tokens": 22216704.0,
      "step": 2839
    },
    {
      "epoch": 0.3753634681469733,
      "grad_norm": 0.7937702174709167,
      "learning_rate": 8.078589468539245e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8216487765312195,
      "num_tokens": 22282240.0,
      "step": 2840
    },
    {
      "epoch": 0.3754956383822363,
      "grad_norm": 1.019047913241933,
      "learning_rate": 8.076887623490366e-06,
      "loss": 0.6604,
      "mean_token_accuracy": 0.7847484946250916,
      "num_tokens": 22347776.0,
      "step": 2841
    },
    {
      "epoch": 0.37562780861749934,
      "grad_norm": 0.9226357250859669,
      "learning_rate": 8.075185229875915e-06,
      "loss": 0.6458,
      "mean_token_accuracy": 0.7875106930732727,
      "num_tokens": 22413312.0,
      "step": 2842
    },
    {
      "epoch": 0.37575997885276236,
      "grad_norm": 0.9095021760694423,
      "learning_rate": 8.073482288058294e-06,
      "loss": 0.636,
      "mean_token_accuracy": 0.7899371385574341,
      "num_tokens": 22478848.0,
      "step": 2843
    },
    {
      "epoch": 0.3758921490880254,
      "grad_norm": 0.8898984686630966,
      "learning_rate": 8.071778798400025e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.8187645077705383,
      "num_tokens": 22544384.0,
      "step": 2844
    },
    {
      "epoch": 0.3760243193232884,
      "grad_norm": 0.8680845694552982,
      "learning_rate": 8.070074761263743e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7992613911628723,
      "num_tokens": 22609920.0,
      "step": 2845
    },
    {
      "epoch": 0.3761564895585514,
      "grad_norm": 0.8965603087993017,
      "learning_rate": 8.068370177012205e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.8044347167015076,
      "num_tokens": 22675456.0,
      "step": 2846
    },
    {
      "epoch": 0.37628865979381443,
      "grad_norm": 0.9270490713516766,
      "learning_rate": 8.06666504600828e-06,
      "loss": 0.6593,
      "mean_token_accuracy": 0.7839549779891968,
      "num_tokens": 22740992.0,
      "step": 2847
    },
    {
      "epoch": 0.37642083002907745,
      "grad_norm": 0.8771066994306327,
      "learning_rate": 8.064959368614953e-06,
      "loss": 0.5672,
      "mean_token_accuracy": 0.8135453462600708,
      "num_tokens": 22806528.0,
      "step": 2848
    },
    {
      "epoch": 0.37655300026434047,
      "grad_norm": 0.9932573331935508,
      "learning_rate": 8.063253145195331e-06,
      "loss": 0.6769,
      "mean_token_accuracy": 0.7763398885726929,
      "num_tokens": 22872064.0,
      "step": 2849
    },
    {
      "epoch": 0.3766851704996035,
      "grad_norm": 0.9673049377886148,
      "learning_rate": 8.06154637611263e-06,
      "loss": 0.6627,
      "mean_token_accuracy": 0.7821999788284302,
      "num_tokens": 22937600.0,
      "step": 2850
    },
    {
      "epoch": 0.3768173407348665,
      "grad_norm": 0.81883599464271,
      "learning_rate": 8.059839061730188e-06,
      "loss": 0.5726,
      "mean_token_accuracy": 0.8149035573005676,
      "num_tokens": 23003136.0,
      "step": 2851
    },
    {
      "epoch": 0.3769495109701295,
      "grad_norm": 0.8528851156882021,
      "learning_rate": 8.058131202411455e-06,
      "loss": 0.5692,
      "mean_token_accuracy": 0.8138048052787781,
      "num_tokens": 23068672.0,
      "step": 2852
    },
    {
      "epoch": 0.37708168120539254,
      "grad_norm": 0.922669806465549,
      "learning_rate": 8.056422798519999e-06,
      "loss": 0.5901,
      "mean_token_accuracy": 0.8054572343826294,
      "num_tokens": 23134208.0,
      "step": 2853
    },
    {
      "epoch": 0.37721385144065556,
      "grad_norm": 0.8154588270330195,
      "learning_rate": 8.054713850419503e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7969570159912109,
      "num_tokens": 23199744.0,
      "step": 2854
    },
    {
      "epoch": 0.3773460216759186,
      "grad_norm": 0.9064713531146145,
      "learning_rate": 8.053004358473767e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 23265280.0,
      "step": 2855
    },
    {
      "epoch": 0.3774781919111816,
      "grad_norm": 0.8807488640094703,
      "learning_rate": 8.051294323046705e-06,
      "loss": 0.5795,
      "mean_token_accuracy": 0.8095012903213501,
      "num_tokens": 23330816.0,
      "step": 2856
    },
    {
      "epoch": 0.3776103621464446,
      "grad_norm": 0.834831124594728,
      "learning_rate": 8.04958374450235e-06,
      "loss": 0.5351,
      "mean_token_accuracy": 0.826059103012085,
      "num_tokens": 23396352.0,
      "step": 2857
    },
    {
      "epoch": 0.37774253238170763,
      "grad_norm": 0.9567907100495269,
      "learning_rate": 8.047872623204846e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7939506769180298,
      "num_tokens": 23461888.0,
      "step": 2858
    },
    {
      "epoch": 0.37787470261697065,
      "grad_norm": 0.8922486329141841,
      "learning_rate": 8.046160959518458e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8118361830711365,
      "num_tokens": 23527424.0,
      "step": 2859
    },
    {
      "epoch": 0.37800687285223367,
      "grad_norm": 0.938589565798753,
      "learning_rate": 8.044448753807563e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7818489670753479,
      "num_tokens": 23592960.0,
      "step": 2860
    },
    {
      "epoch": 0.3781390430874967,
      "grad_norm": 0.8700248845270918,
      "learning_rate": 8.04273600643665e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8088451027870178,
      "num_tokens": 23658496.0,
      "step": 2861
    },
    {
      "epoch": 0.3782712133227597,
      "grad_norm": 1.010312600154657,
      "learning_rate": 8.041022717770329e-06,
      "loss": 0.6629,
      "mean_token_accuracy": 0.78265780210495,
      "num_tokens": 23724032.0,
      "step": 2862
    },
    {
      "epoch": 0.3784033835580227,
      "grad_norm": 1.0127830529622948,
      "learning_rate": 8.039308888173325e-06,
      "loss": 0.6589,
      "mean_token_accuracy": 0.783802330493927,
      "num_tokens": 23789568.0,
      "step": 2863
    },
    {
      "epoch": 0.37853555379328574,
      "grad_norm": 0.9028362553308975,
      "learning_rate": 8.037594518010476e-06,
      "loss": 0.6058,
      "mean_token_accuracy": 0.8010163307189941,
      "num_tokens": 23855104.0,
      "step": 2864
    },
    {
      "epoch": 0.37866772402854876,
      "grad_norm": 0.8562711419813985,
      "learning_rate": 8.035879607646737e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7988646030426025,
      "num_tokens": 23920640.0,
      "step": 2865
    },
    {
      "epoch": 0.3787998942638118,
      "grad_norm": 0.7988766265064906,
      "learning_rate": 8.034164157447172e-06,
      "loss": 0.5611,
      "mean_token_accuracy": 0.8151019215583801,
      "num_tokens": 23986176.0,
      "step": 2866
    },
    {
      "epoch": 0.3789320644990748,
      "grad_norm": 0.8559330197900754,
      "learning_rate": 8.03244816777697e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.8008484840393066,
      "num_tokens": 24051712.0,
      "step": 2867
    },
    {
      "epoch": 0.3790642347343378,
      "grad_norm": 0.8433133738520864,
      "learning_rate": 8.030731639001424e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7930197715759277,
      "num_tokens": 24117248.0,
      "step": 2868
    },
    {
      "epoch": 0.37919640496960083,
      "grad_norm": 0.8277011941292672,
      "learning_rate": 8.02901457148595e-06,
      "loss": 0.595,
      "mean_token_accuracy": 0.8041142821311951,
      "num_tokens": 24182784.0,
      "step": 2869
    },
    {
      "epoch": 0.37932857520486385,
      "grad_norm": 0.8872814775109126,
      "learning_rate": 8.027296965596078e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.8015962839126587,
      "num_tokens": 24248320.0,
      "step": 2870
    },
    {
      "epoch": 0.37946074544012687,
      "grad_norm": 0.8937250052733929,
      "learning_rate": 8.025578821697448e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 24313856.0,
      "step": 2871
    },
    {
      "epoch": 0.3795929156753899,
      "grad_norm": 0.9212671222278358,
      "learning_rate": 8.023860140155816e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.7984220385551453,
      "num_tokens": 24379392.0,
      "step": 2872
    },
    {
      "epoch": 0.3797250859106529,
      "grad_norm": 0.853819588310984,
      "learning_rate": 8.022140921337056e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7911274433135986,
      "num_tokens": 24444928.0,
      "step": 2873
    },
    {
      "epoch": 0.3798572561459159,
      "grad_norm": 0.837444676209231,
      "learning_rate": 8.020421165607151e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8102185130119324,
      "num_tokens": 24510464.0,
      "step": 2874
    },
    {
      "epoch": 0.37998942638117894,
      "grad_norm": 0.8447105736853547,
      "learning_rate": 8.018700873332202e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7965907454490662,
      "num_tokens": 24576000.0,
      "step": 2875
    },
    {
      "epoch": 0.38012159661644196,
      "grad_norm": 0.910982577430521,
      "learning_rate": 8.016980044878425e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7918142080307007,
      "num_tokens": 24641536.0,
      "step": 2876
    },
    {
      "epoch": 0.380253766851705,
      "grad_norm": 0.8954998736353497,
      "learning_rate": 8.015258680612147e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7966365814208984,
      "num_tokens": 24707072.0,
      "step": 2877
    },
    {
      "epoch": 0.380385937086968,
      "grad_norm": 0.83935342209176,
      "learning_rate": 8.01353678089981e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8124008178710938,
      "num_tokens": 24772608.0,
      "step": 2878
    },
    {
      "epoch": 0.380518107322231,
      "grad_norm": 0.8686074660018699,
      "learning_rate": 8.011814346107972e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.7965449690818787,
      "num_tokens": 24838144.0,
      "step": 2879
    },
    {
      "epoch": 0.38065027755749403,
      "grad_norm": 0.8588067972746803,
      "learning_rate": 8.010091376603303e-06,
      "loss": 0.6235,
      "mean_token_accuracy": 0.7977811098098755,
      "num_tokens": 24903680.0,
      "step": 2880
    },
    {
      "epoch": 0.38078244779275705,
      "grad_norm": 0.87918488548783,
      "learning_rate": 8.008367872752585e-06,
      "loss": 0.6027,
      "mean_token_accuracy": 0.8041447997093201,
      "num_tokens": 24969216.0,
      "step": 2881
    },
    {
      "epoch": 0.38091461802802007,
      "grad_norm": 0.9223807855844524,
      "learning_rate": 8.006643834922719e-06,
      "loss": 0.6287,
      "mean_token_accuracy": 0.7921041250228882,
      "num_tokens": 25034752.0,
      "step": 2882
    },
    {
      "epoch": 0.3810467882632831,
      "grad_norm": 0.8718909423434328,
      "learning_rate": 8.004919263480715e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.8012757897377014,
      "num_tokens": 25100288.0,
      "step": 2883
    },
    {
      "epoch": 0.3811789584985461,
      "grad_norm": 0.8628237657202974,
      "learning_rate": 8.0031941587937e-06,
      "loss": 0.5899,
      "mean_token_accuracy": 0.8074105978012085,
      "num_tokens": 25165824.0,
      "step": 2884
    },
    {
      "epoch": 0.3813111287338091,
      "grad_norm": 0.9931679183631902,
      "learning_rate": 8.001468521228912e-06,
      "loss": 0.6351,
      "mean_token_accuracy": 0.7926382422447205,
      "num_tokens": 25231360.0,
      "step": 2885
    },
    {
      "epoch": 0.38144329896907214,
      "grad_norm": 0.8951506758457012,
      "learning_rate": 7.999742351153702e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.7985135912895203,
      "num_tokens": 25296896.0,
      "step": 2886
    },
    {
      "epoch": 0.38157546920433516,
      "grad_norm": 0.9022262634066813,
      "learning_rate": 7.998015648935534e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.803122341632843,
      "num_tokens": 25362432.0,
      "step": 2887
    },
    {
      "epoch": 0.3817076394395982,
      "grad_norm": 0.9168039601767622,
      "learning_rate": 7.996288414941993e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7963313460350037,
      "num_tokens": 25427968.0,
      "step": 2888
    },
    {
      "epoch": 0.3818398096748612,
      "grad_norm": 0.886624478121206,
      "learning_rate": 7.994560649540763e-06,
      "loss": 0.5622,
      "mean_token_accuracy": 0.8137590289115906,
      "num_tokens": 25493504.0,
      "step": 2889
    },
    {
      "epoch": 0.3819719799101242,
      "grad_norm": 0.8790396493590293,
      "learning_rate": 7.992832353099655e-06,
      "loss": 0.5869,
      "mean_token_accuracy": 0.8071816563606262,
      "num_tokens": 25559040.0,
      "step": 2890
    },
    {
      "epoch": 0.38210415014538723,
      "grad_norm": 1.0909120682492317,
      "learning_rate": 7.991103525986588e-06,
      "loss": 0.6649,
      "mean_token_accuracy": 0.7818184494972229,
      "num_tokens": 25624576.0,
      "step": 2891
    },
    {
      "epoch": 0.38223632038065025,
      "grad_norm": 0.9483967704887075,
      "learning_rate": 7.989374168569588e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.8011079430580139,
      "num_tokens": 25690112.0,
      "step": 2892
    },
    {
      "epoch": 0.38236849061591327,
      "grad_norm": 0.9113569531886689,
      "learning_rate": 7.987644281216804e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.8051825165748596,
      "num_tokens": 25755648.0,
      "step": 2893
    },
    {
      "epoch": 0.3825006608511763,
      "grad_norm": 0.8599876472142376,
      "learning_rate": 7.98591386429649e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7874496579170227,
      "num_tokens": 25821184.0,
      "step": 2894
    },
    {
      "epoch": 0.3826328310864393,
      "grad_norm": 0.9302295031804013,
      "learning_rate": 7.984182918177016e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.7970638275146484,
      "num_tokens": 25886720.0,
      "step": 2895
    },
    {
      "epoch": 0.3827650013217023,
      "grad_norm": 0.961916955087518,
      "learning_rate": 7.982451443226865e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7948358058929443,
      "num_tokens": 25952256.0,
      "step": 2896
    },
    {
      "epoch": 0.3828971715569654,
      "grad_norm": 0.8624926643661815,
      "learning_rate": 7.980719439814631e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8169637322425842,
      "num_tokens": 26017792.0,
      "step": 2897
    },
    {
      "epoch": 0.3830293417922284,
      "grad_norm": 0.8504070673360725,
      "learning_rate": 7.978986908309023e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 26083328.0,
      "step": 2898
    },
    {
      "epoch": 0.38316151202749144,
      "grad_norm": 0.9530565841850653,
      "learning_rate": 7.97725384907886e-06,
      "loss": 0.6266,
      "mean_token_accuracy": 0.79337078332901,
      "num_tokens": 26148864.0,
      "step": 2899
    },
    {
      "epoch": 0.38329368226275445,
      "grad_norm": 0.9093163071278807,
      "learning_rate": 7.975520262493072e-06,
      "loss": 0.6501,
      "mean_token_accuracy": 0.7833139896392822,
      "num_tokens": 26214400.0,
      "step": 2900
    },
    {
      "epoch": 0.38342585249801747,
      "grad_norm": 1.14235278903647,
      "learning_rate": 7.973786148920706e-06,
      "loss": 0.6219,
      "mean_token_accuracy": 0.79783695936203,
      "num_tokens": 26272752.0,
      "step": 2901
    },
    {
      "epoch": 0.3835580227332805,
      "grad_norm": 0.9672822334468254,
      "learning_rate": 7.97205150873092e-06,
      "loss": 0.6323,
      "mean_token_accuracy": 0.7911884784698486,
      "num_tokens": 26338288.0,
      "step": 2902
    },
    {
      "epoch": 0.3836901929685435,
      "grad_norm": 0.8867302833493254,
      "learning_rate": 7.970316342292976e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8157886862754822,
      "num_tokens": 26403824.0,
      "step": 2903
    },
    {
      "epoch": 0.3838223632038065,
      "grad_norm": 1.0007166383367736,
      "learning_rate": 7.968580649976264e-06,
      "loss": 0.6725,
      "mean_token_accuracy": 0.7811317443847656,
      "num_tokens": 26469360.0,
      "step": 2904
    },
    {
      "epoch": 0.38395453343906955,
      "grad_norm": 0.9266985580979519,
      "learning_rate": 7.966844432150269e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 26534896.0,
      "step": 2905
    },
    {
      "epoch": 0.38408670367433256,
      "grad_norm": 0.9460415246943277,
      "learning_rate": 7.965107689184599e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8059608340263367,
      "num_tokens": 26600432.0,
      "step": 2906
    },
    {
      "epoch": 0.3842188739095956,
      "grad_norm": 0.8542461222297911,
      "learning_rate": 7.96337042144897e-06,
      "loss": 0.578,
      "mean_token_accuracy": 0.8113783597946167,
      "num_tokens": 26665968.0,
      "step": 2907
    },
    {
      "epoch": 0.3843510441448586,
      "grad_norm": 1.117707539019936,
      "learning_rate": 7.961632629313209e-06,
      "loss": 0.6586,
      "mean_token_accuracy": 0.7854047417640686,
      "num_tokens": 26731504.0,
      "step": 2908
    },
    {
      "epoch": 0.3844832143801216,
      "grad_norm": 1.043581257259945,
      "learning_rate": 7.959894313147256e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.7919362783432007,
      "num_tokens": 26797040.0,
      "step": 2909
    },
    {
      "epoch": 0.38461538461538464,
      "grad_norm": 0.9403573214274736,
      "learning_rate": 7.958155473321164e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 26862576.0,
      "step": 2910
    },
    {
      "epoch": 0.38474755485064766,
      "grad_norm": 0.9748429498759764,
      "learning_rate": 7.956416110205095e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.8068153858184814,
      "num_tokens": 26928112.0,
      "step": 2911
    },
    {
      "epoch": 0.3848797250859107,
      "grad_norm": 0.870012903298413,
      "learning_rate": 7.95467622416932e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8136368989944458,
      "num_tokens": 26993648.0,
      "step": 2912
    },
    {
      "epoch": 0.3850118953211737,
      "grad_norm": 1.0061825016430268,
      "learning_rate": 7.952935815584229e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7873886227607727,
      "num_tokens": 27059184.0,
      "step": 2913
    },
    {
      "epoch": 0.3851440655564367,
      "grad_norm": 1.0759562745125641,
      "learning_rate": 7.951194884820315e-06,
      "loss": 0.6316,
      "mean_token_accuracy": 0.7919057607650757,
      "num_tokens": 27124720.0,
      "step": 2914
    },
    {
      "epoch": 0.38527623579169973,
      "grad_norm": 0.8215151518941646,
      "learning_rate": 7.949453432248188e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8093639612197876,
      "num_tokens": 27190256.0,
      "step": 2915
    },
    {
      "epoch": 0.38540840602696275,
      "grad_norm": 0.9660228774695009,
      "learning_rate": 7.947711458238567e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.7904254794120789,
      "num_tokens": 27255792.0,
      "step": 2916
    },
    {
      "epoch": 0.38554057626222576,
      "grad_norm": 0.9217629677357678,
      "learning_rate": 7.94596896316228e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.802130401134491,
      "num_tokens": 27321328.0,
      "step": 2917
    },
    {
      "epoch": 0.3856727464974888,
      "grad_norm": 0.8970272489466931,
      "learning_rate": 7.944225947390269e-06,
      "loss": 0.5649,
      "mean_token_accuracy": 0.8148272633552551,
      "num_tokens": 27386864.0,
      "step": 2918
    },
    {
      "epoch": 0.3858049167327518,
      "grad_norm": 0.9041048670777124,
      "learning_rate": 7.942482411293585e-06,
      "loss": 0.6144,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 27452400.0,
      "step": 2919
    },
    {
      "epoch": 0.3859370869680148,
      "grad_norm": 0.8671377350495207,
      "learning_rate": 7.940738355243393e-06,
      "loss": 0.5384,
      "mean_token_accuracy": 0.8232206106185913,
      "num_tokens": 27517936.0,
      "step": 2920
    },
    {
      "epoch": 0.38606925720327784,
      "grad_norm": 0.9597283665078521,
      "learning_rate": 7.938993779610962e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7996124029159546,
      "num_tokens": 27583472.0,
      "step": 2921
    },
    {
      "epoch": 0.38620142743854086,
      "grad_norm": 0.9778952124152084,
      "learning_rate": 7.937248684767678e-06,
      "loss": 0.6371,
      "mean_token_accuracy": 0.79324871301651,
      "num_tokens": 27649008.0,
      "step": 2922
    },
    {
      "epoch": 0.3863335976738039,
      "grad_norm": 0.9329894633451546,
      "learning_rate": 7.935503071085035e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8083414435386658,
      "num_tokens": 27714544.0,
      "step": 2923
    },
    {
      "epoch": 0.3864657679090669,
      "grad_norm": 0.921028408641885,
      "learning_rate": 7.93375693893464e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7951409816741943,
      "num_tokens": 27780080.0,
      "step": 2924
    },
    {
      "epoch": 0.3865979381443299,
      "grad_norm": 0.982336155788853,
      "learning_rate": 7.932010288688204e-06,
      "loss": 0.6634,
      "mean_token_accuracy": 0.7840312719345093,
      "num_tokens": 27845616.0,
      "step": 2925
    },
    {
      "epoch": 0.38673010837959293,
      "grad_norm": 1.0447039266774898,
      "learning_rate": 7.930263120717555e-06,
      "loss": 0.6533,
      "mean_token_accuracy": 0.7861677408218384,
      "num_tokens": 27911152.0,
      "step": 2926
    },
    {
      "epoch": 0.38686227861485595,
      "grad_norm": 0.8337595000274226,
      "learning_rate": 7.928515435394626e-06,
      "loss": 0.5403,
      "mean_token_accuracy": 0.821603000164032,
      "num_tokens": 27976688.0,
      "step": 2927
    },
    {
      "epoch": 0.38699444885011897,
      "grad_norm": 0.9090983646341378,
      "learning_rate": 7.926767233091466e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8090587258338928,
      "num_tokens": 28042224.0,
      "step": 2928
    },
    {
      "epoch": 0.387126619085382,
      "grad_norm": 0.8985381328172255,
      "learning_rate": 7.92501851418023e-06,
      "loss": 0.5912,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 28107760.0,
      "step": 2929
    },
    {
      "epoch": 0.387258789320645,
      "grad_norm": 0.8820412702602852,
      "learning_rate": 7.923269279033183e-06,
      "loss": 0.5318,
      "mean_token_accuracy": 0.8246245980262756,
      "num_tokens": 28173296.0,
      "step": 2930
    },
    {
      "epoch": 0.387390959555908,
      "grad_norm": 0.9403354416164231,
      "learning_rate": 7.9215195280227e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.7974911332130432,
      "num_tokens": 28238832.0,
      "step": 2931
    },
    {
      "epoch": 0.38752312979117104,
      "grad_norm": 0.8753726227768726,
      "learning_rate": 7.919769261521267e-06,
      "loss": 0.6315,
      "mean_token_accuracy": 0.7924856543540955,
      "num_tokens": 28304368.0,
      "step": 2932
    },
    {
      "epoch": 0.38765530002643406,
      "grad_norm": 0.8918392190957719,
      "learning_rate": 7.918018479901479e-06,
      "loss": 0.6375,
      "mean_token_accuracy": 0.7933555245399475,
      "num_tokens": 28369904.0,
      "step": 2933
    },
    {
      "epoch": 0.3877874702616971,
      "grad_norm": 1.024468586007697,
      "learning_rate": 7.916267183536043e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.7947442531585693,
      "num_tokens": 28435440.0,
      "step": 2934
    },
    {
      "epoch": 0.3879196404969601,
      "grad_norm": 0.9930796637884947,
      "learning_rate": 7.91451537279777e-06,
      "loss": 0.6322,
      "mean_token_accuracy": 0.7957361936569214,
      "num_tokens": 28500976.0,
      "step": 2935
    },
    {
      "epoch": 0.3880518107322231,
      "grad_norm": 0.9443873627457742,
      "learning_rate": 7.912763048059586e-06,
      "loss": 0.6302,
      "mean_token_accuracy": 0.7962245345115662,
      "num_tokens": 28566512.0,
      "step": 2936
    },
    {
      "epoch": 0.38818398096748613,
      "grad_norm": 0.9698840426143011,
      "learning_rate": 7.911010209694524e-06,
      "loss": 0.6248,
      "mean_token_accuracy": 0.7964991927146912,
      "num_tokens": 28632048.0,
      "step": 2937
    },
    {
      "epoch": 0.38831615120274915,
      "grad_norm": 1.0315196777892017,
      "learning_rate": 7.909256858075728e-06,
      "loss": 0.7105,
      "mean_token_accuracy": 0.7700982689857483,
      "num_tokens": 28697584.0,
      "step": 2938
    },
    {
      "epoch": 0.38844832143801217,
      "grad_norm": 1.0421254448076767,
      "learning_rate": 7.907502993576446e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7955835461616516,
      "num_tokens": 28763120.0,
      "step": 2939
    },
    {
      "epoch": 0.3885804916732752,
      "grad_norm": 0.9892062104983648,
      "learning_rate": 7.905748616570044e-06,
      "loss": 0.6342,
      "mean_token_accuracy": 0.7931418418884277,
      "num_tokens": 28828656.0,
      "step": 2940
    },
    {
      "epoch": 0.3887126619085382,
      "grad_norm": 0.8277139274873626,
      "learning_rate": 7.90399372742999e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8256165385246277,
      "num_tokens": 28894192.0,
      "step": 2941
    },
    {
      "epoch": 0.3888448321438012,
      "grad_norm": 1.059805196656546,
      "learning_rate": 7.90223832652986e-06,
      "loss": 0.6355,
      "mean_token_accuracy": 0.7915700078010559,
      "num_tokens": 28959728.0,
      "step": 2942
    },
    {
      "epoch": 0.38897700237906424,
      "grad_norm": 0.8777861309057841,
      "learning_rate": 7.900482414243349e-06,
      "loss": 0.6094,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 29025264.0,
      "step": 2943
    },
    {
      "epoch": 0.38910917261432726,
      "grad_norm": 0.8755964206142584,
      "learning_rate": 7.898725990944248e-06,
      "loss": 0.5521,
      "mean_token_accuracy": 0.8222286701202393,
      "num_tokens": 29090800.0,
      "step": 2944
    },
    {
      "epoch": 0.3892413428495903,
      "grad_norm": 0.8314452892076328,
      "learning_rate": 7.896969057006467e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.8156360387802124,
      "num_tokens": 29156336.0,
      "step": 2945
    },
    {
      "epoch": 0.3893735130848533,
      "grad_norm": 0.9450415100561133,
      "learning_rate": 7.895211612804018e-06,
      "loss": 0.653,
      "mean_token_accuracy": 0.7853283882141113,
      "num_tokens": 29221872.0,
      "step": 2946
    },
    {
      "epoch": 0.3895056833201163,
      "grad_norm": 0.9214154084059581,
      "learning_rate": 7.893453658711026e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 29287408.0,
      "step": 2947
    },
    {
      "epoch": 0.38963785355537933,
      "grad_norm": 0.8678193942618766,
      "learning_rate": 7.891695195101719e-06,
      "loss": 0.5072,
      "mean_token_accuracy": 0.831476628780365,
      "num_tokens": 29352944.0,
      "step": 2948
    },
    {
      "epoch": 0.38977002379064235,
      "grad_norm": 0.9761743799743868,
      "learning_rate": 7.889936222350442e-06,
      "loss": 0.6859,
      "mean_token_accuracy": 0.7743865251541138,
      "num_tokens": 29418480.0,
      "step": 2949
    },
    {
      "epoch": 0.38990219402590537,
      "grad_norm": 0.8069772828042696,
      "learning_rate": 7.88817674083164e-06,
      "loss": 0.5731,
      "mean_token_accuracy": 0.8138810992240906,
      "num_tokens": 29484016.0,
      "step": 2950
    },
    {
      "epoch": 0.3900343642611684,
      "grad_norm": 0.8672513038310863,
      "learning_rate": 7.886416750919875e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8125991821289062,
      "num_tokens": 29549552.0,
      "step": 2951
    },
    {
      "epoch": 0.3901665344964314,
      "grad_norm": 0.8805350187233105,
      "learning_rate": 7.884656252989806e-06,
      "loss": 0.6058,
      "mean_token_accuracy": 0.8026797771453857,
      "num_tokens": 29615088.0,
      "step": 2952
    },
    {
      "epoch": 0.3902987047316944,
      "grad_norm": 1.020176066281352,
      "learning_rate": 7.88289524741621e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.784458577632904,
      "num_tokens": 29680624.0,
      "step": 2953
    },
    {
      "epoch": 0.39043087496695744,
      "grad_norm": 0.9268835666838879,
      "learning_rate": 7.881133734573967e-06,
      "loss": 0.596,
      "mean_token_accuracy": 0.8045721054077148,
      "num_tokens": 29746160.0,
      "step": 2954
    },
    {
      "epoch": 0.39056304520222046,
      "grad_norm": 0.8528313345518762,
      "learning_rate": 7.879371714838065e-06,
      "loss": 0.5784,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 29811696.0,
      "step": 2955
    },
    {
      "epoch": 0.3906952154374835,
      "grad_norm": 0.8822711225176308,
      "learning_rate": 7.877609188583604e-06,
      "loss": 0.6003,
      "mean_token_accuracy": 0.8015199899673462,
      "num_tokens": 29877232.0,
      "step": 2956
    },
    {
      "epoch": 0.3908273856727465,
      "grad_norm": 0.9402500556739801,
      "learning_rate": 7.875846156185787e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 29942768.0,
      "step": 2957
    },
    {
      "epoch": 0.3909595559080095,
      "grad_norm": 0.874173795228464,
      "learning_rate": 7.874082618019926e-06,
      "loss": 0.554,
      "mean_token_accuracy": 0.8177115321159363,
      "num_tokens": 30008304.0,
      "step": 2958
    },
    {
      "epoch": 0.39109172614327253,
      "grad_norm": 0.8891423808692848,
      "learning_rate": 7.872318574461445e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.803396999835968,
      "num_tokens": 30073840.0,
      "step": 2959
    },
    {
      "epoch": 0.39122389637853555,
      "grad_norm": 0.9381731276539343,
      "learning_rate": 7.870554025885869e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.8004516959190369,
      "num_tokens": 30139376.0,
      "step": 2960
    },
    {
      "epoch": 0.39135606661379857,
      "grad_norm": 0.885278699976976,
      "learning_rate": 7.868788972668835e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.7975826859474182,
      "num_tokens": 30204912.0,
      "step": 2961
    },
    {
      "epoch": 0.3914882368490616,
      "grad_norm": 0.9307524820986034,
      "learning_rate": 7.867023415186087e-06,
      "loss": 0.6295,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 30270448.0,
      "step": 2962
    },
    {
      "epoch": 0.3916204070843246,
      "grad_norm": 0.8913912203823419,
      "learning_rate": 7.86525735381347e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.7974300980567932,
      "num_tokens": 30335984.0,
      "step": 2963
    },
    {
      "epoch": 0.3917525773195876,
      "grad_norm": 0.954718899944762,
      "learning_rate": 7.863490788926949e-06,
      "loss": 0.6729,
      "mean_token_accuracy": 0.7809180617332458,
      "num_tokens": 30401520.0,
      "step": 2964
    },
    {
      "epoch": 0.39188474755485064,
      "grad_norm": 0.9755940260567065,
      "learning_rate": 7.861723720902583e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.8028781414031982,
      "num_tokens": 30467056.0,
      "step": 2965
    },
    {
      "epoch": 0.39201691779011366,
      "grad_norm": 0.8808763926785996,
      "learning_rate": 7.859956150116546e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.8029850125312805,
      "num_tokens": 30532592.0,
      "step": 2966
    },
    {
      "epoch": 0.3921490880253767,
      "grad_norm": 0.9591214447758912,
      "learning_rate": 7.858188076945118e-06,
      "loss": 0.5345,
      "mean_token_accuracy": 0.8238767981529236,
      "num_tokens": 30598128.0,
      "step": 2967
    },
    {
      "epoch": 0.3922812582606397,
      "grad_norm": 0.8934182693999211,
      "learning_rate": 7.856419501764685e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8020846247673035,
      "num_tokens": 30663664.0,
      "step": 2968
    },
    {
      "epoch": 0.3924134284959027,
      "grad_norm": 0.9301590085878119,
      "learning_rate": 7.854650424951735e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8019930124282837,
      "num_tokens": 30729200.0,
      "step": 2969
    },
    {
      "epoch": 0.39254559873116573,
      "grad_norm": 0.8607644620308609,
      "learning_rate": 7.852880846882874e-06,
      "loss": 0.5554,
      "mean_token_accuracy": 0.8196801543235779,
      "num_tokens": 30794736.0,
      "step": 2970
    },
    {
      "epoch": 0.39267776896642875,
      "grad_norm": 0.8111933090732176,
      "learning_rate": 7.851110767934802e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.8191612958908081,
      "num_tokens": 30860272.0,
      "step": 2971
    },
    {
      "epoch": 0.39280993920169177,
      "grad_norm": 0.8824785998485195,
      "learning_rate": 7.84934018848434e-06,
      "loss": 0.5583,
      "mean_token_accuracy": 0.8159717917442322,
      "num_tokens": 30925808.0,
      "step": 2972
    },
    {
      "epoch": 0.3929421094369548,
      "grad_norm": 0.8214606856197599,
      "learning_rate": 7.847569108908399e-06,
      "loss": 0.5523,
      "mean_token_accuracy": 0.8161091208457947,
      "num_tokens": 30991344.0,
      "step": 2973
    },
    {
      "epoch": 0.3930742796722178,
      "grad_norm": 0.9136932242339428,
      "learning_rate": 7.84579752958401e-06,
      "loss": 0.6235,
      "mean_token_accuracy": 0.797796368598938,
      "num_tokens": 31056880.0,
      "step": 2974
    },
    {
      "epoch": 0.3932064499074808,
      "grad_norm": 0.8512302197077857,
      "learning_rate": 7.844025450888304e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8113631010055542,
      "num_tokens": 31122416.0,
      "step": 2975
    },
    {
      "epoch": 0.39333862014274384,
      "grad_norm": 0.9376851622256952,
      "learning_rate": 7.842252873198518e-06,
      "loss": 0.638,
      "mean_token_accuracy": 0.79324871301651,
      "num_tokens": 31187952.0,
      "step": 2976
    },
    {
      "epoch": 0.39347079037800686,
      "grad_norm": 0.8422251316811186,
      "learning_rate": 7.840479796892e-06,
      "loss": 0.586,
      "mean_token_accuracy": 0.8094555139541626,
      "num_tokens": 31253488.0,
      "step": 2977
    },
    {
      "epoch": 0.3936029606132699,
      "grad_norm": 0.9251001311885142,
      "learning_rate": 7.838706222346196e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.8016725778579712,
      "num_tokens": 31319024.0,
      "step": 2978
    },
    {
      "epoch": 0.3937351308485329,
      "grad_norm": 0.9636263921974588,
      "learning_rate": 7.836932149938667e-06,
      "loss": 0.6331,
      "mean_token_accuracy": 0.7928061485290527,
      "num_tokens": 31384560.0,
      "step": 2979
    },
    {
      "epoch": 0.3938673010837959,
      "grad_norm": 0.9023039918535273,
      "learning_rate": 7.835157580047076e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7918447256088257,
      "num_tokens": 31450096.0,
      "step": 2980
    },
    {
      "epoch": 0.39399947131905894,
      "grad_norm": 0.8802445056330208,
      "learning_rate": 7.833382513049192e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8026950359344482,
      "num_tokens": 31515632.0,
      "step": 2981
    },
    {
      "epoch": 0.39413164155432195,
      "grad_norm": 0.8410283197360049,
      "learning_rate": 7.831606949322885e-06,
      "loss": 0.5914,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 31581168.0,
      "step": 2982
    },
    {
      "epoch": 0.394263811789585,
      "grad_norm": 0.9434277987000117,
      "learning_rate": 7.82983088924614e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7953394055366516,
      "num_tokens": 31646704.0,
      "step": 2983
    },
    {
      "epoch": 0.394395982024848,
      "grad_norm": 0.9127365103232714,
      "learning_rate": 7.828054333197043e-06,
      "loss": 0.5399,
      "mean_token_accuracy": 0.8229764103889465,
      "num_tokens": 31712240.0,
      "step": 2984
    },
    {
      "epoch": 0.394528152260111,
      "grad_norm": 0.8734556460138027,
      "learning_rate": 7.826277281553784e-06,
      "loss": 0.5825,
      "mean_token_accuracy": 0.808478832244873,
      "num_tokens": 31777776.0,
      "step": 2985
    },
    {
      "epoch": 0.394660322495374,
      "grad_norm": 0.9222573577221135,
      "learning_rate": 7.824499734694662e-06,
      "loss": 0.5845,
      "mean_token_accuracy": 0.8080057501792908,
      "num_tokens": 31843312.0,
      "step": 2986
    },
    {
      "epoch": 0.39479249273063705,
      "grad_norm": 1.0482630655580363,
      "learning_rate": 7.822721692998078e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7908527851104736,
      "num_tokens": 31908848.0,
      "step": 2987
    },
    {
      "epoch": 0.39492466296590006,
      "grad_norm": 0.9512499520603813,
      "learning_rate": 7.820943156842539e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.7818031907081604,
      "num_tokens": 31974384.0,
      "step": 2988
    },
    {
      "epoch": 0.3950568332011631,
      "grad_norm": 0.8652316713040432,
      "learning_rate": 7.819164126606661e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 32039920.0,
      "step": 2989
    },
    {
      "epoch": 0.3951890034364261,
      "grad_norm": 0.8657600682387148,
      "learning_rate": 7.817384602669162e-06,
      "loss": 0.6041,
      "mean_token_accuracy": 0.803244411945343,
      "num_tokens": 32105456.0,
      "step": 2990
    },
    {
      "epoch": 0.3953211736716891,
      "grad_norm": 0.83407503334168,
      "learning_rate": 7.815604585408864e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8025271892547607,
      "num_tokens": 32170992.0,
      "step": 2991
    },
    {
      "epoch": 0.39545334390695214,
      "grad_norm": 0.9256861032242475,
      "learning_rate": 7.813824075204695e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.7985899448394775,
      "num_tokens": 32236528.0,
      "step": 2992
    },
    {
      "epoch": 0.39558551414221516,
      "grad_norm": 0.9787453650619319,
      "learning_rate": 7.812043072435691e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7890520095825195,
      "num_tokens": 32302064.0,
      "step": 2993
    },
    {
      "epoch": 0.3957176843774782,
      "grad_norm": 0.8619087387423692,
      "learning_rate": 7.81026157748099e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8092876076698303,
      "num_tokens": 32367600.0,
      "step": 2994
    },
    {
      "epoch": 0.3958498546127412,
      "grad_norm": 0.7930788309646591,
      "learning_rate": 7.808479590719831e-06,
      "loss": 0.5401,
      "mean_token_accuracy": 0.8233426809310913,
      "num_tokens": 32433136.0,
      "step": 2995
    },
    {
      "epoch": 0.3959820248480042,
      "grad_norm": 0.9067147015227316,
      "learning_rate": 7.806697112531566e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8113631010055542,
      "num_tokens": 32498672.0,
      "step": 2996
    },
    {
      "epoch": 0.39611419508326723,
      "grad_norm": 0.8821939516678841,
      "learning_rate": 7.804914143295646e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8073495030403137,
      "num_tokens": 32564208.0,
      "step": 2997
    },
    {
      "epoch": 0.39624636531853025,
      "grad_norm": 0.9002775491665923,
      "learning_rate": 7.803130683391627e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 32629744.0,
      "step": 2998
    },
    {
      "epoch": 0.39637853555379327,
      "grad_norm": 0.9886831776172031,
      "learning_rate": 7.801346733199173e-06,
      "loss": 0.6179,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 32695280.0,
      "step": 2999
    },
    {
      "epoch": 0.3965107057890563,
      "grad_norm": 0.8048050236978057,
      "learning_rate": 7.799562293098047e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 32760816.0,
      "step": 3000
    },
    {
      "epoch": 0.3966428760243193,
      "grad_norm": 1.0376004432908585,
      "learning_rate": 7.797777363468121e-06,
      "loss": 0.6078,
      "mean_token_accuracy": 0.8003601431846619,
      "num_tokens": 32826352.0,
      "step": 3001
    },
    {
      "epoch": 0.3967750462595823,
      "grad_norm": 0.9441439016663631,
      "learning_rate": 7.795991944689368e-06,
      "loss": 0.6579,
      "mean_token_accuracy": 0.7840617895126343,
      "num_tokens": 32891888.0,
      "step": 3002
    },
    {
      "epoch": 0.39690721649484534,
      "grad_norm": 0.9384328520093913,
      "learning_rate": 7.794206037141867e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7989256381988525,
      "num_tokens": 32957424.0,
      "step": 3003
    },
    {
      "epoch": 0.39703938673010836,
      "grad_norm": 0.8992937053480993,
      "learning_rate": 7.7924196412058e-06,
      "loss": 0.6004,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 33022960.0,
      "step": 3004
    },
    {
      "epoch": 0.3971715569653714,
      "grad_norm": 1.208579070305832,
      "learning_rate": 7.790632757261455e-06,
      "loss": 0.6566,
      "mean_token_accuracy": 0.7873886227607727,
      "num_tokens": 33088496.0,
      "step": 3005
    },
    {
      "epoch": 0.3973037272006344,
      "grad_norm": 0.8552550346017884,
      "learning_rate": 7.78884538568922e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8217403292655945,
      "num_tokens": 33154032.0,
      "step": 3006
    },
    {
      "epoch": 0.3974358974358974,
      "grad_norm": 0.9549591108851779,
      "learning_rate": 7.78705752686959e-06,
      "loss": 0.5845,
      "mean_token_accuracy": 0.8078836798667908,
      "num_tokens": 33219568.0,
      "step": 3007
    },
    {
      "epoch": 0.39756806767116043,
      "grad_norm": 0.8909818088455582,
      "learning_rate": 7.785269181183163e-06,
      "loss": 0.5892,
      "mean_token_accuracy": 0.8091045022010803,
      "num_tokens": 33285104.0,
      "step": 3008
    },
    {
      "epoch": 0.39770023790642345,
      "grad_norm": 0.9081153026558916,
      "learning_rate": 7.783480349010639e-06,
      "loss": 0.6251,
      "mean_token_accuracy": 0.7975063920021057,
      "num_tokens": 33350640.0,
      "step": 3009
    },
    {
      "epoch": 0.39783240814168647,
      "grad_norm": 0.9213533239375248,
      "learning_rate": 7.781691030732826e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7914174199104309,
      "num_tokens": 33416176.0,
      "step": 3010
    },
    {
      "epoch": 0.3979645783769495,
      "grad_norm": 0.9040891159870719,
      "learning_rate": 7.77990122673063e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.8105237483978271,
      "num_tokens": 33481712.0,
      "step": 3011
    },
    {
      "epoch": 0.3980967486122125,
      "grad_norm": 0.9016009503746868,
      "learning_rate": 7.778110937385066e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8151476979255676,
      "num_tokens": 33547248.0,
      "step": 3012
    },
    {
      "epoch": 0.3982289188474755,
      "grad_norm": 0.8664470823745781,
      "learning_rate": 7.776320163077244e-06,
      "loss": 0.6003,
      "mean_token_accuracy": 0.8015352487564087,
      "num_tokens": 33612784.0,
      "step": 3013
    },
    {
      "epoch": 0.39836108908273854,
      "grad_norm": 0.8772186155635201,
      "learning_rate": 7.774528904188386e-06,
      "loss": 0.6331,
      "mean_token_accuracy": 0.7929892539978027,
      "num_tokens": 33678320.0,
      "step": 3014
    },
    {
      "epoch": 0.3984932593180016,
      "grad_norm": 0.9103793108843916,
      "learning_rate": 7.772737161099814e-06,
      "loss": 0.6146,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 33743856.0,
      "step": 3015
    },
    {
      "epoch": 0.39862542955326463,
      "grad_norm": 0.8759224769552714,
      "learning_rate": 7.770944934192952e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7900744676589966,
      "num_tokens": 33809392.0,
      "step": 3016
    },
    {
      "epoch": 0.39875759978852765,
      "grad_norm": 0.9895204114102378,
      "learning_rate": 7.769152223849326e-06,
      "loss": 0.6494,
      "mean_token_accuracy": 0.7883653044700623,
      "num_tokens": 33874928.0,
      "step": 3017
    },
    {
      "epoch": 0.39888977002379067,
      "grad_norm": 0.9211303558541668,
      "learning_rate": 7.76735903045057e-06,
      "loss": 0.6883,
      "mean_token_accuracy": 0.7745696306228638,
      "num_tokens": 33940464.0,
      "step": 3018
    },
    {
      "epoch": 0.3990219402590537,
      "grad_norm": 0.980248827825292,
      "learning_rate": 7.765565354378414e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8041600584983826,
      "num_tokens": 34006000.0,
      "step": 3019
    },
    {
      "epoch": 0.3991541104943167,
      "grad_norm": 0.8798519802460064,
      "learning_rate": 7.763771196014694e-06,
      "loss": 0.6083,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 34071536.0,
      "step": 3020
    },
    {
      "epoch": 0.3992862807295797,
      "grad_norm": 0.8431673057494491,
      "learning_rate": 7.761976555741353e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.8026797771453857,
      "num_tokens": 34137072.0,
      "step": 3021
    },
    {
      "epoch": 0.39941845096484274,
      "grad_norm": 0.9406686110156768,
      "learning_rate": 7.76018143394043e-06,
      "loss": 0.6297,
      "mean_token_accuracy": 0.792348325252533,
      "num_tokens": 34202608.0,
      "step": 3022
    },
    {
      "epoch": 0.39955062120010576,
      "grad_norm": 0.8958057473296831,
      "learning_rate": 7.758385830994067e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8051519989967346,
      "num_tokens": 34268144.0,
      "step": 3023
    },
    {
      "epoch": 0.3996827914353688,
      "grad_norm": 0.8736526274291566,
      "learning_rate": 7.756589747284514e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8055030107498169,
      "num_tokens": 34333680.0,
      "step": 3024
    },
    {
      "epoch": 0.3998149616706318,
      "grad_norm": 0.904143699335065,
      "learning_rate": 7.754793183194116e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7985899448394775,
      "num_tokens": 34399216.0,
      "step": 3025
    },
    {
      "epoch": 0.3999471319058948,
      "grad_norm": 0.8640008305900881,
      "learning_rate": 7.752996139105328e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 34464752.0,
      "step": 3026
    },
    {
      "epoch": 0.40007930214115783,
      "grad_norm": 0.9059285117444803,
      "learning_rate": 7.751198615400701e-06,
      "loss": 0.613,
      "mean_token_accuracy": 0.7984525561332703,
      "num_tokens": 34530288.0,
      "step": 3027
    },
    {
      "epoch": 0.40021147237642085,
      "grad_norm": 1.0020846097147158,
      "learning_rate": 7.749400612462889e-06,
      "loss": 0.6529,
      "mean_token_accuracy": 0.7866408228874207,
      "num_tokens": 34595824.0,
      "step": 3028
    },
    {
      "epoch": 0.40034364261168387,
      "grad_norm": 0.8125382017900008,
      "learning_rate": 7.747602130674653e-06,
      "loss": 0.6521,
      "mean_token_accuracy": 0.7862440347671509,
      "num_tokens": 34661360.0,
      "step": 3029
    },
    {
      "epoch": 0.4004758128469469,
      "grad_norm": 0.8928703669229976,
      "learning_rate": 7.74580317041885e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.802008330821991,
      "num_tokens": 34726896.0,
      "step": 3030
    },
    {
      "epoch": 0.4006079830822099,
      "grad_norm": 0.8135660291702115,
      "learning_rate": 7.744003732078439e-06,
      "loss": 0.5983,
      "mean_token_accuracy": 0.8072121739387512,
      "num_tokens": 34792432.0,
      "step": 3031
    },
    {
      "epoch": 0.4007401533174729,
      "grad_norm": 0.9281885028157927,
      "learning_rate": 7.742203816036485e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8120192885398865,
      "num_tokens": 34857968.0,
      "step": 3032
    },
    {
      "epoch": 0.40087232355273594,
      "grad_norm": 0.8514683856003119,
      "learning_rate": 7.740403422676152e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 34923504.0,
      "step": 3033
    },
    {
      "epoch": 0.40100449378799896,
      "grad_norm": 0.9491483443549286,
      "learning_rate": 7.738602552380708e-06,
      "loss": 0.6595,
      "mean_token_accuracy": 0.7814064025878906,
      "num_tokens": 34989040.0,
      "step": 3034
    },
    {
      "epoch": 0.401136664023262,
      "grad_norm": 0.8888393130794988,
      "learning_rate": 7.73680120553352e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8037480115890503,
      "num_tokens": 35054576.0,
      "step": 3035
    },
    {
      "epoch": 0.401268834258525,
      "grad_norm": 0.874255372104847,
      "learning_rate": 7.734999382518055e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 35120112.0,
      "step": 3036
    },
    {
      "epoch": 0.401401004493788,
      "grad_norm": 0.9546377104753284,
      "learning_rate": 7.733197083717885e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.7981473803520203,
      "num_tokens": 35185648.0,
      "step": 3037
    },
    {
      "epoch": 0.40153317472905103,
      "grad_norm": 1.019397867629862,
      "learning_rate": 7.731394309516681e-06,
      "loss": 0.637,
      "mean_token_accuracy": 0.7929739952087402,
      "num_tokens": 35251184.0,
      "step": 3038
    },
    {
      "epoch": 0.40166534496431405,
      "grad_norm": 0.9173860356642831,
      "learning_rate": 7.729591060298219e-06,
      "loss": 0.631,
      "mean_token_accuracy": 0.7971401810646057,
      "num_tokens": 35316720.0,
      "step": 3039
    },
    {
      "epoch": 0.40179751519957707,
      "grad_norm": 0.9219153487997902,
      "learning_rate": 7.72778733644637e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.7947595119476318,
      "num_tokens": 35382256.0,
      "step": 3040
    },
    {
      "epoch": 0.4019296854348401,
      "grad_norm": 0.9559181870160599,
      "learning_rate": 7.725983138345107e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.8009247779846191,
      "num_tokens": 35447792.0,
      "step": 3041
    },
    {
      "epoch": 0.4020618556701031,
      "grad_norm": 0.9416771235766201,
      "learning_rate": 7.724178466378512e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7909290790557861,
      "num_tokens": 35513328.0,
      "step": 3042
    },
    {
      "epoch": 0.4021940259053661,
      "grad_norm": 0.8447413883389375,
      "learning_rate": 7.722373320930759e-06,
      "loss": 0.5826,
      "mean_token_accuracy": 0.8058387041091919,
      "num_tokens": 35578864.0,
      "step": 3043
    },
    {
      "epoch": 0.40232619614062914,
      "grad_norm": 0.8978403353609485,
      "learning_rate": 7.720567702386122e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8018556833267212,
      "num_tokens": 35644400.0,
      "step": 3044
    },
    {
      "epoch": 0.40245836637589216,
      "grad_norm": 0.9002348561488662,
      "learning_rate": 7.718761611128987e-06,
      "loss": 0.6219,
      "mean_token_accuracy": 0.7947289943695068,
      "num_tokens": 35709936.0,
      "step": 3045
    },
    {
      "epoch": 0.4025905366111552,
      "grad_norm": 0.9855770759898658,
      "learning_rate": 7.71695504754383e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.7930808067321777,
      "num_tokens": 35775472.0,
      "step": 3046
    },
    {
      "epoch": 0.4027227068464182,
      "grad_norm": 0.9114615633906724,
      "learning_rate": 7.715148012015228e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.7850689888000488,
      "num_tokens": 35841008.0,
      "step": 3047
    },
    {
      "epoch": 0.4028548770816812,
      "grad_norm": 0.8713865667531104,
      "learning_rate": 7.713340504927863e-06,
      "loss": 0.6063,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 35906544.0,
      "step": 3048
    },
    {
      "epoch": 0.40298704731694424,
      "grad_norm": 0.9565489794411614,
      "learning_rate": 7.711532526666518e-06,
      "loss": 0.6397,
      "mean_token_accuracy": 0.7910053730010986,
      "num_tokens": 35972080.0,
      "step": 3049
    },
    {
      "epoch": 0.40311921755220725,
      "grad_norm": 0.9412587160204532,
      "learning_rate": 7.709724077616069e-06,
      "loss": 0.5879,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 36037616.0,
      "step": 3050
    },
    {
      "epoch": 0.4032513877874703,
      "grad_norm": 0.9063285298679623,
      "learning_rate": 7.707915158161503e-06,
      "loss": 0.6393,
      "mean_token_accuracy": 0.7915242314338684,
      "num_tokens": 36103152.0,
      "step": 3051
    },
    {
      "epoch": 0.4033835580227333,
      "grad_norm": 0.8958326846687054,
      "learning_rate": 7.706105768687894e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.8029086589813232,
      "num_tokens": 36168688.0,
      "step": 3052
    },
    {
      "epoch": 0.4035157282579963,
      "grad_norm": 1.0064429489623126,
      "learning_rate": 7.70429590958043e-06,
      "loss": 0.6517,
      "mean_token_accuracy": 0.7839854955673218,
      "num_tokens": 36234224.0,
      "step": 3053
    },
    {
      "epoch": 0.4036478984932593,
      "grad_norm": 0.8706898935288645,
      "learning_rate": 7.702485581224386e-06,
      "loss": 0.638,
      "mean_token_accuracy": 0.7916615605354309,
      "num_tokens": 36299760.0,
      "step": 3054
    },
    {
      "epoch": 0.40378006872852235,
      "grad_norm": 0.8736410967019707,
      "learning_rate": 7.700674784005147e-06,
      "loss": 0.6647,
      "mean_token_accuracy": 0.7827035784721375,
      "num_tokens": 36365296.0,
      "step": 3055
    },
    {
      "epoch": 0.40391223896378536,
      "grad_norm": 0.9139276254743091,
      "learning_rate": 7.698863518308196e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7860456705093384,
      "num_tokens": 36430832.0,
      "step": 3056
    },
    {
      "epoch": 0.4040444091990484,
      "grad_norm": 0.9294602702217996,
      "learning_rate": 7.69705178451911e-06,
      "loss": 0.6417,
      "mean_token_accuracy": 0.7894182801246643,
      "num_tokens": 36496368.0,
      "step": 3057
    },
    {
      "epoch": 0.4041765794343114,
      "grad_norm": 0.8758151148449125,
      "learning_rate": 7.695239583023568e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8202295303344727,
      "num_tokens": 36561904.0,
      "step": 3058
    },
    {
      "epoch": 0.4043087496695744,
      "grad_norm": 0.9096052836614942,
      "learning_rate": 7.693426914207354e-06,
      "loss": 0.6344,
      "mean_token_accuracy": 0.7918599843978882,
      "num_tokens": 36627440.0,
      "step": 3059
    },
    {
      "epoch": 0.40444091990483744,
      "grad_norm": 0.8224136170926726,
      "learning_rate": 7.691613778456347e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.8017183542251587,
      "num_tokens": 36692976.0,
      "step": 3060
    },
    {
      "epoch": 0.40457309014010046,
      "grad_norm": 0.9116650633739508,
      "learning_rate": 7.68980017615652e-06,
      "loss": 0.5751,
      "mean_token_accuracy": 0.8132401704788208,
      "num_tokens": 36758512.0,
      "step": 3061
    },
    {
      "epoch": 0.4047052603753635,
      "grad_norm": 0.8954792562753704,
      "learning_rate": 7.687986107693956e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7957514524459839,
      "num_tokens": 36824048.0,
      "step": 3062
    },
    {
      "epoch": 0.4048374306106265,
      "grad_norm": 0.9089085758056377,
      "learning_rate": 7.686171573454834e-06,
      "loss": 0.5869,
      "mean_token_accuracy": 0.8062354922294617,
      "num_tokens": 36889584.0,
      "step": 3063
    },
    {
      "epoch": 0.4049696008458895,
      "grad_norm": 0.8474113836236166,
      "learning_rate": 7.684356573825426e-06,
      "loss": 0.628,
      "mean_token_accuracy": 0.7932028770446777,
      "num_tokens": 36955120.0,
      "step": 3064
    },
    {
      "epoch": 0.40510177108115253,
      "grad_norm": 0.8387085446480116,
      "learning_rate": 7.68254110919211e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8091807961463928,
      "num_tokens": 37020656.0,
      "step": 3065
    },
    {
      "epoch": 0.40523394131641555,
      "grad_norm": 0.9165927433536118,
      "learning_rate": 7.680725179941361e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8013673424720764,
      "num_tokens": 37086192.0,
      "step": 3066
    },
    {
      "epoch": 0.40536611155167857,
      "grad_norm": 0.9120943641181117,
      "learning_rate": 7.678908786459751e-06,
      "loss": 0.6165,
      "mean_token_accuracy": 0.7982541918754578,
      "num_tokens": 37151728.0,
      "step": 3067
    },
    {
      "epoch": 0.4054982817869416,
      "grad_norm": 0.9700441993442085,
      "learning_rate": 7.677091929133954e-06,
      "loss": 0.6825,
      "mean_token_accuracy": 0.7771029472351074,
      "num_tokens": 37217264.0,
      "step": 3068
    },
    {
      "epoch": 0.4056304520222046,
      "grad_norm": 0.9409473061120418,
      "learning_rate": 7.675274608350738e-06,
      "loss": 0.6563,
      "mean_token_accuracy": 0.7850079536437988,
      "num_tokens": 37282800.0,
      "step": 3069
    },
    {
      "epoch": 0.4057626222574676,
      "grad_norm": 0.8583555192856276,
      "learning_rate": 7.673456824496975e-06,
      "loss": 0.587,
      "mean_token_accuracy": 0.8076852560043335,
      "num_tokens": 37348336.0,
      "step": 3070
    },
    {
      "epoch": 0.40589479249273064,
      "grad_norm": 0.94946154339193,
      "learning_rate": 7.671638577959632e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 37413872.0,
      "step": 3071
    },
    {
      "epoch": 0.40602696272799366,
      "grad_norm": 0.823351402356534,
      "learning_rate": 7.669819869125777e-06,
      "loss": 0.5487,
      "mean_token_accuracy": 0.8204278945922852,
      "num_tokens": 37479408.0,
      "step": 3072
    },
    {
      "epoch": 0.4061591329632567,
      "grad_norm": 1.0547177890621096,
      "learning_rate": 7.668000698382573e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.8006653785705566,
      "num_tokens": 37544944.0,
      "step": 3073
    },
    {
      "epoch": 0.4062913031985197,
      "grad_norm": 0.8389569584744346,
      "learning_rate": 7.666181066117287e-06,
      "loss": 0.5752,
      "mean_token_accuracy": 0.808478832244873,
      "num_tokens": 37610480.0,
      "step": 3074
    },
    {
      "epoch": 0.4064234734337827,
      "grad_norm": 0.888798523456669,
      "learning_rate": 7.664360972717276e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8075631856918335,
      "num_tokens": 37676016.0,
      "step": 3075
    },
    {
      "epoch": 0.40655564366904573,
      "grad_norm": 0.9460352431881898,
      "learning_rate": 7.662540418570006e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 37741552.0,
      "step": 3076
    },
    {
      "epoch": 0.40668781390430875,
      "grad_norm": 0.8836616892584802,
      "learning_rate": 7.660719404063028e-06,
      "loss": 0.5771,
      "mean_token_accuracy": 0.8100964426994324,
      "num_tokens": 37807088.0,
      "step": 3077
    },
    {
      "epoch": 0.40681998413957177,
      "grad_norm": 0.8934818624260569,
      "learning_rate": 7.658897929584003e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.803091824054718,
      "num_tokens": 37872624.0,
      "step": 3078
    },
    {
      "epoch": 0.4069521543748348,
      "grad_norm": 0.9597700113584926,
      "learning_rate": 7.657075995520682e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8059913516044617,
      "num_tokens": 37938160.0,
      "step": 3079
    },
    {
      "epoch": 0.4070843246100978,
      "grad_norm": 0.8203129843091449,
      "learning_rate": 7.655253602260921e-06,
      "loss": 0.5889,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 38003696.0,
      "step": 3080
    },
    {
      "epoch": 0.4072164948453608,
      "grad_norm": 0.7850193027761616,
      "learning_rate": 7.653430750192664e-06,
      "loss": 0.5311,
      "mean_token_accuracy": 0.8290044069290161,
      "num_tokens": 38069232.0,
      "step": 3081
    },
    {
      "epoch": 0.40734866508062384,
      "grad_norm": 1.0652868292525373,
      "learning_rate": 7.651607439703962e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.802038848400116,
      "num_tokens": 38134768.0,
      "step": 3082
    },
    {
      "epoch": 0.40748083531588686,
      "grad_norm": 1.0036443720772772,
      "learning_rate": 7.649783671182957e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.8005542159080505,
      "num_tokens": 38197565.0,
      "step": 3083
    },
    {
      "epoch": 0.4076130055511499,
      "grad_norm": 0.8851647710445163,
      "learning_rate": 7.647959445017895e-06,
      "loss": 0.5775,
      "mean_token_accuracy": 0.8117751479148865,
      "num_tokens": 38263101.0,
      "step": 3084
    },
    {
      "epoch": 0.4077451757864129,
      "grad_norm": 0.9602256436430217,
      "learning_rate": 7.646134761597112e-06,
      "loss": 0.6664,
      "mean_token_accuracy": 0.784641683101654,
      "num_tokens": 38328637.0,
      "step": 3085
    },
    {
      "epoch": 0.4078773460216759,
      "grad_norm": 0.8915555687112207,
      "learning_rate": 7.644309621309045e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.7987425327301025,
      "num_tokens": 38394173.0,
      "step": 3086
    },
    {
      "epoch": 0.40800951625693893,
      "grad_norm": 0.9496659443677521,
      "learning_rate": 7.642484024542232e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7945916056632996,
      "num_tokens": 38459709.0,
      "step": 3087
    },
    {
      "epoch": 0.40814168649220195,
      "grad_norm": 0.8715754978174469,
      "learning_rate": 7.6406579716853e-06,
      "loss": 0.6168,
      "mean_token_accuracy": 0.7998565435409546,
      "num_tokens": 38525245.0,
      "step": 3088
    },
    {
      "epoch": 0.40827385672746497,
      "grad_norm": 1.069853145926252,
      "learning_rate": 7.63883146312698e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.7875564694404602,
      "num_tokens": 38590781.0,
      "step": 3089
    },
    {
      "epoch": 0.408406026962728,
      "grad_norm": 0.9113268449151061,
      "learning_rate": 7.637004499256099e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7930655479431152,
      "num_tokens": 38656317.0,
      "step": 3090
    },
    {
      "epoch": 0.408538197197991,
      "grad_norm": 0.9615362507230011,
      "learning_rate": 7.635177080461575e-06,
      "loss": 0.6419,
      "mean_token_accuracy": 0.7878769636154175,
      "num_tokens": 38721853.0,
      "step": 3091
    },
    {
      "epoch": 0.408670367433254,
      "grad_norm": 0.9017001069008315,
      "learning_rate": 7.633349207132432e-06,
      "loss": 0.5717,
      "mean_token_accuracy": 0.8109052777290344,
      "num_tokens": 38787389.0,
      "step": 3092
    },
    {
      "epoch": 0.40880253766851704,
      "grad_norm": 0.8393832838746871,
      "learning_rate": 7.631520879657783e-06,
      "loss": 0.6201,
      "mean_token_accuracy": 0.7967739105224609,
      "num_tokens": 38852925.0,
      "step": 3093
    },
    {
      "epoch": 0.40893470790378006,
      "grad_norm": 0.9464351917570715,
      "learning_rate": 7.62969209842684e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8045415878295898,
      "num_tokens": 38918461.0,
      "step": 3094
    },
    {
      "epoch": 0.4090668781390431,
      "grad_norm": 0.9128865165918822,
      "learning_rate": 7.6278628638289165e-06,
      "loss": 0.6219,
      "mean_token_accuracy": 0.7971706986427307,
      "num_tokens": 38983997.0,
      "step": 3095
    },
    {
      "epoch": 0.4091990483743061,
      "grad_norm": 0.8356474974667912,
      "learning_rate": 7.626033176253415e-06,
      "loss": 0.5457,
      "mean_token_accuracy": 0.8210688829421997,
      "num_tokens": 39049533.0,
      "step": 3096
    },
    {
      "epoch": 0.4093312186095691,
      "grad_norm": 0.905900376090036,
      "learning_rate": 7.624203036089838e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.7994902729988098,
      "num_tokens": 39115069.0,
      "step": 3097
    },
    {
      "epoch": 0.40946338884483213,
      "grad_norm": 0.8984332902467616,
      "learning_rate": 7.622372443727786e-06,
      "loss": 0.6128,
      "mean_token_accuracy": 0.7979947328567505,
      "num_tokens": 39180605.0,
      "step": 3098
    },
    {
      "epoch": 0.40959555908009515,
      "grad_norm": 0.960566651000325,
      "learning_rate": 7.620541399556951e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.7978116273880005,
      "num_tokens": 39246141.0,
      "step": 3099
    },
    {
      "epoch": 0.40972772931535817,
      "grad_norm": 0.9064680296914819,
      "learning_rate": 7.6187099039671274e-06,
      "loss": 0.6215,
      "mean_token_accuracy": 0.7946832180023193,
      "num_tokens": 39311677.0,
      "step": 3100
    },
    {
      "epoch": 0.4098598995506212,
      "grad_norm": 0.9620517891072256,
      "learning_rate": 7.6168779573482e-06,
      "loss": 0.6482,
      "mean_token_accuracy": 0.7872054576873779,
      "num_tokens": 39377213.0,
      "step": 3101
    },
    {
      "epoch": 0.4099920697858842,
      "grad_norm": 0.7902298199783856,
      "learning_rate": 7.6150455600901514e-06,
      "loss": 0.539,
      "mean_token_accuracy": 0.8262879848480225,
      "num_tokens": 39442749.0,
      "step": 3102
    },
    {
      "epoch": 0.4101242400211472,
      "grad_norm": 0.8527543233477216,
      "learning_rate": 7.613212712583064e-06,
      "loss": 0.6165,
      "mean_token_accuracy": 0.7981473803520203,
      "num_tokens": 39508285.0,
      "step": 3103
    },
    {
      "epoch": 0.41025641025641024,
      "grad_norm": 0.8895857536309574,
      "learning_rate": 7.611379415217111e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.8063423037528992,
      "num_tokens": 39573821.0,
      "step": 3104
    },
    {
      "epoch": 0.41038858049167326,
      "grad_norm": 0.9682183345560429,
      "learning_rate": 7.609545668382562e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.8018251657485962,
      "num_tokens": 39639357.0,
      "step": 3105
    },
    {
      "epoch": 0.4105207507269363,
      "grad_norm": 0.8399091587615124,
      "learning_rate": 7.607711472469784e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7899066209793091,
      "num_tokens": 39704893.0,
      "step": 3106
    },
    {
      "epoch": 0.4106529209621993,
      "grad_norm": 0.8520885905281446,
      "learning_rate": 7.60587682786924e-06,
      "loss": 0.5695,
      "mean_token_accuracy": 0.8138048052787781,
      "num_tokens": 39770429.0,
      "step": 3107
    },
    {
      "epoch": 0.4107850911974623,
      "grad_norm": 0.8784220652172753,
      "learning_rate": 7.604041734971487e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.79330974817276,
      "num_tokens": 39835965.0,
      "step": 3108
    },
    {
      "epoch": 0.41091726143272533,
      "grad_norm": 0.9721750977375809,
      "learning_rate": 7.602206194167177e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.7986509799957275,
      "num_tokens": 39901501.0,
      "step": 3109
    },
    {
      "epoch": 0.41104943166798835,
      "grad_norm": 0.7878201284802893,
      "learning_rate": 7.6003702058470595e-06,
      "loss": 0.5765,
      "mean_token_accuracy": 0.808692455291748,
      "num_tokens": 39967037.0,
      "step": 3110
    },
    {
      "epoch": 0.41118160190325137,
      "grad_norm": 0.9008350946798332,
      "learning_rate": 7.598533770401979e-06,
      "loss": 0.635,
      "mean_token_accuracy": 0.7961024045944214,
      "num_tokens": 40032573.0,
      "step": 3111
    },
    {
      "epoch": 0.4113137721385144,
      "grad_norm": 0.9004298705896351,
      "learning_rate": 7.596696888222872e-06,
      "loss": 0.6345,
      "mean_token_accuracy": 0.7926077246665955,
      "num_tokens": 40098109.0,
      "step": 3112
    },
    {
      "epoch": 0.4114459423737774,
      "grad_norm": 0.8862805209324015,
      "learning_rate": 7.594859559700774e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 40163645.0,
      "step": 3113
    },
    {
      "epoch": 0.4115781126090404,
      "grad_norm": 0.956555658277742,
      "learning_rate": 7.593021785226811e-06,
      "loss": 0.6723,
      "mean_token_accuracy": 0.7813606262207031,
      "num_tokens": 40229181.0,
      "step": 3114
    },
    {
      "epoch": 0.41171028284430344,
      "grad_norm": 0.8873923787509788,
      "learning_rate": 7.59118356519221e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.7994139790534973,
      "num_tokens": 40294717.0,
      "step": 3115
    },
    {
      "epoch": 0.41184245307956646,
      "grad_norm": 0.9553139340868986,
      "learning_rate": 7.589344899988292e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 40360253.0,
      "step": 3116
    },
    {
      "epoch": 0.4119746233148295,
      "grad_norm": 0.8891263835284333,
      "learning_rate": 7.587505790006463e-06,
      "loss": 0.635,
      "mean_token_accuracy": 0.7923941016197205,
      "num_tokens": 40425789.0,
      "step": 3117
    },
    {
      "epoch": 0.4121067935500925,
      "grad_norm": 0.8867317974774698,
      "learning_rate": 7.585666235638237e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8116072416305542,
      "num_tokens": 40491325.0,
      "step": 3118
    },
    {
      "epoch": 0.4122389637853555,
      "grad_norm": 0.8441146665097432,
      "learning_rate": 7.583826237275216e-06,
      "loss": 0.5969,
      "mean_token_accuracy": 0.8025119304656982,
      "num_tokens": 40556861.0,
      "step": 3119
    },
    {
      "epoch": 0.41237113402061853,
      "grad_norm": 0.8491849969230632,
      "learning_rate": 7.581985795309094e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8047704696655273,
      "num_tokens": 40622397.0,
      "step": 3120
    },
    {
      "epoch": 0.41250330425588155,
      "grad_norm": 0.9496054300533712,
      "learning_rate": 7.580144910131666e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7963466048240662,
      "num_tokens": 40687933.0,
      "step": 3121
    },
    {
      "epoch": 0.41263547449114457,
      "grad_norm": 0.9358400608683253,
      "learning_rate": 7.578303582134818e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.8003601431846619,
      "num_tokens": 40753469.0,
      "step": 3122
    },
    {
      "epoch": 0.4127676447264076,
      "grad_norm": 1.0543234296643573,
      "learning_rate": 7.576461811710527e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.78277987241745,
      "num_tokens": 40819005.0,
      "step": 3123
    },
    {
      "epoch": 0.4128998149616706,
      "grad_norm": 0.9737233240476455,
      "learning_rate": 7.574619599250872e-06,
      "loss": 0.6921,
      "mean_token_accuracy": 0.7740660309791565,
      "num_tokens": 40884541.0,
      "step": 3124
    },
    {
      "epoch": 0.4130319851969336,
      "grad_norm": 0.7787332222324115,
      "learning_rate": 7.572776945148017e-06,
      "loss": 0.5613,
      "mean_token_accuracy": 0.8164143562316895,
      "num_tokens": 40950077.0,
      "step": 3125
    },
    {
      "epoch": 0.41316415543219664,
      "grad_norm": 0.886827910091689,
      "learning_rate": 7.570933849794227e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.8093487024307251,
      "num_tokens": 41015613.0,
      "step": 3126
    },
    {
      "epoch": 0.41329632566745966,
      "grad_norm": 0.809881105072587,
      "learning_rate": 7.569090313581861e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8085246086120605,
      "num_tokens": 41081149.0,
      "step": 3127
    },
    {
      "epoch": 0.4134284959027227,
      "grad_norm": 0.8859115358910898,
      "learning_rate": 7.567246336903365e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.7964991927146912,
      "num_tokens": 41146685.0,
      "step": 3128
    },
    {
      "epoch": 0.4135606661379857,
      "grad_norm": 0.9321313612217359,
      "learning_rate": 7.565401920151285e-06,
      "loss": 0.5775,
      "mean_token_accuracy": 0.8105390071868896,
      "num_tokens": 41212221.0,
      "step": 3129
    },
    {
      "epoch": 0.4136928363732487,
      "grad_norm": 0.8178757833497631,
      "learning_rate": 7.56355706371826e-06,
      "loss": 0.5574,
      "mean_token_accuracy": 0.818321943283081,
      "num_tokens": 41277757.0,
      "step": 3130
    },
    {
      "epoch": 0.41382500660851174,
      "grad_norm": 0.9164926199215059,
      "learning_rate": 7.561711767997018e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.8047246932983398,
      "num_tokens": 41343293.0,
      "step": 3131
    },
    {
      "epoch": 0.41395717684377475,
      "grad_norm": 0.9296356489751461,
      "learning_rate": 7.559866033380387e-06,
      "loss": 0.6585,
      "mean_token_accuracy": 0.7833902835845947,
      "num_tokens": 41408829.0,
      "step": 3132
    },
    {
      "epoch": 0.41408934707903783,
      "grad_norm": 0.8929238679833522,
      "learning_rate": 7.558019860261283e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.813087522983551,
      "num_tokens": 41474365.0,
      "step": 3133
    },
    {
      "epoch": 0.41422151731430085,
      "grad_norm": 0.8649927509213765,
      "learning_rate": 7.556173249032721e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8032901883125305,
      "num_tokens": 41539901.0,
      "step": 3134
    },
    {
      "epoch": 0.41435368754956386,
      "grad_norm": 0.8585800171175982,
      "learning_rate": 7.5543262000878034e-06,
      "loss": 0.5855,
      "mean_token_accuracy": 0.807669997215271,
      "num_tokens": 41605437.0,
      "step": 3135
    },
    {
      "epoch": 0.4144858577848269,
      "grad_norm": 0.9438912782464203,
      "learning_rate": 7.55247871381973e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7906696200370789,
      "num_tokens": 41670973.0,
      "step": 3136
    },
    {
      "epoch": 0.4146180280200899,
      "grad_norm": 0.8433044704496159,
      "learning_rate": 7.550630790621789e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 41736509.0,
      "step": 3137
    },
    {
      "epoch": 0.4147501982553529,
      "grad_norm": 0.8635319374243418,
      "learning_rate": 7.548782430887368e-06,
      "loss": 0.5451,
      "mean_token_accuracy": 0.8209772706031799,
      "num_tokens": 41802045.0,
      "step": 3138
    },
    {
      "epoch": 0.41488236849061594,
      "grad_norm": 0.8511056591339393,
      "learning_rate": 7.546933635009942e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8025424480438232,
      "num_tokens": 41867581.0,
      "step": 3139
    },
    {
      "epoch": 0.41501453872587896,
      "grad_norm": 0.8765485016840098,
      "learning_rate": 7.545084403383084e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7952020764350891,
      "num_tokens": 41933117.0,
      "step": 3140
    },
    {
      "epoch": 0.415146708961142,
      "grad_norm": 0.8490672820677349,
      "learning_rate": 7.543234736400453e-06,
      "loss": 0.5864,
      "mean_token_accuracy": 0.8082346320152283,
      "num_tokens": 41998653.0,
      "step": 3141
    },
    {
      "epoch": 0.415278879196405,
      "grad_norm": 1.0179976981447092,
      "learning_rate": 7.541384634455807e-06,
      "loss": 0.641,
      "mean_token_accuracy": 0.7877243161201477,
      "num_tokens": 42064189.0,
      "step": 3142
    },
    {
      "epoch": 0.415411049431668,
      "grad_norm": 0.867450993459796,
      "learning_rate": 7.539534097942993e-06,
      "loss": 0.6086,
      "mean_token_accuracy": 0.8017946481704712,
      "num_tokens": 42129725.0,
      "step": 3143
    },
    {
      "epoch": 0.41554321966693103,
      "grad_norm": 0.9069933292485772,
      "learning_rate": 7.537683127255952e-06,
      "loss": 0.6292,
      "mean_token_accuracy": 0.7948815822601318,
      "num_tokens": 42195261.0,
      "step": 3144
    },
    {
      "epoch": 0.41567538990219405,
      "grad_norm": 0.838518812829915,
      "learning_rate": 7.535831722788718e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 42260797.0,
      "step": 3145
    },
    {
      "epoch": 0.41580756013745707,
      "grad_norm": 0.8444189084855036,
      "learning_rate": 7.533979884935414e-06,
      "loss": 0.5413,
      "mean_token_accuracy": 0.8209925293922424,
      "num_tokens": 42326333.0,
      "step": 3146
    },
    {
      "epoch": 0.4159397303727201,
      "grad_norm": 0.8484596714982816,
      "learning_rate": 7.53212761409026e-06,
      "loss": 0.6241,
      "mean_token_accuracy": 0.7953241467475891,
      "num_tokens": 42391869.0,
      "step": 3147
    },
    {
      "epoch": 0.4160719006079831,
      "grad_norm": 0.9990665728358495,
      "learning_rate": 7.530274910647565e-06,
      "loss": 0.6741,
      "mean_token_accuracy": 0.779193639755249,
      "num_tokens": 42457405.0,
      "step": 3148
    },
    {
      "epoch": 0.4162040708432461,
      "grad_norm": 0.9528219718208898,
      "learning_rate": 7.528421775001729e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.7885178923606873,
      "num_tokens": 42522941.0,
      "step": 3149
    },
    {
      "epoch": 0.41633624107850914,
      "grad_norm": 0.9096042266114485,
      "learning_rate": 7.526568207547248e-06,
      "loss": 0.5932,
      "mean_token_accuracy": 0.8016420602798462,
      "num_tokens": 42588477.0,
      "step": 3150
    },
    {
      "epoch": 0.41646841131377216,
      "grad_norm": 0.8628085945493648,
      "learning_rate": 7.52471420867871e-06,
      "loss": 0.623,
      "mean_token_accuracy": 0.7952325940132141,
      "num_tokens": 42654013.0,
      "step": 3151
    },
    {
      "epoch": 0.4166005815490352,
      "grad_norm": 0.9324801650324972,
      "learning_rate": 7.5228597787907866e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.7967739105224609,
      "num_tokens": 42719549.0,
      "step": 3152
    },
    {
      "epoch": 0.4167327517842982,
      "grad_norm": 0.8512112125307313,
      "learning_rate": 7.521004918278252e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.7991088032722473,
      "num_tokens": 42785085.0,
      "step": 3153
    },
    {
      "epoch": 0.4168649220195612,
      "grad_norm": 0.8421478486930777,
      "learning_rate": 7.519149627535965e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8144152164459229,
      "num_tokens": 42850621.0,
      "step": 3154
    },
    {
      "epoch": 0.41699709225482423,
      "grad_norm": 0.8584324081500558,
      "learning_rate": 7.517293906958879e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8027865886688232,
      "num_tokens": 42916157.0,
      "step": 3155
    },
    {
      "epoch": 0.41712926249008725,
      "grad_norm": 0.8477370422223846,
      "learning_rate": 7.515437756942039e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8047094345092773,
      "num_tokens": 42981693.0,
      "step": 3156
    },
    {
      "epoch": 0.41726143272535027,
      "grad_norm": 0.9659184161407645,
      "learning_rate": 7.51358117788058e-06,
      "loss": 0.6697,
      "mean_token_accuracy": 0.7801703214645386,
      "num_tokens": 43047229.0,
      "step": 3157
    },
    {
      "epoch": 0.4173936029606133,
      "grad_norm": 0.8722553764924459,
      "learning_rate": 7.511724170169727e-06,
      "loss": 0.652,
      "mean_token_accuracy": 0.7841380834579468,
      "num_tokens": 43112765.0,
      "step": 3158
    },
    {
      "epoch": 0.4175257731958763,
      "grad_norm": 0.8359433170041688,
      "learning_rate": 7.509866734204801e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.807425856590271,
      "num_tokens": 43178301.0,
      "step": 3159
    },
    {
      "epoch": 0.4176579434311393,
      "grad_norm": 0.8074491080227677,
      "learning_rate": 7.5080088703812116e-06,
      "loss": 0.5636,
      "mean_token_accuracy": 0.8149188160896301,
      "num_tokens": 43243837.0,
      "step": 3160
    },
    {
      "epoch": 0.41779011366640234,
      "grad_norm": 0.9077893664812896,
      "learning_rate": 7.506150579094457e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8017183542251587,
      "num_tokens": 43309373.0,
      "step": 3161
    },
    {
      "epoch": 0.41792228390166536,
      "grad_norm": 0.8995445764928478,
      "learning_rate": 7.50429186074013e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 43374909.0,
      "step": 3162
    },
    {
      "epoch": 0.4180544541369284,
      "grad_norm": 0.9090846021529781,
      "learning_rate": 7.502432715713911e-06,
      "loss": 0.6492,
      "mean_token_accuracy": 0.7849316596984863,
      "num_tokens": 43440445.0,
      "step": 3163
    },
    {
      "epoch": 0.4181866243721914,
      "grad_norm": 0.884468104363864,
      "learning_rate": 7.500573144411576e-06,
      "loss": 0.6496,
      "mean_token_accuracy": 0.7858014702796936,
      "num_tokens": 43505981.0,
      "step": 3164
    },
    {
      "epoch": 0.4183187946074544,
      "grad_norm": 0.8198835905447049,
      "learning_rate": 7.498713147228986e-06,
      "loss": 0.5531,
      "mean_token_accuracy": 0.8192070722579956,
      "num_tokens": 43571517.0,
      "step": 3165
    },
    {
      "epoch": 0.41845096484271743,
      "grad_norm": 0.8424041834900651,
      "learning_rate": 7.496852724562099e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7985899448394775,
      "num_tokens": 43637053.0,
      "step": 3166
    },
    {
      "epoch": 0.41858313507798045,
      "grad_norm": 0.8422497340632875,
      "learning_rate": 7.494991876806957e-06,
      "loss": 0.598,
      "mean_token_accuracy": 0.8021761775016785,
      "num_tokens": 43702589.0,
      "step": 3167
    },
    {
      "epoch": 0.41871530531324347,
      "grad_norm": 0.9435718688632557,
      "learning_rate": 7.493130604359698e-06,
      "loss": 0.6308,
      "mean_token_accuracy": 0.7956293225288391,
      "num_tokens": 43768125.0,
      "step": 3168
    },
    {
      "epoch": 0.4188474755485065,
      "grad_norm": 0.9202355554386816,
      "learning_rate": 7.4912689076165465e-06,
      "loss": 0.6466,
      "mean_token_accuracy": 0.7866408228874207,
      "num_tokens": 43833661.0,
      "step": 3169
    },
    {
      "epoch": 0.4189796457837695,
      "grad_norm": 0.9765146822160318,
      "learning_rate": 7.489406786973818e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7891740798950195,
      "num_tokens": 43899197.0,
      "step": 3170
    },
    {
      "epoch": 0.4191118160190325,
      "grad_norm": 0.8332899528847161,
      "learning_rate": 7.487544242827922e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.8093639612197876,
      "num_tokens": 43964733.0,
      "step": 3171
    },
    {
      "epoch": 0.41924398625429554,
      "grad_norm": 0.7956538261909492,
      "learning_rate": 7.485681275575352e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8123703002929688,
      "num_tokens": 44030269.0,
      "step": 3172
    },
    {
      "epoch": 0.41937615648955856,
      "grad_norm": 0.8635445523527859,
      "learning_rate": 7.4838178856126985e-06,
      "loss": 0.6535,
      "mean_token_accuracy": 0.7865492701530457,
      "num_tokens": 44095805.0,
      "step": 3173
    },
    {
      "epoch": 0.4195083267248216,
      "grad_norm": 0.8783442770994335,
      "learning_rate": 7.481954073336635e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.8037785291671753,
      "num_tokens": 44161341.0,
      "step": 3174
    },
    {
      "epoch": 0.4196404969600846,
      "grad_norm": 0.8550878226542789,
      "learning_rate": 7.480089839143929e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.7959498167037964,
      "num_tokens": 44226877.0,
      "step": 3175
    },
    {
      "epoch": 0.4197726671953476,
      "grad_norm": 0.9748556304847932,
      "learning_rate": 7.478225183431439e-06,
      "loss": 0.6772,
      "mean_token_accuracy": 0.7789799571037292,
      "num_tokens": 44292413.0,
      "step": 3176
    },
    {
      "epoch": 0.41990483743061063,
      "grad_norm": 0.8473823424441518,
      "learning_rate": 7.476360106596109e-06,
      "loss": 0.5383,
      "mean_token_accuracy": 0.8221523761749268,
      "num_tokens": 44357949.0,
      "step": 3177
    },
    {
      "epoch": 0.42003700766587365,
      "grad_norm": 0.9450456438446863,
      "learning_rate": 7.474494609034976e-06,
      "loss": 0.6571,
      "mean_token_accuracy": 0.7837870717048645,
      "num_tokens": 44423485.0,
      "step": 3178
    },
    {
      "epoch": 0.42016917790113667,
      "grad_norm": 0.878532361059284,
      "learning_rate": 7.472628691145164e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.7960871458053589,
      "num_tokens": 44489021.0,
      "step": 3179
    },
    {
      "epoch": 0.4203013481363997,
      "grad_norm": 0.8587615432691137,
      "learning_rate": 7.470762353323891e-06,
      "loss": 0.5448,
      "mean_token_accuracy": 0.8237242102622986,
      "num_tokens": 44554557.0,
      "step": 3180
    },
    {
      "epoch": 0.4204335183716627,
      "grad_norm": 0.9398295208805921,
      "learning_rate": 7.4688955959684585e-06,
      "loss": 0.6139,
      "mean_token_accuracy": 0.7975369095802307,
      "num_tokens": 44620093.0,
      "step": 3181
    },
    {
      "epoch": 0.4205656886069257,
      "grad_norm": 0.8804039881794801,
      "learning_rate": 7.467028419476261e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.7958277463912964,
      "num_tokens": 44685629.0,
      "step": 3182
    },
    {
      "epoch": 0.42069785884218874,
      "grad_norm": 0.9106123063532509,
      "learning_rate": 7.465160824244782e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8018251657485962,
      "num_tokens": 44751165.0,
      "step": 3183
    },
    {
      "epoch": 0.42083002907745176,
      "grad_norm": 0.7597478075048829,
      "learning_rate": 7.463292810671592e-06,
      "loss": 0.5267,
      "mean_token_accuracy": 0.827081561088562,
      "num_tokens": 44816701.0,
      "step": 3184
    },
    {
      "epoch": 0.4209621993127148,
      "grad_norm": 0.9637124618065243,
      "learning_rate": 7.461424379154356e-06,
      "loss": 0.6674,
      "mean_token_accuracy": 0.7786595225334167,
      "num_tokens": 44882237.0,
      "step": 3185
    },
    {
      "epoch": 0.4210943695479778,
      "grad_norm": 0.889334763981788,
      "learning_rate": 7.459555530090819e-06,
      "loss": 0.585,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 44947773.0,
      "step": 3186
    },
    {
      "epoch": 0.4212265397832408,
      "grad_norm": 0.8599647127045608,
      "learning_rate": 7.4576862638788225e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8179556727409363,
      "num_tokens": 45013309.0,
      "step": 3187
    },
    {
      "epoch": 0.42135871001850383,
      "grad_norm": 0.821963799878799,
      "learning_rate": 7.455816580916295e-06,
      "loss": 0.5788,
      "mean_token_accuracy": 0.8093334436416626,
      "num_tokens": 45078845.0,
      "step": 3188
    },
    {
      "epoch": 0.42149088025376685,
      "grad_norm": 1.0229605010386416,
      "learning_rate": 7.4539464816012505e-06,
      "loss": 0.6466,
      "mean_token_accuracy": 0.7893572449684143,
      "num_tokens": 45144381.0,
      "step": 3189
    },
    {
      "epoch": 0.42162305048902987,
      "grad_norm": 0.9450733993225318,
      "learning_rate": 7.452075966331798e-06,
      "loss": 0.6445,
      "mean_token_accuracy": 0.7891740798950195,
      "num_tokens": 45209917.0,
      "step": 3190
    },
    {
      "epoch": 0.4217552207242929,
      "grad_norm": 0.9407312111240194,
      "learning_rate": 7.450205035506126e-06,
      "loss": 0.621,
      "mean_token_accuracy": 0.7957209348678589,
      "num_tokens": 45275453.0,
      "step": 3191
    },
    {
      "epoch": 0.4218873909595559,
      "grad_norm": 0.9197895301616912,
      "learning_rate": 7.44833368952252e-06,
      "loss": 0.6438,
      "mean_token_accuracy": 0.7878311276435852,
      "num_tokens": 45340989.0,
      "step": 3192
    },
    {
      "epoch": 0.4220195611948189,
      "grad_norm": 0.9230314692397849,
      "learning_rate": 7.4464619287793505e-06,
      "loss": 0.5923,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 45406525.0,
      "step": 3193
    },
    {
      "epoch": 0.42215173143008194,
      "grad_norm": 0.9310592113124474,
      "learning_rate": 7.444589753675074e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7948968410491943,
      "num_tokens": 45472061.0,
      "step": 3194
    },
    {
      "epoch": 0.42228390166534496,
      "grad_norm": 0.8790111131127996,
      "learning_rate": 7.442717164608241e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7909443378448486,
      "num_tokens": 45537597.0,
      "step": 3195
    },
    {
      "epoch": 0.422416071900608,
      "grad_norm": 0.9391985212666758,
      "learning_rate": 7.440844161977483e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7908985614776611,
      "num_tokens": 45603133.0,
      "step": 3196
    },
    {
      "epoch": 0.422548242135871,
      "grad_norm": 0.9507740886346863,
      "learning_rate": 7.438970746181527e-06,
      "loss": 0.6368,
      "mean_token_accuracy": 0.7924551367759705,
      "num_tokens": 45668669.0,
      "step": 3197
    },
    {
      "epoch": 0.422680412371134,
      "grad_norm": 0.9798006935024506,
      "learning_rate": 7.4370969176191794e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.8105847835540771,
      "num_tokens": 45734205.0,
      "step": 3198
    },
    {
      "epoch": 0.42281258260639704,
      "grad_norm": 0.8662958554957652,
      "learning_rate": 7.4352226766893434e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8035954236984253,
      "num_tokens": 45799741.0,
      "step": 3199
    },
    {
      "epoch": 0.42294475284166005,
      "grad_norm": 0.9565007135112885,
      "learning_rate": 7.433348023791002e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7935081124305725,
      "num_tokens": 45865277.0,
      "step": 3200
    },
    {
      "epoch": 0.4230769230769231,
      "grad_norm": 0.8181874355568522,
      "learning_rate": 7.4314729593232335e-06,
      "loss": 0.5486,
      "mean_token_accuracy": 0.8186729550361633,
      "num_tokens": 45930813.0,
      "step": 3201
    },
    {
      "epoch": 0.4232090933121861,
      "grad_norm": 0.9190010561619991,
      "learning_rate": 7.4295974836851966e-06,
      "loss": 0.6526,
      "mean_token_accuracy": 0.7853589057922363,
      "num_tokens": 45996349.0,
      "step": 3202
    },
    {
      "epoch": 0.4233412635474491,
      "grad_norm": 0.9640294508495187,
      "learning_rate": 7.427721597276145e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7958887815475464,
      "num_tokens": 46061885.0,
      "step": 3203
    },
    {
      "epoch": 0.4234734337827121,
      "grad_norm": 0.8626940099988525,
      "learning_rate": 7.425845300495412e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.8177267909049988,
      "num_tokens": 46127421.0,
      "step": 3204
    },
    {
      "epoch": 0.42360560401797515,
      "grad_norm": 0.8742667798033981,
      "learning_rate": 7.423968593742423e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8093334436416626,
      "num_tokens": 46192957.0,
      "step": 3205
    },
    {
      "epoch": 0.42373777425323816,
      "grad_norm": 0.9002147912348325,
      "learning_rate": 7.422091477416692e-06,
      "loss": 0.5449,
      "mean_token_accuracy": 0.8210077881813049,
      "num_tokens": 46258493.0,
      "step": 3206
    },
    {
      "epoch": 0.4238699444885012,
      "grad_norm": 0.9181797151642292,
      "learning_rate": 7.420213951917814e-06,
      "loss": 0.5764,
      "mean_token_accuracy": 0.8108137249946594,
      "num_tokens": 46324029.0,
      "step": 3207
    },
    {
      "epoch": 0.4240021147237642,
      "grad_norm": 0.9122992157963882,
      "learning_rate": 7.418336017645477e-06,
      "loss": 0.6272,
      "mean_token_accuracy": 0.7922261953353882,
      "num_tokens": 46389565.0,
      "step": 3208
    },
    {
      "epoch": 0.4241342849590272,
      "grad_norm": 0.874267847126754,
      "learning_rate": 7.416457674999454e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7859541177749634,
      "num_tokens": 46455101.0,
      "step": 3209
    },
    {
      "epoch": 0.42426645519429024,
      "grad_norm": 0.8701591869126158,
      "learning_rate": 7.414578924379605e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8059760928153992,
      "num_tokens": 46520637.0,
      "step": 3210
    },
    {
      "epoch": 0.42439862542955326,
      "grad_norm": 0.8462294215918171,
      "learning_rate": 7.412699766185876e-06,
      "loss": 0.5691,
      "mean_token_accuracy": 0.8133927583694458,
      "num_tokens": 46586173.0,
      "step": 3211
    },
    {
      "epoch": 0.4245307956648163,
      "grad_norm": 0.9362046095166814,
      "learning_rate": 7.410820200818301e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8144457340240479,
      "num_tokens": 46651709.0,
      "step": 3212
    },
    {
      "epoch": 0.4246629659000793,
      "grad_norm": 0.8595019606264444,
      "learning_rate": 7.408940228677e-06,
      "loss": 0.638,
      "mean_token_accuracy": 0.7929129600524902,
      "num_tokens": 46717245.0,
      "step": 3213
    },
    {
      "epoch": 0.4247951361353423,
      "grad_norm": 0.8436777186584715,
      "learning_rate": 7.40705985016218e-06,
      "loss": 0.5583,
      "mean_token_accuracy": 0.8185203075408936,
      "num_tokens": 46782781.0,
      "step": 3214
    },
    {
      "epoch": 0.42492730637060533,
      "grad_norm": 0.8845455180182628,
      "learning_rate": 7.405179065674135e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 46848317.0,
      "step": 3215
    },
    {
      "epoch": 0.42505947660586835,
      "grad_norm": 0.8080988882040683,
      "learning_rate": 7.403297875613244e-06,
      "loss": 0.531,
      "mean_token_accuracy": 0.8256317973136902,
      "num_tokens": 46913853.0,
      "step": 3216
    },
    {
      "epoch": 0.42519164684113137,
      "grad_norm": 0.9114373901102021,
      "learning_rate": 7.401416280379974e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 46979389.0,
      "step": 3217
    },
    {
      "epoch": 0.4253238170763944,
      "grad_norm": 1.022129248506183,
      "learning_rate": 7.399534280374876e-06,
      "loss": 0.6642,
      "mean_token_accuracy": 0.7820473909378052,
      "num_tokens": 47044925.0,
      "step": 3218
    },
    {
      "epoch": 0.4254559873116574,
      "grad_norm": 0.8356025631012817,
      "learning_rate": 7.3976518759985895e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8111036419868469,
      "num_tokens": 47110461.0,
      "step": 3219
    },
    {
      "epoch": 0.4255881575469204,
      "grad_norm": 0.8926016356875441,
      "learning_rate": 7.395769067651838e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.7958124876022339,
      "num_tokens": 47175997.0,
      "step": 3220
    },
    {
      "epoch": 0.42572032778218344,
      "grad_norm": 0.9422283150839569,
      "learning_rate": 7.3938858557354335e-06,
      "loss": 0.6008,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 47241533.0,
      "step": 3221
    },
    {
      "epoch": 0.42585249801744646,
      "grad_norm": 0.9484772052537235,
      "learning_rate": 7.3920022406502725e-06,
      "loss": 0.696,
      "mean_token_accuracy": 0.7757599949836731,
      "num_tokens": 47307069.0,
      "step": 3222
    },
    {
      "epoch": 0.4259846682527095,
      "grad_norm": 0.8583125002588047,
      "learning_rate": 7.390118222797334e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8049994111061096,
      "num_tokens": 47372605.0,
      "step": 3223
    },
    {
      "epoch": 0.4261168384879725,
      "grad_norm": 0.8450230022916693,
      "learning_rate": 7.388233802577691e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.8140794634819031,
      "num_tokens": 47438141.0,
      "step": 3224
    },
    {
      "epoch": 0.4262490087232355,
      "grad_norm": 0.9604610891089574,
      "learning_rate": 7.386348980392495e-06,
      "loss": 0.6243,
      "mean_token_accuracy": 0.7954156994819641,
      "num_tokens": 47503677.0,
      "step": 3225
    },
    {
      "epoch": 0.42638117895849853,
      "grad_norm": 0.8909117793852808,
      "learning_rate": 7.384463756642985e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.7907611727714539,
      "num_tokens": 47569213.0,
      "step": 3226
    },
    {
      "epoch": 0.42651334919376155,
      "grad_norm": 0.9780189832339631,
      "learning_rate": 7.382578131730484e-06,
      "loss": 0.6441,
      "mean_token_accuracy": 0.7929587364196777,
      "num_tokens": 47634749.0,
      "step": 3227
    },
    {
      "epoch": 0.42664551942902457,
      "grad_norm": 0.8327135730898415,
      "learning_rate": 7.380692106056408e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 47700285.0,
      "step": 3228
    },
    {
      "epoch": 0.4267776896642876,
      "grad_norm": 0.8895959081969241,
      "learning_rate": 7.3788056800222455e-06,
      "loss": 0.6302,
      "mean_token_accuracy": 0.7942101359367371,
      "num_tokens": 47765821.0,
      "step": 3229
    },
    {
      "epoch": 0.4269098598995506,
      "grad_norm": 0.9221627918196749,
      "learning_rate": 7.376918854029582e-06,
      "loss": 0.6625,
      "mean_token_accuracy": 0.783466637134552,
      "num_tokens": 47831357.0,
      "step": 3230
    },
    {
      "epoch": 0.4270420301348136,
      "grad_norm": 0.9009990206840757,
      "learning_rate": 7.375031628480079e-06,
      "loss": 0.6082,
      "mean_token_accuracy": 0.7995360493659973,
      "num_tokens": 47896893.0,
      "step": 3231
    },
    {
      "epoch": 0.42717420037007664,
      "grad_norm": 0.7652696641959382,
      "learning_rate": 7.373144003775493e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8147814869880676,
      "num_tokens": 47962429.0,
      "step": 3232
    },
    {
      "epoch": 0.42730637060533966,
      "grad_norm": 0.8367469946815885,
      "learning_rate": 7.371255980317656e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8101117014884949,
      "num_tokens": 48027965.0,
      "step": 3233
    },
    {
      "epoch": 0.4274385408406027,
      "grad_norm": 0.9110210909837116,
      "learning_rate": 7.36936755850849e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7870223522186279,
      "num_tokens": 48093501.0,
      "step": 3234
    },
    {
      "epoch": 0.4275707110758657,
      "grad_norm": 0.7950593476075176,
      "learning_rate": 7.36747873875e-06,
      "loss": 0.5332,
      "mean_token_accuracy": 0.8254181146621704,
      "num_tokens": 48159037.0,
      "step": 3235
    },
    {
      "epoch": 0.4277028813111287,
      "grad_norm": 0.9760405728514999,
      "learning_rate": 7.365589521444277e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.7859236001968384,
      "num_tokens": 48224573.0,
      "step": 3236
    },
    {
      "epoch": 0.42783505154639173,
      "grad_norm": 0.916926450791915,
      "learning_rate": 7.363699906993496e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 48290109.0,
      "step": 3237
    },
    {
      "epoch": 0.42796722178165475,
      "grad_norm": 0.8729722430988867,
      "learning_rate": 7.3618098957999154e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8036412000656128,
      "num_tokens": 48355645.0,
      "step": 3238
    },
    {
      "epoch": 0.42809939201691777,
      "grad_norm": 0.9091656044340323,
      "learning_rate": 7.3599194882658786e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8035649061203003,
      "num_tokens": 48421181.0,
      "step": 3239
    },
    {
      "epoch": 0.4282315622521808,
      "grad_norm": 0.9427094448577488,
      "learning_rate": 7.358028684793816e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7887467741966248,
      "num_tokens": 48486717.0,
      "step": 3240
    },
    {
      "epoch": 0.4283637324874438,
      "grad_norm": 0.8395721893787187,
      "learning_rate": 7.3561374857862415e-06,
      "loss": 0.516,
      "mean_token_accuracy": 0.8308662176132202,
      "num_tokens": 48552253.0,
      "step": 3241
    },
    {
      "epoch": 0.4284959027227068,
      "grad_norm": 0.9353271116172789,
      "learning_rate": 7.354245891645747e-06,
      "loss": 0.647,
      "mean_token_accuracy": 0.7861982583999634,
      "num_tokens": 48617789.0,
      "step": 3242
    },
    {
      "epoch": 0.42862807295796984,
      "grad_norm": 0.911381574437715,
      "learning_rate": 7.3523539027750165e-06,
      "loss": 0.628,
      "mean_token_accuracy": 0.7919210195541382,
      "num_tokens": 48683325.0,
      "step": 3243
    },
    {
      "epoch": 0.42876024319323286,
      "grad_norm": 0.8327723918038475,
      "learning_rate": 7.350461519576816e-06,
      "loss": 0.5638,
      "mean_token_accuracy": 0.8169179558753967,
      "num_tokens": 48748861.0,
      "step": 3244
    },
    {
      "epoch": 0.4288924134284959,
      "grad_norm": 0.8698871646757206,
      "learning_rate": 7.348568742453991e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8071206212043762,
      "num_tokens": 48814397.0,
      "step": 3245
    },
    {
      "epoch": 0.4290245836637589,
      "grad_norm": 0.9414579809448202,
      "learning_rate": 7.346675571809476e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.7915394902229309,
      "num_tokens": 48879933.0,
      "step": 3246
    },
    {
      "epoch": 0.4291567538990219,
      "grad_norm": 0.928761428311003,
      "learning_rate": 7.34478200804629e-06,
      "loss": 0.6367,
      "mean_token_accuracy": 0.7906391024589539,
      "num_tokens": 48945469.0,
      "step": 3247
    },
    {
      "epoch": 0.42928892413428493,
      "grad_norm": 0.8583601515032622,
      "learning_rate": 7.342888051567529e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7947747707366943,
      "num_tokens": 49011005.0,
      "step": 3248
    },
    {
      "epoch": 0.42942109436954795,
      "grad_norm": 0.8503982541055327,
      "learning_rate": 7.340993702776379e-06,
      "loss": 0.5882,
      "mean_token_accuracy": 0.808448314666748,
      "num_tokens": 49076541.0,
      "step": 3249
    },
    {
      "epoch": 0.42955326460481097,
      "grad_norm": 0.8178282204956824,
      "learning_rate": 7.339098962076104e-06,
      "loss": 0.5475,
      "mean_token_accuracy": 0.8204126358032227,
      "num_tokens": 49142077.0,
      "step": 3250
    },
    {
      "epoch": 0.429685434840074,
      "grad_norm": 0.8567732223893999,
      "learning_rate": 7.337203829870061e-06,
      "loss": 0.5461,
      "mean_token_accuracy": 0.8219539523124695,
      "num_tokens": 49207613.0,
      "step": 3251
    },
    {
      "epoch": 0.42981760507533706,
      "grad_norm": 0.9370389143792145,
      "learning_rate": 7.33530830656168e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.78831946849823,
      "num_tokens": 49273149.0,
      "step": 3252
    },
    {
      "epoch": 0.4299497753106001,
      "grad_norm": 0.8870414061757393,
      "learning_rate": 7.333412392554478e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.7920888662338257,
      "num_tokens": 49338685.0,
      "step": 3253
    },
    {
      "epoch": 0.4300819455458631,
      "grad_norm": 0.8971529481794029,
      "learning_rate": 7.3315160882520575e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 49404221.0,
      "step": 3254
    },
    {
      "epoch": 0.4302141157811261,
      "grad_norm": 0.8842780775711664,
      "learning_rate": 7.3296193940581005e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7980252504348755,
      "num_tokens": 49469757.0,
      "step": 3255
    },
    {
      "epoch": 0.43034628601638913,
      "grad_norm": 0.8756287683571835,
      "learning_rate": 7.327722310376374e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7951715588569641,
      "num_tokens": 49535293.0,
      "step": 3256
    },
    {
      "epoch": 0.43047845625165215,
      "grad_norm": 0.8800143661365081,
      "learning_rate": 7.32582483761073e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7955530285835266,
      "num_tokens": 49600829.0,
      "step": 3257
    },
    {
      "epoch": 0.43061062648691517,
      "grad_norm": 0.9230168125405839,
      "learning_rate": 7.323926976165095e-06,
      "loss": 0.6244,
      "mean_token_accuracy": 0.7961176633834839,
      "num_tokens": 49666365.0,
      "step": 3258
    },
    {
      "epoch": 0.4307427967221782,
      "grad_norm": 0.9886162913233241,
      "learning_rate": 7.322028726443491e-06,
      "loss": 0.6855,
      "mean_token_accuracy": 0.7807349562644958,
      "num_tokens": 49731901.0,
      "step": 3259
    },
    {
      "epoch": 0.4308749669574412,
      "grad_norm": 0.857027481903737,
      "learning_rate": 7.320130088850009e-06,
      "loss": 0.6144,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 49797437.0,
      "step": 3260
    },
    {
      "epoch": 0.4310071371927042,
      "grad_norm": 0.940841848879208,
      "learning_rate": 7.318231063788834e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7936607003211975,
      "num_tokens": 49862973.0,
      "step": 3261
    },
    {
      "epoch": 0.43113930742796724,
      "grad_norm": 0.8328689848260521,
      "learning_rate": 7.316331651664229e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.808631420135498,
      "num_tokens": 49928509.0,
      "step": 3262
    },
    {
      "epoch": 0.43127147766323026,
      "grad_norm": 0.8980703741630227,
      "learning_rate": 7.314431852880537e-06,
      "loss": 0.6242,
      "mean_token_accuracy": 0.7943779826164246,
      "num_tokens": 49994045.0,
      "step": 3263
    },
    {
      "epoch": 0.4314036478984933,
      "grad_norm": 0.9244320589881436,
      "learning_rate": 7.312531667842185e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.7973385453224182,
      "num_tokens": 50059581.0,
      "step": 3264
    },
    {
      "epoch": 0.4315358181337563,
      "grad_norm": 1.0086965818043898,
      "learning_rate": 7.310631096953685e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.7944390177726746,
      "num_tokens": 50125117.0,
      "step": 3265
    },
    {
      "epoch": 0.4316679883690193,
      "grad_norm": 0.8385226348049457,
      "learning_rate": 7.308730140619628e-06,
      "loss": 0.5639,
      "mean_token_accuracy": 0.816521167755127,
      "num_tokens": 50190653.0,
      "step": 3266
    },
    {
      "epoch": 0.43180015860428234,
      "grad_norm": 0.9178904130832771,
      "learning_rate": 7.3068287992446875e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8045110702514648,
      "num_tokens": 50256189.0,
      "step": 3267
    },
    {
      "epoch": 0.43193232883954535,
      "grad_norm": 0.9436324682464055,
      "learning_rate": 7.304927073233619e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 50321725.0,
      "step": 3268
    },
    {
      "epoch": 0.4320644990748084,
      "grad_norm": 0.9257673560522758,
      "learning_rate": 7.30302496299126e-06,
      "loss": 0.6429,
      "mean_token_accuracy": 0.7911579608917236,
      "num_tokens": 50387261.0,
      "step": 3269
    },
    {
      "epoch": 0.4321966693100714,
      "grad_norm": 0.8479669707575513,
      "learning_rate": 7.3011224689225324e-06,
      "loss": 0.5395,
      "mean_token_accuracy": 0.822930634021759,
      "num_tokens": 50452797.0,
      "step": 3270
    },
    {
      "epoch": 0.4323288395453344,
      "grad_norm": 0.9819996838689864,
      "learning_rate": 7.299219591432434e-06,
      "loss": 0.6472,
      "mean_token_accuracy": 0.7857556939125061,
      "num_tokens": 50518333.0,
      "step": 3271
    },
    {
      "epoch": 0.4324610097805974,
      "grad_norm": 0.8613142088277091,
      "learning_rate": 7.297316330926051e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.7981473803520203,
      "num_tokens": 50583869.0,
      "step": 3272
    },
    {
      "epoch": 0.43259318001586045,
      "grad_norm": 0.8547356167993062,
      "learning_rate": 7.295412687808546e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.7946068644523621,
      "num_tokens": 50649405.0,
      "step": 3273
    },
    {
      "epoch": 0.43272535025112346,
      "grad_norm": 0.8540635053086867,
      "learning_rate": 7.293508662485164e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8063270449638367,
      "num_tokens": 50714941.0,
      "step": 3274
    },
    {
      "epoch": 0.4328575204863865,
      "grad_norm": 0.7644827532489102,
      "learning_rate": 7.2916042553612355e-06,
      "loss": 0.5322,
      "mean_token_accuracy": 0.8263185024261475,
      "num_tokens": 50780477.0,
      "step": 3275
    },
    {
      "epoch": 0.4329896907216495,
      "grad_norm": 0.826963083167471,
      "learning_rate": 7.289699466842166e-06,
      "loss": 0.5514,
      "mean_token_accuracy": 0.8195886015892029,
      "num_tokens": 50846013.0,
      "step": 3276
    },
    {
      "epoch": 0.4331218609569125,
      "grad_norm": 0.8544561729509167,
      "learning_rate": 7.287794297333446e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.8006958961486816,
      "num_tokens": 50911549.0,
      "step": 3277
    },
    {
      "epoch": 0.43325403119217554,
      "grad_norm": 0.8415312292611742,
      "learning_rate": 7.285888747240647e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8060829043388367,
      "num_tokens": 50977085.0,
      "step": 3278
    },
    {
      "epoch": 0.43338620142743856,
      "grad_norm": 0.8727829587786501,
      "learning_rate": 7.28398281696942e-06,
      "loss": 0.6129,
      "mean_token_accuracy": 0.7991240620613098,
      "num_tokens": 51042621.0,
      "step": 3279
    },
    {
      "epoch": 0.4335183716627016,
      "grad_norm": 0.8904426490148666,
      "learning_rate": 7.2820765069255e-06,
      "loss": 0.6235,
      "mean_token_accuracy": 0.7964991927146912,
      "num_tokens": 51108157.0,
      "step": 3280
    },
    {
      "epoch": 0.4336505418979646,
      "grad_norm": 0.8054889253748257,
      "learning_rate": 7.280169817514697e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8092113137245178,
      "num_tokens": 51173693.0,
      "step": 3281
    },
    {
      "epoch": 0.4337827121332276,
      "grad_norm": 0.8812219955275465,
      "learning_rate": 7.278262749142907e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.803000271320343,
      "num_tokens": 51239229.0,
      "step": 3282
    },
    {
      "epoch": 0.43391488236849063,
      "grad_norm": 0.8400961852827032,
      "learning_rate": 7.276355302216106e-06,
      "loss": 0.6154,
      "mean_token_accuracy": 0.7953699231147766,
      "num_tokens": 51304765.0,
      "step": 3283
    },
    {
      "epoch": 0.43404705260375365,
      "grad_norm": 0.8893444084884393,
      "learning_rate": 7.274447477140349e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 51370301.0,
      "step": 3284
    },
    {
      "epoch": 0.43417922283901667,
      "grad_norm": 0.8662332455240549,
      "learning_rate": 7.272539274321772e-06,
      "loss": 0.6626,
      "mean_token_accuracy": 0.7822457551956177,
      "num_tokens": 51435837.0,
      "step": 3285
    },
    {
      "epoch": 0.4343113930742797,
      "grad_norm": 0.9032024162316961,
      "learning_rate": 7.27063069416659e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8111036419868469,
      "num_tokens": 51501373.0,
      "step": 3286
    },
    {
      "epoch": 0.4344435633095427,
      "grad_norm": 0.9302480220466504,
      "learning_rate": 7.2687217370811025e-06,
      "loss": 0.6465,
      "mean_token_accuracy": 0.7913258671760559,
      "num_tokens": 51566909.0,
      "step": 3287
    },
    {
      "epoch": 0.4345757335448057,
      "grad_norm": 0.8670676217645967,
      "learning_rate": 7.266812403471686e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 51632445.0,
      "step": 3288
    },
    {
      "epoch": 0.43470790378006874,
      "grad_norm": 0.9108980480487467,
      "learning_rate": 7.264902693744795e-06,
      "loss": 0.6199,
      "mean_token_accuracy": 0.7944085001945496,
      "num_tokens": 51697981.0,
      "step": 3289
    },
    {
      "epoch": 0.43484007401533176,
      "grad_norm": 0.8438164345326469,
      "learning_rate": 7.26299260830697e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7859693765640259,
      "num_tokens": 51763517.0,
      "step": 3290
    },
    {
      "epoch": 0.4349722442505948,
      "grad_norm": 0.8201745328190515,
      "learning_rate": 7.261082147564828e-06,
      "loss": 0.545,
      "mean_token_accuracy": 0.8205347061157227,
      "num_tokens": 51829053.0,
      "step": 3291
    },
    {
      "epoch": 0.4351044144858578,
      "grad_norm": 0.8814132256558048,
      "learning_rate": 7.259171311925065e-06,
      "loss": 0.631,
      "mean_token_accuracy": 0.7946678996086121,
      "num_tokens": 51894589.0,
      "step": 3292
    },
    {
      "epoch": 0.4352365847211208,
      "grad_norm": 0.8642792104462151,
      "learning_rate": 7.257260101794458e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.8043889403343201,
      "num_tokens": 51960125.0,
      "step": 3293
    },
    {
      "epoch": 0.43536875495638383,
      "grad_norm": 0.9333830844729066,
      "learning_rate": 7.2553485175798656e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.7978116273880005,
      "num_tokens": 52025661.0,
      "step": 3294
    },
    {
      "epoch": 0.43550092519164685,
      "grad_norm": 0.847475353871511,
      "learning_rate": 7.253436559688223e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.8014436364173889,
      "num_tokens": 52091197.0,
      "step": 3295
    },
    {
      "epoch": 0.43563309542690987,
      "grad_norm": 0.8580187487217393,
      "learning_rate": 7.2515242285265455e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8102642893791199,
      "num_tokens": 52156733.0,
      "step": 3296
    },
    {
      "epoch": 0.4357652656621729,
      "grad_norm": 0.9429754322215065,
      "learning_rate": 7.249611524501927e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 52222269.0,
      "step": 3297
    },
    {
      "epoch": 0.4358974358974359,
      "grad_norm": 0.7891573113941555,
      "learning_rate": 7.247698448021546e-06,
      "loss": 0.5701,
      "mean_token_accuracy": 0.8109663128852844,
      "num_tokens": 52287805.0,
      "step": 3298
    },
    {
      "epoch": 0.4360296061326989,
      "grad_norm": 0.8762288433696022,
      "learning_rate": 7.245784999492655e-06,
      "loss": 0.596,
      "mean_token_accuracy": 0.8047094345092773,
      "num_tokens": 52353341.0,
      "step": 3299
    },
    {
      "epoch": 0.43616177636796194,
      "grad_norm": 0.9404566986442688,
      "learning_rate": 7.243871179322586e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8063423037528992,
      "num_tokens": 52418877.0,
      "step": 3300
    },
    {
      "epoch": 0.43629394660322496,
      "grad_norm": 0.9339823003280159,
      "learning_rate": 7.241956987918753e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.7948968410491943,
      "num_tokens": 52484413.0,
      "step": 3301
    },
    {
      "epoch": 0.436426116838488,
      "grad_norm": 0.8499220224909407,
      "learning_rate": 7.240042425688647e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.806708574295044,
      "num_tokens": 52549949.0,
      "step": 3302
    },
    {
      "epoch": 0.436558287073751,
      "grad_norm": 0.8699356444498649,
      "learning_rate": 7.238127493039837e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.8191612958908081,
      "num_tokens": 52615485.0,
      "step": 3303
    },
    {
      "epoch": 0.436690457309014,
      "grad_norm": 0.9373209176451032,
      "learning_rate": 7.2362121903799746e-06,
      "loss": 0.6405,
      "mean_token_accuracy": 0.7902423143386841,
      "num_tokens": 52681021.0,
      "step": 3304
    },
    {
      "epoch": 0.43682262754427703,
      "grad_norm": 0.8387168244422138,
      "learning_rate": 7.234296518116785e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 52746557.0,
      "step": 3305
    },
    {
      "epoch": 0.43695479777954005,
      "grad_norm": 0.896700449399951,
      "learning_rate": 7.232380476658077e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8097606897354126,
      "num_tokens": 52812093.0,
      "step": 3306
    },
    {
      "epoch": 0.43708696801480307,
      "grad_norm": 0.8619835414439275,
      "learning_rate": 7.2304640664117355e-06,
      "loss": 0.5811,
      "mean_token_accuracy": 0.808753490447998,
      "num_tokens": 52877629.0,
      "step": 3307
    },
    {
      "epoch": 0.4372191382500661,
      "grad_norm": 0.9930698040592455,
      "learning_rate": 7.228547287785722e-06,
      "loss": 0.6597,
      "mean_token_accuracy": 0.7840160131454468,
      "num_tokens": 52943165.0,
      "step": 3308
    },
    {
      "epoch": 0.4373513084853291,
      "grad_norm": 0.8763817809040735,
      "learning_rate": 7.226630141188082e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.7961787581443787,
      "num_tokens": 53008701.0,
      "step": 3309
    },
    {
      "epoch": 0.4374834787205921,
      "grad_norm": 0.902127565093498,
      "learning_rate": 7.224712627026934e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8100506663322449,
      "num_tokens": 53074237.0,
      "step": 3310
    },
    {
      "epoch": 0.43761564895585514,
      "grad_norm": 1.0229652445264408,
      "learning_rate": 7.222794745710476e-06,
      "loss": 0.68,
      "mean_token_accuracy": 0.7800024151802063,
      "num_tokens": 53139773.0,
      "step": 3311
    },
    {
      "epoch": 0.43774781919111816,
      "grad_norm": 1.2828537338019943,
      "learning_rate": 7.220876497646988e-06,
      "loss": 0.6775,
      "mean_token_accuracy": 0.7794530391693115,
      "num_tokens": 53205309.0,
      "step": 3312
    },
    {
      "epoch": 0.4378799894263812,
      "grad_norm": 0.9429344502900653,
      "learning_rate": 7.218957883244822e-06,
      "loss": 0.6217,
      "mean_token_accuracy": 0.7945916056632996,
      "num_tokens": 53270845.0,
      "step": 3313
    },
    {
      "epoch": 0.4380121596616442,
      "grad_norm": 0.8657575065720714,
      "learning_rate": 7.217038902912411e-06,
      "loss": 0.5846,
      "mean_token_accuracy": 0.8117598295211792,
      "num_tokens": 53336381.0,
      "step": 3314
    },
    {
      "epoch": 0.4381443298969072,
      "grad_norm": 0.8880969722508484,
      "learning_rate": 7.2151195570582685e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7971859574317932,
      "num_tokens": 53401917.0,
      "step": 3315
    },
    {
      "epoch": 0.43827650013217023,
      "grad_norm": 0.9303463112767072,
      "learning_rate": 7.213199846090979e-06,
      "loss": 0.5928,
      "mean_token_accuracy": 0.8047399520874023,
      "num_tokens": 53467453.0,
      "step": 3316
    },
    {
      "epoch": 0.43840867036743325,
      "grad_norm": 0.9497636037447116,
      "learning_rate": 7.211279770419213e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8160023093223572,
      "num_tokens": 53532989.0,
      "step": 3317
    },
    {
      "epoch": 0.43854084060269627,
      "grad_norm": 0.9634866699550997,
      "learning_rate": 7.209359330451713e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.7993071675300598,
      "num_tokens": 53598525.0,
      "step": 3318
    },
    {
      "epoch": 0.4386730108379593,
      "grad_norm": 0.8773214209783862,
      "learning_rate": 7.207438526597299e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8069680333137512,
      "num_tokens": 53664061.0,
      "step": 3319
    },
    {
      "epoch": 0.4388051810732223,
      "grad_norm": 0.796247525177291,
      "learning_rate": 7.205517359264874e-06,
      "loss": 0.5387,
      "mean_token_accuracy": 0.8241972923278809,
      "num_tokens": 53729597.0,
      "step": 3320
    },
    {
      "epoch": 0.4389373513084853,
      "grad_norm": 0.9420999186923504,
      "learning_rate": 7.20359582886341e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.7821694612503052,
      "num_tokens": 53795133.0,
      "step": 3321
    },
    {
      "epoch": 0.43906952154374834,
      "grad_norm": 0.9565070023910979,
      "learning_rate": 7.201673935801964e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8127670884132385,
      "num_tokens": 53860669.0,
      "step": 3322
    },
    {
      "epoch": 0.43920169177901136,
      "grad_norm": 0.8397696824919305,
      "learning_rate": 7.199751680489663e-06,
      "loss": 0.525,
      "mean_token_accuracy": 0.8272494077682495,
      "num_tokens": 53926205.0,
      "step": 3323
    },
    {
      "epoch": 0.4393338620142744,
      "grad_norm": 0.9439011883717713,
      "learning_rate": 7.197829063335721e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8015352487564087,
      "num_tokens": 53991741.0,
      "step": 3324
    },
    {
      "epoch": 0.4394660322495374,
      "grad_norm": 0.8799713810954557,
      "learning_rate": 7.195906084749415e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.7950646877288818,
      "num_tokens": 54057277.0,
      "step": 3325
    },
    {
      "epoch": 0.4395982024848004,
      "grad_norm": 0.9412188303824959,
      "learning_rate": 7.193982745140116e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7957819700241089,
      "num_tokens": 54122813.0,
      "step": 3326
    },
    {
      "epoch": 0.43973037272006343,
      "grad_norm": 0.8588635832761465,
      "learning_rate": 7.192059044917255e-06,
      "loss": 0.5509,
      "mean_token_accuracy": 0.817360520362854,
      "num_tokens": 54188349.0,
      "step": 3327
    },
    {
      "epoch": 0.43986254295532645,
      "grad_norm": 0.9369229349231825,
      "learning_rate": 7.190134984490352e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.7902117967605591,
      "num_tokens": 54253885.0,
      "step": 3328
    },
    {
      "epoch": 0.43999471319058947,
      "grad_norm": 0.9027192756786171,
      "learning_rate": 7.188210564268999e-06,
      "loss": 0.6219,
      "mean_token_accuracy": 0.7960718870162964,
      "num_tokens": 54319421.0,
      "step": 3329
    },
    {
      "epoch": 0.4401268834258525,
      "grad_norm": 0.9450481890722389,
      "learning_rate": 7.186285784662863e-06,
      "loss": 0.6064,
      "mean_token_accuracy": 0.7984983325004578,
      "num_tokens": 54384957.0,
      "step": 3330
    },
    {
      "epoch": 0.4402590536611155,
      "grad_norm": 0.7855601911208429,
      "learning_rate": 7.184360646081692e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 54450493.0,
      "step": 3331
    },
    {
      "epoch": 0.4403912238963785,
      "grad_norm": 0.8047379609831865,
      "learning_rate": 7.182435148935305e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 54516029.0,
      "step": 3332
    },
    {
      "epoch": 0.44052339413164154,
      "grad_norm": 0.8252847585895299,
      "learning_rate": 7.180509293633602e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8098523020744324,
      "num_tokens": 54581565.0,
      "step": 3333
    },
    {
      "epoch": 0.44065556436690456,
      "grad_norm": 0.9395944452777638,
      "learning_rate": 7.1785830805865566e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8005127310752869,
      "num_tokens": 54647101.0,
      "step": 3334
    },
    {
      "epoch": 0.4407877346021676,
      "grad_norm": 0.9027879785429453,
      "learning_rate": 7.17665651020422e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 54712637.0,
      "step": 3335
    },
    {
      "epoch": 0.4409199048374306,
      "grad_norm": 0.8532516299257782,
      "learning_rate": 7.174729582896719e-06,
      "loss": 0.6149,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 54778173.0,
      "step": 3336
    },
    {
      "epoch": 0.4410520750726936,
      "grad_norm": 0.8526910756798224,
      "learning_rate": 7.172802299074255e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 54843709.0,
      "step": 3337
    },
    {
      "epoch": 0.44118424530795664,
      "grad_norm": 0.8120401430013261,
      "learning_rate": 7.170874659147107e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.8126602172851562,
      "num_tokens": 54909245.0,
      "step": 3338
    },
    {
      "epoch": 0.44131641554321965,
      "grad_norm": 0.9458287807990129,
      "learning_rate": 7.16894666352563e-06,
      "loss": 0.6406,
      "mean_token_accuracy": 0.7895708680152893,
      "num_tokens": 54974781.0,
      "step": 3339
    },
    {
      "epoch": 0.44144858577848267,
      "grad_norm": 0.8054838076151511,
      "learning_rate": 7.167018312620252e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8093181252479553,
      "num_tokens": 55040317.0,
      "step": 3340
    },
    {
      "epoch": 0.4415807560137457,
      "grad_norm": 0.9046583351126541,
      "learning_rate": 7.165089606841482e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.8023287653923035,
      "num_tokens": 55105853.0,
      "step": 3341
    },
    {
      "epoch": 0.4417129262490087,
      "grad_norm": 0.9040160846760112,
      "learning_rate": 7.1631605465998985e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 55171389.0,
      "step": 3342
    },
    {
      "epoch": 0.4418450964842717,
      "grad_norm": 0.910968917388711,
      "learning_rate": 7.161231132306159e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8010469079017639,
      "num_tokens": 55236925.0,
      "step": 3343
    },
    {
      "epoch": 0.44197726671953474,
      "grad_norm": 0.9359530742633445,
      "learning_rate": 7.159301364370995e-06,
      "loss": 0.6455,
      "mean_token_accuracy": 0.7893572449684143,
      "num_tokens": 55302461.0,
      "step": 3344
    },
    {
      "epoch": 0.44210943695479776,
      "grad_norm": 0.9604148683215966,
      "learning_rate": 7.157371243205215e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.7961634993553162,
      "num_tokens": 55367997.0,
      "step": 3345
    },
    {
      "epoch": 0.4422416071900608,
      "grad_norm": 0.8852048695940378,
      "learning_rate": 7.1554407692197e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.8167806267738342,
      "num_tokens": 55433533.0,
      "step": 3346
    },
    {
      "epoch": 0.4423737774253238,
      "grad_norm": 0.8747289125408739,
      "learning_rate": 7.15350994282541e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 55499069.0,
      "step": 3347
    },
    {
      "epoch": 0.4425059476605868,
      "grad_norm": 0.8208590029719847,
      "learning_rate": 7.151578764433374e-06,
      "loss": 0.6095,
      "mean_token_accuracy": 0.798009991645813,
      "num_tokens": 55564605.0,
      "step": 3348
    },
    {
      "epoch": 0.44263811789584984,
      "grad_norm": 0.778383578649842,
      "learning_rate": 7.149647234454702e-06,
      "loss": 0.5326,
      "mean_token_accuracy": 0.8267305493354797,
      "num_tokens": 55630141.0,
      "step": 3349
    },
    {
      "epoch": 0.44277028813111285,
      "grad_norm": 1.0109329246749468,
      "learning_rate": 7.147715353300575e-06,
      "loss": 0.6491,
      "mean_token_accuracy": 0.7856641411781311,
      "num_tokens": 55695677.0,
      "step": 3350
    },
    {
      "epoch": 0.4429024583663759,
      "grad_norm": 0.9144642995826161,
      "learning_rate": 7.145783121382253e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8076242208480835,
      "num_tokens": 55761213.0,
      "step": 3351
    },
    {
      "epoch": 0.4430346286016389,
      "grad_norm": 0.9545759928674372,
      "learning_rate": 7.143850539111064e-06,
      "loss": 0.5536,
      "mean_token_accuracy": 0.8155597448348999,
      "num_tokens": 55826749.0,
      "step": 3352
    },
    {
      "epoch": 0.4431667988369019,
      "grad_norm": 0.9112206202308553,
      "learning_rate": 7.141917606898419e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7877548336982727,
      "num_tokens": 55892285.0,
      "step": 3353
    },
    {
      "epoch": 0.44329896907216493,
      "grad_norm": 0.831114658959035,
      "learning_rate": 7.139984325155793e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8112714886665344,
      "num_tokens": 55957821.0,
      "step": 3354
    },
    {
      "epoch": 0.44343113930742795,
      "grad_norm": 0.8664361256611341,
      "learning_rate": 7.138050694294748e-06,
      "loss": 0.5578,
      "mean_token_accuracy": 0.8177115321159363,
      "num_tokens": 56023357.0,
      "step": 3355
    },
    {
      "epoch": 0.44356330954269096,
      "grad_norm": 0.8933374480283032,
      "learning_rate": 7.136116714726908e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8024508357048035,
      "num_tokens": 56088893.0,
      "step": 3356
    },
    {
      "epoch": 0.443695479777954,
      "grad_norm": 0.8520900324437026,
      "learning_rate": 7.134182386863979e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8111189007759094,
      "num_tokens": 56154429.0,
      "step": 3357
    },
    {
      "epoch": 0.443827650013217,
      "grad_norm": 0.9007792812117027,
      "learning_rate": 7.13224771111774e-06,
      "loss": 0.6324,
      "mean_token_accuracy": 0.7958887815475464,
      "num_tokens": 56219965.0,
      "step": 3358
    },
    {
      "epoch": 0.44395982024848,
      "grad_norm": 0.8661973469786134,
      "learning_rate": 7.130312687900042e-06,
      "loss": 0.6149,
      "mean_token_accuracy": 0.8014283776283264,
      "num_tokens": 56285501.0,
      "step": 3359
    },
    {
      "epoch": 0.44409199048374304,
      "grad_norm": 1.1716179684818315,
      "learning_rate": 7.1283773176228115e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.7861372232437134,
      "num_tokens": 56351037.0,
      "step": 3360
    },
    {
      "epoch": 0.44422416071900606,
      "grad_norm": 0.8148293478513609,
      "learning_rate": 7.126441600698048e-06,
      "loss": 0.584,
      "mean_token_accuracy": 0.8105847835540771,
      "num_tokens": 56416573.0,
      "step": 3361
    },
    {
      "epoch": 0.4443563309542691,
      "grad_norm": 0.9505589696274509,
      "learning_rate": 7.124505537537825e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.7975369095802307,
      "num_tokens": 56482109.0,
      "step": 3362
    },
    {
      "epoch": 0.4444885011895321,
      "grad_norm": 0.8855302726440574,
      "learning_rate": 7.12256912855429e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 56547645.0,
      "step": 3363
    },
    {
      "epoch": 0.4446206714247951,
      "grad_norm": 0.9505188127726578,
      "learning_rate": 7.120632374159665e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7915394902229309,
      "num_tokens": 56613181.0,
      "step": 3364
    },
    {
      "epoch": 0.44475284166005813,
      "grad_norm": 0.961883102905653,
      "learning_rate": 7.118695274766244e-06,
      "loss": 0.6417,
      "mean_token_accuracy": 0.7909138202667236,
      "num_tokens": 56678717.0,
      "step": 3365
    },
    {
      "epoch": 0.44488501189532115,
      "grad_norm": 0.9204282172667281,
      "learning_rate": 7.116757830786395e-06,
      "loss": 0.657,
      "mean_token_accuracy": 0.7830851078033447,
      "num_tokens": 56744253.0,
      "step": 3366
    },
    {
      "epoch": 0.44501718213058417,
      "grad_norm": 0.8484255990270116,
      "learning_rate": 7.114820042632559e-06,
      "loss": 0.5814,
      "mean_token_accuracy": 0.8090434670448303,
      "num_tokens": 56809789.0,
      "step": 3367
    },
    {
      "epoch": 0.4451493523658472,
      "grad_norm": 0.8803705067112977,
      "learning_rate": 7.1128819107172505e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.7968044281005859,
      "num_tokens": 56875325.0,
      "step": 3368
    },
    {
      "epoch": 0.4452815226011102,
      "grad_norm": 0.8407493355658211,
      "learning_rate": 7.110943435453057e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.816612720489502,
      "num_tokens": 56940861.0,
      "step": 3369
    },
    {
      "epoch": 0.4454136928363733,
      "grad_norm": 0.8598566956180362,
      "learning_rate": 7.109004617252641e-06,
      "loss": 0.6596,
      "mean_token_accuracy": 0.7842143774032593,
      "num_tokens": 57006397.0,
      "step": 3370
    },
    {
      "epoch": 0.4455458630716363,
      "grad_norm": 0.7998423889842344,
      "learning_rate": 7.107065456528737e-06,
      "loss": 0.5441,
      "mean_token_accuracy": 0.8207026124000549,
      "num_tokens": 57071933.0,
      "step": 3371
    },
    {
      "epoch": 0.4456780333068993,
      "grad_norm": 0.8518234501785688,
      "learning_rate": 7.105125953694149e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.7927756309509277,
      "num_tokens": 57137469.0,
      "step": 3372
    },
    {
      "epoch": 0.44581020354216233,
      "grad_norm": 0.7652595157469801,
      "learning_rate": 7.103186109161759e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8136063814163208,
      "num_tokens": 57203005.0,
      "step": 3373
    },
    {
      "epoch": 0.44594237377742535,
      "grad_norm": 0.7863070148080893,
      "learning_rate": 7.101245923344518e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8170552849769592,
      "num_tokens": 57268541.0,
      "step": 3374
    },
    {
      "epoch": 0.44607454401268837,
      "grad_norm": 0.9134539358935263,
      "learning_rate": 7.099305396655451e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8109968304634094,
      "num_tokens": 57334077.0,
      "step": 3375
    },
    {
      "epoch": 0.4462067142479514,
      "grad_norm": 0.8863843540015118,
      "learning_rate": 7.097364529507657e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.7986509799957275,
      "num_tokens": 57399613.0,
      "step": 3376
    },
    {
      "epoch": 0.4463388844832144,
      "grad_norm": 0.8036685884738248,
      "learning_rate": 7.095423322314303e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8130417466163635,
      "num_tokens": 57465149.0,
      "step": 3377
    },
    {
      "epoch": 0.4464710547184774,
      "grad_norm": 0.8896457074995522,
      "learning_rate": 7.093481775488637e-06,
      "loss": 0.6182,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 57530685.0,
      "step": 3378
    },
    {
      "epoch": 0.44660322495374044,
      "grad_norm": 0.9056177955642021,
      "learning_rate": 7.091539889443968e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8095928430557251,
      "num_tokens": 57596221.0,
      "step": 3379
    },
    {
      "epoch": 0.44673539518900346,
      "grad_norm": 0.8735042309777248,
      "learning_rate": 7.089597664593686e-06,
      "loss": 0.5701,
      "mean_token_accuracy": 0.8106458187103271,
      "num_tokens": 57661757.0,
      "step": 3380
    },
    {
      "epoch": 0.4468675654242665,
      "grad_norm": 0.9019183013954404,
      "learning_rate": 7.0876551013512514e-06,
      "loss": 0.6442,
      "mean_token_accuracy": 0.7893725037574768,
      "num_tokens": 57727293.0,
      "step": 3381
    },
    {
      "epoch": 0.4469997356595295,
      "grad_norm": 0.8492234820844092,
      "learning_rate": 7.0857122001301915e-06,
      "loss": 0.5723,
      "mean_token_accuracy": 0.8122787475585938,
      "num_tokens": 57792829.0,
      "step": 3382
    },
    {
      "epoch": 0.4471319058947925,
      "grad_norm": 0.9330830496390086,
      "learning_rate": 7.083768961344112e-06,
      "loss": 0.6138,
      "mean_token_accuracy": 0.7975216507911682,
      "num_tokens": 57858365.0,
      "step": 3383
    },
    {
      "epoch": 0.44726407613005553,
      "grad_norm": 0.8656457294605653,
      "learning_rate": 7.081825385406689e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8118667006492615,
      "num_tokens": 57923901.0,
      "step": 3384
    },
    {
      "epoch": 0.44739624636531855,
      "grad_norm": 0.8746299757858282,
      "learning_rate": 7.079881472731666e-06,
      "loss": 0.5931,
      "mean_token_accuracy": 0.8040532469749451,
      "num_tokens": 57989437.0,
      "step": 3385
    },
    {
      "epoch": 0.44752841660058157,
      "grad_norm": 0.7794902007809151,
      "learning_rate": 7.077937223732863e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8144609928131104,
      "num_tokens": 58054973.0,
      "step": 3386
    },
    {
      "epoch": 0.4476605868358446,
      "grad_norm": 0.7685786362143567,
      "learning_rate": 7.075992638824169e-06,
      "loss": 0.5274,
      "mean_token_accuracy": 0.8270663022994995,
      "num_tokens": 58120509.0,
      "step": 3387
    },
    {
      "epoch": 0.4477927570711076,
      "grad_norm": 0.8722058771549791,
      "learning_rate": 7.074047718419547e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.7977200746536255,
      "num_tokens": 58186045.0,
      "step": 3388
    },
    {
      "epoch": 0.4479249273063706,
      "grad_norm": 0.8848039345562646,
      "learning_rate": 7.072102462933032e-06,
      "loss": 0.5911,
      "mean_token_accuracy": 0.8025577068328857,
      "num_tokens": 58251581.0,
      "step": 3389
    },
    {
      "epoch": 0.44805709754163364,
      "grad_norm": 0.9058880674824606,
      "learning_rate": 7.070156872778723e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7911427021026611,
      "num_tokens": 58317117.0,
      "step": 3390
    },
    {
      "epoch": 0.44818926777689666,
      "grad_norm": 0.9483481563331045,
      "learning_rate": 7.0682109483707995e-06,
      "loss": 0.6059,
      "mean_token_accuracy": 0.8000854849815369,
      "num_tokens": 58382653.0,
      "step": 3391
    },
    {
      "epoch": 0.4483214380121597,
      "grad_norm": 0.936404317471259,
      "learning_rate": 7.066264690123508e-06,
      "loss": 0.6561,
      "mean_token_accuracy": 0.7842143774032593,
      "num_tokens": 58448189.0,
      "step": 3392
    },
    {
      "epoch": 0.4484536082474227,
      "grad_norm": 0.8453848698414546,
      "learning_rate": 7.0643180984511624e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8090892434120178,
      "num_tokens": 58513725.0,
      "step": 3393
    },
    {
      "epoch": 0.4485857784826857,
      "grad_norm": 0.8869193350441169,
      "learning_rate": 7.062371173768156e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8023592829704285,
      "num_tokens": 58579261.0,
      "step": 3394
    },
    {
      "epoch": 0.44871794871794873,
      "grad_norm": 0.9582223813145001,
      "learning_rate": 7.0604239164889465e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.7854505181312561,
      "num_tokens": 58644797.0,
      "step": 3395
    },
    {
      "epoch": 0.44885011895321175,
      "grad_norm": 0.8343484796223914,
      "learning_rate": 7.058476327028064e-06,
      "loss": 0.5257,
      "mean_token_accuracy": 0.8237547278404236,
      "num_tokens": 58710333.0,
      "step": 3396
    },
    {
      "epoch": 0.44898228918847477,
      "grad_norm": 0.8858129980267447,
      "learning_rate": 7.056528405800111e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7901965379714966,
      "num_tokens": 58775869.0,
      "step": 3397
    },
    {
      "epoch": 0.4491144594237378,
      "grad_norm": 0.8882645259106112,
      "learning_rate": 7.054580153219758e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 58841405.0,
      "step": 3398
    },
    {
      "epoch": 0.4492466296590008,
      "grad_norm": 0.9527012230295027,
      "learning_rate": 7.052631569701748e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8034733533859253,
      "num_tokens": 58906941.0,
      "step": 3399
    },
    {
      "epoch": 0.4493787998942638,
      "grad_norm": 0.8491591408469795,
      "learning_rate": 7.050682655660893e-06,
      "loss": 0.5811,
      "mean_token_accuracy": 0.811790406703949,
      "num_tokens": 58972477.0,
      "step": 3400
    },
    {
      "epoch": 0.44951097012952684,
      "grad_norm": 0.7613973149012728,
      "learning_rate": 7.048733411512077e-06,
      "loss": 0.5504,
      "mean_token_accuracy": 0.8193291425704956,
      "num_tokens": 59038013.0,
      "step": 3401
    },
    {
      "epoch": 0.44964314036478986,
      "grad_norm": 0.8189173695467769,
      "learning_rate": 7.046783837670253e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8150408864021301,
      "num_tokens": 59103549.0,
      "step": 3402
    },
    {
      "epoch": 0.4497753106000529,
      "grad_norm": 0.8131343311088466,
      "learning_rate": 7.044833934550445e-06,
      "loss": 0.5825,
      "mean_token_accuracy": 0.8125076293945312,
      "num_tokens": 59169085.0,
      "step": 3403
    },
    {
      "epoch": 0.4499074808353159,
      "grad_norm": 0.8315156610720712,
      "learning_rate": 7.042883702567744e-06,
      "loss": 0.6138,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 59234621.0,
      "step": 3404
    },
    {
      "epoch": 0.4500396510705789,
      "grad_norm": 0.9330127555224799,
      "learning_rate": 7.040933142137318e-06,
      "loss": 0.6154,
      "mean_token_accuracy": 0.7970790863037109,
      "num_tokens": 59300157.0,
      "step": 3405
    },
    {
      "epoch": 0.45017182130584193,
      "grad_norm": 0.8788176460757212,
      "learning_rate": 7.0389822536743955e-06,
      "loss": 0.5433,
      "mean_token_accuracy": 0.8205041885375977,
      "num_tokens": 59365693.0,
      "step": 3406
    },
    {
      "epoch": 0.45030399154110495,
      "grad_norm": 0.9020379038730321,
      "learning_rate": 7.0370310375942855e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.7841228246688843,
      "num_tokens": 59431229.0,
      "step": 3407
    },
    {
      "epoch": 0.45043616177636797,
      "grad_norm": 0.9838637259129992,
      "learning_rate": 7.035079494312358e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 59496765.0,
      "step": 3408
    },
    {
      "epoch": 0.450568332011631,
      "grad_norm": 0.9455802093610423,
      "learning_rate": 7.033127624244055e-06,
      "loss": 0.7003,
      "mean_token_accuracy": 0.7711665034294128,
      "num_tokens": 59562301.0,
      "step": 3409
    },
    {
      "epoch": 0.450700502246894,
      "grad_norm": 0.9578505576864474,
      "learning_rate": 7.031175427804892e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 59627837.0,
      "step": 3410
    },
    {
      "epoch": 0.450832672482157,
      "grad_norm": 0.9152169691622407,
      "learning_rate": 7.0292229054104475e-06,
      "loss": 0.624,
      "mean_token_accuracy": 0.7956293225288391,
      "num_tokens": 59693373.0,
      "step": 3411
    },
    {
      "epoch": 0.45096484271742004,
      "grad_norm": 0.8610389540054643,
      "learning_rate": 7.027270057476375e-06,
      "loss": 0.5438,
      "mean_token_accuracy": 0.8221065998077393,
      "num_tokens": 59758909.0,
      "step": 3412
    },
    {
      "epoch": 0.45109701295268306,
      "grad_norm": 0.873932430793716,
      "learning_rate": 7.025316884418395e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.8087382316589355,
      "num_tokens": 59824445.0,
      "step": 3413
    },
    {
      "epoch": 0.4512291831879461,
      "grad_norm": 0.997077614629601,
      "learning_rate": 7.023363386652295e-06,
      "loss": 0.6095,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 59889981.0,
      "step": 3414
    },
    {
      "epoch": 0.4513613534232091,
      "grad_norm": 0.8534709612221784,
      "learning_rate": 7.021409564593938e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 59955517.0,
      "step": 3415
    },
    {
      "epoch": 0.4514935236584721,
      "grad_norm": 0.936090551296066,
      "learning_rate": 7.019455418659248e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7972317337989807,
      "num_tokens": 60021053.0,
      "step": 3416
    },
    {
      "epoch": 0.45162569389373514,
      "grad_norm": 0.8480618221446676,
      "learning_rate": 7.0175009492642236e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.8102642893791199,
      "num_tokens": 60086589.0,
      "step": 3417
    },
    {
      "epoch": 0.45175786412899815,
      "grad_norm": 0.8827474909710797,
      "learning_rate": 7.01554615682493e-06,
      "loss": 0.6195,
      "mean_token_accuracy": 0.7945458292961121,
      "num_tokens": 60152125.0,
      "step": 3418
    },
    {
      "epoch": 0.4518900343642612,
      "grad_norm": 1.007943182050888,
      "learning_rate": 7.013591041757502e-06,
      "loss": 0.631,
      "mean_token_accuracy": 0.7919667959213257,
      "num_tokens": 60217661.0,
      "step": 3419
    },
    {
      "epoch": 0.4520222045995242,
      "grad_norm": 0.9656860532197789,
      "learning_rate": 7.011635604478143e-06,
      "loss": 0.6458,
      "mean_token_accuracy": 0.7869307994842529,
      "num_tokens": 60283197.0,
      "step": 3420
    },
    {
      "epoch": 0.4521543748347872,
      "grad_norm": 0.8825450237344272,
      "learning_rate": 7.009679845403124e-06,
      "loss": 0.587,
      "mean_token_accuracy": 0.8072579503059387,
      "num_tokens": 60348733.0,
      "step": 3421
    },
    {
      "epoch": 0.4522865450700502,
      "grad_norm": 0.9266947485494035,
      "learning_rate": 7.007723764948786e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.807608962059021,
      "num_tokens": 60414269.0,
      "step": 3422
    },
    {
      "epoch": 0.45241871530531325,
      "grad_norm": 0.897454919995236,
      "learning_rate": 7.005767363531537e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8113936185836792,
      "num_tokens": 60479805.0,
      "step": 3423
    },
    {
      "epoch": 0.45255088554057626,
      "grad_norm": 0.9381853936804898,
      "learning_rate": 7.003810641567856e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7906085848808289,
      "num_tokens": 60545341.0,
      "step": 3424
    },
    {
      "epoch": 0.4526830557758393,
      "grad_norm": 0.8636214058569712,
      "learning_rate": 7.001853599474284e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.808631420135498,
      "num_tokens": 60610877.0,
      "step": 3425
    },
    {
      "epoch": 0.4528152260111023,
      "grad_norm": 1.058478648871374,
      "learning_rate": 6.999896237667439e-06,
      "loss": 0.6885,
      "mean_token_accuracy": 0.7767584323883057,
      "num_tokens": 60672688.0,
      "step": 3426
    },
    {
      "epoch": 0.4529473962463653,
      "grad_norm": 0.8365368421715248,
      "learning_rate": 6.997938556564001e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8116072416305542,
      "num_tokens": 60738224.0,
      "step": 3427
    },
    {
      "epoch": 0.45307956648162834,
      "grad_norm": 0.8483549765495222,
      "learning_rate": 6.995980556580717e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8191002607345581,
      "num_tokens": 60803760.0,
      "step": 3428
    },
    {
      "epoch": 0.45321173671689136,
      "grad_norm": 0.8772423022818377,
      "learning_rate": 6.994022238134408e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7937828302383423,
      "num_tokens": 60869296.0,
      "step": 3429
    },
    {
      "epoch": 0.4533439069521544,
      "grad_norm": 0.8492857246317391,
      "learning_rate": 6.992063601641956e-06,
      "loss": 0.5661,
      "mean_token_accuracy": 0.8147509694099426,
      "num_tokens": 60934832.0,
      "step": 3430
    },
    {
      "epoch": 0.4534760771874174,
      "grad_norm": 0.9135182939411906,
      "learning_rate": 6.990104647520319e-06,
      "loss": 0.6349,
      "mean_token_accuracy": 0.7917225956916809,
      "num_tokens": 61000368.0,
      "step": 3431
    },
    {
      "epoch": 0.4536082474226804,
      "grad_norm": 0.8473099696506442,
      "learning_rate": 6.988145376186509e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.8070901036262512,
      "num_tokens": 61065904.0,
      "step": 3432
    },
    {
      "epoch": 0.45374041765794343,
      "grad_norm": 0.9017604004979927,
      "learning_rate": 6.986185788057621e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8023898005485535,
      "num_tokens": 61131440.0,
      "step": 3433
    },
    {
      "epoch": 0.45387258789320645,
      "grad_norm": 0.8633528248150059,
      "learning_rate": 6.984225883550808e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8018556833267212,
      "num_tokens": 61196976.0,
      "step": 3434
    },
    {
      "epoch": 0.45400475812846947,
      "grad_norm": 0.9081331979066047,
      "learning_rate": 6.982265663083291e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.7997344732284546,
      "num_tokens": 61262512.0,
      "step": 3435
    },
    {
      "epoch": 0.4541369283637325,
      "grad_norm": 0.8277055748934014,
      "learning_rate": 6.980305127072363e-06,
      "loss": 0.5636,
      "mean_token_accuracy": 0.8129807114601135,
      "num_tokens": 61328048.0,
      "step": 3436
    },
    {
      "epoch": 0.4542690985989955,
      "grad_norm": 0.904758006132997,
      "learning_rate": 6.978344275935381e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.802069365978241,
      "num_tokens": 61393584.0,
      "step": 3437
    },
    {
      "epoch": 0.4544012688342585,
      "grad_norm": 0.8308020897479247,
      "learning_rate": 6.976383110089768e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 61459120.0,
      "step": 3438
    },
    {
      "epoch": 0.45453343906952154,
      "grad_norm": 0.9763105407458625,
      "learning_rate": 6.9744216299530155e-06,
      "loss": 0.616,
      "mean_token_accuracy": 0.797887921333313,
      "num_tokens": 61524656.0,
      "step": 3439
    },
    {
      "epoch": 0.45466560930478456,
      "grad_norm": 0.7800470204040059,
      "learning_rate": 6.972459835942681e-06,
      "loss": 0.5347,
      "mean_token_accuracy": 0.8221523761749268,
      "num_tokens": 61590192.0,
      "step": 3440
    },
    {
      "epoch": 0.4547977795400476,
      "grad_norm": 0.8885806985986868,
      "learning_rate": 6.970497728476391e-06,
      "loss": 0.5824,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 61655728.0,
      "step": 3441
    },
    {
      "epoch": 0.4549299497753106,
      "grad_norm": 0.8203084106858186,
      "learning_rate": 6.968535307971835e-06,
      "loss": 0.5676,
      "mean_token_accuracy": 0.8134690523147583,
      "num_tokens": 61721264.0,
      "step": 3442
    },
    {
      "epoch": 0.4550621200105736,
      "grad_norm": 0.9050197779454735,
      "learning_rate": 6.966572574846774e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.8002991080284119,
      "num_tokens": 61786800.0,
      "step": 3443
    },
    {
      "epoch": 0.45519429024583663,
      "grad_norm": 0.8529928172541176,
      "learning_rate": 6.964609529519031e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.818596601486206,
      "num_tokens": 61852336.0,
      "step": 3444
    },
    {
      "epoch": 0.45532646048109965,
      "grad_norm": 0.8416322926174409,
      "learning_rate": 6.962646172406499e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8068917393684387,
      "num_tokens": 61917872.0,
      "step": 3445
    },
    {
      "epoch": 0.45545863071636267,
      "grad_norm": 0.9367079142741862,
      "learning_rate": 6.960682503927133e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8001617789268494,
      "num_tokens": 61983408.0,
      "step": 3446
    },
    {
      "epoch": 0.4555908009516257,
      "grad_norm": 0.9019173237420435,
      "learning_rate": 6.95871852449896e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8127059936523438,
      "num_tokens": 62048944.0,
      "step": 3447
    },
    {
      "epoch": 0.4557229711868887,
      "grad_norm": 0.9178970448424302,
      "learning_rate": 6.956754234540069e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.808600902557373,
      "num_tokens": 62114480.0,
      "step": 3448
    },
    {
      "epoch": 0.4558551414221517,
      "grad_norm": 0.9160036436888737,
      "learning_rate": 6.954789634468615e-06,
      "loss": 0.5965,
      "mean_token_accuracy": 0.8017946481704712,
      "num_tokens": 62180016.0,
      "step": 3449
    },
    {
      "epoch": 0.45598731165741474,
      "grad_norm": 0.8984395510056308,
      "learning_rate": 6.952824724702822e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7958277463912964,
      "num_tokens": 62245552.0,
      "step": 3450
    },
    {
      "epoch": 0.45611948189267776,
      "grad_norm": 1.0018620647088925,
      "learning_rate": 6.950859505660979e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7952478528022766,
      "num_tokens": 62311088.0,
      "step": 3451
    },
    {
      "epoch": 0.4562516521279408,
      "grad_norm": 0.8786080927325617,
      "learning_rate": 6.948893977761439e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8003143668174744,
      "num_tokens": 62376624.0,
      "step": 3452
    },
    {
      "epoch": 0.4563838223632038,
      "grad_norm": 0.918402332137423,
      "learning_rate": 6.946928141422621e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.8052740693092346,
      "num_tokens": 62442160.0,
      "step": 3453
    },
    {
      "epoch": 0.4565159925984668,
      "grad_norm": 0.9169633707379914,
      "learning_rate": 6.944961997063011e-06,
      "loss": 0.6307,
      "mean_token_accuracy": 0.792653501033783,
      "num_tokens": 62507696.0,
      "step": 3454
    },
    {
      "epoch": 0.45664816283372983,
      "grad_norm": 0.8156772117932986,
      "learning_rate": 6.9429955451011625e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.8136063814163208,
      "num_tokens": 62573232.0,
      "step": 3455
    },
    {
      "epoch": 0.45678033306899285,
      "grad_norm": 0.7767819386124196,
      "learning_rate": 6.941028785955688e-06,
      "loss": 0.5341,
      "mean_token_accuracy": 0.8259064555168152,
      "num_tokens": 62638768.0,
      "step": 3456
    },
    {
      "epoch": 0.45691250330425587,
      "grad_norm": 1.0842052391428136,
      "learning_rate": 6.939061720045272e-06,
      "loss": 0.6619,
      "mean_token_accuracy": 0.783680260181427,
      "num_tokens": 62704304.0,
      "step": 3457
    },
    {
      "epoch": 0.4570446735395189,
      "grad_norm": 0.8726294249117452,
      "learning_rate": 6.937094347788662e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7953699231147766,
      "num_tokens": 62769840.0,
      "step": 3458
    },
    {
      "epoch": 0.4571768437747819,
      "grad_norm": 0.8663930278763297,
      "learning_rate": 6.935126669604668e-06,
      "loss": 0.6085,
      "mean_token_accuracy": 0.8017946481704712,
      "num_tokens": 62835376.0,
      "step": 3459
    },
    {
      "epoch": 0.4573090140100449,
      "grad_norm": 0.9250678718610392,
      "learning_rate": 6.933158685912172e-06,
      "loss": 0.6165,
      "mean_token_accuracy": 0.7942253947257996,
      "num_tokens": 62900912.0,
      "step": 3460
    },
    {
      "epoch": 0.45744118424530794,
      "grad_norm": 0.911663875225032,
      "learning_rate": 6.931190397130113e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.806708574295044,
      "num_tokens": 62966448.0,
      "step": 3461
    },
    {
      "epoch": 0.45757335448057096,
      "grad_norm": 1.2622461653672492,
      "learning_rate": 6.9292218036774985e-06,
      "loss": 0.6037,
      "mean_token_accuracy": 0.8071663975715637,
      "num_tokens": 63031984.0,
      "step": 3462
    },
    {
      "epoch": 0.457705524715834,
      "grad_norm": 0.9094436905586634,
      "learning_rate": 6.927252905973403e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.7983304858207703,
      "num_tokens": 63097520.0,
      "step": 3463
    },
    {
      "epoch": 0.457837694951097,
      "grad_norm": 0.9932319656362807,
      "learning_rate": 6.925283704436963e-06,
      "loss": 0.6008,
      "mean_token_accuracy": 0.8013520836830139,
      "num_tokens": 63163056.0,
      "step": 3464
    },
    {
      "epoch": 0.45796986518636,
      "grad_norm": 0.9421415423476927,
      "learning_rate": 6.923314199487378e-06,
      "loss": 0.6324,
      "mean_token_accuracy": 0.7924856543540955,
      "num_tokens": 63228592.0,
      "step": 3465
    },
    {
      "epoch": 0.45810203542162303,
      "grad_norm": 0.8447218772247598,
      "learning_rate": 6.9213443915439196e-06,
      "loss": 0.5764,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 63294128.0,
      "step": 3466
    },
    {
      "epoch": 0.45823420565688605,
      "grad_norm": 0.9035632053556418,
      "learning_rate": 6.919374281025914e-06,
      "loss": 0.5692,
      "mean_token_accuracy": 0.8124313354492188,
      "num_tokens": 63359664.0,
      "step": 3467
    },
    {
      "epoch": 0.45836637589214907,
      "grad_norm": 0.9352461754771605,
      "learning_rate": 6.917403868352756e-06,
      "loss": 0.6451,
      "mean_token_accuracy": 0.7894182801246643,
      "num_tokens": 63425200.0,
      "step": 3468
    },
    {
      "epoch": 0.4584985461274121,
      "grad_norm": 0.8106617211845019,
      "learning_rate": 6.915433153943911e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.8161702156066895,
      "num_tokens": 63490736.0,
      "step": 3469
    },
    {
      "epoch": 0.4586307163626751,
      "grad_norm": 0.8596703555916163,
      "learning_rate": 6.913462138218899e-06,
      "loss": 0.5672,
      "mean_token_accuracy": 0.8146898746490479,
      "num_tokens": 63556272.0,
      "step": 3470
    },
    {
      "epoch": 0.4587628865979381,
      "grad_norm": 1.025164934761193,
      "learning_rate": 6.9114908215973084e-06,
      "loss": 0.6014,
      "mean_token_accuracy": 0.8011994957923889,
      "num_tokens": 63621808.0,
      "step": 3471
    },
    {
      "epoch": 0.45889505683320114,
      "grad_norm": 0.91269399595204,
      "learning_rate": 6.9095192044987934e-06,
      "loss": 0.5293,
      "mean_token_accuracy": 0.8259217143058777,
      "num_tokens": 63687344.0,
      "step": 3472
    },
    {
      "epoch": 0.45902722706846416,
      "grad_norm": 0.8271939244651868,
      "learning_rate": 6.907547287343066e-06,
      "loss": 0.5795,
      "mean_token_accuracy": 0.8127059936523438,
      "num_tokens": 63752880.0,
      "step": 3473
    },
    {
      "epoch": 0.4591593973037272,
      "grad_norm": 0.8858326257587058,
      "learning_rate": 6.90557507054991e-06,
      "loss": 0.6067,
      "mean_token_accuracy": 0.8004974722862244,
      "num_tokens": 63818416.0,
      "step": 3474
    },
    {
      "epoch": 0.4592915675389902,
      "grad_norm": 0.9073696628857848,
      "learning_rate": 6.903602554539166e-06,
      "loss": 0.6013,
      "mean_token_accuracy": 0.8025882244110107,
      "num_tokens": 63883952.0,
      "step": 3475
    },
    {
      "epoch": 0.4594237377742532,
      "grad_norm": 0.8487185497965252,
      "learning_rate": 6.901629739730744e-06,
      "loss": 0.5894,
      "mean_token_accuracy": 0.8047246932983398,
      "num_tokens": 63949488.0,
      "step": 3476
    },
    {
      "epoch": 0.45955590800951623,
      "grad_norm": 0.8712432928306204,
      "learning_rate": 6.899656626544616e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 64015024.0,
      "step": 3477
    },
    {
      "epoch": 0.45968807824477925,
      "grad_norm": 0.9575963074795784,
      "learning_rate": 6.897683215400813e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7896166443824768,
      "num_tokens": 64080560.0,
      "step": 3478
    },
    {
      "epoch": 0.45982024848004227,
      "grad_norm": 0.8391978767420358,
      "learning_rate": 6.895709506719437e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7990935444831848,
      "num_tokens": 64146096.0,
      "step": 3479
    },
    {
      "epoch": 0.4599524187153053,
      "grad_norm": 0.7912178137119488,
      "learning_rate": 6.893735500920646e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8059150576591492,
      "num_tokens": 64211632.0,
      "step": 3480
    },
    {
      "epoch": 0.4600845889505683,
      "grad_norm": 0.8825139944901793,
      "learning_rate": 6.891761198424666e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8015657663345337,
      "num_tokens": 64277168.0,
      "step": 3481
    },
    {
      "epoch": 0.4602167591858313,
      "grad_norm": 0.7619095173904681,
      "learning_rate": 6.889786599651786e-06,
      "loss": 0.5296,
      "mean_token_accuracy": 0.8248382210731506,
      "num_tokens": 64342704.0,
      "step": 3482
    },
    {
      "epoch": 0.46034892942109434,
      "grad_norm": 0.9548141243939867,
      "learning_rate": 6.887811705022352e-06,
      "loss": 0.6206,
      "mean_token_accuracy": 0.7968807220458984,
      "num_tokens": 64408240.0,
      "step": 3483
    },
    {
      "epoch": 0.46048109965635736,
      "grad_norm": 0.8413015371040177,
      "learning_rate": 6.885836514956785e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8080820441246033,
      "num_tokens": 64473776.0,
      "step": 3484
    },
    {
      "epoch": 0.4606132698916204,
      "grad_norm": 0.8026503019154501,
      "learning_rate": 6.883861029875557e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.812782347202301,
      "num_tokens": 64539312.0,
      "step": 3485
    },
    {
      "epoch": 0.4607454401268834,
      "grad_norm": 0.9022597550876099,
      "learning_rate": 6.881885250199208e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7975216507911682,
      "num_tokens": 64604848.0,
      "step": 3486
    },
    {
      "epoch": 0.4608776103621464,
      "grad_norm": 1.0104240508855633,
      "learning_rate": 6.879909176348342e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7946221232414246,
      "num_tokens": 64670384.0,
      "step": 3487
    },
    {
      "epoch": 0.4610097805974095,
      "grad_norm": 0.8685846574945396,
      "learning_rate": 6.877932808743622e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 64735920.0,
      "step": 3488
    },
    {
      "epoch": 0.4611419508326725,
      "grad_norm": 0.8066317066925424,
      "learning_rate": 6.875956147805777e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 64801456.0,
      "step": 3489
    },
    {
      "epoch": 0.4612741210679355,
      "grad_norm": 0.8566514992686907,
      "learning_rate": 6.8739791939555954e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 64866992.0,
      "step": 3490
    },
    {
      "epoch": 0.46140629130319855,
      "grad_norm": 0.8912899324403748,
      "learning_rate": 6.87200194761393e-06,
      "loss": 0.5842,
      "mean_token_accuracy": 0.8061591982841492,
      "num_tokens": 64932528.0,
      "step": 3491
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 1.0018039492114421,
      "learning_rate": 6.870024409201696e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.7939659357070923,
      "num_tokens": 64998064.0,
      "step": 3492
    },
    {
      "epoch": 0.4616706317737246,
      "grad_norm": 0.8554716775733238,
      "learning_rate": 6.868046579139868e-06,
      "loss": 0.5774,
      "mean_token_accuracy": 0.8104474544525146,
      "num_tokens": 65063600.0,
      "step": 3493
    },
    {
      "epoch": 0.4618028020089876,
      "grad_norm": 0.8337266148270764,
      "learning_rate": 6.866068457849486e-06,
      "loss": 0.5419,
      "mean_token_accuracy": 0.8191307783126831,
      "num_tokens": 65129136.0,
      "step": 3494
    },
    {
      "epoch": 0.4619349722442506,
      "grad_norm": 0.9733154417613465,
      "learning_rate": 6.864090045751652e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.792348325252533,
      "num_tokens": 65194672.0,
      "step": 3495
    },
    {
      "epoch": 0.46206714247951364,
      "grad_norm": 0.9005642452434083,
      "learning_rate": 6.862111343267527e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8116530179977417,
      "num_tokens": 65260208.0,
      "step": 3496
    },
    {
      "epoch": 0.46219931271477666,
      "grad_norm": 1.0123335131960134,
      "learning_rate": 6.860132350818336e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7767214179039001,
      "num_tokens": 65325744.0,
      "step": 3497
    },
    {
      "epoch": 0.4623314829500397,
      "grad_norm": 0.8103773587053728,
      "learning_rate": 6.858153068825365e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8165669441223145,
      "num_tokens": 65391280.0,
      "step": 3498
    },
    {
      "epoch": 0.4624636531853027,
      "grad_norm": 0.814101195729227,
      "learning_rate": 6.856173497709961e-06,
      "loss": 0.5443,
      "mean_token_accuracy": 0.8169789910316467,
      "num_tokens": 65456816.0,
      "step": 3499
    },
    {
      "epoch": 0.4625958234205657,
      "grad_norm": 0.8629267535301542,
      "learning_rate": 6.854193637893536e-06,
      "loss": 0.6112,
      "mean_token_accuracy": 0.8004364371299744,
      "num_tokens": 65522352.0,
      "step": 3500
    },
    {
      "epoch": 0.46272799365582873,
      "grad_norm": 0.8452961602862066,
      "learning_rate": 6.852213489797558e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8014894127845764,
      "num_tokens": 65587888.0,
      "step": 3501
    },
    {
      "epoch": 0.46286016389109175,
      "grad_norm": 0.9390988312077695,
      "learning_rate": 6.8502330538435605e-06,
      "loss": 0.6071,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 65653424.0,
      "step": 3502
    },
    {
      "epoch": 0.46299233412635477,
      "grad_norm": 0.848332371526305,
      "learning_rate": 6.848252330453137e-06,
      "loss": 0.53,
      "mean_token_accuracy": 0.826303243637085,
      "num_tokens": 65718960.0,
      "step": 3503
    },
    {
      "epoch": 0.4631245043616178,
      "grad_norm": 0.8843939398013908,
      "learning_rate": 6.8462713200479405e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7943779826164246,
      "num_tokens": 65784496.0,
      "step": 3504
    },
    {
      "epoch": 0.4632566745968808,
      "grad_norm": 0.9454488481983364,
      "learning_rate": 6.844290023049689e-06,
      "loss": 0.6631,
      "mean_token_accuracy": 0.7827340960502625,
      "num_tokens": 65850032.0,
      "step": 3505
    },
    {
      "epoch": 0.4633888448321438,
      "grad_norm": 0.8636286903077987,
      "learning_rate": 6.842308439880157e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.8179709315299988,
      "num_tokens": 65915568.0,
      "step": 3506
    },
    {
      "epoch": 0.46352101506740684,
      "grad_norm": 0.9378621905053373,
      "learning_rate": 6.840326570961186e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7868391871452332,
      "num_tokens": 65981104.0,
      "step": 3507
    },
    {
      "epoch": 0.46365318530266986,
      "grad_norm": 0.8130100647080603,
      "learning_rate": 6.838344416714671e-06,
      "loss": 0.5735,
      "mean_token_accuracy": 0.8109968304634094,
      "num_tokens": 66046640.0,
      "step": 3508
    },
    {
      "epoch": 0.4637853555379329,
      "grad_norm": 0.8512000323205642,
      "learning_rate": 6.836361977562571e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8044041991233826,
      "num_tokens": 66112176.0,
      "step": 3509
    },
    {
      "epoch": 0.4639175257731959,
      "grad_norm": 0.9383175344271111,
      "learning_rate": 6.834379253926908e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.7992766499519348,
      "num_tokens": 66177712.0,
      "step": 3510
    },
    {
      "epoch": 0.4640496960084589,
      "grad_norm": 0.9877270231418243,
      "learning_rate": 6.832396246229762e-06,
      "loss": 0.6407,
      "mean_token_accuracy": 0.7892656326293945,
      "num_tokens": 66243248.0,
      "step": 3511
    },
    {
      "epoch": 0.46418186624372193,
      "grad_norm": 0.8226540894081472,
      "learning_rate": 6.8304129548932725e-06,
      "loss": 0.536,
      "mean_token_accuracy": 0.822961151599884,
      "num_tokens": 66308784.0,
      "step": 3512
    },
    {
      "epoch": 0.46431403647898495,
      "grad_norm": 0.8455893647020432,
      "learning_rate": 6.828429380339643e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8069985508918762,
      "num_tokens": 66374320.0,
      "step": 3513
    },
    {
      "epoch": 0.46444620671424797,
      "grad_norm": 0.8138285610421664,
      "learning_rate": 6.826445522991135e-06,
      "loss": 0.5096,
      "mean_token_accuracy": 0.8309119939804077,
      "num_tokens": 66439856.0,
      "step": 3514
    },
    {
      "epoch": 0.464578376949511,
      "grad_norm": 0.8325724306004995,
      "learning_rate": 6.824461383270067e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 66505392.0,
      "step": 3515
    },
    {
      "epoch": 0.464710547184774,
      "grad_norm": 0.8750893407089688,
      "learning_rate": 6.822476961598825e-06,
      "loss": 0.5717,
      "mean_token_accuracy": 0.8124923706054688,
      "num_tokens": 66570928.0,
      "step": 3516
    },
    {
      "epoch": 0.464842717420037,
      "grad_norm": 0.901719813082413,
      "learning_rate": 6.820492258399848e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.808661937713623,
      "num_tokens": 66636464.0,
      "step": 3517
    },
    {
      "epoch": 0.46497488765530004,
      "grad_norm": 0.892804608242912,
      "learning_rate": 6.818507274095642e-06,
      "loss": 0.6166,
      "mean_token_accuracy": 0.7945153117179871,
      "num_tokens": 66702000.0,
      "step": 3518
    },
    {
      "epoch": 0.46510705789056306,
      "grad_norm": 0.8698261809020174,
      "learning_rate": 6.816522009108761e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8064186573028564,
      "num_tokens": 66767536.0,
      "step": 3519
    },
    {
      "epoch": 0.4652392281258261,
      "grad_norm": 0.8456206873468528,
      "learning_rate": 6.814536463861835e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.8019930124282837,
      "num_tokens": 66833072.0,
      "step": 3520
    },
    {
      "epoch": 0.4653713983610891,
      "grad_norm": 0.8188903510732854,
      "learning_rate": 6.8125506387775395e-06,
      "loss": 0.5702,
      "mean_token_accuracy": 0.8128281235694885,
      "num_tokens": 66898608.0,
      "step": 3521
    },
    {
      "epoch": 0.4655035685963521,
      "grad_norm": 0.8869872942969927,
      "learning_rate": 6.81056453427862e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 66964144.0,
      "step": 3522
    },
    {
      "epoch": 0.46563573883161513,
      "grad_norm": 0.8962058239698407,
      "learning_rate": 6.808578150787871e-06,
      "loss": 0.6296,
      "mean_token_accuracy": 0.7931876182556152,
      "num_tokens": 67029680.0,
      "step": 3523
    },
    {
      "epoch": 0.46576790906687815,
      "grad_norm": 0.9327235638340002,
      "learning_rate": 6.806591488728156e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7860914468765259,
      "num_tokens": 67095216.0,
      "step": 3524
    },
    {
      "epoch": 0.46590007930214117,
      "grad_norm": 0.8889658715432823,
      "learning_rate": 6.804604548522391e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8080667853355408,
      "num_tokens": 67160752.0,
      "step": 3525
    },
    {
      "epoch": 0.4660322495374042,
      "grad_norm": 0.8696031901476787,
      "learning_rate": 6.802617330593557e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.798696756362915,
      "num_tokens": 67226288.0,
      "step": 3526
    },
    {
      "epoch": 0.4661644197726672,
      "grad_norm": 0.8032675990723217,
      "learning_rate": 6.8006298353646905e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8102795481681824,
      "num_tokens": 67291824.0,
      "step": 3527
    },
    {
      "epoch": 0.4662965900079302,
      "grad_norm": 0.934516680662857,
      "learning_rate": 6.7986420632588865e-06,
      "loss": 0.5349,
      "mean_token_accuracy": 0.8252044916152954,
      "num_tokens": 67357360.0,
      "step": 3528
    },
    {
      "epoch": 0.46642876024319324,
      "grad_norm": 0.8206853006672438,
      "learning_rate": 6.796654014699301e-06,
      "loss": 0.5731,
      "mean_token_accuracy": 0.8093181252479553,
      "num_tokens": 67422896.0,
      "step": 3529
    },
    {
      "epoch": 0.46656093047845626,
      "grad_norm": 0.8513814527703129,
      "learning_rate": 6.794665690109148e-06,
      "loss": 0.6063,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 67488432.0,
      "step": 3530
    },
    {
      "epoch": 0.4666931007137193,
      "grad_norm": 0.8931961825867909,
      "learning_rate": 6.7926770899117e-06,
      "loss": 0.5578,
      "mean_token_accuracy": 0.8153918981552124,
      "num_tokens": 67553968.0,
      "step": 3531
    },
    {
      "epoch": 0.4668252709489823,
      "grad_norm": 0.8418857890501519,
      "learning_rate": 6.79068821453029e-06,
      "loss": 0.6521,
      "mean_token_accuracy": 0.7848705649375916,
      "num_tokens": 67619504.0,
      "step": 3532
    },
    {
      "epoch": 0.4669574411842453,
      "grad_norm": 0.8301406374067088,
      "learning_rate": 6.788699064388304e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.8040837645530701,
      "num_tokens": 67685040.0,
      "step": 3533
    },
    {
      "epoch": 0.46708961141950833,
      "grad_norm": 0.8733364999229862,
      "learning_rate": 6.7867096399091955e-06,
      "loss": 0.6324,
      "mean_token_accuracy": 0.7912189960479736,
      "num_tokens": 67750576.0,
      "step": 3534
    },
    {
      "epoch": 0.46722178165477135,
      "grad_norm": 0.8662881845811432,
      "learning_rate": 6.78471994151647e-06,
      "loss": 0.5905,
      "mean_token_accuracy": 0.8070443272590637,
      "num_tokens": 67816112.0,
      "step": 3535
    },
    {
      "epoch": 0.46735395189003437,
      "grad_norm": 0.8613834382088724,
      "learning_rate": 6.78272996963369e-06,
      "loss": 0.6395,
      "mean_token_accuracy": 0.7916005253791809,
      "num_tokens": 67881648.0,
      "step": 3536
    },
    {
      "epoch": 0.4674861221252974,
      "grad_norm": 0.8918369045641592,
      "learning_rate": 6.780739724684482e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8070290684700012,
      "num_tokens": 67947184.0,
      "step": 3537
    },
    {
      "epoch": 0.4676182923605604,
      "grad_norm": 0.8349336277244903,
      "learning_rate": 6.778749207092525e-06,
      "loss": 0.5639,
      "mean_token_accuracy": 0.8166279792785645,
      "num_tokens": 68012720.0,
      "step": 3538
    },
    {
      "epoch": 0.4677504625958234,
      "grad_norm": 0.8481263059624612,
      "learning_rate": 6.776758417281563e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.8092265725135803,
      "num_tokens": 68078256.0,
      "step": 3539
    },
    {
      "epoch": 0.46788263283108644,
      "grad_norm": 0.904248309917287,
      "learning_rate": 6.77476735567539e-06,
      "loss": 0.6484,
      "mean_token_accuracy": 0.7876480221748352,
      "num_tokens": 68143792.0,
      "step": 3540
    },
    {
      "epoch": 0.46801480306634946,
      "grad_norm": 0.8574895874131022,
      "learning_rate": 6.772776022697861e-06,
      "loss": 0.6152,
      "mean_token_accuracy": 0.7996276617050171,
      "num_tokens": 68209328.0,
      "step": 3541
    },
    {
      "epoch": 0.4681469733016125,
      "grad_norm": 0.9528473912740454,
      "learning_rate": 6.77078441877289e-06,
      "loss": 0.6967,
      "mean_token_accuracy": 0.7713344097137451,
      "num_tokens": 68274864.0,
      "step": 3542
    },
    {
      "epoch": 0.4682791435368755,
      "grad_norm": 0.9059268683603626,
      "learning_rate": 6.76879254432445e-06,
      "loss": 0.6204,
      "mean_token_accuracy": 0.7983152270317078,
      "num_tokens": 68340400.0,
      "step": 3543
    },
    {
      "epoch": 0.4684113137721385,
      "grad_norm": 0.8299991891149856,
      "learning_rate": 6.766800399776566e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8070748448371887,
      "num_tokens": 68405936.0,
      "step": 3544
    },
    {
      "epoch": 0.46854348400740153,
      "grad_norm": 0.8865022882155493,
      "learning_rate": 6.764807985553328e-06,
      "loss": 0.6481,
      "mean_token_accuracy": 0.7859998941421509,
      "num_tokens": 68471472.0,
      "step": 3545
    },
    {
      "epoch": 0.46867565424266455,
      "grad_norm": 0.8744164876515186,
      "learning_rate": 6.762815302078875e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8046789169311523,
      "num_tokens": 68537008.0,
      "step": 3546
    },
    {
      "epoch": 0.46880782447792757,
      "grad_norm": 0.8076059831213587,
      "learning_rate": 6.7608223497774104e-06,
      "loss": 0.5758,
      "mean_token_accuracy": 0.8102795481681824,
      "num_tokens": 68602544.0,
      "step": 3547
    },
    {
      "epoch": 0.4689399947131906,
      "grad_norm": 0.8769175971293244,
      "learning_rate": 6.7588291290731935e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 68668080.0,
      "step": 3548
    },
    {
      "epoch": 0.4690721649484536,
      "grad_norm": 0.7994821642626422,
      "learning_rate": 6.756835640390535e-06,
      "loss": 0.5402,
      "mean_token_accuracy": 0.8217098116874695,
      "num_tokens": 68733616.0,
      "step": 3549
    },
    {
      "epoch": 0.4692043351837166,
      "grad_norm": 0.8674512229483968,
      "learning_rate": 6.75484188415381e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7981931567192078,
      "num_tokens": 68799152.0,
      "step": 3550
    },
    {
      "epoch": 0.46933650541897964,
      "grad_norm": 0.8619355544640867,
      "learning_rate": 6.752847860787448e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8032901883125305,
      "num_tokens": 68864688.0,
      "step": 3551
    },
    {
      "epoch": 0.46946867565424266,
      "grad_norm": 0.8575127679126879,
      "learning_rate": 6.7508535707159325e-06,
      "loss": 0.5962,
      "mean_token_accuracy": 0.8036717176437378,
      "num_tokens": 68930224.0,
      "step": 3552
    },
    {
      "epoch": 0.4696008458895057,
      "grad_norm": 0.8609474418260152,
      "learning_rate": 6.74885901436381e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.8038548231124878,
      "num_tokens": 68995760.0,
      "step": 3553
    },
    {
      "epoch": 0.4697330161247687,
      "grad_norm": 0.9272993527258957,
      "learning_rate": 6.7468641921556765e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.8011384606361389,
      "num_tokens": 69061296.0,
      "step": 3554
    },
    {
      "epoch": 0.4698651863600317,
      "grad_norm": 0.9058806126614265,
      "learning_rate": 6.744869104516189e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.797704815864563,
      "num_tokens": 69126832.0,
      "step": 3555
    },
    {
      "epoch": 0.46999735659529474,
      "grad_norm": 0.8539660486638689,
      "learning_rate": 6.742873751870061e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8047399520874023,
      "num_tokens": 69192368.0,
      "step": 3556
    },
    {
      "epoch": 0.47012952683055775,
      "grad_norm": 0.9117797772448974,
      "learning_rate": 6.740878134642058e-06,
      "loss": 0.6813,
      "mean_token_accuracy": 0.7733030319213867,
      "num_tokens": 69257904.0,
      "step": 3557
    },
    {
      "epoch": 0.47026169706582077,
      "grad_norm": 0.8976012216148884,
      "learning_rate": 6.73888225325701e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.7994902729988098,
      "num_tokens": 69323440.0,
      "step": 3558
    },
    {
      "epoch": 0.4703938673010838,
      "grad_norm": 0.9645729745147877,
      "learning_rate": 6.736886108139797e-06,
      "loss": 0.618,
      "mean_token_accuracy": 0.7946984767913818,
      "num_tokens": 69388976.0,
      "step": 3559
    },
    {
      "epoch": 0.4705260375363468,
      "grad_norm": 1.03267218251324,
      "learning_rate": 6.734889699715354e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7869613170623779,
      "num_tokens": 69454512.0,
      "step": 3560
    },
    {
      "epoch": 0.4706582077716098,
      "grad_norm": 0.8449003480575953,
      "learning_rate": 6.732893028408678e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.8156360387802124,
      "num_tokens": 69520048.0,
      "step": 3561
    },
    {
      "epoch": 0.47079037800687284,
      "grad_norm": 1.0105597951180445,
      "learning_rate": 6.7308960946448155e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7940574884414673,
      "num_tokens": 69585584.0,
      "step": 3562
    },
    {
      "epoch": 0.47092254824213586,
      "grad_norm": 0.7685888781383177,
      "learning_rate": 6.7288988988488745e-06,
      "loss": 0.5383,
      "mean_token_accuracy": 0.8221218585968018,
      "num_tokens": 69651120.0,
      "step": 3563
    },
    {
      "epoch": 0.4710547184773989,
      "grad_norm": 0.943019573929045,
      "learning_rate": 6.726901441446017e-06,
      "loss": 0.5651,
      "mean_token_accuracy": 0.8138963580131531,
      "num_tokens": 69716656.0,
      "step": 3564
    },
    {
      "epoch": 0.4711868887126619,
      "grad_norm": 0.851590616650845,
      "learning_rate": 6.7249037228614566e-06,
      "loss": 0.5782,
      "mean_token_accuracy": 0.8105084896087646,
      "num_tokens": 69782192.0,
      "step": 3565
    },
    {
      "epoch": 0.4713190589479249,
      "grad_norm": 0.8029285999235369,
      "learning_rate": 6.7229057435204685e-06,
      "loss": 0.5177,
      "mean_token_accuracy": 0.8275851607322693,
      "num_tokens": 69847728.0,
      "step": 3566
    },
    {
      "epoch": 0.47145122918318794,
      "grad_norm": 0.8576447817251072,
      "learning_rate": 6.72090750384838e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.797704815864563,
      "num_tokens": 69913264.0,
      "step": 3567
    },
    {
      "epoch": 0.47158339941845095,
      "grad_norm": 0.8834237817173269,
      "learning_rate": 6.718909004270573e-06,
      "loss": 0.6528,
      "mean_token_accuracy": 0.7861829996109009,
      "num_tokens": 69978800.0,
      "step": 3568
    },
    {
      "epoch": 0.471715569653714,
      "grad_norm": 0.7957995423168315,
      "learning_rate": 6.71691024521249e-06,
      "loss": 0.5604,
      "mean_token_accuracy": 0.8152240514755249,
      "num_tokens": 70044336.0,
      "step": 3569
    },
    {
      "epoch": 0.471847739888977,
      "grad_norm": 0.8406741677420496,
      "learning_rate": 6.714911227099623e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 70109872.0,
      "step": 3570
    },
    {
      "epoch": 0.47197991012424,
      "grad_norm": 0.828487384990894,
      "learning_rate": 6.71291195035752e-06,
      "loss": 0.5701,
      "mean_token_accuracy": 0.8104169368743896,
      "num_tokens": 70175408.0,
      "step": 3571
    },
    {
      "epoch": 0.47211208035950303,
      "grad_norm": 0.8546674782337668,
      "learning_rate": 6.710912415411789e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8026645183563232,
      "num_tokens": 70240944.0,
      "step": 3572
    },
    {
      "epoch": 0.47224425059476605,
      "grad_norm": 0.9762572026096943,
      "learning_rate": 6.708912622688083e-06,
      "loss": 0.6704,
      "mean_token_accuracy": 0.7802923917770386,
      "num_tokens": 70306480.0,
      "step": 3573
    },
    {
      "epoch": 0.47237642083002906,
      "grad_norm": 0.9110321061783947,
      "learning_rate": 6.706912572612123e-06,
      "loss": 0.6848,
      "mean_token_accuracy": 0.7762635946273804,
      "num_tokens": 70372016.0,
      "step": 3574
    },
    {
      "epoch": 0.4725085910652921,
      "grad_norm": 0.8653919985320847,
      "learning_rate": 6.704912265609675e-06,
      "loss": 0.6615,
      "mean_token_accuracy": 0.7805060148239136,
      "num_tokens": 70437552.0,
      "step": 3575
    },
    {
      "epoch": 0.4726407613005551,
      "grad_norm": 0.9073316616387782,
      "learning_rate": 6.70291170210656e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.79872727394104,
      "num_tokens": 70503088.0,
      "step": 3576
    },
    {
      "epoch": 0.4727729315358181,
      "grad_norm": 0.9299413222338934,
      "learning_rate": 6.70091088252866e-06,
      "loss": 0.5798,
      "mean_token_accuracy": 0.8072579503059387,
      "num_tokens": 70568624.0,
      "step": 3577
    },
    {
      "epoch": 0.47290510177108114,
      "grad_norm": 0.9265753075492801,
      "learning_rate": 6.698909807301908e-06,
      "loss": 0.6288,
      "mean_token_accuracy": 0.7951409816741943,
      "num_tokens": 70634160.0,
      "step": 3578
    },
    {
      "epoch": 0.47303727200634416,
      "grad_norm": 0.9766551601837383,
      "learning_rate": 6.696908476852286e-06,
      "loss": 0.6692,
      "mean_token_accuracy": 0.7802618741989136,
      "num_tokens": 70699696.0,
      "step": 3579
    },
    {
      "epoch": 0.4731694422416072,
      "grad_norm": 0.875459026997553,
      "learning_rate": 6.694906891605841e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.7951104640960693,
      "num_tokens": 70765232.0,
      "step": 3580
    },
    {
      "epoch": 0.4733016124768702,
      "grad_norm": 0.8979740828641398,
      "learning_rate": 6.692905051988666e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8035496473312378,
      "num_tokens": 70830768.0,
      "step": 3581
    },
    {
      "epoch": 0.4734337827121332,
      "grad_norm": 0.8819277545908717,
      "learning_rate": 6.690902958426913e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 70896304.0,
      "step": 3582
    },
    {
      "epoch": 0.47356595294739623,
      "grad_norm": 0.834882158588291,
      "learning_rate": 6.688900611346782e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.8029544353485107,
      "num_tokens": 70961840.0,
      "step": 3583
    },
    {
      "epoch": 0.47369812318265925,
      "grad_norm": 0.8567158621518117,
      "learning_rate": 6.6868980111745345e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8069222569465637,
      "num_tokens": 71027376.0,
      "step": 3584
    },
    {
      "epoch": 0.47383029341792227,
      "grad_norm": 0.83463808258995,
      "learning_rate": 6.684895158336481e-06,
      "loss": 0.5471,
      "mean_token_accuracy": 0.8213130235671997,
      "num_tokens": 71092912.0,
      "step": 3585
    },
    {
      "epoch": 0.4739624636531853,
      "grad_norm": 0.9481463535569057,
      "learning_rate": 6.682892053258987e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7954919934272766,
      "num_tokens": 71158448.0,
      "step": 3586
    },
    {
      "epoch": 0.4740946338884483,
      "grad_norm": 0.8399494446377583,
      "learning_rate": 6.680888696368472e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8082346320152283,
      "num_tokens": 71223984.0,
      "step": 3587
    },
    {
      "epoch": 0.4742268041237113,
      "grad_norm": 0.9637763899394722,
      "learning_rate": 6.678885088091409e-06,
      "loss": 0.6606,
      "mean_token_accuracy": 0.7807959914207458,
      "num_tokens": 71289520.0,
      "step": 3588
    },
    {
      "epoch": 0.47435897435897434,
      "grad_norm": 0.8529836696904841,
      "learning_rate": 6.676881228854323e-06,
      "loss": 0.5841,
      "mean_token_accuracy": 0.8058997392654419,
      "num_tokens": 71355056.0,
      "step": 3589
    },
    {
      "epoch": 0.47449114459423736,
      "grad_norm": 0.8435498537664532,
      "learning_rate": 6.674877119083796e-06,
      "loss": 0.5777,
      "mean_token_accuracy": 0.8126449584960938,
      "num_tokens": 71420592.0,
      "step": 3590
    },
    {
      "epoch": 0.4746233148295004,
      "grad_norm": 0.861111907018234,
      "learning_rate": 6.67287275920646e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.803061306476593,
      "num_tokens": 71486128.0,
      "step": 3591
    },
    {
      "epoch": 0.4747554850647634,
      "grad_norm": 0.8656081856584257,
      "learning_rate": 6.670868149649001e-06,
      "loss": 0.5614,
      "mean_token_accuracy": 0.8160633444786072,
      "num_tokens": 71551664.0,
      "step": 3592
    },
    {
      "epoch": 0.4748876553000264,
      "grad_norm": 0.8352500454003772,
      "learning_rate": 6.668863290838159e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8066322803497314,
      "num_tokens": 71617200.0,
      "step": 3593
    },
    {
      "epoch": 0.47501982553528943,
      "grad_norm": 0.8051195823628892,
      "learning_rate": 6.666858183200727e-06,
      "loss": 0.5481,
      "mean_token_accuracy": 0.8193444013595581,
      "num_tokens": 71682736.0,
      "step": 3594
    },
    {
      "epoch": 0.47515199577055245,
      "grad_norm": 0.9002243223440946,
      "learning_rate": 6.664852827163549e-06,
      "loss": 0.6146,
      "mean_token_accuracy": 0.7972622513771057,
      "num_tokens": 71748272.0,
      "step": 3595
    },
    {
      "epoch": 0.47528416600581547,
      "grad_norm": 0.8619283988691275,
      "learning_rate": 6.662847223153525e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 71813808.0,
      "step": 3596
    },
    {
      "epoch": 0.4754163362410785,
      "grad_norm": 0.8698405453457164,
      "learning_rate": 6.660841371597607e-06,
      "loss": 0.6302,
      "mean_token_accuracy": 0.7904254794120789,
      "num_tokens": 71879344.0,
      "step": 3597
    },
    {
      "epoch": 0.4755485064763415,
      "grad_norm": 0.8816234244784139,
      "learning_rate": 6.6588352729227955e-06,
      "loss": 0.6283,
      "mean_token_accuracy": 0.7903797030448914,
      "num_tokens": 71944880.0,
      "step": 3598
    },
    {
      "epoch": 0.4756806767116045,
      "grad_norm": 0.9596050026109243,
      "learning_rate": 6.656828927556151e-06,
      "loss": 0.6864,
      "mean_token_accuracy": 0.7758362889289856,
      "num_tokens": 72010416.0,
      "step": 3599
    },
    {
      "epoch": 0.47581284694686754,
      "grad_norm": 0.9039536379563298,
      "learning_rate": 6.654822335924779e-06,
      "loss": 0.6417,
      "mean_token_accuracy": 0.7870986461639404,
      "num_tokens": 72075952.0,
      "step": 3600
    },
    {
      "epoch": 0.47594501718213056,
      "grad_norm": 0.8138481156383773,
      "learning_rate": 6.652815498455844e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.808387279510498,
      "num_tokens": 72141488.0,
      "step": 3601
    },
    {
      "epoch": 0.4760771874173936,
      "grad_norm": 0.8481717845963174,
      "learning_rate": 6.650808415576557e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.7999023199081421,
      "num_tokens": 72207024.0,
      "step": 3602
    },
    {
      "epoch": 0.4762093576526566,
      "grad_norm": 0.8755749440490747,
      "learning_rate": 6.648801087714185e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8039616942405701,
      "num_tokens": 72272560.0,
      "step": 3603
    },
    {
      "epoch": 0.4763415278879196,
      "grad_norm": 0.7637478673313335,
      "learning_rate": 6.646793515296048e-06,
      "loss": 0.5166,
      "mean_token_accuracy": 0.8288212418556213,
      "num_tokens": 72338096.0,
      "step": 3604
    },
    {
      "epoch": 0.47647369812318263,
      "grad_norm": 0.8252973037019243,
      "learning_rate": 6.644785698749515e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 72403632.0,
      "step": 3605
    },
    {
      "epoch": 0.4766058683584457,
      "grad_norm": 0.9205349698415375,
      "learning_rate": 6.642777638502009e-06,
      "loss": 0.626,
      "mean_token_accuracy": 0.7944695353507996,
      "num_tokens": 72469168.0,
      "step": 3606
    },
    {
      "epoch": 0.4767380385937087,
      "grad_norm": 0.8180992654575246,
      "learning_rate": 6.640769334981001e-06,
      "loss": 0.5646,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 72534704.0,
      "step": 3607
    },
    {
      "epoch": 0.47687020882897174,
      "grad_norm": 0.9088690392591195,
      "learning_rate": 6.6387607886140205e-06,
      "loss": 0.6173,
      "mean_token_accuracy": 0.7960871458053589,
      "num_tokens": 72600240.0,
      "step": 3608
    },
    {
      "epoch": 0.47700237906423476,
      "grad_norm": 0.845863004181701,
      "learning_rate": 6.6367519998286445e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.797735333442688,
      "num_tokens": 72665776.0,
      "step": 3609
    },
    {
      "epoch": 0.4771345492994978,
      "grad_norm": 0.8606077276101335,
      "learning_rate": 6.634742969052499e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 72731312.0,
      "step": 3610
    },
    {
      "epoch": 0.4772667195347608,
      "grad_norm": 0.9096494852874376,
      "learning_rate": 6.632733696713268e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.7997497320175171,
      "num_tokens": 72796848.0,
      "step": 3611
    },
    {
      "epoch": 0.4773988897700238,
      "grad_norm": 0.9575195110492013,
      "learning_rate": 6.630724183238685e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 72862384.0,
      "step": 3612
    },
    {
      "epoch": 0.47753106000528683,
      "grad_norm": 0.9404943876148665,
      "learning_rate": 6.628714429056529e-06,
      "loss": 0.6588,
      "mean_token_accuracy": 0.7852978706359863,
      "num_tokens": 72927920.0,
      "step": 3613
    },
    {
      "epoch": 0.47766323024054985,
      "grad_norm": 0.9402314683203185,
      "learning_rate": 6.626704434594638e-06,
      "loss": 0.6173,
      "mean_token_accuracy": 0.7963923811912537,
      "num_tokens": 72993456.0,
      "step": 3614
    },
    {
      "epoch": 0.47779540047581287,
      "grad_norm": 0.8873744388667392,
      "learning_rate": 6.624694200280894e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7892961502075195,
      "num_tokens": 73058992.0,
      "step": 3615
    },
    {
      "epoch": 0.4779275707110759,
      "grad_norm": 0.9720371968770949,
      "learning_rate": 6.62268372654324e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.807486891746521,
      "num_tokens": 73124528.0,
      "step": 3616
    },
    {
      "epoch": 0.4780597409463389,
      "grad_norm": 0.9438743965526881,
      "learning_rate": 6.620673013809659e-06,
      "loss": 0.6589,
      "mean_token_accuracy": 0.7830545902252197,
      "num_tokens": 73190064.0,
      "step": 3617
    },
    {
      "epoch": 0.4781919111816019,
      "grad_norm": 0.9378728990199726,
      "learning_rate": 6.618662062508192e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8069832921028137,
      "num_tokens": 73255600.0,
      "step": 3618
    },
    {
      "epoch": 0.47832408141686494,
      "grad_norm": 0.8518218640950219,
      "learning_rate": 6.616650873066928e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8148120045661926,
      "num_tokens": 73321136.0,
      "step": 3619
    },
    {
      "epoch": 0.47845625165212796,
      "grad_norm": 0.8014246722227703,
      "learning_rate": 6.614639445914007e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.8028323650360107,
      "num_tokens": 73386672.0,
      "step": 3620
    },
    {
      "epoch": 0.478588421887391,
      "grad_norm": 0.794306396219509,
      "learning_rate": 6.61262778147762e-06,
      "loss": 0.5499,
      "mean_token_accuracy": 0.8194664716720581,
      "num_tokens": 73452208.0,
      "step": 3621
    },
    {
      "epoch": 0.478720592122654,
      "grad_norm": 0.9358605742508121,
      "learning_rate": 6.610615880186009e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.7999938726425171,
      "num_tokens": 73517744.0,
      "step": 3622
    },
    {
      "epoch": 0.478852762357917,
      "grad_norm": 0.9607124142199799,
      "learning_rate": 6.608603742467463e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8009858131408691,
      "num_tokens": 73583280.0,
      "step": 3623
    },
    {
      "epoch": 0.47898493259318004,
      "grad_norm": 0.8787361925617072,
      "learning_rate": 6.606591368750327e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8094860315322876,
      "num_tokens": 73648816.0,
      "step": 3624
    },
    {
      "epoch": 0.47911710282844305,
      "grad_norm": 0.7789810851979073,
      "learning_rate": 6.604578759462993e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.8217403292655945,
      "num_tokens": 73714352.0,
      "step": 3625
    },
    {
      "epoch": 0.47924927306370607,
      "grad_norm": 0.7902120482332452,
      "learning_rate": 6.602565915033902e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8151019215583801,
      "num_tokens": 73779888.0,
      "step": 3626
    },
    {
      "epoch": 0.4793814432989691,
      "grad_norm": 0.9704449989005456,
      "learning_rate": 6.600552835891548e-06,
      "loss": 0.6295,
      "mean_token_accuracy": 0.792439877986908,
      "num_tokens": 73845424.0,
      "step": 3627
    },
    {
      "epoch": 0.4795136135342321,
      "grad_norm": 0.9398402140586409,
      "learning_rate": 6.598539522464474e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.7974606156349182,
      "num_tokens": 73910960.0,
      "step": 3628
    },
    {
      "epoch": 0.4796457837694951,
      "grad_norm": 1.0009304430499246,
      "learning_rate": 6.596525975181272e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.7999938726425171,
      "num_tokens": 73976496.0,
      "step": 3629
    },
    {
      "epoch": 0.47977795400475814,
      "grad_norm": 6.790303611423124,
      "learning_rate": 6.594512194470583e-06,
      "loss": 0.5633,
      "mean_token_accuracy": 0.8135148286819458,
      "num_tokens": 74042032.0,
      "step": 3630
    },
    {
      "epoch": 0.47991012424002116,
      "grad_norm": 0.8787233770695305,
      "learning_rate": 6.592498180761099e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8114851713180542,
      "num_tokens": 74107568.0,
      "step": 3631
    },
    {
      "epoch": 0.4800422944752842,
      "grad_norm": 0.9257211396552639,
      "learning_rate": 6.590483934481562e-06,
      "loss": 0.6324,
      "mean_token_accuracy": 0.7928366661071777,
      "num_tokens": 74173104.0,
      "step": 3632
    },
    {
      "epoch": 0.4801744647105472,
      "grad_norm": 0.8848252186595634,
      "learning_rate": 6.5884694560607635e-06,
      "loss": 0.6397,
      "mean_token_accuracy": 0.7899829149246216,
      "num_tokens": 74238640.0,
      "step": 3633
    },
    {
      "epoch": 0.4803066349458102,
      "grad_norm": 0.9428508808447106,
      "learning_rate": 6.586454745927544e-06,
      "loss": 0.6518,
      "mean_token_accuracy": 0.7874954342842102,
      "num_tokens": 74304176.0,
      "step": 3634
    },
    {
      "epoch": 0.48043880518107324,
      "grad_norm": 0.796078001491415,
      "learning_rate": 6.584439804510791e-06,
      "loss": 0.554,
      "mean_token_accuracy": 0.816643238067627,
      "num_tokens": 74369712.0,
      "step": 3635
    },
    {
      "epoch": 0.48057097541633625,
      "grad_norm": 0.929945741883558,
      "learning_rate": 6.5824246322394455e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8022372126579285,
      "num_tokens": 74435248.0,
      "step": 3636
    },
    {
      "epoch": 0.4807031456515993,
      "grad_norm": 1.0347653400475223,
      "learning_rate": 6.580409229542497e-06,
      "loss": 0.6469,
      "mean_token_accuracy": 0.7836039662361145,
      "num_tokens": 74500784.0,
      "step": 3637
    },
    {
      "epoch": 0.4808353158868623,
      "grad_norm": 0.8666205158568417,
      "learning_rate": 6.578393596848981e-06,
      "loss": 0.5617,
      "mean_token_accuracy": 0.8170095086097717,
      "num_tokens": 74566320.0,
      "step": 3638
    },
    {
      "epoch": 0.4809674861221253,
      "grad_norm": 0.8214187354993109,
      "learning_rate": 6.576377734587982e-06,
      "loss": 0.6156,
      "mean_token_accuracy": 0.7964534163475037,
      "num_tokens": 74631856.0,
      "step": 3639
    },
    {
      "epoch": 0.48109965635738833,
      "grad_norm": 0.8535719192731372,
      "learning_rate": 6.574361643188636e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8032901883125305,
      "num_tokens": 74697392.0,
      "step": 3640
    },
    {
      "epoch": 0.48123182659265135,
      "grad_norm": 0.9003261022392753,
      "learning_rate": 6.572345323080128e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8252044916152954,
      "num_tokens": 74762928.0,
      "step": 3641
    },
    {
      "epoch": 0.48136399682791436,
      "grad_norm": 0.9445851827128154,
      "learning_rate": 6.570328774691689e-06,
      "loss": 0.6226,
      "mean_token_accuracy": 0.7942559123039246,
      "num_tokens": 74828464.0,
      "step": 3642
    },
    {
      "epoch": 0.4814961670631774,
      "grad_norm": 0.939208607226865,
      "learning_rate": 6.568311998452601e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.7987344861030579,
      "num_tokens": 74892477.0,
      "step": 3643
    },
    {
      "epoch": 0.4816283372984404,
      "grad_norm": 0.9370185240699794,
      "learning_rate": 6.566294994792194e-06,
      "loss": 0.6679,
      "mean_token_accuracy": 0.7811775207519531,
      "num_tokens": 74958013.0,
      "step": 3644
    },
    {
      "epoch": 0.4817605075337034,
      "grad_norm": 0.8224126766675325,
      "learning_rate": 6.5642777641398445e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8096538782119751,
      "num_tokens": 75023549.0,
      "step": 3645
    },
    {
      "epoch": 0.48189267776896644,
      "grad_norm": 0.8856896558556772,
      "learning_rate": 6.56226030692498e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 75089085.0,
      "step": 3646
    },
    {
      "epoch": 0.48202484800422946,
      "grad_norm": 0.8885125246613025,
      "learning_rate": 6.560242623577073e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 75154621.0,
      "step": 3647
    },
    {
      "epoch": 0.4821570182394925,
      "grad_norm": 0.8496864583906193,
      "learning_rate": 6.55822471452565e-06,
      "loss": 0.6286,
      "mean_token_accuracy": 0.7921499013900757,
      "num_tokens": 75220157.0,
      "step": 3648
    },
    {
      "epoch": 0.4822891884747555,
      "grad_norm": 0.8211373484499561,
      "learning_rate": 6.556206580200278e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8134690523147583,
      "num_tokens": 75285693.0,
      "step": 3649
    },
    {
      "epoch": 0.4824213587100185,
      "grad_norm": 0.9345073598075023,
      "learning_rate": 6.554188221030577e-06,
      "loss": 0.6586,
      "mean_token_accuracy": 0.784458577632904,
      "num_tokens": 75351229.0,
      "step": 3650
    },
    {
      "epoch": 0.48255352894528153,
      "grad_norm": 0.8477100054885411,
      "learning_rate": 6.552169637446215e-06,
      "loss": 0.5598,
      "mean_token_accuracy": 0.8151171803474426,
      "num_tokens": 75416765.0,
      "step": 3651
    },
    {
      "epoch": 0.48268569918054455,
      "grad_norm": 0.9189638587477674,
      "learning_rate": 6.550150829876903e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7900134325027466,
      "num_tokens": 75482301.0,
      "step": 3652
    },
    {
      "epoch": 0.48281786941580757,
      "grad_norm": 0.9004622858634566,
      "learning_rate": 6.548131798752406e-06,
      "loss": 0.6272,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 75547837.0,
      "step": 3653
    },
    {
      "epoch": 0.4829500396510706,
      "grad_norm": 0.9674919844812392,
      "learning_rate": 6.546112544502534e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7854810357093811,
      "num_tokens": 75613373.0,
      "step": 3654
    },
    {
      "epoch": 0.4830822098863336,
      "grad_norm": 0.8489527296206909,
      "learning_rate": 6.54409306755714e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8036259412765503,
      "num_tokens": 75678909.0,
      "step": 3655
    },
    {
      "epoch": 0.4832143801215966,
      "grad_norm": 0.87379309535289,
      "learning_rate": 6.542073368346133e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.8000091314315796,
      "num_tokens": 75744445.0,
      "step": 3656
    },
    {
      "epoch": 0.48334655035685964,
      "grad_norm": 0.8855486125775907,
      "learning_rate": 6.540053447299461e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.8005127310752869,
      "num_tokens": 75809981.0,
      "step": 3657
    },
    {
      "epoch": 0.48347872059212266,
      "grad_norm": 0.9759988190918955,
      "learning_rate": 6.5380333048471266e-06,
      "loss": 0.6552,
      "mean_token_accuracy": 0.7839397192001343,
      "num_tokens": 75875517.0,
      "step": 3658
    },
    {
      "epoch": 0.4836108908273857,
      "grad_norm": 0.8966863482166115,
      "learning_rate": 6.536012941419173e-06,
      "loss": 0.6453,
      "mean_token_accuracy": 0.7897692322731018,
      "num_tokens": 75941053.0,
      "step": 3659
    },
    {
      "epoch": 0.4837430610626487,
      "grad_norm": 0.9611992720754727,
      "learning_rate": 6.533992357445694e-06,
      "loss": 0.6379,
      "mean_token_accuracy": 0.7913106083869934,
      "num_tokens": 76006589.0,
      "step": 3660
    },
    {
      "epoch": 0.4838752312979117,
      "grad_norm": 0.9695132754158722,
      "learning_rate": 6.53197155335683e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7895708680152893,
      "num_tokens": 76072125.0,
      "step": 3661
    },
    {
      "epoch": 0.48400740153317473,
      "grad_norm": 0.882641024511253,
      "learning_rate": 6.529950529582771e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.8014588952064514,
      "num_tokens": 76137661.0,
      "step": 3662
    },
    {
      "epoch": 0.48413957176843775,
      "grad_norm": 0.9696690610014344,
      "learning_rate": 6.527929286553746e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.800596296787262,
      "num_tokens": 76198375.0,
      "step": 3663
    },
    {
      "epoch": 0.48427174200370077,
      "grad_norm": 0.8531036102482047,
      "learning_rate": 6.525907824700036e-06,
      "loss": 0.5871,
      "mean_token_accuracy": 0.8040532469749451,
      "num_tokens": 76263911.0,
      "step": 3664
    },
    {
      "epoch": 0.4844039122389638,
      "grad_norm": 0.8293822321087959,
      "learning_rate": 6.523886144451973e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.8112868070602417,
      "num_tokens": 76329447.0,
      "step": 3665
    },
    {
      "epoch": 0.4845360824742268,
      "grad_norm": 0.8627402876615956,
      "learning_rate": 6.521864246239925e-06,
      "loss": 0.6401,
      "mean_token_accuracy": 0.7910816669464111,
      "num_tokens": 76394983.0,
      "step": 3666
    },
    {
      "epoch": 0.4846682527094898,
      "grad_norm": 0.8495986929252901,
      "learning_rate": 6.519842130494315e-06,
      "loss": 0.5645,
      "mean_token_accuracy": 0.8118361830711365,
      "num_tokens": 76460519.0,
      "step": 3667
    },
    {
      "epoch": 0.48480042294475284,
      "grad_norm": 0.9403642461528758,
      "learning_rate": 6.517819797645607e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8055945634841919,
      "num_tokens": 76526055.0,
      "step": 3668
    },
    {
      "epoch": 0.48493259318001586,
      "grad_norm": 0.8652075946555932,
      "learning_rate": 6.5157972481243145e-06,
      "loss": 0.6341,
      "mean_token_accuracy": 0.7921041250228882,
      "num_tokens": 76591591.0,
      "step": 3669
    },
    {
      "epoch": 0.4850647634152789,
      "grad_norm": 0.8795403605564712,
      "learning_rate": 6.5137744823609984e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8026950359344482,
      "num_tokens": 76657127.0,
      "step": 3670
    },
    {
      "epoch": 0.4851969336505419,
      "grad_norm": 0.8200254983422899,
      "learning_rate": 6.51175150078626e-06,
      "loss": 0.5968,
      "mean_token_accuracy": 0.8036259412765503,
      "num_tokens": 76722663.0,
      "step": 3671
    },
    {
      "epoch": 0.4853291038858049,
      "grad_norm": 0.8725109960620131,
      "learning_rate": 6.50972830383075e-06,
      "loss": 0.635,
      "mean_token_accuracy": 0.7919057607650757,
      "num_tokens": 76788199.0,
      "step": 3672
    },
    {
      "epoch": 0.48546127412106793,
      "grad_norm": 0.8349053396832923,
      "learning_rate": 6.507704891925166e-06,
      "loss": 0.5694,
      "mean_token_accuracy": 0.811851441860199,
      "num_tokens": 76853735.0,
      "step": 3673
    },
    {
      "epoch": 0.48559344435633095,
      "grad_norm": 0.8998295683686989,
      "learning_rate": 6.505681265500251e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.7959955930709839,
      "num_tokens": 76919271.0,
      "step": 3674
    },
    {
      "epoch": 0.48572561459159397,
      "grad_norm": 0.8631501966979175,
      "learning_rate": 6.50365742498679e-06,
      "loss": 0.6598,
      "mean_token_accuracy": 0.7807044386863708,
      "num_tokens": 76984807.0,
      "step": 3675
    },
    {
      "epoch": 0.485857784826857,
      "grad_norm": 0.9523156936639859,
      "learning_rate": 6.50163337081562e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 77050343.0,
      "step": 3676
    },
    {
      "epoch": 0.48598995506212,
      "grad_norm": 0.8582496732275174,
      "learning_rate": 6.499609103417615e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 77115879.0,
      "step": 3677
    },
    {
      "epoch": 0.486122125297383,
      "grad_norm": 0.8356668741761747,
      "learning_rate": 6.497584623223706e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.797674298286438,
      "num_tokens": 77181415.0,
      "step": 3678
    },
    {
      "epoch": 0.48625429553264604,
      "grad_norm": 0.9807510078785195,
      "learning_rate": 6.495559930664857e-06,
      "loss": 0.6573,
      "mean_token_accuracy": 0.7845348715782166,
      "num_tokens": 77246951.0,
      "step": 3679
    },
    {
      "epoch": 0.48638646576790906,
      "grad_norm": 0.8444551936259824,
      "learning_rate": 6.493535026172083e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 77312487.0,
      "step": 3680
    },
    {
      "epoch": 0.4865186360031721,
      "grad_norm": 0.925950412936906,
      "learning_rate": 6.491509910176448e-06,
      "loss": 0.6293,
      "mean_token_accuracy": 0.7910206317901611,
      "num_tokens": 77378023.0,
      "step": 3681
    },
    {
      "epoch": 0.4866508062384351,
      "grad_norm": 0.9667222085368435,
      "learning_rate": 6.489484583109053e-06,
      "loss": 0.631,
      "mean_token_accuracy": 0.7901507616043091,
      "num_tokens": 77443559.0,
      "step": 3682
    },
    {
      "epoch": 0.4867829764736981,
      "grad_norm": 0.8935344302698126,
      "learning_rate": 6.48745904540105e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.8038243055343628,
      "num_tokens": 77509095.0,
      "step": 3683
    },
    {
      "epoch": 0.48691514670896113,
      "grad_norm": 0.9846818312760265,
      "learning_rate": 6.485433297483632e-06,
      "loss": 0.6227,
      "mean_token_accuracy": 0.7929434776306152,
      "num_tokens": 77574631.0,
      "step": 3684
    },
    {
      "epoch": 0.48704731694422415,
      "grad_norm": 0.8625909208764666,
      "learning_rate": 6.483407339788039e-06,
      "loss": 0.6026,
      "mean_token_accuracy": 0.8014131188392639,
      "num_tokens": 77640167.0,
      "step": 3685
    },
    {
      "epoch": 0.48717948717948717,
      "grad_norm": 0.8310277740975021,
      "learning_rate": 6.481381172745557e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.813148558139801,
      "num_tokens": 77705703.0,
      "step": 3686
    },
    {
      "epoch": 0.4873116574147502,
      "grad_norm": 0.9072213540415599,
      "learning_rate": 6.479354796787511e-06,
      "loss": 0.6551,
      "mean_token_accuracy": 0.7840160131454468,
      "num_tokens": 77771239.0,
      "step": 3687
    },
    {
      "epoch": 0.4874438276500132,
      "grad_norm": 0.8550644563118155,
      "learning_rate": 6.477328212345278e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8263795375823975,
      "num_tokens": 77836775.0,
      "step": 3688
    },
    {
      "epoch": 0.4875759978852762,
      "grad_norm": 0.8645793558455486,
      "learning_rate": 6.475301419850273e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8167653679847717,
      "num_tokens": 77902311.0,
      "step": 3689
    },
    {
      "epoch": 0.48770816812053924,
      "grad_norm": 0.8572268558459242,
      "learning_rate": 6.473274419733958e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.806525468826294,
      "num_tokens": 77967847.0,
      "step": 3690
    },
    {
      "epoch": 0.48784033835580226,
      "grad_norm": 0.9091965179204328,
      "learning_rate": 6.471247212427841e-06,
      "loss": 0.6346,
      "mean_token_accuracy": 0.7940880060195923,
      "num_tokens": 78033383.0,
      "step": 3691
    },
    {
      "epoch": 0.4879725085910653,
      "grad_norm": 0.8740374048394027,
      "learning_rate": 6.469219798363469e-06,
      "loss": 0.608,
      "mean_token_accuracy": 0.7992766499519348,
      "num_tokens": 78098919.0,
      "step": 3692
    },
    {
      "epoch": 0.4881046788263283,
      "grad_norm": 0.8799427491757966,
      "learning_rate": 6.46719217797244e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8117598295211792,
      "num_tokens": 78164455.0,
      "step": 3693
    },
    {
      "epoch": 0.4882368490615913,
      "grad_norm": 0.8479861632793836,
      "learning_rate": 6.465164351686388e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8038090467453003,
      "num_tokens": 78229991.0,
      "step": 3694
    },
    {
      "epoch": 0.48836901929685433,
      "grad_norm": 0.846521940331842,
      "learning_rate": 6.463136319936998e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.811912477016449,
      "num_tokens": 78295527.0,
      "step": 3695
    },
    {
      "epoch": 0.48850118953211735,
      "grad_norm": 0.8274665368032247,
      "learning_rate": 6.461108083155993e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8197106719017029,
      "num_tokens": 78361063.0,
      "step": 3696
    },
    {
      "epoch": 0.48863335976738037,
      "grad_norm": 0.8817734163375296,
      "learning_rate": 6.459079641775144e-06,
      "loss": 0.6083,
      "mean_token_accuracy": 0.7981931567192078,
      "num_tokens": 78426599.0,
      "step": 3697
    },
    {
      "epoch": 0.4887655300026434,
      "grad_norm": 0.8365384622863227,
      "learning_rate": 6.457050996226264e-06,
      "loss": 0.5508,
      "mean_token_accuracy": 0.816582202911377,
      "num_tokens": 78492135.0,
      "step": 3698
    },
    {
      "epoch": 0.4888977002379064,
      "grad_norm": 0.840606865061193,
      "learning_rate": 6.455022146941209e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8118667006492615,
      "num_tokens": 78557671.0,
      "step": 3699
    },
    {
      "epoch": 0.4890298704731694,
      "grad_norm": 0.8117531179520155,
      "learning_rate": 6.452993094351876e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8135606050491333,
      "num_tokens": 78623207.0,
      "step": 3700
    },
    {
      "epoch": 0.48916204070843244,
      "grad_norm": 0.8660629484750196,
      "learning_rate": 6.450963838890212e-06,
      "loss": 0.6027,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 78688743.0,
      "step": 3701
    },
    {
      "epoch": 0.48929421094369546,
      "grad_norm": 0.8337813102199377,
      "learning_rate": 6.448934380988202e-06,
      "loss": 0.5379,
      "mean_token_accuracy": 0.8220149874687195,
      "num_tokens": 78754279.0,
      "step": 3702
    },
    {
      "epoch": 0.4894263811789585,
      "grad_norm": 0.8983388601287585,
      "learning_rate": 6.446904721077873e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.79866623878479,
      "num_tokens": 78819815.0,
      "step": 3703
    },
    {
      "epoch": 0.4895585514142215,
      "grad_norm": 0.8284012629503544,
      "learning_rate": 6.444874859591301e-06,
      "loss": 0.5841,
      "mean_token_accuracy": 0.8091960549354553,
      "num_tokens": 78885351.0,
      "step": 3704
    },
    {
      "epoch": 0.4896907216494845,
      "grad_norm": 0.8845273862659044,
      "learning_rate": 6.442844796960597e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.8016725778579712,
      "num_tokens": 78950887.0,
      "step": 3705
    },
    {
      "epoch": 0.48982289188474754,
      "grad_norm": 0.9184650364306493,
      "learning_rate": 6.440814533617921e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.7970638275146484,
      "num_tokens": 79016423.0,
      "step": 3706
    },
    {
      "epoch": 0.48995506212001055,
      "grad_norm": 0.842570218466682,
      "learning_rate": 6.438784069995474e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.8113631010055542,
      "num_tokens": 79081959.0,
      "step": 3707
    },
    {
      "epoch": 0.49008723235527357,
      "grad_norm": 0.9869995705247968,
      "learning_rate": 6.436753406525499e-06,
      "loss": 0.6551,
      "mean_token_accuracy": 0.784489095211029,
      "num_tokens": 79147495.0,
      "step": 3708
    },
    {
      "epoch": 0.4902194025905366,
      "grad_norm": 0.8682503772604125,
      "learning_rate": 6.434722543640281e-06,
      "loss": 0.591,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 79213031.0,
      "step": 3709
    },
    {
      "epoch": 0.4903515728257996,
      "grad_norm": 0.8275557983206441,
      "learning_rate": 6.432691481772151e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 79278567.0,
      "step": 3710
    },
    {
      "epoch": 0.4904837430610626,
      "grad_norm": 0.8223059509503462,
      "learning_rate": 6.430660221353477e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8146135807037354,
      "num_tokens": 79344103.0,
      "step": 3711
    },
    {
      "epoch": 0.49061591329632565,
      "grad_norm": 0.9769435453141625,
      "learning_rate": 6.428628762816671e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7963466048240662,
      "num_tokens": 79409639.0,
      "step": 3712
    },
    {
      "epoch": 0.49074808353158866,
      "grad_norm": 0.886650542973576,
      "learning_rate": 6.426597106594191e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.8019458055496216,
      "num_tokens": 79470701.0,
      "step": 3713
    },
    {
      "epoch": 0.4908802537668517,
      "grad_norm": 0.8810588090837154,
      "learning_rate": 6.424565253118533e-06,
      "loss": 0.6299,
      "mean_token_accuracy": 0.7920888662338257,
      "num_tokens": 79536237.0,
      "step": 3714
    },
    {
      "epoch": 0.4910124240021147,
      "grad_norm": 0.891565156462399,
      "learning_rate": 6.422533202822237e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.7982236742973328,
      "num_tokens": 79601773.0,
      "step": 3715
    },
    {
      "epoch": 0.4911445942373777,
      "grad_norm": 0.9251819637221953,
      "learning_rate": 6.420500956137883e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.7866255640983582,
      "num_tokens": 79667309.0,
      "step": 3716
    },
    {
      "epoch": 0.49127676447264074,
      "grad_norm": 0.9183141782353466,
      "learning_rate": 6.418468513498093e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8168264031410217,
      "num_tokens": 79732845.0,
      "step": 3717
    },
    {
      "epoch": 0.49140893470790376,
      "grad_norm": 0.8334907430765023,
      "learning_rate": 6.4164358753355325e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8171926736831665,
      "num_tokens": 79798381.0,
      "step": 3718
    },
    {
      "epoch": 0.4915411049431668,
      "grad_norm": 0.8438335953268149,
      "learning_rate": 6.41440304208291e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.8048162460327148,
      "num_tokens": 79863917.0,
      "step": 3719
    },
    {
      "epoch": 0.4916732751784298,
      "grad_norm": 0.8384243864352835,
      "learning_rate": 6.41237001417297e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8094402551651001,
      "num_tokens": 79929453.0,
      "step": 3720
    },
    {
      "epoch": 0.4918054454136928,
      "grad_norm": 0.8781529556830827,
      "learning_rate": 6.410336792038502e-06,
      "loss": 0.6262,
      "mean_token_accuracy": 0.7960261106491089,
      "num_tokens": 79994989.0,
      "step": 3721
    },
    {
      "epoch": 0.49193761564895583,
      "grad_norm": 0.8724475858715118,
      "learning_rate": 6.408303376112337e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 80060525.0,
      "step": 3722
    },
    {
      "epoch": 0.49206978588421885,
      "grad_norm": 0.9279507877368831,
      "learning_rate": 6.4062697668273485e-06,
      "loss": 0.6064,
      "mean_token_accuracy": 0.79866623878479,
      "num_tokens": 80126061.0,
      "step": 3723
    },
    {
      "epoch": 0.4922019561194819,
      "grad_norm": 0.922643023623641,
      "learning_rate": 6.404235964616448e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.792409360408783,
      "num_tokens": 80191597.0,
      "step": 3724
    },
    {
      "epoch": 0.49233412635474494,
      "grad_norm": 0.8536317948943448,
      "learning_rate": 6.402201969912589e-06,
      "loss": 0.5765,
      "mean_token_accuracy": 0.8111494183540344,
      "num_tokens": 80257133.0,
      "step": 3725
    },
    {
      "epoch": 0.49246629659000796,
      "grad_norm": 0.7940712842690357,
      "learning_rate": 6.4001677831487685e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.808478832244873,
      "num_tokens": 80322669.0,
      "step": 3726
    },
    {
      "epoch": 0.492598466825271,
      "grad_norm": 0.9016815629784843,
      "learning_rate": 6.39813340475802e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8044347167015076,
      "num_tokens": 80388205.0,
      "step": 3727
    },
    {
      "epoch": 0.492730637060534,
      "grad_norm": 0.7834889973017068,
      "learning_rate": 6.396098835173423e-06,
      "loss": 0.522,
      "mean_token_accuracy": 0.8266084790229797,
      "num_tokens": 80453741.0,
      "step": 3728
    },
    {
      "epoch": 0.492862807295797,
      "grad_norm": 0.8740980738734893,
      "learning_rate": 6.394064074828093e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7977200746536255,
      "num_tokens": 80519277.0,
      "step": 3729
    },
    {
      "epoch": 0.49299497753106003,
      "grad_norm": 0.8408460020124136,
      "learning_rate": 6.392029124155187e-06,
      "loss": 0.6049,
      "mean_token_accuracy": 0.8025729656219482,
      "num_tokens": 80584813.0,
      "step": 3730
    },
    {
      "epoch": 0.49312714776632305,
      "grad_norm": 0.862263307372192,
      "learning_rate": 6.389993983587904e-06,
      "loss": 0.6257,
      "mean_token_accuracy": 0.7967739105224609,
      "num_tokens": 80650349.0,
      "step": 3731
    },
    {
      "epoch": 0.49325931800158607,
      "grad_norm": 0.9680680204829363,
      "learning_rate": 6.387958653559484e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8051367402076721,
      "num_tokens": 80715885.0,
      "step": 3732
    },
    {
      "epoch": 0.4933914882368491,
      "grad_norm": 0.8685506489288606,
      "learning_rate": 6.385923134503208e-06,
      "loss": 0.5612,
      "mean_token_accuracy": 0.8159260153770447,
      "num_tokens": 80781421.0,
      "step": 3733
    },
    {
      "epoch": 0.4935236584721121,
      "grad_norm": 0.8731041395901766,
      "learning_rate": 6.383887426852393e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.7999023199081421,
      "num_tokens": 80846957.0,
      "step": 3734
    },
    {
      "epoch": 0.4936558287073751,
      "grad_norm": 0.9266207332272397,
      "learning_rate": 6.381851531040397e-06,
      "loss": 0.6684,
      "mean_token_accuracy": 0.7809180617332458,
      "num_tokens": 80912493.0,
      "step": 3735
    },
    {
      "epoch": 0.49378799894263814,
      "grad_norm": 0.8474700788931874,
      "learning_rate": 6.379815447500624e-06,
      "loss": 0.623,
      "mean_token_accuracy": 0.7942101359367371,
      "num_tokens": 80978029.0,
      "step": 3736
    },
    {
      "epoch": 0.49392016917790116,
      "grad_norm": 0.8593758190886697,
      "learning_rate": 6.377779176666509e-06,
      "loss": 0.5869,
      "mean_token_accuracy": 0.8040379881858826,
      "num_tokens": 81043565.0,
      "step": 3737
    },
    {
      "epoch": 0.4940523394131642,
      "grad_norm": 0.8711460628552549,
      "learning_rate": 6.375742718971535e-06,
      "loss": 0.5685,
      "mean_token_accuracy": 0.8135148286819458,
      "num_tokens": 81109101.0,
      "step": 3738
    },
    {
      "epoch": 0.4941845096484272,
      "grad_norm": 0.9092065005336699,
      "learning_rate": 6.373706074849221e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.8032291531562805,
      "num_tokens": 81174637.0,
      "step": 3739
    },
    {
      "epoch": 0.4943166798836902,
      "grad_norm": 0.9354879828379282,
      "learning_rate": 6.371669244733124e-06,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7881516218185425,
      "num_tokens": 81240173.0,
      "step": 3740
    },
    {
      "epoch": 0.49444885011895323,
      "grad_norm": 0.9024843734029317,
      "learning_rate": 6.369632229056844e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7983152270317078,
      "num_tokens": 81305709.0,
      "step": 3741
    },
    {
      "epoch": 0.49458102035421625,
      "grad_norm": 0.8561670535733814,
      "learning_rate": 6.367595028254021e-06,
      "loss": 0.617,
      "mean_token_accuracy": 0.7982084155082703,
      "num_tokens": 81371245.0,
      "step": 3742
    },
    {
      "epoch": 0.49471319058947927,
      "grad_norm": 0.889539515508935,
      "learning_rate": 6.36555764275833e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7964686751365662,
      "num_tokens": 81436781.0,
      "step": 3743
    },
    {
      "epoch": 0.4948453608247423,
      "grad_norm": 0.8967302404823615,
      "learning_rate": 6.363520073003488e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8049077987670898,
      "num_tokens": 81502317.0,
      "step": 3744
    },
    {
      "epoch": 0.4949775310600053,
      "grad_norm": 0.8232168477846045,
      "learning_rate": 6.36148231942325e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.7998718023300171,
      "num_tokens": 81567853.0,
      "step": 3745
    },
    {
      "epoch": 0.4951097012952683,
      "grad_norm": 1.000656181993364,
      "learning_rate": 6.359444382451414e-06,
      "loss": 0.6419,
      "mean_token_accuracy": 0.7905933260917664,
      "num_tokens": 81633389.0,
      "step": 3746
    },
    {
      "epoch": 0.49524187153053134,
      "grad_norm": 0.8510943127222537,
      "learning_rate": 6.357406262521813e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.8098675608634949,
      "num_tokens": 81698925.0,
      "step": 3747
    },
    {
      "epoch": 0.49537404176579436,
      "grad_norm": 0.8349640701258959,
      "learning_rate": 6.355367960068321e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.806647539138794,
      "num_tokens": 81764461.0,
      "step": 3748
    },
    {
      "epoch": 0.4955062120010574,
      "grad_norm": 0.8616823477913809,
      "learning_rate": 6.353329475524846e-06,
      "loss": 0.6174,
      "mean_token_accuracy": 0.7966976165771484,
      "num_tokens": 81829997.0,
      "step": 3749
    },
    {
      "epoch": 0.4956383822363204,
      "grad_norm": 0.9569505536524359,
      "learning_rate": 6.351290809325344e-06,
      "loss": 0.6653,
      "mean_token_accuracy": 0.7795140743255615,
      "num_tokens": 81895533.0,
      "step": 3750
    },
    {
      "epoch": 0.4957705524715834,
      "grad_norm": 0.8049142447681896,
      "learning_rate": 6.349251961903802e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8041905760765076,
      "num_tokens": 81961069.0,
      "step": 3751
    },
    {
      "epoch": 0.49590272270684643,
      "grad_norm": 0.7698189374609969,
      "learning_rate": 6.3472129336942504e-06,
      "loss": 0.5557,
      "mean_token_accuracy": 0.8163533210754395,
      "num_tokens": 82026605.0,
      "step": 3752
    },
    {
      "epoch": 0.49603489294210945,
      "grad_norm": 0.8632293381678535,
      "learning_rate": 6.345173725130752e-06,
      "loss": 0.5607,
      "mean_token_accuracy": 0.8154681921005249,
      "num_tokens": 82092141.0,
      "step": 3753
    },
    {
      "epoch": 0.49616706317737247,
      "grad_norm": 0.9001325916798971,
      "learning_rate": 6.343134336647413e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.8196648955345154,
      "num_tokens": 82157677.0,
      "step": 3754
    },
    {
      "epoch": 0.4962992334126355,
      "grad_norm": 0.9377629889251723,
      "learning_rate": 6.341094768678378e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.7975521683692932,
      "num_tokens": 82223213.0,
      "step": 3755
    },
    {
      "epoch": 0.4964314036478985,
      "grad_norm": 0.8329176315763639,
      "learning_rate": 6.339055021657827e-06,
      "loss": 0.6145,
      "mean_token_accuracy": 0.7955682873725891,
      "num_tokens": 82288749.0,
      "step": 3756
    },
    {
      "epoch": 0.4965635738831615,
      "grad_norm": 0.8849242881434528,
      "learning_rate": 6.337015096019981e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.7977505922317505,
      "num_tokens": 82354285.0,
      "step": 3757
    },
    {
      "epoch": 0.49669574411842454,
      "grad_norm": 0.7945866788709666,
      "learning_rate": 6.334974992199095e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8155597448348999,
      "num_tokens": 82419821.0,
      "step": 3758
    },
    {
      "epoch": 0.49682791435368756,
      "grad_norm": 0.9174477132297696,
      "learning_rate": 6.332934710629467e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7937980890274048,
      "num_tokens": 82485357.0,
      "step": 3759
    },
    {
      "epoch": 0.4969600845889506,
      "grad_norm": 0.8564870319735471,
      "learning_rate": 6.33089425174543e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7986509799957275,
      "num_tokens": 82550893.0,
      "step": 3760
    },
    {
      "epoch": 0.4970922548242136,
      "grad_norm": 0.9163911278577522,
      "learning_rate": 6.3288536159813525e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7999938726425171,
      "num_tokens": 82616429.0,
      "step": 3761
    },
    {
      "epoch": 0.4972244250594766,
      "grad_norm": 0.9118477086453036,
      "learning_rate": 6.326812803771648e-06,
      "loss": 0.6357,
      "mean_token_accuracy": 0.7896776795387268,
      "num_tokens": 82681965.0,
      "step": 3762
    },
    {
      "epoch": 0.49735659529473963,
      "grad_norm": 0.8869868962495809,
      "learning_rate": 6.32477181555076e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 82747501.0,
      "step": 3763
    },
    {
      "epoch": 0.49748876553000265,
      "grad_norm": 0.8722251395127344,
      "learning_rate": 6.322730651753171e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.8106763362884521,
      "num_tokens": 82813037.0,
      "step": 3764
    },
    {
      "epoch": 0.49762093576526567,
      "grad_norm": 0.9118486424065734,
      "learning_rate": 6.320689312813405e-06,
      "loss": 0.5976,
      "mean_token_accuracy": 0.803091824054718,
      "num_tokens": 82878573.0,
      "step": 3765
    },
    {
      "epoch": 0.4977531060005287,
      "grad_norm": 0.848459168084872,
      "learning_rate": 6.318647799166018e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.7991088032722473,
      "num_tokens": 82944109.0,
      "step": 3766
    },
    {
      "epoch": 0.4978852762357917,
      "grad_norm": 0.8970897549973339,
      "learning_rate": 6.316606111245607e-06,
      "loss": 0.655,
      "mean_token_accuracy": 0.7863508462905884,
      "num_tokens": 83009645.0,
      "step": 3767
    },
    {
      "epoch": 0.4980174464710547,
      "grad_norm": 0.8686438581434328,
      "learning_rate": 6.314564249486804e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 83075181.0,
      "step": 3768
    },
    {
      "epoch": 0.49814961670631774,
      "grad_norm": 0.9829301260796871,
      "learning_rate": 6.312522214324279e-06,
      "loss": 0.6404,
      "mean_token_accuracy": 0.7908527851104736,
      "num_tokens": 83140717.0,
      "step": 3769
    },
    {
      "epoch": 0.49828178694158076,
      "grad_norm": 0.8721995091247222,
      "learning_rate": 6.31048000619274e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8100964426994324,
      "num_tokens": 83206253.0,
      "step": 3770
    },
    {
      "epoch": 0.4984139571768438,
      "grad_norm": 0.8493298167815281,
      "learning_rate": 6.30843762552693e-06,
      "loss": 0.5752,
      "mean_token_accuracy": 0.8107678890228271,
      "num_tokens": 83271789.0,
      "step": 3771
    },
    {
      "epoch": 0.4985461274121068,
      "grad_norm": 0.8522112589991521,
      "learning_rate": 6.306395072761628e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7975216507911682,
      "num_tokens": 83337325.0,
      "step": 3772
    },
    {
      "epoch": 0.4986782976473698,
      "grad_norm": 0.8101273213114502,
      "learning_rate": 6.3043523483316495e-06,
      "loss": 0.5526,
      "mean_token_accuracy": 0.818138837814331,
      "num_tokens": 83402861.0,
      "step": 3773
    },
    {
      "epoch": 0.49881046788263284,
      "grad_norm": 0.8771700377233198,
      "learning_rate": 6.302309452671852e-06,
      "loss": 0.6144,
      "mean_token_accuracy": 0.7963771224021912,
      "num_tokens": 83468397.0,
      "step": 3774
    },
    {
      "epoch": 0.49894263811789585,
      "grad_norm": 0.860917964266101,
      "learning_rate": 6.300266386217121e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 83533933.0,
      "step": 3775
    },
    {
      "epoch": 0.49907480835315887,
      "grad_norm": 0.8237751285940308,
      "learning_rate": 6.298223149402387e-06,
      "loss": 0.6131,
      "mean_token_accuracy": 0.7996124029159546,
      "num_tokens": 83599469.0,
      "step": 3776
    },
    {
      "epoch": 0.4992069785884219,
      "grad_norm": 0.8666628412891524,
      "learning_rate": 6.296179742662607e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8124313354492188,
      "num_tokens": 83665005.0,
      "step": 3777
    },
    {
      "epoch": 0.4993391488236849,
      "grad_norm": 0.7622123877073328,
      "learning_rate": 6.294136166432785e-06,
      "loss": 0.5212,
      "mean_token_accuracy": 0.8274173140525818,
      "num_tokens": 83730541.0,
      "step": 3778
    },
    {
      "epoch": 0.4994713190589479,
      "grad_norm": 0.8846992404421289,
      "learning_rate": 6.292092421147954e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.8014283776283264,
      "num_tokens": 83796077.0,
      "step": 3779
    },
    {
      "epoch": 0.49960348929421095,
      "grad_norm": 0.9092365292632062,
      "learning_rate": 6.290048507243183e-06,
      "loss": 0.6254,
      "mean_token_accuracy": 0.7930502891540527,
      "num_tokens": 83861613.0,
      "step": 3780
    },
    {
      "epoch": 0.49973565952947396,
      "grad_norm": 0.9760967917341973,
      "learning_rate": 6.288004425153581e-06,
      "loss": 0.6112,
      "mean_token_accuracy": 0.797735333442688,
      "num_tokens": 83927149.0,
      "step": 3781
    },
    {
      "epoch": 0.499867829764737,
      "grad_norm": 0.8003550433744991,
      "learning_rate": 6.285960175314287e-06,
      "loss": 0.5497,
      "mean_token_accuracy": 0.8186576962471008,
      "num_tokens": 83992685.0,
      "step": 3782
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8535177487029763,
      "learning_rate": 6.283915758160483e-06,
      "loss": 0.6049,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 84058221.0,
      "step": 3783
    },
    {
      "epoch": 0.500132170235263,
      "grad_norm": 0.9223257591500644,
      "learning_rate": 6.281871174127381e-06,
      "loss": 0.6112,
      "mean_token_accuracy": 0.7982389330863953,
      "num_tokens": 84123757.0,
      "step": 3784
    },
    {
      "epoch": 0.500264340470526,
      "grad_norm": 0.8406756153494465,
      "learning_rate": 6.27982642365023e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8050757050514221,
      "num_tokens": 84189293.0,
      "step": 3785
    },
    {
      "epoch": 0.500396510705789,
      "grad_norm": 0.8443773344015328,
      "learning_rate": 6.277781507164315e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.811973512172699,
      "num_tokens": 84254829.0,
      "step": 3786
    },
    {
      "epoch": 0.5005286809410521,
      "grad_norm": 0.8369547154854149,
      "learning_rate": 6.275736425104957e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.8086161613464355,
      "num_tokens": 84320365.0,
      "step": 3787
    },
    {
      "epoch": 0.5006608511763151,
      "grad_norm": 0.8698511141188897,
      "learning_rate": 6.273691177907508e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7981321215629578,
      "num_tokens": 84385901.0,
      "step": 3788
    },
    {
      "epoch": 0.5007930214115781,
      "grad_norm": 0.8641954599986883,
      "learning_rate": 6.271645766007364e-06,
      "loss": 0.5469,
      "mean_token_accuracy": 0.8199395537376404,
      "num_tokens": 84451437.0,
      "step": 3789
    },
    {
      "epoch": 0.5009251916468411,
      "grad_norm": 0.8421248741694276,
      "learning_rate": 6.269600189839945e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 84516973.0,
      "step": 3790
    },
    {
      "epoch": 0.5010573618821041,
      "grad_norm": 0.8398464813204648,
      "learning_rate": 6.267554449840715e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7956598997116089,
      "num_tokens": 84582509.0,
      "step": 3791
    },
    {
      "epoch": 0.5011895321173672,
      "grad_norm": 0.8422250772184023,
      "learning_rate": 6.265508546445166e-06,
      "loss": 0.6059,
      "mean_token_accuracy": 0.7999175786972046,
      "num_tokens": 84648045.0,
      "step": 3792
    },
    {
      "epoch": 0.5013217023526302,
      "grad_norm": 0.8911598672521363,
      "learning_rate": 6.263462480088832e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 84713581.0,
      "step": 3793
    },
    {
      "epoch": 0.5014538725878932,
      "grad_norm": 0.835345321490545,
      "learning_rate": 6.261416251207274e-06,
      "loss": 0.5476,
      "mean_token_accuracy": 0.8202905654907227,
      "num_tokens": 84779117.0,
      "step": 3794
    },
    {
      "epoch": 0.5015860428231562,
      "grad_norm": 0.8824542416700659,
      "learning_rate": 6.259369860236095e-06,
      "loss": 0.618,
      "mean_token_accuracy": 0.7962855696678162,
      "num_tokens": 84844653.0,
      "step": 3795
    },
    {
      "epoch": 0.5017182130584192,
      "grad_norm": 0.8750949804051652,
      "learning_rate": 6.257323307610928e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7935081124305725,
      "num_tokens": 84910189.0,
      "step": 3796
    },
    {
      "epoch": 0.5018503832936823,
      "grad_norm": 0.8060138065675142,
      "learning_rate": 6.25527659376744e-06,
      "loss": 0.5905,
      "mean_token_accuracy": 0.8056555986404419,
      "num_tokens": 84975725.0,
      "step": 3797
    },
    {
      "epoch": 0.5019825535289453,
      "grad_norm": 0.8584572409072566,
      "learning_rate": 6.253229719141333e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.7849010825157166,
      "num_tokens": 85041261.0,
      "step": 3798
    },
    {
      "epoch": 0.5021147237642083,
      "grad_norm": 0.8656700982926033,
      "learning_rate": 6.251182684168345e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8066017627716064,
      "num_tokens": 85106797.0,
      "step": 3799
    },
    {
      "epoch": 0.5022468939994713,
      "grad_norm": 0.843423657037279,
      "learning_rate": 6.2491354892842485e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.8129196763038635,
      "num_tokens": 85172333.0,
      "step": 3800
    },
    {
      "epoch": 0.5023790642347343,
      "grad_norm": 0.9932187163183829,
      "learning_rate": 6.247088134924847e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7868391871452332,
      "num_tokens": 85237869.0,
      "step": 3801
    },
    {
      "epoch": 0.5025112344699973,
      "grad_norm": 0.8555086651267179,
      "learning_rate": 6.245040621525979e-06,
      "loss": 0.5526,
      "mean_token_accuracy": 0.8169789910316467,
      "num_tokens": 85303405.0,
      "step": 3802
    },
    {
      "epoch": 0.5026434047052604,
      "grad_norm": 0.8980726401227684,
      "learning_rate": 6.242992949523518e-06,
      "loss": 0.5864,
      "mean_token_accuracy": 0.8040379881858826,
      "num_tokens": 85368941.0,
      "step": 3803
    },
    {
      "epoch": 0.5027755749405234,
      "grad_norm": 0.8169533059870576,
      "learning_rate": 6.24094511935337e-06,
      "loss": 0.5139,
      "mean_token_accuracy": 0.8297216296195984,
      "num_tokens": 85434477.0,
      "step": 3804
    },
    {
      "epoch": 0.5029077451757864,
      "grad_norm": 0.8428933113118616,
      "learning_rate": 6.2388971314514766e-06,
      "loss": 0.5653,
      "mean_token_accuracy": 0.8134995698928833,
      "num_tokens": 85500013.0,
      "step": 3805
    },
    {
      "epoch": 0.5030399154110494,
      "grad_norm": 0.7898484457106898,
      "learning_rate": 6.2368489862538115e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8152850866317749,
      "num_tokens": 85565549.0,
      "step": 3806
    },
    {
      "epoch": 0.5031720856463124,
      "grad_norm": 0.9473502868122661,
      "learning_rate": 6.234800684196381e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.797887921333313,
      "num_tokens": 85631085.0,
      "step": 3807
    },
    {
      "epoch": 0.5033042558815755,
      "grad_norm": 0.831852731288633,
      "learning_rate": 6.2327522257152275e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.8055945634841919,
      "num_tokens": 85696621.0,
      "step": 3808
    },
    {
      "epoch": 0.5034364261168385,
      "grad_norm": 0.9330496823737063,
      "learning_rate": 6.230703611246421e-06,
      "loss": 0.6211,
      "mean_token_accuracy": 0.7969722747802734,
      "num_tokens": 85762157.0,
      "step": 3809
    },
    {
      "epoch": 0.5035685963521015,
      "grad_norm": 0.9652575712148317,
      "learning_rate": 6.228654841226075e-06,
      "loss": 0.6571,
      "mean_token_accuracy": 0.783649742603302,
      "num_tokens": 85827693.0,
      "step": 3810
    },
    {
      "epoch": 0.5037007665873645,
      "grad_norm": 0.9121362354995215,
      "learning_rate": 6.226605916090324e-06,
      "loss": 0.6239,
      "mean_token_accuracy": 0.7968654632568359,
      "num_tokens": 85893229.0,
      "step": 3811
    },
    {
      "epoch": 0.5038329368226275,
      "grad_norm": 0.9568839681606871,
      "learning_rate": 6.224556836275346e-06,
      "loss": 0.5953,
      "mean_token_accuracy": 0.8041142821311951,
      "num_tokens": 85958765.0,
      "step": 3812
    },
    {
      "epoch": 0.5039651070578905,
      "grad_norm": 0.939981849359976,
      "learning_rate": 6.222507602217345e-06,
      "loss": 0.5958,
      "mean_token_accuracy": 0.8057471513748169,
      "num_tokens": 86024301.0,
      "step": 3813
    },
    {
      "epoch": 0.5040972772931536,
      "grad_norm": 0.9211489772421045,
      "learning_rate": 6.220458214352559e-06,
      "loss": 0.6053,
      "mean_token_accuracy": 0.7997802495956421,
      "num_tokens": 86089837.0,
      "step": 3814
    },
    {
      "epoch": 0.5042294475284166,
      "grad_norm": 0.8723322051374182,
      "learning_rate": 6.218408673117261e-06,
      "loss": 0.5811,
      "mean_token_accuracy": 0.8055487871170044,
      "num_tokens": 86155373.0,
      "step": 3815
    },
    {
      "epoch": 0.5043616177636796,
      "grad_norm": 0.9248070880010089,
      "learning_rate": 6.216358978947757e-06,
      "loss": 0.5661,
      "mean_token_accuracy": 0.8134995698928833,
      "num_tokens": 86220909.0,
      "step": 3816
    },
    {
      "epoch": 0.5044937879989426,
      "grad_norm": 0.8859424482195472,
      "learning_rate": 6.214309132280383e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7847179770469666,
      "num_tokens": 86286445.0,
      "step": 3817
    },
    {
      "epoch": 0.5046259582342056,
      "grad_norm": 0.855205769893485,
      "learning_rate": 6.212259133551507e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8086771965026855,
      "num_tokens": 86351981.0,
      "step": 3818
    },
    {
      "epoch": 0.5047581284694687,
      "grad_norm": 0.8689278913708259,
      "learning_rate": 6.2102089831975335e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 86417517.0,
      "step": 3819
    },
    {
      "epoch": 0.5048902987047317,
      "grad_norm": 0.8838389537693924,
      "learning_rate": 6.208158681654896e-06,
      "loss": 0.6385,
      "mean_token_accuracy": 0.7894793152809143,
      "num_tokens": 86483053.0,
      "step": 3820
    },
    {
      "epoch": 0.5050224689399947,
      "grad_norm": 0.8505985634947045,
      "learning_rate": 6.206108229360059e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7953851819038391,
      "num_tokens": 86548589.0,
      "step": 3821
    },
    {
      "epoch": 0.5051546391752577,
      "grad_norm": 0.8642842129511752,
      "learning_rate": 6.204057626749523e-06,
      "loss": 0.5976,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 86614125.0,
      "step": 3822
    },
    {
      "epoch": 0.5052868094105207,
      "grad_norm": 0.8672948857706974,
      "learning_rate": 6.202006874259818e-06,
      "loss": 0.565,
      "mean_token_accuracy": 0.8133469820022583,
      "num_tokens": 86679661.0,
      "step": 3823
    },
    {
      "epoch": 0.5054189796457838,
      "grad_norm": 0.7961921561342193,
      "learning_rate": 6.199955972327507e-06,
      "loss": 0.5413,
      "mean_token_accuracy": 0.821725070476532,
      "num_tokens": 86745197.0,
      "step": 3824
    },
    {
      "epoch": 0.5055511498810468,
      "grad_norm": 0.9103229239569839,
      "learning_rate": 6.197904921389183e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.797948956489563,
      "num_tokens": 86810733.0,
      "step": 3825
    },
    {
      "epoch": 0.5056833201163098,
      "grad_norm": 0.8406301138792378,
      "learning_rate": 6.195853721881473e-06,
      "loss": 0.5673,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 86876269.0,
      "step": 3826
    },
    {
      "epoch": 0.5058154903515728,
      "grad_norm": 0.8071549794767525,
      "learning_rate": 6.193802374241034e-06,
      "loss": 0.5505,
      "mean_token_accuracy": 0.8181540966033936,
      "num_tokens": 86941805.0,
      "step": 3827
    },
    {
      "epoch": 0.5059476605868358,
      "grad_norm": 0.8475397411802297,
      "learning_rate": 6.191750878904553e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8125076293945312,
      "num_tokens": 87007341.0,
      "step": 3828
    },
    {
      "epoch": 0.5060798308220988,
      "grad_norm": 0.8825304733360548,
      "learning_rate": 6.189699236308754e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.799001932144165,
      "num_tokens": 87072877.0,
      "step": 3829
    },
    {
      "epoch": 0.5062120010573619,
      "grad_norm": 0.8758538229202841,
      "learning_rate": 6.187647446890387e-06,
      "loss": 0.6112,
      "mean_token_accuracy": 0.7979031801223755,
      "num_tokens": 87138413.0,
      "step": 3830
    },
    {
      "epoch": 0.5063441712926249,
      "grad_norm": 0.8287049314398021,
      "learning_rate": 6.185595511086237e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.807517409324646,
      "num_tokens": 87203949.0,
      "step": 3831
    },
    {
      "epoch": 0.5064763415278879,
      "grad_norm": 0.8989966224690624,
      "learning_rate": 6.183543429333118e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.8004211783409119,
      "num_tokens": 87269485.0,
      "step": 3832
    },
    {
      "epoch": 0.5066085117631509,
      "grad_norm": 0.8407706363650984,
      "learning_rate": 6.181491202067871e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.7982999682426453,
      "num_tokens": 87335021.0,
      "step": 3833
    },
    {
      "epoch": 0.5067406819984139,
      "grad_norm": 0.8919259394321206,
      "learning_rate": 6.1794388297273775e-06,
      "loss": 0.5927,
      "mean_token_accuracy": 0.8054113984107971,
      "num_tokens": 87400557.0,
      "step": 3834
    },
    {
      "epoch": 0.506872852233677,
      "grad_norm": 0.873647321844657,
      "learning_rate": 6.1773863127485415e-06,
      "loss": 0.5896,
      "mean_token_accuracy": 0.8065712451934814,
      "num_tokens": 87466093.0,
      "step": 3835
    },
    {
      "epoch": 0.50700502246894,
      "grad_norm": 0.8999466050863655,
      "learning_rate": 6.1753336515683025e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 87531629.0,
      "step": 3836
    },
    {
      "epoch": 0.507137192704203,
      "grad_norm": 0.8816603776205908,
      "learning_rate": 6.1732808466236306e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.7917531728744507,
      "num_tokens": 87597165.0,
      "step": 3837
    },
    {
      "epoch": 0.507269362939466,
      "grad_norm": 0.8069281382015745,
      "learning_rate": 6.171227898351522e-06,
      "loss": 0.5686,
      "mean_token_accuracy": 0.8125076293945312,
      "num_tokens": 87662701.0,
      "step": 3838
    },
    {
      "epoch": 0.507401533174729,
      "grad_norm": 0.917514517619111,
      "learning_rate": 6.1691748071890086e-06,
      "loss": 0.6307,
      "mean_token_accuracy": 0.7928977012634277,
      "num_tokens": 87728237.0,
      "step": 3839
    },
    {
      "epoch": 0.507533703409992,
      "grad_norm": 0.8747477245681254,
      "learning_rate": 6.167121573573151e-06,
      "loss": 0.5878,
      "mean_token_accuracy": 0.8063575625419617,
      "num_tokens": 87793773.0,
      "step": 3840
    },
    {
      "epoch": 0.5076658736452551,
      "grad_norm": 0.9583189982105176,
      "learning_rate": 6.165068197941037e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.798757791519165,
      "num_tokens": 87859309.0,
      "step": 3841
    },
    {
      "epoch": 0.5077980438805181,
      "grad_norm": 0.8667208790004498,
      "learning_rate": 6.163014680729791e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.8075631856918335,
      "num_tokens": 87924845.0,
      "step": 3842
    },
    {
      "epoch": 0.5079302141157811,
      "grad_norm": 0.8364198961001929,
      "learning_rate": 6.1609610223765614e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8049841523170471,
      "num_tokens": 87990381.0,
      "step": 3843
    },
    {
      "epoch": 0.5080623843510441,
      "grad_norm": 0.793073996456685,
      "learning_rate": 6.15890722331853e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.8137285113334656,
      "num_tokens": 88055917.0,
      "step": 3844
    },
    {
      "epoch": 0.5081945545863071,
      "grad_norm": 0.8335652819987962,
      "learning_rate": 6.156853283992908e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 88121453.0,
      "step": 3845
    },
    {
      "epoch": 0.5083267248215702,
      "grad_norm": 0.8272462845778656,
      "learning_rate": 6.1547992048369355e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7900286912918091,
      "num_tokens": 88186989.0,
      "step": 3846
    },
    {
      "epoch": 0.5084588950568332,
      "grad_norm": 0.8375513587994173,
      "learning_rate": 6.152744986287884e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8043736815452576,
      "num_tokens": 88252525.0,
      "step": 3847
    },
    {
      "epoch": 0.5085910652920962,
      "grad_norm": 0.8893142819640146,
      "learning_rate": 6.150690628783054e-06,
      "loss": 0.6063,
      "mean_token_accuracy": 0.7992003560066223,
      "num_tokens": 88318061.0,
      "step": 3848
    },
    {
      "epoch": 0.5087232355273592,
      "grad_norm": 0.8438500731558292,
      "learning_rate": 6.148636132759772e-06,
      "loss": 0.6015,
      "mean_token_accuracy": 0.8022982478141785,
      "num_tokens": 88383597.0,
      "step": 3849
    },
    {
      "epoch": 0.5088554057626222,
      "grad_norm": 0.7956875338054609,
      "learning_rate": 6.146581498655403e-06,
      "loss": 0.5892,
      "mean_token_accuracy": 0.8059913516044617,
      "num_tokens": 88449133.0,
      "step": 3850
    },
    {
      "epoch": 0.5089875759978852,
      "grad_norm": 0.8554250629667038,
      "learning_rate": 6.1445267269073315e-06,
      "loss": 0.5756,
      "mean_token_accuracy": 0.808784008026123,
      "num_tokens": 88514669.0,
      "step": 3851
    },
    {
      "epoch": 0.5091197462331483,
      "grad_norm": 0.8688094297682277,
      "learning_rate": 6.142471817952975e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 88580205.0,
      "step": 3852
    },
    {
      "epoch": 0.5092519164684113,
      "grad_norm": 0.8317607442984275,
      "learning_rate": 6.140416772229785e-06,
      "loss": 0.5225,
      "mean_token_accuracy": 0.8269442319869995,
      "num_tokens": 88645741.0,
      "step": 3853
    },
    {
      "epoch": 0.5093840867036743,
      "grad_norm": 0.9367789257780246,
      "learning_rate": 6.138361590175233e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7867476344108582,
      "num_tokens": 88711277.0,
      "step": 3854
    },
    {
      "epoch": 0.5095162569389373,
      "grad_norm": 0.8585466960276855,
      "learning_rate": 6.136306272226826e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7931265830993652,
      "num_tokens": 88776813.0,
      "step": 3855
    },
    {
      "epoch": 0.5096484271742003,
      "grad_norm": 0.9175368458520786,
      "learning_rate": 6.1342508188221005e-06,
      "loss": 0.6371,
      "mean_token_accuracy": 0.7897234559059143,
      "num_tokens": 88842349.0,
      "step": 3856
    },
    {
      "epoch": 0.5097805974094634,
      "grad_norm": 0.8131721328438405,
      "learning_rate": 6.132195230398617e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8157734274864197,
      "num_tokens": 88907885.0,
      "step": 3857
    },
    {
      "epoch": 0.5099127676447264,
      "grad_norm": 0.7817235546163375,
      "learning_rate": 6.130139507393969e-06,
      "loss": 0.5387,
      "mean_token_accuracy": 0.8232206106185913,
      "num_tokens": 88973421.0,
      "step": 3858
    },
    {
      "epoch": 0.5100449378799894,
      "grad_norm": 0.9560811776309276,
      "learning_rate": 6.128083650245776e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8053656220436096,
      "num_tokens": 89038957.0,
      "step": 3859
    },
    {
      "epoch": 0.5101771081152524,
      "grad_norm": 0.9688890154851624,
      "learning_rate": 6.126027659391686e-06,
      "loss": 0.6504,
      "mean_token_accuracy": 0.7880600690841675,
      "num_tokens": 89104493.0,
      "step": 3860
    },
    {
      "epoch": 0.5103092783505154,
      "grad_norm": 0.9956419544394365,
      "learning_rate": 6.123971535269379e-06,
      "loss": 0.6561,
      "mean_token_accuracy": 0.7861219644546509,
      "num_tokens": 89170029.0,
      "step": 3861
    },
    {
      "epoch": 0.5104414485857784,
      "grad_norm": 0.8515631152953549,
      "learning_rate": 6.12191527831656e-06,
      "loss": 0.5372,
      "mean_token_accuracy": 0.8223049640655518,
      "num_tokens": 89235565.0,
      "step": 3862
    },
    {
      "epoch": 0.5105736188210415,
      "grad_norm": 0.9270251755362144,
      "learning_rate": 6.119858888970963e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7970943450927734,
      "num_tokens": 89301101.0,
      "step": 3863
    },
    {
      "epoch": 0.5107057890563045,
      "grad_norm": 0.8318161214043208,
      "learning_rate": 6.11780236767035e-06,
      "loss": 0.527,
      "mean_token_accuracy": 0.8276461958885193,
      "num_tokens": 89366637.0,
      "step": 3864
    },
    {
      "epoch": 0.5108379592915675,
      "grad_norm": 0.8400922620617001,
      "learning_rate": 6.115745714852511e-06,
      "loss": 0.5455,
      "mean_token_accuracy": 0.8201227188110352,
      "num_tokens": 89432173.0,
      "step": 3865
    },
    {
      "epoch": 0.5109701295268305,
      "grad_norm": 0.8869328455339214,
      "learning_rate": 6.113688930955265e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7975826859474182,
      "num_tokens": 89497709.0,
      "step": 3866
    },
    {
      "epoch": 0.5111022997620935,
      "grad_norm": 0.8703184184925121,
      "learning_rate": 6.111632016416459e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8114851713180542,
      "num_tokens": 89563245.0,
      "step": 3867
    },
    {
      "epoch": 0.5112344699973566,
      "grad_norm": 0.8987217411325232,
      "learning_rate": 6.109574971673966e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8119582533836365,
      "num_tokens": 89628781.0,
      "step": 3868
    },
    {
      "epoch": 0.5113666402326196,
      "grad_norm": 0.8803450180012576,
      "learning_rate": 6.107517797165691e-06,
      "loss": 0.612,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 89694317.0,
      "step": 3869
    },
    {
      "epoch": 0.5114988104678826,
      "grad_norm": 0.9264934812547968,
      "learning_rate": 6.105460493329559e-06,
      "loss": 0.626,
      "mean_token_accuracy": 0.7936607003211975,
      "num_tokens": 89759853.0,
      "step": 3870
    },
    {
      "epoch": 0.5116309807031456,
      "grad_norm": 0.9403158253832979,
      "learning_rate": 6.103403060603529e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.792409360408783,
      "num_tokens": 89825389.0,
      "step": 3871
    },
    {
      "epoch": 0.5117631509384086,
      "grad_norm": 0.8991639917449211,
      "learning_rate": 6.101345499425587e-06,
      "loss": 0.5842,
      "mean_token_accuracy": 0.8058081865310669,
      "num_tokens": 89890925.0,
      "step": 3872
    },
    {
      "epoch": 0.5118953211736716,
      "grad_norm": 0.8941271686404122,
      "learning_rate": 6.099287810233743e-06,
      "loss": 0.5894,
      "mean_token_accuracy": 0.8069680333137512,
      "num_tokens": 89956461.0,
      "step": 3873
    },
    {
      "epoch": 0.5120274914089347,
      "grad_norm": 0.8773178107948142,
      "learning_rate": 6.097229993466036e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8027560710906982,
      "num_tokens": 90021997.0,
      "step": 3874
    },
    {
      "epoch": 0.5121596616441977,
      "grad_norm": 0.9493310924229256,
      "learning_rate": 6.095172049560532e-06,
      "loss": 0.6257,
      "mean_token_accuracy": 0.7947137355804443,
      "num_tokens": 90087533.0,
      "step": 3875
    },
    {
      "epoch": 0.5122918318794607,
      "grad_norm": 0.8653557118533449,
      "learning_rate": 6.093113978955324e-06,
      "loss": 0.614,
      "mean_token_accuracy": 0.7955225110054016,
      "num_tokens": 90153069.0,
      "step": 3876
    },
    {
      "epoch": 0.5124240021147237,
      "grad_norm": 0.8359462739513976,
      "learning_rate": 6.091055782088535e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8146746158599854,
      "num_tokens": 90218605.0,
      "step": 3877
    },
    {
      "epoch": 0.5125561723499867,
      "grad_norm": 0.8806855129981054,
      "learning_rate": 6.08899745939831e-06,
      "loss": 0.6039,
      "mean_token_accuracy": 0.8016268014907837,
      "num_tokens": 90284141.0,
      "step": 3878
    },
    {
      "epoch": 0.5126883425852498,
      "grad_norm": 0.8697974433449197,
      "learning_rate": 6.086939011322824e-06,
      "loss": 0.5894,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 90349677.0,
      "step": 3879
    },
    {
      "epoch": 0.5128205128205128,
      "grad_norm": 0.8781374228947192,
      "learning_rate": 6.084880438300276e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.808722972869873,
      "num_tokens": 90415213.0,
      "step": 3880
    },
    {
      "epoch": 0.5129526830557758,
      "grad_norm": 0.9643875506518735,
      "learning_rate": 6.082821740768894e-06,
      "loss": 0.6963,
      "mean_token_accuracy": 0.7711207270622253,
      "num_tokens": 90480749.0,
      "step": 3881
    },
    {
      "epoch": 0.5130848532910388,
      "grad_norm": 0.9710282307205067,
      "learning_rate": 6.0807629191669325e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7971554398536682,
      "num_tokens": 90546285.0,
      "step": 3882
    },
    {
      "epoch": 0.5132170235263018,
      "grad_norm": 0.8124124889969622,
      "learning_rate": 6.0787039739326695e-06,
      "loss": 0.5222,
      "mean_token_accuracy": 0.8236173987388611,
      "num_tokens": 90611821.0,
      "step": 3883
    },
    {
      "epoch": 0.5133491937615648,
      "grad_norm": 0.8604901733162228,
      "learning_rate": 6.076644905504414e-06,
      "loss": 0.6166,
      "mean_token_accuracy": 0.7962550520896912,
      "num_tokens": 90677357.0,
      "step": 3884
    },
    {
      "epoch": 0.5134813639968279,
      "grad_norm": 0.9944541265256278,
      "learning_rate": 6.0745857143204985e-06,
      "loss": 0.6326,
      "mean_token_accuracy": 0.7920583486557007,
      "num_tokens": 90742893.0,
      "step": 3885
    },
    {
      "epoch": 0.5136135342320909,
      "grad_norm": 0.9458958396588485,
      "learning_rate": 6.072526400819279e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7865187525749207,
      "num_tokens": 90808429.0,
      "step": 3886
    },
    {
      "epoch": 0.5137457044673539,
      "grad_norm": 0.9050356407463145,
      "learning_rate": 6.070466965439144e-06,
      "loss": 0.5702,
      "mean_token_accuracy": 0.8116072416305542,
      "num_tokens": 90873965.0,
      "step": 3887
    },
    {
      "epoch": 0.5138778747026169,
      "grad_norm": 0.8726012594691404,
      "learning_rate": 6.068407408618502e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8096386194229126,
      "num_tokens": 90939501.0,
      "step": 3888
    },
    {
      "epoch": 0.5140100449378799,
      "grad_norm": 0.8452360115549553,
      "learning_rate": 6.06634773079579e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8001312613487244,
      "num_tokens": 91005037.0,
      "step": 3889
    },
    {
      "epoch": 0.514142215173143,
      "grad_norm": 0.8409324116998808,
      "learning_rate": 6.0642879324094705e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8042363524436951,
      "num_tokens": 91070573.0,
      "step": 3890
    },
    {
      "epoch": 0.514274385408406,
      "grad_norm": 0.8791638236676167,
      "learning_rate": 6.062228013898032e-06,
      "loss": 0.5608,
      "mean_token_accuracy": 0.816582202911377,
      "num_tokens": 91136109.0,
      "step": 3891
    },
    {
      "epoch": 0.514406555643669,
      "grad_norm": 0.8556532796550933,
      "learning_rate": 6.060167975699987e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8068459033966064,
      "num_tokens": 91201645.0,
      "step": 3892
    },
    {
      "epoch": 0.514538725878932,
      "grad_norm": 0.9356091711547443,
      "learning_rate": 6.058107818253877e-06,
      "loss": 0.6097,
      "mean_token_accuracy": 0.7992461323738098,
      "num_tokens": 91267181.0,
      "step": 3893
    },
    {
      "epoch": 0.514670896114195,
      "grad_norm": 0.8636391985605385,
      "learning_rate": 6.056047541998264e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7964076399803162,
      "num_tokens": 91332717.0,
      "step": 3894
    },
    {
      "epoch": 0.514803066349458,
      "grad_norm": 0.9611879689738336,
      "learning_rate": 6.053987147371738e-06,
      "loss": 0.5712,
      "mean_token_accuracy": 0.8108595013618469,
      "num_tokens": 91398253.0,
      "step": 3895
    },
    {
      "epoch": 0.5149352365847211,
      "grad_norm": 0.8788281828136526,
      "learning_rate": 6.051926634812915e-06,
      "loss": 0.5771,
      "mean_token_accuracy": 0.808814525604248,
      "num_tokens": 91463789.0,
      "step": 3896
    },
    {
      "epoch": 0.5150674068199841,
      "grad_norm": 0.892239520441945,
      "learning_rate": 6.049866004760435e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7946068644523621,
      "num_tokens": 91529325.0,
      "step": 3897
    },
    {
      "epoch": 0.5151995770552471,
      "grad_norm": 0.8390085438288827,
      "learning_rate": 6.047805257652965e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8026797771453857,
      "num_tokens": 91594861.0,
      "step": 3898
    },
    {
      "epoch": 0.5153317472905101,
      "grad_norm": 0.926734113814064,
      "learning_rate": 6.04574439392919e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.7899676561355591,
      "num_tokens": 91660397.0,
      "step": 3899
    },
    {
      "epoch": 0.5154639175257731,
      "grad_norm": 0.9859465029411701,
      "learning_rate": 6.043683414027829e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8056861162185669,
      "num_tokens": 91725933.0,
      "step": 3900
    },
    {
      "epoch": 0.5155960877610362,
      "grad_norm": 0.8647089086965573,
      "learning_rate": 6.04162231838762e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8095165491104126,
      "num_tokens": 91791469.0,
      "step": 3901
    },
    {
      "epoch": 0.5157282579962993,
      "grad_norm": 0.9091301642883186,
      "learning_rate": 6.0395611074473285e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7956751585006714,
      "num_tokens": 91857005.0,
      "step": 3902
    },
    {
      "epoch": 0.5158604282315623,
      "grad_norm": 0.8832805918867404,
      "learning_rate": 6.0374997816457425e-06,
      "loss": 0.5811,
      "mean_token_accuracy": 0.8071358799934387,
      "num_tokens": 91922541.0,
      "step": 3903
    },
    {
      "epoch": 0.5159925984668253,
      "grad_norm": 0.864648638575903,
      "learning_rate": 6.035438341421674e-06,
      "loss": 0.6182,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 91988077.0,
      "step": 3904
    },
    {
      "epoch": 0.5161247687020883,
      "grad_norm": 0.8445169426910282,
      "learning_rate": 6.0333767872139625e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.8016115427017212,
      "num_tokens": 92053613.0,
      "step": 3905
    },
    {
      "epoch": 0.5162569389373514,
      "grad_norm": 0.7882436865450064,
      "learning_rate": 6.031315119461469e-06,
      "loss": 0.5488,
      "mean_token_accuracy": 0.818382978439331,
      "num_tokens": 92119149.0,
      "step": 3906
    },
    {
      "epoch": 0.5163891091726144,
      "grad_norm": 0.9165656122570501,
      "learning_rate": 6.029253338603081e-06,
      "loss": 0.6374,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 92184685.0,
      "step": 3907
    },
    {
      "epoch": 0.5165212794078774,
      "grad_norm": 0.9092321871988984,
      "learning_rate": 6.027191445077707e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 92250221.0,
      "step": 3908
    },
    {
      "epoch": 0.5166534496431404,
      "grad_norm": 0.8643155137055757,
      "learning_rate": 6.025129439324279e-06,
      "loss": 0.532,
      "mean_token_accuracy": 0.8255860209465027,
      "num_tokens": 92315757.0,
      "step": 3909
    },
    {
      "epoch": 0.5167856198784034,
      "grad_norm": 0.8306640240365641,
      "learning_rate": 6.023067321781759e-06,
      "loss": 0.5926,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 92381293.0,
      "step": 3910
    },
    {
      "epoch": 0.5169177901136665,
      "grad_norm": 0.7833046144177535,
      "learning_rate": 6.021005092889127e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8040074706077576,
      "num_tokens": 92446829.0,
      "step": 3911
    },
    {
      "epoch": 0.5170499603489295,
      "grad_norm": 1.0223553899178346,
      "learning_rate": 6.018942753085388e-06,
      "loss": 0.6734,
      "mean_token_accuracy": 0.7763551473617554,
      "num_tokens": 92512365.0,
      "step": 3912
    },
    {
      "epoch": 0.5171821305841925,
      "grad_norm": 0.8570987463946024,
      "learning_rate": 6.016880302809571e-06,
      "loss": 0.6379,
      "mean_token_accuracy": 0.7915547490119934,
      "num_tokens": 92577901.0,
      "step": 3913
    },
    {
      "epoch": 0.5173143008194555,
      "grad_norm": 0.9197377942216874,
      "learning_rate": 6.014817742500732e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.8082514405250549,
      "num_tokens": 92641607.0,
      "step": 3914
    },
    {
      "epoch": 0.5174464710547185,
      "grad_norm": 0.8222216212047309,
      "learning_rate": 6.012755072597941e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8208399415016174,
      "num_tokens": 92707143.0,
      "step": 3915
    },
    {
      "epoch": 0.5175786412899815,
      "grad_norm": 0.789648800528564,
      "learning_rate": 6.010692293540301e-06,
      "loss": 0.5903,
      "mean_token_accuracy": 0.8058387041091919,
      "num_tokens": 92772679.0,
      "step": 3916
    },
    {
      "epoch": 0.5177108115252446,
      "grad_norm": 0.8139718631098718,
      "learning_rate": 6.008629405766937e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8094249963760376,
      "num_tokens": 92838215.0,
      "step": 3917
    },
    {
      "epoch": 0.5178429817605076,
      "grad_norm": 0.8816685388106659,
      "learning_rate": 6.006566409716989e-06,
      "loss": 0.5903,
      "mean_token_accuracy": 0.8030765652656555,
      "num_tokens": 92903751.0,
      "step": 3918
    },
    {
      "epoch": 0.5179751519957706,
      "grad_norm": 0.8171800189659707,
      "learning_rate": 6.00450330582963e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8118361830711365,
      "num_tokens": 92969287.0,
      "step": 3919
    },
    {
      "epoch": 0.5181073222310336,
      "grad_norm": 0.8254166392378713,
      "learning_rate": 6.0024400945440496e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8069069981575012,
      "num_tokens": 93034823.0,
      "step": 3920
    },
    {
      "epoch": 0.5182394924662966,
      "grad_norm": 0.89027100324545,
      "learning_rate": 6.000376776299463e-06,
      "loss": 0.6093,
      "mean_token_accuracy": 0.7956140637397766,
      "num_tokens": 93100359.0,
      "step": 3921
    },
    {
      "epoch": 0.5183716627015597,
      "grad_norm": 0.8924147984900093,
      "learning_rate": 5.99831335153511e-06,
      "loss": 0.6315,
      "mean_token_accuracy": 0.7915394902229309,
      "num_tokens": 93165895.0,
      "step": 3922
    },
    {
      "epoch": 0.5185038329368227,
      "grad_norm": 0.900764003137067,
      "learning_rate": 5.996249820690247e-06,
      "loss": 0.5763,
      "mean_token_accuracy": 0.8096691370010376,
      "num_tokens": 93231431.0,
      "step": 3923
    },
    {
      "epoch": 0.5186360031720857,
      "grad_norm": 0.8248688919930791,
      "learning_rate": 5.994186184204158e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8123550415039062,
      "num_tokens": 93296967.0,
      "step": 3924
    },
    {
      "epoch": 0.5187681734073487,
      "grad_norm": 0.8009640156657012,
      "learning_rate": 5.9921224425161485e-06,
      "loss": 0.5324,
      "mean_token_accuracy": 0.8256317973136902,
      "num_tokens": 93362503.0,
      "step": 3925
    },
    {
      "epoch": 0.5189003436426117,
      "grad_norm": 0.8463554368808472,
      "learning_rate": 5.990058596065546e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7946984767913818,
      "num_tokens": 93428039.0,
      "step": 3926
    },
    {
      "epoch": 0.5190325138778747,
      "grad_norm": 0.8865126310757149,
      "learning_rate": 5.9879946452917e-06,
      "loss": 0.6063,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 93493575.0,
      "step": 3927
    },
    {
      "epoch": 0.5191646841131378,
      "grad_norm": 0.9303964228526929,
      "learning_rate": 5.985930590633983e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.8021761775016785,
      "num_tokens": 93559111.0,
      "step": 3928
    },
    {
      "epoch": 0.5192968543484008,
      "grad_norm": 0.9474162648150999,
      "learning_rate": 5.983866432531788e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8030460476875305,
      "num_tokens": 93624647.0,
      "step": 3929
    },
    {
      "epoch": 0.5194290245836638,
      "grad_norm": 0.8697206717401957,
      "learning_rate": 5.9818021714245325e-06,
      "loss": 0.5501,
      "mean_token_accuracy": 0.8163618445396423,
      "num_tokens": 93684795.0,
      "step": 3930
    },
    {
      "epoch": 0.5195611948189268,
      "grad_norm": 0.7996278418714302,
      "learning_rate": 5.979737807751655e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8054572343826294,
      "num_tokens": 93750331.0,
      "step": 3931
    },
    {
      "epoch": 0.5196933650541898,
      "grad_norm": 0.8287034234788484,
      "learning_rate": 5.977673341952612e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8059455752372742,
      "num_tokens": 93815867.0,
      "step": 3932
    },
    {
      "epoch": 0.5198255352894529,
      "grad_norm": 1.0386044831405354,
      "learning_rate": 5.975608774466889e-06,
      "loss": 0.6173,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 93881403.0,
      "step": 3933
    },
    {
      "epoch": 0.5199577055247159,
      "grad_norm": 0.8657806846427819,
      "learning_rate": 5.973544105733987e-06,
      "loss": 0.6131,
      "mean_token_accuracy": 0.7956445813179016,
      "num_tokens": 93946939.0,
      "step": 3934
    },
    {
      "epoch": 0.5200898757599789,
      "grad_norm": 0.8691387153204321,
      "learning_rate": 5.9714793361934334e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.806708574295044,
      "num_tokens": 94012475.0,
      "step": 3935
    },
    {
      "epoch": 0.5202220459952419,
      "grad_norm": 0.8040041620194419,
      "learning_rate": 5.9694144662847705e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.8126449584960938,
      "num_tokens": 94078011.0,
      "step": 3936
    },
    {
      "epoch": 0.5203542162305049,
      "grad_norm": 0.835751635524524,
      "learning_rate": 5.96734949644757e-06,
      "loss": 0.5534,
      "mean_token_accuracy": 0.8150103688240051,
      "num_tokens": 94143547.0,
      "step": 3937
    },
    {
      "epoch": 0.520486386465768,
      "grad_norm": 0.7706374254396637,
      "learning_rate": 5.9652844271214194e-06,
      "loss": 0.5235,
      "mean_token_accuracy": 0.8280124664306641,
      "num_tokens": 94209083.0,
      "step": 3938
    },
    {
      "epoch": 0.520618556701031,
      "grad_norm": 0.8770952771562027,
      "learning_rate": 5.963219258745928e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8060829043388367,
      "num_tokens": 94274619.0,
      "step": 3939
    },
    {
      "epoch": 0.520750726936294,
      "grad_norm": 0.7764361611810062,
      "learning_rate": 5.961153991760729e-06,
      "loss": 0.5387,
      "mean_token_accuracy": 0.8213893175125122,
      "num_tokens": 94340155.0,
      "step": 3940
    },
    {
      "epoch": 0.520882897171557,
      "grad_norm": 0.8551603043565047,
      "learning_rate": 5.959088626605471e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7970027923583984,
      "num_tokens": 94405691.0,
      "step": 3941
    },
    {
      "epoch": 0.52101506740682,
      "grad_norm": 0.8427476713241849,
      "learning_rate": 5.957023163719832e-06,
      "loss": 0.572,
      "mean_token_accuracy": 0.8099896311759949,
      "num_tokens": 94471227.0,
      "step": 3942
    },
    {
      "epoch": 0.521147237642083,
      "grad_norm": 0.8314916438649098,
      "learning_rate": 5.954957603543502e-06,
      "loss": 0.619,
      "mean_token_accuracy": 0.793645441532135,
      "num_tokens": 94536763.0,
      "step": 3943
    },
    {
      "epoch": 0.5212794078773461,
      "grad_norm": 0.8803592083029389,
      "learning_rate": 5.9528919465161976e-06,
      "loss": 0.6238,
      "mean_token_accuracy": 0.7943322062492371,
      "num_tokens": 94602299.0,
      "step": 3944
    },
    {
      "epoch": 0.5214115781126091,
      "grad_norm": 0.8822957445811701,
      "learning_rate": 5.950826193077654e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8051519989967346,
      "num_tokens": 94667835.0,
      "step": 3945
    },
    {
      "epoch": 0.5215437483478721,
      "grad_norm": 0.8894389718188542,
      "learning_rate": 5.948760343667626e-06,
      "loss": 0.6145,
      "mean_token_accuracy": 0.8002380728721619,
      "num_tokens": 94733371.0,
      "step": 3946
    },
    {
      "epoch": 0.5216759185831351,
      "grad_norm": 0.7995942332412767,
      "learning_rate": 5.946694398725888e-06,
      "loss": 0.56,
      "mean_token_accuracy": 0.8148425221443176,
      "num_tokens": 94798907.0,
      "step": 3947
    },
    {
      "epoch": 0.5218080888183981,
      "grad_norm": 0.9095891806167953,
      "learning_rate": 5.944628358692242e-06,
      "loss": 0.5716,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 94864443.0,
      "step": 3948
    },
    {
      "epoch": 0.5219402590536611,
      "grad_norm": 0.8452846311776975,
      "learning_rate": 5.942562224006502e-06,
      "loss": 0.5471,
      "mean_token_accuracy": 0.8208552002906799,
      "num_tokens": 94929979.0,
      "step": 3949
    },
    {
      "epoch": 0.5220724292889242,
      "grad_norm": 0.8463315334465508,
      "learning_rate": 5.940495995108502e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8054724931716919,
      "num_tokens": 94995515.0,
      "step": 3950
    },
    {
      "epoch": 0.5222045995241872,
      "grad_norm": 0.8477060750665879,
      "learning_rate": 5.938429672438103e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8193901777267456,
      "num_tokens": 95061051.0,
      "step": 3951
    },
    {
      "epoch": 0.5223367697594502,
      "grad_norm": 0.7995240396771172,
      "learning_rate": 5.936363256435179e-06,
      "loss": 0.5349,
      "mean_token_accuracy": 0.821969211101532,
      "num_tokens": 95126587.0,
      "step": 3952
    },
    {
      "epoch": 0.5224689399947132,
      "grad_norm": 0.8217982569458111,
      "learning_rate": 5.93429674753963e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7954309582710266,
      "num_tokens": 95192123.0,
      "step": 3953
    },
    {
      "epoch": 0.5226011102299762,
      "grad_norm": 0.8039702546570008,
      "learning_rate": 5.93223014619137e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8037174940109253,
      "num_tokens": 95257659.0,
      "step": 3954
    },
    {
      "epoch": 0.5227332804652393,
      "grad_norm": 0.8931500975529085,
      "learning_rate": 5.930163452830335e-06,
      "loss": 0.553,
      "mean_token_accuracy": 0.8187645077705383,
      "num_tokens": 95323195.0,
      "step": 3955
    },
    {
      "epoch": 0.5228654507005023,
      "grad_norm": 0.8687397728580646,
      "learning_rate": 5.928096667896486e-06,
      "loss": 0.6353,
      "mean_token_accuracy": 0.78789222240448,
      "num_tokens": 95388731.0,
      "step": 3956
    },
    {
      "epoch": 0.5229976209357653,
      "grad_norm": 0.8944097222745506,
      "learning_rate": 5.926029791829791e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8124465942382812,
      "num_tokens": 95454267.0,
      "step": 3957
    },
    {
      "epoch": 0.5231297911710283,
      "grad_norm": 0.8544192294991584,
      "learning_rate": 5.923962825070248e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7956751585006714,
      "num_tokens": 95519803.0,
      "step": 3958
    },
    {
      "epoch": 0.5232619614062913,
      "grad_norm": 0.7739893445004975,
      "learning_rate": 5.9218957680578726e-06,
      "loss": 0.584,
      "mean_token_accuracy": 0.8076547384262085,
      "num_tokens": 95585339.0,
      "step": 3959
    },
    {
      "epoch": 0.5233941316415543,
      "grad_norm": 0.7957602310552494,
      "learning_rate": 5.919828621232697e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8070748448371887,
      "num_tokens": 95650875.0,
      "step": 3960
    },
    {
      "epoch": 0.5235263018768174,
      "grad_norm": 0.9463046565170873,
      "learning_rate": 5.917761385034773e-06,
      "loss": 0.6904,
      "mean_token_accuracy": 0.7731046080589294,
      "num_tokens": 95716411.0,
      "step": 3961
    },
    {
      "epoch": 0.5236584721120804,
      "grad_norm": 0.8393611755522842,
      "learning_rate": 5.915694059904173e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8201379776000977,
      "num_tokens": 95781947.0,
      "step": 3962
    },
    {
      "epoch": 0.5237906423473434,
      "grad_norm": 0.8808126041520201,
      "learning_rate": 5.9136266462809844e-06,
      "loss": 0.5914,
      "mean_token_accuracy": 0.803396999835968,
      "num_tokens": 95847483.0,
      "step": 3963
    },
    {
      "epoch": 0.5239228125826064,
      "grad_norm": 0.84275251984948,
      "learning_rate": 5.911559144605321e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8069680333137512,
      "num_tokens": 95913019.0,
      "step": 3964
    },
    {
      "epoch": 0.5240549828178694,
      "grad_norm": 0.9174564831934704,
      "learning_rate": 5.909491555317306e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 95978555.0,
      "step": 3965
    },
    {
      "epoch": 0.5241871530531325,
      "grad_norm": 0.8355362534255383,
      "learning_rate": 5.9074238788570914e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.8158954977989197,
      "num_tokens": 96044091.0,
      "step": 3966
    },
    {
      "epoch": 0.5243193232883955,
      "grad_norm": 0.8669723668099595,
      "learning_rate": 5.905356115664837e-06,
      "loss": 0.622,
      "mean_token_accuracy": 0.7957209348678589,
      "num_tokens": 96109627.0,
      "step": 3967
    },
    {
      "epoch": 0.5244514935236585,
      "grad_norm": 0.8551741335098482,
      "learning_rate": 5.903288266180731e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8048162460327148,
      "num_tokens": 96175163.0,
      "step": 3968
    },
    {
      "epoch": 0.5245836637589215,
      "grad_norm": 0.9315594575231482,
      "learning_rate": 5.9012203308449715e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.8014741539955139,
      "num_tokens": 96240699.0,
      "step": 3969
    },
    {
      "epoch": 0.5247158339941845,
      "grad_norm": 0.967423376483974,
      "learning_rate": 5.899152310097782e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8042668700218201,
      "num_tokens": 96306235.0,
      "step": 3970
    },
    {
      "epoch": 0.5248480042294476,
      "grad_norm": 0.8616660864507685,
      "learning_rate": 5.897084204379398e-06,
      "loss": 0.553,
      "mean_token_accuracy": 0.8167653679847717,
      "num_tokens": 96371771.0,
      "step": 3971
    },
    {
      "epoch": 0.5249801744647106,
      "grad_norm": 0.8462544048700827,
      "learning_rate": 5.895016014130078e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.812843382358551,
      "num_tokens": 96437307.0,
      "step": 3972
    },
    {
      "epoch": 0.5251123446999736,
      "grad_norm": 0.84012251720269,
      "learning_rate": 5.892947739790096e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 96502843.0,
      "step": 3973
    },
    {
      "epoch": 0.5252445149352366,
      "grad_norm": 0.8699025131377587,
      "learning_rate": 5.8908793817997425e-06,
      "loss": 0.612,
      "mean_token_accuracy": 0.8005738258361816,
      "num_tokens": 96568379.0,
      "step": 3974
    },
    {
      "epoch": 0.5253766851704996,
      "grad_norm": 0.8689300099326437,
      "learning_rate": 5.888810940599332e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8097454309463501,
      "num_tokens": 96633915.0,
      "step": 3975
    },
    {
      "epoch": 0.5255088554057626,
      "grad_norm": 0.9231530191032459,
      "learning_rate": 5.886742416629188e-06,
      "loss": 0.6405,
      "mean_token_accuracy": 0.7871139049530029,
      "num_tokens": 96699451.0,
      "step": 3976
    },
    {
      "epoch": 0.5256410256410257,
      "grad_norm": 0.799217693382149,
      "learning_rate": 5.88467381032966e-06,
      "loss": 0.5553,
      "mean_token_accuracy": 0.8170247673988342,
      "num_tokens": 96764987.0,
      "step": 3977
    },
    {
      "epoch": 0.5257731958762887,
      "grad_norm": 0.8727028975280757,
      "learning_rate": 5.882605122141109e-06,
      "loss": 0.5521,
      "mean_token_accuracy": 0.8168569207191467,
      "num_tokens": 96830523.0,
      "step": 3978
    },
    {
      "epoch": 0.5259053661115517,
      "grad_norm": 0.8247074959743417,
      "learning_rate": 5.880536352503915e-06,
      "loss": 0.5591,
      "mean_token_accuracy": 0.8142321109771729,
      "num_tokens": 96896059.0,
      "step": 3979
    },
    {
      "epoch": 0.5260375363468147,
      "grad_norm": 0.8226674329668203,
      "learning_rate": 5.878467501858477e-06,
      "loss": 0.5263,
      "mean_token_accuracy": 0.8290044069290161,
      "num_tokens": 96961595.0,
      "step": 3980
    },
    {
      "epoch": 0.5261697065820777,
      "grad_norm": 0.8160052349563314,
      "learning_rate": 5.876398570645209e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.8158954977989197,
      "num_tokens": 97027131.0,
      "step": 3981
    },
    {
      "epoch": 0.5263018768173408,
      "grad_norm": 0.8778337252560667,
      "learning_rate": 5.874329559304544e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 97092667.0,
      "step": 3982
    },
    {
      "epoch": 0.5264340470526038,
      "grad_norm": 0.7928968275068355,
      "learning_rate": 5.872260468276932e-06,
      "loss": 0.525,
      "mean_token_accuracy": 0.8254028558731079,
      "num_tokens": 97158203.0,
      "step": 3983
    },
    {
      "epoch": 0.5265662172878668,
      "grad_norm": 0.8475614375896589,
      "learning_rate": 5.870191298002837e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 97223739.0,
      "step": 3984
    },
    {
      "epoch": 0.5266983875231298,
      "grad_norm": 0.8549944533140658,
      "learning_rate": 5.868122048922747e-06,
      "loss": 0.5873,
      "mean_token_accuracy": 0.807853102684021,
      "num_tokens": 97289275.0,
      "step": 3985
    },
    {
      "epoch": 0.5268305577583928,
      "grad_norm": 0.9231482230674719,
      "learning_rate": 5.866052721477156e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 97354811.0,
      "step": 3986
    },
    {
      "epoch": 0.5269627279936558,
      "grad_norm": 0.9374575589036646,
      "learning_rate": 5.863983316106584e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7894487977027893,
      "num_tokens": 97420347.0,
      "step": 3987
    },
    {
      "epoch": 0.5270948982289189,
      "grad_norm": 0.8109249365716658,
      "learning_rate": 5.861913833251562e-06,
      "loss": 0.5599,
      "mean_token_accuracy": 0.8152087926864624,
      "num_tokens": 97485883.0,
      "step": 3988
    },
    {
      "epoch": 0.5272270684641819,
      "grad_norm": 0.8526632780368296,
      "learning_rate": 5.859844273352644e-06,
      "loss": 0.6107,
      "mean_token_accuracy": 0.7985135912895203,
      "num_tokens": 97551419.0,
      "step": 3989
    },
    {
      "epoch": 0.5273592386994449,
      "grad_norm": 0.8240010212508042,
      "learning_rate": 5.8577746368503905e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8040685057640076,
      "num_tokens": 97616955.0,
      "step": 3990
    },
    {
      "epoch": 0.5274914089347079,
      "grad_norm": 0.8739962615000013,
      "learning_rate": 5.855704924185388e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.8006958961486816,
      "num_tokens": 97682491.0,
      "step": 3991
    },
    {
      "epoch": 0.5276235791699709,
      "grad_norm": 0.8529998182040549,
      "learning_rate": 5.853635135798232e-06,
      "loss": 0.619,
      "mean_token_accuracy": 0.797613263130188,
      "num_tokens": 97748027.0,
      "step": 3992
    },
    {
      "epoch": 0.527755749405234,
      "grad_norm": 0.8118594602830023,
      "learning_rate": 5.851565272129542e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.7992156147956848,
      "num_tokens": 97813563.0,
      "step": 3993
    },
    {
      "epoch": 0.527887919640497,
      "grad_norm": 0.8634959488532006,
      "learning_rate": 5.849495333619943e-06,
      "loss": 0.6173,
      "mean_token_accuracy": 0.7961787581443787,
      "num_tokens": 97879099.0,
      "step": 3994
    },
    {
      "epoch": 0.52802008987576,
      "grad_norm": 0.8515971527194515,
      "learning_rate": 5.847425320710086e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 97944635.0,
      "step": 3995
    },
    {
      "epoch": 0.528152260111023,
      "grad_norm": 0.9044599059991031,
      "learning_rate": 5.845355233840632e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8022677302360535,
      "num_tokens": 98010171.0,
      "step": 3996
    },
    {
      "epoch": 0.528284430346286,
      "grad_norm": 0.8120043720965069,
      "learning_rate": 5.843285073452257e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8243956565856934,
      "num_tokens": 98075707.0,
      "step": 3997
    },
    {
      "epoch": 0.528416600581549,
      "grad_norm": 0.9090638376209574,
      "learning_rate": 5.8412148399856594e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.7832529544830322,
      "num_tokens": 98141243.0,
      "step": 3998
    },
    {
      "epoch": 0.5285487708168121,
      "grad_norm": 0.9533865959150333,
      "learning_rate": 5.839144533881546e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.802435576915741,
      "num_tokens": 98206779.0,
      "step": 3999
    },
    {
      "epoch": 0.5286809410520751,
      "grad_norm": 0.8437616177421388,
      "learning_rate": 5.837074155580641e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8082346320152283,
      "num_tokens": 98272315.0,
      "step": 4000
    },
    {
      "epoch": 0.5288131112873381,
      "grad_norm": 0.886980807581164,
      "learning_rate": 5.835003705523688e-06,
      "loss": 0.6348,
      "mean_token_accuracy": 0.793584406375885,
      "num_tokens": 98337851.0,
      "step": 4001
    },
    {
      "epoch": 0.5289452815226011,
      "grad_norm": 0.8716362535606783,
      "learning_rate": 5.832933184151439e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7941795587539673,
      "num_tokens": 98403387.0,
      "step": 4002
    },
    {
      "epoch": 0.5290774517578641,
      "grad_norm": 0.9686307395614595,
      "learning_rate": 5.830862591904666e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.8000549674034119,
      "num_tokens": 98468923.0,
      "step": 4003
    },
    {
      "epoch": 0.5292096219931272,
      "grad_norm": 0.8414338789146288,
      "learning_rate": 5.828791929224156e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8176199197769165,
      "num_tokens": 98534459.0,
      "step": 4004
    },
    {
      "epoch": 0.5293417922283902,
      "grad_norm": 0.9343418621009116,
      "learning_rate": 5.8267211965507085e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.7987120151519775,
      "num_tokens": 98599995.0,
      "step": 4005
    },
    {
      "epoch": 0.5294739624636532,
      "grad_norm": 0.9008493954159859,
      "learning_rate": 5.82465039432514e-06,
      "loss": 0.5897,
      "mean_token_accuracy": 0.8040379881858826,
      "num_tokens": 98665531.0,
      "step": 4006
    },
    {
      "epoch": 0.5296061326989162,
      "grad_norm": 0.8748853861618024,
      "learning_rate": 5.82257952298828e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.7972317337989807,
      "num_tokens": 98731067.0,
      "step": 4007
    },
    {
      "epoch": 0.5297383029341792,
      "grad_norm": 0.914019389883012,
      "learning_rate": 5.820508582980976e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7972164750099182,
      "num_tokens": 98796603.0,
      "step": 4008
    },
    {
      "epoch": 0.5298704731694422,
      "grad_norm": 0.9287761270656847,
      "learning_rate": 5.818437574744086e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7918294668197632,
      "num_tokens": 98862139.0,
      "step": 4009
    },
    {
      "epoch": 0.5300026434047053,
      "grad_norm": 0.9709857184467293,
      "learning_rate": 5.816366498718483e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 98927675.0,
      "step": 4010
    },
    {
      "epoch": 0.5301348136399683,
      "grad_norm": 0.7892479209165753,
      "learning_rate": 5.814295355345059e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.807731032371521,
      "num_tokens": 98993211.0,
      "step": 4011
    },
    {
      "epoch": 0.5302669838752313,
      "grad_norm": 0.7650365056001257,
      "learning_rate": 5.8122241450647165e-06,
      "loss": 0.5084,
      "mean_token_accuracy": 0.832560122013092,
      "num_tokens": 99058747.0,
      "step": 4012
    },
    {
      "epoch": 0.5303991541104943,
      "grad_norm": 0.9040356108455159,
      "learning_rate": 5.8101528683183705e-06,
      "loss": 0.6213,
      "mean_token_accuracy": 0.7943932414054871,
      "num_tokens": 99124283.0,
      "step": 4013
    },
    {
      "epoch": 0.5305313243457573,
      "grad_norm": 0.895065674406422,
      "learning_rate": 5.8080815255469556e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7921499013900757,
      "num_tokens": 99189819.0,
      "step": 4014
    },
    {
      "epoch": 0.5306634945810204,
      "grad_norm": 0.9193549651828187,
      "learning_rate": 5.806010117191416e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 99255355.0,
      "step": 4015
    },
    {
      "epoch": 0.5307956648162834,
      "grad_norm": 0.9272246077512686,
      "learning_rate": 5.803938643692711e-06,
      "loss": 0.627,
      "mean_token_accuracy": 0.7929129600524902,
      "num_tokens": 99320891.0,
      "step": 4016
    },
    {
      "epoch": 0.5309278350515464,
      "grad_norm": 0.8964220128731877,
      "learning_rate": 5.801867105491816e-06,
      "loss": 0.6406,
      "mean_token_accuracy": 0.789219856262207,
      "num_tokens": 99386427.0,
      "step": 4017
    },
    {
      "epoch": 0.5310600052868094,
      "grad_norm": 0.912067232487307,
      "learning_rate": 5.799795503029716e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7953851819038391,
      "num_tokens": 99451963.0,
      "step": 4018
    },
    {
      "epoch": 0.5311921755220724,
      "grad_norm": 0.8362300338173833,
      "learning_rate": 5.797723836747411e-06,
      "loss": 0.5656,
      "mean_token_accuracy": 0.8137285113334656,
      "num_tokens": 99517499.0,
      "step": 4019
    },
    {
      "epoch": 0.5313243457573354,
      "grad_norm": 0.9521669068767544,
      "learning_rate": 5.79565210708592e-06,
      "loss": 0.6192,
      "mean_token_accuracy": 0.7960871458053589,
      "num_tokens": 99583035.0,
      "step": 4020
    },
    {
      "epoch": 0.5314565159925985,
      "grad_norm": 0.8202768887208906,
      "learning_rate": 5.793580314486267e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8160480856895447,
      "num_tokens": 99648571.0,
      "step": 4021
    },
    {
      "epoch": 0.5315886862278615,
      "grad_norm": 0.875280546774811,
      "learning_rate": 5.7915084593894935e-06,
      "loss": 0.607,
      "mean_token_accuracy": 0.8027408123016357,
      "num_tokens": 99714107.0,
      "step": 4022
    },
    {
      "epoch": 0.5317208564631245,
      "grad_norm": 0.9056852540263007,
      "learning_rate": 5.789436542236657e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8015046715736389,
      "num_tokens": 99779643.0,
      "step": 4023
    },
    {
      "epoch": 0.5318530266983875,
      "grad_norm": 0.8316520974142675,
      "learning_rate": 5.787364563468823e-06,
      "loss": 0.5649,
      "mean_token_accuracy": 0.8091960549354553,
      "num_tokens": 99845179.0,
      "step": 4024
    },
    {
      "epoch": 0.5319851969336505,
      "grad_norm": 0.9472353233605942,
      "learning_rate": 5.785292523527073e-06,
      "loss": 0.6483,
      "mean_token_accuracy": 0.7859693765640259,
      "num_tokens": 99910715.0,
      "step": 4025
    },
    {
      "epoch": 0.5321173671689136,
      "grad_norm": 0.8417732083470935,
      "learning_rate": 5.783220422852501e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.818199872970581,
      "num_tokens": 99976251.0,
      "step": 4026
    },
    {
      "epoch": 0.5322495374041766,
      "grad_norm": 0.8579408504089776,
      "learning_rate": 5.781148261886215e-06,
      "loss": 0.578,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 100041787.0,
      "step": 4027
    },
    {
      "epoch": 0.5323817076394396,
      "grad_norm": 0.9029687143735083,
      "learning_rate": 5.779076041069334e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.7966365814208984,
      "num_tokens": 100107323.0,
      "step": 4028
    },
    {
      "epoch": 0.5325138778747026,
      "grad_norm": 0.7939926770452113,
      "learning_rate": 5.77700376084299e-06,
      "loss": 0.4964,
      "mean_token_accuracy": 0.8371230363845825,
      "num_tokens": 100172859.0,
      "step": 4029
    },
    {
      "epoch": 0.5326460481099656,
      "grad_norm": 0.8103353933794742,
      "learning_rate": 5.774931421648329e-06,
      "loss": 0.5537,
      "mean_token_accuracy": 0.8155597448348999,
      "num_tokens": 100238395.0,
      "step": 4030
    },
    {
      "epoch": 0.5327782183452286,
      "grad_norm": 0.9057384676024438,
      "learning_rate": 5.772859023926508e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8089519143104553,
      "num_tokens": 100303931.0,
      "step": 4031
    },
    {
      "epoch": 0.5329103885804917,
      "grad_norm": 0.9055258743993067,
      "learning_rate": 5.770786568118697e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7964991927146912,
      "num_tokens": 100369467.0,
      "step": 4032
    },
    {
      "epoch": 0.5330425588157547,
      "grad_norm": 1.1147236311483482,
      "learning_rate": 5.76871405466608e-06,
      "loss": 0.6221,
      "mean_token_accuracy": 0.7950036525726318,
      "num_tokens": 100435003.0,
      "step": 4033
    },
    {
      "epoch": 0.5331747290510177,
      "grad_norm": 0.9227437313044438,
      "learning_rate": 5.766641484009852e-06,
      "loss": 0.5661,
      "mean_token_accuracy": 0.8131993412971497,
      "num_tokens": 100497302.0,
      "step": 4034
    },
    {
      "epoch": 0.5333068992862807,
      "grad_norm": 0.7667455795284358,
      "learning_rate": 5.7645688565912175e-06,
      "loss": 0.5386,
      "mean_token_accuracy": 0.8222744464874268,
      "num_tokens": 100562838.0,
      "step": 4035
    },
    {
      "epoch": 0.5334390695215437,
      "grad_norm": 0.7663008063848891,
      "learning_rate": 5.762496172851398e-06,
      "loss": 0.5435,
      "mean_token_accuracy": 0.8208857178688049,
      "num_tokens": 100628374.0,
      "step": 4036
    },
    {
      "epoch": 0.5335712397568068,
      "grad_norm": 0.8165531504896741,
      "learning_rate": 5.760423433231624e-06,
      "loss": 0.601,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 100693910.0,
      "step": 4037
    },
    {
      "epoch": 0.5337034099920698,
      "grad_norm": 0.8598712828349319,
      "learning_rate": 5.758350638173139e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.7899676561355591,
      "num_tokens": 100759446.0,
      "step": 4038
    },
    {
      "epoch": 0.5338355802273328,
      "grad_norm": 0.8779029224953382,
      "learning_rate": 5.756277788117196e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.7984983325004578,
      "num_tokens": 100824982.0,
      "step": 4039
    },
    {
      "epoch": 0.5339677504625958,
      "grad_norm": 0.8820896987157514,
      "learning_rate": 5.754204883505062e-06,
      "loss": 0.6246,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 100890518.0,
      "step": 4040
    },
    {
      "epoch": 0.5340999206978588,
      "grad_norm": 0.9449661609272809,
      "learning_rate": 5.752131924778017e-06,
      "loss": 0.618,
      "mean_token_accuracy": 0.7950189113616943,
      "num_tokens": 100956054.0,
      "step": 4041
    },
    {
      "epoch": 0.5342320909331219,
      "grad_norm": 0.8711140435248801,
      "learning_rate": 5.750058912377348e-06,
      "loss": 0.5494,
      "mean_token_accuracy": 0.8205805420875549,
      "num_tokens": 101021590.0,
      "step": 4042
    },
    {
      "epoch": 0.5343642611683849,
      "grad_norm": 0.8219862172424661,
      "learning_rate": 5.747985846744359e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.7978421449661255,
      "num_tokens": 101087126.0,
      "step": 4043
    },
    {
      "epoch": 0.5344964314036479,
      "grad_norm": 0.8247134038831048,
      "learning_rate": 5.745912728320362e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.807425856590271,
      "num_tokens": 101152662.0,
      "step": 4044
    },
    {
      "epoch": 0.5346286016389109,
      "grad_norm": 0.9472939440645961,
      "learning_rate": 5.743839557546678e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7871291637420654,
      "num_tokens": 101218198.0,
      "step": 4045
    },
    {
      "epoch": 0.5347607718741739,
      "grad_norm": 0.7856851111023094,
      "learning_rate": 5.741766334864643e-06,
      "loss": 0.576,
      "mean_token_accuracy": 0.8109205365180969,
      "num_tokens": 101283734.0,
      "step": 4046
    },
    {
      "epoch": 0.5348929421094369,
      "grad_norm": 0.8632075776566851,
      "learning_rate": 5.739693060715603e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.8048772811889648,
      "num_tokens": 101349270.0,
      "step": 4047
    },
    {
      "epoch": 0.5350251123447,
      "grad_norm": 0.8487955820479386,
      "learning_rate": 5.737619735540914e-06,
      "loss": 0.6078,
      "mean_token_accuracy": 0.7998107671737671,
      "num_tokens": 101414806.0,
      "step": 4048
    },
    {
      "epoch": 0.535157282579963,
      "grad_norm": 0.8646533614221227,
      "learning_rate": 5.735546359781946e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8154071569442749,
      "num_tokens": 101480342.0,
      "step": 4049
    },
    {
      "epoch": 0.535289452815226,
      "grad_norm": 0.8831835880706845,
      "learning_rate": 5.733472933880074e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8093181252479553,
      "num_tokens": 101545878.0,
      "step": 4050
    },
    {
      "epoch": 0.535421623050489,
      "grad_norm": 0.8249670086031268,
      "learning_rate": 5.7313994582766895e-06,
      "loss": 0.5831,
      "mean_token_accuracy": 0.8098370432853699,
      "num_tokens": 101611414.0,
      "step": 4051
    },
    {
      "epoch": 0.535553793285752,
      "grad_norm": 0.8230947093698656,
      "learning_rate": 5.729325933413193e-06,
      "loss": 0.5764,
      "mean_token_accuracy": 0.8094097375869751,
      "num_tokens": 101676950.0,
      "step": 4052
    },
    {
      "epoch": 0.535685963521015,
      "grad_norm": 0.7901658668118089,
      "learning_rate": 5.727252359730993e-06,
      "loss": 0.5264,
      "mean_token_accuracy": 0.8274478316307068,
      "num_tokens": 101742486.0,
      "step": 4053
    },
    {
      "epoch": 0.5358181337562781,
      "grad_norm": 0.8946555300001156,
      "learning_rate": 5.725178737671509e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.802160918712616,
      "num_tokens": 101808022.0,
      "step": 4054
    },
    {
      "epoch": 0.5359503039915411,
      "grad_norm": 0.8859150171762076,
      "learning_rate": 5.723105067676175e-06,
      "loss": 0.6093,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 101873558.0,
      "step": 4055
    },
    {
      "epoch": 0.5360824742268041,
      "grad_norm": 0.9742339211834282,
      "learning_rate": 5.721031350186428e-06,
      "loss": 0.6004,
      "mean_token_accuracy": 0.8021761775016785,
      "num_tokens": 101939094.0,
      "step": 4056
    },
    {
      "epoch": 0.5362146444620671,
      "grad_norm": 1.0251548579231275,
      "learning_rate": 5.718957585643722e-06,
      "loss": 0.6846,
      "mean_token_accuracy": 0.7772097587585449,
      "num_tokens": 102004630.0,
      "step": 4057
    },
    {
      "epoch": 0.5363468146973301,
      "grad_norm": 0.8346989564627312,
      "learning_rate": 5.716883774489518e-06,
      "loss": 0.6141,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 102070166.0,
      "step": 4058
    },
    {
      "epoch": 0.5364789849325932,
      "grad_norm": 0.7713506146022069,
      "learning_rate": 5.714809917165286e-06,
      "loss": 0.5281,
      "mean_token_accuracy": 0.8244109153747559,
      "num_tokens": 102135702.0,
      "step": 4059
    },
    {
      "epoch": 0.5366111551678562,
      "grad_norm": 0.9588633631819139,
      "learning_rate": 5.712736014112509e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 102201238.0,
      "step": 4060
    },
    {
      "epoch": 0.5367433254031192,
      "grad_norm": 0.926699969911382,
      "learning_rate": 5.710662065772674e-06,
      "loss": 0.6407,
      "mean_token_accuracy": 0.7891740798950195,
      "num_tokens": 102266774.0,
      "step": 4061
    },
    {
      "epoch": 0.5368754956383822,
      "grad_norm": 0.8355322462311173,
      "learning_rate": 5.708588072587284e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.8173452615737915,
      "num_tokens": 102332310.0,
      "step": 4062
    },
    {
      "epoch": 0.5370076658736452,
      "grad_norm": 0.8628146228528296,
      "learning_rate": 5.70651403499785e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8020235896110535,
      "num_tokens": 102397846.0,
      "step": 4063
    },
    {
      "epoch": 0.5371398361089083,
      "grad_norm": 0.8325332297905955,
      "learning_rate": 5.7044399534458895e-06,
      "loss": 0.5219,
      "mean_token_accuracy": 0.8268068432807922,
      "num_tokens": 102463382.0,
      "step": 4064
    },
    {
      "epoch": 0.5372720063441713,
      "grad_norm": 0.9311688782996661,
      "learning_rate": 5.70236582837293e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8001465201377869,
      "num_tokens": 102528918.0,
      "step": 4065
    },
    {
      "epoch": 0.5374041765794343,
      "grad_norm": 0.7946969760771716,
      "learning_rate": 5.700291660220512e-06,
      "loss": 0.553,
      "mean_token_accuracy": 0.818291425704956,
      "num_tokens": 102594454.0,
      "step": 4066
    },
    {
      "epoch": 0.5375363468146973,
      "grad_norm": 0.8389966078155386,
      "learning_rate": 5.69821744943018e-06,
      "loss": 0.5824,
      "mean_token_accuracy": 0.8058844804763794,
      "num_tokens": 102659990.0,
      "step": 4067
    },
    {
      "epoch": 0.5376685170499603,
      "grad_norm": 0.8991884253760892,
      "learning_rate": 5.696143196443492e-06,
      "loss": 0.5765,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 102725526.0,
      "step": 4068
    },
    {
      "epoch": 0.5378006872852233,
      "grad_norm": 0.8584679834358471,
      "learning_rate": 5.6940689017020124e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 102791062.0,
      "step": 4069
    },
    {
      "epoch": 0.5379328575204864,
      "grad_norm": 0.9451656665885432,
      "learning_rate": 5.6919945656473165e-06,
      "loss": 0.6063,
      "mean_token_accuracy": 0.8009552955627441,
      "num_tokens": 102856598.0,
      "step": 4070
    },
    {
      "epoch": 0.5380650277557494,
      "grad_norm": 0.8638784339725519,
      "learning_rate": 5.689920188720985e-06,
      "loss": 0.5837,
      "mean_token_accuracy": 0.806586503982544,
      "num_tokens": 102922134.0,
      "step": 4071
    },
    {
      "epoch": 0.5381971979910124,
      "grad_norm": 0.8582662184230613,
      "learning_rate": 5.6878457713646105e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8012300133705139,
      "num_tokens": 102987670.0,
      "step": 4072
    },
    {
      "epoch": 0.5383293682262754,
      "grad_norm": 0.8316032295365504,
      "learning_rate": 5.685771314019795e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.8015046715736389,
      "num_tokens": 103053206.0,
      "step": 4073
    },
    {
      "epoch": 0.5384615384615384,
      "grad_norm": 0.9352512535296572,
      "learning_rate": 5.683696817128143e-06,
      "loss": 0.5786,
      "mean_token_accuracy": 0.806769609451294,
      "num_tokens": 103118742.0,
      "step": 4074
    },
    {
      "epoch": 0.5385937086968015,
      "grad_norm": 0.8462184666614648,
      "learning_rate": 5.681622281131275e-06,
      "loss": 0.5614,
      "mean_token_accuracy": 0.8165669441223145,
      "num_tokens": 103184278.0,
      "step": 4075
    },
    {
      "epoch": 0.5387258789320645,
      "grad_norm": 0.9250785021296715,
      "learning_rate": 5.679547706470816e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8058387041091919,
      "num_tokens": 103249814.0,
      "step": 4076
    },
    {
      "epoch": 0.5388580491673275,
      "grad_norm": 0.8970661010043848,
      "learning_rate": 5.677473093588398e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8044652938842773,
      "num_tokens": 103315350.0,
      "step": 4077
    },
    {
      "epoch": 0.5389902194025905,
      "grad_norm": 0.8534688951507464,
      "learning_rate": 5.675398442925664e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8073800802230835,
      "num_tokens": 103380886.0,
      "step": 4078
    },
    {
      "epoch": 0.5391223896378535,
      "grad_norm": 0.8607236853632693,
      "learning_rate": 5.673323754924264e-06,
      "loss": 0.5409,
      "mean_token_accuracy": 0.8221828937530518,
      "num_tokens": 103446422.0,
      "step": 4079
    },
    {
      "epoch": 0.5392545598731165,
      "grad_norm": 0.8743927542796935,
      "learning_rate": 5.671249030025855e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 103511958.0,
      "step": 4080
    },
    {
      "epoch": 0.5393867301083796,
      "grad_norm": 0.8224571978958739,
      "learning_rate": 5.669174268672103e-06,
      "loss": 0.5431,
      "mean_token_accuracy": 0.8192986249923706,
      "num_tokens": 103577494.0,
      "step": 4081
    },
    {
      "epoch": 0.5395189003436426,
      "grad_norm": 0.912806093043946,
      "learning_rate": 5.667099471304681e-06,
      "loss": 0.565,
      "mean_token_accuracy": 0.8148120045661926,
      "num_tokens": 103643030.0,
      "step": 4082
    },
    {
      "epoch": 0.5396510705789056,
      "grad_norm": 0.8332512544639143,
      "learning_rate": 5.665024638365271e-06,
      "loss": 0.6015,
      "mean_token_accuracy": 0.79878830909729,
      "num_tokens": 103708566.0,
      "step": 4083
    },
    {
      "epoch": 0.5397832408141686,
      "grad_norm": 0.905691603376225,
      "learning_rate": 5.662949770295559e-06,
      "loss": 0.5277,
      "mean_token_accuracy": 0.8244720101356506,
      "num_tokens": 103774102.0,
      "step": 4084
    },
    {
      "epoch": 0.5399154110494316,
      "grad_norm": 0.8854865155301472,
      "learning_rate": 5.660874867537246e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.8017793893814087,
      "num_tokens": 103839638.0,
      "step": 4085
    },
    {
      "epoch": 0.5400475812846947,
      "grad_norm": 0.8449088197649806,
      "learning_rate": 5.658799930532032e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.8117445707321167,
      "num_tokens": 103905174.0,
      "step": 4086
    },
    {
      "epoch": 0.5401797515199577,
      "grad_norm": 0.9190321955310927,
      "learning_rate": 5.656724959721626e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.8026492595672607,
      "num_tokens": 103970710.0,
      "step": 4087
    },
    {
      "epoch": 0.5403119217552207,
      "grad_norm": 0.8718108262782748,
      "learning_rate": 5.65464995554775e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7941795587539673,
      "num_tokens": 104036246.0,
      "step": 4088
    },
    {
      "epoch": 0.5404440919904837,
      "grad_norm": 0.9025064928914134,
      "learning_rate": 5.652574918452127e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7984372973442078,
      "num_tokens": 104101782.0,
      "step": 4089
    },
    {
      "epoch": 0.5405762622257467,
      "grad_norm": 0.9120768919548129,
      "learning_rate": 5.650499848876489e-06,
      "loss": 0.6266,
      "mean_token_accuracy": 0.7916005253791809,
      "num_tokens": 104167318.0,
      "step": 4090
    },
    {
      "epoch": 0.5407084324610097,
      "grad_norm": 0.8902350446462641,
      "learning_rate": 5.648424747262576e-06,
      "loss": 0.5505,
      "mean_token_accuracy": 0.8154071569442749,
      "num_tokens": 104232854.0,
      "step": 4091
    },
    {
      "epoch": 0.5408406026962728,
      "grad_norm": 0.9038971196886988,
      "learning_rate": 5.6463496140521334e-06,
      "loss": 0.6284,
      "mean_token_accuracy": 0.7923635840415955,
      "num_tokens": 104298390.0,
      "step": 4092
    },
    {
      "epoch": 0.5409727729315358,
      "grad_norm": 0.8417329612379919,
      "learning_rate": 5.644274449686913e-06,
      "loss": 0.5579,
      "mean_token_accuracy": 0.8144152164459229,
      "num_tokens": 104363926.0,
      "step": 4093
    },
    {
      "epoch": 0.5411049431667988,
      "grad_norm": 0.8902339731585297,
      "learning_rate": 5.642199254608675e-06,
      "loss": 0.656,
      "mean_token_accuracy": 0.7835124135017395,
      "num_tokens": 104429462.0,
      "step": 4094
    },
    {
      "epoch": 0.5412371134020618,
      "grad_norm": 0.908303330079715,
      "learning_rate": 5.640124029259184e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8027102947235107,
      "num_tokens": 104494998.0,
      "step": 4095
    },
    {
      "epoch": 0.5413692836373248,
      "grad_norm": 0.9321402569081214,
      "learning_rate": 5.6380487740802125e-06,
      "loss": 0.6334,
      "mean_token_accuracy": 0.7904254794120789,
      "num_tokens": 104560534.0,
      "step": 4096
    },
    {
      "epoch": 0.5415014538725879,
      "grad_norm": 0.9139940144164979,
      "learning_rate": 5.63597348951354e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 104626070.0,
      "step": 4097
    },
    {
      "epoch": 0.5416336241078509,
      "grad_norm": 0.9680589065782672,
      "learning_rate": 5.633898176000949e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8040837645530701,
      "num_tokens": 104691606.0,
      "step": 4098
    },
    {
      "epoch": 0.5417657943431139,
      "grad_norm": 0.8617187970637651,
      "learning_rate": 5.631822833984234e-06,
      "loss": 0.5737,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 104757142.0,
      "step": 4099
    },
    {
      "epoch": 0.5418979645783769,
      "grad_norm": 0.8576056178763097,
      "learning_rate": 5.62974746390519e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8071053624153137,
      "num_tokens": 104822678.0,
      "step": 4100
    },
    {
      "epoch": 0.5420301348136399,
      "grad_norm": 0.9312431599546291,
      "learning_rate": 5.627672066205617e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8091350197792053,
      "num_tokens": 104888214.0,
      "step": 4101
    },
    {
      "epoch": 0.542162305048903,
      "grad_norm": 0.8487387829907308,
      "learning_rate": 5.625596641327329e-06,
      "loss": 0.6146,
      "mean_token_accuracy": 0.7956293225288391,
      "num_tokens": 104953750.0,
      "step": 4102
    },
    {
      "epoch": 0.542294475284166,
      "grad_norm": 0.9283843336042882,
      "learning_rate": 5.623521189712138e-06,
      "loss": 0.6203,
      "mean_token_accuracy": 0.7949578762054443,
      "num_tokens": 105019286.0,
      "step": 4103
    },
    {
      "epoch": 0.542426645519429,
      "grad_norm": 0.9422768390465309,
      "learning_rate": 5.621445711801865e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.7887772917747498,
      "num_tokens": 105084822.0,
      "step": 4104
    },
    {
      "epoch": 0.542558815754692,
      "grad_norm": 0.8782121830396539,
      "learning_rate": 5.619370208038336e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 105150358.0,
      "step": 4105
    },
    {
      "epoch": 0.542690985989955,
      "grad_norm": 0.9239334159043724,
      "learning_rate": 5.617294678863381e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.807700514793396,
      "num_tokens": 105215894.0,
      "step": 4106
    },
    {
      "epoch": 0.542823156225218,
      "grad_norm": 0.971560074001999,
      "learning_rate": 5.615219124718838e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.7856183648109436,
      "num_tokens": 105281430.0,
      "step": 4107
    },
    {
      "epoch": 0.5429553264604811,
      "grad_norm": 0.9121033938087743,
      "learning_rate": 5.6131435460465486e-06,
      "loss": 0.5591,
      "mean_token_accuracy": 0.8169332146644592,
      "num_tokens": 105346966.0,
      "step": 4108
    },
    {
      "epoch": 0.5430874966957441,
      "grad_norm": 0.870636717081384,
      "learning_rate": 5.611067943288361e-06,
      "loss": 0.5573,
      "mean_token_accuracy": 0.8159565329551697,
      "num_tokens": 105412502.0,
      "step": 4109
    },
    {
      "epoch": 0.5432196669310071,
      "grad_norm": 0.9012249883767698,
      "learning_rate": 5.608992316886127e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8063880801200867,
      "num_tokens": 105478038.0,
      "step": 4110
    },
    {
      "epoch": 0.5433518371662701,
      "grad_norm": 0.8596809124701402,
      "learning_rate": 5.606916667281705e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7931418418884277,
      "num_tokens": 105543574.0,
      "step": 4111
    },
    {
      "epoch": 0.5434840074015331,
      "grad_norm": 0.8667798246097612,
      "learning_rate": 5.604840994916955e-06,
      "loss": 0.5737,
      "mean_token_accuracy": 0.8093944787979126,
      "num_tokens": 105609110.0,
      "step": 4112
    },
    {
      "epoch": 0.5436161776367961,
      "grad_norm": 0.9665792505501084,
      "learning_rate": 5.602765300233747e-06,
      "loss": 0.6215,
      "mean_token_accuracy": 0.7954614758491516,
      "num_tokens": 105674646.0,
      "step": 4113
    },
    {
      "epoch": 0.5437483478720592,
      "grad_norm": 0.8660665349537099,
      "learning_rate": 5.6006895836739515e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.807456374168396,
      "num_tokens": 105740182.0,
      "step": 4114
    },
    {
      "epoch": 0.5438805181073222,
      "grad_norm": 0.8604545520041749,
      "learning_rate": 5.598613845679448e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.7990477085113525,
      "num_tokens": 105805718.0,
      "step": 4115
    },
    {
      "epoch": 0.5440126883425852,
      "grad_norm": 0.8220957710740103,
      "learning_rate": 5.596538086692115e-06,
      "loss": 0.5479,
      "mean_token_accuracy": 0.8185508251190186,
      "num_tokens": 105871254.0,
      "step": 4116
    },
    {
      "epoch": 0.5441448585778482,
      "grad_norm": 0.8588306191526035,
      "learning_rate": 5.594462307153837e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8085856437683105,
      "num_tokens": 105936790.0,
      "step": 4117
    },
    {
      "epoch": 0.5442770288131112,
      "grad_norm": 0.8153298474042114,
      "learning_rate": 5.592386507506507e-06,
      "loss": 0.5588,
      "mean_token_accuracy": 0.8169942498207092,
      "num_tokens": 106002326.0,
      "step": 4118
    },
    {
      "epoch": 0.5444091990483743,
      "grad_norm": 0.8245006864790727,
      "learning_rate": 5.5903106881920184e-06,
      "loss": 0.5879,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 106067862.0,
      "step": 4119
    },
    {
      "epoch": 0.5445413692836373,
      "grad_norm": 0.8445595460865826,
      "learning_rate": 5.588234849652271e-06,
      "loss": 0.532,
      "mean_token_accuracy": 0.8225491642951965,
      "num_tokens": 106133398.0,
      "step": 4120
    },
    {
      "epoch": 0.5446735395189003,
      "grad_norm": 0.7808914360260383,
      "learning_rate": 5.586158992329166e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8209620118141174,
      "num_tokens": 106198934.0,
      "step": 4121
    },
    {
      "epoch": 0.5448057097541633,
      "grad_norm": 0.8547973305029453,
      "learning_rate": 5.584083116664609e-06,
      "loss": 0.5839,
      "mean_token_accuracy": 0.807578444480896,
      "num_tokens": 106264470.0,
      "step": 4122
    },
    {
      "epoch": 0.5449378799894263,
      "grad_norm": 0.8413069474587296,
      "learning_rate": 5.582007223100514e-06,
      "loss": 0.624,
      "mean_token_accuracy": 0.7918447256088257,
      "num_tokens": 106330006.0,
      "step": 4123
    },
    {
      "epoch": 0.5450700502246894,
      "grad_norm": 0.8347317085526896,
      "learning_rate": 5.579931312078793e-06,
      "loss": 0.5692,
      "mean_token_accuracy": 0.8124618530273438,
      "num_tokens": 106395542.0,
      "step": 4124
    },
    {
      "epoch": 0.5452022204599524,
      "grad_norm": 0.8704576937517935,
      "learning_rate": 5.577855384041364e-06,
      "loss": 0.5445,
      "mean_token_accuracy": 0.8174368143081665,
      "num_tokens": 106461078.0,
      "step": 4125
    },
    {
      "epoch": 0.5453343906952154,
      "grad_norm": 0.8993462143932581,
      "learning_rate": 5.575779439430149e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 106526614.0,
      "step": 4126
    },
    {
      "epoch": 0.5454665609304784,
      "grad_norm": 0.8815918685604047,
      "learning_rate": 5.573703478687074e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8098217844963074,
      "num_tokens": 106592150.0,
      "step": 4127
    },
    {
      "epoch": 0.5455987311657414,
      "grad_norm": 0.8030115500128256,
      "learning_rate": 5.571627502254067e-06,
      "loss": 0.5489,
      "mean_token_accuracy": 0.8208094239234924,
      "num_tokens": 106657686.0,
      "step": 4128
    },
    {
      "epoch": 0.5457309014010044,
      "grad_norm": 0.9122869849939732,
      "learning_rate": 5.569551510573059e-06,
      "loss": 0.5912,
      "mean_token_accuracy": 0.8051214814186096,
      "num_tokens": 106723222.0,
      "step": 4129
    },
    {
      "epoch": 0.5458630716362675,
      "grad_norm": 0.9379865428409723,
      "learning_rate": 5.567475504085989e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.7979642152786255,
      "num_tokens": 106788758.0,
      "step": 4130
    },
    {
      "epoch": 0.5459952418715305,
      "grad_norm": 0.9073126598853699,
      "learning_rate": 5.565399483234792e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.7985899448394775,
      "num_tokens": 106854294.0,
      "step": 4131
    },
    {
      "epoch": 0.5461274121067935,
      "grad_norm": 0.8248319740771712,
      "learning_rate": 5.563323448461409e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7983610033988953,
      "num_tokens": 106919830.0,
      "step": 4132
    },
    {
      "epoch": 0.5462595823420565,
      "grad_norm": 0.8453630164973989,
      "learning_rate": 5.561247400207785e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.8107221126556396,
      "num_tokens": 106985366.0,
      "step": 4133
    },
    {
      "epoch": 0.5463917525773195,
      "grad_norm": 0.8943044010482296,
      "learning_rate": 5.559171338915872e-06,
      "loss": 0.6516,
      "mean_token_accuracy": 0.784794270992279,
      "num_tokens": 107050902.0,
      "step": 4134
    },
    {
      "epoch": 0.5465239228125826,
      "grad_norm": 0.847897331081217,
      "learning_rate": 5.557095265027613e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8017641305923462,
      "num_tokens": 107116438.0,
      "step": 4135
    },
    {
      "epoch": 0.5466560930478456,
      "grad_norm": 0.8248305943722409,
      "learning_rate": 5.555019178984967e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8146288394927979,
      "num_tokens": 107181974.0,
      "step": 4136
    },
    {
      "epoch": 0.5467882632831086,
      "grad_norm": 0.8357307356011554,
      "learning_rate": 5.5529430812298844e-06,
      "loss": 0.5881,
      "mean_token_accuracy": 0.8044805526733398,
      "num_tokens": 107247510.0,
      "step": 4137
    },
    {
      "epoch": 0.5469204335183717,
      "grad_norm": 0.9120743775544142,
      "learning_rate": 5.550866972204326e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7943322062492371,
      "num_tokens": 107313046.0,
      "step": 4138
    },
    {
      "epoch": 0.5470526037536347,
      "grad_norm": 0.8009144857038297,
      "learning_rate": 5.548790852350252e-06,
      "loss": 0.5396,
      "mean_token_accuracy": 0.818474531173706,
      "num_tokens": 107378582.0,
      "step": 4139
    },
    {
      "epoch": 0.5471847739888978,
      "grad_norm": 0.8239225482949156,
      "learning_rate": 5.546714722109622e-06,
      "loss": 0.5587,
      "mean_token_accuracy": 0.816185474395752,
      "num_tokens": 107444118.0,
      "step": 4140
    },
    {
      "epoch": 0.5473169442241608,
      "grad_norm": 0.853893037143958,
      "learning_rate": 5.544638581924404e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.7990935444831848,
      "num_tokens": 107509654.0,
      "step": 4141
    },
    {
      "epoch": 0.5474491144594238,
      "grad_norm": 0.8197764302449568,
      "learning_rate": 5.5425624322365655e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8143541812896729,
      "num_tokens": 107575190.0,
      "step": 4142
    },
    {
      "epoch": 0.5475812846946868,
      "grad_norm": 0.9776787078699085,
      "learning_rate": 5.5404862734880725e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 107640726.0,
      "step": 4143
    },
    {
      "epoch": 0.5477134549299498,
      "grad_norm": 0.8993668914745525,
      "learning_rate": 5.538410106120897e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7870833873748779,
      "num_tokens": 107706262.0,
      "step": 4144
    },
    {
      "epoch": 0.5478456251652128,
      "grad_norm": 0.920476326911888,
      "learning_rate": 5.536333930577014e-06,
      "loss": 0.6294,
      "mean_token_accuracy": 0.7922415137290955,
      "num_tokens": 107771798.0,
      "step": 4145
    },
    {
      "epoch": 0.5479777954004759,
      "grad_norm": 0.823620959730054,
      "learning_rate": 5.534257747298393e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8072274327278137,
      "num_tokens": 107837334.0,
      "step": 4146
    },
    {
      "epoch": 0.5481099656357389,
      "grad_norm": 0.7953830385158991,
      "learning_rate": 5.532181556727014e-06,
      "loss": 0.5962,
      "mean_token_accuracy": 0.8068459033966064,
      "num_tokens": 107902870.0,
      "step": 4147
    },
    {
      "epoch": 0.5482421358710019,
      "grad_norm": 0.7677527689005865,
      "learning_rate": 5.5301053593048525e-06,
      "loss": 0.5332,
      "mean_token_accuracy": 0.8250519037246704,
      "num_tokens": 107968406.0,
      "step": 4148
    },
    {
      "epoch": 0.5483743061062649,
      "grad_norm": 0.7898083045854789,
      "learning_rate": 5.52802915547389e-06,
      "loss": 0.5417,
      "mean_token_accuracy": 0.822839081287384,
      "num_tokens": 108033942.0,
      "step": 4149
    },
    {
      "epoch": 0.5485064763415279,
      "grad_norm": 0.940575180496674,
      "learning_rate": 5.525952945676105e-06,
      "loss": 0.6293,
      "mean_token_accuracy": 0.7907306551933289,
      "num_tokens": 108099478.0,
      "step": 4150
    },
    {
      "epoch": 0.548638646576791,
      "grad_norm": 0.8541813033347084,
      "learning_rate": 5.523876730353479e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.7954919934272766,
      "num_tokens": 108165014.0,
      "step": 4151
    },
    {
      "epoch": 0.548770816812054,
      "grad_norm": 0.8283725806222831,
      "learning_rate": 5.521800509947996e-06,
      "loss": 0.5669,
      "mean_token_accuracy": 0.8104627132415771,
      "num_tokens": 108230550.0,
      "step": 4152
    },
    {
      "epoch": 0.548902987047317,
      "grad_norm": 0.9238718973478853,
      "learning_rate": 5.519724284901641e-06,
      "loss": 0.6402,
      "mean_token_accuracy": 0.7895556092262268,
      "num_tokens": 108296086.0,
      "step": 4153
    },
    {
      "epoch": 0.54903515728258,
      "grad_norm": 0.8278569306035112,
      "learning_rate": 5.517648055656395e-06,
      "loss": 0.5378,
      "mean_token_accuracy": 0.8220455646514893,
      "num_tokens": 108361622.0,
      "step": 4154
    },
    {
      "epoch": 0.549167327517843,
      "grad_norm": 0.802451387804868,
      "learning_rate": 5.515571822654249e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.821847140789032,
      "num_tokens": 108427158.0,
      "step": 4155
    },
    {
      "epoch": 0.549299497753106,
      "grad_norm": 0.8702825978519233,
      "learning_rate": 5.513495586337186e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8052588105201721,
      "num_tokens": 108492694.0,
      "step": 4156
    },
    {
      "epoch": 0.5494316679883691,
      "grad_norm": 0.8574075690564847,
      "learning_rate": 5.511419347147193e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8028781414031982,
      "num_tokens": 108558230.0,
      "step": 4157
    },
    {
      "epoch": 0.5495638382236321,
      "grad_norm": 0.9052415778459816,
      "learning_rate": 5.5093431055262615e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.79337078332901,
      "num_tokens": 108623766.0,
      "step": 4158
    },
    {
      "epoch": 0.5496960084588951,
      "grad_norm": 0.8855440560290689,
      "learning_rate": 5.507266861916376e-06,
      "loss": 0.5928,
      "mean_token_accuracy": 0.8044958114624023,
      "num_tokens": 108689302.0,
      "step": 4159
    },
    {
      "epoch": 0.5498281786941581,
      "grad_norm": 0.8190604060378238,
      "learning_rate": 5.5051906167595295e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8115919828414917,
      "num_tokens": 108754838.0,
      "step": 4160
    },
    {
      "epoch": 0.5499603489294211,
      "grad_norm": 0.8323215988373917,
      "learning_rate": 5.5031143704977065e-06,
      "loss": 0.5323,
      "mean_token_accuracy": 0.8267915844917297,
      "num_tokens": 108820374.0,
      "step": 4161
    },
    {
      "epoch": 0.5500925191646842,
      "grad_norm": 0.8695180402696515,
      "learning_rate": 5.501038123572902e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.8036869764328003,
      "num_tokens": 108885910.0,
      "step": 4162
    },
    {
      "epoch": 0.5502246893999472,
      "grad_norm": 0.9079558451652724,
      "learning_rate": 5.4989618764271e-06,
      "loss": 0.6319,
      "mean_token_accuracy": 0.7863966822624207,
      "num_tokens": 108951446.0,
      "step": 4163
    },
    {
      "epoch": 0.5503568596352102,
      "grad_norm": 0.8815654176868734,
      "learning_rate": 5.496885629502296e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 109016982.0,
      "step": 4164
    },
    {
      "epoch": 0.5504890298704732,
      "grad_norm": 0.8615161762754173,
      "learning_rate": 5.494809383240473e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.792714536190033,
      "num_tokens": 109082518.0,
      "step": 4165
    },
    {
      "epoch": 0.5506212001057362,
      "grad_norm": 0.8556935975707214,
      "learning_rate": 5.4927331380836255e-06,
      "loss": 0.5544,
      "mean_token_accuracy": 0.818138837814331,
      "num_tokens": 109148054.0,
      "step": 4166
    },
    {
      "epoch": 0.5507533703409992,
      "grad_norm": 0.9167188429355744,
      "learning_rate": 5.490656894473742e-06,
      "loss": 0.6697,
      "mean_token_accuracy": 0.7793614864349365,
      "num_tokens": 109213590.0,
      "step": 4167
    },
    {
      "epoch": 0.5508855405762623,
      "grad_norm": 0.885040666381545,
      "learning_rate": 5.488580652852809e-06,
      "loss": 0.6108,
      "mean_token_accuracy": 0.8001922965049744,
      "num_tokens": 109279126.0,
      "step": 4168
    },
    {
      "epoch": 0.5510177108115253,
      "grad_norm": 0.9206961230782044,
      "learning_rate": 5.4865044136628165e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.7912037372589111,
      "num_tokens": 109344662.0,
      "step": 4169
    },
    {
      "epoch": 0.5511498810467883,
      "grad_norm": 1.0351927630365108,
      "learning_rate": 5.484428177345754e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.7965754866600037,
      "num_tokens": 109410198.0,
      "step": 4170
    },
    {
      "epoch": 0.5512820512820513,
      "grad_norm": 0.8469934247975871,
      "learning_rate": 5.482351944343606e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.792592465877533,
      "num_tokens": 109475734.0,
      "step": 4171
    },
    {
      "epoch": 0.5514142215173143,
      "grad_norm": 0.8114187612906694,
      "learning_rate": 5.4802757150983625e-06,
      "loss": 0.5725,
      "mean_token_accuracy": 0.8107373714447021,
      "num_tokens": 109541270.0,
      "step": 4172
    },
    {
      "epoch": 0.5515463917525774,
      "grad_norm": 0.8519417554758267,
      "learning_rate": 5.478199490052006e-06,
      "loss": 0.5516,
      "mean_token_accuracy": 0.8169942498207092,
      "num_tokens": 109606806.0,
      "step": 4173
    },
    {
      "epoch": 0.5516785619878404,
      "grad_norm": 0.7806144201617145,
      "learning_rate": 5.476123269646522e-06,
      "loss": 0.5147,
      "mean_token_accuracy": 0.8291875123977661,
      "num_tokens": 109672342.0,
      "step": 4174
    },
    {
      "epoch": 0.5518107322231034,
      "grad_norm": 0.8668671344539167,
      "learning_rate": 5.474047054323896e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.802221953868866,
      "num_tokens": 109737878.0,
      "step": 4175
    },
    {
      "epoch": 0.5519429024583664,
      "grad_norm": 0.8446701877279486,
      "learning_rate": 5.4719708445261125e-06,
      "loss": 0.5561,
      "mean_token_accuracy": 0.8151171803474426,
      "num_tokens": 109803414.0,
      "step": 4176
    },
    {
      "epoch": 0.5520750726936294,
      "grad_norm": 0.8164059230055635,
      "learning_rate": 5.469894640695148e-06,
      "loss": 0.5442,
      "mean_token_accuracy": 0.8196801543235779,
      "num_tokens": 109868950.0,
      "step": 4177
    },
    {
      "epoch": 0.5522072429288924,
      "grad_norm": 0.802026264108095,
      "learning_rate": 5.467818443272987e-06,
      "loss": 0.5939,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 109934486.0,
      "step": 4178
    },
    {
      "epoch": 0.5523394131641555,
      "grad_norm": 0.88415112157129,
      "learning_rate": 5.465742252701609e-06,
      "loss": 0.587,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 110000022.0,
      "step": 4179
    },
    {
      "epoch": 0.5524715833994185,
      "grad_norm": 0.9033273283519956,
      "learning_rate": 5.463666069422989e-06,
      "loss": 0.5694,
      "mean_token_accuracy": 0.8119887709617615,
      "num_tokens": 110065558.0,
      "step": 4180
    },
    {
      "epoch": 0.5526037536346815,
      "grad_norm": 0.9035000481914658,
      "learning_rate": 5.461589893879104e-06,
      "loss": 0.6471,
      "mean_token_accuracy": 0.7861677408218384,
      "num_tokens": 110131094.0,
      "step": 4181
    },
    {
      "epoch": 0.5527359238699445,
      "grad_norm": 0.8871970382436353,
      "learning_rate": 5.459513726511929e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 110196630.0,
      "step": 4182
    },
    {
      "epoch": 0.5528680941052075,
      "grad_norm": 0.8234379641334107,
      "learning_rate": 5.457437567763436e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.811851441860199,
      "num_tokens": 110262166.0,
      "step": 4183
    },
    {
      "epoch": 0.5530002643404706,
      "grad_norm": 0.8503527117514975,
      "learning_rate": 5.455361418075595e-06,
      "loss": 0.6146,
      "mean_token_accuracy": 0.7961176633834839,
      "num_tokens": 110327702.0,
      "step": 4184
    },
    {
      "epoch": 0.5531324345757336,
      "grad_norm": 0.9213982650331617,
      "learning_rate": 5.453285277890379e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8053656220436096,
      "num_tokens": 110393238.0,
      "step": 4185
    },
    {
      "epoch": 0.5532646048109966,
      "grad_norm": 0.964324561041276,
      "learning_rate": 5.451209147649751e-06,
      "loss": 0.5848,
      "mean_token_accuracy": 0.8083414435386658,
      "num_tokens": 110458774.0,
      "step": 4186
    },
    {
      "epoch": 0.5533967750462596,
      "grad_norm": 0.8593368045409301,
      "learning_rate": 5.4491330277956745e-06,
      "loss": 0.5362,
      "mean_token_accuracy": 0.8239073157310486,
      "num_tokens": 110524310.0,
      "step": 4187
    },
    {
      "epoch": 0.5535289452815226,
      "grad_norm": 0.8974916449369977,
      "learning_rate": 5.447056918770117e-06,
      "loss": 0.6014,
      "mean_token_accuracy": 0.8002380728721619,
      "num_tokens": 110589846.0,
      "step": 4188
    },
    {
      "epoch": 0.5536611155167857,
      "grad_norm": 0.866171202934257,
      "learning_rate": 5.444980821015036e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8132401704788208,
      "num_tokens": 110655382.0,
      "step": 4189
    },
    {
      "epoch": 0.5537932857520487,
      "grad_norm": 0.891663016926969,
      "learning_rate": 5.4429047349723875e-06,
      "loss": 0.6057,
      "mean_token_accuracy": 0.7974758744239807,
      "num_tokens": 110720918.0,
      "step": 4190
    },
    {
      "epoch": 0.5539254559873117,
      "grad_norm": 0.8836119346379304,
      "learning_rate": 5.44082866108413e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8101422190666199,
      "num_tokens": 110786454.0,
      "step": 4191
    },
    {
      "epoch": 0.5540576262225747,
      "grad_norm": 0.8705105133858436,
      "learning_rate": 5.438752599792216e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8056555986404419,
      "num_tokens": 110851990.0,
      "step": 4192
    },
    {
      "epoch": 0.5541897964578377,
      "grad_norm": 0.8938741823953802,
      "learning_rate": 5.4366765515385945e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8072732090950012,
      "num_tokens": 110917526.0,
      "step": 4193
    },
    {
      "epoch": 0.5543219666931007,
      "grad_norm": 0.8914606058194195,
      "learning_rate": 5.434600516765211e-06,
      "loss": 0.6254,
      "mean_token_accuracy": 0.7928671836853027,
      "num_tokens": 110983062.0,
      "step": 4194
    },
    {
      "epoch": 0.5544541369283638,
      "grad_norm": 0.861750288670832,
      "learning_rate": 5.432524495914014e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.8030155301094055,
      "num_tokens": 111048598.0,
      "step": 4195
    },
    {
      "epoch": 0.5545863071636268,
      "grad_norm": 0.8856780208860117,
      "learning_rate": 5.430448489426944e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.78831946849823,
      "num_tokens": 111114134.0,
      "step": 4196
    },
    {
      "epoch": 0.5547184773988898,
      "grad_norm": 0.888010889180882,
      "learning_rate": 5.428372497745935e-06,
      "loss": 0.5868,
      "mean_token_accuracy": 0.8058692216873169,
      "num_tokens": 111179670.0,
      "step": 4197
    },
    {
      "epoch": 0.5548506476341528,
      "grad_norm": 0.8851099555746671,
      "learning_rate": 5.426296521312928e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.803061306476593,
      "num_tokens": 111245206.0,
      "step": 4198
    },
    {
      "epoch": 0.5549828178694158,
      "grad_norm": 0.8654363407115694,
      "learning_rate": 5.424220560569854e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.8103101253509521,
      "num_tokens": 111310742.0,
      "step": 4199
    },
    {
      "epoch": 0.5551149881046789,
      "grad_norm": 0.8572740858092862,
      "learning_rate": 5.422144615958639e-06,
      "loss": 0.5486,
      "mean_token_accuracy": 0.8203210830688477,
      "num_tokens": 111376278.0,
      "step": 4200
    },
    {
      "epoch": 0.5552471583399419,
      "grad_norm": 0.9169026055212226,
      "learning_rate": 5.42006868792121e-06,
      "loss": 0.6177,
      "mean_token_accuracy": 0.7959345579147339,
      "num_tokens": 111441814.0,
      "step": 4201
    },
    {
      "epoch": 0.5553793285752049,
      "grad_norm": 0.9554241866198256,
      "learning_rate": 5.417992776899488e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.8012910485267639,
      "num_tokens": 111507350.0,
      "step": 4202
    },
    {
      "epoch": 0.5555114988104679,
      "grad_norm": 0.9859071076886474,
      "learning_rate": 5.415916883335392e-06,
      "loss": 0.6549,
      "mean_token_accuracy": 0.7869155406951904,
      "num_tokens": 111572886.0,
      "step": 4203
    },
    {
      "epoch": 0.5556436690457309,
      "grad_norm": 0.8886214696669484,
      "learning_rate": 5.413841007670836e-06,
      "loss": 0.6078,
      "mean_token_accuracy": 0.8014436364173889,
      "num_tokens": 111638422.0,
      "step": 4204
    },
    {
      "epoch": 0.5557758392809939,
      "grad_norm": 0.8599662656800574,
      "learning_rate": 5.411765150347731e-06,
      "loss": 0.5854,
      "mean_token_accuracy": 0.8073495030403137,
      "num_tokens": 111703958.0,
      "step": 4205
    },
    {
      "epoch": 0.555908009516257,
      "grad_norm": 0.9161397686507131,
      "learning_rate": 5.409689311807982e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.7997344732284546,
      "num_tokens": 111769494.0,
      "step": 4206
    },
    {
      "epoch": 0.55604017975152,
      "grad_norm": 0.8695059974064248,
      "learning_rate": 5.407613492493494e-06,
      "loss": 0.5825,
      "mean_token_accuracy": 0.8058692216873169,
      "num_tokens": 111835030.0,
      "step": 4207
    },
    {
      "epoch": 0.556172349986783,
      "grad_norm": 0.8752828024026609,
      "learning_rate": 5.405537692846165e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.7945916056632996,
      "num_tokens": 111900566.0,
      "step": 4208
    },
    {
      "epoch": 0.556304520222046,
      "grad_norm": 0.8954976170308039,
      "learning_rate": 5.403461913307889e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8081430792808533,
      "num_tokens": 111966102.0,
      "step": 4209
    },
    {
      "epoch": 0.556436690457309,
      "grad_norm": 0.8610356375710329,
      "learning_rate": 5.401386154320554e-06,
      "loss": 0.6008,
      "mean_token_accuracy": 0.8025271892547607,
      "num_tokens": 112031638.0,
      "step": 4210
    },
    {
      "epoch": 0.556568860692572,
      "grad_norm": 0.9385217506625156,
      "learning_rate": 5.399310416326049e-06,
      "loss": 0.636,
      "mean_token_accuracy": 0.7885789275169373,
      "num_tokens": 112097174.0,
      "step": 4211
    },
    {
      "epoch": 0.5567010309278351,
      "grad_norm": 0.8297446598845154,
      "learning_rate": 5.397234699766255e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8004516959190369,
      "num_tokens": 112162710.0,
      "step": 4212
    },
    {
      "epoch": 0.5568332011630981,
      "grad_norm": 0.8687933491035265,
      "learning_rate": 5.395159005083046e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7855573296546936,
      "num_tokens": 112228246.0,
      "step": 4213
    },
    {
      "epoch": 0.5569653713983611,
      "grad_norm": 0.8397391864336811,
      "learning_rate": 5.393083332718298e-06,
      "loss": 0.5522,
      "mean_token_accuracy": 0.8156971335411072,
      "num_tokens": 112293782.0,
      "step": 4214
    },
    {
      "epoch": 0.5570975416336241,
      "grad_norm": 0.8345008903396033,
      "learning_rate": 5.391007683113876e-06,
      "loss": 0.5349,
      "mean_token_accuracy": 0.8224422931671143,
      "num_tokens": 112359318.0,
      "step": 4215
    },
    {
      "epoch": 0.5572297118688871,
      "grad_norm": 0.8036116238039896,
      "learning_rate": 5.38893205671164e-06,
      "loss": 0.5565,
      "mean_token_accuracy": 0.8178641200065613,
      "num_tokens": 112424854.0,
      "step": 4216
    },
    {
      "epoch": 0.5573618821041502,
      "grad_norm": 0.9095889096148676,
      "learning_rate": 5.386856453953453e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8050146698951721,
      "num_tokens": 112490390.0,
      "step": 4217
    },
    {
      "epoch": 0.5574940523394132,
      "grad_norm": 0.8523217026103577,
      "learning_rate": 5.384780875281165e-06,
      "loss": 0.5862,
      "mean_token_accuracy": 0.8028934001922607,
      "num_tokens": 112555926.0,
      "step": 4218
    },
    {
      "epoch": 0.5576262225746762,
      "grad_norm": 0.8353048809071162,
      "learning_rate": 5.382705321136621e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8038548231124878,
      "num_tokens": 112621462.0,
      "step": 4219
    },
    {
      "epoch": 0.5577583928099392,
      "grad_norm": 0.8658993433589263,
      "learning_rate": 5.380629791961665e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7944542765617371,
      "num_tokens": 112686998.0,
      "step": 4220
    },
    {
      "epoch": 0.5578905630452022,
      "grad_norm": 0.843948704428029,
      "learning_rate": 5.378554288198137e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8178336024284363,
      "num_tokens": 112752534.0,
      "step": 4221
    },
    {
      "epoch": 0.5580227332804653,
      "grad_norm": 0.8850375075092924,
      "learning_rate": 5.3764788102878626e-06,
      "loss": 0.5537,
      "mean_token_accuracy": 0.8188408017158508,
      "num_tokens": 112818070.0,
      "step": 4222
    },
    {
      "epoch": 0.5581549035157283,
      "grad_norm": 0.9154680280595344,
      "learning_rate": 5.3744033586726715e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.784672200679779,
      "num_tokens": 112883606.0,
      "step": 4223
    },
    {
      "epoch": 0.5582870737509913,
      "grad_norm": 0.8766971553511164,
      "learning_rate": 5.3723279337943846e-06,
      "loss": 0.5672,
      "mean_token_accuracy": 0.8138048052787781,
      "num_tokens": 112949142.0,
      "step": 4224
    },
    {
      "epoch": 0.5584192439862543,
      "grad_norm": 0.8466772183159975,
      "learning_rate": 5.370252536094813e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8111494183540344,
      "num_tokens": 113014678.0,
      "step": 4225
    },
    {
      "epoch": 0.5585514142215173,
      "grad_norm": 0.9244042677714495,
      "learning_rate": 5.368177166015768e-06,
      "loss": 0.6378,
      "mean_token_accuracy": 0.792470395565033,
      "num_tokens": 113080214.0,
      "step": 4226
    },
    {
      "epoch": 0.5586835844567803,
      "grad_norm": 0.8523238884750444,
      "learning_rate": 5.366101823999051e-06,
      "loss": 0.567,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 113145750.0,
      "step": 4227
    },
    {
      "epoch": 0.5588157546920434,
      "grad_norm": 0.8497459147425259,
      "learning_rate": 5.364026510486463e-06,
      "loss": 0.6241,
      "mean_token_accuracy": 0.7951104640960693,
      "num_tokens": 113211286.0,
      "step": 4228
    },
    {
      "epoch": 0.5589479249273064,
      "grad_norm": 0.9104531439379071,
      "learning_rate": 5.361951225919788e-06,
      "loss": 0.6187,
      "mean_token_accuracy": 0.7948358058929443,
      "num_tokens": 113276822.0,
      "step": 4229
    },
    {
      "epoch": 0.5590800951625694,
      "grad_norm": 0.8872428328929539,
      "learning_rate": 5.3598759707408176e-06,
      "loss": 0.561,
      "mean_token_accuracy": 0.8141862750053406,
      "num_tokens": 113342358.0,
      "step": 4230
    },
    {
      "epoch": 0.5592122653978324,
      "grad_norm": 0.8141038523916168,
      "learning_rate": 5.357800745391329e-06,
      "loss": 0.5773,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 113407894.0,
      "step": 4231
    },
    {
      "epoch": 0.5593444356330954,
      "grad_norm": 0.8564226890557249,
      "learning_rate": 5.355725550313088e-06,
      "loss": 0.5901,
      "mean_token_accuracy": 0.8055182695388794,
      "num_tokens": 113473430.0,
      "step": 4232
    },
    {
      "epoch": 0.5594766058683585,
      "grad_norm": 0.8830038957301406,
      "learning_rate": 5.353650385947868e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 113538966.0,
      "step": 4233
    },
    {
      "epoch": 0.5596087761036215,
      "grad_norm": 1.0147332234000397,
      "learning_rate": 5.351575252737425e-06,
      "loss": 0.6234,
      "mean_token_accuracy": 0.7934470772743225,
      "num_tokens": 113604502.0,
      "step": 4234
    },
    {
      "epoch": 0.5597409463388845,
      "grad_norm": 0.8332744383290164,
      "learning_rate": 5.349500151123511e-06,
      "loss": 0.5274,
      "mean_token_accuracy": 0.8275241255760193,
      "num_tokens": 113670038.0,
      "step": 4235
    },
    {
      "epoch": 0.5598731165741475,
      "grad_norm": 0.8561473102917744,
      "learning_rate": 5.347425081547875e-06,
      "loss": 0.6246,
      "mean_token_accuracy": 0.7937675714492798,
      "num_tokens": 113735574.0,
      "step": 4236
    },
    {
      "epoch": 0.5600052868094105,
      "grad_norm": 0.8622172453642214,
      "learning_rate": 5.345350044452251e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8042058348655701,
      "num_tokens": 113801110.0,
      "step": 4237
    },
    {
      "epoch": 0.5601374570446735,
      "grad_norm": 0.8460649908404934,
      "learning_rate": 5.343275040278375e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8139268755912781,
      "num_tokens": 113866646.0,
      "step": 4238
    },
    {
      "epoch": 0.5602696272799366,
      "grad_norm": 0.8518499094441778,
      "learning_rate": 5.34120006946797e-06,
      "loss": 0.5561,
      "mean_token_accuracy": 0.8140794634819031,
      "num_tokens": 113932182.0,
      "step": 4239
    },
    {
      "epoch": 0.5604017975151996,
      "grad_norm": 0.8824029523482942,
      "learning_rate": 5.339125132462756e-06,
      "loss": 0.595,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 113997718.0,
      "step": 4240
    },
    {
      "epoch": 0.5605339677504626,
      "grad_norm": 0.8636293000325397,
      "learning_rate": 5.337050229704442e-06,
      "loss": 0.5957,
      "mean_token_accuracy": 0.8029391765594482,
      "num_tokens": 114063254.0,
      "step": 4241
    },
    {
      "epoch": 0.5606661379857256,
      "grad_norm": 0.8859706983805181,
      "learning_rate": 5.334975361634731e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8082346320152283,
      "num_tokens": 114128790.0,
      "step": 4242
    },
    {
      "epoch": 0.5607983082209886,
      "grad_norm": 0.8168357098741473,
      "learning_rate": 5.3329005286953205e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8224575519561768,
      "num_tokens": 114194326.0,
      "step": 4243
    },
    {
      "epoch": 0.5609304784562517,
      "grad_norm": 0.9093312674121521,
      "learning_rate": 5.3308257313279e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8112868070602417,
      "num_tokens": 114259862.0,
      "step": 4244
    },
    {
      "epoch": 0.5610626486915147,
      "grad_norm": 0.8489080756794174,
      "learning_rate": 5.3287509699741455e-06,
      "loss": 0.5263,
      "mean_token_accuracy": 0.8255707621574402,
      "num_tokens": 114325398.0,
      "step": 4245
    },
    {
      "epoch": 0.5611948189267777,
      "grad_norm": 0.8884908214775061,
      "learning_rate": 5.326676245075738e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.8005738258361816,
      "num_tokens": 114390934.0,
      "step": 4246
    },
    {
      "epoch": 0.5613269891620407,
      "grad_norm": 0.8284916952972259,
      "learning_rate": 5.324601557074338e-06,
      "loss": 0.55,
      "mean_token_accuracy": 0.8179098963737488,
      "num_tokens": 114456470.0,
      "step": 4247
    },
    {
      "epoch": 0.5614591593973037,
      "grad_norm": 0.8669979693964046,
      "learning_rate": 5.322526906411602e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8111799359321594,
      "num_tokens": 114522006.0,
      "step": 4248
    },
    {
      "epoch": 0.5615913296325667,
      "grad_norm": 0.8848183103589063,
      "learning_rate": 5.320452293529186e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.8130722641944885,
      "num_tokens": 114587542.0,
      "step": 4249
    },
    {
      "epoch": 0.5617234998678298,
      "grad_norm": 0.8641116808261334,
      "learning_rate": 5.318377718868727e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 114653078.0,
      "step": 4250
    },
    {
      "epoch": 0.5618556701030928,
      "grad_norm": 0.8930159676702208,
      "learning_rate": 5.316303182871858e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.792409360408783,
      "num_tokens": 114718614.0,
      "step": 4251
    },
    {
      "epoch": 0.5619878403383558,
      "grad_norm": 0.8106952999675732,
      "learning_rate": 5.314228685980207e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8054113984107971,
      "num_tokens": 114784150.0,
      "step": 4252
    },
    {
      "epoch": 0.5621200105736188,
      "grad_norm": 0.8082399695460011,
      "learning_rate": 5.312154228635391e-06,
      "loss": 0.6058,
      "mean_token_accuracy": 0.7995971441268921,
      "num_tokens": 114849686.0,
      "step": 4253
    },
    {
      "epoch": 0.5622521808088818,
      "grad_norm": 0.9135680577244771,
      "learning_rate": 5.310079811279018e-06,
      "loss": 0.6224,
      "mean_token_accuracy": 0.79361492395401,
      "num_tokens": 114915222.0,
      "step": 4254
    },
    {
      "epoch": 0.5623843510441449,
      "grad_norm": 0.8385870144084139,
      "learning_rate": 5.308005434352686e-06,
      "loss": 0.6145,
      "mean_token_accuracy": 0.7958124876022339,
      "num_tokens": 114980758.0,
      "step": 4255
    },
    {
      "epoch": 0.5625165212794079,
      "grad_norm": 0.8477229564438684,
      "learning_rate": 5.30593109829799e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8101117014884949,
      "num_tokens": 115046294.0,
      "step": 4256
    },
    {
      "epoch": 0.5626486915146709,
      "grad_norm": 0.9149192619134063,
      "learning_rate": 5.303856803556511e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.8125991821289062,
      "num_tokens": 115111830.0,
      "step": 4257
    },
    {
      "epoch": 0.5627808617499339,
      "grad_norm": 0.911761961371127,
      "learning_rate": 5.301782550569823e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7872664928436279,
      "num_tokens": 115177366.0,
      "step": 4258
    },
    {
      "epoch": 0.5629130319851969,
      "grad_norm": 0.882626066239066,
      "learning_rate": 5.29970833977949e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.808539867401123,
      "num_tokens": 115242902.0,
      "step": 4259
    },
    {
      "epoch": 0.56304520222046,
      "grad_norm": 0.8195303704324649,
      "learning_rate": 5.2976341716270715e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8151019215583801,
      "num_tokens": 115308438.0,
      "step": 4260
    },
    {
      "epoch": 0.563177372455723,
      "grad_norm": 0.864691719650516,
      "learning_rate": 5.295560046554113e-06,
      "loss": 0.6175,
      "mean_token_accuracy": 0.7971859574317932,
      "num_tokens": 115373974.0,
      "step": 4261
    },
    {
      "epoch": 0.563309542690986,
      "grad_norm": 0.8546510264028513,
      "learning_rate": 5.293485965002152e-06,
      "loss": 0.5814,
      "mean_token_accuracy": 0.8071206212043762,
      "num_tokens": 115439510.0,
      "step": 4262
    },
    {
      "epoch": 0.563441712926249,
      "grad_norm": 0.9249947524336286,
      "learning_rate": 5.291411927412717e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.7995818853378296,
      "num_tokens": 115505046.0,
      "step": 4263
    },
    {
      "epoch": 0.563573883161512,
      "grad_norm": 0.9059169552704831,
      "learning_rate": 5.289337934227327e-06,
      "loss": 0.6038,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 115570582.0,
      "step": 4264
    },
    {
      "epoch": 0.563706053396775,
      "grad_norm": 0.8363968890176124,
      "learning_rate": 5.287263985887494e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8011994957923889,
      "num_tokens": 115636118.0,
      "step": 4265
    },
    {
      "epoch": 0.5638382236320381,
      "grad_norm": 0.877651712456255,
      "learning_rate": 5.2851900828347154e-06,
      "loss": 0.6026,
      "mean_token_accuracy": 0.7963771224021912,
      "num_tokens": 115701654.0,
      "step": 4266
    },
    {
      "epoch": 0.5639703938673011,
      "grad_norm": 0.8674621541947083,
      "learning_rate": 5.283116225510483e-06,
      "loss": 0.5644,
      "mean_token_accuracy": 0.8112562298774719,
      "num_tokens": 115767190.0,
      "step": 4267
    },
    {
      "epoch": 0.5641025641025641,
      "grad_norm": 0.90904427821127,
      "learning_rate": 5.28104241435628e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8070290684700012,
      "num_tokens": 115832726.0,
      "step": 4268
    },
    {
      "epoch": 0.5642347343378271,
      "grad_norm": 0.8295871903727586,
      "learning_rate": 5.278968649813575e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 115898262.0,
      "step": 4269
    },
    {
      "epoch": 0.5643669045730901,
      "grad_norm": 0.8397371908444199,
      "learning_rate": 5.276894932323829e-06,
      "loss": 0.5878,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 115963798.0,
      "step": 4270
    },
    {
      "epoch": 0.5644990748083532,
      "grad_norm": 0.8988844646831615,
      "learning_rate": 5.274821262328492e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 116029334.0,
      "step": 4271
    },
    {
      "epoch": 0.5646312450436162,
      "grad_norm": 0.84711104490997,
      "learning_rate": 5.2727476402690096e-06,
      "loss": 0.6248,
      "mean_token_accuracy": 0.7968502044677734,
      "num_tokens": 116094870.0,
      "step": 4272
    },
    {
      "epoch": 0.5647634152788792,
      "grad_norm": 0.7941850805356551,
      "learning_rate": 5.270674066586809e-06,
      "loss": 0.5493,
      "mean_token_accuracy": 0.8169179558753967,
      "num_tokens": 116160406.0,
      "step": 4273
    },
    {
      "epoch": 0.5648955855141422,
      "grad_norm": 0.7924484578852757,
      "learning_rate": 5.268600541723311e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8111494183540344,
      "num_tokens": 116225942.0,
      "step": 4274
    },
    {
      "epoch": 0.5650277557494052,
      "grad_norm": 0.8791099332191631,
      "learning_rate": 5.266527066119927e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 116291478.0,
      "step": 4275
    },
    {
      "epoch": 0.5651599259846682,
      "grad_norm": 0.8580288684643845,
      "learning_rate": 5.2644536402180565e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.806617021560669,
      "num_tokens": 116357014.0,
      "step": 4276
    },
    {
      "epoch": 0.5652920962199313,
      "grad_norm": 0.8371665757954282,
      "learning_rate": 5.262380264459088e-06,
      "loss": 0.6351,
      "mean_token_accuracy": 0.7900744676589966,
      "num_tokens": 116422550.0,
      "step": 4277
    },
    {
      "epoch": 0.5654242664551943,
      "grad_norm": 0.871281370581281,
      "learning_rate": 5.260306939284398e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.8024966716766357,
      "num_tokens": 116488086.0,
      "step": 4278
    },
    {
      "epoch": 0.5655564366904573,
      "grad_norm": 0.8571842479779257,
      "learning_rate": 5.25823366513536e-06,
      "loss": 0.6323,
      "mean_token_accuracy": 0.7915852665901184,
      "num_tokens": 116553622.0,
      "step": 4279
    },
    {
      "epoch": 0.5656886069257203,
      "grad_norm": 0.8856542816634027,
      "learning_rate": 5.2561604424533244e-06,
      "loss": 0.6253,
      "mean_token_accuracy": 0.7963313460350037,
      "num_tokens": 116619158.0,
      "step": 4280
    },
    {
      "epoch": 0.5658207771609833,
      "grad_norm": 0.8995993108089616,
      "learning_rate": 5.25408727167964e-06,
      "loss": 0.5451,
      "mean_token_accuracy": 0.8174368143081665,
      "num_tokens": 116684694.0,
      "step": 4281
    },
    {
      "epoch": 0.5659529473962464,
      "grad_norm": 0.8584597629821293,
      "learning_rate": 5.252014153255642e-06,
      "loss": 0.6367,
      "mean_token_accuracy": 0.7915852665901184,
      "num_tokens": 116750230.0,
      "step": 4282
    },
    {
      "epoch": 0.5660851176315094,
      "grad_norm": 0.8248404136902519,
      "learning_rate": 5.2499410876226505e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8082041144371033,
      "num_tokens": 116815766.0,
      "step": 4283
    },
    {
      "epoch": 0.5662172878667724,
      "grad_norm": 0.7174464605028283,
      "learning_rate": 5.247868075221983e-06,
      "loss": 0.4757,
      "mean_token_accuracy": 0.8409687280654907,
      "num_tokens": 116881302.0,
      "step": 4284
    },
    {
      "epoch": 0.5663494581020354,
      "grad_norm": 0.9106734655684273,
      "learning_rate": 5.2457951164949395e-06,
      "loss": 0.6177,
      "mean_token_accuracy": 0.7970485687255859,
      "num_tokens": 116946838.0,
      "step": 4285
    },
    {
      "epoch": 0.5664816283372984,
      "grad_norm": 0.899937505226692,
      "learning_rate": 5.243722211882807e-06,
      "loss": 0.58,
      "mean_token_accuracy": 0.8104016780853271,
      "num_tokens": 117012374.0,
      "step": 4286
    },
    {
      "epoch": 0.5666137985725614,
      "grad_norm": 0.7754093424489206,
      "learning_rate": 5.241649361826862e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 117077910.0,
      "step": 4287
    },
    {
      "epoch": 0.5667459688078245,
      "grad_norm": 0.9289933088767939,
      "learning_rate": 5.239576566768377e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 117143446.0,
      "step": 4288
    },
    {
      "epoch": 0.5668781390430875,
      "grad_norm": 0.9107494467954774,
      "learning_rate": 5.237503827148604e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 117208982.0,
      "step": 4289
    },
    {
      "epoch": 0.5670103092783505,
      "grad_norm": 0.936350206083914,
      "learning_rate": 5.235431143408783e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8129196763038635,
      "num_tokens": 117274518.0,
      "step": 4290
    },
    {
      "epoch": 0.5671424795136135,
      "grad_norm": 0.9142708763065277,
      "learning_rate": 5.23335851599015e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.7965297102928162,
      "num_tokens": 117340054.0,
      "step": 4291
    },
    {
      "epoch": 0.5672746497488765,
      "grad_norm": 0.7864348207565975,
      "learning_rate": 5.231285945333922e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8100659251213074,
      "num_tokens": 117405590.0,
      "step": 4292
    },
    {
      "epoch": 0.5674068199841396,
      "grad_norm": 0.8402357318656584,
      "learning_rate": 5.229213431881304e-06,
      "loss": 0.6071,
      "mean_token_accuracy": 0.7999175786972046,
      "num_tokens": 117471126.0,
      "step": 4293
    },
    {
      "epoch": 0.5675389902194026,
      "grad_norm": 0.8343736574116395,
      "learning_rate": 5.2271409760734935e-06,
      "loss": 0.5672,
      "mean_token_accuracy": 0.8113783597946167,
      "num_tokens": 117536662.0,
      "step": 4294
    },
    {
      "epoch": 0.5676711604546656,
      "grad_norm": 0.9838093059585978,
      "learning_rate": 5.225068578351674e-06,
      "loss": 0.6108,
      "mean_token_accuracy": 0.7994750142097473,
      "num_tokens": 117602198.0,
      "step": 4295
    },
    {
      "epoch": 0.5678033306899286,
      "grad_norm": 0.8741818582989004,
      "learning_rate": 5.222996239157012e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8122329115867615,
      "num_tokens": 117667734.0,
      "step": 4296
    },
    {
      "epoch": 0.5679355009251916,
      "grad_norm": 0.8684275859651182,
      "learning_rate": 5.220923958930668e-06,
      "loss": 0.5609,
      "mean_token_accuracy": 0.8152240514755249,
      "num_tokens": 117733270.0,
      "step": 4297
    },
    {
      "epoch": 0.5680676711604546,
      "grad_norm": 0.8819262200130568,
      "learning_rate": 5.218851738113787e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8141862750053406,
      "num_tokens": 117798806.0,
      "step": 4298
    },
    {
      "epoch": 0.5681998413957177,
      "grad_norm": 0.8806943261214275,
      "learning_rate": 5.216779577147502e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.7999480962753296,
      "num_tokens": 117864342.0,
      "step": 4299
    },
    {
      "epoch": 0.5683320116309807,
      "grad_norm": 0.8044409606768258,
      "learning_rate": 5.214707476472929e-06,
      "loss": 0.5373,
      "mean_token_accuracy": 0.8209314942359924,
      "num_tokens": 117929878.0,
      "step": 4300
    },
    {
      "epoch": 0.5684641818662437,
      "grad_norm": 0.8675647187707443,
      "learning_rate": 5.2126354365311795e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8115156888961792,
      "num_tokens": 117995414.0,
      "step": 4301
    },
    {
      "epoch": 0.5685963521015067,
      "grad_norm": 0.9196959762864984,
      "learning_rate": 5.210563457763345e-06,
      "loss": 0.6363,
      "mean_token_accuracy": 0.7927451133728027,
      "num_tokens": 118060950.0,
      "step": 4302
    },
    {
      "epoch": 0.5687285223367697,
      "grad_norm": 0.8782828030737477,
      "learning_rate": 5.208491540610507e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8093334436416626,
      "num_tokens": 118126486.0,
      "step": 4303
    },
    {
      "epoch": 0.5688606925720328,
      "grad_norm": 0.7963832419400722,
      "learning_rate": 5.206419685513735e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8071053624153137,
      "num_tokens": 118192022.0,
      "step": 4304
    },
    {
      "epoch": 0.5689928628072958,
      "grad_norm": 0.7573365397353528,
      "learning_rate": 5.204347892914082e-06,
      "loss": 0.5131,
      "mean_token_accuracy": 0.8306830525398254,
      "num_tokens": 118257558.0,
      "step": 4305
    },
    {
      "epoch": 0.5691250330425588,
      "grad_norm": 0.874955430671001,
      "learning_rate": 5.202276163252589e-06,
      "loss": 0.6163,
      "mean_token_accuracy": 0.7971706986427307,
      "num_tokens": 118323094.0,
      "step": 4306
    },
    {
      "epoch": 0.5692572032778218,
      "grad_norm": 0.8207048527006264,
      "learning_rate": 5.2002044969702856e-06,
      "loss": 0.5466,
      "mean_token_accuracy": 0.817207932472229,
      "num_tokens": 118388630.0,
      "step": 4307
    },
    {
      "epoch": 0.5693893735130848,
      "grad_norm": 0.8350157534733269,
      "learning_rate": 5.198132894508186e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8112868070602417,
      "num_tokens": 118454166.0,
      "step": 4308
    },
    {
      "epoch": 0.5695215437483478,
      "grad_norm": 0.8621109554067061,
      "learning_rate": 5.196061356307289e-06,
      "loss": 0.6174,
      "mean_token_accuracy": 0.797887921333313,
      "num_tokens": 118519702.0,
      "step": 4309
    },
    {
      "epoch": 0.5696537139836109,
      "grad_norm": 0.8888026889538672,
      "learning_rate": 5.193989882808585e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 118585238.0,
      "step": 4310
    },
    {
      "epoch": 0.5697858842188739,
      "grad_norm": 0.8603523003051505,
      "learning_rate": 5.191918474453046e-06,
      "loss": 0.6089,
      "mean_token_accuracy": 0.797826886177063,
      "num_tokens": 118650774.0,
      "step": 4311
    },
    {
      "epoch": 0.5699180544541369,
      "grad_norm": 0.8735990476578722,
      "learning_rate": 5.18984713168163e-06,
      "loss": 0.5455,
      "mean_token_accuracy": 0.8190696835517883,
      "num_tokens": 118716310.0,
      "step": 4312
    },
    {
      "epoch": 0.5700502246893999,
      "grad_norm": 0.8100651658094228,
      "learning_rate": 5.187775854935285e-06,
      "loss": 0.5879,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 118781846.0,
      "step": 4313
    },
    {
      "epoch": 0.5701823949246629,
      "grad_norm": 0.8368119184901791,
      "learning_rate": 5.185704644654943e-06,
      "loss": 0.5266,
      "mean_token_accuracy": 0.8245177865028381,
      "num_tokens": 118847382.0,
      "step": 4314
    },
    {
      "epoch": 0.570314565159926,
      "grad_norm": 0.9430793426586588,
      "learning_rate": 5.18363350128152e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7996276617050171,
      "num_tokens": 118912918.0,
      "step": 4315
    },
    {
      "epoch": 0.570446735395189,
      "grad_norm": 0.8302386391005429,
      "learning_rate": 5.181562425255916e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 118978454.0,
      "step": 4316
    },
    {
      "epoch": 0.570578905630452,
      "grad_norm": 0.8517955291003189,
      "learning_rate": 5.179491417019026e-06,
      "loss": 0.5415,
      "mean_token_accuracy": 0.821755588054657,
      "num_tokens": 119043990.0,
      "step": 4317
    },
    {
      "epoch": 0.570711075865715,
      "grad_norm": 0.8855435092965293,
      "learning_rate": 5.177420477011722e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8062049746513367,
      "num_tokens": 119109526.0,
      "step": 4318
    },
    {
      "epoch": 0.570843246100978,
      "grad_norm": 0.7668440541596173,
      "learning_rate": 5.175349605674862e-06,
      "loss": 0.561,
      "mean_token_accuracy": 0.8123703002929688,
      "num_tokens": 119175062.0,
      "step": 4319
    },
    {
      "epoch": 0.570975416336241,
      "grad_norm": 0.8817370639159625,
      "learning_rate": 5.173278803449295e-06,
      "loss": 0.6212,
      "mean_token_accuracy": 0.793462336063385,
      "num_tokens": 119240598.0,
      "step": 4320
    },
    {
      "epoch": 0.5711075865715041,
      "grad_norm": 0.8028684064280012,
      "learning_rate": 5.171208070775846e-06,
      "loss": 0.5739,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 119306134.0,
      "step": 4321
    },
    {
      "epoch": 0.5712397568067671,
      "grad_norm": 0.9245480967058208,
      "learning_rate": 5.169137408095335e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 119371670.0,
      "step": 4322
    },
    {
      "epoch": 0.5713719270420301,
      "grad_norm": 0.9289458884475247,
      "learning_rate": 5.167066815848564e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7969570159912109,
      "num_tokens": 119437206.0,
      "step": 4323
    },
    {
      "epoch": 0.5715040972772931,
      "grad_norm": 0.8058448505120991,
      "learning_rate": 5.1649962944763146e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8136979341506958,
      "num_tokens": 119502742.0,
      "step": 4324
    },
    {
      "epoch": 0.5716362675125561,
      "grad_norm": 0.9828187138750021,
      "learning_rate": 5.1629258444193595e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.798071026802063,
      "num_tokens": 119568278.0,
      "step": 4325
    },
    {
      "epoch": 0.5717684377478192,
      "grad_norm": 0.8609176069031014,
      "learning_rate": 5.160855466118456e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.7995055317878723,
      "num_tokens": 119633814.0,
      "step": 4326
    },
    {
      "epoch": 0.5719006079830822,
      "grad_norm": 0.8605189866819907,
      "learning_rate": 5.158785160014342e-06,
      "loss": 0.6236,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 119699350.0,
      "step": 4327
    },
    {
      "epoch": 0.5720327782183452,
      "grad_norm": 0.8703567816293218,
      "learning_rate": 5.1567149265477434e-06,
      "loss": 0.6003,
      "mean_token_accuracy": 0.8010774254798889,
      "num_tokens": 119764886.0,
      "step": 4328
    },
    {
      "epoch": 0.5721649484536082,
      "grad_norm": 0.9014597302458315,
      "learning_rate": 5.15464476615937e-06,
      "loss": 0.5788,
      "mean_token_accuracy": 0.807456374168396,
      "num_tokens": 119830422.0,
      "step": 4329
    },
    {
      "epoch": 0.5722971186888712,
      "grad_norm": 0.9047892838755817,
      "learning_rate": 5.152574679289917e-06,
      "loss": 0.6578,
      "mean_token_accuracy": 0.7817879319190979,
      "num_tokens": 119895958.0,
      "step": 4330
    },
    {
      "epoch": 0.5724292889241342,
      "grad_norm": 0.8819861228326702,
      "learning_rate": 5.1505046663800584e-06,
      "loss": 0.5959,
      "mean_token_accuracy": 0.803458034992218,
      "num_tokens": 119961494.0,
      "step": 4331
    },
    {
      "epoch": 0.5725614591593973,
      "grad_norm": 0.7800171660408597,
      "learning_rate": 5.148434727870459e-06,
      "loss": 0.5387,
      "mean_token_accuracy": 0.8207069635391235,
      "num_tokens": 120026340.0,
      "step": 4332
    },
    {
      "epoch": 0.5726936293946603,
      "grad_norm": 0.9612835892325846,
      "learning_rate": 5.146364864201768e-06,
      "loss": 0.621,
      "mean_token_accuracy": 0.7960413694381714,
      "num_tokens": 120091876.0,
      "step": 4333
    },
    {
      "epoch": 0.5728257996299233,
      "grad_norm": 0.795103373144833,
      "learning_rate": 5.1442950758146145e-06,
      "loss": 0.5785,
      "mean_token_accuracy": 0.8103253841400146,
      "num_tokens": 120157412.0,
      "step": 4334
    },
    {
      "epoch": 0.5729579698651863,
      "grad_norm": 0.9019016789695327,
      "learning_rate": 5.14222536314961e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7917989492416382,
      "num_tokens": 120222948.0,
      "step": 4335
    },
    {
      "epoch": 0.5730901401004493,
      "grad_norm": 0.8434251336497461,
      "learning_rate": 5.140155726647358e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 120288484.0,
      "step": 4336
    },
    {
      "epoch": 0.5732223103357124,
      "grad_norm": 0.8443032914333825,
      "learning_rate": 5.138086166748439e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 120354020.0,
      "step": 4337
    },
    {
      "epoch": 0.5733544805709754,
      "grad_norm": 0.9468207100216928,
      "learning_rate": 5.136016683893417e-06,
      "loss": 0.6205,
      "mean_token_accuracy": 0.7935081124305725,
      "num_tokens": 120419556.0,
      "step": 4338
    },
    {
      "epoch": 0.5734866508062384,
      "grad_norm": 0.8298144537236432,
      "learning_rate": 5.133947278522846e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 120485092.0,
      "step": 4339
    },
    {
      "epoch": 0.5736188210415014,
      "grad_norm": 0.8204439688890628,
      "learning_rate": 5.1318779510772554e-06,
      "loss": 0.5202,
      "mean_token_accuracy": 0.826303243637085,
      "num_tokens": 120550628.0,
      "step": 4340
    },
    {
      "epoch": 0.5737509912767644,
      "grad_norm": 0.8585793362330352,
      "learning_rate": 5.129808701997163e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8005585670471191,
      "num_tokens": 120616164.0,
      "step": 4341
    },
    {
      "epoch": 0.5738831615120275,
      "grad_norm": 0.9776289725477295,
      "learning_rate": 5.127739531723069e-06,
      "loss": 0.6743,
      "mean_token_accuracy": 0.7788426280021667,
      "num_tokens": 120681700.0,
      "step": 4342
    },
    {
      "epoch": 0.5740153317472905,
      "grad_norm": 0.8394043402800573,
      "learning_rate": 5.125670440695458e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7997192144393921,
      "num_tokens": 120747236.0,
      "step": 4343
    },
    {
      "epoch": 0.5741475019825535,
      "grad_norm": 0.8451231027148212,
      "learning_rate": 5.123601429354792e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7965297102928162,
      "num_tokens": 120812772.0,
      "step": 4344
    },
    {
      "epoch": 0.5742796722178165,
      "grad_norm": 0.8513598483187059,
      "learning_rate": 5.121532498141525e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8065102100372314,
      "num_tokens": 120878308.0,
      "step": 4345
    },
    {
      "epoch": 0.5744118424530795,
      "grad_norm": 0.7968332721041819,
      "learning_rate": 5.119463647496087e-06,
      "loss": 0.5553,
      "mean_token_accuracy": 0.8162007331848145,
      "num_tokens": 120943844.0,
      "step": 4346
    },
    {
      "epoch": 0.5745440126883425,
      "grad_norm": 0.7372086879674793,
      "learning_rate": 5.117394877858893e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8142626285552979,
      "num_tokens": 121009380.0,
      "step": 4347
    },
    {
      "epoch": 0.5746761829236056,
      "grad_norm": 0.8305892832514947,
      "learning_rate": 5.115326189670341e-06,
      "loss": 0.6302,
      "mean_token_accuracy": 0.7915089726448059,
      "num_tokens": 121074916.0,
      "step": 4348
    },
    {
      "epoch": 0.5748083531588686,
      "grad_norm": 0.8743278178282501,
      "learning_rate": 5.113257583370813e-06,
      "loss": 0.5347,
      "mean_token_accuracy": 0.8227017521858215,
      "num_tokens": 121140452.0,
      "step": 4349
    },
    {
      "epoch": 0.5749405233941316,
      "grad_norm": 0.912120192024468,
      "learning_rate": 5.111189059400671e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7913258671760559,
      "num_tokens": 121205988.0,
      "step": 4350
    },
    {
      "epoch": 0.5750726936293946,
      "grad_norm": 0.840733898410121,
      "learning_rate": 5.109120618200257e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 121271524.0,
      "step": 4351
    },
    {
      "epoch": 0.5752048638646576,
      "grad_norm": 0.9085108008262351,
      "learning_rate": 5.107052260209906e-06,
      "loss": 0.6384,
      "mean_token_accuracy": 0.7884873747825623,
      "num_tokens": 121337060.0,
      "step": 4352
    },
    {
      "epoch": 0.5753370340999207,
      "grad_norm": 0.8212367338877069,
      "learning_rate": 5.104983985869925e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.811912477016449,
      "num_tokens": 121402596.0,
      "step": 4353
    },
    {
      "epoch": 0.5754692043351837,
      "grad_norm": 0.877417285119545,
      "learning_rate": 5.102915795620603e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.8095775842666626,
      "num_tokens": 121468132.0,
      "step": 4354
    },
    {
      "epoch": 0.5756013745704467,
      "grad_norm": 0.8256141976566093,
      "learning_rate": 5.10084768990222e-06,
      "loss": 0.5546,
      "mean_token_accuracy": 0.8186882138252258,
      "num_tokens": 121533668.0,
      "step": 4355
    },
    {
      "epoch": 0.5757335448057097,
      "grad_norm": 0.8163737587170024,
      "learning_rate": 5.09877966915503e-06,
      "loss": 0.5573,
      "mean_token_accuracy": 0.8136521577835083,
      "num_tokens": 121599204.0,
      "step": 4356
    },
    {
      "epoch": 0.5758657150409727,
      "grad_norm": 0.8998025978659182,
      "learning_rate": 5.0967117338192705e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8047552108764648,
      "num_tokens": 121664740.0,
      "step": 4357
    },
    {
      "epoch": 0.5759978852762357,
      "grad_norm": 0.8317027485360707,
      "learning_rate": 5.094643884335164e-06,
      "loss": 0.6154,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 121730276.0,
      "step": 4358
    },
    {
      "epoch": 0.5761300555114988,
      "grad_norm": 0.8732682910586184,
      "learning_rate": 5.09257612114291e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8148425221443176,
      "num_tokens": 121795812.0,
      "step": 4359
    },
    {
      "epoch": 0.5762622257467618,
      "grad_norm": 0.8266342771506555,
      "learning_rate": 5.0905084446826945e-06,
      "loss": 0.5983,
      "mean_token_accuracy": 0.803244411945343,
      "num_tokens": 121861348.0,
      "step": 4360
    },
    {
      "epoch": 0.5763943959820248,
      "grad_norm": 0.8017811314342664,
      "learning_rate": 5.088440855394682e-06,
      "loss": 0.5621,
      "mean_token_accuracy": 0.8139116168022156,
      "num_tokens": 121926884.0,
      "step": 4361
    },
    {
      "epoch": 0.5765265662172878,
      "grad_norm": 0.818062266310681,
      "learning_rate": 5.086373353719018e-06,
      "loss": 0.5395,
      "mean_token_accuracy": 0.822869598865509,
      "num_tokens": 121992420.0,
      "step": 4362
    },
    {
      "epoch": 0.5766587364525508,
      "grad_norm": 0.7938179847712641,
      "learning_rate": 5.084305940095831e-06,
      "loss": 0.5257,
      "mean_token_accuracy": 0.826181173324585,
      "num_tokens": 122057956.0,
      "step": 4363
    },
    {
      "epoch": 0.5767909066878139,
      "grad_norm": 0.9160727508893893,
      "learning_rate": 5.0822386149652295e-06,
      "loss": 0.5949,
      "mean_token_accuracy": 0.8032596707344055,
      "num_tokens": 122123492.0,
      "step": 4364
    },
    {
      "epoch": 0.5769230769230769,
      "grad_norm": 0.8142566009316372,
      "learning_rate": 5.080171378767305e-06,
      "loss": 0.573,
      "mean_token_accuracy": 0.8112409710884094,
      "num_tokens": 122189028.0,
      "step": 4365
    },
    {
      "epoch": 0.5770552471583399,
      "grad_norm": 0.8678104980670602,
      "learning_rate": 5.078104231942129e-06,
      "loss": 0.5732,
      "mean_token_accuracy": 0.8086771965026855,
      "num_tokens": 122254564.0,
      "step": 4366
    },
    {
      "epoch": 0.5771874173936029,
      "grad_norm": 0.839883040677487,
      "learning_rate": 5.076037174929752e-06,
      "loss": 0.5959,
      "mean_token_accuracy": 0.8011842370033264,
      "num_tokens": 122320100.0,
      "step": 4367
    },
    {
      "epoch": 0.5773195876288659,
      "grad_norm": 0.8552354769278905,
      "learning_rate": 5.073970208170212e-06,
      "loss": 0.5995,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 122385636.0,
      "step": 4368
    },
    {
      "epoch": 0.577451757864129,
      "grad_norm": 0.9361030271523529,
      "learning_rate": 5.071903332103518e-06,
      "loss": 0.6186,
      "mean_token_accuracy": 0.7939354181289673,
      "num_tokens": 122451172.0,
      "step": 4369
    },
    {
      "epoch": 0.577583928099392,
      "grad_norm": 0.8962704026086628,
      "learning_rate": 5.069836547169664e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.8052282929420471,
      "num_tokens": 122516708.0,
      "step": 4370
    },
    {
      "epoch": 0.577716098334655,
      "grad_norm": 0.8301412851674099,
      "learning_rate": 5.067769853808632e-06,
      "loss": 0.5324,
      "mean_token_accuracy": 0.8238005042076111,
      "num_tokens": 122582244.0,
      "step": 4371
    },
    {
      "epoch": 0.577848268569918,
      "grad_norm": 0.8426557428295846,
      "learning_rate": 5.0657032524603726e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.7974606156349182,
      "num_tokens": 122647780.0,
      "step": 4372
    },
    {
      "epoch": 0.577980438805181,
      "grad_norm": 0.7937128030242371,
      "learning_rate": 5.063636743564821e-06,
      "loss": 0.5218,
      "mean_token_accuracy": 0.827356219291687,
      "num_tokens": 122713316.0,
      "step": 4373
    },
    {
      "epoch": 0.578112609040444,
      "grad_norm": 0.8766356277935429,
      "learning_rate": 5.061570327561899e-06,
      "loss": 0.5522,
      "mean_token_accuracy": 0.8153156042098999,
      "num_tokens": 122778852.0,
      "step": 4374
    },
    {
      "epoch": 0.5782447792757072,
      "grad_norm": 0.8999188070298016,
      "learning_rate": 5.0595040048915e-06,
      "loss": 0.615,
      "mean_token_accuracy": 0.7972317337989807,
      "num_tokens": 122844388.0,
      "step": 4375
    },
    {
      "epoch": 0.5783769495109702,
      "grad_norm": 0.8443443689589931,
      "learning_rate": 5.057437775993502e-06,
      "loss": 0.5693,
      "mean_token_accuracy": 0.8124923706054688,
      "num_tokens": 122909924.0,
      "step": 4376
    },
    {
      "epoch": 0.5785091197462332,
      "grad_norm": 0.8969730715386295,
      "learning_rate": 5.055371641307759e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 122975460.0,
      "step": 4377
    },
    {
      "epoch": 0.5786412899814962,
      "grad_norm": 0.8890776191587039,
      "learning_rate": 5.053305601274113e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.7946984767913818,
      "num_tokens": 123040996.0,
      "step": 4378
    },
    {
      "epoch": 0.5787734602167592,
      "grad_norm": 0.8935253862545494,
      "learning_rate": 5.051239656332377e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.8035343885421753,
      "num_tokens": 123106532.0,
      "step": 4379
    },
    {
      "epoch": 0.5789056304520223,
      "grad_norm": 0.9034819278226871,
      "learning_rate": 5.0491738069223485e-06,
      "loss": 0.628,
      "mean_token_accuracy": 0.7960566282272339,
      "num_tokens": 123172068.0,
      "step": 4380
    },
    {
      "epoch": 0.5790378006872853,
      "grad_norm": 0.904216088875803,
      "learning_rate": 5.047108053483805e-06,
      "loss": 0.6536,
      "mean_token_accuracy": 0.7839397192001343,
      "num_tokens": 123237604.0,
      "step": 4381
    },
    {
      "epoch": 0.5791699709225483,
      "grad_norm": 0.8861313046957753,
      "learning_rate": 5.0450423964565e-06,
      "loss": 0.6139,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 123303140.0,
      "step": 4382
    },
    {
      "epoch": 0.5793021411578113,
      "grad_norm": 0.9473207456522998,
      "learning_rate": 5.042976836280169e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8048620223999023,
      "num_tokens": 123368676.0,
      "step": 4383
    },
    {
      "epoch": 0.5794343113930743,
      "grad_norm": 0.8792873502162326,
      "learning_rate": 5.040911373394529e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8142015337944031,
      "num_tokens": 123434212.0,
      "step": 4384
    },
    {
      "epoch": 0.5795664816283373,
      "grad_norm": 0.847198076737536,
      "learning_rate": 5.038846008239274e-06,
      "loss": 0.5955,
      "mean_token_accuracy": 0.8041753172874451,
      "num_tokens": 123499748.0,
      "step": 4385
    },
    {
      "epoch": 0.5796986518636004,
      "grad_norm": 0.8483195526700982,
      "learning_rate": 5.036780741254073e-06,
      "loss": 0.6154,
      "mean_token_accuracy": 0.7960261106491089,
      "num_tokens": 123565284.0,
      "step": 4386
    },
    {
      "epoch": 0.5798308220988634,
      "grad_norm": 0.8074082401095215,
      "learning_rate": 5.034715572878582e-06,
      "loss": 0.5428,
      "mean_token_accuracy": 0.8200616240501404,
      "num_tokens": 123630820.0,
      "step": 4387
    },
    {
      "epoch": 0.5799629923341264,
      "grad_norm": 0.8195523881264615,
      "learning_rate": 5.032650503552432e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 123696356.0,
      "step": 4388
    },
    {
      "epoch": 0.5800951625693894,
      "grad_norm": 0.9002558142189907,
      "learning_rate": 5.03058553371523e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8025424480438232,
      "num_tokens": 123761892.0,
      "step": 4389
    },
    {
      "epoch": 0.5802273328046524,
      "grad_norm": 0.9085457043759001,
      "learning_rate": 5.028520663806569e-06,
      "loss": 0.641,
      "mean_token_accuracy": 0.7901812791824341,
      "num_tokens": 123827428.0,
      "step": 4390
    },
    {
      "epoch": 0.5803595030399155,
      "grad_norm": 0.7998594643411346,
      "learning_rate": 5.0264558942660145e-06,
      "loss": 0.5468,
      "mean_token_accuracy": 0.8183677196502686,
      "num_tokens": 123892964.0,
      "step": 4391
    },
    {
      "epoch": 0.5804916732751785,
      "grad_norm": 0.9007675546407724,
      "learning_rate": 5.024391225533114e-06,
      "loss": 0.6391,
      "mean_token_accuracy": 0.789036750793457,
      "num_tokens": 123958500.0,
      "step": 4392
    },
    {
      "epoch": 0.5806238435104415,
      "grad_norm": 0.7943748240226375,
      "learning_rate": 5.02232665804739e-06,
      "loss": 0.5498,
      "mean_token_accuracy": 0.8175283670425415,
      "num_tokens": 124024036.0,
      "step": 4393
    },
    {
      "epoch": 0.5807560137457045,
      "grad_norm": 0.8620113160725535,
      "learning_rate": 5.0202621922483485e-06,
      "loss": 0.5423,
      "mean_token_accuracy": 0.8208094239234924,
      "num_tokens": 124089572.0,
      "step": 4394
    },
    {
      "epoch": 0.5808881839809675,
      "grad_norm": 0.8119446586227429,
      "learning_rate": 5.01819782857547e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.8155597448348999,
      "num_tokens": 124155108.0,
      "step": 4395
    },
    {
      "epoch": 0.5810203542162306,
      "grad_norm": 0.8000446271209437,
      "learning_rate": 5.016133567468213e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.818413496017456,
      "num_tokens": 124220644.0,
      "step": 4396
    },
    {
      "epoch": 0.5811525244514936,
      "grad_norm": 0.8979406182490044,
      "learning_rate": 5.014069409366019e-06,
      "loss": 0.6142,
      "mean_token_accuracy": 0.7950952053070068,
      "num_tokens": 124286180.0,
      "step": 4397
    },
    {
      "epoch": 0.5812846946867566,
      "grad_norm": 0.879382669959191,
      "learning_rate": 5.012005354708301e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8057318925857544,
      "num_tokens": 124351716.0,
      "step": 4398
    },
    {
      "epoch": 0.5814168649220196,
      "grad_norm": 0.9214322922080161,
      "learning_rate": 5.009941403934455e-06,
      "loss": 0.6304,
      "mean_token_accuracy": 0.7919210195541382,
      "num_tokens": 124417252.0,
      "step": 4399
    },
    {
      "epoch": 0.5815490351572826,
      "grad_norm": 0.8169980106465302,
      "learning_rate": 5.007877557483852e-06,
      "loss": 0.5658,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 124482788.0,
      "step": 4400
    },
    {
      "epoch": 0.5816812053925456,
      "grad_norm": 0.8228443389374118,
      "learning_rate": 5.005813815795844e-06,
      "loss": 0.5035,
      "mean_token_accuracy": 0.8338878154754639,
      "num_tokens": 124548324.0,
      "step": 4401
    },
    {
      "epoch": 0.5818133756278087,
      "grad_norm": 0.8502934945107372,
      "learning_rate": 5.003750179309754e-06,
      "loss": 0.5426,
      "mean_token_accuracy": 0.8208704590797424,
      "num_tokens": 124613860.0,
      "step": 4402
    },
    {
      "epoch": 0.5819455458630717,
      "grad_norm": 0.8503902473132481,
      "learning_rate": 5.001686648464892e-06,
      "loss": 0.649,
      "mean_token_accuracy": 0.7851910591125488,
      "num_tokens": 124679396.0,
      "step": 4403
    },
    {
      "epoch": 0.5820777160983347,
      "grad_norm": 0.9116806206848667,
      "learning_rate": 4.999623223700538e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8099438548088074,
      "num_tokens": 124744932.0,
      "step": 4404
    },
    {
      "epoch": 0.5822098863335977,
      "grad_norm": 0.9389505855762869,
      "learning_rate": 4.997559905455951e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 124810468.0,
      "step": 4405
    },
    {
      "epoch": 0.5823420565688607,
      "grad_norm": 0.8654526549968466,
      "learning_rate": 4.9954966941703704e-06,
      "loss": 0.5574,
      "mean_token_accuracy": 0.812034547328949,
      "num_tokens": 124876004.0,
      "step": 4406
    },
    {
      "epoch": 0.5824742268041238,
      "grad_norm": 0.8601281941698847,
      "learning_rate": 4.993433590283012e-06,
      "loss": 0.5603,
      "mean_token_accuracy": 0.8157429099082947,
      "num_tokens": 124941540.0,
      "step": 4407
    },
    {
      "epoch": 0.5826063970393868,
      "grad_norm": 0.8511276474738744,
      "learning_rate": 4.991370594233067e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.8004516959190369,
      "num_tokens": 125007076.0,
      "step": 4408
    },
    {
      "epoch": 0.5827385672746498,
      "grad_norm": 0.9671308265888195,
      "learning_rate": 4.9893077064597e-06,
      "loss": 0.6192,
      "mean_token_accuracy": 0.797796368598938,
      "num_tokens": 125072612.0,
      "step": 4409
    },
    {
      "epoch": 0.5828707375099128,
      "grad_norm": 0.8479972370870043,
      "learning_rate": 4.987244927402061e-06,
      "loss": 0.5324,
      "mean_token_accuracy": 0.8224422931671143,
      "num_tokens": 125138148.0,
      "step": 4410
    },
    {
      "epoch": 0.5830029077451758,
      "grad_norm": 0.8887835935396863,
      "learning_rate": 4.985182257499271e-06,
      "loss": 0.601,
      "mean_token_accuracy": 0.8013978600502014,
      "num_tokens": 125203684.0,
      "step": 4411
    },
    {
      "epoch": 0.5831350779804388,
      "grad_norm": 0.9239821408052522,
      "learning_rate": 4.9831196971904295e-06,
      "loss": 0.6146,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 125269220.0,
      "step": 4412
    },
    {
      "epoch": 0.5832672482157019,
      "grad_norm": 0.9041774146562265,
      "learning_rate": 4.981057246914613e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7920430898666382,
      "num_tokens": 125334756.0,
      "step": 4413
    },
    {
      "epoch": 0.5833994184509649,
      "grad_norm": 0.875538745115092,
      "learning_rate": 4.978994907110875e-06,
      "loss": 0.5931,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 125400292.0,
      "step": 4414
    },
    {
      "epoch": 0.5835315886862279,
      "grad_norm": 1.0150172769897292,
      "learning_rate": 4.976932678218242e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7920278310775757,
      "num_tokens": 125465828.0,
      "step": 4415
    },
    {
      "epoch": 0.5836637589214909,
      "grad_norm": 0.8523326250851133,
      "learning_rate": 4.974870560675722e-06,
      "loss": 0.5148,
      "mean_token_accuracy": 0.8318123817443848,
      "num_tokens": 125531364.0,
      "step": 4416
    },
    {
      "epoch": 0.5837959291567539,
      "grad_norm": 0.9123477652961812,
      "learning_rate": 4.972808554922296e-06,
      "loss": 0.6149,
      "mean_token_accuracy": 0.7953088879585266,
      "num_tokens": 125596900.0,
      "step": 4417
    },
    {
      "epoch": 0.583928099392017,
      "grad_norm": 0.8615621087959499,
      "learning_rate": 4.97074666139692e-06,
      "loss": 0.5454,
      "mean_token_accuracy": 0.8205194473266602,
      "num_tokens": 125662436.0,
      "step": 4418
    },
    {
      "epoch": 0.58406026962728,
      "grad_norm": 0.8550984844014771,
      "learning_rate": 4.9686848805385314e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8213435411453247,
      "num_tokens": 125727972.0,
      "step": 4419
    },
    {
      "epoch": 0.584192439862543,
      "grad_norm": 0.8570254867537065,
      "learning_rate": 4.966623212786039e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8056250810623169,
      "num_tokens": 125793508.0,
      "step": 4420
    },
    {
      "epoch": 0.584324610097806,
      "grad_norm": 0.9858975247586712,
      "learning_rate": 4.964561658578328e-06,
      "loss": 0.616,
      "mean_token_accuracy": 0.7988646030426025,
      "num_tokens": 125859044.0,
      "step": 4421
    },
    {
      "epoch": 0.584456780333069,
      "grad_norm": 0.8865308756622892,
      "learning_rate": 4.962500218354259e-06,
      "loss": 0.5882,
      "mean_token_accuracy": 0.8049994111061096,
      "num_tokens": 125924580.0,
      "step": 4422
    },
    {
      "epoch": 0.584588950568332,
      "grad_norm": 0.8681984959363523,
      "learning_rate": 4.960438892552674e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7886552214622498,
      "num_tokens": 125990116.0,
      "step": 4423
    },
    {
      "epoch": 0.5847211208035951,
      "grad_norm": 0.9300233086545229,
      "learning_rate": 4.958377681612382e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8053045868873596,
      "num_tokens": 126055652.0,
      "step": 4424
    },
    {
      "epoch": 0.5848532910388581,
      "grad_norm": 0.8311756579891798,
      "learning_rate": 4.956316585972172e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8008637428283691,
      "num_tokens": 126121188.0,
      "step": 4425
    },
    {
      "epoch": 0.5849854612741211,
      "grad_norm": 0.8810265152249019,
      "learning_rate": 4.954255606070812e-06,
      "loss": 0.65,
      "mean_token_accuracy": 0.7829477190971375,
      "num_tokens": 126186724.0,
      "step": 4426
    },
    {
      "epoch": 0.5851176315093841,
      "grad_norm": 0.8604635235469236,
      "learning_rate": 4.952194742347038e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.79903244972229,
      "num_tokens": 126252260.0,
      "step": 4427
    },
    {
      "epoch": 0.5852498017446471,
      "grad_norm": 0.9114955980569134,
      "learning_rate": 4.9501339952395655e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7954156994819641,
      "num_tokens": 126317796.0,
      "step": 4428
    },
    {
      "epoch": 0.5853819719799102,
      "grad_norm": 0.8465162597778904,
      "learning_rate": 4.948073365187086e-06,
      "loss": 0.6218,
      "mean_token_accuracy": 0.7962397933006287,
      "num_tokens": 126383332.0,
      "step": 4429
    },
    {
      "epoch": 0.5855141422151732,
      "grad_norm": 0.9527154359980105,
      "learning_rate": 4.946012852628265e-06,
      "loss": 0.6495,
      "mean_token_accuracy": 0.7840617895126343,
      "num_tokens": 126448868.0,
      "step": 4430
    },
    {
      "epoch": 0.5856463124504362,
      "grad_norm": 0.9321272376668662,
      "learning_rate": 4.943952458001737e-06,
      "loss": 0.641,
      "mean_token_accuracy": 0.7880295515060425,
      "num_tokens": 126514404.0,
      "step": 4431
    },
    {
      "epoch": 0.5857784826856992,
      "grad_norm": 0.9169295173337528,
      "learning_rate": 4.9418921817461255e-06,
      "loss": 0.6131,
      "mean_token_accuracy": 0.7959803342819214,
      "num_tokens": 126579940.0,
      "step": 4432
    },
    {
      "epoch": 0.5859106529209622,
      "grad_norm": 0.8724029816281395,
      "learning_rate": 4.939832024300014e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7977811098098755,
      "num_tokens": 126645476.0,
      "step": 4433
    },
    {
      "epoch": 0.5860428231562252,
      "grad_norm": 0.8151037347849721,
      "learning_rate": 4.93777198610197e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.8035191297531128,
      "num_tokens": 126711012.0,
      "step": 4434
    },
    {
      "epoch": 0.5861749933914883,
      "grad_norm": 0.7792990419013992,
      "learning_rate": 4.935712067590531e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8114851713180542,
      "num_tokens": 126776548.0,
      "step": 4435
    },
    {
      "epoch": 0.5863071636267513,
      "grad_norm": 0.937460764313787,
      "learning_rate": 4.933652269204212e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8123550415039062,
      "num_tokens": 126842084.0,
      "step": 4436
    },
    {
      "epoch": 0.5864393338620143,
      "grad_norm": 0.859190370253252,
      "learning_rate": 4.9315925913815e-06,
      "loss": 0.5873,
      "mean_token_accuracy": 0.8085856437683105,
      "num_tokens": 126907620.0,
      "step": 4437
    },
    {
      "epoch": 0.5865715040972773,
      "grad_norm": 0.9178906315251816,
      "learning_rate": 4.929533034560857e-06,
      "loss": 0.6175,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 126973156.0,
      "step": 4438
    },
    {
      "epoch": 0.5867036743325403,
      "grad_norm": 0.8630873865544043,
      "learning_rate": 4.927473599180722e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.8000549674034119,
      "num_tokens": 127038692.0,
      "step": 4439
    },
    {
      "epoch": 0.5868358445678034,
      "grad_norm": 0.7812303805831107,
      "learning_rate": 4.9254142856795054e-06,
      "loss": 0.5302,
      "mean_token_accuracy": 0.8243498802185059,
      "num_tokens": 127104228.0,
      "step": 4440
    },
    {
      "epoch": 0.5869680148030664,
      "grad_norm": 0.8571671758541921,
      "learning_rate": 4.923355094495586e-06,
      "loss": 0.5537,
      "mean_token_accuracy": 0.8151629567146301,
      "num_tokens": 127169764.0,
      "step": 4441
    },
    {
      "epoch": 0.5871001850383294,
      "grad_norm": 0.8228773653009314,
      "learning_rate": 4.921296026067331e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 127235300.0,
      "step": 4442
    },
    {
      "epoch": 0.5872323552735924,
      "grad_norm": 0.8792731968004327,
      "learning_rate": 4.9192370808330706e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8074105978012085,
      "num_tokens": 127300836.0,
      "step": 4443
    },
    {
      "epoch": 0.5873645255088554,
      "grad_norm": 0.8461541041747538,
      "learning_rate": 4.917178259231107e-06,
      "loss": 0.6358,
      "mean_token_accuracy": 0.7916920781135559,
      "num_tokens": 127366372.0,
      "step": 4444
    },
    {
      "epoch": 0.5874966957441184,
      "grad_norm": 0.7849391728605442,
      "learning_rate": 4.915119561699726e-06,
      "loss": 0.5441,
      "mean_token_accuracy": 0.8204736709594727,
      "num_tokens": 127431908.0,
      "step": 4445
    },
    {
      "epoch": 0.5876288659793815,
      "grad_norm": 0.9269552026661227,
      "learning_rate": 4.913060988677178e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8036717176437378,
      "num_tokens": 127497444.0,
      "step": 4446
    },
    {
      "epoch": 0.5877610362146445,
      "grad_norm": 0.8053299980984251,
      "learning_rate": 4.91100254060169e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8100354075431824,
      "num_tokens": 127562980.0,
      "step": 4447
    },
    {
      "epoch": 0.5878932064499075,
      "grad_norm": 0.8740105274224035,
      "learning_rate": 4.908944217911465e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 127628516.0,
      "step": 4448
    },
    {
      "epoch": 0.5880253766851705,
      "grad_norm": 0.8397193103590452,
      "learning_rate": 4.906886021044676e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8047094345092773,
      "num_tokens": 127694052.0,
      "step": 4449
    },
    {
      "epoch": 0.5881575469204335,
      "grad_norm": 0.854727966066262,
      "learning_rate": 4.9048279504394695e-06,
      "loss": 0.5786,
      "mean_token_accuracy": 0.8100964426994324,
      "num_tokens": 127759588.0,
      "step": 4450
    },
    {
      "epoch": 0.5882897171556966,
      "grad_norm": 0.8139681176784703,
      "learning_rate": 4.902770006533966e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8076852560043335,
      "num_tokens": 127825124.0,
      "step": 4451
    },
    {
      "epoch": 0.5884218873909596,
      "grad_norm": 0.8887409265240834,
      "learning_rate": 4.9007121897662595e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.7961176633834839,
      "num_tokens": 127890660.0,
      "step": 4452
    },
    {
      "epoch": 0.5885540576262226,
      "grad_norm": 0.7850243658866305,
      "learning_rate": 4.8986545005744145e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8081888556480408,
      "num_tokens": 127956196.0,
      "step": 4453
    },
    {
      "epoch": 0.5886862278614856,
      "grad_norm": 0.8293998855702974,
      "learning_rate": 4.896596939396472e-06,
      "loss": 0.5548,
      "mean_token_accuracy": 0.8166738152503967,
      "num_tokens": 128021732.0,
      "step": 4454
    },
    {
      "epoch": 0.5888183980967486,
      "grad_norm": 0.8828610110731282,
      "learning_rate": 4.894539506670441e-06,
      "loss": 0.6379,
      "mean_token_accuracy": 0.7913106083869934,
      "num_tokens": 128087268.0,
      "step": 4455
    },
    {
      "epoch": 0.5889505683320116,
      "grad_norm": 0.7942464341359241,
      "learning_rate": 4.892482202834311e-06,
      "loss": 0.5395,
      "mean_token_accuracy": 0.821633517742157,
      "num_tokens": 128152804.0,
      "step": 4456
    },
    {
      "epoch": 0.5890827385672747,
      "grad_norm": 0.824624390971149,
      "learning_rate": 4.8904250283260335e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8049077987670898,
      "num_tokens": 128218340.0,
      "step": 4457
    },
    {
      "epoch": 0.5892149088025377,
      "grad_norm": 0.8334525624528543,
      "learning_rate": 4.888367983583541e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.8025577068328857,
      "num_tokens": 128283876.0,
      "step": 4458
    },
    {
      "epoch": 0.5893470790378007,
      "grad_norm": 0.9296644481310194,
      "learning_rate": 4.886311069044737e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7966060042381287,
      "num_tokens": 128349412.0,
      "step": 4459
    },
    {
      "epoch": 0.5894792492730637,
      "grad_norm": 0.9439134628712348,
      "learning_rate": 4.8842542851474905e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.7858167290687561,
      "num_tokens": 128414948.0,
      "step": 4460
    },
    {
      "epoch": 0.5896114195083267,
      "grad_norm": 0.9016049466789001,
      "learning_rate": 4.882197632329653e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8107984662055969,
      "num_tokens": 128480484.0,
      "step": 4461
    },
    {
      "epoch": 0.5897435897435898,
      "grad_norm": 0.835870600810901,
      "learning_rate": 4.8801411110290395e-06,
      "loss": 0.5465,
      "mean_token_accuracy": 0.816429615020752,
      "num_tokens": 128546020.0,
      "step": 4462
    },
    {
      "epoch": 0.5898757599788528,
      "grad_norm": 0.8662059403063783,
      "learning_rate": 4.87808472168344e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 128611556.0,
      "step": 4463
    },
    {
      "epoch": 0.5900079302141158,
      "grad_norm": 0.8953286426102867,
      "learning_rate": 4.876028464730622e-06,
      "loss": 0.6712,
      "mean_token_accuracy": 0.7785679697990417,
      "num_tokens": 128677092.0,
      "step": 4464
    },
    {
      "epoch": 0.5901401004493788,
      "grad_norm": 0.8430833966832252,
      "learning_rate": 4.873972340608315e-06,
      "loss": 0.6266,
      "mean_token_accuracy": 0.7916157841682434,
      "num_tokens": 128742628.0,
      "step": 4465
    },
    {
      "epoch": 0.5902722706846418,
      "grad_norm": 0.9271764252424297,
      "learning_rate": 4.871916349754227e-06,
      "loss": 0.5813,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 128808164.0,
      "step": 4466
    },
    {
      "epoch": 0.5904044409199048,
      "grad_norm": 0.8922507586970181,
      "learning_rate": 4.869860492606033e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 128873700.0,
      "step": 4467
    },
    {
      "epoch": 0.5905366111551679,
      "grad_norm": 0.848202685643496,
      "learning_rate": 4.867804769601384e-06,
      "loss": 0.6152,
      "mean_token_accuracy": 0.7948663234710693,
      "num_tokens": 128939236.0,
      "step": 4468
    },
    {
      "epoch": 0.5906687813904309,
      "grad_norm": 0.8288460304380623,
      "learning_rate": 4.865749181177901e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.8098064661026001,
      "num_tokens": 129004772.0,
      "step": 4469
    },
    {
      "epoch": 0.5908009516256939,
      "grad_norm": 0.7964858483676109,
      "learning_rate": 4.8636937277731746e-06,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 129070308.0,
      "step": 4470
    },
    {
      "epoch": 0.5909331218609569,
      "grad_norm": 0.8582486535651981,
      "learning_rate": 4.861638409824768e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8090282082557678,
      "num_tokens": 129135844.0,
      "step": 4471
    },
    {
      "epoch": 0.5910652920962199,
      "grad_norm": 0.926237039908468,
      "learning_rate": 4.859583227770218e-06,
      "loss": 0.627,
      "mean_token_accuracy": 0.793218195438385,
      "num_tokens": 129201380.0,
      "step": 4472
    },
    {
      "epoch": 0.591197462331483,
      "grad_norm": 0.8191848357629229,
      "learning_rate": 4.857528182047027e-06,
      "loss": 0.5844,
      "mean_token_accuracy": 0.8063575625419617,
      "num_tokens": 129266916.0,
      "step": 4473
    },
    {
      "epoch": 0.591329632566746,
      "grad_norm": 0.8639000593655458,
      "learning_rate": 4.85547327309267e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8035191297531128,
      "num_tokens": 129332452.0,
      "step": 4474
    },
    {
      "epoch": 0.591461802802009,
      "grad_norm": 0.8478370718187581,
      "learning_rate": 4.8534185013446e-06,
      "loss": 0.6521,
      "mean_token_accuracy": 0.7851300239562988,
      "num_tokens": 129397988.0,
      "step": 4475
    },
    {
      "epoch": 0.591593973037272,
      "grad_norm": 0.7850952781710967,
      "learning_rate": 4.851363867240229e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.811912477016449,
      "num_tokens": 129463524.0,
      "step": 4476
    },
    {
      "epoch": 0.591726143272535,
      "grad_norm": 0.7846688264343331,
      "learning_rate": 4.849309371216949e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.806555986404419,
      "num_tokens": 129529060.0,
      "step": 4477
    },
    {
      "epoch": 0.591858313507798,
      "grad_norm": 0.8994855902896685,
      "learning_rate": 4.847255013712119e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 129594596.0,
      "step": 4478
    },
    {
      "epoch": 0.5919904837430611,
      "grad_norm": 0.7923512420143727,
      "learning_rate": 4.845200795163065e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.8015352487564087,
      "num_tokens": 129660132.0,
      "step": 4479
    },
    {
      "epoch": 0.5921226539783241,
      "grad_norm": 0.8484980667085376,
      "learning_rate": 4.843146716007093e-06,
      "loss": 0.6042,
      "mean_token_accuracy": 0.8003143668174744,
      "num_tokens": 129725668.0,
      "step": 4480
    },
    {
      "epoch": 0.5922548242135871,
      "grad_norm": 0.8410666570146608,
      "learning_rate": 4.841092776681472e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8055182695388794,
      "num_tokens": 129791204.0,
      "step": 4481
    },
    {
      "epoch": 0.5923869944488501,
      "grad_norm": 0.8464582105459096,
      "learning_rate": 4.839038977623442e-06,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 129856740.0,
      "step": 4482
    },
    {
      "epoch": 0.5925191646841131,
      "grad_norm": 0.8390631217011097,
      "learning_rate": 4.83698531927021e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8117445707321167,
      "num_tokens": 129922276.0,
      "step": 4483
    },
    {
      "epoch": 0.5926513349193762,
      "grad_norm": 0.825360272143716,
      "learning_rate": 4.8349318020589645e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.8009858131408691,
      "num_tokens": 129987812.0,
      "step": 4484
    },
    {
      "epoch": 0.5927835051546392,
      "grad_norm": 0.798539320057762,
      "learning_rate": 4.8328784264268515e-06,
      "loss": 0.5581,
      "mean_token_accuracy": 0.8154834508895874,
      "num_tokens": 130053348.0,
      "step": 4485
    },
    {
      "epoch": 0.5929156753899022,
      "grad_norm": 0.8192120794439257,
      "learning_rate": 4.830825192810993e-06,
      "loss": 0.5764,
      "mean_token_accuracy": 0.808753490447998,
      "num_tokens": 130118884.0,
      "step": 4486
    },
    {
      "epoch": 0.5930478456251652,
      "grad_norm": 0.873120933206947,
      "learning_rate": 4.828772101648479e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.803396999835968,
      "num_tokens": 130184420.0,
      "step": 4487
    },
    {
      "epoch": 0.5931800158604282,
      "grad_norm": 0.7916716473642962,
      "learning_rate": 4.8267191533763725e-06,
      "loss": 0.5362,
      "mean_token_accuracy": 0.8227933049201965,
      "num_tokens": 130249956.0,
      "step": 4488
    },
    {
      "epoch": 0.5933121860956913,
      "grad_norm": 0.8003649585399071,
      "learning_rate": 4.824666348431698e-06,
      "loss": 0.5394,
      "mean_token_accuracy": 0.8212825059890747,
      "num_tokens": 130315492.0,
      "step": 4489
    },
    {
      "epoch": 0.5934443563309543,
      "grad_norm": 0.791105470665806,
      "learning_rate": 4.822613687251459e-06,
      "loss": 0.5266,
      "mean_token_accuracy": 0.8252044916152954,
      "num_tokens": 130381028.0,
      "step": 4490
    },
    {
      "epoch": 0.5935765265662173,
      "grad_norm": 0.8585625287204209,
      "learning_rate": 4.820561170272625e-06,
      "loss": 0.5461,
      "mean_token_accuracy": 0.8196954131126404,
      "num_tokens": 130446564.0,
      "step": 4491
    },
    {
      "epoch": 0.5937086968014803,
      "grad_norm": 0.88022632950081,
      "learning_rate": 4.81850879793213e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.7995818853378296,
      "num_tokens": 130512100.0,
      "step": 4492
    },
    {
      "epoch": 0.5938408670367433,
      "grad_norm": 0.8463457400749788,
      "learning_rate": 4.8164565706668845e-06,
      "loss": 0.5673,
      "mean_token_accuracy": 0.8116225004196167,
      "num_tokens": 130577636.0,
      "step": 4493
    },
    {
      "epoch": 0.5939730372720063,
      "grad_norm": 0.8092464889382082,
      "learning_rate": 4.814404488913764e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.7984983325004578,
      "num_tokens": 130643172.0,
      "step": 4494
    },
    {
      "epoch": 0.5941052075072694,
      "grad_norm": 0.8143937626019457,
      "learning_rate": 4.812352553109613e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.8178488612174988,
      "num_tokens": 130708708.0,
      "step": 4495
    },
    {
      "epoch": 0.5942373777425324,
      "grad_norm": 0.8702089486570005,
      "learning_rate": 4.8103007636912465e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8051825165748596,
      "num_tokens": 130774244.0,
      "step": 4496
    },
    {
      "epoch": 0.5943695479777954,
      "grad_norm": 0.8313638318122062,
      "learning_rate": 4.8082491210954485e-06,
      "loss": 0.5385,
      "mean_token_accuracy": 0.8195427656173706,
      "num_tokens": 130839780.0,
      "step": 4497
    },
    {
      "epoch": 0.5945017182130584,
      "grad_norm": 0.8567156869402162,
      "learning_rate": 4.8061976257589695e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8112714886665344,
      "num_tokens": 130905316.0,
      "step": 4498
    },
    {
      "epoch": 0.5946338884483214,
      "grad_norm": 0.8678760745963648,
      "learning_rate": 4.8041462781185285e-06,
      "loss": 0.5645,
      "mean_token_accuracy": 0.8147051930427551,
      "num_tokens": 130970852.0,
      "step": 4499
    },
    {
      "epoch": 0.5947660586835845,
      "grad_norm": 0.9151720695828982,
      "learning_rate": 4.802095078610819e-06,
      "loss": 0.6348,
      "mean_token_accuracy": 0.7899981737136841,
      "num_tokens": 131036388.0,
      "step": 4500
    },
    {
      "epoch": 0.5948982289188475,
      "grad_norm": 0.7702442691491195,
      "learning_rate": 4.800044027672495e-06,
      "loss": 0.5341,
      "mean_token_accuracy": 0.8240294456481934,
      "num_tokens": 131101924.0,
      "step": 4501
    },
    {
      "epoch": 0.5950303991541105,
      "grad_norm": 0.7810189581682243,
      "learning_rate": 4.797993125740182e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.7980862855911255,
      "num_tokens": 131167460.0,
      "step": 4502
    },
    {
      "epoch": 0.5951625693893735,
      "grad_norm": 0.829571129665048,
      "learning_rate": 4.795942373250478e-06,
      "loss": 0.5713,
      "mean_token_accuracy": 0.8104932308197021,
      "num_tokens": 131232996.0,
      "step": 4503
    },
    {
      "epoch": 0.5952947396246365,
      "grad_norm": 0.8458403428546558,
      "learning_rate": 4.793891770639943e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7910969257354736,
      "num_tokens": 131298532.0,
      "step": 4504
    },
    {
      "epoch": 0.5954269098598995,
      "grad_norm": 0.82996187999421,
      "learning_rate": 4.7918413183451055e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.8124313354492188,
      "num_tokens": 131364068.0,
      "step": 4505
    },
    {
      "epoch": 0.5955590800951626,
      "grad_norm": 0.8565815120967103,
      "learning_rate": 4.789791016802468e-06,
      "loss": 0.617,
      "mean_token_accuracy": 0.7950341701507568,
      "num_tokens": 131429604.0,
      "step": 4506
    },
    {
      "epoch": 0.5956912503304256,
      "grad_norm": 0.8362046657387708,
      "learning_rate": 4.787740866448495e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.8109968304634094,
      "num_tokens": 131495140.0,
      "step": 4507
    },
    {
      "epoch": 0.5958234205656886,
      "grad_norm": 0.8756060397851207,
      "learning_rate": 4.785690867719618e-06,
      "loss": 0.5449,
      "mean_token_accuracy": 0.8171163201332092,
      "num_tokens": 131560676.0,
      "step": 4508
    },
    {
      "epoch": 0.5959555908009516,
      "grad_norm": 0.8968777073357199,
      "learning_rate": 4.783641021052244e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.788166880607605,
      "num_tokens": 131626212.0,
      "step": 4509
    },
    {
      "epoch": 0.5960877610362146,
      "grad_norm": 0.8364038893709389,
      "learning_rate": 4.781591326882741e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.8044041991233826,
      "num_tokens": 131691748.0,
      "step": 4510
    },
    {
      "epoch": 0.5962199312714777,
      "grad_norm": 0.8139015033514301,
      "learning_rate": 4.779541785647442e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.808387279510498,
      "num_tokens": 131757284.0,
      "step": 4511
    },
    {
      "epoch": 0.5963521015067407,
      "grad_norm": 0.7723252768960097,
      "learning_rate": 4.7774923977826574e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.816215991973877,
      "num_tokens": 131822820.0,
      "step": 4512
    },
    {
      "epoch": 0.5964842717420037,
      "grad_norm": 0.8519859225657341,
      "learning_rate": 4.775443163724655e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8189781308174133,
      "num_tokens": 131888356.0,
      "step": 4513
    },
    {
      "epoch": 0.5966164419772667,
      "grad_norm": 0.8119803185957426,
      "learning_rate": 4.773394083909677e-06,
      "loss": 0.5318,
      "mean_token_accuracy": 0.8257080912590027,
      "num_tokens": 131953892.0,
      "step": 4514
    },
    {
      "epoch": 0.5967486122125297,
      "grad_norm": 0.8201423980145858,
      "learning_rate": 4.7713451587739265e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.7982084155082703,
      "num_tokens": 132019428.0,
      "step": 4515
    },
    {
      "epoch": 0.5968807824477927,
      "grad_norm": 0.8724518745111807,
      "learning_rate": 4.76929638875358e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7909138202667236,
      "num_tokens": 132084964.0,
      "step": 4516
    },
    {
      "epoch": 0.5970129526830558,
      "grad_norm": 0.8820103033259015,
      "learning_rate": 4.7672477742847764e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8004974722862244,
      "num_tokens": 132150500.0,
      "step": 4517
    },
    {
      "epoch": 0.5971451229183188,
      "grad_norm": 0.7867407955028567,
      "learning_rate": 4.765199315803621e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 132216036.0,
      "step": 4518
    },
    {
      "epoch": 0.5972772931535818,
      "grad_norm": 0.9118931944167646,
      "learning_rate": 4.76315101374619e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8223354816436768,
      "num_tokens": 132281572.0,
      "step": 4519
    },
    {
      "epoch": 0.5974094633888448,
      "grad_norm": 0.8377600632171042,
      "learning_rate": 4.761102868548525e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 132347108.0,
      "step": 4520
    },
    {
      "epoch": 0.5975416336241078,
      "grad_norm": 0.8456841911146232,
      "learning_rate": 4.7590548806466306e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.8018251657485962,
      "num_tokens": 132412644.0,
      "step": 4521
    },
    {
      "epoch": 0.5976738038593709,
      "grad_norm": 0.85143532495974,
      "learning_rate": 4.757007050476484e-06,
      "loss": 0.5612,
      "mean_token_accuracy": 0.8133927583694458,
      "num_tokens": 132478180.0,
      "step": 4522
    },
    {
      "epoch": 0.5978059740946339,
      "grad_norm": 0.8051559731037008,
      "learning_rate": 4.754959378474023e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8003906607627869,
      "num_tokens": 132543716.0,
      "step": 4523
    },
    {
      "epoch": 0.5979381443298969,
      "grad_norm": 0.8285299583194011,
      "learning_rate": 4.752911865075155e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.807456374168396,
      "num_tokens": 132609252.0,
      "step": 4524
    },
    {
      "epoch": 0.5980703145651599,
      "grad_norm": 0.7602180441506602,
      "learning_rate": 4.750864510715753e-06,
      "loss": 0.5365,
      "mean_token_accuracy": 0.821816623210907,
      "num_tokens": 132674788.0,
      "step": 4525
    },
    {
      "epoch": 0.5982024848004229,
      "grad_norm": 0.923861209587193,
      "learning_rate": 4.748817315831656e-06,
      "loss": 0.6392,
      "mean_token_accuracy": 0.7900897264480591,
      "num_tokens": 132740324.0,
      "step": 4526
    },
    {
      "epoch": 0.598334655035686,
      "grad_norm": 0.9922030109169714,
      "learning_rate": 4.74677028085867e-06,
      "loss": 0.6451,
      "mean_token_accuracy": 0.7853283882141113,
      "num_tokens": 132805860.0,
      "step": 4527
    },
    {
      "epoch": 0.598466825270949,
      "grad_norm": 0.8360116904359337,
      "learning_rate": 4.744723406232562e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.802008330821991,
      "num_tokens": 132871396.0,
      "step": 4528
    },
    {
      "epoch": 0.598598995506212,
      "grad_norm": 0.8943859953237819,
      "learning_rate": 4.7426766923890745e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8138658404350281,
      "num_tokens": 132936932.0,
      "step": 4529
    },
    {
      "epoch": 0.598731165741475,
      "grad_norm": 0.9070273816524049,
      "learning_rate": 4.740630139763906e-06,
      "loss": 0.6484,
      "mean_token_accuracy": 0.784672200679779,
      "num_tokens": 133002468.0,
      "step": 4530
    },
    {
      "epoch": 0.598863335976738,
      "grad_norm": 0.815988655064198,
      "learning_rate": 4.738583748792727e-06,
      "loss": 0.5771,
      "mean_token_accuracy": 0.8105847835540771,
      "num_tokens": 133068004.0,
      "step": 4531
    },
    {
      "epoch": 0.598995506212001,
      "grad_norm": 0.8571689500480466,
      "learning_rate": 4.73653751991117e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8089519143104553,
      "num_tokens": 133133540.0,
      "step": 4532
    },
    {
      "epoch": 0.5991276764472641,
      "grad_norm": 0.8504113429189133,
      "learning_rate": 4.734491453554836e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8114241361618042,
      "num_tokens": 133199076.0,
      "step": 4533
    },
    {
      "epoch": 0.5992598466825271,
      "grad_norm": 0.8893664515805946,
      "learning_rate": 4.732445550159287e-06,
      "loss": 0.5746,
      "mean_token_accuracy": 0.8093181252479553,
      "num_tokens": 133264612.0,
      "step": 4534
    },
    {
      "epoch": 0.5993920169177901,
      "grad_norm": 0.8684926176452453,
      "learning_rate": 4.730399810160057e-06,
      "loss": 0.5878,
      "mean_token_accuracy": 0.8043584227561951,
      "num_tokens": 133330148.0,
      "step": 4535
    },
    {
      "epoch": 0.5995241871530531,
      "grad_norm": 0.7677210372462716,
      "learning_rate": 4.728354233992639e-06,
      "loss": 0.5487,
      "mean_token_accuracy": 0.8169942498207092,
      "num_tokens": 133395684.0,
      "step": 4536
    },
    {
      "epoch": 0.5996563573883161,
      "grad_norm": 0.8265973086032525,
      "learning_rate": 4.726308822092491e-06,
      "loss": 0.5521,
      "mean_token_accuracy": 0.816185474395752,
      "num_tokens": 133461220.0,
      "step": 4537
    },
    {
      "epoch": 0.5997885276235791,
      "grad_norm": 0.8150753266097602,
      "learning_rate": 4.724263574895045e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8092876076698303,
      "num_tokens": 133526756.0,
      "step": 4538
    },
    {
      "epoch": 0.5999206978588422,
      "grad_norm": 0.8785937547003272,
      "learning_rate": 4.722218492835686e-06,
      "loss": 0.5932,
      "mean_token_accuracy": 0.8041600584983826,
      "num_tokens": 133592292.0,
      "step": 4539
    },
    {
      "epoch": 0.6000528680941052,
      "grad_norm": 0.8074993471085511,
      "learning_rate": 4.72017357634977e-06,
      "loss": 0.5606,
      "mean_token_accuracy": 0.8146593570709229,
      "num_tokens": 133657828.0,
      "step": 4540
    },
    {
      "epoch": 0.6001850383293682,
      "grad_norm": 0.8687899267929302,
      "learning_rate": 4.71812882587262e-06,
      "loss": 0.5923,
      "mean_token_accuracy": 0.8026340007781982,
      "num_tokens": 133723364.0,
      "step": 4541
    },
    {
      "epoch": 0.6003172085646312,
      "grad_norm": 0.8347001018919793,
      "learning_rate": 4.7160842418395184e-06,
      "loss": 0.6441,
      "mean_token_accuracy": 0.7894793152809143,
      "num_tokens": 133788900.0,
      "step": 4542
    },
    {
      "epoch": 0.6004493787998942,
      "grad_norm": 0.9387838828286742,
      "learning_rate": 4.714039824685715e-06,
      "loss": 0.6385,
      "mean_token_accuracy": 0.7874496579170227,
      "num_tokens": 133854436.0,
      "step": 4543
    },
    {
      "epoch": 0.6005815490351573,
      "grad_norm": 0.9103282034743151,
      "learning_rate": 4.711995574846421e-06,
      "loss": 0.6552,
      "mean_token_accuracy": 0.7835734486579895,
      "num_tokens": 133919972.0,
      "step": 4544
    },
    {
      "epoch": 0.6007137192704203,
      "grad_norm": 0.7932943675933684,
      "learning_rate": 4.709951492756819e-06,
      "loss": 0.5501,
      "mean_token_accuracy": 0.8178030848503113,
      "num_tokens": 133985508.0,
      "step": 4545
    },
    {
      "epoch": 0.6008458895056833,
      "grad_norm": 0.8385101434208414,
      "learning_rate": 4.707907578852049e-06,
      "loss": 0.5839,
      "mean_token_accuracy": 0.806830644607544,
      "num_tokens": 134051044.0,
      "step": 4546
    },
    {
      "epoch": 0.6009780597409463,
      "grad_norm": 0.8892880421868411,
      "learning_rate": 4.705863833567216e-06,
      "loss": 0.6089,
      "mean_token_accuracy": 0.7992003560066223,
      "num_tokens": 134116580.0,
      "step": 4547
    },
    {
      "epoch": 0.6011102299762093,
      "grad_norm": 0.8501433207127261,
      "learning_rate": 4.703820257337393e-06,
      "loss": 0.5229,
      "mean_token_accuracy": 0.8245788216590881,
      "num_tokens": 134182116.0,
      "step": 4548
    },
    {
      "epoch": 0.6012424002114723,
      "grad_norm": 0.8505342538163952,
      "learning_rate": 4.701776850597616e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7924246191978455,
      "num_tokens": 134247652.0,
      "step": 4549
    },
    {
      "epoch": 0.6013745704467354,
      "grad_norm": 0.8914509791951573,
      "learning_rate": 4.699733613782881e-06,
      "loss": 0.6143,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 134313188.0,
      "step": 4550
    },
    {
      "epoch": 0.6015067406819984,
      "grad_norm": 0.806349417230305,
      "learning_rate": 4.6976905473281495e-06,
      "loss": 0.5617,
      "mean_token_accuracy": 0.8161091208457947,
      "num_tokens": 134378724.0,
      "step": 4551
    },
    {
      "epoch": 0.6016389109172614,
      "grad_norm": 0.8401161474967196,
      "learning_rate": 4.695647651668351e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8087992668151855,
      "num_tokens": 134444260.0,
      "step": 4552
    },
    {
      "epoch": 0.6017710811525244,
      "grad_norm": 0.7945592493825455,
      "learning_rate": 4.693604927238373e-06,
      "loss": 0.5514,
      "mean_token_accuracy": 0.8150408864021301,
      "num_tokens": 134509796.0,
      "step": 4553
    },
    {
      "epoch": 0.6019032513877874,
      "grad_norm": 0.8103441954012212,
      "learning_rate": 4.691562374473072e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8069985508918762,
      "num_tokens": 134575332.0,
      "step": 4554
    },
    {
      "epoch": 0.6020354216230505,
      "grad_norm": 0.8783329797685578,
      "learning_rate": 4.689519993807261e-06,
      "loss": 0.596,
      "mean_token_accuracy": 0.802069365978241,
      "num_tokens": 134640868.0,
      "step": 4555
    },
    {
      "epoch": 0.6021675918583135,
      "grad_norm": 0.869417208109793,
      "learning_rate": 4.68747778567572e-06,
      "loss": 0.6309,
      "mean_token_accuracy": 0.7950189113616943,
      "num_tokens": 134706404.0,
      "step": 4556
    },
    {
      "epoch": 0.6022997620935765,
      "grad_norm": 0.8762606213567717,
      "learning_rate": 4.6854357505131965e-06,
      "loss": 0.5401,
      "mean_token_accuracy": 0.8212214708328247,
      "num_tokens": 134771940.0,
      "step": 4557
    },
    {
      "epoch": 0.6024319323288395,
      "grad_norm": 0.8487731159858521,
      "learning_rate": 4.683393888754395e-06,
      "loss": 0.5927,
      "mean_token_accuracy": 0.8019777536392212,
      "num_tokens": 134837476.0,
      "step": 4558
    },
    {
      "epoch": 0.6025641025641025,
      "grad_norm": 0.8220427117471633,
      "learning_rate": 4.681352200833985e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8118056654930115,
      "num_tokens": 134903012.0,
      "step": 4559
    },
    {
      "epoch": 0.6026962727993656,
      "grad_norm": 0.7744331795642795,
      "learning_rate": 4.679310687186597e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.8230527639389038,
      "num_tokens": 134968548.0,
      "step": 4560
    },
    {
      "epoch": 0.6028284430346286,
      "grad_norm": 0.9173488162460931,
      "learning_rate": 4.67726934824683e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 135034084.0,
      "step": 4561
    },
    {
      "epoch": 0.6029606132698916,
      "grad_norm": 0.9089956974402278,
      "learning_rate": 4.675228184449243e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8000243902206421,
      "num_tokens": 135099620.0,
      "step": 4562
    },
    {
      "epoch": 0.6030927835051546,
      "grad_norm": 0.82085159486282,
      "learning_rate": 4.673187196228353e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 135165156.0,
      "step": 4563
    },
    {
      "epoch": 0.6032249537404176,
      "grad_norm": 0.7637709222076208,
      "learning_rate": 4.671146384018648e-06,
      "loss": 0.5188,
      "mean_token_accuracy": 0.8266389966011047,
      "num_tokens": 135230692.0,
      "step": 4564
    },
    {
      "epoch": 0.6033571239756806,
      "grad_norm": 0.909062216995222,
      "learning_rate": 4.669105748254572e-06,
      "loss": 0.5508,
      "mean_token_accuracy": 0.8156207799911499,
      "num_tokens": 135296228.0,
      "step": 4565
    },
    {
      "epoch": 0.6034892942109437,
      "grad_norm": 0.9660819844809176,
      "learning_rate": 4.667065289370534e-06,
      "loss": 0.6556,
      "mean_token_accuracy": 0.7849926948547363,
      "num_tokens": 135361764.0,
      "step": 4566
    },
    {
      "epoch": 0.6036214644462067,
      "grad_norm": 0.9144616317555212,
      "learning_rate": 4.665025007800906e-06,
      "loss": 0.6065,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 135427300.0,
      "step": 4567
    },
    {
      "epoch": 0.6037536346814697,
      "grad_norm": 0.8310922247515015,
      "learning_rate": 4.662984903980021e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.803152859210968,
      "num_tokens": 135492836.0,
      "step": 4568
    },
    {
      "epoch": 0.6038858049167327,
      "grad_norm": 0.8287284538883266,
      "learning_rate": 4.660944978342174e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8140336871147156,
      "num_tokens": 135558372.0,
      "step": 4569
    },
    {
      "epoch": 0.6040179751519957,
      "grad_norm": 0.88872402034902,
      "learning_rate": 4.658905231321624e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 135623908.0,
      "step": 4570
    },
    {
      "epoch": 0.6041501453872588,
      "grad_norm": 0.8705806846507658,
      "learning_rate": 4.656865663352589e-06,
      "loss": 0.5923,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 135689444.0,
      "step": 4571
    },
    {
      "epoch": 0.6042823156225218,
      "grad_norm": 0.8211059130156392,
      "learning_rate": 4.654826274869251e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 135754980.0,
      "step": 4572
    },
    {
      "epoch": 0.6044144858577848,
      "grad_norm": 0.871937400530164,
      "learning_rate": 4.652787066305752e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 135820516.0,
      "step": 4573
    },
    {
      "epoch": 0.6045466560930478,
      "grad_norm": 0.8792915848047045,
      "learning_rate": 4.6507480380961986e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7972317337989807,
      "num_tokens": 135886052.0,
      "step": 4574
    },
    {
      "epoch": 0.6046788263283108,
      "grad_norm": 0.8168127001616213,
      "learning_rate": 4.648709190674657e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8059150576591492,
      "num_tokens": 135951588.0,
      "step": 4575
    },
    {
      "epoch": 0.6048109965635738,
      "grad_norm": 0.9023130854063327,
      "learning_rate": 4.646670524475154e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 136017124.0,
      "step": 4576
    },
    {
      "epoch": 0.6049431667988369,
      "grad_norm": 0.8921496063401233,
      "learning_rate": 4.644632039931682e-06,
      "loss": 0.6077,
      "mean_token_accuracy": 0.7983762621879578,
      "num_tokens": 136082660.0,
      "step": 4577
    },
    {
      "epoch": 0.6050753370340999,
      "grad_norm": 0.8790518157610329,
      "learning_rate": 4.642593737478189e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7967281341552734,
      "num_tokens": 136148196.0,
      "step": 4578
    },
    {
      "epoch": 0.6052075072693629,
      "grad_norm": 0.8809377215312783,
      "learning_rate": 4.640555617548586e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 136213732.0,
      "step": 4579
    },
    {
      "epoch": 0.6053396775046259,
      "grad_norm": 0.8300780129725532,
      "learning_rate": 4.638517680576752e-06,
      "loss": 0.5675,
      "mean_token_accuracy": 0.8114699125289917,
      "num_tokens": 136279268.0,
      "step": 4580
    },
    {
      "epoch": 0.6054718477398889,
      "grad_norm": 0.8557361445200227,
      "learning_rate": 4.6364799269965154e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.8048772811889648,
      "num_tokens": 136344804.0,
      "step": 4581
    },
    {
      "epoch": 0.605604017975152,
      "grad_norm": 0.7858882266041994,
      "learning_rate": 4.634442357241672e-06,
      "loss": 0.584,
      "mean_token_accuracy": 0.8053045868873596,
      "num_tokens": 136410340.0,
      "step": 4582
    },
    {
      "epoch": 0.605736188210415,
      "grad_norm": 0.838592533965494,
      "learning_rate": 4.6324049717459805e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8082498908042908,
      "num_tokens": 136475876.0,
      "step": 4583
    },
    {
      "epoch": 0.605868358445678,
      "grad_norm": 0.8729618548025755,
      "learning_rate": 4.630367770943157e-06,
      "loss": 0.5686,
      "mean_token_accuracy": 0.8109968304634094,
      "num_tokens": 136541412.0,
      "step": 4584
    },
    {
      "epoch": 0.606000528680941,
      "grad_norm": 0.8898863147501281,
      "learning_rate": 4.6283307552668764e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8058081865310669,
      "num_tokens": 136606948.0,
      "step": 4585
    },
    {
      "epoch": 0.606132698916204,
      "grad_norm": 0.8726692801662899,
      "learning_rate": 4.626293925150781e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8058997392654419,
      "num_tokens": 136672484.0,
      "step": 4586
    },
    {
      "epoch": 0.606264869151467,
      "grad_norm": 0.8344950501274696,
      "learning_rate": 4.6242572810284665e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.8000549674034119,
      "num_tokens": 136738020.0,
      "step": 4587
    },
    {
      "epoch": 0.6063970393867301,
      "grad_norm": 0.793429810146025,
      "learning_rate": 4.622220823333494e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8145525455474854,
      "num_tokens": 136803556.0,
      "step": 4588
    },
    {
      "epoch": 0.6065292096219931,
      "grad_norm": 0.8508404762562759,
      "learning_rate": 4.6201845524993786e-06,
      "loss": 0.6111,
      "mean_token_accuracy": 0.7984525561332703,
      "num_tokens": 136869092.0,
      "step": 4589
    },
    {
      "epoch": 0.6066613798572561,
      "grad_norm": 0.8027812665012314,
      "learning_rate": 4.618148468959604e-06,
      "loss": 0.5419,
      "mean_token_accuracy": 0.8207789063453674,
      "num_tokens": 136934628.0,
      "step": 4590
    },
    {
      "epoch": 0.6067935500925191,
      "grad_norm": 0.8420243641083659,
      "learning_rate": 4.616112573147611e-06,
      "loss": 0.5639,
      "mean_token_accuracy": 0.8120803236961365,
      "num_tokens": 137000164.0,
      "step": 4591
    },
    {
      "epoch": 0.6069257203277821,
      "grad_norm": 1.0165534364079243,
      "learning_rate": 4.614076865496794e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.7917989492416382,
      "num_tokens": 137065700.0,
      "step": 4592
    },
    {
      "epoch": 0.6070578905630452,
      "grad_norm": 0.8984148735203783,
      "learning_rate": 4.612041346440516e-06,
      "loss": 0.6188,
      "mean_token_accuracy": 0.7941032648086548,
      "num_tokens": 137131236.0,
      "step": 4593
    },
    {
      "epoch": 0.6071900607983082,
      "grad_norm": 0.8088592861182243,
      "learning_rate": 4.6100060164120965e-06,
      "loss": 0.5326,
      "mean_token_accuracy": 0.8232816457748413,
      "num_tokens": 137196772.0,
      "step": 4594
    },
    {
      "epoch": 0.6073222310335712,
      "grad_norm": 0.8082116105521264,
      "learning_rate": 4.607970875844815e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8146440982818604,
      "num_tokens": 137262308.0,
      "step": 4595
    },
    {
      "epoch": 0.6074544012688342,
      "grad_norm": 0.8982364538044119,
      "learning_rate": 4.6059359251719096e-06,
      "loss": 0.6504,
      "mean_token_accuracy": 0.7842448949813843,
      "num_tokens": 137327844.0,
      "step": 4596
    },
    {
      "epoch": 0.6075865715040972,
      "grad_norm": 0.9036706633542552,
      "learning_rate": 4.603901164826579e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8081125617027283,
      "num_tokens": 137393380.0,
      "step": 4597
    },
    {
      "epoch": 0.6077187417393602,
      "grad_norm": 0.8346564848420485,
      "learning_rate": 4.6018665952419795e-06,
      "loss": 0.6039,
      "mean_token_accuracy": 0.8003143668174744,
      "num_tokens": 137458916.0,
      "step": 4598
    },
    {
      "epoch": 0.6078509119746233,
      "grad_norm": 0.8829353863172753,
      "learning_rate": 4.599832216851232e-06,
      "loss": 0.5504,
      "mean_token_accuracy": 0.8164753913879395,
      "num_tokens": 137524452.0,
      "step": 4599
    },
    {
      "epoch": 0.6079830822098863,
      "grad_norm": 0.7889358604667229,
      "learning_rate": 4.597798030087412e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8114393949508667,
      "num_tokens": 137589988.0,
      "step": 4600
    },
    {
      "epoch": 0.6081152524451493,
      "grad_norm": 0.7337803611098503,
      "learning_rate": 4.595764035383552e-06,
      "loss": 0.5254,
      "mean_token_accuracy": 0.8264558911323547,
      "num_tokens": 137655524.0,
      "step": 4601
    },
    {
      "epoch": 0.6082474226804123,
      "grad_norm": 0.7972141188782973,
      "learning_rate": 4.593730233172653e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.806464433670044,
      "num_tokens": 137721060.0,
      "step": 4602
    },
    {
      "epoch": 0.6083795929156753,
      "grad_norm": 0.8409812648998964,
      "learning_rate": 4.591696623887665e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.7993682026863098,
      "num_tokens": 137786596.0,
      "step": 4603
    },
    {
      "epoch": 0.6085117631509384,
      "grad_norm": 0.8816349760065476,
      "learning_rate": 4.589663207961501e-06,
      "loss": 0.5622,
      "mean_token_accuracy": 0.8111036419868469,
      "num_tokens": 137852132.0,
      "step": 4604
    },
    {
      "epoch": 0.6086439333862014,
      "grad_norm": 0.8571645067799856,
      "learning_rate": 4.5876299858270325e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.8074411153793335,
      "num_tokens": 137917668.0,
      "step": 4605
    },
    {
      "epoch": 0.6087761036214644,
      "grad_norm": 0.9427165426467928,
      "learning_rate": 4.585596957917092e-06,
      "loss": 0.6478,
      "mean_token_accuracy": 0.7845959067344666,
      "num_tokens": 137983204.0,
      "step": 4606
    },
    {
      "epoch": 0.6089082738567274,
      "grad_norm": 0.8177149545260577,
      "learning_rate": 4.583564124664469e-06,
      "loss": 0.558,
      "mean_token_accuracy": 0.8156512975692749,
      "num_tokens": 138048740.0,
      "step": 4607
    },
    {
      "epoch": 0.6090404440919904,
      "grad_norm": 0.8648725273797789,
      "learning_rate": 4.581531486501908e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8144762516021729,
      "num_tokens": 138114276.0,
      "step": 4608
    },
    {
      "epoch": 0.6091726143272534,
      "grad_norm": 0.8312851808474316,
      "learning_rate": 4.5794990438621186e-06,
      "loss": 0.5825,
      "mean_token_accuracy": 0.8082346320152283,
      "num_tokens": 138179812.0,
      "step": 4609
    },
    {
      "epoch": 0.6093047845625165,
      "grad_norm": 0.8015397731114784,
      "learning_rate": 4.5774667971777655e-06,
      "loss": 0.5078,
      "mean_token_accuracy": 0.8339030742645264,
      "num_tokens": 138245348.0,
      "step": 4610
    },
    {
      "epoch": 0.6094369547977796,
      "grad_norm": 0.8110566911638964,
      "learning_rate": 4.575434746881467e-06,
      "loss": 0.5626,
      "mean_token_accuracy": 0.8121718764305115,
      "num_tokens": 138310884.0,
      "step": 4611
    },
    {
      "epoch": 0.6095691250330426,
      "grad_norm": 0.847364847537295,
      "learning_rate": 4.5734028934058104e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.7949273586273193,
      "num_tokens": 138376420.0,
      "step": 4612
    },
    {
      "epoch": 0.6097012952683056,
      "grad_norm": 0.9409679513678505,
      "learning_rate": 4.57137123718333e-06,
      "loss": 0.6241,
      "mean_token_accuracy": 0.7969570159912109,
      "num_tokens": 138441956.0,
      "step": 4613
    },
    {
      "epoch": 0.6098334655035687,
      "grad_norm": 0.8776519767682566,
      "learning_rate": 4.569339778646525e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.8027255535125732,
      "num_tokens": 138507492.0,
      "step": 4614
    },
    {
      "epoch": 0.6099656357388317,
      "grad_norm": 0.806929229878898,
      "learning_rate": 4.567308518227851e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8055640459060669,
      "num_tokens": 138573028.0,
      "step": 4615
    },
    {
      "epoch": 0.6100978059740947,
      "grad_norm": 0.7739702156769214,
      "learning_rate": 4.56527745635972e-06,
      "loss": 0.5417,
      "mean_token_accuracy": 0.8189628720283508,
      "num_tokens": 138638564.0,
      "step": 4616
    },
    {
      "epoch": 0.6102299762093577,
      "grad_norm": 0.8677160923663167,
      "learning_rate": 4.563246593474502e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.8020846247673035,
      "num_tokens": 138704100.0,
      "step": 4617
    },
    {
      "epoch": 0.6103621464446207,
      "grad_norm": 0.7954801984071358,
      "learning_rate": 4.561215930004527e-06,
      "loss": 0.55,
      "mean_token_accuracy": 0.8169637322425842,
      "num_tokens": 138769636.0,
      "step": 4618
    },
    {
      "epoch": 0.6104943166798837,
      "grad_norm": 0.8472685482911593,
      "learning_rate": 4.559185466382081e-06,
      "loss": 0.5794,
      "mean_token_accuracy": 0.807792067527771,
      "num_tokens": 138835172.0,
      "step": 4619
    },
    {
      "epoch": 0.6106264869151468,
      "grad_norm": 0.9072467730496384,
      "learning_rate": 4.557155203039406e-06,
      "loss": 0.6431,
      "mean_token_accuracy": 0.7857404351234436,
      "num_tokens": 138900708.0,
      "step": 4620
    },
    {
      "epoch": 0.6107586571504098,
      "grad_norm": 0.8961829080888429,
      "learning_rate": 4.555125140408702e-06,
      "loss": 0.5955,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 138966244.0,
      "step": 4621
    },
    {
      "epoch": 0.6108908273856728,
      "grad_norm": 0.8215213569069227,
      "learning_rate": 4.553095278922128e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8040685057640076,
      "num_tokens": 139031780.0,
      "step": 4622
    },
    {
      "epoch": 0.6110229976209358,
      "grad_norm": 0.8323450276636495,
      "learning_rate": 4.551065619011801e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8104932308197021,
      "num_tokens": 139097316.0,
      "step": 4623
    },
    {
      "epoch": 0.6111551678561988,
      "grad_norm": 0.7754865097504826,
      "learning_rate": 4.549036161109789e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 139162852.0,
      "step": 4624
    },
    {
      "epoch": 0.6112873380914619,
      "grad_norm": 0.8166360811449247,
      "learning_rate": 4.547006905648125e-06,
      "loss": 0.554,
      "mean_token_accuracy": 0.8185813426971436,
      "num_tokens": 139228388.0,
      "step": 4625
    },
    {
      "epoch": 0.6114195083267249,
      "grad_norm": 0.9682789628943366,
      "learning_rate": 4.544977853058794e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8015810251235962,
      "num_tokens": 139293924.0,
      "step": 4626
    },
    {
      "epoch": 0.6115516785619879,
      "grad_norm": 0.9228011964351269,
      "learning_rate": 4.542949003773737e-06,
      "loss": 0.6372,
      "mean_token_accuracy": 0.789219856262207,
      "num_tokens": 139359460.0,
      "step": 4627
    },
    {
      "epoch": 0.6116838487972509,
      "grad_norm": 0.7894826077176699,
      "learning_rate": 4.540920358224857e-06,
      "loss": 0.5588,
      "mean_token_accuracy": 0.8128891587257385,
      "num_tokens": 139424996.0,
      "step": 4628
    },
    {
      "epoch": 0.6118160190325139,
      "grad_norm": 0.8717721643290839,
      "learning_rate": 4.538891916844008e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8039158582687378,
      "num_tokens": 139490532.0,
      "step": 4629
    },
    {
      "epoch": 0.6119481892677769,
      "grad_norm": 0.8637773991569165,
      "learning_rate": 4.536863680063004e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7953394055366516,
      "num_tokens": 139556068.0,
      "step": 4630
    },
    {
      "epoch": 0.61208035950304,
      "grad_norm": 0.8716930159637672,
      "learning_rate": 4.534835648313614e-06,
      "loss": 0.623,
      "mean_token_accuracy": 0.7962855696678162,
      "num_tokens": 139621604.0,
      "step": 4631
    },
    {
      "epoch": 0.612212529738303,
      "grad_norm": 0.9374425133811997,
      "learning_rate": 4.5328078220275614e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.8007721900939941,
      "num_tokens": 139687140.0,
      "step": 4632
    },
    {
      "epoch": 0.612344699973566,
      "grad_norm": 0.8224805428157486,
      "learning_rate": 4.530780201636532e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8133622407913208,
      "num_tokens": 139752676.0,
      "step": 4633
    },
    {
      "epoch": 0.612476870208829,
      "grad_norm": 0.8759804065366877,
      "learning_rate": 4.52875278757216e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 139818212.0,
      "step": 4634
    },
    {
      "epoch": 0.612609040444092,
      "grad_norm": 0.8630023085842069,
      "learning_rate": 4.526725580266042e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 139883748.0,
      "step": 4635
    },
    {
      "epoch": 0.612741210679355,
      "grad_norm": 0.8064649587823042,
      "learning_rate": 4.5246985801497304e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8008332252502441,
      "num_tokens": 139949284.0,
      "step": 4636
    },
    {
      "epoch": 0.6128733809146181,
      "grad_norm": 0.8532050333096384,
      "learning_rate": 4.522671787654724e-06,
      "loss": 0.5626,
      "mean_token_accuracy": 0.8114241361618042,
      "num_tokens": 140014820.0,
      "step": 4637
    },
    {
      "epoch": 0.6130055511498811,
      "grad_norm": 0.8798126109558387,
      "learning_rate": 4.52064520321249e-06,
      "loss": 0.595,
      "mean_token_accuracy": 0.8022066950798035,
      "num_tokens": 140080356.0,
      "step": 4638
    },
    {
      "epoch": 0.6131377213851441,
      "grad_norm": 0.7863304313997864,
      "learning_rate": 4.518618827254446e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8104321956634521,
      "num_tokens": 140145892.0,
      "step": 4639
    },
    {
      "epoch": 0.6132698916204071,
      "grad_norm": 0.9915322487444512,
      "learning_rate": 4.516592660211962e-06,
      "loss": 0.6394,
      "mean_token_accuracy": 0.7919057607650757,
      "num_tokens": 140211428.0,
      "step": 4640
    },
    {
      "epoch": 0.6134020618556701,
      "grad_norm": 0.8214112702018037,
      "learning_rate": 4.5145667025163696e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.7996124029159546,
      "num_tokens": 140276964.0,
      "step": 4641
    },
    {
      "epoch": 0.6135342320909332,
      "grad_norm": 0.8529485350296979,
      "learning_rate": 4.512540954598953e-06,
      "loss": 0.5957,
      "mean_token_accuracy": 0.8008484840393066,
      "num_tokens": 140342500.0,
      "step": 4642
    },
    {
      "epoch": 0.6136664023261962,
      "grad_norm": 0.8170709512236736,
      "learning_rate": 4.5105154168909485e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8008790016174316,
      "num_tokens": 140408036.0,
      "step": 4643
    },
    {
      "epoch": 0.6137985725614592,
      "grad_norm": 0.9007336455504549,
      "learning_rate": 4.508490089823553e-06,
      "loss": 0.6369,
      "mean_token_accuracy": 0.7900286912918091,
      "num_tokens": 140473572.0,
      "step": 4644
    },
    {
      "epoch": 0.6139307427967222,
      "grad_norm": 0.786025632763642,
      "learning_rate": 4.506464973827918e-06,
      "loss": 0.545,
      "mean_token_accuracy": 0.8211299180984497,
      "num_tokens": 140539108.0,
      "step": 4645
    },
    {
      "epoch": 0.6140629130319852,
      "grad_norm": 0.8956093898819467,
      "learning_rate": 4.504440069335144e-06,
      "loss": 0.5763,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 140604644.0,
      "step": 4646
    },
    {
      "epoch": 0.6141950832672483,
      "grad_norm": 0.9099844676677717,
      "learning_rate": 4.502415376776296e-06,
      "loss": 0.6203,
      "mean_token_accuracy": 0.7941642999649048,
      "num_tokens": 140670180.0,
      "step": 4647
    },
    {
      "epoch": 0.6143272535025113,
      "grad_norm": 0.8300775252422484,
      "learning_rate": 4.500390896582385e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 140735716.0,
      "step": 4648
    },
    {
      "epoch": 0.6144594237377743,
      "grad_norm": 0.7359522827448938,
      "learning_rate": 4.498366629184383e-06,
      "loss": 0.5139,
      "mean_token_accuracy": 0.8301184177398682,
      "num_tokens": 140801252.0,
      "step": 4649
    },
    {
      "epoch": 0.6145915939730373,
      "grad_norm": 0.835220652886212,
      "learning_rate": 4.496342575013212e-06,
      "loss": 0.5736,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 140866788.0,
      "step": 4650
    },
    {
      "epoch": 0.6147237642083003,
      "grad_norm": 0.7913735271236044,
      "learning_rate": 4.494318734499751e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8110883831977844,
      "num_tokens": 140932324.0,
      "step": 4651
    },
    {
      "epoch": 0.6148559344435633,
      "grad_norm": 0.7445486602376576,
      "learning_rate": 4.492295108074836e-06,
      "loss": 0.5303,
      "mean_token_accuracy": 0.822747528553009,
      "num_tokens": 140997860.0,
      "step": 4652
    },
    {
      "epoch": 0.6149881046788264,
      "grad_norm": 0.8584635500947958,
      "learning_rate": 4.490271696169251e-06,
      "loss": 0.5725,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 141063396.0,
      "step": 4653
    },
    {
      "epoch": 0.6151202749140894,
      "grad_norm": 0.7369585101052492,
      "learning_rate": 4.488248499213742e-06,
      "loss": 0.5342,
      "mean_token_accuracy": 0.8246703743934631,
      "num_tokens": 141128932.0,
      "step": 4654
    },
    {
      "epoch": 0.6152524451493524,
      "grad_norm": 0.8252416755149717,
      "learning_rate": 4.486225517639005e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.8110120892524719,
      "num_tokens": 141194468.0,
      "step": 4655
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.8662808655850183,
      "learning_rate": 4.484202751875684e-06,
      "loss": 0.5896,
      "mean_token_accuracy": 0.8031376004219055,
      "num_tokens": 141260004.0,
      "step": 4656
    },
    {
      "epoch": 0.6155167856198784,
      "grad_norm": 0.9435011840584125,
      "learning_rate": 4.4821802023543935e-06,
      "loss": 0.6703,
      "mean_token_accuracy": 0.7778812050819397,
      "num_tokens": 141325540.0,
      "step": 4657
    },
    {
      "epoch": 0.6156489558551415,
      "grad_norm": 0.8898831741848042,
      "learning_rate": 4.4801578695056866e-06,
      "loss": 0.6079,
      "mean_token_accuracy": 0.7984830737113953,
      "num_tokens": 141391076.0,
      "step": 4658
    },
    {
      "epoch": 0.6157811260904045,
      "grad_norm": 0.9039228083989426,
      "learning_rate": 4.478135753760076e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.8005890846252441,
      "num_tokens": 141456612.0,
      "step": 4659
    },
    {
      "epoch": 0.6159132963256675,
      "grad_norm": 0.9593158086262062,
      "learning_rate": 4.476113855548029e-06,
      "loss": 0.6527,
      "mean_token_accuracy": 0.7876175045967102,
      "num_tokens": 141522148.0,
      "step": 4660
    },
    {
      "epoch": 0.6160454665609305,
      "grad_norm": 0.8542069307977787,
      "learning_rate": 4.474092175299964e-06,
      "loss": 0.6196,
      "mean_token_accuracy": 0.7966365814208984,
      "num_tokens": 141587684.0,
      "step": 4661
    },
    {
      "epoch": 0.6161776367961935,
      "grad_norm": 0.8207325263870285,
      "learning_rate": 4.472070713446255e-06,
      "loss": 0.5505,
      "mean_token_accuracy": 0.818260908126831,
      "num_tokens": 141653220.0,
      "step": 4662
    },
    {
      "epoch": 0.6163098070314565,
      "grad_norm": 0.8558630797551381,
      "learning_rate": 4.470049470417231e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.806739091873169,
      "num_tokens": 141718756.0,
      "step": 4663
    },
    {
      "epoch": 0.6164419772667196,
      "grad_norm": 0.823179173182554,
      "learning_rate": 4.468028446643171e-06,
      "loss": 0.5562,
      "mean_token_accuracy": 0.8154681921005249,
      "num_tokens": 141784292.0,
      "step": 4664
    },
    {
      "epoch": 0.6165741475019826,
      "grad_norm": 0.847262684845638,
      "learning_rate": 4.466007642554307e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.7991850972175598,
      "num_tokens": 141849828.0,
      "step": 4665
    },
    {
      "epoch": 0.6167063177372456,
      "grad_norm": 0.844460127970561,
      "learning_rate": 4.4639870585808285e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.812004029750824,
      "num_tokens": 141915364.0,
      "step": 4666
    },
    {
      "epoch": 0.6168384879725086,
      "grad_norm": 0.8682396758389066,
      "learning_rate": 4.4619666951528765e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.7993071675300598,
      "num_tokens": 141980900.0,
      "step": 4667
    },
    {
      "epoch": 0.6169706582077716,
      "grad_norm": 0.7839640793614593,
      "learning_rate": 4.45994655270054e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.816612720489502,
      "num_tokens": 142046436.0,
      "step": 4668
    },
    {
      "epoch": 0.6171028284430347,
      "grad_norm": 0.8096423356503544,
      "learning_rate": 4.4579266316538695e-06,
      "loss": 0.5959,
      "mean_token_accuracy": 0.8024966716766357,
      "num_tokens": 142111972.0,
      "step": 4669
    },
    {
      "epoch": 0.6172349986782977,
      "grad_norm": 0.8167152048170555,
      "learning_rate": 4.455906932442862e-06,
      "loss": 0.5501,
      "mean_token_accuracy": 0.8181846141815186,
      "num_tokens": 142177508.0,
      "step": 4670
    },
    {
      "epoch": 0.6173671689135607,
      "grad_norm": 0.8662400790184801,
      "learning_rate": 4.453887455497467e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 142243044.0,
      "step": 4671
    },
    {
      "epoch": 0.6174993391488237,
      "grad_norm": 0.8803533156660828,
      "learning_rate": 4.451868201247594e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8085551261901855,
      "num_tokens": 142308580.0,
      "step": 4672
    },
    {
      "epoch": 0.6176315093840867,
      "grad_norm": 0.8185017836953261,
      "learning_rate": 4.449849170123097e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8029086589813232,
      "num_tokens": 142374116.0,
      "step": 4673
    },
    {
      "epoch": 0.6177636796193497,
      "grad_norm": 0.8712016264108585,
      "learning_rate": 4.4478303625537866e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8145220279693604,
      "num_tokens": 142439652.0,
      "step": 4674
    },
    {
      "epoch": 0.6178958498546128,
      "grad_norm": 0.8118970784374424,
      "learning_rate": 4.445811778969423e-06,
      "loss": 0.5707,
      "mean_token_accuracy": 0.8118972182273865,
      "num_tokens": 142505188.0,
      "step": 4675
    },
    {
      "epoch": 0.6180280200898758,
      "grad_norm": 0.8458542255379631,
      "learning_rate": 4.443793419799723e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.7986509799957275,
      "num_tokens": 142570724.0,
      "step": 4676
    },
    {
      "epoch": 0.6181601903251388,
      "grad_norm": 1.0306890787736454,
      "learning_rate": 4.4417752854743524e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7951409816741943,
      "num_tokens": 142636260.0,
      "step": 4677
    },
    {
      "epoch": 0.6182923605604018,
      "grad_norm": 0.8373671540466436,
      "learning_rate": 4.439757376422926e-06,
      "loss": 0.536,
      "mean_token_accuracy": 0.8213282823562622,
      "num_tokens": 142701796.0,
      "step": 4678
    },
    {
      "epoch": 0.6184245307956648,
      "grad_norm": 0.9692551607454762,
      "learning_rate": 4.4377396930750215e-06,
      "loss": 0.6153,
      "mean_token_accuracy": 0.7987120151519775,
      "num_tokens": 142767332.0,
      "step": 4679
    },
    {
      "epoch": 0.6185567010309279,
      "grad_norm": 0.83618162497167,
      "learning_rate": 4.435722235860158e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.8003601431846619,
      "num_tokens": 142832868.0,
      "step": 4680
    },
    {
      "epoch": 0.6186888712661909,
      "grad_norm": 0.8065376656667248,
      "learning_rate": 4.433705005207809e-06,
      "loss": 0.5392,
      "mean_token_accuracy": 0.8239989280700684,
      "num_tokens": 142898404.0,
      "step": 4681
    },
    {
      "epoch": 0.6188210415014539,
      "grad_norm": 0.8326402445961173,
      "learning_rate": 4.4316880015473995e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.812187135219574,
      "num_tokens": 142963940.0,
      "step": 4682
    },
    {
      "epoch": 0.6189532117367169,
      "grad_norm": 0.9308005721191731,
      "learning_rate": 4.429671225308313e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.8017641305923462,
      "num_tokens": 143029476.0,
      "step": 4683
    },
    {
      "epoch": 0.6190853819719799,
      "grad_norm": 0.7985770152082309,
      "learning_rate": 4.427654676919875e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8132706880569458,
      "num_tokens": 143095012.0,
      "step": 4684
    },
    {
      "epoch": 0.619217552207243,
      "grad_norm": 0.8615904755436972,
      "learning_rate": 4.425638356811365e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 143160548.0,
      "step": 4685
    },
    {
      "epoch": 0.619349722442506,
      "grad_norm": 0.8707455710373317,
      "learning_rate": 4.42362226541202e-06,
      "loss": 0.5848,
      "mean_token_accuracy": 0.8040227293968201,
      "num_tokens": 143226084.0,
      "step": 4686
    },
    {
      "epoch": 0.619481892677769,
      "grad_norm": 0.7771060415320437,
      "learning_rate": 4.421606403151022e-06,
      "loss": 0.5501,
      "mean_token_accuracy": 0.816429615020752,
      "num_tokens": 143291620.0,
      "step": 4687
    },
    {
      "epoch": 0.619614062913032,
      "grad_norm": 0.9183098298287047,
      "learning_rate": 4.419590770457504e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7944237589836121,
      "num_tokens": 143357156.0,
      "step": 4688
    },
    {
      "epoch": 0.619746233148295,
      "grad_norm": 0.9131933555972311,
      "learning_rate": 4.417575367760555e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8005585670471191,
      "num_tokens": 143422692.0,
      "step": 4689
    },
    {
      "epoch": 0.619878403383558,
      "grad_norm": 0.9245525881431137,
      "learning_rate": 4.41556019548921e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.7995971441268921,
      "num_tokens": 143488228.0,
      "step": 4690
    },
    {
      "epoch": 0.6200105736188211,
      "grad_norm": 0.9776274950405762,
      "learning_rate": 4.413545254072458e-06,
      "loss": 0.6248,
      "mean_token_accuracy": 0.7903797030448914,
      "num_tokens": 143553764.0,
      "step": 4691
    },
    {
      "epoch": 0.6201427438540841,
      "grad_norm": 0.8881439174674439,
      "learning_rate": 4.411530543939237e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.803335964679718,
      "num_tokens": 143619300.0,
      "step": 4692
    },
    {
      "epoch": 0.6202749140893471,
      "grad_norm": 0.8551324918680194,
      "learning_rate": 4.40951606551844e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.806708574295044,
      "num_tokens": 143684836.0,
      "step": 4693
    },
    {
      "epoch": 0.6204070843246101,
      "grad_norm": 0.8781096949877216,
      "learning_rate": 4.4075018192389045e-06,
      "loss": 0.5899,
      "mean_token_accuracy": 0.8044041991233826,
      "num_tokens": 143750372.0,
      "step": 4694
    },
    {
      "epoch": 0.6205392545598731,
      "grad_norm": 0.9024461600134324,
      "learning_rate": 4.405487805529418e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.7980862855911255,
      "num_tokens": 143815908.0,
      "step": 4695
    },
    {
      "epoch": 0.6206714247951362,
      "grad_norm": 0.8942509765431735,
      "learning_rate": 4.40347402481873e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.7967586517333984,
      "num_tokens": 143881444.0,
      "step": 4696
    },
    {
      "epoch": 0.6208035950303992,
      "grad_norm": 0.915467367773241,
      "learning_rate": 4.401460477535529e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.8118972182273865,
      "num_tokens": 143946980.0,
      "step": 4697
    },
    {
      "epoch": 0.6209357652656622,
      "grad_norm": 0.8614194439905921,
      "learning_rate": 4.3994471641084526e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.8086771965026855,
      "num_tokens": 144012516.0,
      "step": 4698
    },
    {
      "epoch": 0.6210679355009252,
      "grad_norm": 0.8506152504051844,
      "learning_rate": 4.397434084966099e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8119582533836365,
      "num_tokens": 144078052.0,
      "step": 4699
    },
    {
      "epoch": 0.6212001057361882,
      "grad_norm": 1.0069167317241736,
      "learning_rate": 4.39542124053701e-06,
      "loss": 0.6779,
      "mean_token_accuracy": 0.7758668065071106,
      "num_tokens": 144143588.0,
      "step": 4700
    },
    {
      "epoch": 0.6213322759714512,
      "grad_norm": 0.8417565793745787,
      "learning_rate": 4.393408631249674e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.8002380728721619,
      "num_tokens": 144209124.0,
      "step": 4701
    },
    {
      "epoch": 0.6214644462067143,
      "grad_norm": 0.8795393119151936,
      "learning_rate": 4.391396257532538e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.7969145774841309,
      "num_tokens": 144269545.0,
      "step": 4702
    },
    {
      "epoch": 0.6215966164419773,
      "grad_norm": 0.7901256695299089,
      "learning_rate": 4.389384119813996e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.802221953868866,
      "num_tokens": 144335081.0,
      "step": 4703
    },
    {
      "epoch": 0.6217287866772403,
      "grad_norm": 0.880597567566107,
      "learning_rate": 4.387372218522381e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.798696756362915,
      "num_tokens": 144400617.0,
      "step": 4704
    },
    {
      "epoch": 0.6218609569125033,
      "grad_norm": 0.9389958005559172,
      "learning_rate": 4.385360554085994e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8168874382972717,
      "num_tokens": 144466153.0,
      "step": 4705
    },
    {
      "epoch": 0.6219931271477663,
      "grad_norm": 0.9708973209274677,
      "learning_rate": 4.383349126933074e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.7819405198097229,
      "num_tokens": 144531689.0,
      "step": 4706
    },
    {
      "epoch": 0.6221252973830294,
      "grad_norm": 0.8457743955640508,
      "learning_rate": 4.381337937491808e-06,
      "loss": 0.5356,
      "mean_token_accuracy": 0.8208857178688049,
      "num_tokens": 144597225.0,
      "step": 4707
    },
    {
      "epoch": 0.6222574676182924,
      "grad_norm": 0.8276460867968112,
      "learning_rate": 4.379326986190342e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.7966976165771484,
      "num_tokens": 144662761.0,
      "step": 4708
    },
    {
      "epoch": 0.6223896378535554,
      "grad_norm": 0.8266665814258825,
      "learning_rate": 4.377316273456761e-06,
      "loss": 0.5822,
      "mean_token_accuracy": 0.8095165491104126,
      "num_tokens": 144728297.0,
      "step": 4709
    },
    {
      "epoch": 0.6225218080888184,
      "grad_norm": 0.8427926061162214,
      "learning_rate": 4.375305799719106e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 144793833.0,
      "step": 4710
    },
    {
      "epoch": 0.6226539783240814,
      "grad_norm": 0.8922802224897954,
      "learning_rate": 4.373295565405365e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8045721054077148,
      "num_tokens": 144859369.0,
      "step": 4711
    },
    {
      "epoch": 0.6227861485593444,
      "grad_norm": 0.830325871744666,
      "learning_rate": 4.3712855709434735e-06,
      "loss": 0.5242,
      "mean_token_accuracy": 0.8262879848480225,
      "num_tokens": 144924905.0,
      "step": 4712
    },
    {
      "epoch": 0.6229183187946075,
      "grad_norm": 0.8681044890204567,
      "learning_rate": 4.3692758167613185e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.7995055317878723,
      "num_tokens": 144990441.0,
      "step": 4713
    },
    {
      "epoch": 0.6230504890298705,
      "grad_norm": 0.9279732971402861,
      "learning_rate": 4.3672663032867325e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.799062967300415,
      "num_tokens": 145055977.0,
      "step": 4714
    },
    {
      "epoch": 0.6231826592651335,
      "grad_norm": 0.9123417409282283,
      "learning_rate": 4.365257030947502e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.798879861831665,
      "num_tokens": 145121513.0,
      "step": 4715
    },
    {
      "epoch": 0.6233148295003965,
      "grad_norm": 0.8584636116475127,
      "learning_rate": 4.363248000171359e-06,
      "loss": 0.5746,
      "mean_token_accuracy": 0.8115462064743042,
      "num_tokens": 145187049.0,
      "step": 4716
    },
    {
      "epoch": 0.6234469997356595,
      "grad_norm": 0.9634985168677465,
      "learning_rate": 4.36123921138598e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7834818959236145,
      "num_tokens": 145252585.0,
      "step": 4717
    },
    {
      "epoch": 0.6235791699709226,
      "grad_norm": 0.9047535599001658,
      "learning_rate": 4.359230665019e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.799001932144165,
      "num_tokens": 145318121.0,
      "step": 4718
    },
    {
      "epoch": 0.6237113402061856,
      "grad_norm": 0.8622086968372614,
      "learning_rate": 4.357222361497993e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8109052777290344,
      "num_tokens": 145383657.0,
      "step": 4719
    },
    {
      "epoch": 0.6238435104414486,
      "grad_norm": 0.8364929332752704,
      "learning_rate": 4.355214301250486e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.7956445813179016,
      "num_tokens": 145449193.0,
      "step": 4720
    },
    {
      "epoch": 0.6239756806767116,
      "grad_norm": 0.8800112370650232,
      "learning_rate": 4.3532064847039525e-06,
      "loss": 0.5832,
      "mean_token_accuracy": 0.8043736815452576,
      "num_tokens": 145514729.0,
      "step": 4721
    },
    {
      "epoch": 0.6241078509119746,
      "grad_norm": 0.8241116656781033,
      "learning_rate": 4.351198912285815e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.8192833662033081,
      "num_tokens": 145580265.0,
      "step": 4722
    },
    {
      "epoch": 0.6242400211472376,
      "grad_norm": 0.8812511063485869,
      "learning_rate": 4.349191584423443e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.7931418418884277,
      "num_tokens": 145645801.0,
      "step": 4723
    },
    {
      "epoch": 0.6243721913825007,
      "grad_norm": 0.816602363868981,
      "learning_rate": 4.347184501544159e-06,
      "loss": 0.542,
      "mean_token_accuracy": 0.8202295303344727,
      "num_tokens": 145711337.0,
      "step": 4724
    },
    {
      "epoch": 0.6245043616177637,
      "grad_norm": 0.8445657992678054,
      "learning_rate": 4.345177664075223e-06,
      "loss": 0.5587,
      "mean_token_accuracy": 0.8145067691802979,
      "num_tokens": 145776873.0,
      "step": 4725
    },
    {
      "epoch": 0.6246365318530267,
      "grad_norm": 0.806985393795572,
      "learning_rate": 4.343171072443852e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8214350938796997,
      "num_tokens": 145842409.0,
      "step": 4726
    },
    {
      "epoch": 0.6247687020882897,
      "grad_norm": 0.7678556551546073,
      "learning_rate": 4.341164727077206e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 145907945.0,
      "step": 4727
    },
    {
      "epoch": 0.6249008723235527,
      "grad_norm": 0.8716831950820124,
      "learning_rate": 4.339158628402394e-06,
      "loss": 0.5773,
      "mean_token_accuracy": 0.8091655373573303,
      "num_tokens": 145973481.0,
      "step": 4728
    },
    {
      "epoch": 0.6250330425588158,
      "grad_norm": 0.8075384751563434,
      "learning_rate": 4.337152776846476e-06,
      "loss": 0.528,
      "mean_token_accuracy": 0.8243193626403809,
      "num_tokens": 146039017.0,
      "step": 4729
    },
    {
      "epoch": 0.6251652127940788,
      "grad_norm": 0.8138184550717408,
      "learning_rate": 4.3351471728364525e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8090892434120178,
      "num_tokens": 146104553.0,
      "step": 4730
    },
    {
      "epoch": 0.6252973830293418,
      "grad_norm": 0.8513425116370146,
      "learning_rate": 4.333141816799276e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8032596707344055,
      "num_tokens": 146170089.0,
      "step": 4731
    },
    {
      "epoch": 0.6254295532646048,
      "grad_norm": 0.976698928505754,
      "learning_rate": 4.3311367091618426e-06,
      "loss": 0.6289,
      "mean_token_accuracy": 0.7899981737136841,
      "num_tokens": 146235625.0,
      "step": 4732
    },
    {
      "epoch": 0.6255617234998678,
      "grad_norm": 0.9171659481418084,
      "learning_rate": 4.329131850350999e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8146135807037354,
      "num_tokens": 146301161.0,
      "step": 4733
    },
    {
      "epoch": 0.6256938937351308,
      "grad_norm": 0.837696596575251,
      "learning_rate": 4.327127240793541e-06,
      "loss": 0.5678,
      "mean_token_accuracy": 0.812782347202301,
      "num_tokens": 146366697.0,
      "step": 4734
    },
    {
      "epoch": 0.6258260639703939,
      "grad_norm": 0.8020211902916298,
      "learning_rate": 4.325122880916206e-06,
      "loss": 0.5362,
      "mean_token_accuracy": 0.8230222463607788,
      "num_tokens": 146432233.0,
      "step": 4735
    },
    {
      "epoch": 0.6259582342056569,
      "grad_norm": 0.8657804857063617,
      "learning_rate": 4.323118771145677e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 146497769.0,
      "step": 4736
    },
    {
      "epoch": 0.6260904044409199,
      "grad_norm": 0.8286104168964823,
      "learning_rate": 4.321114911908592e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.8041905760765076,
      "num_tokens": 146563305.0,
      "step": 4737
    },
    {
      "epoch": 0.6262225746761829,
      "grad_norm": 0.9676552953117135,
      "learning_rate": 4.31911130363153e-06,
      "loss": 0.6225,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 146628841.0,
      "step": 4738
    },
    {
      "epoch": 0.6263547449114459,
      "grad_norm": 0.8085126532192716,
      "learning_rate": 4.3171079467410144e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8223965167999268,
      "num_tokens": 146694377.0,
      "step": 4739
    },
    {
      "epoch": 0.626486915146709,
      "grad_norm": 0.8941662167059061,
      "learning_rate": 4.31510484166352e-06,
      "loss": 0.5794,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 146759913.0,
      "step": 4740
    },
    {
      "epoch": 0.626619085381972,
      "grad_norm": 0.833181587434127,
      "learning_rate": 4.313101988825467e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.8019472360610962,
      "num_tokens": 146825449.0,
      "step": 4741
    },
    {
      "epoch": 0.626751255617235,
      "grad_norm": 0.9491458467445169,
      "learning_rate": 4.311099388653221e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7893267273902893,
      "num_tokens": 146890985.0,
      "step": 4742
    },
    {
      "epoch": 0.626883425852498,
      "grad_norm": 0.8907009156636942,
      "learning_rate": 4.3090970415730895e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.8006043434143066,
      "num_tokens": 146956521.0,
      "step": 4743
    },
    {
      "epoch": 0.627015596087761,
      "grad_norm": 0.8534072604880992,
      "learning_rate": 4.307094948011335e-06,
      "loss": 0.621,
      "mean_token_accuracy": 0.7957667112350464,
      "num_tokens": 147022057.0,
      "step": 4744
    },
    {
      "epoch": 0.627147766323024,
      "grad_norm": 0.8406851153870656,
      "learning_rate": 4.305093108394161e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.8016878366470337,
      "num_tokens": 147087593.0,
      "step": 4745
    },
    {
      "epoch": 0.6272799365582871,
      "grad_norm": 0.799506367120811,
      "learning_rate": 4.303091523147715e-06,
      "loss": 0.5854,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 147153129.0,
      "step": 4746
    },
    {
      "epoch": 0.6274121067935501,
      "grad_norm": 0.7863727520571749,
      "learning_rate": 4.301090192698094e-06,
      "loss": 0.5621,
      "mean_token_accuracy": 0.8129807114601135,
      "num_tokens": 147218665.0,
      "step": 4747
    },
    {
      "epoch": 0.6275442770288131,
      "grad_norm": 0.8090861915741046,
      "learning_rate": 4.299089117471341e-06,
      "loss": 0.567,
      "mean_token_accuracy": 0.811942994594574,
      "num_tokens": 147284201.0,
      "step": 4748
    },
    {
      "epoch": 0.6276764472640761,
      "grad_norm": 0.7900245427795113,
      "learning_rate": 4.297088297893441e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.816521167755127,
      "num_tokens": 147349737.0,
      "step": 4749
    },
    {
      "epoch": 0.6278086174993391,
      "grad_norm": 0.8191361735381022,
      "learning_rate": 4.2950877343903275e-06,
      "loss": 0.5516,
      "mean_token_accuracy": 0.8153156042098999,
      "num_tokens": 147415273.0,
      "step": 4750
    },
    {
      "epoch": 0.6279407877346022,
      "grad_norm": 0.8211037092046062,
      "learning_rate": 4.293087427387878e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 147480809.0,
      "step": 4751
    },
    {
      "epoch": 0.6280729579698652,
      "grad_norm": 0.8716013337316459,
      "learning_rate": 4.291087377311916e-06,
      "loss": 0.599,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 147546345.0,
      "step": 4752
    },
    {
      "epoch": 0.6282051282051282,
      "grad_norm": 0.8277942849318017,
      "learning_rate": 4.289087584588214e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8101269602775574,
      "num_tokens": 147611881.0,
      "step": 4753
    },
    {
      "epoch": 0.6283372984403912,
      "grad_norm": 0.854125461589121,
      "learning_rate": 4.2870880496424814e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8010469079017639,
      "num_tokens": 147677417.0,
      "step": 4754
    },
    {
      "epoch": 0.6284694686756542,
      "grad_norm": 0.867730803290388,
      "learning_rate": 4.28508877290038e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8003754019737244,
      "num_tokens": 147742953.0,
      "step": 4755
    },
    {
      "epoch": 0.6286016389109172,
      "grad_norm": 0.8667975378016485,
      "learning_rate": 4.283089754787511e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8075326681137085,
      "num_tokens": 147808489.0,
      "step": 4756
    },
    {
      "epoch": 0.6287338091461803,
      "grad_norm": 0.7966989613292065,
      "learning_rate": 4.2810909957294275e-06,
      "loss": 0.5839,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 147874025.0,
      "step": 4757
    },
    {
      "epoch": 0.6288659793814433,
      "grad_norm": 0.7703023669580598,
      "learning_rate": 4.279092496151623e-06,
      "loss": 0.5155,
      "mean_token_accuracy": 0.8266695141792297,
      "num_tokens": 147939561.0,
      "step": 4758
    },
    {
      "epoch": 0.6289981496167063,
      "grad_norm": 0.7892669906312875,
      "learning_rate": 4.277094256479533e-06,
      "loss": 0.5581,
      "mean_token_accuracy": 0.8141710162162781,
      "num_tokens": 148005097.0,
      "step": 4759
    },
    {
      "epoch": 0.6291303198519693,
      "grad_norm": 0.8770974050895329,
      "learning_rate": 4.275096277138545e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8123855590820312,
      "num_tokens": 148070633.0,
      "step": 4760
    },
    {
      "epoch": 0.6292624900872323,
      "grad_norm": 0.8144846216716939,
      "learning_rate": 4.2730985585539865e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8116225004196167,
      "num_tokens": 148136169.0,
      "step": 4761
    },
    {
      "epoch": 0.6293946603224954,
      "grad_norm": 0.8192340737449565,
      "learning_rate": 4.271101101151126e-06,
      "loss": 0.6064,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 148201705.0,
      "step": 4762
    },
    {
      "epoch": 0.6295268305577584,
      "grad_norm": 0.8132973452578413,
      "learning_rate": 4.269103905355185e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.806617021560669,
      "num_tokens": 148267241.0,
      "step": 4763
    },
    {
      "epoch": 0.6296590007930214,
      "grad_norm": 0.8553100359936023,
      "learning_rate": 4.267106971591325e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8026034832000732,
      "num_tokens": 148332777.0,
      "step": 4764
    },
    {
      "epoch": 0.6297911710282844,
      "grad_norm": 0.8653910273559422,
      "learning_rate": 4.265110300284647e-06,
      "loss": 0.5901,
      "mean_token_accuracy": 0.8035191297531128,
      "num_tokens": 148398313.0,
      "step": 4765
    },
    {
      "epoch": 0.6299233412635474,
      "grad_norm": 0.863161725504361,
      "learning_rate": 4.2631138918602056e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 148463849.0,
      "step": 4766
    },
    {
      "epoch": 0.6300555114988104,
      "grad_norm": 0.8729908238109169,
      "learning_rate": 4.2611177467429906e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7962855696678162,
      "num_tokens": 148529385.0,
      "step": 4767
    },
    {
      "epoch": 0.6301876817340735,
      "grad_norm": 0.7727167880066343,
      "learning_rate": 4.259121865357942e-06,
      "loss": 0.5323,
      "mean_token_accuracy": 0.822747528553009,
      "num_tokens": 148594921.0,
      "step": 4768
    },
    {
      "epoch": 0.6303198519693365,
      "grad_norm": 0.843348466845674,
      "learning_rate": 4.257126248129942e-06,
      "loss": 0.5181,
      "mean_token_accuracy": 0.8255860209465027,
      "num_tokens": 148660457.0,
      "step": 4769
    },
    {
      "epoch": 0.6304520222045995,
      "grad_norm": 0.8178877990848973,
      "learning_rate": 4.2551308954838134e-06,
      "loss": 0.5354,
      "mean_token_accuracy": 0.8226101994514465,
      "num_tokens": 148725993.0,
      "step": 4770
    },
    {
      "epoch": 0.6305841924398625,
      "grad_norm": 0.8171843182859857,
      "learning_rate": 4.253135807844327e-06,
      "loss": 0.6075,
      "mean_token_accuracy": 0.7983304858207703,
      "num_tokens": 148791529.0,
      "step": 4771
    },
    {
      "epoch": 0.6307163626751255,
      "grad_norm": 0.858879852730464,
      "learning_rate": 4.251140985636192e-06,
      "loss": 0.5968,
      "mean_token_accuracy": 0.8020541071891785,
      "num_tokens": 148857065.0,
      "step": 4772
    },
    {
      "epoch": 0.6308485329103886,
      "grad_norm": 0.8716165835943345,
      "learning_rate": 4.249146429284069e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7998107671737671,
      "num_tokens": 148922601.0,
      "step": 4773
    },
    {
      "epoch": 0.6309807031456516,
      "grad_norm": 0.8439039138515032,
      "learning_rate": 4.247152139212554e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.8041142821311951,
      "num_tokens": 148988137.0,
      "step": 4774
    },
    {
      "epoch": 0.6311128733809146,
      "grad_norm": 0.8754269804803504,
      "learning_rate": 4.24515811584619e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8007874488830566,
      "num_tokens": 149053673.0,
      "step": 4775
    },
    {
      "epoch": 0.6312450436161776,
      "grad_norm": 0.853117993876722,
      "learning_rate": 4.243164359609466e-06,
      "loss": 0.5965,
      "mean_token_accuracy": 0.8014588952064514,
      "num_tokens": 149119209.0,
      "step": 4776
    },
    {
      "epoch": 0.6313772138514406,
      "grad_norm": 0.8958727101770682,
      "learning_rate": 4.24117087092681e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 149184745.0,
      "step": 4777
    },
    {
      "epoch": 0.6315093840867037,
      "grad_norm": 0.8891418042167625,
      "learning_rate": 4.23917765022259e-06,
      "loss": 0.6378,
      "mean_token_accuracy": 0.7884415984153748,
      "num_tokens": 149250281.0,
      "step": 4778
    },
    {
      "epoch": 0.6316415543219667,
      "grad_norm": 0.8965321088737641,
      "learning_rate": 4.237184697921126e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.807578444480896,
      "num_tokens": 149315817.0,
      "step": 4779
    },
    {
      "epoch": 0.6317737245572297,
      "grad_norm": 0.838579528571683,
      "learning_rate": 4.235192014446674e-06,
      "loss": 0.5241,
      "mean_token_accuracy": 0.8275088667869568,
      "num_tokens": 149381353.0,
      "step": 4780
    },
    {
      "epoch": 0.6319058947924927,
      "grad_norm": 0.8081514745688869,
      "learning_rate": 4.233199600223434e-06,
      "loss": 0.5658,
      "mean_token_accuracy": 0.8137437701225281,
      "num_tokens": 149446889.0,
      "step": 4781
    },
    {
      "epoch": 0.6320380650277557,
      "grad_norm": 0.8402561586529913,
      "learning_rate": 4.231207455675551e-06,
      "loss": 0.5943,
      "mean_token_accuracy": 0.79878830909729,
      "num_tokens": 149512425.0,
      "step": 4782
    },
    {
      "epoch": 0.6321702352630187,
      "grad_norm": 0.8309056602785163,
      "learning_rate": 4.2292155812271105e-06,
      "loss": 0.5542,
      "mean_token_accuracy": 0.8196496367454529,
      "num_tokens": 149577961.0,
      "step": 4783
    },
    {
      "epoch": 0.6323024054982818,
      "grad_norm": 0.8699218696912983,
      "learning_rate": 4.227223977302141e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8047704696655273,
      "num_tokens": 149643497.0,
      "step": 4784
    },
    {
      "epoch": 0.6324345757335448,
      "grad_norm": 0.8596000132096309,
      "learning_rate": 4.225232644324612e-06,
      "loss": 0.558,
      "mean_token_accuracy": 0.8138353228569031,
      "num_tokens": 149709033.0,
      "step": 4785
    },
    {
      "epoch": 0.6325667459688078,
      "grad_norm": 0.9201852428667681,
      "learning_rate": 4.223241582718438e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7825204730033875,
      "num_tokens": 149774569.0,
      "step": 4786
    },
    {
      "epoch": 0.6326989162040708,
      "grad_norm": 0.9894131918542021,
      "learning_rate": 4.2212507929074755e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8029850125312805,
      "num_tokens": 149840105.0,
      "step": 4787
    },
    {
      "epoch": 0.6328310864393338,
      "grad_norm": 0.8565643208750174,
      "learning_rate": 4.2192602753155185e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 149905641.0,
      "step": 4788
    },
    {
      "epoch": 0.6329632566745969,
      "grad_norm": 0.8536514772539413,
      "learning_rate": 4.2172700303663114e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8044652938842773,
      "num_tokens": 149971177.0,
      "step": 4789
    },
    {
      "epoch": 0.6330954269098599,
      "grad_norm": 0.9097336137743022,
      "learning_rate": 4.2152800584835326e-06,
      "loss": 0.608,
      "mean_token_accuracy": 0.797796368598938,
      "num_tokens": 150036713.0,
      "step": 4790
    },
    {
      "epoch": 0.6332275971451229,
      "grad_norm": 0.8617749239330077,
      "learning_rate": 4.213290360090805e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 150102249.0,
      "step": 4791
    },
    {
      "epoch": 0.6333597673803859,
      "grad_norm": 0.8209022384274004,
      "learning_rate": 4.211300935611696e-06,
      "loss": 0.5521,
      "mean_token_accuracy": 0.8170400261878967,
      "num_tokens": 150167785.0,
      "step": 4792
    },
    {
      "epoch": 0.6334919376156489,
      "grad_norm": 0.9688862889814952,
      "learning_rate": 4.209311785469713e-06,
      "loss": 0.6449,
      "mean_token_accuracy": 0.7886399626731873,
      "num_tokens": 150233321.0,
      "step": 4793
    },
    {
      "epoch": 0.6336241078509119,
      "grad_norm": 0.8394985938928423,
      "learning_rate": 4.2073229100883005e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8016420602798462,
      "num_tokens": 150298857.0,
      "step": 4794
    },
    {
      "epoch": 0.633756278086175,
      "grad_norm": 0.7231815623275132,
      "learning_rate": 4.2053343098908525e-06,
      "loss": 0.4905,
      "mean_token_accuracy": 0.8382065892219543,
      "num_tokens": 150364393.0,
      "step": 4795
    },
    {
      "epoch": 0.633888448321438,
      "grad_norm": 0.8607687999489468,
      "learning_rate": 4.2033459853007e-06,
      "loss": 0.5785,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 150429929.0,
      "step": 4796
    },
    {
      "epoch": 0.634020618556701,
      "grad_norm": 0.7740210724740724,
      "learning_rate": 4.201357936741114e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.8189933896064758,
      "num_tokens": 150495465.0,
      "step": 4797
    },
    {
      "epoch": 0.634152788791964,
      "grad_norm": 0.8088234675729372,
      "learning_rate": 4.199370164635312e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.8208704590797424,
      "num_tokens": 150561001.0,
      "step": 4798
    },
    {
      "epoch": 0.634284959027227,
      "grad_norm": 0.8658882792866841,
      "learning_rate": 4.197382669406445e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.8083414435386658,
      "num_tokens": 150626537.0,
      "step": 4799
    },
    {
      "epoch": 0.63441712926249,
      "grad_norm": 0.8146333671885847,
      "learning_rate": 4.195395451477611e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 150692073.0,
      "step": 4800
    },
    {
      "epoch": 0.6345492994977531,
      "grad_norm": 0.8143096111313416,
      "learning_rate": 4.1934085112718455e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8077462911605835,
      "num_tokens": 150757609.0,
      "step": 4801
    },
    {
      "epoch": 0.6346814697330161,
      "grad_norm": 0.8433378885064928,
      "learning_rate": 4.191421849212132e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8145220279693604,
      "num_tokens": 150823145.0,
      "step": 4802
    },
    {
      "epoch": 0.6348136399682791,
      "grad_norm": 0.8397353623085935,
      "learning_rate": 4.1894354657213835e-06,
      "loss": 0.5504,
      "mean_token_accuracy": 0.8177573084831238,
      "num_tokens": 150888681.0,
      "step": 4803
    },
    {
      "epoch": 0.6349458102035421,
      "grad_norm": 0.8539889290554779,
      "learning_rate": 4.18744936122246e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.813087522983551,
      "num_tokens": 150954217.0,
      "step": 4804
    },
    {
      "epoch": 0.6350779804388051,
      "grad_norm": 0.9042238145748912,
      "learning_rate": 4.185463536138165e-06,
      "loss": 0.6109,
      "mean_token_accuracy": 0.8003143668174744,
      "num_tokens": 151019753.0,
      "step": 4805
    },
    {
      "epoch": 0.6352101506740682,
      "grad_norm": 0.8585102187988873,
      "learning_rate": 4.1834779908912394e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8013978600502014,
      "num_tokens": 151085289.0,
      "step": 4806
    },
    {
      "epoch": 0.6353423209093312,
      "grad_norm": 0.948124477827563,
      "learning_rate": 4.1814927259043604e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7995513081550598,
      "num_tokens": 151150825.0,
      "step": 4807
    },
    {
      "epoch": 0.6354744911445942,
      "grad_norm": 0.8335741211121231,
      "learning_rate": 4.179507741600153e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.7987730503082275,
      "num_tokens": 151216361.0,
      "step": 4808
    },
    {
      "epoch": 0.6356066613798572,
      "grad_norm": 0.8098247143466359,
      "learning_rate": 4.177523038401178e-06,
      "loss": 0.5503,
      "mean_token_accuracy": 0.8173757791519165,
      "num_tokens": 151281897.0,
      "step": 4809
    },
    {
      "epoch": 0.6357388316151202,
      "grad_norm": 0.831705705281307,
      "learning_rate": 4.175538616729933e-06,
      "loss": 0.5868,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 151347433.0,
      "step": 4810
    },
    {
      "epoch": 0.6358710018503833,
      "grad_norm": 0.8596708631025807,
      "learning_rate": 4.173554477008868e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 151412969.0,
      "step": 4811
    },
    {
      "epoch": 0.6360031720856463,
      "grad_norm": 0.8397878971801164,
      "learning_rate": 4.171570619660359e-06,
      "loss": 0.5636,
      "mean_token_accuracy": 0.8135453462600708,
      "num_tokens": 151478505.0,
      "step": 4812
    },
    {
      "epoch": 0.6361353423209093,
      "grad_norm": 0.8949668363707413,
      "learning_rate": 4.169587045106728e-06,
      "loss": 0.6053,
      "mean_token_accuracy": 0.7994902729988098,
      "num_tokens": 151544041.0,
      "step": 4813
    },
    {
      "epoch": 0.6362675125561723,
      "grad_norm": 0.7829569455704629,
      "learning_rate": 4.167603753770239e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 151609577.0,
      "step": 4814
    },
    {
      "epoch": 0.6363996827914353,
      "grad_norm": 0.8545231066840032,
      "learning_rate": 4.165620746073094e-06,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8082498908042908,
      "num_tokens": 151675113.0,
      "step": 4815
    },
    {
      "epoch": 0.6365318530266983,
      "grad_norm": 0.8479262877174739,
      "learning_rate": 4.163638022437432e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8007416725158691,
      "num_tokens": 151740649.0,
      "step": 4816
    },
    {
      "epoch": 0.6366640232619614,
      "grad_norm": 0.8930670252714619,
      "learning_rate": 4.161655583285332e-06,
      "loss": 0.6282,
      "mean_token_accuracy": 0.7919362783432007,
      "num_tokens": 151806185.0,
      "step": 4817
    },
    {
      "epoch": 0.6367961934972244,
      "grad_norm": 0.7998250984167609,
      "learning_rate": 4.159673429038816e-06,
      "loss": 0.5674,
      "mean_token_accuracy": 0.8135606050491333,
      "num_tokens": 151871721.0,
      "step": 4818
    },
    {
      "epoch": 0.6369283637324874,
      "grad_norm": 0.9061063186558513,
      "learning_rate": 4.157691560119845e-06,
      "loss": 0.6311,
      "mean_token_accuracy": 0.7915394902229309,
      "num_tokens": 151937257.0,
      "step": 4819
    },
    {
      "epoch": 0.6370605339677504,
      "grad_norm": 0.8771075371882611,
      "learning_rate": 4.155709976950313e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8027865886688232,
      "num_tokens": 152002793.0,
      "step": 4820
    },
    {
      "epoch": 0.6371927042030134,
      "grad_norm": 0.8295147026961726,
      "learning_rate": 4.153728679952062e-06,
      "loss": 0.5753,
      "mean_token_accuracy": 0.806769609451294,
      "num_tokens": 152068329.0,
      "step": 4821
    },
    {
      "epoch": 0.6373248744382765,
      "grad_norm": 0.8355889692058093,
      "learning_rate": 4.151747669546866e-06,
      "loss": 0.5555,
      "mean_token_accuracy": 0.8162922859191895,
      "num_tokens": 152133865.0,
      "step": 4822
    },
    {
      "epoch": 0.6374570446735395,
      "grad_norm": 0.7845994813087335,
      "learning_rate": 4.149766946156442e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.812156617641449,
      "num_tokens": 152199401.0,
      "step": 4823
    },
    {
      "epoch": 0.6375892149088025,
      "grad_norm": 0.8391347679217754,
      "learning_rate": 4.1477865102024425e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.812843382358551,
      "num_tokens": 152264937.0,
      "step": 4824
    },
    {
      "epoch": 0.6377213851440655,
      "grad_norm": 0.8370076679268412,
      "learning_rate": 4.145806362106466e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8054113984107971,
      "num_tokens": 152330473.0,
      "step": 4825
    },
    {
      "epoch": 0.6378535553793285,
      "grad_norm": 0.8770148261652588,
      "learning_rate": 4.143826502290039e-06,
      "loss": 0.6393,
      "mean_token_accuracy": 0.7906238436698914,
      "num_tokens": 152396009.0,
      "step": 4826
    },
    {
      "epoch": 0.6379857256145915,
      "grad_norm": 0.8181154455218829,
      "learning_rate": 4.141846931174637e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8124618530273438,
      "num_tokens": 152461545.0,
      "step": 4827
    },
    {
      "epoch": 0.6381178958498546,
      "grad_norm": 0.878079188727156,
      "learning_rate": 4.1398676491816655e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7866408228874207,
      "num_tokens": 152527081.0,
      "step": 4828
    },
    {
      "epoch": 0.6382500660851176,
      "grad_norm": 0.8533488483876467,
      "learning_rate": 4.137888656732474e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.8015505075454712,
      "num_tokens": 152592617.0,
      "step": 4829
    },
    {
      "epoch": 0.6383822363203806,
      "grad_norm": 0.8619840757588619,
      "learning_rate": 4.135909954248349e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.8022066950798035,
      "num_tokens": 152658153.0,
      "step": 4830
    },
    {
      "epoch": 0.6385144065556436,
      "grad_norm": 0.8843759630206006,
      "learning_rate": 4.133931542150516e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 152723689.0,
      "step": 4831
    },
    {
      "epoch": 0.6386465767909066,
      "grad_norm": 0.8485719072818441,
      "learning_rate": 4.1319534208601344e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8062354922294617,
      "num_tokens": 152789225.0,
      "step": 4832
    },
    {
      "epoch": 0.6387787470261697,
      "grad_norm": 0.867537079434261,
      "learning_rate": 4.1299755907983066e-06,
      "loss": 0.6221,
      "mean_token_accuracy": 0.7942711710929871,
      "num_tokens": 152854761.0,
      "step": 4833
    },
    {
      "epoch": 0.6389109172614327,
      "grad_norm": 0.8268245955780407,
      "learning_rate": 4.127998052386072e-06,
      "loss": 0.617,
      "mean_token_accuracy": 0.7953546643257141,
      "num_tokens": 152920297.0,
      "step": 4834
    },
    {
      "epoch": 0.6390430874966957,
      "grad_norm": 0.8832332371118565,
      "learning_rate": 4.126020806044408e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.7979031801223755,
      "num_tokens": 152985833.0,
      "step": 4835
    },
    {
      "epoch": 0.6391752577319587,
      "grad_norm": 0.851990069180944,
      "learning_rate": 4.124043852194225e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 153051369.0,
      "step": 4836
    },
    {
      "epoch": 0.6393074279672217,
      "grad_norm": 0.8677093401283291,
      "learning_rate": 4.122067191256379e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.811973512172699,
      "num_tokens": 153116905.0,
      "step": 4837
    },
    {
      "epoch": 0.6394395982024847,
      "grad_norm": 0.8490748196335701,
      "learning_rate": 4.12009082365166e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7930960655212402,
      "num_tokens": 153182441.0,
      "step": 4838
    },
    {
      "epoch": 0.6395717684377478,
      "grad_norm": 0.8598886132452179,
      "learning_rate": 4.118114749800792e-06,
      "loss": 0.5832,
      "mean_token_accuracy": 0.8071358799934387,
      "num_tokens": 153247977.0,
      "step": 4839
    },
    {
      "epoch": 0.6397039386730108,
      "grad_norm": 0.8415823185531551,
      "learning_rate": 4.116138970124444e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8110731244087219,
      "num_tokens": 153313513.0,
      "step": 4840
    },
    {
      "epoch": 0.6398361089082738,
      "grad_norm": 0.7919334938994584,
      "learning_rate": 4.114163485043218e-06,
      "loss": 0.6026,
      "mean_token_accuracy": 0.8025424480438232,
      "num_tokens": 153379049.0,
      "step": 4841
    },
    {
      "epoch": 0.6399682791435368,
      "grad_norm": 0.8027513369252101,
      "learning_rate": 4.112188294977648e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8087077140808105,
      "num_tokens": 153444585.0,
      "step": 4842
    },
    {
      "epoch": 0.6401004493787998,
      "grad_norm": 0.8223974221721431,
      "learning_rate": 4.1102134003482165e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 153510121.0,
      "step": 4843
    },
    {
      "epoch": 0.6402326196140629,
      "grad_norm": 0.841053341676517,
      "learning_rate": 4.108238801575336e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8016420602798462,
      "num_tokens": 153575657.0,
      "step": 4844
    },
    {
      "epoch": 0.6403647898493259,
      "grad_norm": 0.7810776217678779,
      "learning_rate": 4.106264499079357e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.8033817410469055,
      "num_tokens": 153641193.0,
      "step": 4845
    },
    {
      "epoch": 0.6404969600845889,
      "grad_norm": 0.8018235390058217,
      "learning_rate": 4.104290493280565e-06,
      "loss": 0.5416,
      "mean_token_accuracy": 0.8235716223716736,
      "num_tokens": 153706729.0,
      "step": 4846
    },
    {
      "epoch": 0.640629130319852,
      "grad_norm": 0.8001181833384132,
      "learning_rate": 4.102316784599188e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8144457340240479,
      "num_tokens": 153772265.0,
      "step": 4847
    },
    {
      "epoch": 0.640761300555115,
      "grad_norm": 0.8230969255581506,
      "learning_rate": 4.100343373455385e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8126907348632812,
      "num_tokens": 153837801.0,
      "step": 4848
    },
    {
      "epoch": 0.6408934707903781,
      "grad_norm": 0.8472976437621506,
      "learning_rate": 4.098370260269255e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8025882244110107,
      "num_tokens": 153903337.0,
      "step": 4849
    },
    {
      "epoch": 0.6410256410256411,
      "grad_norm": 0.813034020733219,
      "learning_rate": 4.0963974454608344e-06,
      "loss": 0.5905,
      "mean_token_accuracy": 0.8043126463890076,
      "num_tokens": 153968873.0,
      "step": 4850
    },
    {
      "epoch": 0.6411578112609041,
      "grad_norm": 0.841393717827924,
      "learning_rate": 4.094424929450092e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 154034409.0,
      "step": 4851
    },
    {
      "epoch": 0.6412899814961671,
      "grad_norm": 0.8712147285823801,
      "learning_rate": 4.092452712656935e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7870070934295654,
      "num_tokens": 154099945.0,
      "step": 4852
    },
    {
      "epoch": 0.6414221517314301,
      "grad_norm": 0.827657634942308,
      "learning_rate": 4.09048079550121e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8085856437683105,
      "num_tokens": 154165481.0,
      "step": 4853
    },
    {
      "epoch": 0.6415543219666932,
      "grad_norm": 0.8332020943948377,
      "learning_rate": 4.088509178402693e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.8100201487541199,
      "num_tokens": 154231017.0,
      "step": 4854
    },
    {
      "epoch": 0.6416864922019562,
      "grad_norm": 0.8619049582079314,
      "learning_rate": 4.086537861781101e-06,
      "loss": 0.6114,
      "mean_token_accuracy": 0.7987730503082275,
      "num_tokens": 154296553.0,
      "step": 4855
    },
    {
      "epoch": 0.6418186624372192,
      "grad_norm": 0.888669961673454,
      "learning_rate": 4.08456684605609e-06,
      "loss": 0.609,
      "mean_token_accuracy": 0.798696756362915,
      "num_tokens": 154362089.0,
      "step": 4856
    },
    {
      "epoch": 0.6419508326724822,
      "grad_norm": 0.8075442596597524,
      "learning_rate": 4.082596131647244e-06,
      "loss": 0.578,
      "mean_token_accuracy": 0.807669997215271,
      "num_tokens": 154427625.0,
      "step": 4857
    },
    {
      "epoch": 0.6420830029077452,
      "grad_norm": 0.8256600364980383,
      "learning_rate": 4.080625718974087e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8045568466186523,
      "num_tokens": 154493161.0,
      "step": 4858
    },
    {
      "epoch": 0.6422151731430082,
      "grad_norm": 0.8580961911989925,
      "learning_rate": 4.0786556084560835e-06,
      "loss": 0.6218,
      "mean_token_accuracy": 0.7950646877288818,
      "num_tokens": 154558697.0,
      "step": 4859
    },
    {
      "epoch": 0.6423473433782713,
      "grad_norm": 0.8401857540272143,
      "learning_rate": 4.076685800512623e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8078073263168335,
      "num_tokens": 154624233.0,
      "step": 4860
    },
    {
      "epoch": 0.6424795136135343,
      "grad_norm": 0.7896778173756221,
      "learning_rate": 4.07471629556304e-06,
      "loss": 0.5306,
      "mean_token_accuracy": 0.821664035320282,
      "num_tokens": 154689769.0,
      "step": 4861
    },
    {
      "epoch": 0.6426116838487973,
      "grad_norm": 0.8699531662676139,
      "learning_rate": 4.072747094026598e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.812034547328949,
      "num_tokens": 154755305.0,
      "step": 4862
    },
    {
      "epoch": 0.6427438540840603,
      "grad_norm": 0.7910815519299859,
      "learning_rate": 4.070778196322502e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.8056861162185669,
      "num_tokens": 154820841.0,
      "step": 4863
    },
    {
      "epoch": 0.6428760243193233,
      "grad_norm": 0.8090992056156427,
      "learning_rate": 4.068809602869889e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7975521683692932,
      "num_tokens": 154886377.0,
      "step": 4864
    },
    {
      "epoch": 0.6430081945545864,
      "grad_norm": 0.7949716217002372,
      "learning_rate": 4.066841314087829e-06,
      "loss": 0.5478,
      "mean_token_accuracy": 0.8178336024284363,
      "num_tokens": 154951913.0,
      "step": 4865
    },
    {
      "epoch": 0.6431403647898494,
      "grad_norm": 0.8136960147405441,
      "learning_rate": 4.0648733303953326e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.816277027130127,
      "num_tokens": 155017449.0,
      "step": 4866
    },
    {
      "epoch": 0.6432725350251124,
      "grad_norm": 0.7784657389186053,
      "learning_rate": 4.06290565221134e-06,
      "loss": 0.4988,
      "mean_token_accuracy": 0.8337962627410889,
      "num_tokens": 155082985.0,
      "step": 4867
    },
    {
      "epoch": 0.6434047052603754,
      "grad_norm": 0.8197744071722689,
      "learning_rate": 4.060938279954728e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 155148521.0,
      "step": 4868
    },
    {
      "epoch": 0.6435368754956384,
      "grad_norm": 0.817963317610075,
      "learning_rate": 4.058971214044314e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.818474531173706,
      "num_tokens": 155214057.0,
      "step": 4869
    },
    {
      "epoch": 0.6436690457309014,
      "grad_norm": 0.8756169410552519,
      "learning_rate": 4.057004454898841e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8098370432853699,
      "num_tokens": 155279593.0,
      "step": 4870
    },
    {
      "epoch": 0.6438012159661645,
      "grad_norm": 0.8528166409061811,
      "learning_rate": 4.055038002936988e-06,
      "loss": 0.6132,
      "mean_token_accuracy": 0.7964228987693787,
      "num_tokens": 155345129.0,
      "step": 4871
    },
    {
      "epoch": 0.6439333862014275,
      "grad_norm": 0.7625581191836102,
      "learning_rate": 4.0530718585773796e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8101422190666199,
      "num_tokens": 155410665.0,
      "step": 4872
    },
    {
      "epoch": 0.6440655564366905,
      "grad_norm": 0.9374729157136334,
      "learning_rate": 4.0511060222385635e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.7890520095825195,
      "num_tokens": 155476201.0,
      "step": 4873
    },
    {
      "epoch": 0.6441977266719535,
      "grad_norm": 0.8094088260036917,
      "learning_rate": 4.049140494339022e-06,
      "loss": 0.5318,
      "mean_token_accuracy": 0.8245025277137756,
      "num_tokens": 155541737.0,
      "step": 4874
    },
    {
      "epoch": 0.6443298969072165,
      "grad_norm": 0.7815954095351171,
      "learning_rate": 4.047175275297178e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.8144304752349854,
      "num_tokens": 155607273.0,
      "step": 4875
    },
    {
      "epoch": 0.6444620671424796,
      "grad_norm": 0.8690283210357143,
      "learning_rate": 4.045210365531387e-06,
      "loss": 0.5326,
      "mean_token_accuracy": 0.8136942386627197,
      "num_tokens": 155666839.0,
      "step": 4876
    },
    {
      "epoch": 0.6445942373777426,
      "grad_norm": 0.8207357599069702,
      "learning_rate": 4.043245765459934e-06,
      "loss": 0.5955,
      "mean_token_accuracy": 0.8045721054077148,
      "num_tokens": 155732375.0,
      "step": 4877
    },
    {
      "epoch": 0.6447264076130056,
      "grad_norm": 0.8652270583870654,
      "learning_rate": 4.0412814755010424e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 155797911.0,
      "step": 4878
    },
    {
      "epoch": 0.6448585778482686,
      "grad_norm": 0.8383045966519026,
      "learning_rate": 4.039317496072869e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.812995970249176,
      "num_tokens": 155863447.0,
      "step": 4879
    },
    {
      "epoch": 0.6449907480835316,
      "grad_norm": 0.8662969462341293,
      "learning_rate": 4.037353827593504e-06,
      "loss": 0.5932,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 155928983.0,
      "step": 4880
    },
    {
      "epoch": 0.6451229183187946,
      "grad_norm": 0.8022014399806274,
      "learning_rate": 4.03539047048097e-06,
      "loss": 0.5419,
      "mean_token_accuracy": 0.818199872970581,
      "num_tokens": 155994519.0,
      "step": 4881
    },
    {
      "epoch": 0.6452550885540577,
      "grad_norm": 0.7545171165123893,
      "learning_rate": 4.033427425153228e-06,
      "loss": 0.5172,
      "mean_token_accuracy": 0.8291875123977661,
      "num_tokens": 156060055.0,
      "step": 4882
    },
    {
      "epoch": 0.6453872587893207,
      "grad_norm": 0.884916193723701,
      "learning_rate": 4.031464692028168e-06,
      "loss": 0.5606,
      "mean_token_accuracy": 0.8142321109771729,
      "num_tokens": 156125591.0,
      "step": 4883
    },
    {
      "epoch": 0.6455194290245837,
      "grad_norm": 0.8154330273660816,
      "learning_rate": 4.029502271523611e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8191155195236206,
      "num_tokens": 156191127.0,
      "step": 4884
    },
    {
      "epoch": 0.6456515992598467,
      "grad_norm": 0.8736062907453133,
      "learning_rate": 4.027540164057321e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.7985135912895203,
      "num_tokens": 156256663.0,
      "step": 4885
    },
    {
      "epoch": 0.6457837694951097,
      "grad_norm": 0.7982015124753378,
      "learning_rate": 4.025578370046987e-06,
      "loss": 0.5649,
      "mean_token_accuracy": 0.8121718764305115,
      "num_tokens": 156322199.0,
      "step": 4886
    },
    {
      "epoch": 0.6459159397303728,
      "grad_norm": 0.8534145403910395,
      "learning_rate": 4.023616889910233e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7930045127868652,
      "num_tokens": 156387735.0,
      "step": 4887
    },
    {
      "epoch": 0.6460481099656358,
      "grad_norm": 0.8192609839363861,
      "learning_rate": 4.02165572406462e-06,
      "loss": 0.5191,
      "mean_token_accuracy": 0.8306220173835754,
      "num_tokens": 156453271.0,
      "step": 4888
    },
    {
      "epoch": 0.6461802802008988,
      "grad_norm": 0.9031634109885165,
      "learning_rate": 4.019694872927637e-06,
      "loss": 0.6043,
      "mean_token_accuracy": 0.8011537194252014,
      "num_tokens": 156518807.0,
      "step": 4889
    },
    {
      "epoch": 0.6463124504361618,
      "grad_norm": 0.8564498091820094,
      "learning_rate": 4.017734336916709e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 156584343.0,
      "step": 4890
    },
    {
      "epoch": 0.6464446206714248,
      "grad_norm": 0.8835405299617558,
      "learning_rate": 4.015774116449194e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8004211783409119,
      "num_tokens": 156649879.0,
      "step": 4891
    },
    {
      "epoch": 0.6465767909066878,
      "grad_norm": 0.8681178023338509,
      "learning_rate": 4.013814211942381e-06,
      "loss": 0.5436,
      "mean_token_accuracy": 0.8220760822296143,
      "num_tokens": 156715415.0,
      "step": 4892
    },
    {
      "epoch": 0.6467089611419509,
      "grad_norm": 0.8219734357379994,
      "learning_rate": 4.011854623813493e-06,
      "loss": 0.5644,
      "mean_token_accuracy": 0.8131332993507385,
      "num_tokens": 156780951.0,
      "step": 4893
    },
    {
      "epoch": 0.6468411313772139,
      "grad_norm": 0.818022806467171,
      "learning_rate": 4.009895352479684e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8222744464874268,
      "num_tokens": 156846487.0,
      "step": 4894
    },
    {
      "epoch": 0.6469733016124769,
      "grad_norm": 0.8105894635245635,
      "learning_rate": 4.0079363983580445e-06,
      "loss": 0.5414,
      "mean_token_accuracy": 0.8213740587234497,
      "num_tokens": 156912023.0,
      "step": 4895
    },
    {
      "epoch": 0.6471054718477399,
      "grad_norm": 0.8645606997655342,
      "learning_rate": 4.0059777618655935e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8042210936546326,
      "num_tokens": 156977559.0,
      "step": 4896
    },
    {
      "epoch": 0.6472376420830029,
      "grad_norm": 0.8750202849405168,
      "learning_rate": 4.0040194434192835e-06,
      "loss": 0.642,
      "mean_token_accuracy": 0.7884415984153748,
      "num_tokens": 157043095.0,
      "step": 4897
    },
    {
      "epoch": 0.647369812318266,
      "grad_norm": 0.8393464941672951,
      "learning_rate": 4.002061443436e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.7969722747802734,
      "num_tokens": 157108631.0,
      "step": 4898
    },
    {
      "epoch": 0.647501982553529,
      "grad_norm": 0.8097520536345765,
      "learning_rate": 4.000103762332564e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8151935338973999,
      "num_tokens": 157174167.0,
      "step": 4899
    },
    {
      "epoch": 0.647634152788792,
      "grad_norm": 0.8869676946949517,
      "learning_rate": 3.9981464005257166e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8002533316612244,
      "num_tokens": 157239703.0,
      "step": 4900
    },
    {
      "epoch": 0.647766323024055,
      "grad_norm": 0.859817224342072,
      "learning_rate": 3.9961893584321466e-06,
      "loss": 0.5585,
      "mean_token_accuracy": 0.8155597448348999,
      "num_tokens": 157305239.0,
      "step": 4901
    },
    {
      "epoch": 0.647898493259318,
      "grad_norm": 0.8105737935875921,
      "learning_rate": 3.994232636468464e-06,
      "loss": 0.5409,
      "mean_token_accuracy": 0.8214198350906372,
      "num_tokens": 157370775.0,
      "step": 4902
    },
    {
      "epoch": 0.648030663494581,
      "grad_norm": 0.8302746344486238,
      "learning_rate": 3.992276235051216e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.7995360493659973,
      "num_tokens": 157436311.0,
      "step": 4903
    },
    {
      "epoch": 0.6481628337298441,
      "grad_norm": 0.8644601115890106,
      "learning_rate": 3.9903201545968785e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.8006501197814941,
      "num_tokens": 157501847.0,
      "step": 4904
    },
    {
      "epoch": 0.6482950039651071,
      "grad_norm": 0.8850573701015051,
      "learning_rate": 3.988364395521859e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8097606897354126,
      "num_tokens": 157567383.0,
      "step": 4905
    },
    {
      "epoch": 0.6484271742003701,
      "grad_norm": 0.8247415801359983,
      "learning_rate": 3.986408958242501e-06,
      "loss": 0.5517,
      "mean_token_accuracy": 0.8207026124000549,
      "num_tokens": 157632919.0,
      "step": 4906
    },
    {
      "epoch": 0.6485593444356331,
      "grad_norm": 0.8635028992638605,
      "learning_rate": 3.984453843175072e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8070290684700012,
      "num_tokens": 157698455.0,
      "step": 4907
    },
    {
      "epoch": 0.6486915146708961,
      "grad_norm": 0.8279038623419221,
      "learning_rate": 3.982499050735779e-06,
      "loss": 0.5756,
      "mean_token_accuracy": 0.808814525604248,
      "num_tokens": 157763991.0,
      "step": 4908
    },
    {
      "epoch": 0.6488236849061592,
      "grad_norm": 0.7583070716259754,
      "learning_rate": 3.980544581340754e-06,
      "loss": 0.5632,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 157829527.0,
      "step": 4909
    },
    {
      "epoch": 0.6489558551414222,
      "grad_norm": 0.8720725426789018,
      "learning_rate": 3.978590435406063e-06,
      "loss": 0.647,
      "mean_token_accuracy": 0.7845043540000916,
      "num_tokens": 157895063.0,
      "step": 4910
    },
    {
      "epoch": 0.6490880253766852,
      "grad_norm": 0.8060652049613817,
      "learning_rate": 3.976636613347705e-06,
      "loss": 0.5813,
      "mean_token_accuracy": 0.8052435517311096,
      "num_tokens": 157960599.0,
      "step": 4911
    },
    {
      "epoch": 0.6492201956119482,
      "grad_norm": 0.8834762619189899,
      "learning_rate": 3.974683115581607e-06,
      "loss": 0.5916,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 158026135.0,
      "step": 4912
    },
    {
      "epoch": 0.6493523658472112,
      "grad_norm": 0.8842278541888299,
      "learning_rate": 3.972729942523625e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.7871291637420654,
      "num_tokens": 158091671.0,
      "step": 4913
    },
    {
      "epoch": 0.6494845360824743,
      "grad_norm": 0.8490199345077527,
      "learning_rate": 3.970777094589553e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8112714886665344,
      "num_tokens": 158157207.0,
      "step": 4914
    },
    {
      "epoch": 0.6496167063177373,
      "grad_norm": 0.8525856805536498,
      "learning_rate": 3.9688245721951104e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8137285113334656,
      "num_tokens": 158222743.0,
      "step": 4915
    },
    {
      "epoch": 0.6497488765530003,
      "grad_norm": 0.8227630937498718,
      "learning_rate": 3.966872375755944e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.812065064907074,
      "num_tokens": 158288279.0,
      "step": 4916
    },
    {
      "epoch": 0.6498810467882633,
      "grad_norm": 0.8629323851221361,
      "learning_rate": 3.9649205056876435e-06,
      "loss": 0.6381,
      "mean_token_accuracy": 0.7890520095825195,
      "num_tokens": 158353815.0,
      "step": 4917
    },
    {
      "epoch": 0.6500132170235263,
      "grad_norm": 0.7928259453734627,
      "learning_rate": 3.962968962405717e-06,
      "loss": 0.5463,
      "mean_token_accuracy": 0.821938693523407,
      "num_tokens": 158419351.0,
      "step": 4918
    },
    {
      "epoch": 0.6501453872587893,
      "grad_norm": 0.8299451084545723,
      "learning_rate": 3.961017746325604e-06,
      "loss": 0.5176,
      "mean_token_accuracy": 0.8278445601463318,
      "num_tokens": 158484887.0,
      "step": 4919
    },
    {
      "epoch": 0.6502775574940524,
      "grad_norm": 0.8411023089645803,
      "learning_rate": 3.959066857862685e-06,
      "loss": 0.5813,
      "mean_token_accuracy": 0.8062812685966492,
      "num_tokens": 158550423.0,
      "step": 4920
    },
    {
      "epoch": 0.6504097277293154,
      "grad_norm": 0.8567381457548826,
      "learning_rate": 3.957116297432258e-06,
      "loss": 0.5788,
      "mean_token_accuracy": 0.808631420135498,
      "num_tokens": 158615959.0,
      "step": 4921
    },
    {
      "epoch": 0.6505418979645784,
      "grad_norm": 0.7918701309750484,
      "learning_rate": 3.955166065449558e-06,
      "loss": 0.5064,
      "mean_token_accuracy": 0.8309882879257202,
      "num_tokens": 158681495.0,
      "step": 4922
    },
    {
      "epoch": 0.6506740681998414,
      "grad_norm": 0.8491799109313454,
      "learning_rate": 3.95321616232975e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8244872689247131,
      "num_tokens": 158747031.0,
      "step": 4923
    },
    {
      "epoch": 0.6508062384351044,
      "grad_norm": 0.7827496539264898,
      "learning_rate": 3.951266588487924e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.821847140789032,
      "num_tokens": 158812567.0,
      "step": 4924
    },
    {
      "epoch": 0.6509384086703675,
      "grad_norm": 0.8354483469088823,
      "learning_rate": 3.949317344339109e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8078989386558533,
      "num_tokens": 158878103.0,
      "step": 4925
    },
    {
      "epoch": 0.6510705789056305,
      "grad_norm": 0.831678803124961,
      "learning_rate": 3.947368430298253e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8092265725135803,
      "num_tokens": 158943639.0,
      "step": 4926
    },
    {
      "epoch": 0.6512027491408935,
      "grad_norm": 0.8328217272915814,
      "learning_rate": 3.945419846780243e-06,
      "loss": 0.5516,
      "mean_token_accuracy": 0.8145525455474854,
      "num_tokens": 159009175.0,
      "step": 4927
    },
    {
      "epoch": 0.6513349193761565,
      "grad_norm": 0.8762957784100526,
      "learning_rate": 3.94347159419989e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 159074711.0,
      "step": 4928
    },
    {
      "epoch": 0.6514670896114195,
      "grad_norm": 0.8223595634929183,
      "learning_rate": 3.941523672971936e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.8011842370033264,
      "num_tokens": 159140247.0,
      "step": 4929
    },
    {
      "epoch": 0.6515992598466825,
      "grad_norm": 0.8742396869725367,
      "learning_rate": 3.939576083511054e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.8009705543518066,
      "num_tokens": 159205783.0,
      "step": 4930
    },
    {
      "epoch": 0.6517314300819456,
      "grad_norm": 0.7569326842668825,
      "learning_rate": 3.937628826231845e-06,
      "loss": 0.5171,
      "mean_token_accuracy": 0.8303321003913879,
      "num_tokens": 159271319.0,
      "step": 4931
    },
    {
      "epoch": 0.6518636003172086,
      "grad_norm": 0.8145572104231095,
      "learning_rate": 3.935681901548838e-06,
      "loss": 0.5278,
      "mean_token_accuracy": 0.8235563635826111,
      "num_tokens": 159336855.0,
      "step": 4932
    },
    {
      "epoch": 0.6519957705524716,
      "grad_norm": 0.8854547224900117,
      "learning_rate": 3.933735309876494e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7917989492416382,
      "num_tokens": 159402391.0,
      "step": 4933
    },
    {
      "epoch": 0.6521279407877346,
      "grad_norm": 0.8274189095551144,
      "learning_rate": 3.931789051629203e-06,
      "loss": 0.5358,
      "mean_token_accuracy": 0.8230222463607788,
      "num_tokens": 159467927.0,
      "step": 4934
    },
    {
      "epoch": 0.6522601110229976,
      "grad_norm": 0.8344069688187277,
      "learning_rate": 3.929843127221277e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 159533463.0,
      "step": 4935
    },
    {
      "epoch": 0.6523922812582607,
      "grad_norm": 0.8573899764194367,
      "learning_rate": 3.927897537066969e-06,
      "loss": 0.5617,
      "mean_token_accuracy": 0.8138658404350281,
      "num_tokens": 159598999.0,
      "step": 4936
    },
    {
      "epoch": 0.6525244514935237,
      "grad_norm": 0.8230713458101084,
      "learning_rate": 3.925952281580453e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8051214814186096,
      "num_tokens": 159664535.0,
      "step": 4937
    },
    {
      "epoch": 0.6526566217287867,
      "grad_norm": 0.9149426999479284,
      "learning_rate": 3.924007361175832e-06,
      "loss": 0.6325,
      "mean_token_accuracy": 0.7904865145683289,
      "num_tokens": 159730071.0,
      "step": 4938
    },
    {
      "epoch": 0.6527887919640497,
      "grad_norm": 0.7575300916854785,
      "learning_rate": 3.922062776267138e-06,
      "loss": 0.5306,
      "mean_token_accuracy": 0.8241972923278809,
      "num_tokens": 159795607.0,
      "step": 4939
    },
    {
      "epoch": 0.6529209621993127,
      "grad_norm": 0.8100776897649318,
      "learning_rate": 3.920118527268337e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8056708574295044,
      "num_tokens": 159861143.0,
      "step": 4940
    },
    {
      "epoch": 0.6530531324345757,
      "grad_norm": 0.8204177580770237,
      "learning_rate": 3.918174614593314e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8155902624130249,
      "num_tokens": 159926679.0,
      "step": 4941
    },
    {
      "epoch": 0.6531853026698388,
      "grad_norm": 0.7755778051559157,
      "learning_rate": 3.916231038655889e-06,
      "loss": 0.5236,
      "mean_token_accuracy": 0.8244109153747559,
      "num_tokens": 159992215.0,
      "step": 4942
    },
    {
      "epoch": 0.6533174729051018,
      "grad_norm": 0.8042781270497726,
      "learning_rate": 3.91428779986981e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.802008330821991,
      "num_tokens": 160057751.0,
      "step": 4943
    },
    {
      "epoch": 0.6534496431403648,
      "grad_norm": 0.891992687381938,
      "learning_rate": 3.912344898648751e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.8029391765594482,
      "num_tokens": 160123287.0,
      "step": 4944
    },
    {
      "epoch": 0.6535818133756278,
      "grad_norm": 0.8116618768190778,
      "learning_rate": 3.9104023354063145e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8073800802230835,
      "num_tokens": 160188823.0,
      "step": 4945
    },
    {
      "epoch": 0.6537139836108908,
      "grad_norm": 0.8010638697166655,
      "learning_rate": 3.908460110556034e-06,
      "loss": 0.5586,
      "mean_token_accuracy": 0.816307544708252,
      "num_tokens": 160254359.0,
      "step": 4946
    },
    {
      "epoch": 0.6538461538461539,
      "grad_norm": 0.8533872618752971,
      "learning_rate": 3.9065182245113655e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8029544353485107,
      "num_tokens": 160319895.0,
      "step": 4947
    },
    {
      "epoch": 0.6539783240814169,
      "grad_norm": 0.914705622980637,
      "learning_rate": 3.904576677685698e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.7981778979301453,
      "num_tokens": 160385431.0,
      "step": 4948
    },
    {
      "epoch": 0.6541104943166799,
      "grad_norm": 0.9057617629059798,
      "learning_rate": 3.902635470492345e-06,
      "loss": 0.6022,
      "mean_token_accuracy": 0.7984678149223328,
      "num_tokens": 160450967.0,
      "step": 4949
    },
    {
      "epoch": 0.6542426645519429,
      "grad_norm": 0.7951749879307348,
      "learning_rate": 3.900694603344552e-06,
      "loss": 0.5469,
      "mean_token_accuracy": 0.8203973770141602,
      "num_tokens": 160516503.0,
      "step": 4950
    },
    {
      "epoch": 0.6543748347872059,
      "grad_norm": 0.8389772017624061,
      "learning_rate": 3.898754076655483e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8093028664588928,
      "num_tokens": 160582039.0,
      "step": 4951
    },
    {
      "epoch": 0.654507005022469,
      "grad_norm": 0.8075780323357188,
      "learning_rate": 3.896813890838242e-06,
      "loss": 0.5612,
      "mean_token_accuracy": 0.8150103688240051,
      "num_tokens": 160647575.0,
      "step": 4952
    },
    {
      "epoch": 0.654639175257732,
      "grad_norm": 0.82267788512695,
      "learning_rate": 3.894874046305853e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8124160766601562,
      "num_tokens": 160713111.0,
      "step": 4953
    },
    {
      "epoch": 0.654771345492995,
      "grad_norm": 0.903777355096979,
      "learning_rate": 3.8929345434712655e-06,
      "loss": 0.6143,
      "mean_token_accuracy": 0.7984220385551453,
      "num_tokens": 160778647.0,
      "step": 4954
    },
    {
      "epoch": 0.654903515728258,
      "grad_norm": 0.8585232247820991,
      "learning_rate": 3.890995382747359e-06,
      "loss": 0.605,
      "mean_token_accuracy": 0.7961634993553162,
      "num_tokens": 160844183.0,
      "step": 4955
    },
    {
      "epoch": 0.655035685963521,
      "grad_norm": 0.8257658870946202,
      "learning_rate": 3.889056564546944e-06,
      "loss": 0.6641,
      "mean_token_accuracy": 0.7834360599517822,
      "num_tokens": 160909719.0,
      "step": 4956
    },
    {
      "epoch": 0.655167856198784,
      "grad_norm": 0.8712346033041847,
      "learning_rate": 3.887118089282752e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 160975255.0,
      "step": 4957
    },
    {
      "epoch": 0.6553000264340471,
      "grad_norm": 0.8001997138725402,
      "learning_rate": 3.885179957367442e-06,
      "loss": 0.5327,
      "mean_token_accuracy": 0.8238157629966736,
      "num_tokens": 161040791.0,
      "step": 4958
    },
    {
      "epoch": 0.6554321966693101,
      "grad_norm": 0.8179044671484705,
      "learning_rate": 3.883242169213607e-06,
      "loss": 0.591,
      "mean_token_accuracy": 0.8058387041091919,
      "num_tokens": 161106327.0,
      "step": 4959
    },
    {
      "epoch": 0.6555643669045731,
      "grad_norm": 0.8797553280036379,
      "learning_rate": 3.881304725233758e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 161171863.0,
      "step": 4960
    },
    {
      "epoch": 0.6556965371398361,
      "grad_norm": 0.8032104478655445,
      "learning_rate": 3.879367625840336e-06,
      "loss": 0.578,
      "mean_token_accuracy": 0.8073037266731262,
      "num_tokens": 161237399.0,
      "step": 4961
    },
    {
      "epoch": 0.6558287073750991,
      "grad_norm": 0.8370591894700096,
      "learning_rate": 3.877430871445712e-06,
      "loss": 0.5633,
      "mean_token_accuracy": 0.8116072416305542,
      "num_tokens": 161302935.0,
      "step": 4962
    },
    {
      "epoch": 0.6559608776103621,
      "grad_norm": 0.8675926360405939,
      "learning_rate": 3.875494462462176e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7965602278709412,
      "num_tokens": 161368471.0,
      "step": 4963
    },
    {
      "epoch": 0.6560930478456252,
      "grad_norm": 0.7748972597227443,
      "learning_rate": 3.873558399301953e-06,
      "loss": 0.543,
      "mean_token_accuracy": 0.8204584121704102,
      "num_tokens": 161434007.0,
      "step": 4964
    },
    {
      "epoch": 0.6562252180808882,
      "grad_norm": 0.9343639460964237,
      "learning_rate": 3.871622682377191e-06,
      "loss": 0.6208,
      "mean_token_accuracy": 0.7981168627738953,
      "num_tokens": 161499543.0,
      "step": 4965
    },
    {
      "epoch": 0.6563573883161512,
      "grad_norm": 0.8708109440501017,
      "learning_rate": 3.86968731209996e-06,
      "loss": 0.6352,
      "mean_token_accuracy": 0.7881211042404175,
      "num_tokens": 161565079.0,
      "step": 4966
    },
    {
      "epoch": 0.6564895585514142,
      "grad_norm": 0.8256353027366791,
      "learning_rate": 3.867752288882263e-06,
      "loss": 0.636,
      "mean_token_accuracy": 0.7892961502075195,
      "num_tokens": 161630615.0,
      "step": 4967
    },
    {
      "epoch": 0.6566217287866772,
      "grad_norm": 0.8553540252470614,
      "learning_rate": 3.865817613136021e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 161696151.0,
      "step": 4968
    },
    {
      "epoch": 0.6567538990219403,
      "grad_norm": 0.8105615327973247,
      "learning_rate": 3.863883285273093e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7983915209770203,
      "num_tokens": 161761687.0,
      "step": 4969
    },
    {
      "epoch": 0.6568860692572033,
      "grad_norm": 0.8953650841076062,
      "learning_rate": 3.861949305705255e-06,
      "loss": 0.6716,
      "mean_token_accuracy": 0.7757447361946106,
      "num_tokens": 161827223.0,
      "step": 4970
    },
    {
      "epoch": 0.6570182394924663,
      "grad_norm": 0.832798393613056,
      "learning_rate": 3.8600156748442075e-06,
      "loss": 0.5407,
      "mean_token_accuracy": 0.8197259306907654,
      "num_tokens": 161892759.0,
      "step": 4971
    },
    {
      "epoch": 0.6571504097277293,
      "grad_norm": 0.8614213818922009,
      "learning_rate": 3.858082393101583e-06,
      "loss": 0.5881,
      "mean_token_accuracy": 0.8021456599235535,
      "num_tokens": 161958295.0,
      "step": 4972
    },
    {
      "epoch": 0.6572825799629923,
      "grad_norm": 0.7841079131298239,
      "learning_rate": 3.856149460888937e-06,
      "loss": 0.5431,
      "mean_token_accuracy": 0.8172537088394165,
      "num_tokens": 162023831.0,
      "step": 4973
    },
    {
      "epoch": 0.6574147501982553,
      "grad_norm": 0.8111325634805607,
      "learning_rate": 3.854216878617748e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8096386194229126,
      "num_tokens": 162089367.0,
      "step": 4974
    },
    {
      "epoch": 0.6575469204335184,
      "grad_norm": 0.8202808961430328,
      "learning_rate": 3.8522846466994255e-06,
      "loss": 0.543,
      "mean_token_accuracy": 0.8193291425704956,
      "num_tokens": 162154903.0,
      "step": 4975
    },
    {
      "epoch": 0.6576790906687814,
      "grad_norm": 0.9642206449149251,
      "learning_rate": 3.8503527655452996e-06,
      "loss": 0.6378,
      "mean_token_accuracy": 0.7879990339279175,
      "num_tokens": 162220439.0,
      "step": 4976
    },
    {
      "epoch": 0.6578112609040444,
      "grad_norm": 0.7443323845613552,
      "learning_rate": 3.848421235566627e-06,
      "loss": 0.504,
      "mean_token_accuracy": 0.8349713087081909,
      "num_tokens": 162285975.0,
      "step": 4977
    },
    {
      "epoch": 0.6579434311393074,
      "grad_norm": 0.8556553220331682,
      "learning_rate": 3.846490057174592e-06,
      "loss": 0.587,
      "mean_token_accuracy": 0.8059913516044617,
      "num_tokens": 162351511.0,
      "step": 4978
    },
    {
      "epoch": 0.6580756013745704,
      "grad_norm": 0.7839035557474808,
      "learning_rate": 3.844559230780301e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8062507510185242,
      "num_tokens": 162417047.0,
      "step": 4979
    },
    {
      "epoch": 0.6582077716098335,
      "grad_norm": 0.7556480252743042,
      "learning_rate": 3.842628756794786e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8115156888961792,
      "num_tokens": 162482583.0,
      "step": 4980
    },
    {
      "epoch": 0.6583399418450965,
      "grad_norm": 0.8621848527767011,
      "learning_rate": 3.840698635629006e-06,
      "loss": 0.595,
      "mean_token_accuracy": 0.8015352487564087,
      "num_tokens": 162548119.0,
      "step": 4981
    },
    {
      "epoch": 0.6584721120803595,
      "grad_norm": 0.8457967335713367,
      "learning_rate": 3.838768867693843e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7916310429573059,
      "num_tokens": 162613655.0,
      "step": 4982
    },
    {
      "epoch": 0.6586042823156225,
      "grad_norm": 0.8816555842781328,
      "learning_rate": 3.836839453400103e-06,
      "loss": 0.5654,
      "mean_token_accuracy": 0.8127976059913635,
      "num_tokens": 162679191.0,
      "step": 4983
    },
    {
      "epoch": 0.6587364525508855,
      "grad_norm": 0.8970295559497471,
      "learning_rate": 3.83491039315852e-06,
      "loss": 0.5844,
      "mean_token_accuracy": 0.8066017627716064,
      "num_tokens": 162744727.0,
      "step": 4984
    },
    {
      "epoch": 0.6588686227861486,
      "grad_norm": 0.839039709309914,
      "learning_rate": 3.832981687379749e-06,
      "loss": 0.5472,
      "mean_token_accuracy": 0.8181540966033936,
      "num_tokens": 162810263.0,
      "step": 4985
    },
    {
      "epoch": 0.6590007930214116,
      "grad_norm": 0.7754031688503507,
      "learning_rate": 3.831053336474373e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8185813426971436,
      "num_tokens": 162875799.0,
      "step": 4986
    },
    {
      "epoch": 0.6591329632566746,
      "grad_norm": 0.8755965043428734,
      "learning_rate": 3.829125340852894e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.7999328374862671,
      "num_tokens": 162941335.0,
      "step": 4987
    },
    {
      "epoch": 0.6592651334919376,
      "grad_norm": 0.9219707552483789,
      "learning_rate": 3.827197700925747e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8059608340263367,
      "num_tokens": 163006871.0,
      "step": 4988
    },
    {
      "epoch": 0.6593973037272006,
      "grad_norm": 0.8760131132177404,
      "learning_rate": 3.825270417103283e-06,
      "loss": 0.5599,
      "mean_token_accuracy": 0.8138658404350281,
      "num_tokens": 163072407.0,
      "step": 4989
    },
    {
      "epoch": 0.6595294739624636,
      "grad_norm": 0.7958720719608428,
      "learning_rate": 3.82334348979578e-06,
      "loss": 0.5586,
      "mean_token_accuracy": 0.8133164644241333,
      "num_tokens": 163137943.0,
      "step": 4990
    },
    {
      "epoch": 0.6596616441977267,
      "grad_norm": 0.820409627994777,
      "learning_rate": 3.821416919413444e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 163203479.0,
      "step": 4991
    },
    {
      "epoch": 0.6597938144329897,
      "grad_norm": 0.8327913398675447,
      "learning_rate": 3.8194907063664e-06,
      "loss": 0.5565,
      "mean_token_accuracy": 0.8136826753616333,
      "num_tokens": 163269015.0,
      "step": 4992
    },
    {
      "epoch": 0.6599259846682527,
      "grad_norm": 0.8452543533864727,
      "learning_rate": 3.817564851064696e-06,
      "loss": 0.5594,
      "mean_token_accuracy": 0.816277027130127,
      "num_tokens": 163334551.0,
      "step": 4993
    },
    {
      "epoch": 0.6600581549035157,
      "grad_norm": 0.8509282064904714,
      "learning_rate": 3.81563935391831e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8094860315322876,
      "num_tokens": 163400087.0,
      "step": 4994
    },
    {
      "epoch": 0.6601903251387787,
      "grad_norm": 0.8721438450816411,
      "learning_rate": 3.8137142153371386e-06,
      "loss": 0.534,
      "mean_token_accuracy": 0.822778046131134,
      "num_tokens": 163465623.0,
      "step": 4995
    },
    {
      "epoch": 0.6603224953740418,
      "grad_norm": 0.9520739669371887,
      "learning_rate": 3.8117894357310025e-06,
      "loss": 0.6283,
      "mean_token_accuracy": 0.7904559969902039,
      "num_tokens": 163531159.0,
      "step": 4996
    },
    {
      "epoch": 0.6604546656093048,
      "grad_norm": 0.8948117096548935,
      "learning_rate": 3.8098650155096483e-06,
      "loss": 0.5782,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 163596695.0,
      "step": 4997
    },
    {
      "epoch": 0.6605868358445678,
      "grad_norm": 0.818649569609967,
      "learning_rate": 3.8079409550827462e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8115462064743042,
      "num_tokens": 163662231.0,
      "step": 4998
    },
    {
      "epoch": 0.6607190060798308,
      "grad_norm": 0.8130888257269367,
      "learning_rate": 3.8060172548598873e-06,
      "loss": 0.5692,
      "mean_token_accuracy": 0.8119277358055115,
      "num_tokens": 163727767.0,
      "step": 4999
    },
    {
      "epoch": 0.6608511763150938,
      "grad_norm": 0.8495567261967699,
      "learning_rate": 3.8040939152505864e-06,
      "loss": 0.6341,
      "mean_token_accuracy": 0.7884110808372498,
      "num_tokens": 163793303.0,
      "step": 5000
    },
    {
      "epoch": 0.6609833465503568,
      "grad_norm": 0.8351094415824869,
      "learning_rate": 3.8021709366642824e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8169332146644592,
      "num_tokens": 163858839.0,
      "step": 5001
    },
    {
      "epoch": 0.6611155167856199,
      "grad_norm": 0.8671164487258679,
      "learning_rate": 3.800248319510338e-06,
      "loss": 0.5577,
      "mean_token_accuracy": 0.8144457340240479,
      "num_tokens": 163924375.0,
      "step": 5002
    },
    {
      "epoch": 0.6612476870208829,
      "grad_norm": 0.9273861160795973,
      "learning_rate": 3.798326064198038e-06,
      "loss": 0.5577,
      "mean_token_accuracy": 0.812843382358551,
      "num_tokens": 163989911.0,
      "step": 5003
    },
    {
      "epoch": 0.6613798572561459,
      "grad_norm": 0.94456837079981,
      "learning_rate": 3.796404171136592e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 164055447.0,
      "step": 5004
    },
    {
      "epoch": 0.6615120274914089,
      "grad_norm": 0.9336614624224515,
      "learning_rate": 3.794482640735129e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.7997649908065796,
      "num_tokens": 164120983.0,
      "step": 5005
    },
    {
      "epoch": 0.6616441977266719,
      "grad_norm": 0.8625727955275193,
      "learning_rate": 3.7925614734027004e-06,
      "loss": 0.6037,
      "mean_token_accuracy": 0.7981168627738953,
      "num_tokens": 164186519.0,
      "step": 5006
    },
    {
      "epoch": 0.661776367961935,
      "grad_norm": 0.7707212704369252,
      "learning_rate": 3.7906406695482876e-06,
      "loss": 0.5119,
      "mean_token_accuracy": 0.8286381363868713,
      "num_tokens": 164252055.0,
      "step": 5007
    },
    {
      "epoch": 0.661908538197198,
      "grad_norm": 1.0299111156984784,
      "learning_rate": 3.788720229580788e-06,
      "loss": 0.605,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 164317591.0,
      "step": 5008
    },
    {
      "epoch": 0.662040708432461,
      "grad_norm": 0.9919698415950008,
      "learning_rate": 3.7868001539090204e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7893725037574768,
      "num_tokens": 164383127.0,
      "step": 5009
    },
    {
      "epoch": 0.662172878667724,
      "grad_norm": 0.9013610613598915,
      "learning_rate": 3.784880442941734e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8046331405639648,
      "num_tokens": 164448663.0,
      "step": 5010
    },
    {
      "epoch": 0.662305048902987,
      "grad_norm": 0.8574150900060457,
      "learning_rate": 3.7829610970875907e-06,
      "loss": 0.5162,
      "mean_token_accuracy": 0.8289891481399536,
      "num_tokens": 164514199.0,
      "step": 5011
    },
    {
      "epoch": 0.66243721913825,
      "grad_norm": 0.872813891422083,
      "learning_rate": 3.7810421167551805e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 164579735.0,
      "step": 5012
    },
    {
      "epoch": 0.6625693893735131,
      "grad_norm": 0.8652825606356284,
      "learning_rate": 3.7791235023530136e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 164645271.0,
      "step": 5013
    },
    {
      "epoch": 0.6627015596087761,
      "grad_norm": 0.8646036463272312,
      "learning_rate": 3.7772052542895254e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.8124771118164062,
      "num_tokens": 164710807.0,
      "step": 5014
    },
    {
      "epoch": 0.6628337298440391,
      "grad_norm": 0.9750946981878397,
      "learning_rate": 3.775287372973069e-06,
      "loss": 0.6577,
      "mean_token_accuracy": 0.7793614864349365,
      "num_tokens": 164776343.0,
      "step": 5015
    },
    {
      "epoch": 0.6629659000793021,
      "grad_norm": 0.9257759605925797,
      "learning_rate": 3.7733698588119182e-06,
      "loss": 0.6392,
      "mean_token_accuracy": 0.7874496579170227,
      "num_tokens": 164841879.0,
      "step": 5016
    },
    {
      "epoch": 0.6630980703145651,
      "grad_norm": 0.8747308532715742,
      "learning_rate": 3.7714527122142784e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.803366482257843,
      "num_tokens": 164907415.0,
      "step": 5017
    },
    {
      "epoch": 0.6632302405498282,
      "grad_norm": 0.8399308337422321,
      "learning_rate": 3.7695359335882664e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.792500913143158,
      "num_tokens": 164972951.0,
      "step": 5018
    },
    {
      "epoch": 0.6633624107850912,
      "grad_norm": 0.7743145332925642,
      "learning_rate": 3.7676195233419243e-06,
      "loss": 0.5481,
      "mean_token_accuracy": 0.817207932472229,
      "num_tokens": 165038487.0,
      "step": 5019
    },
    {
      "epoch": 0.6634945810203542,
      "grad_norm": 0.8625532510952753,
      "learning_rate": 3.765703481883215e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8029391765594482,
      "num_tokens": 165104023.0,
      "step": 5020
    },
    {
      "epoch": 0.6636267512556172,
      "grad_norm": 0.876922612017035,
      "learning_rate": 3.7637878096200277e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.8011689782142639,
      "num_tokens": 165169559.0,
      "step": 5021
    },
    {
      "epoch": 0.6637589214908802,
      "grad_norm": 0.8650923930856216,
      "learning_rate": 3.7618725069601634e-06,
      "loss": 0.6139,
      "mean_token_accuracy": 0.7951868176460266,
      "num_tokens": 165235095.0,
      "step": 5022
    },
    {
      "epoch": 0.6638910917261432,
      "grad_norm": 0.7969632768134779,
      "learning_rate": 3.759957574311355e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.816338062286377,
      "num_tokens": 165300631.0,
      "step": 5023
    },
    {
      "epoch": 0.6640232619614063,
      "grad_norm": 0.8901209012346769,
      "learning_rate": 3.7580430120812483e-06,
      "loss": 0.6001,
      "mean_token_accuracy": 0.8002533316612244,
      "num_tokens": 165366167.0,
      "step": 5024
    },
    {
      "epoch": 0.6641554321966693,
      "grad_norm": 0.8189646870164605,
      "learning_rate": 3.7561288206774136e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8125076293945312,
      "num_tokens": 165431703.0,
      "step": 5025
    },
    {
      "epoch": 0.6642876024319323,
      "grad_norm": 0.8704745235832411,
      "learning_rate": 3.7542150005073462e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.79872727394104,
      "num_tokens": 165497239.0,
      "step": 5026
    },
    {
      "epoch": 0.6644197726671953,
      "grad_norm": 0.7898333188169798,
      "learning_rate": 3.7523015519784555e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8223812580108643,
      "num_tokens": 165562775.0,
      "step": 5027
    },
    {
      "epoch": 0.6645519429024583,
      "grad_norm": 0.968460626359598,
      "learning_rate": 3.7503884754980748e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7869307994842529,
      "num_tokens": 165628311.0,
      "step": 5028
    },
    {
      "epoch": 0.6646841131377214,
      "grad_norm": 0.8668995717636637,
      "learning_rate": 3.7484757714734563e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 165693847.0,
      "step": 5029
    },
    {
      "epoch": 0.6648162833729844,
      "grad_norm": 0.8409270068518331,
      "learning_rate": 3.746563440311779e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8070443272590637,
      "num_tokens": 165759383.0,
      "step": 5030
    },
    {
      "epoch": 0.6649484536082474,
      "grad_norm": 0.8056950860469473,
      "learning_rate": 3.7446514824201363e-06,
      "loss": 0.5366,
      "mean_token_accuracy": 0.8220760822296143,
      "num_tokens": 165824919.0,
      "step": 5031
    },
    {
      "epoch": 0.6650806238435104,
      "grad_norm": 0.8642970167913898,
      "learning_rate": 3.7427398982055417e-06,
      "loss": 0.6275,
      "mean_token_accuracy": 0.7922720313072205,
      "num_tokens": 165890455.0,
      "step": 5032
    },
    {
      "epoch": 0.6652127940787734,
      "grad_norm": 0.8287685660268708,
      "learning_rate": 3.7408286880749354e-06,
      "loss": 0.5433,
      "mean_token_accuracy": 0.817482590675354,
      "num_tokens": 165955991.0,
      "step": 5033
    },
    {
      "epoch": 0.6653449643140364,
      "grad_norm": 0.8151866739315845,
      "learning_rate": 3.7389178524351745e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.8082651495933533,
      "num_tokens": 166021527.0,
      "step": 5034
    },
    {
      "epoch": 0.6654771345492995,
      "grad_norm": 0.7785183874931286,
      "learning_rate": 3.7370073916930307e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8111951947212219,
      "num_tokens": 166087063.0,
      "step": 5035
    },
    {
      "epoch": 0.6656093047845625,
      "grad_norm": 0.8963917755847187,
      "learning_rate": 3.7350973062552053e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.8080210089683533,
      "num_tokens": 166152599.0,
      "step": 5036
    },
    {
      "epoch": 0.6657414750198255,
      "grad_norm": 0.8754298968366429,
      "learning_rate": 3.733187596528317e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.808722972869873,
      "num_tokens": 166218135.0,
      "step": 5037
    },
    {
      "epoch": 0.6658736452550885,
      "grad_norm": 0.750408887017762,
      "learning_rate": 3.7312782629188993e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.8102795481681824,
      "num_tokens": 166283671.0,
      "step": 5038
    },
    {
      "epoch": 0.6660058154903515,
      "grad_norm": 0.8622569620555028,
      "learning_rate": 3.7293693058334103e-06,
      "loss": 0.6484,
      "mean_token_accuracy": 0.7873122692108154,
      "num_tokens": 166349207.0,
      "step": 5039
    },
    {
      "epoch": 0.6661379857256146,
      "grad_norm": 0.7778227618314544,
      "learning_rate": 3.7274607256782303e-06,
      "loss": 0.5524,
      "mean_token_accuracy": 0.8177725672721863,
      "num_tokens": 166414743.0,
      "step": 5040
    },
    {
      "epoch": 0.6662701559608776,
      "grad_norm": 0.8273723371134382,
      "learning_rate": 3.7255525228596524e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 166480279.0,
      "step": 5041
    },
    {
      "epoch": 0.6664023261961406,
      "grad_norm": 0.8813518220751297,
      "learning_rate": 3.7236446977838947e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8034427762031555,
      "num_tokens": 166545815.0,
      "step": 5042
    },
    {
      "epoch": 0.6665344964314036,
      "grad_norm": 0.8560327555657503,
      "learning_rate": 3.7217372508570937e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7963466048240662,
      "num_tokens": 166611351.0,
      "step": 5043
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.8307853585909124,
      "learning_rate": 3.7198301824853045e-06,
      "loss": 0.596,
      "mean_token_accuracy": 0.8042516112327576,
      "num_tokens": 166676887.0,
      "step": 5044
    },
    {
      "epoch": 0.6667988369019296,
      "grad_norm": 0.8305452233344572,
      "learning_rate": 3.717923493074501e-06,
      "loss": 0.5493,
      "mean_token_accuracy": 0.8188408017158508,
      "num_tokens": 166742423.0,
      "step": 5045
    },
    {
      "epoch": 0.6669310071371927,
      "grad_norm": 0.8048809290585754,
      "learning_rate": 3.7160171830305803e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.808356761932373,
      "num_tokens": 166807959.0,
      "step": 5046
    },
    {
      "epoch": 0.6670631773724557,
      "grad_norm": 0.8507762781959782,
      "learning_rate": 3.7141112527593548e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8179098963737488,
      "num_tokens": 166873495.0,
      "step": 5047
    },
    {
      "epoch": 0.6671953476077187,
      "grad_norm": 0.7949298713317772,
      "learning_rate": 3.7122057026665547e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.8139116168022156,
      "num_tokens": 166939031.0,
      "step": 5048
    },
    {
      "epoch": 0.6673275178429817,
      "grad_norm": 0.8024969192234909,
      "learning_rate": 3.7103005331578357e-06,
      "loss": 0.5119,
      "mean_token_accuracy": 0.8310493230819702,
      "num_tokens": 167004567.0,
      "step": 5049
    },
    {
      "epoch": 0.6674596880782447,
      "grad_norm": 0.7649686175409838,
      "learning_rate": 3.7083957446387663e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 167070103.0,
      "step": 5050
    },
    {
      "epoch": 0.6675918583135078,
      "grad_norm": 0.8564524351862851,
      "learning_rate": 3.7064913375148358e-06,
      "loss": 0.5686,
      "mean_token_accuracy": 0.8133469820022583,
      "num_tokens": 167135639.0,
      "step": 5051
    },
    {
      "epoch": 0.6677240285487708,
      "grad_norm": 0.8073044301245379,
      "learning_rate": 3.7045873121914568e-06,
      "loss": 0.6015,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 167201175.0,
      "step": 5052
    },
    {
      "epoch": 0.6678561987840338,
      "grad_norm": 0.8009777238531911,
      "learning_rate": 3.702683669073952e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 167266711.0,
      "step": 5053
    },
    {
      "epoch": 0.6679883690192968,
      "grad_norm": 0.794257025200546,
      "learning_rate": 3.700780408567567e-06,
      "loss": 0.5184,
      "mean_token_accuracy": 0.8267152905464172,
      "num_tokens": 167332247.0,
      "step": 5054
    },
    {
      "epoch": 0.6681205392545598,
      "grad_norm": 0.8778259391722767,
      "learning_rate": 3.6988775310774707e-06,
      "loss": 0.653,
      "mean_token_accuracy": 0.7840770483016968,
      "num_tokens": 167397783.0,
      "step": 5055
    },
    {
      "epoch": 0.6682527094898228,
      "grad_norm": 0.9261750521554167,
      "learning_rate": 3.696975037008742e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8121413588523865,
      "num_tokens": 167463319.0,
      "step": 5056
    },
    {
      "epoch": 0.6683848797250859,
      "grad_norm": 0.8281998807859576,
      "learning_rate": 3.6950729267663834e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8011079430580139,
      "num_tokens": 167528855.0,
      "step": 5057
    },
    {
      "epoch": 0.6685170499603489,
      "grad_norm": 0.8067769319578225,
      "learning_rate": 3.6931712007553143e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 167594391.0,
      "step": 5058
    },
    {
      "epoch": 0.6686492201956119,
      "grad_norm": 0.8289341066574213,
      "learning_rate": 3.6912698593803743e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8112257122993469,
      "num_tokens": 167659927.0,
      "step": 5059
    },
    {
      "epoch": 0.6687813904308749,
      "grad_norm": 0.8412704407848246,
      "learning_rate": 3.6893689030463163e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8027255535125732,
      "num_tokens": 167725463.0,
      "step": 5060
    },
    {
      "epoch": 0.6689135606661379,
      "grad_norm": 0.8625128755902325,
      "learning_rate": 3.687468332157815e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7973690629005432,
      "num_tokens": 167790999.0,
      "step": 5061
    },
    {
      "epoch": 0.669045730901401,
      "grad_norm": 0.7927136935119842,
      "learning_rate": 3.6855681471194648e-06,
      "loss": 0.5451,
      "mean_token_accuracy": 0.8199395537376404,
      "num_tokens": 167856535.0,
      "step": 5062
    },
    {
      "epoch": 0.669177901136664,
      "grad_norm": 0.7879867524608914,
      "learning_rate": 3.6836683483357714e-06,
      "loss": 0.5544,
      "mean_token_accuracy": 0.8177573084831238,
      "num_tokens": 167922071.0,
      "step": 5063
    },
    {
      "epoch": 0.669310071371927,
      "grad_norm": 0.8144093106102667,
      "learning_rate": 3.6817689362111653e-06,
      "loss": 0.5777,
      "mean_token_accuracy": 0.8084025382995605,
      "num_tokens": 167987607.0,
      "step": 5064
    },
    {
      "epoch": 0.66944224160719,
      "grad_norm": 0.7964260694372173,
      "learning_rate": 3.6798699111499912e-06,
      "loss": 0.5979,
      "mean_token_accuracy": 0.7996429204940796,
      "num_tokens": 168053143.0,
      "step": 5065
    },
    {
      "epoch": 0.669574411842453,
      "grad_norm": 0.7852901330539018,
      "learning_rate": 3.677971273556512e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8070138096809387,
      "num_tokens": 168118679.0,
      "step": 5066
    },
    {
      "epoch": 0.669706582077716,
      "grad_norm": 0.821636843523618,
      "learning_rate": 3.676073023834905e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.8094097375869751,
      "num_tokens": 168184215.0,
      "step": 5067
    },
    {
      "epoch": 0.6698387523129791,
      "grad_norm": 0.8248866017506038,
      "learning_rate": 3.674175162389273e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 168249751.0,
      "step": 5068
    },
    {
      "epoch": 0.6699709225482421,
      "grad_norm": 0.8786646798810924,
      "learning_rate": 3.6722776896236266e-06,
      "loss": 0.6112,
      "mean_token_accuracy": 0.7980557680130005,
      "num_tokens": 168315287.0,
      "step": 5069
    },
    {
      "epoch": 0.6701030927835051,
      "grad_norm": 0.8118508757710355,
      "learning_rate": 3.6703806059419e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 168380823.0,
      "step": 5070
    },
    {
      "epoch": 0.6702352630187681,
      "grad_norm": 0.8962250103224734,
      "learning_rate": 3.6684839117479444e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.7967433929443359,
      "num_tokens": 168446359.0,
      "step": 5071
    },
    {
      "epoch": 0.6703674332540311,
      "grad_norm": 0.8004795805865534,
      "learning_rate": 3.666587607445523e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8093792200088501,
      "num_tokens": 168511895.0,
      "step": 5072
    },
    {
      "epoch": 0.6704996034892942,
      "grad_norm": 0.8409522233578767,
      "learning_rate": 3.6646916934383227e-06,
      "loss": 0.5837,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 168577431.0,
      "step": 5073
    },
    {
      "epoch": 0.6706317737245572,
      "grad_norm": 0.8315391239804136,
      "learning_rate": 3.6627961701299397e-06,
      "loss": 0.5475,
      "mean_token_accuracy": 0.8178488612174988,
      "num_tokens": 168642967.0,
      "step": 5074
    },
    {
      "epoch": 0.6707639439598202,
      "grad_norm": 0.809127971923302,
      "learning_rate": 3.6609010379238963e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.8000091314315796,
      "num_tokens": 168708503.0,
      "step": 5075
    },
    {
      "epoch": 0.6708961141950832,
      "grad_norm": 0.7886082160674938,
      "learning_rate": 3.659006297223625e-06,
      "loss": 0.5424,
      "mean_token_accuracy": 0.8207026124000549,
      "num_tokens": 168774039.0,
      "step": 5076
    },
    {
      "epoch": 0.6710282844303462,
      "grad_norm": 0.7904001164204738,
      "learning_rate": 3.6571119484324737e-06,
      "loss": 0.5414,
      "mean_token_accuracy": 0.8174062967300415,
      "num_tokens": 168839575.0,
      "step": 5077
    },
    {
      "epoch": 0.6711604546656093,
      "grad_norm": 0.7483149563885213,
      "learning_rate": 3.6552179919537124e-06,
      "loss": 0.5323,
      "mean_token_accuracy": 0.8221065998077393,
      "num_tokens": 168905111.0,
      "step": 5078
    },
    {
      "epoch": 0.6712926249008723,
      "grad_norm": 0.8158221003981955,
      "learning_rate": 3.6533244281905256e-06,
      "loss": 0.5347,
      "mean_token_accuracy": 0.82621169090271,
      "num_tokens": 168970647.0,
      "step": 5079
    },
    {
      "epoch": 0.6714247951361353,
      "grad_norm": 0.9312985507461801,
      "learning_rate": 3.651431257546011e-06,
      "loss": 0.6537,
      "mean_token_accuracy": 0.783802330493927,
      "num_tokens": 169036183.0,
      "step": 5080
    },
    {
      "epoch": 0.6715569653713983,
      "grad_norm": 0.8745642637947537,
      "learning_rate": 3.649538480423187e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8055945634841919,
      "num_tokens": 169101719.0,
      "step": 5081
    },
    {
      "epoch": 0.6716891356066613,
      "grad_norm": 0.792045863717396,
      "learning_rate": 3.647646097224985e-06,
      "loss": 0.5344,
      "mean_token_accuracy": 0.8232511281967163,
      "num_tokens": 169167255.0,
      "step": 5082
    },
    {
      "epoch": 0.6718213058419243,
      "grad_norm": 0.7940358841095847,
      "learning_rate": 3.6457541083542536e-06,
      "loss": 0.4968,
      "mean_token_accuracy": 0.8340556621551514,
      "num_tokens": 169232791.0,
      "step": 5083
    },
    {
      "epoch": 0.6719534760771875,
      "grad_norm": 0.8801432488430612,
      "learning_rate": 3.6438625142137608e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8137590289115906,
      "num_tokens": 169298327.0,
      "step": 5084
    },
    {
      "epoch": 0.6720856463124505,
      "grad_norm": 0.8363011279682196,
      "learning_rate": 3.6419713152061854e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8042210936546326,
      "num_tokens": 169363863.0,
      "step": 5085
    },
    {
      "epoch": 0.6722178165477135,
      "grad_norm": 0.8912046969009146,
      "learning_rate": 3.6400805117341207e-06,
      "loss": 0.6548,
      "mean_token_accuracy": 0.783924400806427,
      "num_tokens": 169429399.0,
      "step": 5086
    },
    {
      "epoch": 0.6723499867829765,
      "grad_norm": 0.7925620739596253,
      "learning_rate": 3.638190104200087e-06,
      "loss": 0.5868,
      "mean_token_accuracy": 0.802008330821991,
      "num_tokens": 169494935.0,
      "step": 5087
    },
    {
      "epoch": 0.6724821570182395,
      "grad_norm": 0.862670464602778,
      "learning_rate": 3.636300093006506e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 169560471.0,
      "step": 5088
    },
    {
      "epoch": 0.6726143272535026,
      "grad_norm": 0.8691156639262799,
      "learning_rate": 3.6344104785557256e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.7997497320175171,
      "num_tokens": 169626007.0,
      "step": 5089
    },
    {
      "epoch": 0.6727464974887656,
      "grad_norm": 0.796188313780028,
      "learning_rate": 3.6325212612500004e-06,
      "loss": 0.5688,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 169691543.0,
      "step": 5090
    },
    {
      "epoch": 0.6728786677240286,
      "grad_norm": 0.8189888035343836,
      "learning_rate": 3.630632441491512e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8097149133682251,
      "num_tokens": 169757079.0,
      "step": 5091
    },
    {
      "epoch": 0.6730108379592916,
      "grad_norm": 0.8372614994997248,
      "learning_rate": 3.6287440196823467e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8162312507629395,
      "num_tokens": 169822615.0,
      "step": 5092
    },
    {
      "epoch": 0.6731430081945546,
      "grad_norm": 0.8306720113879278,
      "learning_rate": 3.6268559962245086e-06,
      "loss": 0.572,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 169888151.0,
      "step": 5093
    },
    {
      "epoch": 0.6732751784298177,
      "grad_norm": 0.8524152471246548,
      "learning_rate": 3.6249683715199213e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.7999328374862671,
      "num_tokens": 169953687.0,
      "step": 5094
    },
    {
      "epoch": 0.6734073486650807,
      "grad_norm": 0.8741948798026821,
      "learning_rate": 3.6230811459704217e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 170019223.0,
      "step": 5095
    },
    {
      "epoch": 0.6735395189003437,
      "grad_norm": 0.8113660270226255,
      "learning_rate": 3.6211943199777555e-06,
      "loss": 0.5758,
      "mean_token_accuracy": 0.8097454309463501,
      "num_tokens": 170084759.0,
      "step": 5096
    },
    {
      "epoch": 0.6736716891356067,
      "grad_norm": 0.738702333716414,
      "learning_rate": 3.6193078939435955e-06,
      "loss": 0.5176,
      "mean_token_accuracy": 0.8266847729682922,
      "num_tokens": 170150295.0,
      "step": 5097
    },
    {
      "epoch": 0.6738038593708697,
      "grad_norm": 0.8709728623480243,
      "learning_rate": 3.617421868269516e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7844127416610718,
      "num_tokens": 170215831.0,
      "step": 5098
    },
    {
      "epoch": 0.6739360296061327,
      "grad_norm": 0.8106243775219025,
      "learning_rate": 3.615536243357016e-06,
      "loss": 0.6074,
      "mean_token_accuracy": 0.7973843216896057,
      "num_tokens": 170281367.0,
      "step": 5099
    },
    {
      "epoch": 0.6740681998413958,
      "grad_norm": 0.8031793783565678,
      "learning_rate": 3.6136510196075057e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8135606050491333,
      "num_tokens": 170346903.0,
      "step": 5100
    },
    {
      "epoch": 0.6742003700766588,
      "grad_norm": 0.8489510127983717,
      "learning_rate": 3.6117661974223107e-06,
      "loss": 0.6041,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 170412439.0,
      "step": 5101
    },
    {
      "epoch": 0.6743325403119218,
      "grad_norm": 0.8330532567371717,
      "learning_rate": 3.609881777202665e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.8142778873443604,
      "num_tokens": 170477975.0,
      "step": 5102
    },
    {
      "epoch": 0.6744647105471848,
      "grad_norm": 0.9408645001734066,
      "learning_rate": 3.6079977593497294e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.7973538041114807,
      "num_tokens": 170543511.0,
      "step": 5103
    },
    {
      "epoch": 0.6745968807824478,
      "grad_norm": 0.8613165053809936,
      "learning_rate": 3.6061141442645662e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.7989256381988525,
      "num_tokens": 170609047.0,
      "step": 5104
    },
    {
      "epoch": 0.6747290510177109,
      "grad_norm": 0.7884570353831277,
      "learning_rate": 3.6042309323481637e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8077157735824585,
      "num_tokens": 170674583.0,
      "step": 5105
    },
    {
      "epoch": 0.6748612212529739,
      "grad_norm": 0.83679213537192,
      "learning_rate": 3.60234812400141e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8067543506622314,
      "num_tokens": 170740119.0,
      "step": 5106
    },
    {
      "epoch": 0.6749933914882369,
      "grad_norm": 0.8773875111332975,
      "learning_rate": 3.6004657196251246e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8046331405639648,
      "num_tokens": 170805655.0,
      "step": 5107
    },
    {
      "epoch": 0.6751255617234999,
      "grad_norm": 0.7751478201250503,
      "learning_rate": 3.598583719620027e-06,
      "loss": 0.5515,
      "mean_token_accuracy": 0.8178183436393738,
      "num_tokens": 170871191.0,
      "step": 5108
    },
    {
      "epoch": 0.6752577319587629,
      "grad_norm": 0.849225636071374,
      "learning_rate": 3.596702124386756e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8025424480438232,
      "num_tokens": 170936727.0,
      "step": 5109
    },
    {
      "epoch": 0.675389902194026,
      "grad_norm": 0.9094207274431237,
      "learning_rate": 3.5948209343258665e-06,
      "loss": 0.5675,
      "mean_token_accuracy": 0.8108442425727844,
      "num_tokens": 171002263.0,
      "step": 5110
    },
    {
      "epoch": 0.675522072429289,
      "grad_norm": 0.8310127123576205,
      "learning_rate": 3.5929401498378212e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8069985508918762,
      "num_tokens": 171067799.0,
      "step": 5111
    },
    {
      "epoch": 0.675654242664552,
      "grad_norm": 0.855258204261132,
      "learning_rate": 3.591059771323002e-06,
      "loss": 0.572,
      "mean_token_accuracy": 0.8090129494667053,
      "num_tokens": 171133335.0,
      "step": 5112
    },
    {
      "epoch": 0.675786412899815,
      "grad_norm": 0.8055423928083232,
      "learning_rate": 3.5891797991817012e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8033207058906555,
      "num_tokens": 171198871.0,
      "step": 5113
    },
    {
      "epoch": 0.675918583135078,
      "grad_norm": 0.8216179050217444,
      "learning_rate": 3.5873002338141272e-06,
      "loss": 0.5483,
      "mean_token_accuracy": 0.8207026124000549,
      "num_tokens": 171264407.0,
      "step": 5114
    },
    {
      "epoch": 0.676050753370341,
      "grad_norm": 0.9256971675292467,
      "learning_rate": 3.5854210756203965e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8039005994796753,
      "num_tokens": 171329943.0,
      "step": 5115
    },
    {
      "epoch": 0.6761829236056041,
      "grad_norm": 0.7635387010427479,
      "learning_rate": 3.5835423250005486e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8207636475563049,
      "num_tokens": 171395479.0,
      "step": 5116
    },
    {
      "epoch": 0.6763150938408671,
      "grad_norm": 0.7562146824835658,
      "learning_rate": 3.581663982354525e-06,
      "loss": 0.502,
      "mean_token_accuracy": 0.8333384394645691,
      "num_tokens": 171461015.0,
      "step": 5117
    },
    {
      "epoch": 0.6764472640761301,
      "grad_norm": 0.8130715829818601,
      "learning_rate": 3.5797860480821887e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.7985746264457703,
      "num_tokens": 171526551.0,
      "step": 5118
    },
    {
      "epoch": 0.6765794343113931,
      "grad_norm": 0.8273698386038113,
      "learning_rate": 3.57790852258331e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8080210089683533,
      "num_tokens": 171592087.0,
      "step": 5119
    },
    {
      "epoch": 0.6767116045466561,
      "grad_norm": 0.8533918427433395,
      "learning_rate": 3.5760314062575776e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7993834614753723,
      "num_tokens": 171657623.0,
      "step": 5120
    },
    {
      "epoch": 0.6768437747819191,
      "grad_norm": 0.9008972460370794,
      "learning_rate": 3.5741546995045895e-06,
      "loss": 0.6258,
      "mean_token_accuracy": 0.7929129600524902,
      "num_tokens": 171723159.0,
      "step": 5121
    },
    {
      "epoch": 0.6769759450171822,
      "grad_norm": 0.8205529969124657,
      "learning_rate": 3.5722784027238564e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 171788695.0,
      "step": 5122
    },
    {
      "epoch": 0.6771081152524452,
      "grad_norm": 0.8678053307007905,
      "learning_rate": 3.5704025163148027e-06,
      "loss": 0.5536,
      "mean_token_accuracy": 0.8180472254753113,
      "num_tokens": 171854231.0,
      "step": 5123
    },
    {
      "epoch": 0.6772402854877082,
      "grad_norm": 0.8004632931467279,
      "learning_rate": 3.568527040676768e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8099743723869324,
      "num_tokens": 171919767.0,
      "step": 5124
    },
    {
      "epoch": 0.6773724557229712,
      "grad_norm": 0.833411889455058,
      "learning_rate": 3.566651976208998e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8028628826141357,
      "num_tokens": 171985303.0,
      "step": 5125
    },
    {
      "epoch": 0.6775046259582342,
      "grad_norm": 0.7880493262802999,
      "learning_rate": 3.564777323310659e-06,
      "loss": 0.556,
      "mean_token_accuracy": 0.8153918981552124,
      "num_tokens": 172050839.0,
      "step": 5126
    },
    {
      "epoch": 0.6776367961934973,
      "grad_norm": 0.7161599125573913,
      "learning_rate": 3.562903082380822e-06,
      "loss": 0.4544,
      "mean_token_accuracy": 0.8497588634490967,
      "num_tokens": 172116375.0,
      "step": 5127
    },
    {
      "epoch": 0.6777689664287603,
      "grad_norm": 0.7791029837489275,
      "learning_rate": 3.5610292538184752e-06,
      "loss": 0.5549,
      "mean_token_accuracy": 0.8155292272567749,
      "num_tokens": 172181911.0,
      "step": 5128
    },
    {
      "epoch": 0.6779011366640233,
      "grad_norm": 0.8476927985035551,
      "learning_rate": 3.559155838022519e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8082804083824158,
      "num_tokens": 172247447.0,
      "step": 5129
    },
    {
      "epoch": 0.6780333068992863,
      "grad_norm": 0.8400065555926849,
      "learning_rate": 3.557282835391761e-06,
      "loss": 0.5816,
      "mean_token_accuracy": 0.8070595860481262,
      "num_tokens": 172312983.0,
      "step": 5130
    },
    {
      "epoch": 0.6781654771345493,
      "grad_norm": 0.7932837813705365,
      "learning_rate": 3.5554102463249273e-06,
      "loss": 0.5864,
      "mean_token_accuracy": 0.8026492595672607,
      "num_tokens": 172378519.0,
      "step": 5131
    },
    {
      "epoch": 0.6782976473698124,
      "grad_norm": 0.7636403108523012,
      "learning_rate": 3.5535380712206513e-06,
      "loss": 0.5536,
      "mean_token_accuracy": 0.8163533210754395,
      "num_tokens": 172444055.0,
      "step": 5132
    },
    {
      "epoch": 0.6784298176050754,
      "grad_norm": 0.8511765987341285,
      "learning_rate": 3.551666310477483e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 172509591.0,
      "step": 5133
    },
    {
      "epoch": 0.6785619878403384,
      "grad_norm": 0.7678982026880762,
      "learning_rate": 3.5497949644938768e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8152393102645874,
      "num_tokens": 172575127.0,
      "step": 5134
    },
    {
      "epoch": 0.6786941580756014,
      "grad_norm": 0.8232840427786446,
      "learning_rate": 3.5479240336682054e-06,
      "loss": 0.5669,
      "mean_token_accuracy": 0.8112104535102844,
      "num_tokens": 172640663.0,
      "step": 5135
    },
    {
      "epoch": 0.6788263283108644,
      "grad_norm": 0.9049121163930456,
      "learning_rate": 3.546053518398751e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8155902624130249,
      "num_tokens": 172706199.0,
      "step": 5136
    },
    {
      "epoch": 0.6789584985461274,
      "grad_norm": 0.7659504106698806,
      "learning_rate": 3.544183419083709e-06,
      "loss": 0.5385,
      "mean_token_accuracy": 0.8208399415016174,
      "num_tokens": 172771735.0,
      "step": 5137
    },
    {
      "epoch": 0.6790906687813905,
      "grad_norm": 0.9229280656563668,
      "learning_rate": 3.542313736121178e-06,
      "loss": 0.658,
      "mean_token_accuracy": 0.7835429310798645,
      "num_tokens": 172837271.0,
      "step": 5138
    },
    {
      "epoch": 0.6792228390166535,
      "grad_norm": 0.8545418128235046,
      "learning_rate": 3.5404444699091834e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8141557574272156,
      "num_tokens": 172902807.0,
      "step": 5139
    },
    {
      "epoch": 0.6793550092519165,
      "grad_norm": 0.835988732133873,
      "learning_rate": 3.5385756208456467e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 172968343.0,
      "step": 5140
    },
    {
      "epoch": 0.6794871794871795,
      "grad_norm": 0.8941888465507006,
      "learning_rate": 3.536707189328408e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 173033879.0,
      "step": 5141
    },
    {
      "epoch": 0.6796193497224425,
      "grad_norm": 0.8455028502453955,
      "learning_rate": 3.534839175755218e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8032291531562805,
      "num_tokens": 173099415.0,
      "step": 5142
    },
    {
      "epoch": 0.6797515199577056,
      "grad_norm": 0.8492436447119529,
      "learning_rate": 3.532971580523741e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8039769530296326,
      "num_tokens": 173164951.0,
      "step": 5143
    },
    {
      "epoch": 0.6798836901929686,
      "grad_norm": 0.8491351324039025,
      "learning_rate": 3.5311044040315425e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7963313460350037,
      "num_tokens": 173230487.0,
      "step": 5144
    },
    {
      "epoch": 0.6800158604282316,
      "grad_norm": 0.7836071469756016,
      "learning_rate": 3.5292376466761114e-06,
      "loss": 0.5579,
      "mean_token_accuracy": 0.8129807114601135,
      "num_tokens": 173296023.0,
      "step": 5145
    },
    {
      "epoch": 0.6801480306634946,
      "grad_norm": 0.8209603755308007,
      "learning_rate": 3.5273713088548367e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 173361559.0,
      "step": 5146
    },
    {
      "epoch": 0.6802802008987576,
      "grad_norm": 0.8750463946276656,
      "learning_rate": 3.525505390965025e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.7983915209770203,
      "num_tokens": 173427095.0,
      "step": 5147
    },
    {
      "epoch": 0.6804123711340206,
      "grad_norm": 0.850668020072863,
      "learning_rate": 3.523639893403894e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 173492631.0,
      "step": 5148
    },
    {
      "epoch": 0.6805445413692837,
      "grad_norm": 0.8612779418651118,
      "learning_rate": 3.521774816568563e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.8039158582687378,
      "num_tokens": 173558167.0,
      "step": 5149
    },
    {
      "epoch": 0.6806767116045467,
      "grad_norm": 0.903205498732406,
      "learning_rate": 3.5199101608560716e-06,
      "loss": 0.6293,
      "mean_token_accuracy": 0.7910206317901611,
      "num_tokens": 173623703.0,
      "step": 5150
    },
    {
      "epoch": 0.6808088818398097,
      "grad_norm": 0.8641900558876596,
      "learning_rate": 3.518045926663366e-06,
      "loss": 0.586,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 173689239.0,
      "step": 5151
    },
    {
      "epoch": 0.6809410520750727,
      "grad_norm": 0.8118268959160745,
      "learning_rate": 3.516182114387304e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.812004029750824,
      "num_tokens": 173754775.0,
      "step": 5152
    },
    {
      "epoch": 0.6810732223103357,
      "grad_norm": 0.7380897309756093,
      "learning_rate": 3.514318724424649e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8259522914886475,
      "num_tokens": 173820311.0,
      "step": 5153
    },
    {
      "epoch": 0.6812053925455988,
      "grad_norm": 0.8855178080719539,
      "learning_rate": 3.5124557571720796e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8052130341529846,
      "num_tokens": 173885847.0,
      "step": 5154
    },
    {
      "epoch": 0.6813375627808618,
      "grad_norm": 0.9245090244938281,
      "learning_rate": 3.5105932130261832e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.797857403755188,
      "num_tokens": 173951383.0,
      "step": 5155
    },
    {
      "epoch": 0.6814697330161248,
      "grad_norm": 0.9344954292560167,
      "learning_rate": 3.508731092383456e-06,
      "loss": 0.636,
      "mean_token_accuracy": 0.7882736921310425,
      "num_tokens": 174016919.0,
      "step": 5156
    },
    {
      "epoch": 0.6816019032513878,
      "grad_norm": 0.7993058629106943,
      "learning_rate": 3.506869395640302e-06,
      "loss": 0.5528,
      "mean_token_accuracy": 0.8171163201332092,
      "num_tokens": 174082455.0,
      "step": 5157
    },
    {
      "epoch": 0.6817340734866508,
      "grad_norm": 0.7561275869357169,
      "learning_rate": 3.5050081231930446e-06,
      "loss": 0.513,
      "mean_token_accuracy": 0.8292332887649536,
      "num_tokens": 174147991.0,
      "step": 5158
    },
    {
      "epoch": 0.6818662437219138,
      "grad_norm": 0.8445628882731411,
      "learning_rate": 3.5031472754379025e-06,
      "loss": 0.5707,
      "mean_token_accuracy": 0.8101117014884949,
      "num_tokens": 174213527.0,
      "step": 5159
    },
    {
      "epoch": 0.6819984139571769,
      "grad_norm": 0.8709460448578463,
      "learning_rate": 3.501286852771013e-06,
      "loss": 0.6246,
      "mean_token_accuracy": 0.7918752431869507,
      "num_tokens": 174279063.0,
      "step": 5160
    },
    {
      "epoch": 0.6821305841924399,
      "grad_norm": 0.8853042512784853,
      "learning_rate": 3.499426855588425e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7965754866600037,
      "num_tokens": 174344599.0,
      "step": 5161
    },
    {
      "epoch": 0.6822627544277029,
      "grad_norm": 0.9249399297332651,
      "learning_rate": 3.497567284286091e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8079599738121033,
      "num_tokens": 174410135.0,
      "step": 5162
    },
    {
      "epoch": 0.6823949246629659,
      "grad_norm": 0.803227642244651,
      "learning_rate": 3.4957081392598704e-06,
      "loss": 0.5255,
      "mean_token_accuracy": 0.8264100551605225,
      "num_tokens": 174475671.0,
      "step": 5163
    },
    {
      "epoch": 0.6825270948982289,
      "grad_norm": 0.8583249060004873,
      "learning_rate": 3.493849420905544e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.8006348609924316,
      "num_tokens": 174541207.0,
      "step": 5164
    },
    {
      "epoch": 0.682659265133492,
      "grad_norm": 0.7952525006001215,
      "learning_rate": 3.491991129618789e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8144609928131104,
      "num_tokens": 174606743.0,
      "step": 5165
    },
    {
      "epoch": 0.682791435368755,
      "grad_norm": 0.882893642126634,
      "learning_rate": 3.4901332657952e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.8013978600502014,
      "num_tokens": 174672279.0,
      "step": 5166
    },
    {
      "epoch": 0.682923605604018,
      "grad_norm": 0.8200684139205355,
      "learning_rate": 3.4882758298302744e-06,
      "loss": 0.5606,
      "mean_token_accuracy": 0.8151629567146301,
      "num_tokens": 174737815.0,
      "step": 5167
    },
    {
      "epoch": 0.683055775839281,
      "grad_norm": 0.8953731780871067,
      "learning_rate": 3.4864188221194224e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 174803351.0,
      "step": 5168
    },
    {
      "epoch": 0.683187946074544,
      "grad_norm": 0.7775358809034661,
      "learning_rate": 3.484562243057963e-06,
      "loss": 0.549,
      "mean_token_accuracy": 0.8179404139518738,
      "num_tokens": 174868887.0,
      "step": 5169
    },
    {
      "epoch": 0.683320116309807,
      "grad_norm": 0.8166487661440622,
      "learning_rate": 3.4827060930411214e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8080667853355408,
      "num_tokens": 174934423.0,
      "step": 5170
    },
    {
      "epoch": 0.6834522865450701,
      "grad_norm": 0.7757619260641773,
      "learning_rate": 3.4808503724640376e-06,
      "loss": 0.5425,
      "mean_token_accuracy": 0.8193596601486206,
      "num_tokens": 174999959.0,
      "step": 5171
    },
    {
      "epoch": 0.6835844567803331,
      "grad_norm": 0.8361985940563234,
      "learning_rate": 3.478995081721751e-06,
      "loss": 0.5405,
      "mean_token_accuracy": 0.8230527639389038,
      "num_tokens": 175065495.0,
      "step": 5172
    },
    {
      "epoch": 0.6837166270155961,
      "grad_norm": 0.844258185131038,
      "learning_rate": 3.4771402212092153e-06,
      "loss": 0.5678,
      "mean_token_accuracy": 0.8099591135978699,
      "num_tokens": 175131031.0,
      "step": 5173
    },
    {
      "epoch": 0.6838487972508591,
      "grad_norm": 0.8372301867323615,
      "learning_rate": 3.475285791321293e-06,
      "loss": 0.5879,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 175196567.0,
      "step": 5174
    },
    {
      "epoch": 0.6839809674861221,
      "grad_norm": 0.8162360276243419,
      "learning_rate": 3.4734317924527537e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8009858131408691,
      "num_tokens": 175262103.0,
      "step": 5175
    },
    {
      "epoch": 0.6841131377213852,
      "grad_norm": 0.8703276684815082,
      "learning_rate": 3.471578224998271e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.8022982478141785,
      "num_tokens": 175327639.0,
      "step": 5176
    },
    {
      "epoch": 0.6842453079566482,
      "grad_norm": 0.7970071793231109,
      "learning_rate": 3.4697250893524376e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.8150561451911926,
      "num_tokens": 175393175.0,
      "step": 5177
    },
    {
      "epoch": 0.6843774781919112,
      "grad_norm": 0.8966886399488153,
      "learning_rate": 3.467872385909741e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.7946678996086121,
      "num_tokens": 175458711.0,
      "step": 5178
    },
    {
      "epoch": 0.6845096484271742,
      "grad_norm": 0.8857902426510985,
      "learning_rate": 3.4660201150645877e-06,
      "loss": 0.5878,
      "mean_token_accuracy": 0.8056861162185669,
      "num_tokens": 175524247.0,
      "step": 5179
    },
    {
      "epoch": 0.6846418186624372,
      "grad_norm": 0.8203061288508369,
      "learning_rate": 3.464168277211283e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8090434670448303,
      "num_tokens": 175589783.0,
      "step": 5180
    },
    {
      "epoch": 0.6847739888977002,
      "grad_norm": 0.8037660763640666,
      "learning_rate": 3.462316872744049e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8019777536392212,
      "num_tokens": 175655319.0,
      "step": 5181
    },
    {
      "epoch": 0.6849061591329633,
      "grad_norm": 0.9081921307349898,
      "learning_rate": 3.4604659020570074e-06,
      "loss": 0.6235,
      "mean_token_accuracy": 0.7940574884414673,
      "num_tokens": 175720855.0,
      "step": 5182
    },
    {
      "epoch": 0.6850383293682263,
      "grad_norm": 0.7640599560660812,
      "learning_rate": 3.458615365544194e-06,
      "loss": 0.5539,
      "mean_token_accuracy": 0.816582202911377,
      "num_tokens": 175786391.0,
      "step": 5183
    },
    {
      "epoch": 0.6851704996034893,
      "grad_norm": 0.8462759410278633,
      "learning_rate": 3.4567652635995473e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8121413588523865,
      "num_tokens": 175851927.0,
      "step": 5184
    },
    {
      "epoch": 0.6853026698387523,
      "grad_norm": 0.8184241275415898,
      "learning_rate": 3.454915596616919e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8012605309486389,
      "num_tokens": 175917463.0,
      "step": 5185
    },
    {
      "epoch": 0.6854348400740153,
      "grad_norm": 0.8398830070944543,
      "learning_rate": 3.4530663649900587e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8116682767868042,
      "num_tokens": 175982999.0,
      "step": 5186
    },
    {
      "epoch": 0.6855670103092784,
      "grad_norm": 0.8346834436928271,
      "learning_rate": 3.451217569112633e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8008637428283691,
      "num_tokens": 176048535.0,
      "step": 5187
    },
    {
      "epoch": 0.6856991805445414,
      "grad_norm": 0.8733179602914387,
      "learning_rate": 3.4493692093782116e-06,
      "loss": 0.6306,
      "mean_token_accuracy": 0.7937217950820923,
      "num_tokens": 176114071.0,
      "step": 5188
    },
    {
      "epoch": 0.6858313507798044,
      "grad_norm": 0.8492653823835947,
      "learning_rate": 3.447521286180272e-06,
      "loss": 0.6004,
      "mean_token_accuracy": 0.7997039556503296,
      "num_tokens": 176179607.0,
      "step": 5189
    },
    {
      "epoch": 0.6859635210150674,
      "grad_norm": 0.8527635639040537,
      "learning_rate": 3.445673799912199e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8121718764305115,
      "num_tokens": 176245143.0,
      "step": 5190
    },
    {
      "epoch": 0.6860956912503304,
      "grad_norm": 0.76164594005373,
      "learning_rate": 3.4438267509672805e-06,
      "loss": 0.5344,
      "mean_token_accuracy": 0.8246398568153381,
      "num_tokens": 176310679.0,
      "step": 5191
    },
    {
      "epoch": 0.6862278614855934,
      "grad_norm": 0.8986230969193013,
      "learning_rate": 3.4419801397387176e-06,
      "loss": 0.5896,
      "mean_token_accuracy": 0.8029544353485107,
      "num_tokens": 176376215.0,
      "step": 5192
    },
    {
      "epoch": 0.6863600317208565,
      "grad_norm": 0.7949072158782211,
      "learning_rate": 3.440133966619615e-06,
      "loss": 0.5417,
      "mean_token_accuracy": 0.8200463652610779,
      "num_tokens": 176441751.0,
      "step": 5193
    },
    {
      "epoch": 0.6864922019561195,
      "grad_norm": 0.8299742541242329,
      "learning_rate": 3.4382882320029844e-06,
      "loss": 0.5346,
      "mean_token_accuracy": 0.8232663869857788,
      "num_tokens": 176507287.0,
      "step": 5194
    },
    {
      "epoch": 0.6866243721913825,
      "grad_norm": 0.8031501081773779,
      "learning_rate": 3.436442936281743e-06,
      "loss": 0.5321,
      "mean_token_accuracy": 0.8256165385246277,
      "num_tokens": 176572823.0,
      "step": 5195
    },
    {
      "epoch": 0.6867565424266455,
      "grad_norm": 0.8766300311909566,
      "learning_rate": 3.4345980798487165e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8028781414031982,
      "num_tokens": 176638359.0,
      "step": 5196
    },
    {
      "epoch": 0.6868887126619085,
      "grad_norm": 0.8896318918303304,
      "learning_rate": 3.4327536630966356e-06,
      "loss": 0.5621,
      "mean_token_accuracy": 0.8109205365180969,
      "num_tokens": 176703895.0,
      "step": 5197
    },
    {
      "epoch": 0.6870208828971716,
      "grad_norm": 0.7997466745597513,
      "learning_rate": 3.4309096864181414e-06,
      "loss": 0.5488,
      "mean_token_accuracy": 0.8167806267738342,
      "num_tokens": 176769431.0,
      "step": 5198
    },
    {
      "epoch": 0.6871530531324346,
      "grad_norm": 0.8251113997184156,
      "learning_rate": 3.4290661502057716e-06,
      "loss": 0.5878,
      "mean_token_accuracy": 0.8053656220436096,
      "num_tokens": 176834967.0,
      "step": 5199
    },
    {
      "epoch": 0.6872852233676976,
      "grad_norm": 0.8659649107063393,
      "learning_rate": 3.4272230548519834e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.8017030954360962,
      "num_tokens": 176900503.0,
      "step": 5200
    },
    {
      "epoch": 0.6874173936029606,
      "grad_norm": 0.8255857984860826,
      "learning_rate": 3.42538040074913e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8037480115890503,
      "num_tokens": 176966039.0,
      "step": 5201
    },
    {
      "epoch": 0.6875495638382236,
      "grad_norm": 0.8405796084685548,
      "learning_rate": 3.4235381882894735e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8109357953071594,
      "num_tokens": 177031575.0,
      "step": 5202
    },
    {
      "epoch": 0.6876817340734867,
      "grad_norm": 0.8839079431822809,
      "learning_rate": 3.4216964178651834e-06,
      "loss": 0.5912,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 177097111.0,
      "step": 5203
    },
    {
      "epoch": 0.6878139043087497,
      "grad_norm": 0.7707480867705162,
      "learning_rate": 3.419855089868336e-06,
      "loss": 0.5431,
      "mean_token_accuracy": 0.8196343779563904,
      "num_tokens": 177162647.0,
      "step": 5204
    },
    {
      "epoch": 0.6879460745440127,
      "grad_norm": 0.9798108032189649,
      "learning_rate": 3.418014204690907e-06,
      "loss": 0.6099,
      "mean_token_accuracy": 0.7983457446098328,
      "num_tokens": 177228183.0,
      "step": 5205
    },
    {
      "epoch": 0.6880782447792757,
      "grad_norm": 0.8779293042185041,
      "learning_rate": 3.416173762724786e-06,
      "loss": 0.6414,
      "mean_token_accuracy": 0.788288950920105,
      "num_tokens": 177293719.0,
      "step": 5206
    },
    {
      "epoch": 0.6882104150145387,
      "grad_norm": 0.8183332388274118,
      "learning_rate": 3.4143337643617637e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8039463758468628,
      "num_tokens": 177359255.0,
      "step": 5207
    },
    {
      "epoch": 0.6883425852498017,
      "grad_norm": 0.8345699213691068,
      "learning_rate": 3.412494209993537e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.7976285219192505,
      "num_tokens": 177424791.0,
      "step": 5208
    },
    {
      "epoch": 0.6884747554850648,
      "grad_norm": 0.857810831928575,
      "learning_rate": 3.410655100011711e-06,
      "loss": 0.6135,
      "mean_token_accuracy": 0.7958124876022339,
      "num_tokens": 177490327.0,
      "step": 5209
    },
    {
      "epoch": 0.6886069257203278,
      "grad_norm": 0.7830213013699053,
      "learning_rate": 3.4088164348077903e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8153003454208374,
      "num_tokens": 177555863.0,
      "step": 5210
    },
    {
      "epoch": 0.6887390959555908,
      "grad_norm": 0.8388346460106363,
      "learning_rate": 3.4069782147731913e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.8030155301094055,
      "num_tokens": 177621399.0,
      "step": 5211
    },
    {
      "epoch": 0.6888712661908538,
      "grad_norm": 0.8610017216459181,
      "learning_rate": 3.405140440299228e-06,
      "loss": 0.5839,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 177686935.0,
      "step": 5212
    },
    {
      "epoch": 0.6890034364261168,
      "grad_norm": 0.8564890642448262,
      "learning_rate": 3.4033031117771303e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8032291531562805,
      "num_tokens": 177752471.0,
      "step": 5213
    },
    {
      "epoch": 0.6891356066613799,
      "grad_norm": 0.808602394816967,
      "learning_rate": 3.401466229598023e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 177818007.0,
      "step": 5214
    },
    {
      "epoch": 0.6892677768966429,
      "grad_norm": 0.800384329374746,
      "learning_rate": 3.399629794152941e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8170400261878967,
      "num_tokens": 177883543.0,
      "step": 5215
    },
    {
      "epoch": 0.6893999471319059,
      "grad_norm": 0.8306988930331096,
      "learning_rate": 3.397793805832823e-06,
      "loss": 0.6132,
      "mean_token_accuracy": 0.7978116273880005,
      "num_tokens": 177949079.0,
      "step": 5216
    },
    {
      "epoch": 0.6895321173671689,
      "grad_norm": 0.8309370088847656,
      "learning_rate": 3.395958265028515e-06,
      "loss": 0.5629,
      "mean_token_accuracy": 0.8117598295211792,
      "num_tokens": 178014615.0,
      "step": 5217
    },
    {
      "epoch": 0.6896642876024319,
      "grad_norm": 0.7902885755690737,
      "learning_rate": 3.3941231721307603e-06,
      "loss": 0.5321,
      "mean_token_accuracy": 0.8251129388809204,
      "num_tokens": 178080151.0,
      "step": 5218
    },
    {
      "epoch": 0.6897964578376949,
      "grad_norm": 0.832077390727301,
      "learning_rate": 3.3922885275302177e-06,
      "loss": 0.5713,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 178145687.0,
      "step": 5219
    },
    {
      "epoch": 0.689928628072958,
      "grad_norm": 0.8414379805152907,
      "learning_rate": 3.39045433161744e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8070595860481262,
      "num_tokens": 178211223.0,
      "step": 5220
    },
    {
      "epoch": 0.690060798308221,
      "grad_norm": 0.8872832695837085,
      "learning_rate": 3.3886205847828903e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8082651495933533,
      "num_tokens": 178276759.0,
      "step": 5221
    },
    {
      "epoch": 0.690192968543484,
      "grad_norm": 0.8455874009219133,
      "learning_rate": 3.386787287416936e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8103406429290771,
      "num_tokens": 178342295.0,
      "step": 5222
    },
    {
      "epoch": 0.690325138778747,
      "grad_norm": 0.9328063223101866,
      "learning_rate": 3.3849544399098495e-06,
      "loss": 0.6201,
      "mean_token_accuracy": 0.7971096038818359,
      "num_tokens": 178407831.0,
      "step": 5223
    },
    {
      "epoch": 0.69045730901401,
      "grad_norm": 0.8783435401554882,
      "learning_rate": 3.383122042651802e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.8025271892547607,
      "num_tokens": 178473367.0,
      "step": 5224
    },
    {
      "epoch": 0.690589479249273,
      "grad_norm": 0.804229964703639,
      "learning_rate": 3.3812900960328736e-06,
      "loss": 0.5665,
      "mean_token_accuracy": 0.811973512172699,
      "num_tokens": 178538903.0,
      "step": 5225
    },
    {
      "epoch": 0.6907216494845361,
      "grad_norm": 0.9077700857884655,
      "learning_rate": 3.3794586004430496e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.7976590394973755,
      "num_tokens": 178604439.0,
      "step": 5226
    },
    {
      "epoch": 0.6908538197197991,
      "grad_norm": 0.9095071446214025,
      "learning_rate": 3.377627556272217e-06,
      "loss": 0.6367,
      "mean_token_accuracy": 0.7880295515060425,
      "num_tokens": 178669975.0,
      "step": 5227
    },
    {
      "epoch": 0.6909859899550621,
      "grad_norm": 0.9570037660794197,
      "learning_rate": 3.375796963910164e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.7980252504348755,
      "num_tokens": 178735511.0,
      "step": 5228
    },
    {
      "epoch": 0.6911181601903251,
      "grad_norm": 0.8623226862228008,
      "learning_rate": 3.3739668237465874e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.802313506603241,
      "num_tokens": 178801047.0,
      "step": 5229
    },
    {
      "epoch": 0.6912503304255881,
      "grad_norm": 0.8462241242369869,
      "learning_rate": 3.3721371361710866e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.806464433670044,
      "num_tokens": 178866583.0,
      "step": 5230
    },
    {
      "epoch": 0.6913825006608512,
      "grad_norm": 0.8482755533789877,
      "learning_rate": 3.37030790157316e-06,
      "loss": 0.6199,
      "mean_token_accuracy": 0.7945916056632996,
      "num_tokens": 178932119.0,
      "step": 5231
    },
    {
      "epoch": 0.6915146708961142,
      "grad_norm": 0.7487135730021498,
      "learning_rate": 3.3684791203422196e-06,
      "loss": 0.5238,
      "mean_token_accuracy": 0.8248839974403381,
      "num_tokens": 178997655.0,
      "step": 5232
    },
    {
      "epoch": 0.6916468411313772,
      "grad_norm": 0.8850362475459155,
      "learning_rate": 3.3666507928675706e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.8099133372306824,
      "num_tokens": 179063191.0,
      "step": 5233
    },
    {
      "epoch": 0.6917790113666402,
      "grad_norm": 0.9135884400802535,
      "learning_rate": 3.3648229195384264e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 179128727.0,
      "step": 5234
    },
    {
      "epoch": 0.6919111816019032,
      "grad_norm": 0.8325989652382045,
      "learning_rate": 3.3629955007439025e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8085856437683105,
      "num_tokens": 179194263.0,
      "step": 5235
    },
    {
      "epoch": 0.6920433518371663,
      "grad_norm": 0.8010635457239221,
      "learning_rate": 3.361168536873022e-06,
      "loss": 0.5428,
      "mean_token_accuracy": 0.8189628720283508,
      "num_tokens": 179259799.0,
      "step": 5236
    },
    {
      "epoch": 0.6921755220724293,
      "grad_norm": 0.8175074927510034,
      "learning_rate": 3.359342028314699e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 179325335.0,
      "step": 5237
    },
    {
      "epoch": 0.6923076923076923,
      "grad_norm": 0.769132982045477,
      "learning_rate": 3.35751597545777e-06,
      "loss": 0.5295,
      "mean_token_accuracy": 0.8255097270011902,
      "num_tokens": 179390871.0,
      "step": 5238
    },
    {
      "epoch": 0.6924398625429553,
      "grad_norm": 0.7643056886354039,
      "learning_rate": 3.3556903786909556e-06,
      "loss": 0.5567,
      "mean_token_accuracy": 0.8133317232131958,
      "num_tokens": 179456407.0,
      "step": 5239
    },
    {
      "epoch": 0.6925720327782183,
      "grad_norm": 0.8557975996751807,
      "learning_rate": 3.353865238402891e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8019319772720337,
      "num_tokens": 179521943.0,
      "step": 5240
    },
    {
      "epoch": 0.6927042030134813,
      "grad_norm": 0.8767735889297972,
      "learning_rate": 3.3520405549821057e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7992156147956848,
      "num_tokens": 179587479.0,
      "step": 5241
    },
    {
      "epoch": 0.6928363732487444,
      "grad_norm": 0.8698373740393047,
      "learning_rate": 3.3502163288170442e-06,
      "loss": 0.6142,
      "mean_token_accuracy": 0.797613263130188,
      "num_tokens": 179653015.0,
      "step": 5242
    },
    {
      "epoch": 0.6929685434840074,
      "grad_norm": 0.8537896384685018,
      "learning_rate": 3.34839256029604e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8028323650360107,
      "num_tokens": 179718551.0,
      "step": 5243
    },
    {
      "epoch": 0.6931007137192704,
      "grad_norm": 0.7935223706964538,
      "learning_rate": 3.3465692498073368e-06,
      "loss": 0.5149,
      "mean_token_accuracy": 0.8288212418556213,
      "num_tokens": 179784087.0,
      "step": 5244
    },
    {
      "epoch": 0.6932328839545334,
      "grad_norm": 0.9659823977675455,
      "learning_rate": 3.3447463977390803e-06,
      "loss": 0.6122,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 179849623.0,
      "step": 5245
    },
    {
      "epoch": 0.6933650541897964,
      "grad_norm": 0.8137976418722412,
      "learning_rate": 3.3429240044793186e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8079599738121033,
      "num_tokens": 179915159.0,
      "step": 5246
    },
    {
      "epoch": 0.6934972244250595,
      "grad_norm": 0.7942416623898801,
      "learning_rate": 3.3411020704159992e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8125991821289062,
      "num_tokens": 179980695.0,
      "step": 5247
    },
    {
      "epoch": 0.6936293946603225,
      "grad_norm": 0.8257788957333705,
      "learning_rate": 3.3392805959369734e-06,
      "loss": 0.5882,
      "mean_token_accuracy": 0.8047552108764648,
      "num_tokens": 180046231.0,
      "step": 5248
    },
    {
      "epoch": 0.6937615648955855,
      "grad_norm": 0.8529143003198807,
      "learning_rate": 3.337459581429998e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7932639718055725,
      "num_tokens": 180111767.0,
      "step": 5249
    },
    {
      "epoch": 0.6938937351308485,
      "grad_norm": 0.8652241691856596,
      "learning_rate": 3.3356390272827245e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7917531728744507,
      "num_tokens": 180177303.0,
      "step": 5250
    },
    {
      "epoch": 0.6940259053661115,
      "grad_norm": 0.8172660577537811,
      "learning_rate": 3.333818933882716e-06,
      "loss": 0.5683,
      "mean_token_accuracy": 0.8101422190666199,
      "num_tokens": 180242839.0,
      "step": 5251
    },
    {
      "epoch": 0.6941580756013745,
      "grad_norm": 0.8711318438742528,
      "learning_rate": 3.331999301617428e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.7991240620613098,
      "num_tokens": 180308375.0,
      "step": 5252
    },
    {
      "epoch": 0.6942902458366376,
      "grad_norm": 0.8687281910541251,
      "learning_rate": 3.3301801308742253e-06,
      "loss": 0.5985,
      "mean_token_accuracy": 0.8014131188392639,
      "num_tokens": 180373911.0,
      "step": 5253
    },
    {
      "epoch": 0.6944224160719006,
      "grad_norm": 0.7976527997387458,
      "learning_rate": 3.3283614220403694e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8093944787979126,
      "num_tokens": 180439447.0,
      "step": 5254
    },
    {
      "epoch": 0.6945545863071636,
      "grad_norm": 0.8598442850712195,
      "learning_rate": 3.3265431755030277e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.7981931567192078,
      "num_tokens": 180504983.0,
      "step": 5255
    },
    {
      "epoch": 0.6946867565424266,
      "grad_norm": 0.8550910753628476,
      "learning_rate": 3.3247253916492643e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.8155139684677124,
      "num_tokens": 180570519.0,
      "step": 5256
    },
    {
      "epoch": 0.6948189267776896,
      "grad_norm": 0.8021199697615204,
      "learning_rate": 3.322908070866048e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8062965273857117,
      "num_tokens": 180636055.0,
      "step": 5257
    },
    {
      "epoch": 0.6949510970129527,
      "grad_norm": 0.838894496832081,
      "learning_rate": 3.3210912135402495e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.7989866733551025,
      "num_tokens": 180701591.0,
      "step": 5258
    },
    {
      "epoch": 0.6950832672482157,
      "grad_norm": 0.8654614598005032,
      "learning_rate": 3.3192748200586412e-06,
      "loss": 0.6243,
      "mean_token_accuracy": 0.7956751585006714,
      "num_tokens": 180767127.0,
      "step": 5259
    },
    {
      "epoch": 0.6952154374834787,
      "grad_norm": 0.8407308916543178,
      "learning_rate": 3.3174588908078888e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8261659145355225,
      "num_tokens": 180832663.0,
      "step": 5260
    },
    {
      "epoch": 0.6953476077187417,
      "grad_norm": 0.8112340901581223,
      "learning_rate": 3.315643426174575e-06,
      "loss": 0.5864,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 180898199.0,
      "step": 5261
    },
    {
      "epoch": 0.6954797779540047,
      "grad_norm": 0.8770996281598051,
      "learning_rate": 3.3138284265451677e-06,
      "loss": 0.5993,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 180963735.0,
      "step": 5262
    },
    {
      "epoch": 0.6956119481892677,
      "grad_norm": 0.8132470177823973,
      "learning_rate": 3.3120138923060434e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8070138096809387,
      "num_tokens": 181029271.0,
      "step": 5263
    },
    {
      "epoch": 0.6957441184245308,
      "grad_norm": 0.7785979866359217,
      "learning_rate": 3.310199823843481e-06,
      "loss": 0.5195,
      "mean_token_accuracy": 0.8323897123336792,
      "num_tokens": 181092157.0,
      "step": 5264
    },
    {
      "epoch": 0.6958762886597938,
      "grad_norm": 0.856770109782001,
      "learning_rate": 3.3083862215436573e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 181157693.0,
      "step": 5265
    },
    {
      "epoch": 0.6960084588950568,
      "grad_norm": 0.777899494220536,
      "learning_rate": 3.3065730857926474e-06,
      "loss": 0.5658,
      "mean_token_accuracy": 0.8104932308197021,
      "num_tokens": 181223229.0,
      "step": 5266
    },
    {
      "epoch": 0.6961406291303198,
      "grad_norm": 0.9158727348488851,
      "learning_rate": 3.3047604169764326e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.7972164750099182,
      "num_tokens": 181288765.0,
      "step": 5267
    },
    {
      "epoch": 0.6962727993655828,
      "grad_norm": 0.7675738306495486,
      "learning_rate": 3.302948215480894e-06,
      "loss": 0.5528,
      "mean_token_accuracy": 0.8167043328285217,
      "num_tokens": 181354301.0,
      "step": 5268
    },
    {
      "epoch": 0.6964049696008459,
      "grad_norm": 0.8148921376576147,
      "learning_rate": 3.3011364816918045e-06,
      "loss": 0.5671,
      "mean_token_accuracy": 0.8117598295211792,
      "num_tokens": 181419837.0,
      "step": 5269
    },
    {
      "epoch": 0.6965371398361089,
      "grad_norm": 0.8131272010170134,
      "learning_rate": 3.299325215994854e-06,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7861829996109009,
      "num_tokens": 181485373.0,
      "step": 5270
    },
    {
      "epoch": 0.6966693100713719,
      "grad_norm": 0.8303409153043165,
      "learning_rate": 3.297514418775615e-06,
      "loss": 0.5723,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 181550909.0,
      "step": 5271
    },
    {
      "epoch": 0.6968014803066349,
      "grad_norm": 0.8348041724227745,
      "learning_rate": 3.2957040904195747e-06,
      "loss": 0.5688,
      "mean_token_accuracy": 0.8118056654930115,
      "num_tokens": 181616445.0,
      "step": 5272
    },
    {
      "epoch": 0.6969336505418979,
      "grad_norm": 0.9034960059970573,
      "learning_rate": 3.293894231312107e-06,
      "loss": 0.6327,
      "mean_token_accuracy": 0.7895861268043518,
      "num_tokens": 181681981.0,
      "step": 5273
    },
    {
      "epoch": 0.697065820777161,
      "grad_norm": 0.8838407080144419,
      "learning_rate": 3.292084841838501e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7877853512763977,
      "num_tokens": 181747517.0,
      "step": 5274
    },
    {
      "epoch": 0.697197991012424,
      "grad_norm": 0.8918876628400774,
      "learning_rate": 3.290275922383932e-06,
      "loss": 0.6591,
      "mean_token_accuracy": 0.7830393314361572,
      "num_tokens": 181813053.0,
      "step": 5275
    },
    {
      "epoch": 0.697330161247687,
      "grad_norm": 0.7611508751463488,
      "learning_rate": 3.288467473333484e-06,
      "loss": 0.5344,
      "mean_token_accuracy": 0.8208552002906799,
      "num_tokens": 181878589.0,
      "step": 5276
    },
    {
      "epoch": 0.69746233148295,
      "grad_norm": 0.8707173110447177,
      "learning_rate": 3.2866594950721375e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.7983457446098328,
      "num_tokens": 181944125.0,
      "step": 5277
    },
    {
      "epoch": 0.697594501718213,
      "grad_norm": 0.8614684569976971,
      "learning_rate": 3.2848519879847746e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.802008330821991,
      "num_tokens": 182009661.0,
      "step": 5278
    },
    {
      "epoch": 0.697726671953476,
      "grad_norm": 0.8389267439011512,
      "learning_rate": 3.2830449524561715e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8207789063453674,
      "num_tokens": 182075197.0,
      "step": 5279
    },
    {
      "epoch": 0.6978588421887391,
      "grad_norm": 0.7976842209457586,
      "learning_rate": 3.281238388871014e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8199242949485779,
      "num_tokens": 182140733.0,
      "step": 5280
    },
    {
      "epoch": 0.6979910124240021,
      "grad_norm": 0.7990458016152452,
      "learning_rate": 3.2794322976138774e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.813179075717926,
      "num_tokens": 182206269.0,
      "step": 5281
    },
    {
      "epoch": 0.6981231826592651,
      "grad_norm": 0.783104326404792,
      "learning_rate": 3.2776266790692433e-06,
      "loss": 0.5384,
      "mean_token_accuracy": 0.8227322697639465,
      "num_tokens": 182271805.0,
      "step": 5282
    },
    {
      "epoch": 0.6982553528945281,
      "grad_norm": 0.7942565251234158,
      "learning_rate": 3.2758215336214894e-06,
      "loss": 0.5487,
      "mean_token_accuracy": 0.8177267909049988,
      "num_tokens": 182337341.0,
      "step": 5283
    },
    {
      "epoch": 0.6983875231297911,
      "grad_norm": 0.7862546073886032,
      "learning_rate": 3.2740168616548945e-06,
      "loss": 0.5207,
      "mean_token_accuracy": 0.8250671625137329,
      "num_tokens": 182402877.0,
      "step": 5284
    },
    {
      "epoch": 0.6985196933650542,
      "grad_norm": 0.7875463731435361,
      "learning_rate": 3.2722126635536335e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.8026645183563232,
      "num_tokens": 182468413.0,
      "step": 5285
    },
    {
      "epoch": 0.6986518636003172,
      "grad_norm": 0.8264902347602655,
      "learning_rate": 3.270408939701783e-06,
      "loss": 0.5932,
      "mean_token_accuracy": 0.8029850125312805,
      "num_tokens": 182533949.0,
      "step": 5286
    },
    {
      "epoch": 0.6987840338355802,
      "grad_norm": 0.8085004231596183,
      "learning_rate": 3.268605690483321e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.8193291425704956,
      "num_tokens": 182599485.0,
      "step": 5287
    },
    {
      "epoch": 0.6989162040708432,
      "grad_norm": 0.8018720036937564,
      "learning_rate": 3.2668029162821172e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 182665021.0,
      "step": 5288
    },
    {
      "epoch": 0.6990483743061062,
      "grad_norm": 0.802436527693144,
      "learning_rate": 3.265000617481947e-06,
      "loss": 0.5434,
      "mean_token_accuracy": 0.8195580244064331,
      "num_tokens": 182730557.0,
      "step": 5289
    },
    {
      "epoch": 0.6991805445413692,
      "grad_norm": 0.8388322095799747,
      "learning_rate": 3.2631987944664822e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8076547384262085,
      "num_tokens": 182796093.0,
      "step": 5290
    },
    {
      "epoch": 0.6993127147766323,
      "grad_norm": 0.755880418972267,
      "learning_rate": 3.2613974476192937e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8141252398490906,
      "num_tokens": 182861629.0,
      "step": 5291
    },
    {
      "epoch": 0.6994448850118953,
      "grad_norm": 0.8445979057791584,
      "learning_rate": 3.259596577323847e-06,
      "loss": 0.6128,
      "mean_token_accuracy": 0.7954309582710266,
      "num_tokens": 182927165.0,
      "step": 5292
    },
    {
      "epoch": 0.6995770552471583,
      "grad_norm": 0.8641054760607599,
      "learning_rate": 3.2577961839635163e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.7975063920021057,
      "num_tokens": 182992701.0,
      "step": 5293
    },
    {
      "epoch": 0.6997092254824213,
      "grad_norm": 0.852207085364796,
      "learning_rate": 3.255996267921563e-06,
      "loss": 0.5777,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 183058237.0,
      "step": 5294
    },
    {
      "epoch": 0.6998413957176843,
      "grad_norm": 0.8248970453330569,
      "learning_rate": 3.254196829581152e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8042058348655701,
      "num_tokens": 183123773.0,
      "step": 5295
    },
    {
      "epoch": 0.6999735659529474,
      "grad_norm": 0.8307454976822476,
      "learning_rate": 3.2523978693253477e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8031681180000305,
      "num_tokens": 183189309.0,
      "step": 5296
    },
    {
      "epoch": 0.7001057361882104,
      "grad_norm": 0.800545666531027,
      "learning_rate": 3.2505993875371123e-06,
      "loss": 0.5811,
      "mean_token_accuracy": 0.8044194579124451,
      "num_tokens": 183254845.0,
      "step": 5297
    },
    {
      "epoch": 0.7002379064234734,
      "grad_norm": 0.8431721117738507,
      "learning_rate": 3.2488013845992988e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.79330974817276,
      "num_tokens": 183320381.0,
      "step": 5298
    },
    {
      "epoch": 0.7003700766587364,
      "grad_norm": 0.7612841157701584,
      "learning_rate": 3.247003860894673e-06,
      "loss": 0.526,
      "mean_token_accuracy": 0.8235105872154236,
      "num_tokens": 183385917.0,
      "step": 5299
    },
    {
      "epoch": 0.7005022468939994,
      "grad_norm": 0.8487412531493027,
      "learning_rate": 3.2452068168058837e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7960108518600464,
      "num_tokens": 183451453.0,
      "step": 5300
    },
    {
      "epoch": 0.7006344171292624,
      "grad_norm": 0.8815163959380712,
      "learning_rate": 3.243410252715489e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7882736921310425,
      "num_tokens": 183516989.0,
      "step": 5301
    },
    {
      "epoch": 0.7007665873645255,
      "grad_norm": 0.8247850444331674,
      "learning_rate": 3.2416141690059327e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.79872727394104,
      "num_tokens": 183582525.0,
      "step": 5302
    },
    {
      "epoch": 0.7008987575997885,
      "grad_norm": 0.8197691990167584,
      "learning_rate": 3.239818566059572e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.7986814975738525,
      "num_tokens": 183648061.0,
      "step": 5303
    },
    {
      "epoch": 0.7010309278350515,
      "grad_norm": 0.7865655129957245,
      "learning_rate": 3.238023444258648e-06,
      "loss": 0.5562,
      "mean_token_accuracy": 0.8154376745223999,
      "num_tokens": 183713597.0,
      "step": 5304
    },
    {
      "epoch": 0.7011630980703145,
      "grad_norm": 0.8630266253360112,
      "learning_rate": 3.2362288039853064e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8057624101638794,
      "num_tokens": 183779133.0,
      "step": 5305
    },
    {
      "epoch": 0.7012952683055775,
      "grad_norm": 0.8136972307451582,
      "learning_rate": 3.2344346456215897e-06,
      "loss": 0.5694,
      "mean_token_accuracy": 0.8095928430557251,
      "num_tokens": 183844669.0,
      "step": 5306
    },
    {
      "epoch": 0.7014274385408406,
      "grad_norm": 0.8352962548746512,
      "learning_rate": 3.232640969549433e-06,
      "loss": 0.6223,
      "mean_token_accuracy": 0.7951562404632568,
      "num_tokens": 183910205.0,
      "step": 5307
    },
    {
      "epoch": 0.7015596087761036,
      "grad_norm": 0.8113629104874441,
      "learning_rate": 3.230847776150676e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.8127670884132385,
      "num_tokens": 183975741.0,
      "step": 5308
    },
    {
      "epoch": 0.7016917790113666,
      "grad_norm": 0.8207730978688772,
      "learning_rate": 3.2290550658070497e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.793401300907135,
      "num_tokens": 184041277.0,
      "step": 5309
    },
    {
      "epoch": 0.7018239492466296,
      "grad_norm": 0.7789367791830333,
      "learning_rate": 3.2272628389001886e-06,
      "loss": 0.6197,
      "mean_token_accuracy": 0.7917531728744507,
      "num_tokens": 184106813.0,
      "step": 5310
    },
    {
      "epoch": 0.7019561194818926,
      "grad_norm": 0.8493881738637138,
      "learning_rate": 3.2254710958116144e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8023592829704285,
      "num_tokens": 184172349.0,
      "step": 5311
    },
    {
      "epoch": 0.7020882897171556,
      "grad_norm": 1.0426467676252478,
      "learning_rate": 3.223679836922757e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 184237885.0,
      "step": 5312
    },
    {
      "epoch": 0.7022204599524187,
      "grad_norm": 0.7810258001854099,
      "learning_rate": 3.221889062614937e-06,
      "loss": 0.5519,
      "mean_token_accuracy": 0.8131027817726135,
      "num_tokens": 184303421.0,
      "step": 5313
    },
    {
      "epoch": 0.7023526301876817,
      "grad_norm": 0.8115443516008561,
      "learning_rate": 3.22009877326937e-06,
      "loss": 0.5599,
      "mean_token_accuracy": 0.8145983219146729,
      "num_tokens": 184368957.0,
      "step": 5314
    },
    {
      "epoch": 0.7024848004229447,
      "grad_norm": 0.8669820564090445,
      "learning_rate": 3.218308969267174e-06,
      "loss": 0.6149,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 184434493.0,
      "step": 5315
    },
    {
      "epoch": 0.7026169706582077,
      "grad_norm": 0.8128035317960869,
      "learning_rate": 3.216519650989362e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 184500029.0,
      "step": 5316
    },
    {
      "epoch": 0.7027491408934707,
      "grad_norm": 0.8547100179220224,
      "learning_rate": 3.2147308188168393e-06,
      "loss": 0.6196,
      "mean_token_accuracy": 0.7927451133728027,
      "num_tokens": 184565565.0,
      "step": 5317
    },
    {
      "epoch": 0.7028813111287338,
      "grad_norm": 0.7831888587320488,
      "learning_rate": 3.2129424731304117e-06,
      "loss": 0.5183,
      "mean_token_accuracy": 0.827203631401062,
      "num_tokens": 184631101.0,
      "step": 5318
    },
    {
      "epoch": 0.7030134813639968,
      "grad_norm": 0.8343188564253615,
      "learning_rate": 3.211154614310781e-06,
      "loss": 0.586,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 184696637.0,
      "step": 5319
    },
    {
      "epoch": 0.7031456515992599,
      "grad_norm": 0.7869344827766714,
      "learning_rate": 3.2093672427385468e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8066322803497314,
      "num_tokens": 184762173.0,
      "step": 5320
    },
    {
      "epoch": 0.7032778218345229,
      "grad_norm": 0.7444006904164882,
      "learning_rate": 3.207580358794201e-06,
      "loss": 0.5406,
      "mean_token_accuracy": 0.8204584121704102,
      "num_tokens": 184827709.0,
      "step": 5321
    },
    {
      "epoch": 0.7034099920697859,
      "grad_norm": 0.8391406591283483,
      "learning_rate": 3.2057939628581344e-06,
      "loss": 0.5968,
      "mean_token_accuracy": 0.8016573190689087,
      "num_tokens": 184893245.0,
      "step": 5322
    },
    {
      "epoch": 0.703542162305049,
      "grad_norm": 0.7826276172555956,
      "learning_rate": 3.2040080553106327e-06,
      "loss": 0.5592,
      "mean_token_accuracy": 0.8178488612174988,
      "num_tokens": 184958781.0,
      "step": 5323
    },
    {
      "epoch": 0.703674332540312,
      "grad_norm": 0.8384345763010819,
      "learning_rate": 3.20222263653188e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8109815716743469,
      "num_tokens": 185024317.0,
      "step": 5324
    },
    {
      "epoch": 0.703806502775575,
      "grad_norm": 0.7808628653735765,
      "learning_rate": 3.200437706901955e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8053961396217346,
      "num_tokens": 185089853.0,
      "step": 5325
    },
    {
      "epoch": 0.703938673010838,
      "grad_norm": 0.8318477188505613,
      "learning_rate": 3.198653266800829e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 185155389.0,
      "step": 5326
    },
    {
      "epoch": 0.704070843246101,
      "grad_norm": 0.81102383483299,
      "learning_rate": 3.196869316608374e-06,
      "loss": 0.6038,
      "mean_token_accuracy": 0.799062967300415,
      "num_tokens": 185220925.0,
      "step": 5327
    },
    {
      "epoch": 0.704203013481364,
      "grad_norm": 0.8053650798491032,
      "learning_rate": 3.195085856704356e-06,
      "loss": 0.5642,
      "mean_token_accuracy": 0.8158039450645447,
      "num_tokens": 185286461.0,
      "step": 5328
    },
    {
      "epoch": 0.7043351837166271,
      "grad_norm": 0.8413842541820432,
      "learning_rate": 3.1933028874684367e-06,
      "loss": 0.5931,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 185351997.0,
      "step": 5329
    },
    {
      "epoch": 0.7044673539518901,
      "grad_norm": 0.7636752315171673,
      "learning_rate": 3.1915204092801698e-06,
      "loss": 0.5406,
      "mean_token_accuracy": 0.8193749189376831,
      "num_tokens": 185417533.0,
      "step": 5330
    },
    {
      "epoch": 0.7045995241871531,
      "grad_norm": 0.7964607928378498,
      "learning_rate": 3.189738422519013e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.8137285113334656,
      "num_tokens": 185483069.0,
      "step": 5331
    },
    {
      "epoch": 0.7047316944224161,
      "grad_norm": 0.8479330475260176,
      "learning_rate": 3.1879569275643102e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8021456599235535,
      "num_tokens": 185548605.0,
      "step": 5332
    },
    {
      "epoch": 0.7048638646576791,
      "grad_norm": 0.9339380459224953,
      "learning_rate": 3.186175924795307e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.8004059195518494,
      "num_tokens": 185614141.0,
      "step": 5333
    },
    {
      "epoch": 0.7049960348929422,
      "grad_norm": 0.8085451125912857,
      "learning_rate": 3.1843954145911367e-06,
      "loss": 0.6102,
      "mean_token_accuracy": 0.7973385453224182,
      "num_tokens": 185679677.0,
      "step": 5334
    },
    {
      "epoch": 0.7051282051282052,
      "grad_norm": 0.7422669678170687,
      "learning_rate": 3.1826153973308397e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 185745213.0,
      "step": 5335
    },
    {
      "epoch": 0.7052603753634682,
      "grad_norm": 0.8576103695859731,
      "learning_rate": 3.1808358733933398e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 185810749.0,
      "step": 5336
    },
    {
      "epoch": 0.7053925455987312,
      "grad_norm": 0.8964321211330658,
      "learning_rate": 3.1790568431574613e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7898761034011841,
      "num_tokens": 185876285.0,
      "step": 5337
    },
    {
      "epoch": 0.7055247158339942,
      "grad_norm": 0.7983088231578396,
      "learning_rate": 3.177278307001923e-06,
      "loss": 0.4972,
      "mean_token_accuracy": 0.8366194367408752,
      "num_tokens": 185941821.0,
      "step": 5338
    },
    {
      "epoch": 0.7056568860692572,
      "grad_norm": 0.8280936406727692,
      "learning_rate": 3.17550026530534e-06,
      "loss": 0.6162,
      "mean_token_accuracy": 0.7901812791824341,
      "num_tokens": 186007357.0,
      "step": 5339
    },
    {
      "epoch": 0.7057890563045203,
      "grad_norm": 0.8072795310500528,
      "learning_rate": 3.173722718446217e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8109663128852844,
      "num_tokens": 186072893.0,
      "step": 5340
    },
    {
      "epoch": 0.7059212265397833,
      "grad_norm": 0.8785721543189867,
      "learning_rate": 3.171945666802958e-06,
      "loss": 0.5994,
      "mean_token_accuracy": 0.7985288500785828,
      "num_tokens": 186138429.0,
      "step": 5341
    },
    {
      "epoch": 0.7060533967750463,
      "grad_norm": 0.8640367476886059,
      "learning_rate": 3.1701691107538603e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.803305447101593,
      "num_tokens": 186203965.0,
      "step": 5342
    },
    {
      "epoch": 0.7061855670103093,
      "grad_norm": 0.8826441992412413,
      "learning_rate": 3.1683930506771156e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8049841523170471,
      "num_tokens": 186269501.0,
      "step": 5343
    },
    {
      "epoch": 0.7063177372455723,
      "grad_norm": 0.7818209418104739,
      "learning_rate": 3.1666174869508114e-06,
      "loss": 0.5656,
      "mean_token_accuracy": 0.8105084896087646,
      "num_tokens": 186335037.0,
      "step": 5344
    },
    {
      "epoch": 0.7064499074808354,
      "grad_norm": 0.7910700578742839,
      "learning_rate": 3.1648424199529248e-06,
      "loss": 0.5756,
      "mean_token_accuracy": 0.8075021505355835,
      "num_tokens": 186400573.0,
      "step": 5345
    },
    {
      "epoch": 0.7065820777160984,
      "grad_norm": 0.7809588841907381,
      "learning_rate": 3.163067850061333e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8075326681137085,
      "num_tokens": 186466109.0,
      "step": 5346
    },
    {
      "epoch": 0.7067142479513614,
      "grad_norm": 0.8621071121613144,
      "learning_rate": 3.1612937776538043e-06,
      "loss": 0.6349,
      "mean_token_accuracy": 0.7903034090995789,
      "num_tokens": 186531645.0,
      "step": 5347
    },
    {
      "epoch": 0.7068464181866244,
      "grad_norm": 0.8360428891853133,
      "learning_rate": 3.159520203108003e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.8022677302360535,
      "num_tokens": 186597181.0,
      "step": 5348
    },
    {
      "epoch": 0.7069785884218874,
      "grad_norm": 0.7868344132657259,
      "learning_rate": 3.1577471268014837e-06,
      "loss": 0.5539,
      "mean_token_accuracy": 0.8166890740394592,
      "num_tokens": 186662717.0,
      "step": 5349
    },
    {
      "epoch": 0.7071107586571505,
      "grad_norm": 0.8120925416765706,
      "learning_rate": 3.1559745491116976e-06,
      "loss": 0.5402,
      "mean_token_accuracy": 0.8204431533813477,
      "num_tokens": 186728253.0,
      "step": 5350
    },
    {
      "epoch": 0.7072429288924135,
      "grad_norm": 0.7840932773262401,
      "learning_rate": 3.1542024704159902e-06,
      "loss": 0.5577,
      "mean_token_accuracy": 0.8136979341506958,
      "num_tokens": 186793789.0,
      "step": 5351
    },
    {
      "epoch": 0.7073750991276765,
      "grad_norm": 0.8232615157719445,
      "learning_rate": 3.1524308910916024e-06,
      "loss": 0.6195,
      "mean_token_accuracy": 0.7936912178993225,
      "num_tokens": 186859325.0,
      "step": 5352
    },
    {
      "epoch": 0.7075072693629395,
      "grad_norm": 0.8373153537564482,
      "learning_rate": 3.1506598115156607e-06,
      "loss": 0.5551,
      "mean_token_accuracy": 0.8141710162162781,
      "num_tokens": 186924861.0,
      "step": 5353
    },
    {
      "epoch": 0.7076394395982025,
      "grad_norm": 0.8625092214479737,
      "learning_rate": 3.1488892320651978e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.8037480115890503,
      "num_tokens": 186990397.0,
      "step": 5354
    },
    {
      "epoch": 0.7077716098334655,
      "grad_norm": 0.8398375225062938,
      "learning_rate": 3.1471191531171275e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8011994957923889,
      "num_tokens": 187055933.0,
      "step": 5355
    },
    {
      "epoch": 0.7079037800687286,
      "grad_norm": 0.7761634771390717,
      "learning_rate": 3.1453495750482653e-06,
      "loss": 0.526,
      "mean_token_accuracy": 0.8240141868591309,
      "num_tokens": 187121469.0,
      "step": 5356
    },
    {
      "epoch": 0.7080359503039916,
      "grad_norm": 0.8888972690386235,
      "learning_rate": 3.143580498235317e-06,
      "loss": 0.5656,
      "mean_token_accuracy": 0.8142778873443604,
      "num_tokens": 187187005.0,
      "step": 5357
    },
    {
      "epoch": 0.7081681205392546,
      "grad_norm": 0.7790041593175501,
      "learning_rate": 3.141811923054884e-06,
      "loss": 0.5542,
      "mean_token_accuracy": 0.8169484734535217,
      "num_tokens": 187252541.0,
      "step": 5358
    },
    {
      "epoch": 0.7083002907745176,
      "grad_norm": 0.7282448469804906,
      "learning_rate": 3.140043849883455e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8115156888961792,
      "num_tokens": 187318077.0,
      "step": 5359
    },
    {
      "epoch": 0.7084324610097806,
      "grad_norm": 0.7918602861190897,
      "learning_rate": 3.1382762790974187e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.817574143409729,
      "num_tokens": 187383613.0,
      "step": 5360
    },
    {
      "epoch": 0.7085646312450437,
      "grad_norm": 0.7810095785232933,
      "learning_rate": 3.1365092110730524e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8171010613441467,
      "num_tokens": 187449149.0,
      "step": 5361
    },
    {
      "epoch": 0.7086968014803067,
      "grad_norm": 0.8277869735837485,
      "learning_rate": 3.1347426461865316e-06,
      "loss": 0.6058,
      "mean_token_accuracy": 0.7993241548538208,
      "num_tokens": 187513669.0,
      "step": 5362
    },
    {
      "epoch": 0.7088289717155697,
      "grad_norm": 0.8512904311702495,
      "learning_rate": 3.132976584813916e-06,
      "loss": 0.538,
      "mean_token_accuracy": 0.821847140789032,
      "num_tokens": 187579205.0,
      "step": 5363
    },
    {
      "epoch": 0.7089611419508327,
      "grad_norm": 0.8726906153278909,
      "learning_rate": 3.131211027331166e-06,
      "loss": 0.5969,
      "mean_token_accuracy": 0.8013368248939514,
      "num_tokens": 187644741.0,
      "step": 5364
    },
    {
      "epoch": 0.7090933121860957,
      "grad_norm": 0.8547471062792207,
      "learning_rate": 3.1294459741141315e-06,
      "loss": 0.6023,
      "mean_token_accuracy": 0.7991240620613098,
      "num_tokens": 187710277.0,
      "step": 5365
    },
    {
      "epoch": 0.7092254824213587,
      "grad_norm": 0.8437605221211579,
      "learning_rate": 3.127681425538556e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8125534057617188,
      "num_tokens": 187775813.0,
      "step": 5366
    },
    {
      "epoch": 0.7093576526566218,
      "grad_norm": 0.8820619509220154,
      "learning_rate": 3.1259173819800746e-06,
      "loss": 0.5803,
      "mean_token_accuracy": 0.8061591982841492,
      "num_tokens": 187841349.0,
      "step": 5367
    },
    {
      "epoch": 0.7094898228918848,
      "grad_norm": 0.9313290414440135,
      "learning_rate": 3.124153843814215e-06,
      "loss": 0.6049,
      "mean_token_accuracy": 0.8018099069595337,
      "num_tokens": 187906885.0,
      "step": 5368
    },
    {
      "epoch": 0.7096219931271478,
      "grad_norm": 0.7981160444762617,
      "learning_rate": 3.122390811416398e-06,
      "loss": 0.5675,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 187972421.0,
      "step": 5369
    },
    {
      "epoch": 0.7097541633624108,
      "grad_norm": 0.841046251098619,
      "learning_rate": 3.1206282851619364e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 188037957.0,
      "step": 5370
    },
    {
      "epoch": 0.7098863335976738,
      "grad_norm": 0.816036043316569,
      "learning_rate": 3.118866265426036e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8068764209747314,
      "num_tokens": 188103493.0,
      "step": 5371
    },
    {
      "epoch": 0.7100185038329369,
      "grad_norm": 0.8453357069478791,
      "learning_rate": 3.11710475258379e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8140947222709656,
      "num_tokens": 188169029.0,
      "step": 5372
    },
    {
      "epoch": 0.7101506740681999,
      "grad_norm": 0.884424603925073,
      "learning_rate": 3.1153437470101945e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8058539628982544,
      "num_tokens": 188234565.0,
      "step": 5373
    },
    {
      "epoch": 0.7102828443034629,
      "grad_norm": 0.9217152633865379,
      "learning_rate": 3.113583249080126e-06,
      "loss": 0.6637,
      "mean_token_accuracy": 0.7802466154098511,
      "num_tokens": 188300101.0,
      "step": 5374
    },
    {
      "epoch": 0.7104150145387259,
      "grad_norm": 0.8755605966210478,
      "learning_rate": 3.111823259168358e-06,
      "loss": 0.5371,
      "mean_token_accuracy": 0.8201227188110352,
      "num_tokens": 188365637.0,
      "step": 5375
    },
    {
      "epoch": 0.7105471847739889,
      "grad_norm": 0.8061696705685192,
      "learning_rate": 3.110063777649558e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 188431173.0,
      "step": 5376
    },
    {
      "epoch": 0.710679355009252,
      "grad_norm": 0.853377364484542,
      "learning_rate": 3.1083048048982823e-06,
      "loss": 0.5607,
      "mean_token_accuracy": 0.8107068538665771,
      "num_tokens": 188496709.0,
      "step": 5377
    },
    {
      "epoch": 0.710811525244515,
      "grad_norm": 0.7321677698126827,
      "learning_rate": 3.106546341288977e-06,
      "loss": 0.5315,
      "mean_token_accuracy": 0.8235716223716736,
      "num_tokens": 188562245.0,
      "step": 5378
    },
    {
      "epoch": 0.710943695479778,
      "grad_norm": 0.8471056391691498,
      "learning_rate": 3.1047883871959838e-06,
      "loss": 0.5689,
      "mean_token_accuracy": 0.8116682767868042,
      "num_tokens": 188627781.0,
      "step": 5379
    },
    {
      "epoch": 0.711075865715041,
      "grad_norm": 0.8124952868437275,
      "learning_rate": 3.1030309429935345e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.8133622407913208,
      "num_tokens": 188693317.0,
      "step": 5380
    },
    {
      "epoch": 0.711208035950304,
      "grad_norm": 0.8589483663080786,
      "learning_rate": 3.101274009055754e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.7925772070884705,
      "num_tokens": 188758853.0,
      "step": 5381
    },
    {
      "epoch": 0.711340206185567,
      "grad_norm": 0.8636852732849029,
      "learning_rate": 3.0995175857566536e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 188824389.0,
      "step": 5382
    },
    {
      "epoch": 0.71147237642083,
      "grad_norm": 0.8626033099591522,
      "learning_rate": 3.097761673470141e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.8003754019737244,
      "num_tokens": 188889925.0,
      "step": 5383
    },
    {
      "epoch": 0.7116045466560931,
      "grad_norm": 0.8529005027076093,
      "learning_rate": 3.0960062725700125e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8019777536392212,
      "num_tokens": 188955461.0,
      "step": 5384
    },
    {
      "epoch": 0.7117367168913561,
      "grad_norm": 0.9036213192095492,
      "learning_rate": 3.094251383429957e-06,
      "loss": 0.6398,
      "mean_token_accuracy": 0.7878769636154175,
      "num_tokens": 189020997.0,
      "step": 5385
    },
    {
      "epoch": 0.7118688871266191,
      "grad_norm": 0.7756667920429116,
      "learning_rate": 3.0924970064235554e-06,
      "loss": 0.5486,
      "mean_token_accuracy": 0.8181235790252686,
      "num_tokens": 189086533.0,
      "step": 5386
    },
    {
      "epoch": 0.7120010573618821,
      "grad_norm": 0.8523884453582976,
      "learning_rate": 3.0907431419242743e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7957667112350464,
      "num_tokens": 189152069.0,
      "step": 5387
    },
    {
      "epoch": 0.7121332275971451,
      "grad_norm": 0.868955964775857,
      "learning_rate": 3.0889897903054765e-06,
      "loss": 0.5905,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 189217605.0,
      "step": 5388
    },
    {
      "epoch": 0.7122653978324082,
      "grad_norm": 0.7871528210504051,
      "learning_rate": 3.0872369519404143e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8190696835517883,
      "num_tokens": 189283141.0,
      "step": 5389
    },
    {
      "epoch": 0.7123975680676712,
      "grad_norm": 0.7652278581038692,
      "learning_rate": 3.0854846272022323e-06,
      "loss": 0.5367,
      "mean_token_accuracy": 0.8200158476829529,
      "num_tokens": 189348677.0,
      "step": 5390
    },
    {
      "epoch": 0.7125297383029342,
      "grad_norm": 0.8336455195428548,
      "learning_rate": 3.083732816463959e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.802435576915741,
      "num_tokens": 189414213.0,
      "step": 5391
    },
    {
      "epoch": 0.7126619085381972,
      "grad_norm": 0.795891635672386,
      "learning_rate": 3.0819815200985216e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.8154224157333374,
      "num_tokens": 189479749.0,
      "step": 5392
    },
    {
      "epoch": 0.7127940787734602,
      "grad_norm": 0.7925275677536749,
      "learning_rate": 3.0802307384787338e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8136979341506958,
      "num_tokens": 189545285.0,
      "step": 5393
    },
    {
      "epoch": 0.7129262490087233,
      "grad_norm": 0.796806496949463,
      "learning_rate": 3.0784804719773026e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.7982847094535828,
      "num_tokens": 189610821.0,
      "step": 5394
    },
    {
      "epoch": 0.7130584192439863,
      "grad_norm": 0.8977249065339525,
      "learning_rate": 3.0767307209668176e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7971859574317932,
      "num_tokens": 189676357.0,
      "step": 5395
    },
    {
      "epoch": 0.7131905894792493,
      "grad_norm": 0.7918570054958026,
      "learning_rate": 3.0749814858197715e-06,
      "loss": 0.5316,
      "mean_token_accuracy": 0.8234342336654663,
      "num_tokens": 189741893.0,
      "step": 5396
    },
    {
      "epoch": 0.7133227597145123,
      "grad_norm": 0.930312470513881,
      "learning_rate": 3.073232766908535e-06,
      "loss": 0.6314,
      "mean_token_accuracy": 0.7916310429573059,
      "num_tokens": 189807429.0,
      "step": 5397
    },
    {
      "epoch": 0.7134549299497753,
      "grad_norm": 0.8826625222319114,
      "learning_rate": 3.0714845646053737e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8048620223999023,
      "num_tokens": 189872965.0,
      "step": 5398
    },
    {
      "epoch": 0.7135871001850383,
      "grad_norm": 0.8098373781963543,
      "learning_rate": 3.069736879282446e-06,
      "loss": 0.586,
      "mean_token_accuracy": 0.8048315048217773,
      "num_tokens": 189938501.0,
      "step": 5399
    },
    {
      "epoch": 0.7137192704203014,
      "grad_norm": 0.7909825599860894,
      "learning_rate": 3.0679897113117985e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8107068538665771,
      "num_tokens": 190004037.0,
      "step": 5400
    },
    {
      "epoch": 0.7138514406555644,
      "grad_norm": 0.9027790874430766,
      "learning_rate": 3.0662430610653628e-06,
      "loss": 0.5803,
      "mean_token_accuracy": 0.8058234453201294,
      "num_tokens": 190069573.0,
      "step": 5401
    },
    {
      "epoch": 0.7139836108908274,
      "grad_norm": 0.789769485394909,
      "learning_rate": 3.064496928914965e-06,
      "loss": 0.55,
      "mean_token_accuracy": 0.816429615020752,
      "num_tokens": 190135109.0,
      "step": 5402
    },
    {
      "epoch": 0.7141157811260904,
      "grad_norm": 0.7451456302036338,
      "learning_rate": 3.0627513152323227e-06,
      "loss": 0.5148,
      "mean_token_accuracy": 0.8277987837791443,
      "num_tokens": 190200645.0,
      "step": 5403
    },
    {
      "epoch": 0.7142479513613534,
      "grad_norm": 0.7522991795771474,
      "learning_rate": 3.061006220389039e-06,
      "loss": 0.5429,
      "mean_token_accuracy": 0.8196191191673279,
      "num_tokens": 190266181.0,
      "step": 5404
    },
    {
      "epoch": 0.7143801215966165,
      "grad_norm": 0.8273730137632636,
      "learning_rate": 3.0592616447566103e-06,
      "loss": 0.576,
      "mean_token_accuracy": 0.8071816563606262,
      "num_tokens": 190331717.0,
      "step": 5405
    },
    {
      "epoch": 0.7145122918318795,
      "grad_norm": 0.8465658147069588,
      "learning_rate": 3.057517588706417e-06,
      "loss": 0.606,
      "mean_token_accuracy": 0.7994139790534973,
      "num_tokens": 190397253.0,
      "step": 5406
    },
    {
      "epoch": 0.7146444620671425,
      "grad_norm": 0.877612746705085,
      "learning_rate": 3.0557740526097345e-06,
      "loss": 0.6441,
      "mean_token_accuracy": 0.7859083414077759,
      "num_tokens": 190462789.0,
      "step": 5407
    },
    {
      "epoch": 0.7147766323024055,
      "grad_norm": 0.8478059290383626,
      "learning_rate": 3.0540310368377213e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7951868176460266,
      "num_tokens": 190528325.0,
      "step": 5408
    },
    {
      "epoch": 0.7149088025376685,
      "grad_norm": 0.7621409216495232,
      "learning_rate": 3.0522885417614354e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8040532469749451,
      "num_tokens": 190593861.0,
      "step": 5409
    },
    {
      "epoch": 0.7150409727729315,
      "grad_norm": 0.836160258346611,
      "learning_rate": 3.050546567751813e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.7959761023521423,
      "num_tokens": 190655401.0,
      "step": 5410
    },
    {
      "epoch": 0.7151731430081946,
      "grad_norm": 0.7684705846412905,
      "learning_rate": 3.048805115179686e-06,
      "loss": 0.525,
      "mean_token_accuracy": 0.8245177865028381,
      "num_tokens": 190720937.0,
      "step": 5411
    },
    {
      "epoch": 0.7153053132434576,
      "grad_norm": 0.8817784893617384,
      "learning_rate": 3.0470641844157726e-06,
      "loss": 0.6326,
      "mean_token_accuracy": 0.7920278310775757,
      "num_tokens": 190786473.0,
      "step": 5412
    },
    {
      "epoch": 0.7154374834787206,
      "grad_norm": 0.8656261860252942,
      "learning_rate": 3.045323775830682e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.7958430051803589,
      "num_tokens": 190852009.0,
      "step": 5413
    },
    {
      "epoch": 0.7155696537139836,
      "grad_norm": 0.8296765956016714,
      "learning_rate": 3.043583889794906e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8081888556480408,
      "num_tokens": 190917545.0,
      "step": 5414
    },
    {
      "epoch": 0.7157018239492466,
      "grad_norm": 0.807712840946216,
      "learning_rate": 3.041844526678838e-06,
      "loss": 0.5278,
      "mean_token_accuracy": 0.8264406323432922,
      "num_tokens": 190983081.0,
      "step": 5415
    },
    {
      "epoch": 0.7158339941845097,
      "grad_norm": 0.8179859271840554,
      "learning_rate": 3.0401056868527445e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8140642046928406,
      "num_tokens": 191048617.0,
      "step": 5416
    },
    {
      "epoch": 0.7159661644197727,
      "grad_norm": 0.8478101972153582,
      "learning_rate": 3.038367370686792e-06,
      "loss": 0.6286,
      "mean_token_accuracy": 0.7924246191978455,
      "num_tokens": 191114153.0,
      "step": 5417
    },
    {
      "epoch": 0.7160983346550357,
      "grad_norm": 0.7991682631411334,
      "learning_rate": 3.036629578551031e-06,
      "loss": 0.5633,
      "mean_token_accuracy": 0.8094402551651001,
      "num_tokens": 191179689.0,
      "step": 5418
    },
    {
      "epoch": 0.7162305048902987,
      "grad_norm": 0.8300658512019299,
      "learning_rate": 3.0348923108154037e-06,
      "loss": 0.5841,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 191245225.0,
      "step": 5419
    },
    {
      "epoch": 0.7163626751255617,
      "grad_norm": 0.8639929642799369,
      "learning_rate": 3.0331555678497336e-06,
      "loss": 0.6041,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 191310761.0,
      "step": 5420
    },
    {
      "epoch": 0.7164948453608248,
      "grad_norm": 0.8853700327890464,
      "learning_rate": 3.031419350023739e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7939659357070923,
      "num_tokens": 191376297.0,
      "step": 5421
    },
    {
      "epoch": 0.7166270155960878,
      "grad_norm": 0.8166119659049418,
      "learning_rate": 3.029683657707024e-06,
      "loss": 0.5636,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 191441833.0,
      "step": 5422
    },
    {
      "epoch": 0.7167591858313508,
      "grad_norm": 0.7690950568890899,
      "learning_rate": 3.0279484912690842e-06,
      "loss": 0.5381,
      "mean_token_accuracy": 0.821999728679657,
      "num_tokens": 191507369.0,
      "step": 5423
    },
    {
      "epoch": 0.7168913560666138,
      "grad_norm": 0.8076490584442741,
      "learning_rate": 3.026213851079296e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8144762516021729,
      "num_tokens": 191572905.0,
      "step": 5424
    },
    {
      "epoch": 0.7170235263018768,
      "grad_norm": 0.8401843769616235,
      "learning_rate": 3.0244797375069303e-06,
      "loss": 0.5418,
      "mean_token_accuracy": 0.8190391659736633,
      "num_tokens": 191638441.0,
      "step": 5425
    },
    {
      "epoch": 0.7171556965371398,
      "grad_norm": 0.8151287974710575,
      "learning_rate": 3.0227461509211443e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8016725778579712,
      "num_tokens": 191703977.0,
      "step": 5426
    },
    {
      "epoch": 0.7172878667724029,
      "grad_norm": 0.8122101870871313,
      "learning_rate": 3.0210130916909787e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.8104016780853271,
      "num_tokens": 191769513.0,
      "step": 5427
    },
    {
      "epoch": 0.7174200370076659,
      "grad_norm": 0.8398183606162913,
      "learning_rate": 3.0192805601853713e-06,
      "loss": 0.6128,
      "mean_token_accuracy": 0.7970943450927734,
      "num_tokens": 191835049.0,
      "step": 5428
    },
    {
      "epoch": 0.7175522072429289,
      "grad_norm": 0.7878514018153342,
      "learning_rate": 3.0175485567731372e-06,
      "loss": 0.5526,
      "mean_token_accuracy": 0.816246509552002,
      "num_tokens": 191900585.0,
      "step": 5429
    },
    {
      "epoch": 0.7176843774781919,
      "grad_norm": 0.8279086494723522,
      "learning_rate": 3.015817081822986e-06,
      "loss": 0.6211,
      "mean_token_accuracy": 0.7970180511474609,
      "num_tokens": 191966121.0,
      "step": 5430
    },
    {
      "epoch": 0.7178165477134549,
      "grad_norm": 0.7558359237818414,
      "learning_rate": 3.014086135703511e-06,
      "loss": 0.4956,
      "mean_token_accuracy": 0.8368178606033325,
      "num_tokens": 192031657.0,
      "step": 5431
    },
    {
      "epoch": 0.717948717948718,
      "grad_norm": 0.8328934950469075,
      "learning_rate": 3.0123557187831987e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 192097193.0,
      "step": 5432
    },
    {
      "epoch": 0.718080888183981,
      "grad_norm": 0.8318825945235999,
      "learning_rate": 3.0106258314304116e-06,
      "loss": 0.6376,
      "mean_token_accuracy": 0.7896013855934143,
      "num_tokens": 192162729.0,
      "step": 5433
    },
    {
      "epoch": 0.718213058419244,
      "grad_norm": 0.8532175703915357,
      "learning_rate": 3.0088964740134143e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.799062967300415,
      "num_tokens": 192228265.0,
      "step": 5434
    },
    {
      "epoch": 0.718345228654507,
      "grad_norm": 0.8730115551114802,
      "learning_rate": 3.0071676469003447e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.79349285364151,
      "num_tokens": 192293801.0,
      "step": 5435
    },
    {
      "epoch": 0.71847739888977,
      "grad_norm": 0.7421519812881983,
      "learning_rate": 3.0054393504592366e-06,
      "loss": 0.5327,
      "mean_token_accuracy": 0.821603000164032,
      "num_tokens": 192359337.0,
      "step": 5436
    },
    {
      "epoch": 0.718609569125033,
      "grad_norm": 0.7914175811507131,
      "learning_rate": 3.0037115850580083e-06,
      "loss": 0.5268,
      "mean_token_accuracy": 0.8250671625137329,
      "num_tokens": 192424873.0,
      "step": 5437
    },
    {
      "epoch": 0.7187417393602961,
      "grad_norm": 0.846071481960163,
      "learning_rate": 3.001984351064467e-06,
      "loss": 0.5673,
      "mean_token_accuracy": 0.8099438548088074,
      "num_tokens": 192490409.0,
      "step": 5438
    },
    {
      "epoch": 0.7188739095955591,
      "grad_norm": 0.7463624765220054,
      "learning_rate": 3.0002576488463003e-06,
      "loss": 0.5097,
      "mean_token_accuracy": 0.8293401002883911,
      "num_tokens": 192555945.0,
      "step": 5439
    },
    {
      "epoch": 0.7190060798308221,
      "grad_norm": 0.7835927490726089,
      "learning_rate": 2.9985314787710895e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 192621481.0,
      "step": 5440
    },
    {
      "epoch": 0.7191382500660851,
      "grad_norm": 0.7567277018020261,
      "learning_rate": 2.996805841206302e-06,
      "loss": 0.4969,
      "mean_token_accuracy": 0.8371230363845825,
      "num_tokens": 192687017.0,
      "step": 5441
    },
    {
      "epoch": 0.7192704203013481,
      "grad_norm": 0.8493108182207835,
      "learning_rate": 2.9950807365192858e-06,
      "loss": 0.543,
      "mean_token_accuracy": 0.8192070722579956,
      "num_tokens": 192752553.0,
      "step": 5442
    },
    {
      "epoch": 0.7194025905366112,
      "grad_norm": 0.8363819581925149,
      "learning_rate": 2.9933561650772817e-06,
      "loss": 0.5927,
      "mean_token_accuracy": 0.8039616942405701,
      "num_tokens": 192818089.0,
      "step": 5443
    },
    {
      "epoch": 0.7195347607718742,
      "grad_norm": 0.8435751609237532,
      "learning_rate": 2.991632127247416e-06,
      "loss": 0.6487,
      "mean_token_accuracy": 0.7832987308502197,
      "num_tokens": 192883625.0,
      "step": 5444
    },
    {
      "epoch": 0.7196669310071372,
      "grad_norm": 0.8410864606126462,
      "learning_rate": 2.9899086233967003e-06,
      "loss": 0.5803,
      "mean_token_accuracy": 0.807792067527771,
      "num_tokens": 192949161.0,
      "step": 5445
    },
    {
      "epoch": 0.7197991012424002,
      "grad_norm": 0.8045561139550892,
      "learning_rate": 2.9881856538920286e-06,
      "loss": 0.5634,
      "mean_token_accuracy": 0.8132706880569458,
      "num_tokens": 193014697.0,
      "step": 5446
    },
    {
      "epoch": 0.7199312714776632,
      "grad_norm": 0.8062963475643644,
      "learning_rate": 2.9864632191001915e-06,
      "loss": 0.5233,
      "mean_token_accuracy": 0.8243803977966309,
      "num_tokens": 193080233.0,
      "step": 5447
    },
    {
      "epoch": 0.7200634417129262,
      "grad_norm": 0.84537791166157,
      "learning_rate": 2.984741319387854e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8062812685966492,
      "num_tokens": 193145769.0,
      "step": 5448
    },
    {
      "epoch": 0.7201956119481893,
      "grad_norm": 0.7610367915522307,
      "learning_rate": 2.983019955121576e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8130112290382385,
      "num_tokens": 193211305.0,
      "step": 5449
    },
    {
      "epoch": 0.7203277821834523,
      "grad_norm": 0.8437581235596313,
      "learning_rate": 2.9812991266677984e-06,
      "loss": 0.625,
      "mean_token_accuracy": 0.7950341701507568,
      "num_tokens": 193276841.0,
      "step": 5450
    },
    {
      "epoch": 0.7204599524187153,
      "grad_norm": 0.7963157920882843,
      "learning_rate": 2.9795788343928512e-06,
      "loss": 0.5661,
      "mean_token_accuracy": 0.8128891587257385,
      "num_tokens": 193342377.0,
      "step": 5451
    },
    {
      "epoch": 0.7205921226539783,
      "grad_norm": 0.7750613826389281,
      "learning_rate": 2.977859078662946e-06,
      "loss": 0.5275,
      "mean_token_accuracy": 0.8238157629966736,
      "num_tokens": 193407913.0,
      "step": 5452
    },
    {
      "epoch": 0.7207242928892413,
      "grad_norm": 0.8417841751623636,
      "learning_rate": 2.976139859844185e-06,
      "loss": 0.5949,
      "mean_token_accuracy": 0.8012452721595764,
      "num_tokens": 193473449.0,
      "step": 5453
    },
    {
      "epoch": 0.7208564631245044,
      "grad_norm": 0.8280855788993061,
      "learning_rate": 2.974421178302553e-06,
      "loss": 0.5712,
      "mean_token_accuracy": 0.8095165491104126,
      "num_tokens": 193538985.0,
      "step": 5454
    },
    {
      "epoch": 0.7209886333597674,
      "grad_norm": 0.8786653968718129,
      "learning_rate": 2.972703034403923e-06,
      "loss": 0.6243,
      "mean_token_accuracy": 0.7955988049507141,
      "num_tokens": 193604521.0,
      "step": 5455
    },
    {
      "epoch": 0.7211208035950304,
      "grad_norm": 0.7655082174100808,
      "learning_rate": 2.9709854285140487e-06,
      "loss": 0.5186,
      "mean_token_accuracy": 0.8280429840087891,
      "num_tokens": 193670057.0,
      "step": 5456
    },
    {
      "epoch": 0.7212529738302934,
      "grad_norm": 0.8059859189960397,
      "learning_rate": 2.9692683609985774e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 193735593.0,
      "step": 5457
    },
    {
      "epoch": 0.7213851440655564,
      "grad_norm": 0.8227218264371662,
      "learning_rate": 2.967551832223032e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8075326681137085,
      "num_tokens": 193801129.0,
      "step": 5458
    },
    {
      "epoch": 0.7215173143008194,
      "grad_norm": 0.8448864489785901,
      "learning_rate": 2.965835842552829e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8123703002929688,
      "num_tokens": 193866665.0,
      "step": 5459
    },
    {
      "epoch": 0.7216494845360825,
      "grad_norm": 0.8297806494333214,
      "learning_rate": 2.9641203923532665e-06,
      "loss": 0.5434,
      "mean_token_accuracy": 0.8196343779563904,
      "num_tokens": 193932201.0,
      "step": 5460
    },
    {
      "epoch": 0.7217816547713455,
      "grad_norm": 0.857581479159413,
      "learning_rate": 2.9624054819895256e-06,
      "loss": 0.5637,
      "mean_token_accuracy": 0.8143541812896729,
      "num_tokens": 193997737.0,
      "step": 5461
    },
    {
      "epoch": 0.7219138250066085,
      "grad_norm": 0.8522352093076266,
      "learning_rate": 2.9606911118266757e-06,
      "loss": 0.5713,
      "mean_token_accuracy": 0.8117751479148865,
      "num_tokens": 194063273.0,
      "step": 5462
    },
    {
      "epoch": 0.7220459952418715,
      "grad_norm": 0.8354258026945549,
      "learning_rate": 2.958977282229672e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.8019319772720337,
      "num_tokens": 194128809.0,
      "step": 5463
    },
    {
      "epoch": 0.7221781654771345,
      "grad_norm": 0.8705119245707238,
      "learning_rate": 2.9572639935633533e-06,
      "loss": 0.573,
      "mean_token_accuracy": 0.808509349822998,
      "num_tokens": 194194345.0,
      "step": 5464
    },
    {
      "epoch": 0.7223103357123976,
      "grad_norm": 0.9310814265276997,
      "learning_rate": 2.955551246192439e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7988951206207275,
      "num_tokens": 194259881.0,
      "step": 5465
    },
    {
      "epoch": 0.7224425059476606,
      "grad_norm": 0.784765347751049,
      "learning_rate": 2.953839040481543e-06,
      "loss": 0.5623,
      "mean_token_accuracy": 0.8167195916175842,
      "num_tokens": 194325417.0,
      "step": 5466
    },
    {
      "epoch": 0.7225746761829236,
      "grad_norm": 0.9115134698919436,
      "learning_rate": 2.952127376795154e-06,
      "loss": 0.615,
      "mean_token_accuracy": 0.7958887815475464,
      "num_tokens": 194390953.0,
      "step": 5467
    },
    {
      "epoch": 0.7227068464181866,
      "grad_norm": 0.7735214307011355,
      "learning_rate": 2.950416255497652e-06,
      "loss": 0.5362,
      "mean_token_accuracy": 0.821786105632782,
      "num_tokens": 194456489.0,
      "step": 5468
    },
    {
      "epoch": 0.7228390166534496,
      "grad_norm": 0.757003080824117,
      "learning_rate": 2.948705676953295e-06,
      "loss": 0.5357,
      "mean_token_accuracy": 0.8206415772438049,
      "num_tokens": 194522025.0,
      "step": 5469
    },
    {
      "epoch": 0.7229711868887126,
      "grad_norm": 0.8749391385686787,
      "learning_rate": 2.946995641526236e-06,
      "loss": 0.6007,
      "mean_token_accuracy": 0.8009247779846191,
      "num_tokens": 194587561.0,
      "step": 5470
    },
    {
      "epoch": 0.7231033571239757,
      "grad_norm": 0.872103220147921,
      "learning_rate": 2.9452861495804984e-06,
      "loss": 0.6013,
      "mean_token_accuracy": 0.8023898005485535,
      "num_tokens": 194653097.0,
      "step": 5471
    },
    {
      "epoch": 0.7232355273592387,
      "grad_norm": 0.8359343724484011,
      "learning_rate": 2.9435772014800024e-06,
      "loss": 0.5466,
      "mean_token_accuracy": 0.8191002607345581,
      "num_tokens": 194718633.0,
      "step": 5472
    },
    {
      "epoch": 0.7233676975945017,
      "grad_norm": 0.8849245152774009,
      "learning_rate": 2.9418687975885455e-06,
      "loss": 0.5969,
      "mean_token_accuracy": 0.8028171062469482,
      "num_tokens": 194784169.0,
      "step": 5473
    },
    {
      "epoch": 0.7234998678297647,
      "grad_norm": 0.8661681412302036,
      "learning_rate": 2.9401609382698137e-06,
      "loss": 0.6052,
      "mean_token_accuracy": 0.7998870611190796,
      "num_tokens": 194849705.0,
      "step": 5474
    },
    {
      "epoch": 0.7236320380650277,
      "grad_norm": 0.8528553727577467,
      "learning_rate": 2.9384536238873694e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7928519248962402,
      "num_tokens": 194915241.0,
      "step": 5475
    },
    {
      "epoch": 0.7237642083002908,
      "grad_norm": 0.8282744983337703,
      "learning_rate": 2.9367468548046696e-06,
      "loss": 0.6095,
      "mean_token_accuracy": 0.7956293225288391,
      "num_tokens": 194980777.0,
      "step": 5476
    },
    {
      "epoch": 0.7238963785355538,
      "grad_norm": 0.8470648046445529,
      "learning_rate": 2.935040631385047e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.8081430792808533,
      "num_tokens": 195046313.0,
      "step": 5477
    },
    {
      "epoch": 0.7240285487708168,
      "grad_norm": 0.825005915170052,
      "learning_rate": 2.933334953991721e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8066933155059814,
      "num_tokens": 195111849.0,
      "step": 5478
    },
    {
      "epoch": 0.7241607190060798,
      "grad_norm": 0.910626136559436,
      "learning_rate": 2.931629822987797e-06,
      "loss": 0.566,
      "mean_token_accuracy": 0.8138963580131531,
      "num_tokens": 195177385.0,
      "step": 5479
    },
    {
      "epoch": 0.7242928892413428,
      "grad_norm": 0.8349267006279545,
      "learning_rate": 2.929925238736258e-06,
      "loss": 0.5622,
      "mean_token_accuracy": 0.8142168521881104,
      "num_tokens": 195242921.0,
      "step": 5480
    },
    {
      "epoch": 0.7244250594766058,
      "grad_norm": 0.848975077605387,
      "learning_rate": 2.9282212015999766e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.7994597554206848,
      "num_tokens": 195308457.0,
      "step": 5481
    },
    {
      "epoch": 0.7245572297118689,
      "grad_norm": 0.8501871801916764,
      "learning_rate": 2.9265177119417065e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7935691475868225,
      "num_tokens": 195373993.0,
      "step": 5482
    },
    {
      "epoch": 0.7246893999471319,
      "grad_norm": 0.8601022440084639,
      "learning_rate": 2.924814770124087e-06,
      "loss": 0.6082,
      "mean_token_accuracy": 0.7971554398536682,
      "num_tokens": 195439529.0,
      "step": 5483
    },
    {
      "epoch": 0.7248215701823949,
      "grad_norm": 0.8566940881979904,
      "learning_rate": 2.9231123765096348e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8087077140808105,
      "num_tokens": 195505065.0,
      "step": 5484
    },
    {
      "epoch": 0.7249537404176579,
      "grad_norm": 0.7932233310700447,
      "learning_rate": 2.9214105314607566e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.807517409324646,
      "num_tokens": 195570601.0,
      "step": 5485
    },
    {
      "epoch": 0.7250859106529209,
      "grad_norm": 0.8442319321060676,
      "learning_rate": 2.919709235339739e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7852215766906738,
      "num_tokens": 195636137.0,
      "step": 5486
    },
    {
      "epoch": 0.725218080888184,
      "grad_norm": 0.9035944815791314,
      "learning_rate": 2.918008488508754e-06,
      "loss": 0.5877,
      "mean_token_accuracy": 0.8058081865310669,
      "num_tokens": 195701673.0,
      "step": 5487
    },
    {
      "epoch": 0.725350251123447,
      "grad_norm": 0.8289858163847236,
      "learning_rate": 2.9163082913298503e-06,
      "loss": 0.5173,
      "mean_token_accuracy": 0.8289433717727661,
      "num_tokens": 195767209.0,
      "step": 5488
    },
    {
      "epoch": 0.72548242135871,
      "grad_norm": 0.795749546254593,
      "learning_rate": 2.914608644164971e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.812298595905304,
      "num_tokens": 195832704.0,
      "step": 5489
    },
    {
      "epoch": 0.725614591593973,
      "grad_norm": 0.9226486786840575,
      "learning_rate": 2.9129095473759315e-06,
      "loss": 0.603,
      "mean_token_accuracy": 0.7993834614753723,
      "num_tokens": 195898240.0,
      "step": 5490
    },
    {
      "epoch": 0.725746761829236,
      "grad_norm": 0.8408183379948904,
      "learning_rate": 2.9112110013244345e-06,
      "loss": 0.549,
      "mean_token_accuracy": 0.8149188160896301,
      "num_tokens": 195963776.0,
      "step": 5491
    },
    {
      "epoch": 0.725878932064499,
      "grad_norm": 0.9083969648654344,
      "learning_rate": 2.9095130063720645e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.8011079430580139,
      "num_tokens": 196029312.0,
      "step": 5492
    },
    {
      "epoch": 0.7260111022997621,
      "grad_norm": 0.8507941264228468,
      "learning_rate": 2.9078155628802924e-06,
      "loss": 0.5519,
      "mean_token_accuracy": 0.8161091208457947,
      "num_tokens": 196094848.0,
      "step": 5493
    },
    {
      "epoch": 0.7261432725350251,
      "grad_norm": 0.7951524508469963,
      "learning_rate": 2.9061186712104624e-06,
      "loss": 0.5681,
      "mean_token_accuracy": 0.8110273480415344,
      "num_tokens": 196160384.0,
      "step": 5494
    },
    {
      "epoch": 0.7262754427702881,
      "grad_norm": 0.8042421845796699,
      "learning_rate": 2.9044223317238145e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.7988035678863525,
      "num_tokens": 196225920.0,
      "step": 5495
    },
    {
      "epoch": 0.7264076130055511,
      "grad_norm": 0.841248913682327,
      "learning_rate": 2.902726544781459e-06,
      "loss": 0.6097,
      "mean_token_accuracy": 0.7967281341552734,
      "num_tokens": 196291456.0,
      "step": 5496
    },
    {
      "epoch": 0.7265397832408141,
      "grad_norm": 0.8623225298402409,
      "learning_rate": 2.9010313107443943e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 196356992.0,
      "step": 5497
    },
    {
      "epoch": 0.7266719534760772,
      "grad_norm": 0.8144146239420443,
      "learning_rate": 2.8993366299735027e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8035038709640503,
      "num_tokens": 196422528.0,
      "step": 5498
    },
    {
      "epoch": 0.7268041237113402,
      "grad_norm": 0.8307552037807752,
      "learning_rate": 2.897642502829543e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.803458034992218,
      "num_tokens": 196488064.0,
      "step": 5499
    },
    {
      "epoch": 0.7269362939466032,
      "grad_norm": 0.8206179783402182,
      "learning_rate": 2.895948929673162e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8056403398513794,
      "num_tokens": 196553600.0,
      "step": 5500
    },
    {
      "epoch": 0.7270684641818662,
      "grad_norm": 0.8191099043086519,
      "learning_rate": 2.8942559108648845e-06,
      "loss": 0.5348,
      "mean_token_accuracy": 0.8205652832984924,
      "num_tokens": 196619136.0,
      "step": 5501
    },
    {
      "epoch": 0.7272006344171292,
      "grad_norm": 0.8270435296796407,
      "learning_rate": 2.892563446765121e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8031070828437805,
      "num_tokens": 196684672.0,
      "step": 5502
    },
    {
      "epoch": 0.7273328046523923,
      "grad_norm": 0.9270414759486388,
      "learning_rate": 2.890871537734159e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7859693765640259,
      "num_tokens": 196750208.0,
      "step": 5503
    },
    {
      "epoch": 0.7274649748876553,
      "grad_norm": 0.7754082248765737,
      "learning_rate": 2.889180184132172e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.812873899936676,
      "num_tokens": 196815744.0,
      "step": 5504
    },
    {
      "epoch": 0.7275971451229183,
      "grad_norm": 0.8709256404774492,
      "learning_rate": 2.8874893863192134e-06,
      "loss": 0.6198,
      "mean_token_accuracy": 0.7940574884414673,
      "num_tokens": 196881280.0,
      "step": 5505
    },
    {
      "epoch": 0.7277293153581813,
      "grad_norm": 0.8751576788540847,
      "learning_rate": 2.8857991446552213e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.7940269708633423,
      "num_tokens": 196946816.0,
      "step": 5506
    },
    {
      "epoch": 0.7278614855934443,
      "grad_norm": 0.7705594253657568,
      "learning_rate": 2.8841094595000075e-06,
      "loss": 0.5344,
      "mean_token_accuracy": 0.821664035320282,
      "num_tokens": 197012352.0,
      "step": 5507
    },
    {
      "epoch": 0.7279936558287073,
      "grad_norm": 0.8616527961812496,
      "learning_rate": 2.882420331213277e-06,
      "loss": 0.5751,
      "mean_token_accuracy": 0.8075631856918335,
      "num_tokens": 197077888.0,
      "step": 5508
    },
    {
      "epoch": 0.7281258260639704,
      "grad_norm": 0.847937722591521,
      "learning_rate": 2.880731760154605e-06,
      "loss": 0.5911,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 197143424.0,
      "step": 5509
    },
    {
      "epoch": 0.7282579962992334,
      "grad_norm": 0.7388522319138318,
      "learning_rate": 2.8790437466834548e-06,
      "loss": 0.4959,
      "mean_token_accuracy": 0.8334299921989441,
      "num_tokens": 197208960.0,
      "step": 5510
    },
    {
      "epoch": 0.7283901665344964,
      "grad_norm": 0.874112277591049,
      "learning_rate": 2.8773562911591695e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8051977753639221,
      "num_tokens": 197274496.0,
      "step": 5511
    },
    {
      "epoch": 0.7285223367697594,
      "grad_norm": 0.8472067205225051,
      "learning_rate": 2.8756693939409745e-06,
      "loss": 0.6333,
      "mean_token_accuracy": 0.7897081971168518,
      "num_tokens": 197340032.0,
      "step": 5512
    },
    {
      "epoch": 0.7286545070050224,
      "grad_norm": 0.8219204975678687,
      "learning_rate": 2.873983055387972e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8100659251213074,
      "num_tokens": 197405568.0,
      "step": 5513
    },
    {
      "epoch": 0.7287866772402855,
      "grad_norm": 0.893849698271372,
      "learning_rate": 2.8722972758591493e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7964839339256287,
      "num_tokens": 197471104.0,
      "step": 5514
    },
    {
      "epoch": 0.7289188474755485,
      "grad_norm": 0.7833431946012684,
      "learning_rate": 2.870612055713375e-06,
      "loss": 0.5732,
      "mean_token_accuracy": 0.8099896311759949,
      "num_tokens": 197536640.0,
      "step": 5515
    },
    {
      "epoch": 0.7290510177108115,
      "grad_norm": 0.8100351164628206,
      "learning_rate": 2.868927395309397e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8061897158622742,
      "num_tokens": 197602176.0,
      "step": 5516
    },
    {
      "epoch": 0.7291831879460745,
      "grad_norm": 0.8763019495118993,
      "learning_rate": 2.8672432950058427e-06,
      "loss": 0.6376,
      "mean_token_accuracy": 0.7885026335716248,
      "num_tokens": 197667712.0,
      "step": 5517
    },
    {
      "epoch": 0.7293153581813375,
      "grad_norm": 0.8897918683359164,
      "learning_rate": 2.8655597551612225e-06,
      "loss": 0.6199,
      "mean_token_accuracy": 0.7942711710929871,
      "num_tokens": 197733248.0,
      "step": 5518
    },
    {
      "epoch": 0.7294475284166005,
      "grad_norm": 0.8284619215148081,
      "learning_rate": 2.8638767761339276e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8008332252502441,
      "num_tokens": 197798784.0,
      "step": 5519
    },
    {
      "epoch": 0.7295796986518636,
      "grad_norm": 0.850791133357161,
      "learning_rate": 2.862194358282229e-06,
      "loss": 0.5873,
      "mean_token_accuracy": 0.8048620223999023,
      "num_tokens": 197864320.0,
      "step": 5520
    },
    {
      "epoch": 0.7297118688871266,
      "grad_norm": 0.7450316362592889,
      "learning_rate": 2.8605125019642787e-06,
      "loss": 0.5099,
      "mean_token_accuracy": 0.8303167819976807,
      "num_tokens": 197929856.0,
      "step": 5521
    },
    {
      "epoch": 0.7298440391223896,
      "grad_norm": 0.8342651529525521,
      "learning_rate": 2.8588312075381076e-06,
      "loss": 0.5568,
      "mean_token_accuracy": 0.8146135807037354,
      "num_tokens": 197995392.0,
      "step": 5522
    },
    {
      "epoch": 0.7299762093576526,
      "grad_norm": 0.7890224852105553,
      "learning_rate": 2.8571504753616284e-06,
      "loss": 0.5392,
      "mean_token_accuracy": 0.8181540966033936,
      "num_tokens": 198060928.0,
      "step": 5523
    },
    {
      "epoch": 0.7301083795929156,
      "grad_norm": 0.7581997357962819,
      "learning_rate": 2.8554703057926346e-06,
      "loss": 0.5248,
      "mean_token_accuracy": 0.8244566917419434,
      "num_tokens": 198126464.0,
      "step": 5524
    },
    {
      "epoch": 0.7302405498281787,
      "grad_norm": 0.8719553461490172,
      "learning_rate": 2.8537906991887998e-06,
      "loss": 0.6294,
      "mean_token_accuracy": 0.7898455858230591,
      "num_tokens": 198192000.0,
      "step": 5525
    },
    {
      "epoch": 0.7303727200634417,
      "grad_norm": 0.8554468641562586,
      "learning_rate": 2.8521116559076735e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8046941757202148,
      "num_tokens": 198257536.0,
      "step": 5526
    },
    {
      "epoch": 0.7305048902987047,
      "grad_norm": 0.7343959401603378,
      "learning_rate": 2.850433176306695e-06,
      "loss": 0.524,
      "mean_token_accuracy": 0.827020525932312,
      "num_tokens": 198323072.0,
      "step": 5527
    },
    {
      "epoch": 0.7306370605339677,
      "grad_norm": 0.7374142556082205,
      "learning_rate": 2.8487552607431724e-06,
      "loss": 0.494,
      "mean_token_accuracy": 0.8346660733222961,
      "num_tokens": 198388608.0,
      "step": 5528
    },
    {
      "epoch": 0.7307692307692307,
      "grad_norm": 0.8154331408493187,
      "learning_rate": 2.8470779095743028e-06,
      "loss": 0.6037,
      "mean_token_accuracy": 0.8006806373596191,
      "num_tokens": 198454144.0,
      "step": 5529
    },
    {
      "epoch": 0.7309014010044937,
      "grad_norm": 0.7723348094545817,
      "learning_rate": 2.8454011231571537e-06,
      "loss": 0.5286,
      "mean_token_accuracy": 0.8251434564590454,
      "num_tokens": 198519680.0,
      "step": 5530
    },
    {
      "epoch": 0.7310335712397568,
      "grad_norm": 0.8053788080844512,
      "learning_rate": 2.843724901848685e-06,
      "loss": 0.6503,
      "mean_token_accuracy": 0.7867018580436707,
      "num_tokens": 198585216.0,
      "step": 5531
    },
    {
      "epoch": 0.7311657414750198,
      "grad_norm": 0.9053365203391704,
      "learning_rate": 2.8420492460057236e-06,
      "loss": 0.6481,
      "mean_token_accuracy": 0.7867781519889832,
      "num_tokens": 198650752.0,
      "step": 5532
    },
    {
      "epoch": 0.7312979117102828,
      "grad_norm": 0.8336053599361084,
      "learning_rate": 2.840374155984984e-06,
      "loss": 0.5503,
      "mean_token_accuracy": 0.818535566329956,
      "num_tokens": 198716288.0,
      "step": 5533
    },
    {
      "epoch": 0.7314300819455458,
      "grad_norm": 0.7921492186007887,
      "learning_rate": 2.8386996321430575e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8057929277420044,
      "num_tokens": 198781824.0,
      "step": 5534
    },
    {
      "epoch": 0.7315622521808088,
      "grad_norm": 0.838804902028901,
      "learning_rate": 2.837025674836418e-06,
      "loss": 0.607,
      "mean_token_accuracy": 0.7975369095802307,
      "num_tokens": 198847360.0,
      "step": 5535
    },
    {
      "epoch": 0.7316944224160719,
      "grad_norm": 0.7725637697546623,
      "learning_rate": 2.83535228442141e-06,
      "loss": 0.5831,
      "mean_token_accuracy": 0.8053198456764221,
      "num_tokens": 198912896.0,
      "step": 5536
    },
    {
      "epoch": 0.7318265926513349,
      "grad_norm": 0.8117866819983476,
      "learning_rate": 2.833679461254268e-06,
      "loss": 0.5818,
      "mean_token_accuracy": 0.8094097375869751,
      "num_tokens": 198978432.0,
      "step": 5537
    },
    {
      "epoch": 0.7319587628865979,
      "grad_norm": 0.8796973759914218,
      "learning_rate": 2.832007205691099e-06,
      "loss": 0.6576,
      "mean_token_accuracy": 0.7811622619628906,
      "num_tokens": 199043968.0,
      "step": 5538
    },
    {
      "epoch": 0.7320909331218609,
      "grad_norm": 0.7555023841699766,
      "learning_rate": 2.8303355180878933e-06,
      "loss": 0.5497,
      "mean_token_accuracy": 0.817482590675354,
      "num_tokens": 199109504.0,
      "step": 5539
    },
    {
      "epoch": 0.7322231033571239,
      "grad_norm": 0.8267318631552975,
      "learning_rate": 2.828664398800518e-06,
      "loss": 0.5512,
      "mean_token_accuracy": 0.816368579864502,
      "num_tokens": 199175040.0,
      "step": 5540
    },
    {
      "epoch": 0.732355273592387,
      "grad_norm": 0.8939372297490488,
      "learning_rate": 2.8269938481847183e-06,
      "loss": 0.5773,
      "mean_token_accuracy": 0.808356761932373,
      "num_tokens": 199240576.0,
      "step": 5541
    },
    {
      "epoch": 0.73248744382765,
      "grad_norm": 0.8626342327217169,
      "learning_rate": 2.825323866596118e-06,
      "loss": 0.5774,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 199306112.0,
      "step": 5542
    },
    {
      "epoch": 0.732619614062913,
      "grad_norm": 0.7827543167071318,
      "learning_rate": 2.8236544543902246e-06,
      "loss": 0.5285,
      "mean_token_accuracy": 0.8221218585968018,
      "num_tokens": 199371648.0,
      "step": 5543
    },
    {
      "epoch": 0.732751784298176,
      "grad_norm": 0.8198728365541706,
      "learning_rate": 2.821985611922421e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.7883042097091675,
      "num_tokens": 199437184.0,
      "step": 5544
    },
    {
      "epoch": 0.732883954533439,
      "grad_norm": 0.7663073922549255,
      "learning_rate": 2.8203173395479666e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8018251657485962,
      "num_tokens": 199502720.0,
      "step": 5545
    },
    {
      "epoch": 0.733016124768702,
      "grad_norm": 0.8610522667369183,
      "learning_rate": 2.818649637622003e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 199568256.0,
      "step": 5546
    },
    {
      "epoch": 0.7331482950039651,
      "grad_norm": 0.8293107429823853,
      "learning_rate": 2.816982506499548e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.7984830737113953,
      "num_tokens": 199633792.0,
      "step": 5547
    },
    {
      "epoch": 0.7332804652392281,
      "grad_norm": 0.8795073629540809,
      "learning_rate": 2.8153159465355023e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8099285960197449,
      "num_tokens": 199699328.0,
      "step": 5548
    },
    {
      "epoch": 0.7334126354744911,
      "grad_norm": 0.8506222788218464,
      "learning_rate": 2.8136499580846366e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 199764864.0,
      "step": 5549
    },
    {
      "epoch": 0.7335448057097541,
      "grad_norm": 0.9006512892768893,
      "learning_rate": 2.81198454150161e-06,
      "loss": 0.6265,
      "mean_token_accuracy": 0.7917836904525757,
      "num_tokens": 199830400.0,
      "step": 5550
    },
    {
      "epoch": 0.7336769759450171,
      "grad_norm": 0.8183939932575525,
      "learning_rate": 2.810319697140952e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 199895936.0,
      "step": 5551
    },
    {
      "epoch": 0.7338091461802801,
      "grad_norm": 0.8515651485106521,
      "learning_rate": 2.808655425357073e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8046941757202148,
      "num_tokens": 199961472.0,
      "step": 5552
    },
    {
      "epoch": 0.7339413164155432,
      "grad_norm": 0.8110384876076194,
      "learning_rate": 2.8069917265042635e-06,
      "loss": 0.5206,
      "mean_token_accuracy": 0.8293554186820984,
      "num_tokens": 200027008.0,
      "step": 5553
    },
    {
      "epoch": 0.7340734866508062,
      "grad_norm": 0.8171472044612944,
      "learning_rate": 2.805328600936692e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.8088908791542053,
      "num_tokens": 200092544.0,
      "step": 5554
    },
    {
      "epoch": 0.7342056568860692,
      "grad_norm": 0.8607833720505265,
      "learning_rate": 2.803666049008398e-06,
      "loss": 0.584,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 200158080.0,
      "step": 5555
    },
    {
      "epoch": 0.7343378271213322,
      "grad_norm": 0.9108822615983245,
      "learning_rate": 2.8020040710733065e-06,
      "loss": 0.5969,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 200223616.0,
      "step": 5556
    },
    {
      "epoch": 0.7344699973565953,
      "grad_norm": 0.9453262809722449,
      "learning_rate": 2.8003426674852186e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.7868391871452332,
      "num_tokens": 200289152.0,
      "step": 5557
    },
    {
      "epoch": 0.7346021675918584,
      "grad_norm": 0.8076535962488922,
      "learning_rate": 2.7986818385978134e-06,
      "loss": 0.5515,
      "mean_token_accuracy": 0.8169637322425842,
      "num_tokens": 200354688.0,
      "step": 5558
    },
    {
      "epoch": 0.7347343378271214,
      "grad_norm": 0.9103356993329641,
      "learning_rate": 2.797021584764644e-06,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7860304117202759,
      "num_tokens": 200420224.0,
      "step": 5559
    },
    {
      "epoch": 0.7348665080623844,
      "grad_norm": 0.8176308778231278,
      "learning_rate": 2.7953619063391444e-06,
      "loss": 0.5854,
      "mean_token_accuracy": 0.8019624948501587,
      "num_tokens": 200485760.0,
      "step": 5560
    },
    {
      "epoch": 0.7349986782976474,
      "grad_norm": 0.8375344036850441,
      "learning_rate": 2.793702803674627e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8028476238250732,
      "num_tokens": 200551296.0,
      "step": 5561
    },
    {
      "epoch": 0.7351308485329104,
      "grad_norm": 0.8166374868151322,
      "learning_rate": 2.792044277124279e-06,
      "loss": 0.5219,
      "mean_token_accuracy": 0.8276767134666443,
      "num_tokens": 200616832.0,
      "step": 5562
    },
    {
      "epoch": 0.7352630187681735,
      "grad_norm": 0.7866891530707762,
      "learning_rate": 2.790386327041168e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8134385347366333,
      "num_tokens": 200682368.0,
      "step": 5563
    },
    {
      "epoch": 0.7353951890034365,
      "grad_norm": 0.8063550204033757,
      "learning_rate": 2.7887289537782335e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8060523867607117,
      "num_tokens": 200747904.0,
      "step": 5564
    },
    {
      "epoch": 0.7355273592386995,
      "grad_norm": 0.8351221526629065,
      "learning_rate": 2.7870721576882974e-06,
      "loss": 0.5855,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 200813440.0,
      "step": 5565
    },
    {
      "epoch": 0.7356595294739625,
      "grad_norm": 0.8511290556205755,
      "learning_rate": 2.7854159391240577e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8017336130142212,
      "num_tokens": 200878976.0,
      "step": 5566
    },
    {
      "epoch": 0.7357916997092255,
      "grad_norm": 0.8668952044806567,
      "learning_rate": 2.7837602984380885e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 200944512.0,
      "step": 5567
    },
    {
      "epoch": 0.7359238699444886,
      "grad_norm": 0.8097394819262775,
      "learning_rate": 2.7821052359828386e-06,
      "loss": 0.591,
      "mean_token_accuracy": 0.802435576915741,
      "num_tokens": 201010048.0,
      "step": 5568
    },
    {
      "epoch": 0.7360560401797516,
      "grad_norm": 0.8655691708021561,
      "learning_rate": 2.7804507521106415e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8146898746490479,
      "num_tokens": 201075584.0,
      "step": 5569
    },
    {
      "epoch": 0.7361882104150146,
      "grad_norm": 0.8013827259536346,
      "learning_rate": 2.778796847173697e-06,
      "loss": 0.5708,
      "mean_token_accuracy": 0.8103101253509521,
      "num_tokens": 201141120.0,
      "step": 5570
    },
    {
      "epoch": 0.7363203806502776,
      "grad_norm": 0.8514779355649329,
      "learning_rate": 2.77714352152409e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.8026034832000732,
      "num_tokens": 201206656.0,
      "step": 5571
    },
    {
      "epoch": 0.7364525508855406,
      "grad_norm": 0.8057407623471993,
      "learning_rate": 2.775490775513777e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.8048315048217773,
      "num_tokens": 201272192.0,
      "step": 5572
    },
    {
      "epoch": 0.7365847211208036,
      "grad_norm": 0.7911276180235943,
      "learning_rate": 2.7738386094945967e-06,
      "loss": 0.5642,
      "mean_token_accuracy": 0.8140489459037781,
      "num_tokens": 201337728.0,
      "step": 5573
    },
    {
      "epoch": 0.7367168913560667,
      "grad_norm": 0.8044292379666514,
      "learning_rate": 2.772187023818257e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.8179556727409363,
      "num_tokens": 201403264.0,
      "step": 5574
    },
    {
      "epoch": 0.7368490615913297,
      "grad_norm": 0.8419346432415009,
      "learning_rate": 2.7705360188363463e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 201468800.0,
      "step": 5575
    },
    {
      "epoch": 0.7369812318265927,
      "grad_norm": 0.7520717592055883,
      "learning_rate": 2.768885594900331e-06,
      "loss": 0.5227,
      "mean_token_accuracy": 0.8244109153747559,
      "num_tokens": 201534336.0,
      "step": 5576
    },
    {
      "epoch": 0.7371134020618557,
      "grad_norm": 0.8156039438733221,
      "learning_rate": 2.7672357523615522e-06,
      "loss": 0.5675,
      "mean_token_accuracy": 0.8120192885398865,
      "num_tokens": 201599872.0,
      "step": 5577
    },
    {
      "epoch": 0.7372455722971187,
      "grad_norm": 0.7954466254037429,
      "learning_rate": 2.765586491571224e-06,
      "loss": 0.5135,
      "mean_token_accuracy": 0.8311103582382202,
      "num_tokens": 201665408.0,
      "step": 5578
    },
    {
      "epoch": 0.7373777425323818,
      "grad_norm": 0.8243675877822474,
      "learning_rate": 2.763937812880442e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 201730944.0,
      "step": 5579
    },
    {
      "epoch": 0.7375099127676448,
      "grad_norm": 0.8340174459865708,
      "learning_rate": 2.7622897166401754e-06,
      "loss": 0.6001,
      "mean_token_accuracy": 0.8041447997093201,
      "num_tokens": 201796480.0,
      "step": 5580
    },
    {
      "epoch": 0.7376420830029078,
      "grad_norm": 0.8479450367929272,
      "learning_rate": 2.760642203201266e-06,
      "loss": 0.5812,
      "mean_token_accuracy": 0.8074105978012085,
      "num_tokens": 201862016.0,
      "step": 5581
    },
    {
      "epoch": 0.7377742532381708,
      "grad_norm": 0.913031289263559,
      "learning_rate": 2.758995272914441e-06,
      "loss": 0.632,
      "mean_token_accuracy": 0.7913563847541809,
      "num_tokens": 201927552.0,
      "step": 5582
    },
    {
      "epoch": 0.7379064234734338,
      "grad_norm": 0.7960914543219411,
      "learning_rate": 2.757348926130293e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.7958582639694214,
      "num_tokens": 201993088.0,
      "step": 5583
    },
    {
      "epoch": 0.7380385937086968,
      "grad_norm": 0.7505862437594079,
      "learning_rate": 2.7557031631992957e-06,
      "loss": 0.5284,
      "mean_token_accuracy": 0.8243041038513184,
      "num_tokens": 202058624.0,
      "step": 5584
    },
    {
      "epoch": 0.7381707639439599,
      "grad_norm": 0.8548292162608784,
      "learning_rate": 2.7540579844717987e-06,
      "loss": 0.5717,
      "mean_token_accuracy": 0.8099743723869324,
      "num_tokens": 202124160.0,
      "step": 5585
    },
    {
      "epoch": 0.7383029341792229,
      "grad_norm": 0.8709674860975708,
      "learning_rate": 2.7524133902980266e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.7966212630271912,
      "num_tokens": 202189696.0,
      "step": 5586
    },
    {
      "epoch": 0.7384351044144859,
      "grad_norm": 0.7233841735023282,
      "learning_rate": 2.7507693810280755e-06,
      "loss": 0.5245,
      "mean_token_accuracy": 0.8230069875717163,
      "num_tokens": 202255232.0,
      "step": 5587
    },
    {
      "epoch": 0.7385672746497489,
      "grad_norm": 0.8775700541150372,
      "learning_rate": 2.7491259570119268e-06,
      "loss": 0.6514,
      "mean_token_accuracy": 0.782688319683075,
      "num_tokens": 202320768.0,
      "step": 5588
    },
    {
      "epoch": 0.7386994448850119,
      "grad_norm": 0.78536536795424,
      "learning_rate": 2.7474831185994256e-06,
      "loss": 0.5513,
      "mean_token_accuracy": 0.8189628720283508,
      "num_tokens": 202386304.0,
      "step": 5589
    },
    {
      "epoch": 0.738831615120275,
      "grad_norm": 0.8712445838129974,
      "learning_rate": 2.745840866140302e-06,
      "loss": 0.6341,
      "mean_token_accuracy": 0.7906848788261414,
      "num_tokens": 202451840.0,
      "step": 5590
    },
    {
      "epoch": 0.738963785355538,
      "grad_norm": 0.8401064914197429,
      "learning_rate": 2.744199199984152e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.7998107671737671,
      "num_tokens": 202517376.0,
      "step": 5591
    },
    {
      "epoch": 0.739095955590801,
      "grad_norm": 0.8373663147040347,
      "learning_rate": 2.7425581204804586e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.806861162185669,
      "num_tokens": 202582912.0,
      "step": 5592
    },
    {
      "epoch": 0.739228125826064,
      "grad_norm": 0.8517988504190944,
      "learning_rate": 2.7409176279785682e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 202648448.0,
      "step": 5593
    },
    {
      "epoch": 0.739360296061327,
      "grad_norm": 0.8280066528043499,
      "learning_rate": 2.7392777228277096e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.8203973770141602,
      "num_tokens": 202713984.0,
      "step": 5594
    },
    {
      "epoch": 0.73949246629659,
      "grad_norm": 0.8202481449846518,
      "learning_rate": 2.737638405376984e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.7964839339256287,
      "num_tokens": 202779520.0,
      "step": 5595
    },
    {
      "epoch": 0.7396246365318531,
      "grad_norm": 0.8354420307637789,
      "learning_rate": 2.7359996759753694e-06,
      "loss": 0.5658,
      "mean_token_accuracy": 0.8118667006492615,
      "num_tokens": 202845056.0,
      "step": 5596
    },
    {
      "epoch": 0.7397568067671161,
      "grad_norm": 0.7765667671954831,
      "learning_rate": 2.7343615349717145e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.8160328269004822,
      "num_tokens": 202910592.0,
      "step": 5597
    },
    {
      "epoch": 0.7398889770023791,
      "grad_norm": 0.880770739332514,
      "learning_rate": 2.7327239827147455e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 202976128.0,
      "step": 5598
    },
    {
      "epoch": 0.7400211472376421,
      "grad_norm": 0.7729326120445795,
      "learning_rate": 2.731087019553067e-06,
      "loss": 0.5374,
      "mean_token_accuracy": 0.821908175945282,
      "num_tokens": 203041664.0,
      "step": 5599
    },
    {
      "epoch": 0.7401533174729051,
      "grad_norm": 0.8878892851772251,
      "learning_rate": 2.7294506458351473e-06,
      "loss": 0.5856,
      "mean_token_accuracy": 0.802313506603241,
      "num_tokens": 203107200.0,
      "step": 5600
    },
    {
      "epoch": 0.7402854877081682,
      "grad_norm": 0.748413546005177,
      "learning_rate": 2.7278148619093436e-06,
      "loss": 0.5629,
      "mean_token_accuracy": 0.813026487827301,
      "num_tokens": 203172736.0,
      "step": 5601
    },
    {
      "epoch": 0.7404176579434312,
      "grad_norm": 0.8210427762842539,
      "learning_rate": 2.7261796681238745e-06,
      "loss": 0.5427,
      "mean_token_accuracy": 0.8213435411453247,
      "num_tokens": 203238272.0,
      "step": 5602
    },
    {
      "epoch": 0.7405498281786942,
      "grad_norm": 0.7890170489008074,
      "learning_rate": 2.7245450648268413e-06,
      "loss": 0.54,
      "mean_token_accuracy": 0.8229764103889465,
      "num_tokens": 203303808.0,
      "step": 5603
    },
    {
      "epoch": 0.7406819984139572,
      "grad_norm": 0.8154382659230385,
      "learning_rate": 2.7229110523662165e-06,
      "loss": 0.5581,
      "mean_token_accuracy": 0.8134690523147583,
      "num_tokens": 203369344.0,
      "step": 5604
    },
    {
      "epoch": 0.7408141686492202,
      "grad_norm": 0.7859893514412671,
      "learning_rate": 2.7212776310898486e-06,
      "loss": 0.5726,
      "mean_token_accuracy": 0.8095928430557251,
      "num_tokens": 203434880.0,
      "step": 5605
    },
    {
      "epoch": 0.7409463388844832,
      "grad_norm": 0.7899864361337311,
      "learning_rate": 2.7196448013454564e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 203500416.0,
      "step": 5606
    },
    {
      "epoch": 0.7410785091197463,
      "grad_norm": 0.7196996532474934,
      "learning_rate": 2.7180125634806366e-06,
      "loss": 0.5046,
      "mean_token_accuracy": 0.8304694294929504,
      "num_tokens": 203565952.0,
      "step": 5607
    },
    {
      "epoch": 0.7412106793550093,
      "grad_norm": 0.7944844580249376,
      "learning_rate": 2.7163809178428576e-06,
      "loss": 0.604,
      "mean_token_accuracy": 0.7973538041114807,
      "num_tokens": 203631488.0,
      "step": 5608
    },
    {
      "epoch": 0.7413428495902723,
      "grad_norm": 0.7662031378125868,
      "learning_rate": 2.7147498647794644e-06,
      "loss": 0.5506,
      "mean_token_accuracy": 0.8181082606315613,
      "num_tokens": 203697024.0,
      "step": 5609
    },
    {
      "epoch": 0.7414750198255353,
      "grad_norm": 0.8381580946925701,
      "learning_rate": 2.7131194046376714e-06,
      "loss": 0.5736,
      "mean_token_accuracy": 0.8115309476852417,
      "num_tokens": 203762560.0,
      "step": 5610
    },
    {
      "epoch": 0.7416071900607983,
      "grad_norm": 0.8199458586997718,
      "learning_rate": 2.7114895377645733e-06,
      "loss": 0.5488,
      "mean_token_accuracy": 0.816643238067627,
      "num_tokens": 203828096.0,
      "step": 5611
    },
    {
      "epoch": 0.7417393602960614,
      "grad_norm": 0.8095488460861137,
      "learning_rate": 2.709860264507132e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7848705649375916,
      "num_tokens": 203893632.0,
      "step": 5612
    },
    {
      "epoch": 0.7418715305313244,
      "grad_norm": 0.9478031336905595,
      "learning_rate": 2.7082315852121867e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8085246086120605,
      "num_tokens": 203959168.0,
      "step": 5613
    },
    {
      "epoch": 0.7420037007665874,
      "grad_norm": 0.867256075146635,
      "learning_rate": 2.706603500226448e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 204024704.0,
      "step": 5614
    },
    {
      "epoch": 0.7421358710018504,
      "grad_norm": 0.7821952863915067,
      "learning_rate": 2.704976009896504e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 204090240.0,
      "step": 5615
    },
    {
      "epoch": 0.7422680412371134,
      "grad_norm": 0.8071755160973567,
      "learning_rate": 2.7033491145688094e-06,
      "loss": 0.587,
      "mean_token_accuracy": 0.806433916091919,
      "num_tokens": 204155776.0,
      "step": 5616
    },
    {
      "epoch": 0.7424002114723764,
      "grad_norm": 0.8334243682882838,
      "learning_rate": 2.7017228145897e-06,
      "loss": 0.6097,
      "mean_token_accuracy": 0.798879861831665,
      "num_tokens": 204221312.0,
      "step": 5617
    },
    {
      "epoch": 0.7425323817076395,
      "grad_norm": 0.8213386571807365,
      "learning_rate": 2.70009711030538e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 204286848.0,
      "step": 5618
    },
    {
      "epoch": 0.7426645519429025,
      "grad_norm": 0.7484224685408981,
      "learning_rate": 2.6984720020619265e-06,
      "loss": 0.5159,
      "mean_token_accuracy": 0.8268373608589172,
      "num_tokens": 204352384.0,
      "step": 5619
    },
    {
      "epoch": 0.7427967221781655,
      "grad_norm": 0.8282468070464063,
      "learning_rate": 2.6968474902052914e-06,
      "loss": 0.5673,
      "mean_token_accuracy": 0.8093487024307251,
      "num_tokens": 204417920.0,
      "step": 5620
    },
    {
      "epoch": 0.7429288924134285,
      "grad_norm": 0.8102366250604753,
      "learning_rate": 2.695223575081301e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8099133372306824,
      "num_tokens": 204483456.0,
      "step": 5621
    },
    {
      "epoch": 0.7430610626486915,
      "grad_norm": 0.8618413521699193,
      "learning_rate": 2.6936002570356524e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.8013673424720764,
      "num_tokens": 204548992.0,
      "step": 5622
    },
    {
      "epoch": 0.7431932328839546,
      "grad_norm": 0.8617402881769499,
      "learning_rate": 2.6919775364139133e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.8167806267738342,
      "num_tokens": 204614528.0,
      "step": 5623
    },
    {
      "epoch": 0.7433254031192176,
      "grad_norm": 0.7999020334973447,
      "learning_rate": 2.690355413561533e-06,
      "loss": 0.5646,
      "mean_token_accuracy": 0.812995970249176,
      "num_tokens": 204680064.0,
      "step": 5624
    },
    {
      "epoch": 0.7434575733544806,
      "grad_norm": 0.8551366386764157,
      "learning_rate": 2.688733888823821e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7994597554206848,
      "num_tokens": 204745600.0,
      "step": 5625
    },
    {
      "epoch": 0.7435897435897436,
      "grad_norm": 1.6065269334250396,
      "learning_rate": 2.68711296254597e-06,
      "loss": 0.5971,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 204811136.0,
      "step": 5626
    },
    {
      "epoch": 0.7437219138250066,
      "grad_norm": 0.7748979308639116,
      "learning_rate": 2.6854926350730397e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.8152850866317749,
      "num_tokens": 204876672.0,
      "step": 5627
    },
    {
      "epoch": 0.7438540840602696,
      "grad_norm": 0.8164127714540916,
      "learning_rate": 2.683872906749967e-06,
      "loss": 0.5676,
      "mean_token_accuracy": 0.8127212524414062,
      "num_tokens": 204942208.0,
      "step": 5628
    },
    {
      "epoch": 0.7439862542955327,
      "grad_norm": 0.8396557942511191,
      "learning_rate": 2.682253777921553e-06,
      "loss": 0.5814,
      "mean_token_accuracy": 0.806739091873169,
      "num_tokens": 205007744.0,
      "step": 5629
    },
    {
      "epoch": 0.7441184245307957,
      "grad_norm": 0.8697819403639571,
      "learning_rate": 2.680635248932482e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.803427517414093,
      "num_tokens": 205073280.0,
      "step": 5630
    },
    {
      "epoch": 0.7442505947660587,
      "grad_norm": 0.8843418308952146,
      "learning_rate": 2.679017320127301e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.8141710162162781,
      "num_tokens": 205138816.0,
      "step": 5631
    },
    {
      "epoch": 0.7443827650013217,
      "grad_norm": 0.8581822992835844,
      "learning_rate": 2.6773999918504347e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 205204352.0,
      "step": 5632
    },
    {
      "epoch": 0.7445149352365847,
      "grad_norm": 0.8560662164117199,
      "learning_rate": 2.6757832644461786e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.8127976059913635,
      "num_tokens": 205269888.0,
      "step": 5633
    },
    {
      "epoch": 0.7446471054718478,
      "grad_norm": 0.8095617114831232,
      "learning_rate": 2.674167138258701e-06,
      "loss": 0.5367,
      "mean_token_accuracy": 0.8215113878250122,
      "num_tokens": 205335424.0,
      "step": 5634
    },
    {
      "epoch": 0.7447792757071108,
      "grad_norm": 0.889905916618709,
      "learning_rate": 2.6725516136320396e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.79872727394104,
      "num_tokens": 205400960.0,
      "step": 5635
    },
    {
      "epoch": 0.7449114459423738,
      "grad_norm": 0.7646975541984291,
      "learning_rate": 2.6709366909101064e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8135606050491333,
      "num_tokens": 205466496.0,
      "step": 5636
    },
    {
      "epoch": 0.7450436161776368,
      "grad_norm": 0.8162562276025601,
      "learning_rate": 2.669322370436687e-06,
      "loss": 0.5102,
      "mean_token_accuracy": 0.8288212418556213,
      "num_tokens": 205532032.0,
      "step": 5637
    },
    {
      "epoch": 0.7451757864128998,
      "grad_norm": 0.8263960587379398,
      "learning_rate": 2.667708652555433e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.8173147439956665,
      "num_tokens": 205597568.0,
      "step": 5638
    },
    {
      "epoch": 0.7453079566481629,
      "grad_norm": 0.7970208020683861,
      "learning_rate": 2.666095537609873e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.7991088032722473,
      "num_tokens": 205663104.0,
      "step": 5639
    },
    {
      "epoch": 0.7454401268834259,
      "grad_norm": 0.8502862019329394,
      "learning_rate": 2.664483025943405e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.8004669547080994,
      "num_tokens": 205728640.0,
      "step": 5640
    },
    {
      "epoch": 0.7455722971186889,
      "grad_norm": 0.8083511948875461,
      "learning_rate": 2.6628711178993018e-06,
      "loss": 0.5536,
      "mean_token_accuracy": 0.8153613805770874,
      "num_tokens": 205794176.0,
      "step": 5641
    },
    {
      "epoch": 0.7457044673539519,
      "grad_norm": 0.8200454240617056,
      "learning_rate": 2.661259813820699e-06,
      "loss": 0.5626,
      "mean_token_accuracy": 0.8139879107475281,
      "num_tokens": 205859712.0,
      "step": 5642
    },
    {
      "epoch": 0.7458366375892149,
      "grad_norm": 0.8487593802674895,
      "learning_rate": 2.6596491140506157e-06,
      "loss": 0.5831,
      "mean_token_accuracy": 0.8040227293968201,
      "num_tokens": 205925248.0,
      "step": 5643
    },
    {
      "epoch": 0.7459688078244779,
      "grad_norm": 0.7871441322794742,
      "learning_rate": 2.658039018931933e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 205990784.0,
      "step": 5644
    },
    {
      "epoch": 0.746100978059741,
      "grad_norm": 0.8466484839401686,
      "learning_rate": 2.656429528807407e-06,
      "loss": 0.6026,
      "mean_token_accuracy": 0.8017793893814087,
      "num_tokens": 206056320.0,
      "step": 5645
    },
    {
      "epoch": 0.746233148295004,
      "grad_norm": 0.875459798427381,
      "learning_rate": 2.6548206440196655e-06,
      "loss": 0.5967,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 206121856.0,
      "step": 5646
    },
    {
      "epoch": 0.746365318530267,
      "grad_norm": 0.8720265442506682,
      "learning_rate": 2.653212364911206e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.8001465201377869,
      "num_tokens": 206187392.0,
      "step": 5647
    },
    {
      "epoch": 0.74649748876553,
      "grad_norm": 0.7695708197495456,
      "learning_rate": 2.6516046918243955e-06,
      "loss": 0.5251,
      "mean_token_accuracy": 0.8247466683387756,
      "num_tokens": 206252928.0,
      "step": 5648
    },
    {
      "epoch": 0.746629659000793,
      "grad_norm": 0.781111481226148,
      "learning_rate": 2.6499976251014786e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8079447150230408,
      "num_tokens": 206318464.0,
      "step": 5649
    },
    {
      "epoch": 0.746761829236056,
      "grad_norm": 0.8213522692977068,
      "learning_rate": 2.648391165084562e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.808814525604248,
      "num_tokens": 206384000.0,
      "step": 5650
    },
    {
      "epoch": 0.7468939994713191,
      "grad_norm": 0.813628976679746,
      "learning_rate": 2.6467853121156305e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8180930018424988,
      "num_tokens": 206449536.0,
      "step": 5651
    },
    {
      "epoch": 0.7470261697065821,
      "grad_norm": 0.8512711467782358,
      "learning_rate": 2.6451800665365323e-06,
      "loss": 0.5822,
      "mean_token_accuracy": 0.8097149133682251,
      "num_tokens": 206515072.0,
      "step": 5652
    },
    {
      "epoch": 0.7471583399418451,
      "grad_norm": 0.820731867719377,
      "learning_rate": 2.643575428688996e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8086466789245605,
      "num_tokens": 206580608.0,
      "step": 5653
    },
    {
      "epoch": 0.7472905101771081,
      "grad_norm": 0.84220324945443,
      "learning_rate": 2.6419713989146123e-06,
      "loss": 0.5782,
      "mean_token_accuracy": 0.8052588105201721,
      "num_tokens": 206646144.0,
      "step": 5654
    },
    {
      "epoch": 0.7474226804123711,
      "grad_norm": 0.8136348697263598,
      "learning_rate": 2.6403679775548463e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.7994292378425598,
      "num_tokens": 206711680.0,
      "step": 5655
    },
    {
      "epoch": 0.7475548506476342,
      "grad_norm": 0.810023270981081,
      "learning_rate": 2.638765164951035e-06,
      "loss": 0.531,
      "mean_token_accuracy": 0.8236479163169861,
      "num_tokens": 206777216.0,
      "step": 5656
    },
    {
      "epoch": 0.7476870208828972,
      "grad_norm": 0.9356668547570224,
      "learning_rate": 2.6371629614443795e-06,
      "loss": 0.6337,
      "mean_token_accuracy": 0.789067268371582,
      "num_tokens": 206842752.0,
      "step": 5657
    },
    {
      "epoch": 0.7478191911181602,
      "grad_norm": 0.8394690143106354,
      "learning_rate": 2.6355613673759576e-06,
      "loss": 0.5773,
      "mean_token_accuracy": 0.8082804083824158,
      "num_tokens": 206908288.0,
      "step": 5658
    },
    {
      "epoch": 0.7479513613534232,
      "grad_norm": 0.9158483404776228,
      "learning_rate": 2.633960383086716e-06,
      "loss": 0.6469,
      "mean_token_accuracy": 0.7856031060218811,
      "num_tokens": 206973824.0,
      "step": 5659
    },
    {
      "epoch": 0.7480835315886862,
      "grad_norm": 0.7948510793206659,
      "learning_rate": 2.6323600089174715e-06,
      "loss": 0.5468,
      "mean_token_accuracy": 0.8163533210754395,
      "num_tokens": 207039360.0,
      "step": 5660
    },
    {
      "epoch": 0.7482157018239493,
      "grad_norm": 0.8620354330125672,
      "learning_rate": 2.6307602452089067e-06,
      "loss": 0.6159,
      "mean_token_accuracy": 0.7958887815475464,
      "num_tokens": 207104896.0,
      "step": 5661
    },
    {
      "epoch": 0.7483478720592123,
      "grad_norm": 0.758021124080798,
      "learning_rate": 2.6291610923015828e-06,
      "loss": 0.5424,
      "mean_token_accuracy": 0.8188865780830383,
      "num_tokens": 207170432.0,
      "step": 5662
    },
    {
      "epoch": 0.7484800422944753,
      "grad_norm": 0.8513438723958443,
      "learning_rate": 2.6275625505359215e-06,
      "loss": 0.5422,
      "mean_token_accuracy": 0.8194664716720581,
      "num_tokens": 207235968.0,
      "step": 5663
    },
    {
      "epoch": 0.7486122125297383,
      "grad_norm": 0.8772578725845022,
      "learning_rate": 2.625964620252224e-06,
      "loss": 0.5931,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 207301504.0,
      "step": 5664
    },
    {
      "epoch": 0.7487443827650013,
      "grad_norm": 0.818577199130588,
      "learning_rate": 2.624367301790649e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8053351044654846,
      "num_tokens": 207367040.0,
      "step": 5665
    },
    {
      "epoch": 0.7488765530002643,
      "grad_norm": 0.8010681294859685,
      "learning_rate": 2.6227705954912396e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8123092651367188,
      "num_tokens": 207432576.0,
      "step": 5666
    },
    {
      "epoch": 0.7490087232355274,
      "grad_norm": 0.8687173024156646,
      "learning_rate": 2.621174501693897e-06,
      "loss": 0.5912,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 207498112.0,
      "step": 5667
    },
    {
      "epoch": 0.7491408934707904,
      "grad_norm": 0.8665056579284747,
      "learning_rate": 2.6195790207383976e-06,
      "loss": 0.6138,
      "mean_token_accuracy": 0.8008027076721191,
      "num_tokens": 207563648.0,
      "step": 5668
    },
    {
      "epoch": 0.7492730637060534,
      "grad_norm": 0.8397567498555935,
      "learning_rate": 2.617984152964386e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 207629184.0,
      "step": 5669
    },
    {
      "epoch": 0.7494052339413164,
      "grad_norm": 0.8932218486256771,
      "learning_rate": 2.616389898711377e-06,
      "loss": 0.5529,
      "mean_token_accuracy": 0.8147357106208801,
      "num_tokens": 207694720.0,
      "step": 5670
    },
    {
      "epoch": 0.7495374041765794,
      "grad_norm": 0.8897692598091832,
      "learning_rate": 2.6147962583187505e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 207760256.0,
      "step": 5671
    },
    {
      "epoch": 0.7496695744118425,
      "grad_norm": 0.7999703623191684,
      "learning_rate": 2.613203232125765e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.798818826675415,
      "num_tokens": 207825792.0,
      "step": 5672
    },
    {
      "epoch": 0.7498017446471055,
      "grad_norm": 0.813636914298697,
      "learning_rate": 2.6116108204715373e-06,
      "loss": 0.6088,
      "mean_token_accuracy": 0.7985746264457703,
      "num_tokens": 207891328.0,
      "step": 5673
    },
    {
      "epoch": 0.7499339148823685,
      "grad_norm": 0.8197475462203532,
      "learning_rate": 2.6100190236950618e-06,
      "loss": 0.6149,
      "mean_token_accuracy": 0.7959192991256714,
      "num_tokens": 207956864.0,
      "step": 5674
    },
    {
      "epoch": 0.7500660851176315,
      "grad_norm": 0.8252985360205983,
      "learning_rate": 2.608427842135198e-06,
      "loss": 0.5418,
      "mean_token_accuracy": 0.8202905654907227,
      "num_tokens": 208022400.0,
      "step": 5675
    },
    {
      "epoch": 0.7501982553528945,
      "grad_norm": 0.9201768393607581,
      "learning_rate": 2.6068372761306738e-06,
      "loss": 0.61,
      "mean_token_accuracy": 0.7972317337989807,
      "num_tokens": 208087936.0,
      "step": 5676
    },
    {
      "epoch": 0.7503304255881575,
      "grad_norm": 0.7991791248085414,
      "learning_rate": 2.6052473260200895e-06,
      "loss": 0.5544,
      "mean_token_accuracy": 0.8149340748786926,
      "num_tokens": 208153472.0,
      "step": 5677
    },
    {
      "epoch": 0.7504625958234206,
      "grad_norm": 0.8322398042966809,
      "learning_rate": 2.6036579921419096e-06,
      "loss": 0.5732,
      "mean_token_accuracy": 0.8120192885398865,
      "num_tokens": 208219008.0,
      "step": 5678
    },
    {
      "epoch": 0.7505947660586836,
      "grad_norm": 0.8594251066613122,
      "learning_rate": 2.602069274834475e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8019777536392212,
      "num_tokens": 208284544.0,
      "step": 5679
    },
    {
      "epoch": 0.7507269362939466,
      "grad_norm": 0.8191627949402255,
      "learning_rate": 2.6004811744359852e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8097606897354126,
      "num_tokens": 208350080.0,
      "step": 5680
    },
    {
      "epoch": 0.7508591065292096,
      "grad_norm": 0.8581063460193238,
      "learning_rate": 2.5988936912845157e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.7961024045944214,
      "num_tokens": 208415616.0,
      "step": 5681
    },
    {
      "epoch": 0.7509912767644726,
      "grad_norm": 0.7656293475369151,
      "learning_rate": 2.597306825718009e-06,
      "loss": 0.502,
      "mean_token_accuracy": 0.8320870399475098,
      "num_tokens": 208481152.0,
      "step": 5682
    },
    {
      "epoch": 0.7511234469997357,
      "grad_norm": 0.9430208561363086,
      "learning_rate": 2.5957205780742766e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.793645441532135,
      "num_tokens": 208546688.0,
      "step": 5683
    },
    {
      "epoch": 0.7512556172349987,
      "grad_norm": 0.8078753010551386,
      "learning_rate": 2.594134948690993e-06,
      "loss": 0.5651,
      "mean_token_accuracy": 0.8122634887695312,
      "num_tokens": 208612224.0,
      "step": 5684
    },
    {
      "epoch": 0.7513877874702617,
      "grad_norm": 0.7748434175640585,
      "learning_rate": 2.592549937905712e-06,
      "loss": 0.55,
      "mean_token_accuracy": 0.8162007331848145,
      "num_tokens": 208677760.0,
      "step": 5685
    },
    {
      "epoch": 0.7515199577055247,
      "grad_norm": 0.920740766128451,
      "learning_rate": 2.5909655460558436e-06,
      "loss": 0.5976,
      "mean_token_accuracy": 0.8010926842689514,
      "num_tokens": 208743296.0,
      "step": 5686
    },
    {
      "epoch": 0.7516521279407877,
      "grad_norm": 0.8448800791451748,
      "learning_rate": 2.5893817734786752e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7928519248962402,
      "num_tokens": 208808832.0,
      "step": 5687
    },
    {
      "epoch": 0.7517842981760507,
      "grad_norm": 0.8671315240917993,
      "learning_rate": 2.587798620511358e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 208874368.0,
      "step": 5688
    },
    {
      "epoch": 0.7519164684113138,
      "grad_norm": 0.8362935761214403,
      "learning_rate": 2.586216087490913e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 208939904.0,
      "step": 5689
    },
    {
      "epoch": 0.7520486386465768,
      "grad_norm": 0.7820741268957315,
      "learning_rate": 2.5846341747542247e-06,
      "loss": 0.5194,
      "mean_token_accuracy": 0.8274020552635193,
      "num_tokens": 209005440.0,
      "step": 5690
    },
    {
      "epoch": 0.7521808088818398,
      "grad_norm": 0.853227698031727,
      "learning_rate": 2.5830528826380554e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.8091502785682678,
      "num_tokens": 209070976.0,
      "step": 5691
    },
    {
      "epoch": 0.7523129791171028,
      "grad_norm": 0.8155035940306645,
      "learning_rate": 2.581472211479024e-06,
      "loss": 0.5463,
      "mean_token_accuracy": 0.8189933896064758,
      "num_tokens": 209136512.0,
      "step": 5692
    },
    {
      "epoch": 0.7524451493523658,
      "grad_norm": 0.8448407375295478,
      "learning_rate": 2.579892161613624e-06,
      "loss": 0.5355,
      "mean_token_accuracy": 0.8214961290359497,
      "num_tokens": 209202048.0,
      "step": 5693
    },
    {
      "epoch": 0.7525773195876289,
      "grad_norm": 0.784234240548336,
      "learning_rate": 2.5783127333782174e-06,
      "loss": 0.5551,
      "mean_token_accuracy": 0.8143846988677979,
      "num_tokens": 209267584.0,
      "step": 5694
    },
    {
      "epoch": 0.7527094898228919,
      "grad_norm": 0.7777100748651822,
      "learning_rate": 2.576733927109028e-06,
      "loss": 0.5046,
      "mean_token_accuracy": 0.8336130976676941,
      "num_tokens": 209333120.0,
      "step": 5695
    },
    {
      "epoch": 0.7528416600581549,
      "grad_norm": 0.9311783033328249,
      "learning_rate": 2.575155743142152e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.7809943556785583,
      "num_tokens": 209398656.0,
      "step": 5696
    },
    {
      "epoch": 0.7529738302934179,
      "grad_norm": 0.8195946450202402,
      "learning_rate": 2.573578181813552e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.8123855590820312,
      "num_tokens": 209464192.0,
      "step": 5697
    },
    {
      "epoch": 0.7531060005286809,
      "grad_norm": 0.8317305610156661,
      "learning_rate": 2.5720012434590593e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8059760928153992,
      "num_tokens": 209529728.0,
      "step": 5698
    },
    {
      "epoch": 0.753238170763944,
      "grad_norm": 0.8005083762197013,
      "learning_rate": 2.570424928414368e-06,
      "loss": 0.5391,
      "mean_token_accuracy": 0.8194664716720581,
      "num_tokens": 209595264.0,
      "step": 5699
    },
    {
      "epoch": 0.753370340999207,
      "grad_norm": 0.820763871880238,
      "learning_rate": 2.5688492370150442e-06,
      "loss": 0.6054,
      "mean_token_accuracy": 0.7980862855911255,
      "num_tokens": 209660800.0,
      "step": 5700
    },
    {
      "epoch": 0.75350251123447,
      "grad_norm": 0.8350495080348659,
      "learning_rate": 2.5672741695965197e-06,
      "loss": 0.5965,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 209726336.0,
      "step": 5701
    },
    {
      "epoch": 0.753634681469733,
      "grad_norm": 0.8558419475420961,
      "learning_rate": 2.565699726494096e-06,
      "loss": 0.5718,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 209791872.0,
      "step": 5702
    },
    {
      "epoch": 0.753766851704996,
      "grad_norm": 0.8527687398313675,
      "learning_rate": 2.5641259080429324e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.7985746264457703,
      "num_tokens": 209857408.0,
      "step": 5703
    },
    {
      "epoch": 0.753899021940259,
      "grad_norm": 0.8481906039362467,
      "learning_rate": 2.5625527145780704e-06,
      "loss": 0.6379,
      "mean_token_accuracy": 0.7877395749092102,
      "num_tokens": 209922944.0,
      "step": 5704
    },
    {
      "epoch": 0.7540311921755221,
      "grad_norm": 0.8570262093283293,
      "learning_rate": 2.560980146434404e-06,
      "loss": 0.5824,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 209988480.0,
      "step": 5705
    },
    {
      "epoch": 0.7541633624107851,
      "grad_norm": 0.7801668662344892,
      "learning_rate": 2.5594082039467027e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8139116168022156,
      "num_tokens": 210054016.0,
      "step": 5706
    },
    {
      "epoch": 0.7542955326460481,
      "grad_norm": 0.8838193698949773,
      "learning_rate": 2.5578368874495996e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8062660098075867,
      "num_tokens": 210119552.0,
      "step": 5707
    },
    {
      "epoch": 0.7544277028813111,
      "grad_norm": 0.7735147198289988,
      "learning_rate": 2.556266197277596e-06,
      "loss": 0.5438,
      "mean_token_accuracy": 0.8179556727409363,
      "num_tokens": 210185088.0,
      "step": 5708
    },
    {
      "epoch": 0.7545598731165741,
      "grad_norm": 0.8253159090757203,
      "learning_rate": 2.5546961337650555e-06,
      "loss": 0.5539,
      "mean_token_accuracy": 0.8152087926864624,
      "num_tokens": 210250624.0,
      "step": 5709
    },
    {
      "epoch": 0.7546920433518371,
      "grad_norm": 0.7691742513135201,
      "learning_rate": 2.5531266972462176e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8108595013618469,
      "num_tokens": 210316160.0,
      "step": 5710
    },
    {
      "epoch": 0.7548242135871002,
      "grad_norm": 0.8245675689141889,
      "learning_rate": 2.5515578880551782e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.8102948069572449,
      "num_tokens": 210381696.0,
      "step": 5711
    },
    {
      "epoch": 0.7549563838223632,
      "grad_norm": 0.8374702293971308,
      "learning_rate": 2.5499897065259065e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.8014588952064514,
      "num_tokens": 210447232.0,
      "step": 5712
    },
    {
      "epoch": 0.7550885540576262,
      "grad_norm": 0.8619496080040986,
      "learning_rate": 2.548422152992234e-06,
      "loss": 0.5909,
      "mean_token_accuracy": 0.8011079430580139,
      "num_tokens": 210512768.0,
      "step": 5713
    },
    {
      "epoch": 0.7552207242928892,
      "grad_norm": 0.8259840586505472,
      "learning_rate": 2.54685522778786e-06,
      "loss": 0.5864,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 210578304.0,
      "step": 5714
    },
    {
      "epoch": 0.7553528945281522,
      "grad_norm": 0.8068566561315587,
      "learning_rate": 2.5452889312463504e-06,
      "loss": 0.5359,
      "mean_token_accuracy": 0.8216487765312195,
      "num_tokens": 210643840.0,
      "step": 5715
    },
    {
      "epoch": 0.7554850647634153,
      "grad_norm": 0.7993526396801635,
      "learning_rate": 2.5437232637011376e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.812965452671051,
      "num_tokens": 210709376.0,
      "step": 5716
    },
    {
      "epoch": 0.7556172349986783,
      "grad_norm": 0.8315302467236179,
      "learning_rate": 2.5421582254855214e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 210774912.0,
      "step": 5717
    },
    {
      "epoch": 0.7557494052339413,
      "grad_norm": 0.8187141421006529,
      "learning_rate": 2.5405938169326624e-06,
      "loss": 0.5832,
      "mean_token_accuracy": 0.8040227293968201,
      "num_tokens": 210840448.0,
      "step": 5718
    },
    {
      "epoch": 0.7558815754692043,
      "grad_norm": 0.8648460560961242,
      "learning_rate": 2.5390300383755906e-06,
      "loss": 0.611,
      "mean_token_accuracy": 0.7989866733551025,
      "num_tokens": 210905984.0,
      "step": 5719
    },
    {
      "epoch": 0.7560137457044673,
      "grad_norm": 0.7602959728511898,
      "learning_rate": 2.537466890147204e-06,
      "loss": 0.5457,
      "mean_token_accuracy": 0.8201684951782227,
      "num_tokens": 210971520.0,
      "step": 5720
    },
    {
      "epoch": 0.7561459159397304,
      "grad_norm": 0.7837918324319006,
      "learning_rate": 2.5359043725802645e-06,
      "loss": 0.5695,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 211037056.0,
      "step": 5721
    },
    {
      "epoch": 0.7562780861749934,
      "grad_norm": 0.8147647277397491,
      "learning_rate": 2.5343424860073952e-06,
      "loss": 0.5625,
      "mean_token_accuracy": 0.8134537935256958,
      "num_tokens": 211102592.0,
      "step": 5722
    },
    {
      "epoch": 0.7564102564102564,
      "grad_norm": 0.8588325144584258,
      "learning_rate": 2.532781230761095e-06,
      "loss": 0.598,
      "mean_token_accuracy": 0.7991545796394348,
      "num_tokens": 211168128.0,
      "step": 5723
    },
    {
      "epoch": 0.7565424266455194,
      "grad_norm": 0.8176470511758632,
      "learning_rate": 2.531220607173718e-06,
      "loss": 0.5398,
      "mean_token_accuracy": 0.8224575519561768,
      "num_tokens": 211233664.0,
      "step": 5724
    },
    {
      "epoch": 0.7566745968807824,
      "grad_norm": 0.8604341576826839,
      "learning_rate": 2.5296606155774915e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8062202334403992,
      "num_tokens": 211299200.0,
      "step": 5725
    },
    {
      "epoch": 0.7568067671160454,
      "grad_norm": 0.7844396206434515,
      "learning_rate": 2.5281012563045015e-06,
      "loss": 0.5211,
      "mean_token_accuracy": 0.8267763257026672,
      "num_tokens": 211364736.0,
      "step": 5726
    },
    {
      "epoch": 0.7569389373513085,
      "grad_norm": 0.8373322491375443,
      "learning_rate": 2.526542529686708e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8016878366470337,
      "num_tokens": 211430272.0,
      "step": 5727
    },
    {
      "epoch": 0.7570711075865715,
      "grad_norm": 0.798812277038364,
      "learning_rate": 2.5249844360559273e-06,
      "loss": 0.5495,
      "mean_token_accuracy": 0.8178488612174988,
      "num_tokens": 211495808.0,
      "step": 5728
    },
    {
      "epoch": 0.7572032778218345,
      "grad_norm": 0.818109960564222,
      "learning_rate": 2.5234269757438457e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8100811839103699,
      "num_tokens": 211561344.0,
      "step": 5729
    },
    {
      "epoch": 0.7573354480570975,
      "grad_norm": 0.826498385424818,
      "learning_rate": 2.521870149082015e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 211626880.0,
      "step": 5730
    },
    {
      "epoch": 0.7574676182923605,
      "grad_norm": 0.8106924171624444,
      "learning_rate": 2.520313956401852e-06,
      "loss": 0.559,
      "mean_token_accuracy": 0.8128891587257385,
      "num_tokens": 211692416.0,
      "step": 5731
    },
    {
      "epoch": 0.7575997885276236,
      "grad_norm": 0.8472880591455135,
      "learning_rate": 2.5187583980346347e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.8018099069595337,
      "num_tokens": 211757952.0,
      "step": 5732
    },
    {
      "epoch": 0.7577319587628866,
      "grad_norm": 0.8052354131067048,
      "learning_rate": 2.5172034743115103e-06,
      "loss": 0.6099,
      "mean_token_accuracy": 0.797948956489563,
      "num_tokens": 211823488.0,
      "step": 5733
    },
    {
      "epoch": 0.7578641289981496,
      "grad_norm": 0.820511521886538,
      "learning_rate": 2.5156491855634913e-06,
      "loss": 0.5518,
      "mean_token_accuracy": 0.8182761669158936,
      "num_tokens": 211889024.0,
      "step": 5734
    },
    {
      "epoch": 0.7579962992334126,
      "grad_norm": 0.8711923482834261,
      "learning_rate": 2.514095532121451e-06,
      "loss": 0.4887,
      "mean_token_accuracy": 0.8375961184501648,
      "num_tokens": 211954560.0,
      "step": 5735
    },
    {
      "epoch": 0.7581284694686756,
      "grad_norm": 0.7956477368362559,
      "learning_rate": 2.512542514316132e-06,
      "loss": 0.5544,
      "mean_token_accuracy": 0.8174368143081665,
      "num_tokens": 212020096.0,
      "step": 5736
    },
    {
      "epoch": 0.7582606397039386,
      "grad_norm": 0.7584283666189996,
      "learning_rate": 2.5109901324781374e-06,
      "loss": 0.5157,
      "mean_token_accuracy": 0.8287296891212463,
      "num_tokens": 212085632.0,
      "step": 5737
    },
    {
      "epoch": 0.7583928099392017,
      "grad_norm": 0.7906200499078296,
      "learning_rate": 2.5094383869379367e-06,
      "loss": 0.5399,
      "mean_token_accuracy": 0.8201990127563477,
      "num_tokens": 212151168.0,
      "step": 5738
    },
    {
      "epoch": 0.7585249801744647,
      "grad_norm": 0.9061913798782689,
      "learning_rate": 2.507887278025865e-06,
      "loss": 0.6232,
      "mean_token_accuracy": 0.7940117120742798,
      "num_tokens": 212216704.0,
      "step": 5739
    },
    {
      "epoch": 0.7586571504097277,
      "grad_norm": 0.9706491775989295,
      "learning_rate": 2.5063368060721227e-06,
      "loss": 0.6075,
      "mean_token_accuracy": 0.7976895570755005,
      "num_tokens": 212282240.0,
      "step": 5740
    },
    {
      "epoch": 0.7587893206449907,
      "grad_norm": 0.8634258215048309,
      "learning_rate": 2.50478697140677e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8019167184829712,
      "num_tokens": 212347776.0,
      "step": 5741
    },
    {
      "epoch": 0.7589214908802537,
      "grad_norm": 0.8704568161364427,
      "learning_rate": 2.5032377743597358e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7940117120742798,
      "num_tokens": 212413312.0,
      "step": 5742
    },
    {
      "epoch": 0.7590536611155168,
      "grad_norm": 0.8093672148219969,
      "learning_rate": 2.501689215260811e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8033817410469055,
      "num_tokens": 212478848.0,
      "step": 5743
    },
    {
      "epoch": 0.7591858313507798,
      "grad_norm": 0.8040957084589093,
      "learning_rate": 2.500141294439653e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8058539628982544,
      "num_tokens": 212544384.0,
      "step": 5744
    },
    {
      "epoch": 0.7593180015860428,
      "grad_norm": 0.7725463864820956,
      "learning_rate": 2.4985940122257787e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.8121108412742615,
      "num_tokens": 212609920.0,
      "step": 5745
    },
    {
      "epoch": 0.7594501718213058,
      "grad_norm": 0.8053876611722302,
      "learning_rate": 2.4970473689485777e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8126754760742188,
      "num_tokens": 212675456.0,
      "step": 5746
    },
    {
      "epoch": 0.7595823420565688,
      "grad_norm": 0.8684556575587742,
      "learning_rate": 2.4955013649372927e-06,
      "loss": 0.605,
      "mean_token_accuracy": 0.8001617789268494,
      "num_tokens": 212740992.0,
      "step": 5747
    },
    {
      "epoch": 0.7597145122918318,
      "grad_norm": 0.8702827998209604,
      "learning_rate": 2.4939560005210373e-06,
      "loss": 0.6319,
      "mean_token_accuracy": 0.7899676561355591,
      "num_tokens": 212806528.0,
      "step": 5748
    },
    {
      "epoch": 0.7598466825270949,
      "grad_norm": 0.8537326227780826,
      "learning_rate": 2.4924112760287884e-06,
      "loss": 0.5995,
      "mean_token_accuracy": 0.8005738258361816,
      "num_tokens": 212872064.0,
      "step": 5749
    },
    {
      "epoch": 0.7599788527623579,
      "grad_norm": 0.8523231136927509,
      "learning_rate": 2.4908671917893863e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 212937600.0,
      "step": 5750
    },
    {
      "epoch": 0.7601110229976209,
      "grad_norm": 0.8533224941156982,
      "learning_rate": 2.4893237481315304e-06,
      "loss": 0.5709,
      "mean_token_accuracy": 0.8080820441246033,
      "num_tokens": 213003136.0,
      "step": 5751
    },
    {
      "epoch": 0.7602431932328839,
      "grad_norm": 0.823297248552569,
      "learning_rate": 2.487780945383791e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7950646877288818,
      "num_tokens": 213068672.0,
      "step": 5752
    },
    {
      "epoch": 0.7603753634681469,
      "grad_norm": 0.8248711445778804,
      "learning_rate": 2.486238783874598e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8002075552940369,
      "num_tokens": 213134208.0,
      "step": 5753
    },
    {
      "epoch": 0.76050753370341,
      "grad_norm": 0.7990725934677444,
      "learning_rate": 2.484697263932245e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8098675608634949,
      "num_tokens": 213199744.0,
      "step": 5754
    },
    {
      "epoch": 0.760639703938673,
      "grad_norm": 0.7823295342995589,
      "learning_rate": 2.4831563858848905e-06,
      "loss": 0.5867,
      "mean_token_accuracy": 0.8062812685966492,
      "num_tokens": 213265280.0,
      "step": 5755
    },
    {
      "epoch": 0.760771874173936,
      "grad_norm": 0.8469042805860202,
      "learning_rate": 2.481616150060553e-06,
      "loss": 0.5731,
      "mean_token_accuracy": 0.8100354075431824,
      "num_tokens": 213330816.0,
      "step": 5756
    },
    {
      "epoch": 0.760904044409199,
      "grad_norm": 0.8879537085564982,
      "learning_rate": 2.4800765567871196e-06,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7898150682449341,
      "num_tokens": 213396352.0,
      "step": 5757
    },
    {
      "epoch": 0.761036214644462,
      "grad_norm": 0.8581228559219067,
      "learning_rate": 2.478537606392333e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7999938726425171,
      "num_tokens": 213461888.0,
      "step": 5758
    },
    {
      "epoch": 0.761168384879725,
      "grad_norm": 0.8298041394541962,
      "learning_rate": 2.4769992992038087e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.812217652797699,
      "num_tokens": 213527424.0,
      "step": 5759
    },
    {
      "epoch": 0.7613005551149881,
      "grad_norm": 0.8115140445024177,
      "learning_rate": 2.4754616355490164e-06,
      "loss": 0.5594,
      "mean_token_accuracy": 0.816307544708252,
      "num_tokens": 213592960.0,
      "step": 5760
    },
    {
      "epoch": 0.7614327253502511,
      "grad_norm": 0.8005405474962068,
      "learning_rate": 2.4739246157552944e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8100201487541199,
      "num_tokens": 213658496.0,
      "step": 5761
    },
    {
      "epoch": 0.7615648955855141,
      "grad_norm": 0.8249807439555643,
      "learning_rate": 2.4723882401498418e-06,
      "loss": 0.6028,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 213724032.0,
      "step": 5762
    },
    {
      "epoch": 0.7616970658207771,
      "grad_norm": 0.7774893916689385,
      "learning_rate": 2.4708525090597225e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 213789568.0,
      "step": 5763
    },
    {
      "epoch": 0.7618292360560401,
      "grad_norm": 0.7676476179458654,
      "learning_rate": 2.469317422811857e-06,
      "loss": 0.5417,
      "mean_token_accuracy": 0.8212367296218872,
      "num_tokens": 213855104.0,
      "step": 5764
    },
    {
      "epoch": 0.7619614062913032,
      "grad_norm": 0.8165190617235439,
      "learning_rate": 2.4677829817330387e-06,
      "loss": 0.6038,
      "mean_token_accuracy": 0.7981931567192078,
      "num_tokens": 213920640.0,
      "step": 5765
    },
    {
      "epoch": 0.7620935765265662,
      "grad_norm": 0.9029065906595721,
      "learning_rate": 2.4662491861499144e-06,
      "loss": 0.5978,
      "mean_token_accuracy": 0.8018404245376587,
      "num_tokens": 213986176.0,
      "step": 5766
    },
    {
      "epoch": 0.7622257467618292,
      "grad_norm": 0.8017716529192696,
      "learning_rate": 2.464716036388998e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8244872689247131,
      "num_tokens": 214051712.0,
      "step": 5767
    },
    {
      "epoch": 0.7623579169970922,
      "grad_norm": 0.8155358831354691,
      "learning_rate": 2.4631835327766652e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8076547384262085,
      "num_tokens": 214117248.0,
      "step": 5768
    },
    {
      "epoch": 0.7624900872323552,
      "grad_norm": 0.8230795632701865,
      "learning_rate": 2.461651675639155e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.797918438911438,
      "num_tokens": 214182784.0,
      "step": 5769
    },
    {
      "epoch": 0.7626222574676182,
      "grad_norm": 0.7856353967075153,
      "learning_rate": 2.4601204653025665e-06,
      "loss": 0.555,
      "mean_token_accuracy": 0.8160938620567322,
      "num_tokens": 214248320.0,
      "step": 5770
    },
    {
      "epoch": 0.7627544277028813,
      "grad_norm": 0.7707218227293612,
      "learning_rate": 2.4585899020928624e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8136063814163208,
      "num_tokens": 214313856.0,
      "step": 5771
    },
    {
      "epoch": 0.7628865979381443,
      "grad_norm": 0.7944601701093504,
      "learning_rate": 2.457059986335868e-06,
      "loss": 0.588,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 214379392.0,
      "step": 5772
    },
    {
      "epoch": 0.7630187681734073,
      "grad_norm": 0.824973099852325,
      "learning_rate": 2.455530718357273e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.8093028664588928,
      "num_tokens": 214444928.0,
      "step": 5773
    },
    {
      "epoch": 0.7631509384086703,
      "grad_norm": 0.8437844494701054,
      "learning_rate": 2.454002098482621e-06,
      "loss": 0.5388,
      "mean_token_accuracy": 0.8214656114578247,
      "num_tokens": 214510464.0,
      "step": 5774
    },
    {
      "epoch": 0.7632831086439333,
      "grad_norm": 0.8332076031729021,
      "learning_rate": 2.452474127037327e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 214576000.0,
      "step": 5775
    },
    {
      "epoch": 0.7634152788791964,
      "grad_norm": 0.8231780782105215,
      "learning_rate": 2.4509468043466657e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.8174673318862915,
      "num_tokens": 214641536.0,
      "step": 5776
    },
    {
      "epoch": 0.7635474491144594,
      "grad_norm": 0.8235406356789128,
      "learning_rate": 2.4494201307357665e-06,
      "loss": 0.5336,
      "mean_token_accuracy": 0.8203210830688477,
      "num_tokens": 214707072.0,
      "step": 5777
    },
    {
      "epoch": 0.7636796193497224,
      "grad_norm": 0.8070599531075852,
      "learning_rate": 2.4478941065296327e-06,
      "loss": 0.5557,
      "mean_token_accuracy": 0.8138658404350281,
      "num_tokens": 214772608.0,
      "step": 5778
    },
    {
      "epoch": 0.7638117895849854,
      "grad_norm": 0.819041295250835,
      "learning_rate": 2.446368732053119e-06,
      "loss": 0.6,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 214838144.0,
      "step": 5779
    },
    {
      "epoch": 0.7639439598202484,
      "grad_norm": 0.7988245443416646,
      "learning_rate": 2.444844007630947e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8041447997093201,
      "num_tokens": 214903680.0,
      "step": 5780
    },
    {
      "epoch": 0.7640761300555114,
      "grad_norm": 0.9232837867738496,
      "learning_rate": 2.443319933587699e-06,
      "loss": 0.628,
      "mean_token_accuracy": 0.792378842830658,
      "num_tokens": 214969216.0,
      "step": 5781
    },
    {
      "epoch": 0.7642083002907745,
      "grad_norm": 0.882269239847354,
      "learning_rate": 2.4417965102478197e-06,
      "loss": 0.641,
      "mean_token_accuracy": 0.787861704826355,
      "num_tokens": 215034752.0,
      "step": 5782
    },
    {
      "epoch": 0.7643404705260375,
      "grad_norm": 0.8601849553189408,
      "learning_rate": 2.4402737379356094e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.8079752326011658,
      "num_tokens": 215100288.0,
      "step": 5783
    },
    {
      "epoch": 0.7644726407613005,
      "grad_norm": 0.803537915270914,
      "learning_rate": 2.4387516169752412e-06,
      "loss": 0.5472,
      "mean_token_accuracy": 0.8186424374580383,
      "num_tokens": 215165824.0,
      "step": 5784
    },
    {
      "epoch": 0.7646048109965635,
      "grad_norm": 0.7846763903061944,
      "learning_rate": 2.4372301476907375e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8146746158599854,
      "num_tokens": 215231360.0,
      "step": 5785
    },
    {
      "epoch": 0.7647369812318265,
      "grad_norm": 0.7524762725608235,
      "learning_rate": 2.4357093304059914e-06,
      "loss": 0.5234,
      "mean_token_accuracy": 0.8234647512435913,
      "num_tokens": 215296896.0,
      "step": 5786
    },
    {
      "epoch": 0.7648691514670896,
      "grad_norm": 0.8761926723194247,
      "learning_rate": 2.4341891654447477e-06,
      "loss": 0.6251,
      "mean_token_accuracy": 0.7895098328590393,
      "num_tokens": 215362432.0,
      "step": 5787
    },
    {
      "epoch": 0.7650013217023526,
      "grad_norm": 0.8380117510385423,
      "learning_rate": 2.4326696531306243e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8042516112327576,
      "num_tokens": 215427968.0,
      "step": 5788
    },
    {
      "epoch": 0.7651334919376156,
      "grad_norm": 0.9152035255465744,
      "learning_rate": 2.4311507937870887e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.8081125617027283,
      "num_tokens": 215493504.0,
      "step": 5789
    },
    {
      "epoch": 0.7652656621728786,
      "grad_norm": 0.7427849207249819,
      "learning_rate": 2.429632587737476e-06,
      "loss": 0.5079,
      "mean_token_accuracy": 0.8307288289070129,
      "num_tokens": 215559040.0,
      "step": 5790
    },
    {
      "epoch": 0.7653978324081416,
      "grad_norm": 0.8590977216455752,
      "learning_rate": 2.4281150353049815e-06,
      "loss": 0.5236,
      "mean_token_accuracy": 0.8249297738075256,
      "num_tokens": 215624576.0,
      "step": 5791
    },
    {
      "epoch": 0.7655300026434047,
      "grad_norm": 0.827108406885995,
      "learning_rate": 2.4265981368126606e-06,
      "loss": 0.5561,
      "mean_token_accuracy": 0.8151935338973999,
      "num_tokens": 215690112.0,
      "step": 5792
    },
    {
      "epoch": 0.7656621728786678,
      "grad_norm": 0.8678743625694412,
      "learning_rate": 2.425081892583427e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.8031070828437805,
      "num_tokens": 215755648.0,
      "step": 5793
    },
    {
      "epoch": 0.7657943431139308,
      "grad_norm": 0.7555197604433256,
      "learning_rate": 2.4235663029400587e-06,
      "loss": 0.5358,
      "mean_token_accuracy": 0.8209467530250549,
      "num_tokens": 215821184.0,
      "step": 5794
    },
    {
      "epoch": 0.7659265133491938,
      "grad_norm": 0.8221241673869543,
      "learning_rate": 2.422051368205195e-06,
      "loss": 0.5406,
      "mean_token_accuracy": 0.8200005888938904,
      "num_tokens": 215886720.0,
      "step": 5795
    },
    {
      "epoch": 0.7660586835844568,
      "grad_norm": 0.8071062507096932,
      "learning_rate": 2.4205370887013287e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8055182695388794,
      "num_tokens": 215952256.0,
      "step": 5796
    },
    {
      "epoch": 0.7661908538197199,
      "grad_norm": 0.7685409065461851,
      "learning_rate": 2.419023464750825e-06,
      "loss": 0.5344,
      "mean_token_accuracy": 0.8229153752326965,
      "num_tokens": 216017792.0,
      "step": 5797
    },
    {
      "epoch": 0.7663230240549829,
      "grad_norm": 0.8554921571894372,
      "learning_rate": 2.4175104966758977e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.7972469925880432,
      "num_tokens": 216083328.0,
      "step": 5798
    },
    {
      "epoch": 0.7664551942902459,
      "grad_norm": 0.7560058547310998,
      "learning_rate": 2.415998184798628e-06,
      "loss": 0.5341,
      "mean_token_accuracy": 0.821541965007782,
      "num_tokens": 216148864.0,
      "step": 5799
    },
    {
      "epoch": 0.7665873645255089,
      "grad_norm": 0.7431231292560689,
      "learning_rate": 2.4144865294409553e-06,
      "loss": 0.5284,
      "mean_token_accuracy": 0.82627272605896,
      "num_tokens": 216214400.0,
      "step": 5800
    },
    {
      "epoch": 0.7667195347607719,
      "grad_norm": 0.7831031195828498,
      "learning_rate": 2.412975530924681e-06,
      "loss": 0.516,
      "mean_token_accuracy": 0.8289281129837036,
      "num_tokens": 216279936.0,
      "step": 5801
    },
    {
      "epoch": 0.7668517049960349,
      "grad_norm": 0.8394704915905234,
      "learning_rate": 2.4114651895714626e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8009400367736816,
      "num_tokens": 216345472.0,
      "step": 5802
    },
    {
      "epoch": 0.766983875231298,
      "grad_norm": 0.8174553079605423,
      "learning_rate": 2.4099555057028214e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8040837645530701,
      "num_tokens": 216411008.0,
      "step": 5803
    },
    {
      "epoch": 0.767116045466561,
      "grad_norm": 0.8308052807976906,
      "learning_rate": 2.4084464796401374e-06,
      "loss": 0.567,
      "mean_token_accuracy": 0.8103059530258179,
      "num_tokens": 216473543.0,
      "step": 5804
    },
    {
      "epoch": 0.767248215701824,
      "grad_norm": 0.777394428041238,
      "learning_rate": 2.4069381117046523e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.806403398513794,
      "num_tokens": 216539079.0,
      "step": 5805
    },
    {
      "epoch": 0.767380385937087,
      "grad_norm": 0.8457356947904877,
      "learning_rate": 2.405430402217462e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.7998260259628296,
      "num_tokens": 216604615.0,
      "step": 5806
    },
    {
      "epoch": 0.76751255617235,
      "grad_norm": 0.8276477988981431,
      "learning_rate": 2.403923351499532e-06,
      "loss": 0.5261,
      "mean_token_accuracy": 0.8250366449356079,
      "num_tokens": 216670151.0,
      "step": 5807
    },
    {
      "epoch": 0.767644726407613,
      "grad_norm": 0.7940606032424662,
      "learning_rate": 2.4024169598716772e-06,
      "loss": 0.5753,
      "mean_token_accuracy": 0.8088297843933105,
      "num_tokens": 216735687.0,
      "step": 5808
    },
    {
      "epoch": 0.7677768966428761,
      "grad_norm": 0.8326846662045059,
      "learning_rate": 2.4009112276545794e-06,
      "loss": 0.5265,
      "mean_token_accuracy": 0.8231748342514038,
      "num_tokens": 216801223.0,
      "step": 5809
    },
    {
      "epoch": 0.7679090668781391,
      "grad_norm": 0.8677534954843509,
      "learning_rate": 2.3994061551687762e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.8223507404327393,
      "num_tokens": 216866759.0,
      "step": 5810
    },
    {
      "epoch": 0.7680412371134021,
      "grad_norm": 0.8659374407364153,
      "learning_rate": 2.3979017427346686e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8073647618293762,
      "num_tokens": 216932295.0,
      "step": 5811
    },
    {
      "epoch": 0.7681734073486651,
      "grad_norm": 0.8571308988405062,
      "learning_rate": 2.3963979906725113e-06,
      "loss": 0.6236,
      "mean_token_accuracy": 0.7936607003211975,
      "num_tokens": 216997831.0,
      "step": 5812
    },
    {
      "epoch": 0.7683055775839281,
      "grad_norm": 0.774769043721649,
      "learning_rate": 2.3948948993024233e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8113478422164917,
      "num_tokens": 217063367.0,
      "step": 5813
    },
    {
      "epoch": 0.7684377478191912,
      "grad_norm": 0.7730269490943967,
      "learning_rate": 2.393392468944383e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8115156888961792,
      "num_tokens": 217128903.0,
      "step": 5814
    },
    {
      "epoch": 0.7685699180544542,
      "grad_norm": 0.8175786127265706,
      "learning_rate": 2.391890699918222e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.807639479637146,
      "num_tokens": 217194439.0,
      "step": 5815
    },
    {
      "epoch": 0.7687020882897172,
      "grad_norm": 0.7876769618155162,
      "learning_rate": 2.3903895925436405e-06,
      "loss": 0.5564,
      "mean_token_accuracy": 0.8158649802207947,
      "num_tokens": 217259975.0,
      "step": 5816
    },
    {
      "epoch": 0.7688342585249802,
      "grad_norm": 0.8447872812921196,
      "learning_rate": 2.38888914714019e-06,
      "loss": 0.6262,
      "mean_token_accuracy": 0.7923025488853455,
      "num_tokens": 217325511.0,
      "step": 5817
    },
    {
      "epoch": 0.7689664287602432,
      "grad_norm": 0.8411188612513566,
      "learning_rate": 2.387389364027286e-06,
      "loss": 0.6087,
      "mean_token_accuracy": 0.7982694506645203,
      "num_tokens": 217391047.0,
      "step": 5818
    },
    {
      "epoch": 0.7690985989955063,
      "grad_norm": 0.8121208572731822,
      "learning_rate": 2.3858902435241967e-06,
      "loss": 0.5279,
      "mean_token_accuracy": 0.8236173987388611,
      "num_tokens": 217456583.0,
      "step": 5819
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 0.8521070126431769,
      "learning_rate": 2.38439178595006e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.816215991973877,
      "num_tokens": 217522119.0,
      "step": 5820
    },
    {
      "epoch": 0.7693629394660323,
      "grad_norm": 0.8044194148432182,
      "learning_rate": 2.3828939916238605e-06,
      "loss": 0.5524,
      "mean_token_accuracy": 0.8169789910316467,
      "num_tokens": 217587655.0,
      "step": 5821
    },
    {
      "epoch": 0.7694951097012953,
      "grad_norm": 0.793822080898781,
      "learning_rate": 2.3813968608644503e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8028628826141357,
      "num_tokens": 217653191.0,
      "step": 5822
    },
    {
      "epoch": 0.7696272799365583,
      "grad_norm": 0.8150305437902028,
      "learning_rate": 2.3799003939905368e-06,
      "loss": 0.5794,
      "mean_token_accuracy": 0.8073647618293762,
      "num_tokens": 217718727.0,
      "step": 5823
    },
    {
      "epoch": 0.7697594501718213,
      "grad_norm": 0.7952111803645945,
      "learning_rate": 2.378404591320688e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8126144409179688,
      "num_tokens": 217784263.0,
      "step": 5824
    },
    {
      "epoch": 0.7698916204070844,
      "grad_norm": 0.811230120196056,
      "learning_rate": 2.376909453173324e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.797857403755188,
      "num_tokens": 217849799.0,
      "step": 5825
    },
    {
      "epoch": 0.7700237906423474,
      "grad_norm": 0.8414103404877296,
      "learning_rate": 2.375414979866735e-06,
      "loss": 0.6331,
      "mean_token_accuracy": 0.7874649167060852,
      "num_tokens": 217915335.0,
      "step": 5826
    },
    {
      "epoch": 0.7701559608776104,
      "grad_norm": 0.7993906177729226,
      "learning_rate": 2.373921171719059e-06,
      "loss": 0.5501,
      "mean_token_accuracy": 0.8165669441223145,
      "num_tokens": 217980871.0,
      "step": 5827
    },
    {
      "epoch": 0.7702881311128734,
      "grad_norm": 0.8623128308799919,
      "learning_rate": 2.3724280290482977e-06,
      "loss": 0.5813,
      "mean_token_accuracy": 0.8069069981575012,
      "num_tokens": 218046407.0,
      "step": 5828
    },
    {
      "epoch": 0.7704203013481364,
      "grad_norm": 0.8561723751940241,
      "learning_rate": 2.37093555217231e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8027560710906982,
      "num_tokens": 218111943.0,
      "step": 5829
    },
    {
      "epoch": 0.7705524715833995,
      "grad_norm": 0.7636005616628236,
      "learning_rate": 2.3694437414088144e-06,
      "loss": 0.5472,
      "mean_token_accuracy": 0.8141252398490906,
      "num_tokens": 218177479.0,
      "step": 5830
    },
    {
      "epoch": 0.7706846418186625,
      "grad_norm": 0.7768817872252726,
      "learning_rate": 2.3679525970753833e-06,
      "loss": 0.5551,
      "mean_token_accuracy": 0.816338062286377,
      "num_tokens": 218243015.0,
      "step": 5831
    },
    {
      "epoch": 0.7708168120539255,
      "grad_norm": 0.8491551369560862,
      "learning_rate": 2.3664621194894525e-06,
      "loss": 0.5953,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 218308551.0,
      "step": 5832
    },
    {
      "epoch": 0.7709489822891885,
      "grad_norm": 0.8895658838955253,
      "learning_rate": 2.364972308968314e-06,
      "loss": 0.6194,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 218374087.0,
      "step": 5833
    },
    {
      "epoch": 0.7710811525244515,
      "grad_norm": 0.8209306231587669,
      "learning_rate": 2.3634831658291145e-06,
      "loss": 0.5425,
      "mean_token_accuracy": 0.8167958855628967,
      "num_tokens": 218439623.0,
      "step": 5834
    },
    {
      "epoch": 0.7712133227597145,
      "grad_norm": 0.7875101514269943,
      "learning_rate": 2.3619946903888635e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8105084896087646,
      "num_tokens": 218505159.0,
      "step": 5835
    },
    {
      "epoch": 0.7713454929949776,
      "grad_norm": 0.8865341426388655,
      "learning_rate": 2.3605068829644256e-06,
      "loss": 0.5539,
      "mean_token_accuracy": 0.8179709315299988,
      "num_tokens": 218570695.0,
      "step": 5836
    },
    {
      "epoch": 0.7714776632302406,
      "grad_norm": 0.7515958520710783,
      "learning_rate": 2.359019743872527e-06,
      "loss": 0.5557,
      "mean_token_accuracy": 0.8149340748786926,
      "num_tokens": 218636231.0,
      "step": 5837
    },
    {
      "epoch": 0.7716098334655036,
      "grad_norm": 0.7990375917141043,
      "learning_rate": 2.357533273429742e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8078684210777283,
      "num_tokens": 218701767.0,
      "step": 5838
    },
    {
      "epoch": 0.7717420037007666,
      "grad_norm": 0.8558058167121062,
      "learning_rate": 2.3560474719525164e-06,
      "loss": 0.5962,
      "mean_token_accuracy": 0.8041447997093201,
      "num_tokens": 218767303.0,
      "step": 5839
    },
    {
      "epoch": 0.7718741739360296,
      "grad_norm": 0.7780559195503981,
      "learning_rate": 2.3545623397571417e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8235411047935486,
      "num_tokens": 218832839.0,
      "step": 5840
    },
    {
      "epoch": 0.7720063441712927,
      "grad_norm": 0.8257757834870719,
      "learning_rate": 2.3530778771597725e-06,
      "loss": 0.6448,
      "mean_token_accuracy": 0.7869155406951904,
      "num_tokens": 218898375.0,
      "step": 5841
    },
    {
      "epoch": 0.7721385144065557,
      "grad_norm": 0.8415515402512646,
      "learning_rate": 2.3515940844764202e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.793218195438385,
      "num_tokens": 218963911.0,
      "step": 5842
    },
    {
      "epoch": 0.7722706846418187,
      "grad_norm": 0.8179988955962185,
      "learning_rate": 2.3501109620229558e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8141099810600281,
      "num_tokens": 219029447.0,
      "step": 5843
    },
    {
      "epoch": 0.7724028548770817,
      "grad_norm": 0.8672921540336402,
      "learning_rate": 2.348628510115099e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.807639479637146,
      "num_tokens": 219094983.0,
      "step": 5844
    },
    {
      "epoch": 0.7725350251123447,
      "grad_norm": 0.8154370166219741,
      "learning_rate": 2.347146729068439e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8104932308197021,
      "num_tokens": 219160519.0,
      "step": 5845
    },
    {
      "epoch": 0.7726671953476077,
      "grad_norm": 0.791884100108931,
      "learning_rate": 2.3456656191984125e-06,
      "loss": 0.5352,
      "mean_token_accuracy": 0.8210841417312622,
      "num_tokens": 219226055.0,
      "step": 5846
    },
    {
      "epoch": 0.7727993655828708,
      "grad_norm": 0.7763407387055563,
      "learning_rate": 2.3441851808203196e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8216182589530945,
      "num_tokens": 219291591.0,
      "step": 5847
    },
    {
      "epoch": 0.7729315358181338,
      "grad_norm": 0.8382289080362677,
      "learning_rate": 2.34270541424931e-06,
      "loss": 0.5545,
      "mean_token_accuracy": 0.8150561451911926,
      "num_tokens": 219357127.0,
      "step": 5848
    },
    {
      "epoch": 0.7730637060533968,
      "grad_norm": 0.813548924911645,
      "learning_rate": 2.341226319800401e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8027102947235107,
      "num_tokens": 219422663.0,
      "step": 5849
    },
    {
      "epoch": 0.7731958762886598,
      "grad_norm": 0.7885820371337952,
      "learning_rate": 2.339747897788456e-06,
      "loss": 0.6027,
      "mean_token_accuracy": 0.797979474067688,
      "num_tokens": 219488199.0,
      "step": 5850
    },
    {
      "epoch": 0.7733280465239228,
      "grad_norm": 0.8041184787877567,
      "learning_rate": 2.3382701485282032e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8119582533836365,
      "num_tokens": 219553735.0,
      "step": 5851
    },
    {
      "epoch": 0.7734602167591859,
      "grad_norm": 0.8513398573316402,
      "learning_rate": 2.336793072334225e-06,
      "loss": 0.5686,
      "mean_token_accuracy": 0.811790406703949,
      "num_tokens": 219619271.0,
      "step": 5852
    },
    {
      "epoch": 0.7735923869944489,
      "grad_norm": 0.9254943920398188,
      "learning_rate": 2.3353166695209567e-06,
      "loss": 0.6237,
      "mean_token_accuracy": 0.7937675714492798,
      "num_tokens": 219684807.0,
      "step": 5853
    },
    {
      "epoch": 0.7737245572297119,
      "grad_norm": 0.8749216027674825,
      "learning_rate": 2.333840940402696e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8075326681137085,
      "num_tokens": 219750343.0,
      "step": 5854
    },
    {
      "epoch": 0.7738567274649749,
      "grad_norm": 0.8382863592312486,
      "learning_rate": 2.3323658852935945e-06,
      "loss": 0.5795,
      "mean_token_accuracy": 0.807700514793396,
      "num_tokens": 219815879.0,
      "step": 5855
    },
    {
      "epoch": 0.7739888977002379,
      "grad_norm": 0.9195322978757193,
      "learning_rate": 2.3308915045076617e-06,
      "loss": 0.6253,
      "mean_token_accuracy": 0.7981626391410828,
      "num_tokens": 219881415.0,
      "step": 5856
    },
    {
      "epoch": 0.774121067935501,
      "grad_norm": 0.7977865524281492,
      "learning_rate": 2.3294177983587583e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8084635734558105,
      "num_tokens": 219946951.0,
      "step": 5857
    },
    {
      "epoch": 0.774253238170764,
      "grad_norm": 0.7608985954841836,
      "learning_rate": 2.327944767160612e-06,
      "loss": 0.5411,
      "mean_token_accuracy": 0.8201532363891602,
      "num_tokens": 220012487.0,
      "step": 5858
    },
    {
      "epoch": 0.774385408406027,
      "grad_norm": 0.8156565601781869,
      "learning_rate": 2.3264724112267957e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 220078023.0,
      "step": 5859
    },
    {
      "epoch": 0.77451757864129,
      "grad_norm": 0.9215577051605209,
      "learning_rate": 2.325000730870744e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.7986204624176025,
      "num_tokens": 220143559.0,
      "step": 5860
    },
    {
      "epoch": 0.774649748876553,
      "grad_norm": 0.8683480876453445,
      "learning_rate": 2.3235297264057477e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.8176962733268738,
      "num_tokens": 220209095.0,
      "step": 5861
    },
    {
      "epoch": 0.774781919111816,
      "grad_norm": 0.8150683307880843,
      "learning_rate": 2.322059398144954e-06,
      "loss": 0.5786,
      "mean_token_accuracy": 0.8085551261901855,
      "num_tokens": 220274631.0,
      "step": 5862
    },
    {
      "epoch": 0.7749140893470791,
      "grad_norm": 0.78930660345907,
      "learning_rate": 2.320589746401363e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8049994111061096,
      "num_tokens": 220340167.0,
      "step": 5863
    },
    {
      "epoch": 0.7750462595823421,
      "grad_norm": 0.7675729524750443,
      "learning_rate": 2.319120771487833e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8168416619300842,
      "num_tokens": 220405703.0,
      "step": 5864
    },
    {
      "epoch": 0.7751784298176051,
      "grad_norm": 0.8192508024154799,
      "learning_rate": 2.317652473717079e-06,
      "loss": 0.5899,
      "mean_token_accuracy": 0.8027102947235107,
      "num_tokens": 220471239.0,
      "step": 5865
    },
    {
      "epoch": 0.7753106000528681,
      "grad_norm": 0.8875023635339625,
      "learning_rate": 2.3161848534016723e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8080515265464783,
      "num_tokens": 220536775.0,
      "step": 5866
    },
    {
      "epoch": 0.7754427702881311,
      "grad_norm": 0.8422474339335818,
      "learning_rate": 2.3147179108540345e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8051977753639221,
      "num_tokens": 220602311.0,
      "step": 5867
    },
    {
      "epoch": 0.7755749405233942,
      "grad_norm": 0.9420611126983028,
      "learning_rate": 2.3132516463864517e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8078989386558533,
      "num_tokens": 220667847.0,
      "step": 5868
    },
    {
      "epoch": 0.7757071107586572,
      "grad_norm": 0.8185436669721446,
      "learning_rate": 2.311786060311058e-06,
      "loss": 0.6182,
      "mean_token_accuracy": 0.7970027923583984,
      "num_tokens": 220733383.0,
      "step": 5869
    },
    {
      "epoch": 0.7758392809939202,
      "grad_norm": 0.8582594131170871,
      "learning_rate": 2.3103211529398464e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8104169368743896,
      "num_tokens": 220798919.0,
      "step": 5870
    },
    {
      "epoch": 0.7759714512291832,
      "grad_norm": 0.7767780322978806,
      "learning_rate": 2.3088569245846675e-06,
      "loss": 0.5376,
      "mean_token_accuracy": 0.8221523761749268,
      "num_tokens": 220864455.0,
      "step": 5871
    },
    {
      "epoch": 0.7761036214644462,
      "grad_norm": 0.8084470755593932,
      "learning_rate": 2.307393375557222e-06,
      "loss": 0.5678,
      "mean_token_accuracy": 0.8111189007759094,
      "num_tokens": 220929991.0,
      "step": 5872
    },
    {
      "epoch": 0.7762357916997092,
      "grad_norm": 0.805668685395082,
      "learning_rate": 2.305930506169069e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.812873899936676,
      "num_tokens": 220995527.0,
      "step": 5873
    },
    {
      "epoch": 0.7763679619349723,
      "grad_norm": 0.8449666999008634,
      "learning_rate": 2.3044683167316247e-06,
      "loss": 0.604,
      "mean_token_accuracy": 0.8031681180000305,
      "num_tokens": 221061063.0,
      "step": 5874
    },
    {
      "epoch": 0.7765001321702353,
      "grad_norm": 0.8218629268963336,
      "learning_rate": 2.303006807556159e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.7954156994819641,
      "num_tokens": 221126599.0,
      "step": 5875
    },
    {
      "epoch": 0.7766323024054983,
      "grad_norm": 0.7942457203650408,
      "learning_rate": 2.3015459789537926e-06,
      "loss": 0.5914,
      "mean_token_accuracy": 0.8027408123016357,
      "num_tokens": 221192135.0,
      "step": 5876
    },
    {
      "epoch": 0.7767644726407613,
      "grad_norm": 0.8476331808834655,
      "learning_rate": 2.3000858312355118e-06,
      "loss": 0.5837,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 221257671.0,
      "step": 5877
    },
    {
      "epoch": 0.7768966428760243,
      "grad_norm": 0.8003974505960584,
      "learning_rate": 2.298626364712146e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8078836798667908,
      "num_tokens": 221323207.0,
      "step": 5878
    },
    {
      "epoch": 0.7770288131112874,
      "grad_norm": 0.8626517102330488,
      "learning_rate": 2.2971675796943887e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8016268014907837,
      "num_tokens": 221388743.0,
      "step": 5879
    },
    {
      "epoch": 0.7771609833465504,
      "grad_norm": 0.8479504673410636,
      "learning_rate": 2.295709476492781e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8071663975715637,
      "num_tokens": 221454279.0,
      "step": 5880
    },
    {
      "epoch": 0.7772931535818134,
      "grad_norm": 0.784444814515877,
      "learning_rate": 2.2942520554177275e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8099285960197449,
      "num_tokens": 221519815.0,
      "step": 5881
    },
    {
      "epoch": 0.7774253238170764,
      "grad_norm": 0.7986548694366725,
      "learning_rate": 2.2927953167794794e-06,
      "loss": 0.5798,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 221585351.0,
      "step": 5882
    },
    {
      "epoch": 0.7775574940523394,
      "grad_norm": 0.8235565388600175,
      "learning_rate": 2.291339260888146e-06,
      "loss": 0.5644,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 221650887.0,
      "step": 5883
    },
    {
      "epoch": 0.7776896642876024,
      "grad_norm": 0.8655357306415065,
      "learning_rate": 2.289883888053692e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8029850125312805,
      "num_tokens": 221716423.0,
      "step": 5884
    },
    {
      "epoch": 0.7778218345228655,
      "grad_norm": 0.7541285353187935,
      "learning_rate": 2.288429198585938e-06,
      "loss": 0.5152,
      "mean_token_accuracy": 0.8268678784370422,
      "num_tokens": 221781959.0,
      "step": 5885
    },
    {
      "epoch": 0.7779540047581285,
      "grad_norm": 0.7776742852154876,
      "learning_rate": 2.2869751927945526e-06,
      "loss": 0.5254,
      "mean_token_accuracy": 0.8220303058624268,
      "num_tokens": 221847495.0,
      "step": 5886
    },
    {
      "epoch": 0.7780861749933915,
      "grad_norm": 0.7498365108313194,
      "learning_rate": 2.2855218709890654e-06,
      "loss": 0.5541,
      "mean_token_accuracy": 0.816185474395752,
      "num_tokens": 221913031.0,
      "step": 5887
    },
    {
      "epoch": 0.7782183452286545,
      "grad_norm": 0.8169913111510191,
      "learning_rate": 2.284069233478859e-06,
      "loss": 0.565,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 221978567.0,
      "step": 5888
    },
    {
      "epoch": 0.7783505154639175,
      "grad_norm": 0.8695811409960383,
      "learning_rate": 2.282617280573169e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.811881959438324,
      "num_tokens": 222044103.0,
      "step": 5889
    },
    {
      "epoch": 0.7784826856991806,
      "grad_norm": 0.8427308050050442,
      "learning_rate": 2.281166012581087e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8167806267738342,
      "num_tokens": 222109639.0,
      "step": 5890
    },
    {
      "epoch": 0.7786148559344436,
      "grad_norm": 0.7621371954458841,
      "learning_rate": 2.279715429811555e-06,
      "loss": 0.5302,
      "mean_token_accuracy": 0.8229764103889465,
      "num_tokens": 222175175.0,
      "step": 5891
    },
    {
      "epoch": 0.7787470261697066,
      "grad_norm": 0.8279389506694997,
      "learning_rate": 2.2782655325733737e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8110731244087219,
      "num_tokens": 222240711.0,
      "step": 5892
    },
    {
      "epoch": 0.7788791964049696,
      "grad_norm": 0.7669122491274085,
      "learning_rate": 2.276816321175195e-06,
      "loss": 0.5335,
      "mean_token_accuracy": 0.8223049640655518,
      "num_tokens": 222306247.0,
      "step": 5893
    },
    {
      "epoch": 0.7790113666402326,
      "grad_norm": 0.9077704089088513,
      "learning_rate": 2.2753677959255284e-06,
      "loss": 0.6349,
      "mean_token_accuracy": 0.7866865992546082,
      "num_tokens": 222371783.0,
      "step": 5894
    },
    {
      "epoch": 0.7791435368754956,
      "grad_norm": 0.7143891601991226,
      "learning_rate": 2.2739199571327307e-06,
      "loss": 0.478,
      "mean_token_accuracy": 0.8409076929092407,
      "num_tokens": 222437319.0,
      "step": 5895
    },
    {
      "epoch": 0.7792757071107587,
      "grad_norm": 0.8981066523274636,
      "learning_rate": 2.2724728051050183e-06,
      "loss": 0.6415,
      "mean_token_accuracy": 0.78789222240448,
      "num_tokens": 222502855.0,
      "step": 5896
    },
    {
      "epoch": 0.7794078773460217,
      "grad_norm": 0.795759580921892,
      "learning_rate": 2.27102634015046e-06,
      "loss": 0.5518,
      "mean_token_accuracy": 0.8152393102645874,
      "num_tokens": 222568391.0,
      "step": 5897
    },
    {
      "epoch": 0.7795400475812847,
      "grad_norm": 0.812397782694372,
      "learning_rate": 2.269580562576979e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.7993529438972473,
      "num_tokens": 222633927.0,
      "step": 5898
    },
    {
      "epoch": 0.7796722178165477,
      "grad_norm": 0.7558544211766615,
      "learning_rate": 2.2681354726923472e-06,
      "loss": 0.5404,
      "mean_token_accuracy": 0.8234647512435913,
      "num_tokens": 222699463.0,
      "step": 5899
    },
    {
      "epoch": 0.7798043880518107,
      "grad_norm": 0.84637438516823,
      "learning_rate": 2.2666910708041996e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 222764999.0,
      "step": 5900
    },
    {
      "epoch": 0.7799365582870738,
      "grad_norm": 0.8526577306906108,
      "learning_rate": 2.265247357220015e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8005890846252441,
      "num_tokens": 222830535.0,
      "step": 5901
    },
    {
      "epoch": 0.7800687285223368,
      "grad_norm": 0.8948371783285379,
      "learning_rate": 2.2638043322471315e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.7854047417640686,
      "num_tokens": 222896071.0,
      "step": 5902
    },
    {
      "epoch": 0.7802008987575998,
      "grad_norm": 0.7498584174571142,
      "learning_rate": 2.2623619961927385e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8062507510185242,
      "num_tokens": 222961607.0,
      "step": 5903
    },
    {
      "epoch": 0.7803330689928628,
      "grad_norm": 0.8364563981256186,
      "learning_rate": 2.2609203493638814e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7969112396240234,
      "num_tokens": 223027143.0,
      "step": 5904
    },
    {
      "epoch": 0.7804652392281258,
      "grad_norm": 0.8880124121034758,
      "learning_rate": 2.2594793920674525e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.7953546643257141,
      "num_tokens": 223092679.0,
      "step": 5905
    },
    {
      "epoch": 0.7805974094633888,
      "grad_norm": 0.7443773424737823,
      "learning_rate": 2.2580391246102045e-06,
      "loss": 0.5188,
      "mean_token_accuracy": 0.8277987837791443,
      "num_tokens": 223158215.0,
      "step": 5906
    },
    {
      "epoch": 0.7807295796986519,
      "grad_norm": 0.8849017508578443,
      "learning_rate": 2.2565995472987395e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8142015337944031,
      "num_tokens": 223223751.0,
      "step": 5907
    },
    {
      "epoch": 0.7808617499339149,
      "grad_norm": 0.8523319439965902,
      "learning_rate": 2.255160660439515e-06,
      "loss": 0.6196,
      "mean_token_accuracy": 0.7953088879585266,
      "num_tokens": 223289287.0,
      "step": 5908
    },
    {
      "epoch": 0.7809939201691779,
      "grad_norm": 0.8677828007680182,
      "learning_rate": 2.2537224643388368e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8032291531562805,
      "num_tokens": 223354823.0,
      "step": 5909
    },
    {
      "epoch": 0.7811260904044409,
      "grad_norm": 0.890199223632408,
      "learning_rate": 2.2522849593028687e-06,
      "loss": 0.608,
      "mean_token_accuracy": 0.7974453568458557,
      "num_tokens": 223420359.0,
      "step": 5910
    },
    {
      "epoch": 0.7812582606397039,
      "grad_norm": 0.8111375862995615,
      "learning_rate": 2.250848145637626e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.802405059337616,
      "num_tokens": 223485895.0,
      "step": 5911
    },
    {
      "epoch": 0.781390430874967,
      "grad_norm": 0.7644833077947503,
      "learning_rate": 2.2494120236489747e-06,
      "loss": 0.5175,
      "mean_token_accuracy": 0.8289281129837036,
      "num_tokens": 223551431.0,
      "step": 5912
    },
    {
      "epoch": 0.78152260111023,
      "grad_norm": 0.8922897735529349,
      "learning_rate": 2.247976593642638e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8049536347389221,
      "num_tokens": 223616967.0,
      "step": 5913
    },
    {
      "epoch": 0.781654771345493,
      "grad_norm": 0.8404271629631631,
      "learning_rate": 2.2465418559241853e-06,
      "loss": 0.5855,
      "mean_token_accuracy": 0.8037937879562378,
      "num_tokens": 223682503.0,
      "step": 5914
    },
    {
      "epoch": 0.781786941580756,
      "grad_norm": 0.8040215774584553,
      "learning_rate": 2.2451078107990448e-06,
      "loss": 0.5352,
      "mean_token_accuracy": 0.8208094239234924,
      "num_tokens": 223748039.0,
      "step": 5915
    },
    {
      "epoch": 0.781919111816019,
      "grad_norm": 0.8496059014407997,
      "learning_rate": 2.243674458572494e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.7965449690818787,
      "num_tokens": 223813575.0,
      "step": 5916
    },
    {
      "epoch": 0.782051282051282,
      "grad_norm": 0.8719446090717001,
      "learning_rate": 2.2422417995496655e-06,
      "loss": 0.607,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 223879111.0,
      "step": 5917
    },
    {
      "epoch": 0.7821834522865451,
      "grad_norm": 0.7811207673618383,
      "learning_rate": 2.2408098340355374e-06,
      "loss": 0.5057,
      "mean_token_accuracy": 0.832285463809967,
      "num_tokens": 223944647.0,
      "step": 5918
    },
    {
      "epoch": 0.7823156225218081,
      "grad_norm": 0.7544888909839704,
      "learning_rate": 2.2393785623349516e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.8157734274864197,
      "num_tokens": 224010183.0,
      "step": 5919
    },
    {
      "epoch": 0.7824477927570711,
      "grad_norm": 0.7287826547077888,
      "learning_rate": 2.2379479847525915e-06,
      "loss": 0.4741,
      "mean_token_accuracy": 0.8427389860153198,
      "num_tokens": 224075719.0,
      "step": 5920
    },
    {
      "epoch": 0.7825799629923341,
      "grad_norm": 0.8969585899492982,
      "learning_rate": 2.236518101592999e-06,
      "loss": 0.6015,
      "mean_token_accuracy": 0.8010163307189941,
      "num_tokens": 224141255.0,
      "step": 5921
    },
    {
      "epoch": 0.7827121332275971,
      "grad_norm": 0.8367563575186749,
      "learning_rate": 2.2350889131605656e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7939506769180298,
      "num_tokens": 224206791.0,
      "step": 5922
    },
    {
      "epoch": 0.7828443034628602,
      "grad_norm": 0.7643028185447238,
      "learning_rate": 2.233660419759538e-06,
      "loss": 0.531,
      "mean_token_accuracy": 0.8235868811607361,
      "num_tokens": 224272327.0,
      "step": 5923
    },
    {
      "epoch": 0.7829764736981232,
      "grad_norm": 0.8262968479228924,
      "learning_rate": 2.2322326216940093e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8092876076698303,
      "num_tokens": 224337863.0,
      "step": 5924
    },
    {
      "epoch": 0.7831086439333862,
      "grad_norm": 0.7966824208351965,
      "learning_rate": 2.230805519267929e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8062202334403992,
      "num_tokens": 224403399.0,
      "step": 5925
    },
    {
      "epoch": 0.7832408141686492,
      "grad_norm": 0.7923747235177361,
      "learning_rate": 2.2293791127850986e-06,
      "loss": 0.5526,
      "mean_token_accuracy": 0.8180014491081238,
      "num_tokens": 224468935.0,
      "step": 5926
    },
    {
      "epoch": 0.7833729844039122,
      "grad_norm": 0.8270194546736025,
      "learning_rate": 2.22795340254917e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8096386194229126,
      "num_tokens": 224534471.0,
      "step": 5927
    },
    {
      "epoch": 0.7835051546391752,
      "grad_norm": 0.8026345141600045,
      "learning_rate": 2.2265283888636456e-06,
      "loss": 0.5905,
      "mean_token_accuracy": 0.8045110702514648,
      "num_tokens": 224600007.0,
      "step": 5928
    },
    {
      "epoch": 0.7836373248744383,
      "grad_norm": 0.7785863383787209,
      "learning_rate": 2.2251040720318824e-06,
      "loss": 0.5136,
      "mean_token_accuracy": 0.8290044069290161,
      "num_tokens": 224665543.0,
      "step": 5929
    },
    {
      "epoch": 0.7837694951097013,
      "grad_norm": 0.8086249422404859,
      "learning_rate": 2.2236804523570864e-06,
      "loss": 0.5808,
      "mean_token_accuracy": 0.8051367402076721,
      "num_tokens": 224731079.0,
      "step": 5930
    },
    {
      "epoch": 0.7839016653449643,
      "grad_norm": 0.8338368486865412,
      "learning_rate": 2.2222575301423182e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.808417797088623,
      "num_tokens": 224796615.0,
      "step": 5931
    },
    {
      "epoch": 0.7840338355802273,
      "grad_norm": 0.8047613037012602,
      "learning_rate": 2.2208353056904886e-06,
      "loss": 0.5826,
      "mean_token_accuracy": 0.8086161613464355,
      "num_tokens": 224862151.0,
      "step": 5932
    },
    {
      "epoch": 0.7841660058154903,
      "grad_norm": 0.8230806838950271,
      "learning_rate": 2.2194137793043576e-06,
      "loss": 0.5901,
      "mean_token_accuracy": 0.8018251657485962,
      "num_tokens": 224927687.0,
      "step": 5933
    },
    {
      "epoch": 0.7842981760507534,
      "grad_norm": 0.7450510099158676,
      "learning_rate": 2.2179929512865383e-06,
      "loss": 0.4962,
      "mean_token_accuracy": 0.8327890634536743,
      "num_tokens": 224993223.0,
      "step": 5934
    },
    {
      "epoch": 0.7844303462860164,
      "grad_norm": 0.8460213929656445,
      "learning_rate": 2.216572821939497e-06,
      "loss": 0.5943,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 225058759.0,
      "step": 5935
    },
    {
      "epoch": 0.7845625165212794,
      "grad_norm": 0.7810512014406964,
      "learning_rate": 2.21515339156555e-06,
      "loss": 0.5436,
      "mean_token_accuracy": 0.817513108253479,
      "num_tokens": 225124295.0,
      "step": 5936
    },
    {
      "epoch": 0.7846946867565424,
      "grad_norm": 0.8552005543170128,
      "learning_rate": 2.2137346604668617e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 225189831.0,
      "step": 5937
    },
    {
      "epoch": 0.7848268569918054,
      "grad_norm": 0.8025471955830058,
      "learning_rate": 2.2123166289454524e-06,
      "loss": 0.543,
      "mean_token_accuracy": 0.8187797665596008,
      "num_tokens": 225255367.0,
      "step": 5938
    },
    {
      "epoch": 0.7849590272270685,
      "grad_norm": 0.8268337305645901,
      "learning_rate": 2.21089929730319e-06,
      "loss": 0.5568,
      "mean_token_accuracy": 0.8154529333114624,
      "num_tokens": 225320903.0,
      "step": 5939
    },
    {
      "epoch": 0.7850911974623315,
      "grad_norm": 0.7980034048492956,
      "learning_rate": 2.2094826658417977e-06,
      "loss": 0.5798,
      "mean_token_accuracy": 0.807792067527771,
      "num_tokens": 225386439.0,
      "step": 5940
    },
    {
      "epoch": 0.7852233676975945,
      "grad_norm": 0.8315401279203927,
      "learning_rate": 2.2080667348628427e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.8091350197792053,
      "num_tokens": 225451975.0,
      "step": 5941
    },
    {
      "epoch": 0.7853555379328575,
      "grad_norm": 0.7364519030315604,
      "learning_rate": 2.206651504667752e-06,
      "loss": 0.4999,
      "mean_token_accuracy": 0.832468569278717,
      "num_tokens": 225517511.0,
      "step": 5942
    },
    {
      "epoch": 0.7854877081681205,
      "grad_norm": 0.7881012752351284,
      "learning_rate": 2.2052369755577933e-06,
      "loss": 0.5588,
      "mean_token_accuracy": 0.8137131929397583,
      "num_tokens": 225583047.0,
      "step": 5943
    },
    {
      "epoch": 0.7856198784033835,
      "grad_norm": 0.728162763799788,
      "learning_rate": 2.203823147834093e-06,
      "loss": 0.5294,
      "mean_token_accuracy": 0.8254486918449402,
      "num_tokens": 225648583.0,
      "step": 5944
    },
    {
      "epoch": 0.7857520486386466,
      "grad_norm": 0.7974194689183638,
      "learning_rate": 2.2024100217976256e-06,
      "loss": 0.5901,
      "mean_token_accuracy": 0.8053656220436096,
      "num_tokens": 225714119.0,
      "step": 5945
    },
    {
      "epoch": 0.7858842188739096,
      "grad_norm": 0.8396291688953998,
      "learning_rate": 2.200997597749217e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8048162460327148,
      "num_tokens": 225779655.0,
      "step": 5946
    },
    {
      "epoch": 0.7860163891091726,
      "grad_norm": 0.7649930765815469,
      "learning_rate": 2.1995858759895405e-06,
      "loss": 0.5043,
      "mean_token_accuracy": 0.831720769405365,
      "num_tokens": 225845191.0,
      "step": 5947
    },
    {
      "epoch": 0.7861485593444356,
      "grad_norm": 0.8346491091576103,
      "learning_rate": 2.1981748568191235e-06,
      "loss": 0.6264,
      "mean_token_accuracy": 0.7929587364196777,
      "num_tokens": 225910727.0,
      "step": 5948
    },
    {
      "epoch": 0.7862807295796986,
      "grad_norm": 0.7310774040206619,
      "learning_rate": 2.196764540538342e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8097454309463501,
      "num_tokens": 225976263.0,
      "step": 5949
    },
    {
      "epoch": 0.7864128998149617,
      "grad_norm": 0.8014606216496604,
      "learning_rate": 2.1953549274474234e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8158192038536072,
      "num_tokens": 226041799.0,
      "step": 5950
    },
    {
      "epoch": 0.7865450700502247,
      "grad_norm": 0.7737376000698354,
      "learning_rate": 2.193946017846446e-06,
      "loss": 0.5625,
      "mean_token_accuracy": 0.8124618530273438,
      "num_tokens": 226107335.0,
      "step": 5951
    },
    {
      "epoch": 0.7866772402854877,
      "grad_norm": 0.7829456285557276,
      "learning_rate": 2.1925378120353345e-06,
      "loss": 0.5477,
      "mean_token_accuracy": 0.8210994005203247,
      "num_tokens": 226172871.0,
      "step": 5952
    },
    {
      "epoch": 0.7868094105207507,
      "grad_norm": 0.8241466668986555,
      "learning_rate": 2.19113031031387e-06,
      "loss": 0.5821,
      "mean_token_accuracy": 0.806617021560669,
      "num_tokens": 226238407.0,
      "step": 5953
    },
    {
      "epoch": 0.7869415807560137,
      "grad_norm": 0.7964822298471683,
      "learning_rate": 2.1897235129816745e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8056098222732544,
      "num_tokens": 226303943.0,
      "step": 5954
    },
    {
      "epoch": 0.7870737509912767,
      "grad_norm": 0.8332463321247401,
      "learning_rate": 2.188317420338233e-06,
      "loss": 0.5903,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 226369479.0,
      "step": 5955
    },
    {
      "epoch": 0.7872059212265398,
      "grad_norm": 0.8109557367960442,
      "learning_rate": 2.186912032682868e-06,
      "loss": 0.5936,
      "mean_token_accuracy": 0.8017946481704712,
      "num_tokens": 226435015.0,
      "step": 5956
    },
    {
      "epoch": 0.7873380914618028,
      "grad_norm": 0.8398182496367605,
      "learning_rate": 2.1855073503147594e-06,
      "loss": 0.6166,
      "mean_token_accuracy": 0.7945763468742371,
      "num_tokens": 226500551.0,
      "step": 5957
    },
    {
      "epoch": 0.7874702616970658,
      "grad_norm": 0.8072572591977348,
      "learning_rate": 2.1841033735329335e-06,
      "loss": 0.5174,
      "mean_token_accuracy": 0.8277682662010193,
      "num_tokens": 226566087.0,
      "step": 5958
    },
    {
      "epoch": 0.7876024319323288,
      "grad_norm": 0.8378058326521499,
      "learning_rate": 2.1827001026362704e-06,
      "loss": 0.5604,
      "mean_token_accuracy": 0.8149035573005676,
      "num_tokens": 226631623.0,
      "step": 5959
    },
    {
      "epoch": 0.7877346021675918,
      "grad_norm": 0.9434762358055526,
      "learning_rate": 2.1812975379234925e-06,
      "loss": 0.6244,
      "mean_token_accuracy": 0.79361492395401,
      "num_tokens": 226697159.0,
      "step": 5960
    },
    {
      "epoch": 0.7878667724028549,
      "grad_norm": 0.8457670923910195,
      "learning_rate": 2.1798956796931815e-06,
      "loss": 0.626,
      "mean_token_accuracy": 0.7919667959213257,
      "num_tokens": 226762695.0,
      "step": 5961
    },
    {
      "epoch": 0.7879989426381179,
      "grad_norm": 0.8458099103500193,
      "learning_rate": 2.1784945282437604e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.7965754866600037,
      "num_tokens": 226828231.0,
      "step": 5962
    },
    {
      "epoch": 0.7881311128733809,
      "grad_norm": 0.8318716955619406,
      "learning_rate": 2.1770940838735062e-06,
      "loss": 0.6035,
      "mean_token_accuracy": 0.7985746264457703,
      "num_tokens": 226893767.0,
      "step": 5963
    },
    {
      "epoch": 0.7882632831086439,
      "grad_norm": 0.8287459553112765,
      "learning_rate": 2.1756943468805448e-06,
      "loss": 0.6274,
      "mean_token_accuracy": 0.7929892539978027,
      "num_tokens": 226959303.0,
      "step": 5964
    },
    {
      "epoch": 0.7883954533439069,
      "grad_norm": 0.7969680668174888,
      "learning_rate": 2.174295317562851e-06,
      "loss": 0.5284,
      "mean_token_accuracy": 0.825998067855835,
      "num_tokens": 227024839.0,
      "step": 5965
    },
    {
      "epoch": 0.78852762357917,
      "grad_norm": 0.7794256564385443,
      "learning_rate": 2.1728969962182475e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8140794634819031,
      "num_tokens": 227090375.0,
      "step": 5966
    },
    {
      "epoch": 0.788659793814433,
      "grad_norm": 0.8554798797045143,
      "learning_rate": 2.171499383144408e-06,
      "loss": 0.648,
      "mean_token_accuracy": 0.7864729762077332,
      "num_tokens": 227155911.0,
      "step": 5967
    },
    {
      "epoch": 0.788791964049696,
      "grad_norm": 0.8171976730527969,
      "learning_rate": 2.170102478638856e-06,
      "loss": 0.5701,
      "mean_token_accuracy": 0.812034547328949,
      "num_tokens": 227221447.0,
      "step": 5968
    },
    {
      "epoch": 0.788924134284959,
      "grad_norm": 0.8291151609190912,
      "learning_rate": 2.1687062829989646e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7952631115913391,
      "num_tokens": 227286983.0,
      "step": 5969
    },
    {
      "epoch": 0.789056304520222,
      "grad_norm": 0.7644842848896504,
      "learning_rate": 2.167310796521952e-06,
      "loss": 0.5279,
      "mean_token_accuracy": 0.8240447044372559,
      "num_tokens": 227352519.0,
      "step": 5970
    },
    {
      "epoch": 0.789188474755485,
      "grad_norm": 0.9261617619090293,
      "learning_rate": 2.165916019504889e-06,
      "loss": 0.6154,
      "mean_token_accuracy": 0.7987425327301025,
      "num_tokens": 227418055.0,
      "step": 5971
    },
    {
      "epoch": 0.789320644990748,
      "grad_norm": 0.8064999372010735,
      "learning_rate": 2.1645219522446966e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.8093487024307251,
      "num_tokens": 227483591.0,
      "step": 5972
    },
    {
      "epoch": 0.7894528152260111,
      "grad_norm": 0.7559254815312413,
      "learning_rate": 2.1631285950381374e-06,
      "loss": 0.5185,
      "mean_token_accuracy": 0.8276461958885193,
      "num_tokens": 227549127.0,
      "step": 5973
    },
    {
      "epoch": 0.7895849854612741,
      "grad_norm": 0.8104738891138218,
      "learning_rate": 2.1617359481818338e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.808784008026123,
      "num_tokens": 227614663.0,
      "step": 5974
    },
    {
      "epoch": 0.7897171556965371,
      "grad_norm": 0.7955439347602683,
      "learning_rate": 2.160344011972249e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.802191436290741,
      "num_tokens": 227680199.0,
      "step": 5975
    },
    {
      "epoch": 0.7898493259318001,
      "grad_norm": 0.852803188736244,
      "learning_rate": 2.158952786705696e-06,
      "loss": 0.5472,
      "mean_token_accuracy": 0.8168569207191467,
      "num_tokens": 227745735.0,
      "step": 5976
    },
    {
      "epoch": 0.7899814961670631,
      "grad_norm": 0.7751692130540527,
      "learning_rate": 2.157562272678339e-06,
      "loss": 0.5636,
      "mean_token_accuracy": 0.812187135219574,
      "num_tokens": 227811271.0,
      "step": 5977
    },
    {
      "epoch": 0.7901136664023262,
      "grad_norm": 0.8093378936119868,
      "learning_rate": 2.15617247018619e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.8001770377159119,
      "num_tokens": 227876807.0,
      "step": 5978
    },
    {
      "epoch": 0.7902458366375892,
      "grad_norm": 0.7829275120283045,
      "learning_rate": 2.154783379525106e-06,
      "loss": 0.5214,
      "mean_token_accuracy": 0.8300726413726807,
      "num_tokens": 227942343.0,
      "step": 5979
    },
    {
      "epoch": 0.7903780068728522,
      "grad_norm": 0.8070753732584285,
      "learning_rate": 2.1533950009907995e-06,
      "loss": 0.5741,
      "mean_token_accuracy": 0.8083414435386658,
      "num_tokens": 228007879.0,
      "step": 5980
    },
    {
      "epoch": 0.7905101771081152,
      "grad_norm": 0.7963602050500188,
      "learning_rate": 2.152007334878824e-06,
      "loss": 0.5452,
      "mean_token_accuracy": 0.8188408017158508,
      "num_tokens": 228073415.0,
      "step": 5981
    },
    {
      "epoch": 0.7906423473433782,
      "grad_norm": 0.7718455222566228,
      "learning_rate": 2.150620381484586e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.8071206212043762,
      "num_tokens": 228138951.0,
      "step": 5982
    },
    {
      "epoch": 0.7907745175786413,
      "grad_norm": 0.8674087932076558,
      "learning_rate": 2.149234141103339e-06,
      "loss": 0.6078,
      "mean_token_accuracy": 0.7982847094535828,
      "num_tokens": 228204487.0,
      "step": 5983
    },
    {
      "epoch": 0.7909066878139043,
      "grad_norm": 0.8261101746947673,
      "learning_rate": 2.1478486140301852e-06,
      "loss": 0.5938,
      "mean_token_accuracy": 0.8031986355781555,
      "num_tokens": 228270023.0,
      "step": 5984
    },
    {
      "epoch": 0.7910388580491673,
      "grad_norm": 0.8412501682067658,
      "learning_rate": 2.1464638005600723e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.8038700819015503,
      "num_tokens": 228335559.0,
      "step": 5985
    },
    {
      "epoch": 0.7911710282844303,
      "grad_norm": 0.8091645246399419,
      "learning_rate": 2.1450797009878e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8106915950775146,
      "num_tokens": 228401095.0,
      "step": 5986
    },
    {
      "epoch": 0.7913031985196933,
      "grad_norm": 0.799582554052052,
      "learning_rate": 2.143696315608013e-06,
      "loss": 0.5279,
      "mean_token_accuracy": 0.8237547278404236,
      "num_tokens": 228466631.0,
      "step": 5987
    },
    {
      "epoch": 0.7914353687549563,
      "grad_norm": 0.8258224615719042,
      "learning_rate": 2.142313644715208e-06,
      "loss": 0.5402,
      "mean_token_accuracy": 0.8223659992218018,
      "num_tokens": 228532167.0,
      "step": 5988
    },
    {
      "epoch": 0.7915675389902194,
      "grad_norm": 0.8395139055519877,
      "learning_rate": 2.140931688603722e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8117293119430542,
      "num_tokens": 228597703.0,
      "step": 5989
    },
    {
      "epoch": 0.7916997092254824,
      "grad_norm": 0.7539171375461484,
      "learning_rate": 2.1395504475677486e-06,
      "loss": 0.5618,
      "mean_token_accuracy": 0.8126907348632812,
      "num_tokens": 228663239.0,
      "step": 5990
    },
    {
      "epoch": 0.7918318794607454,
      "grad_norm": 0.7768070089335825,
      "learning_rate": 2.1381699219013245e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 228728775.0,
      "step": 5991
    },
    {
      "epoch": 0.7919640496960084,
      "grad_norm": 0.8685202269265823,
      "learning_rate": 2.1367901118983316e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.8093944787979126,
      "num_tokens": 228794311.0,
      "step": 5992
    },
    {
      "epoch": 0.7920962199312714,
      "grad_norm": 0.8576051701343727,
      "learning_rate": 2.1354110178525073e-06,
      "loss": 0.6022,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 228859847.0,
      "step": 5993
    },
    {
      "epoch": 0.7922283901665345,
      "grad_norm": 0.8077455011685708,
      "learning_rate": 2.1340326400574285e-06,
      "loss": 0.5698,
      "mean_token_accuracy": 0.8100048899650574,
      "num_tokens": 228925383.0,
      "step": 5994
    },
    {
      "epoch": 0.7923605604017975,
      "grad_norm": 0.8301899000712544,
      "learning_rate": 2.1326549788065247e-06,
      "loss": 0.6033,
      "mean_token_accuracy": 0.7976285219192505,
      "num_tokens": 228990919.0,
      "step": 5995
    },
    {
      "epoch": 0.7924927306370605,
      "grad_norm": 0.8689045097687187,
      "learning_rate": 2.1312780343930707e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 229056455.0,
      "step": 5996
    },
    {
      "epoch": 0.7926249008723235,
      "grad_norm": 0.8055178730583333,
      "learning_rate": 2.1299018071101905e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 229121991.0,
      "step": 5997
    },
    {
      "epoch": 0.7927570711075865,
      "grad_norm": 0.8058891088622205,
      "learning_rate": 2.128526297250852e-06,
      "loss": 0.58,
      "mean_token_accuracy": 0.8056098222732544,
      "num_tokens": 229187527.0,
      "step": 5998
    },
    {
      "epoch": 0.7928892413428495,
      "grad_norm": 0.796561227710383,
      "learning_rate": 2.1271515051078733e-06,
      "loss": 0.5354,
      "mean_token_accuracy": 0.8227627873420715,
      "num_tokens": 229253063.0,
      "step": 5999
    },
    {
      "epoch": 0.7930214115781126,
      "grad_norm": 0.7325497977631084,
      "learning_rate": 2.1257774309739186e-06,
      "loss": 0.5095,
      "mean_token_accuracy": 0.8318734169006348,
      "num_tokens": 229318599.0,
      "step": 6000
    },
    {
      "epoch": 0.7931535818133756,
      "grad_norm": 0.8002163786555261,
      "learning_rate": 2.124404075141502e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8034886121749878,
      "num_tokens": 229384135.0,
      "step": 6001
    },
    {
      "epoch": 0.7932857520486386,
      "grad_norm": 0.8206502498414319,
      "learning_rate": 2.123031437902978e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.7950646877288818,
      "num_tokens": 229449671.0,
      "step": 6002
    },
    {
      "epoch": 0.7934179222839016,
      "grad_norm": 0.8067082303774457,
      "learning_rate": 2.121659519550557e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7938743829727173,
      "num_tokens": 229515207.0,
      "step": 6003
    },
    {
      "epoch": 0.7935500925191646,
      "grad_norm": 0.8767625785102785,
      "learning_rate": 2.1202883203762887e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7888994216918945,
      "num_tokens": 229580743.0,
      "step": 6004
    },
    {
      "epoch": 0.7936822627544277,
      "grad_norm": 0.8269314538753886,
      "learning_rate": 2.1189178406720733e-06,
      "loss": 0.5862,
      "mean_token_accuracy": 0.8046941757202148,
      "num_tokens": 229646279.0,
      "step": 6005
    },
    {
      "epoch": 0.7938144329896907,
      "grad_norm": 0.9072312292927354,
      "learning_rate": 2.1175480807296583e-06,
      "loss": 0.6421,
      "mean_token_accuracy": 0.7838481068611145,
      "num_tokens": 229711815.0,
      "step": 6006
    },
    {
      "epoch": 0.7939466032249537,
      "grad_norm": 0.8212565873302002,
      "learning_rate": 2.116179040840637e-06,
      "loss": 0.5845,
      "mean_token_accuracy": 0.8052435517311096,
      "num_tokens": 229777351.0,
      "step": 6007
    },
    {
      "epoch": 0.7940787734602167,
      "grad_norm": 0.7527103611779946,
      "learning_rate": 2.114810721296448e-06,
      "loss": 0.5058,
      "mean_token_accuracy": 0.8306677937507629,
      "num_tokens": 229842887.0,
      "step": 6008
    },
    {
      "epoch": 0.7942109436954797,
      "grad_norm": 0.8544358381653269,
      "learning_rate": 2.1134431223883785e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.806464433670044,
      "num_tokens": 229908423.0,
      "step": 6009
    },
    {
      "epoch": 0.7943431139307428,
      "grad_norm": 0.8009510453511501,
      "learning_rate": 2.1120762444075633e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.817604660987854,
      "num_tokens": 229973959.0,
      "step": 6010
    },
    {
      "epoch": 0.7944752841660058,
      "grad_norm": 0.8769150868892328,
      "learning_rate": 2.1107100876449786e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7984067797660828,
      "num_tokens": 230039495.0,
      "step": 6011
    },
    {
      "epoch": 0.7946074544012688,
      "grad_norm": 0.7989295186123124,
      "learning_rate": 2.1093446523914555e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8033817410469055,
      "num_tokens": 230105031.0,
      "step": 6012
    },
    {
      "epoch": 0.7947396246365318,
      "grad_norm": 0.7522885912051707,
      "learning_rate": 2.1079799389376628e-06,
      "loss": 0.5449,
      "mean_token_accuracy": 0.8213740587234497,
      "num_tokens": 230170567.0,
      "step": 6013
    },
    {
      "epoch": 0.7948717948717948,
      "grad_norm": 0.8340904340975517,
      "learning_rate": 2.1066159475741217e-06,
      "loss": 0.5493,
      "mean_token_accuracy": 0.8175283670425415,
      "num_tokens": 230236103.0,
      "step": 6014
    },
    {
      "epoch": 0.7950039651070578,
      "grad_norm": 0.8972319039048783,
      "learning_rate": 2.1052526785911948e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7916463017463684,
      "num_tokens": 230301639.0,
      "step": 6015
    },
    {
      "epoch": 0.7951361353423209,
      "grad_norm": 0.8471388725877392,
      "learning_rate": 2.1038901322790974e-06,
      "loss": 0.6067,
      "mean_token_accuracy": 0.7990782856941223,
      "num_tokens": 230367175.0,
      "step": 6016
    },
    {
      "epoch": 0.7952683055775839,
      "grad_norm": 0.7340417589569026,
      "learning_rate": 2.1025283089278843e-06,
      "loss": 0.5499,
      "mean_token_accuracy": 0.817330002784729,
      "num_tokens": 230432711.0,
      "step": 6017
    },
    {
      "epoch": 0.7954004758128469,
      "grad_norm": 0.7882062667930787,
      "learning_rate": 2.1011672088274592e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.8111494183540344,
      "num_tokens": 230498247.0,
      "step": 6018
    },
    {
      "epoch": 0.7955326460481099,
      "grad_norm": 0.8213407290359599,
      "learning_rate": 2.0998068322675735e-06,
      "loss": 0.6052,
      "mean_token_accuracy": 0.7982389330863953,
      "num_tokens": 230563783.0,
      "step": 6019
    },
    {
      "epoch": 0.7956648162833729,
      "grad_norm": 0.7730617144515429,
      "learning_rate": 2.098447179537824e-06,
      "loss": 0.558,
      "mean_token_accuracy": 0.8152393102645874,
      "num_tokens": 230629319.0,
      "step": 6020
    },
    {
      "epoch": 0.795796986518636,
      "grad_norm": 0.7976765401540886,
      "learning_rate": 2.097088250927648e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8004364371299744,
      "num_tokens": 230694855.0,
      "step": 6021
    },
    {
      "epoch": 0.795929156753899,
      "grad_norm": 0.895615307224629,
      "learning_rate": 2.0957300467263376e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8035954236984253,
      "num_tokens": 230760391.0,
      "step": 6022
    },
    {
      "epoch": 0.796061326989162,
      "grad_norm": 0.8090110307629413,
      "learning_rate": 2.0943725672230233e-06,
      "loss": 0.5753,
      "mean_token_accuracy": 0.8082041144371033,
      "num_tokens": 230825927.0,
      "step": 6023
    },
    {
      "epoch": 0.796193497224425,
      "grad_norm": 0.8491061487043511,
      "learning_rate": 2.0930158127066854e-06,
      "loss": 0.6269,
      "mean_token_accuracy": 0.7928366661071777,
      "num_tokens": 230891463.0,
      "step": 6024
    },
    {
      "epoch": 0.796325667459688,
      "grad_norm": 0.848024716944384,
      "learning_rate": 2.091659783466149e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.79891037940979,
      "num_tokens": 230956999.0,
      "step": 6025
    },
    {
      "epoch": 0.796457837694951,
      "grad_norm": 0.825446764791611,
      "learning_rate": 2.0903044797900822e-06,
      "loss": 0.5557,
      "mean_token_accuracy": 0.812965452671051,
      "num_tokens": 231022535.0,
      "step": 6026
    },
    {
      "epoch": 0.7965900079302141,
      "grad_norm": 0.8009603755853063,
      "learning_rate": 2.088949901967003e-06,
      "loss": 0.5681,
      "mean_token_accuracy": 0.8149951100349426,
      "num_tokens": 231088071.0,
      "step": 6027
    },
    {
      "epoch": 0.7967221781654771,
      "grad_norm": 0.7968235342131914,
      "learning_rate": 2.0875960502852714e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8032901883125305,
      "num_tokens": 231153607.0,
      "step": 6028
    },
    {
      "epoch": 0.7968543484007401,
      "grad_norm": 0.8223766789759752,
      "learning_rate": 2.0862429250330967e-06,
      "loss": 0.5816,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 231219143.0,
      "step": 6029
    },
    {
      "epoch": 0.7969865186360032,
      "grad_norm": 0.8240913131710594,
      "learning_rate": 2.0848905264985275e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8012300133705139,
      "num_tokens": 231284679.0,
      "step": 6030
    },
    {
      "epoch": 0.7971186888712662,
      "grad_norm": 0.7813001969954291,
      "learning_rate": 2.083538854969463e-06,
      "loss": 0.57,
      "mean_token_accuracy": 0.8095775842666626,
      "num_tokens": 231350215.0,
      "step": 6031
    },
    {
      "epoch": 0.7972508591065293,
      "grad_norm": 0.7585228820093167,
      "learning_rate": 2.082187910733646e-06,
      "loss": 0.5554,
      "mean_token_accuracy": 0.816429615020752,
      "num_tokens": 231415751.0,
      "step": 6032
    },
    {
      "epoch": 0.7973830293417923,
      "grad_norm": 0.8266935752975656,
      "learning_rate": 2.080837694078665e-06,
      "loss": 0.5711,
      "mean_token_accuracy": 0.807635486125946,
      "num_tokens": 231479357.0,
      "step": 6033
    },
    {
      "epoch": 0.7975151995770553,
      "grad_norm": 0.8604290137365169,
      "learning_rate": 2.079488205291949e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.8034427762031555,
      "num_tokens": 231544893.0,
      "step": 6034
    },
    {
      "epoch": 0.7976473698123183,
      "grad_norm": 0.8120143128404913,
      "learning_rate": 2.0781394446607823e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8095623254776001,
      "num_tokens": 231610429.0,
      "step": 6035
    },
    {
      "epoch": 0.7977795400475813,
      "grad_norm": 0.7670689671367211,
      "learning_rate": 2.0767914124722826e-06,
      "loss": 0.5665,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 231675965.0,
      "step": 6036
    },
    {
      "epoch": 0.7979117102828444,
      "grad_norm": 0.7910658128585314,
      "learning_rate": 2.0754441090134203e-06,
      "loss": 0.5259,
      "mean_token_accuracy": 0.8266542553901672,
      "num_tokens": 231741501.0,
      "step": 6037
    },
    {
      "epoch": 0.7980438805181074,
      "grad_norm": 0.8332595927985675,
      "learning_rate": 2.0740975345710073e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8151629567146301,
      "num_tokens": 231807037.0,
      "step": 6038
    },
    {
      "epoch": 0.7981760507533704,
      "grad_norm": 0.8514422166586996,
      "learning_rate": 2.072751689431703e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8047704696655273,
      "num_tokens": 231872573.0,
      "step": 6039
    },
    {
      "epoch": 0.7983082209886334,
      "grad_norm": 0.7686036278196747,
      "learning_rate": 2.071406573882005e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8154529333114624,
      "num_tokens": 231938109.0,
      "step": 6040
    },
    {
      "epoch": 0.7984403912238964,
      "grad_norm": 0.8656403479061581,
      "learning_rate": 2.0700621882082667e-06,
      "loss": 0.5565,
      "mean_token_accuracy": 0.8159870505332947,
      "num_tokens": 232003645.0,
      "step": 6041
    },
    {
      "epoch": 0.7985725614591594,
      "grad_norm": 0.8866739332631685,
      "learning_rate": 2.0687185326966754e-06,
      "loss": 0.6385,
      "mean_token_accuracy": 0.7869918346405029,
      "num_tokens": 232069181.0,
      "step": 6042
    },
    {
      "epoch": 0.7987047316944225,
      "grad_norm": 0.820155471995291,
      "learning_rate": 2.06737560763327e-06,
      "loss": 0.6041,
      "mean_token_accuracy": 0.7995818853378296,
      "num_tokens": 232134717.0,
      "step": 6043
    },
    {
      "epoch": 0.7988369019296855,
      "grad_norm": 0.8195360033217516,
      "learning_rate": 2.066033413303928e-06,
      "loss": 0.5941,
      "mean_token_accuracy": 0.802160918712616,
      "num_tokens": 232200253.0,
      "step": 6044
    },
    {
      "epoch": 0.7989690721649485,
      "grad_norm": 0.875534767444935,
      "learning_rate": 2.064691949994376e-06,
      "loss": 0.6512,
      "mean_token_accuracy": 0.7823678255081177,
      "num_tokens": 232265789.0,
      "step": 6045
    },
    {
      "epoch": 0.7991012424002115,
      "grad_norm": 0.8020241389088473,
      "learning_rate": 2.0633512179901836e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8120498061180115,
      "num_tokens": 232331325.0,
      "step": 6046
    },
    {
      "epoch": 0.7992334126354745,
      "grad_norm": 0.8166631630034681,
      "learning_rate": 2.0620112175767653e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 232396861.0,
      "step": 6047
    },
    {
      "epoch": 0.7993655828707376,
      "grad_norm": 0.804960780513725,
      "learning_rate": 2.06067194903938e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8152545690536499,
      "num_tokens": 232462397.0,
      "step": 6048
    },
    {
      "epoch": 0.7994977531060006,
      "grad_norm": 0.7056184155482459,
      "learning_rate": 2.0593334126631273e-06,
      "loss": 0.4912,
      "mean_token_accuracy": 0.8352001905441284,
      "num_tokens": 232527933.0,
      "step": 6049
    },
    {
      "epoch": 0.7996299233412636,
      "grad_norm": 0.8201185978177062,
      "learning_rate": 2.0579956087329556e-06,
      "loss": 0.5113,
      "mean_token_accuracy": 0.8297979235649109,
      "num_tokens": 232593469.0,
      "step": 6050
    },
    {
      "epoch": 0.7997620935765266,
      "grad_norm": 0.8761650910384156,
      "learning_rate": 2.056658537533654e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 232659005.0,
      "step": 6051
    },
    {
      "epoch": 0.7998942638117896,
      "grad_norm": 0.8530651819943749,
      "learning_rate": 2.05532219934986e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8058081865310669,
      "num_tokens": 232724541.0,
      "step": 6052
    },
    {
      "epoch": 0.8000264340470526,
      "grad_norm": 0.8107113925971614,
      "learning_rate": 2.0539865944660477e-06,
      "loss": 0.5816,
      "mean_token_accuracy": 0.8055487871170044,
      "num_tokens": 232790077.0,
      "step": 6053
    },
    {
      "epoch": 0.8001586042823157,
      "grad_norm": 0.7837405559498009,
      "learning_rate": 2.0526517231665438e-06,
      "loss": 0.5497,
      "mean_token_accuracy": 0.8145983219146729,
      "num_tokens": 232855613.0,
      "step": 6054
    },
    {
      "epoch": 0.8002907745175787,
      "grad_norm": 0.853820119507357,
      "learning_rate": 2.0513175857355112e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8046178817749023,
      "num_tokens": 232921149.0,
      "step": 6055
    },
    {
      "epoch": 0.8004229447528417,
      "grad_norm": 0.8798495029397945,
      "learning_rate": 2.0499841824569614e-06,
      "loss": 0.5837,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 232986685.0,
      "step": 6056
    },
    {
      "epoch": 0.8005551149881047,
      "grad_norm": 0.804352843604308,
      "learning_rate": 2.0486515136147487e-06,
      "loss": 0.5441,
      "mean_token_accuracy": 0.8194817304611206,
      "num_tokens": 233052221.0,
      "step": 6057
    },
    {
      "epoch": 0.8006872852233677,
      "grad_norm": 0.8719479345834782,
      "learning_rate": 2.0473195794925703e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.8080515265464783,
      "num_tokens": 233117757.0,
      "step": 6058
    },
    {
      "epoch": 0.8008194554586308,
      "grad_norm": 0.8039199916414874,
      "learning_rate": 2.045988380373966e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8117751479148865,
      "num_tokens": 233183293.0,
      "step": 6059
    },
    {
      "epoch": 0.8009516256938938,
      "grad_norm": 0.752382072030485,
      "learning_rate": 2.044657916542321e-06,
      "loss": 0.5222,
      "mean_token_accuracy": 0.8250671625137329,
      "num_tokens": 233248829.0,
      "step": 6060
    },
    {
      "epoch": 0.8010837959291568,
      "grad_norm": 0.8210640937822408,
      "learning_rate": 2.0433281882808627e-06,
      "loss": 0.5713,
      "mean_token_accuracy": 0.8092723488807678,
      "num_tokens": 233314365.0,
      "step": 6061
    },
    {
      "epoch": 0.8012159661644198,
      "grad_norm": 0.8289777577676233,
      "learning_rate": 2.0419991958726644e-06,
      "loss": 0.6211,
      "mean_token_accuracy": 0.7930808067321777,
      "num_tokens": 233379901.0,
      "step": 6062
    },
    {
      "epoch": 0.8013481363996828,
      "grad_norm": 0.7553435549960986,
      "learning_rate": 2.040670939600638e-06,
      "loss": 0.495,
      "mean_token_accuracy": 0.8333994746208191,
      "num_tokens": 233445437.0,
      "step": 6063
    },
    {
      "epoch": 0.8014803066349458,
      "grad_norm": 0.795769427965809,
      "learning_rate": 2.039343419747543e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8038090467453003,
      "num_tokens": 233510973.0,
      "step": 6064
    },
    {
      "epoch": 0.8016124768702089,
      "grad_norm": 0.8093275822157887,
      "learning_rate": 2.038016636595981e-06,
      "loss": 0.5409,
      "mean_token_accuracy": 0.8188102841377258,
      "num_tokens": 233576509.0,
      "step": 6065
    },
    {
      "epoch": 0.8017446471054719,
      "grad_norm": 0.8213170003949909,
      "learning_rate": 2.036690590428396e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.7953699231147766,
      "num_tokens": 233642045.0,
      "step": 6066
    },
    {
      "epoch": 0.8018768173407349,
      "grad_norm": 0.7721124735044131,
      "learning_rate": 2.035365281527076e-06,
      "loss": 0.5953,
      "mean_token_accuracy": 0.7980252504348755,
      "num_tokens": 233707581.0,
      "step": 6067
    },
    {
      "epoch": 0.8020089875759979,
      "grad_norm": 0.8361486747997623,
      "learning_rate": 2.0340407101741512e-06,
      "loss": 0.6099,
      "mean_token_accuracy": 0.7969264984130859,
      "num_tokens": 233773117.0,
      "step": 6068
    },
    {
      "epoch": 0.8021411578112609,
      "grad_norm": 0.7899410628940979,
      "learning_rate": 2.0327168766515943e-06,
      "loss": 0.561,
      "mean_token_accuracy": 0.8107373714447021,
      "num_tokens": 233838653.0,
      "step": 6069
    },
    {
      "epoch": 0.802273328046524,
      "grad_norm": 0.8629869336693599,
      "learning_rate": 2.031393781241223e-06,
      "loss": 0.5717,
      "mean_token_accuracy": 0.8105390071868896,
      "num_tokens": 233904189.0,
      "step": 6070
    },
    {
      "epoch": 0.802405498281787,
      "grad_norm": 0.8785500613286866,
      "learning_rate": 2.030071424224698e-06,
      "loss": 0.614,
      "mean_token_accuracy": 0.7962397933006287,
      "num_tokens": 233969725.0,
      "step": 6071
    },
    {
      "epoch": 0.80253766851705,
      "grad_norm": 0.8495445791267864,
      "learning_rate": 2.028749805883517e-06,
      "loss": 0.4934,
      "mean_token_accuracy": 0.8371230363845825,
      "num_tokens": 234035261.0,
      "step": 6072
    },
    {
      "epoch": 0.802669838752313,
      "grad_norm": 0.8072168463738048,
      "learning_rate": 2.0274289264990303e-06,
      "loss": 0.6037,
      "mean_token_accuracy": 0.7999023199081421,
      "num_tokens": 234100797.0,
      "step": 6073
    },
    {
      "epoch": 0.802802008987576,
      "grad_norm": 0.8404418183369067,
      "learning_rate": 2.026108786352422e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 234166333.0,
      "step": 6074
    },
    {
      "epoch": 0.802934179222839,
      "grad_norm": 0.7988574608215577,
      "learning_rate": 2.0247893857247248e-06,
      "loss": 0.5523,
      "mean_token_accuracy": 0.8177267909049988,
      "num_tokens": 234231869.0,
      "step": 6075
    },
    {
      "epoch": 0.8030663494581021,
      "grad_norm": 0.7813233136225597,
      "learning_rate": 2.023470724896808e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8017336130142212,
      "num_tokens": 234297405.0,
      "step": 6076
    },
    {
      "epoch": 0.8031985196933651,
      "grad_norm": 0.8377928175670695,
      "learning_rate": 2.0221528041493906e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 234362941.0,
      "step": 6077
    },
    {
      "epoch": 0.8033306899286281,
      "grad_norm": 0.8280943614438758,
      "learning_rate": 2.0208356237630284e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8017030954360962,
      "num_tokens": 234428477.0,
      "step": 6078
    },
    {
      "epoch": 0.8034628601638911,
      "grad_norm": 0.8801412862205351,
      "learning_rate": 2.0195191840181223e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.7897234559059143,
      "num_tokens": 234494013.0,
      "step": 6079
    },
    {
      "epoch": 0.8035950303991541,
      "grad_norm": 0.7979933378986707,
      "learning_rate": 2.0182034851949144e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 234559549.0,
      "step": 6080
    },
    {
      "epoch": 0.8037272006344172,
      "grad_norm": 0.7711034307334363,
      "learning_rate": 2.0168885275734914e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8131943345069885,
      "num_tokens": 234625085.0,
      "step": 6081
    },
    {
      "epoch": 0.8038593708696802,
      "grad_norm": 0.8204510873943885,
      "learning_rate": 2.0155743114337773e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8164448738098145,
      "num_tokens": 234690621.0,
      "step": 6082
    },
    {
      "epoch": 0.8039915411049432,
      "grad_norm": 0.7978975478617341,
      "learning_rate": 2.014260837055543e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8133012056350708,
      "num_tokens": 234756157.0,
      "step": 6083
    },
    {
      "epoch": 0.8041237113402062,
      "grad_norm": 0.827656299841209,
      "learning_rate": 2.012948104718399e-06,
      "loss": 0.5544,
      "mean_token_accuracy": 0.8150714039802551,
      "num_tokens": 234821693.0,
      "step": 6084
    },
    {
      "epoch": 0.8042558815754692,
      "grad_norm": 0.8286655148019978,
      "learning_rate": 2.0116361147017993e-06,
      "loss": 0.5524,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 234887229.0,
      "step": 6085
    },
    {
      "epoch": 0.8043880518107323,
      "grad_norm": 0.878173918687324,
      "learning_rate": 2.0103248672850403e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8046941757202148,
      "num_tokens": 234952765.0,
      "step": 6086
    },
    {
      "epoch": 0.8045202220459953,
      "grad_norm": 0.8373931943104039,
      "learning_rate": 2.009014362747257e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8041447997093201,
      "num_tokens": 235018301.0,
      "step": 6087
    },
    {
      "epoch": 0.8046523922812583,
      "grad_norm": 0.8207741253729809,
      "learning_rate": 2.007704601367429e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.7955835461616516,
      "num_tokens": 235083837.0,
      "step": 6088
    },
    {
      "epoch": 0.8047845625165213,
      "grad_norm": 0.7615665824723127,
      "learning_rate": 2.006395583424377e-06,
      "loss": 0.5188,
      "mean_token_accuracy": 0.8251129388809204,
      "num_tokens": 235149373.0,
      "step": 6089
    },
    {
      "epoch": 0.8049167327517843,
      "grad_norm": 0.8792802722837425,
      "learning_rate": 2.005087309196766e-06,
      "loss": 0.596,
      "mean_token_accuracy": 0.8010469079017639,
      "num_tokens": 235214909.0,
      "step": 6090
    },
    {
      "epoch": 0.8050489029870473,
      "grad_norm": 0.7524368285129784,
      "learning_rate": 2.0037797789630967e-06,
      "loss": 0.5329,
      "mean_token_accuracy": 0.8213130235671997,
      "num_tokens": 235280445.0,
      "step": 6091
    },
    {
      "epoch": 0.8051810732223104,
      "grad_norm": 0.8711641061944789,
      "learning_rate": 2.0024729930017166e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.803000271320343,
      "num_tokens": 235345981.0,
      "step": 6092
    },
    {
      "epoch": 0.8053132434575734,
      "grad_norm": 0.7719418148629199,
      "learning_rate": 2.001166951590814e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8084330558776855,
      "num_tokens": 235411517.0,
      "step": 6093
    },
    {
      "epoch": 0.8054454136928364,
      "grad_norm": 0.7356778724184616,
      "learning_rate": 1.999861655008418e-06,
      "loss": 0.5247,
      "mean_token_accuracy": 0.82639479637146,
      "num_tokens": 235477053.0,
      "step": 6094
    },
    {
      "epoch": 0.8055775839280994,
      "grad_norm": 0.7599540259805989,
      "learning_rate": 1.9985571035323947e-06,
      "loss": 0.5496,
      "mean_token_accuracy": 0.8167653679847717,
      "num_tokens": 235542589.0,
      "step": 6095
    },
    {
      "epoch": 0.8057097541633624,
      "grad_norm": 0.870766936832467,
      "learning_rate": 1.9972532974404624e-06,
      "loss": 0.5849,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 235608125.0,
      "step": 6096
    },
    {
      "epoch": 0.8058419243986255,
      "grad_norm": 0.8504305991857573,
      "learning_rate": 1.9959502370101697e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.79878830909729,
      "num_tokens": 235673661.0,
      "step": 6097
    },
    {
      "epoch": 0.8059740946338885,
      "grad_norm": 0.7905962602908564,
      "learning_rate": 1.9946479225189118e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8158192038536072,
      "num_tokens": 235739197.0,
      "step": 6098
    },
    {
      "epoch": 0.8061062648691515,
      "grad_norm": 0.8347859213583894,
      "learning_rate": 1.993346354243925e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 235804733.0,
      "step": 6099
    },
    {
      "epoch": 0.8062384351044145,
      "grad_norm": 0.7752897241292848,
      "learning_rate": 1.9920455324622866e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8094860315322876,
      "num_tokens": 235870269.0,
      "step": 6100
    },
    {
      "epoch": 0.8063706053396775,
      "grad_norm": 0.8951984033115293,
      "learning_rate": 1.9907454574509132e-06,
      "loss": 0.5609,
      "mean_token_accuracy": 0.8159260153770447,
      "num_tokens": 235935805.0,
      "step": 6101
    },
    {
      "epoch": 0.8065027755749405,
      "grad_norm": 0.8889209405438123,
      "learning_rate": 1.989446129486563e-06,
      "loss": 0.5554,
      "mean_token_accuracy": 0.8176352381706238,
      "num_tokens": 236001341.0,
      "step": 6102
    },
    {
      "epoch": 0.8066349458102036,
      "grad_norm": 0.8018679236096763,
      "learning_rate": 1.9881475488458375e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8062965273857117,
      "num_tokens": 236066877.0,
      "step": 6103
    },
    {
      "epoch": 0.8067671160454666,
      "grad_norm": 0.8241159517927287,
      "learning_rate": 1.986849715805178e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.8005738258361816,
      "num_tokens": 236132413.0,
      "step": 6104
    },
    {
      "epoch": 0.8068992862807296,
      "grad_norm": 0.7992892707786651,
      "learning_rate": 1.9855526306408626e-06,
      "loss": 0.556,
      "mean_token_accuracy": 0.816185474395752,
      "num_tokens": 236197949.0,
      "step": 6105
    },
    {
      "epoch": 0.8070314565159926,
      "grad_norm": 0.8381635410437727,
      "learning_rate": 1.9842562936290164e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8047857284545898,
      "num_tokens": 236263485.0,
      "step": 6106
    },
    {
      "epoch": 0.8071636267512556,
      "grad_norm": 0.8002912239843291,
      "learning_rate": 1.9829607050456013e-06,
      "loss": 0.5938,
      "mean_token_accuracy": 0.7999938726425171,
      "num_tokens": 236329021.0,
      "step": 6107
    },
    {
      "epoch": 0.8072957969865187,
      "grad_norm": 0.8779718320012182,
      "learning_rate": 1.981665865166422e-06,
      "loss": 0.6157,
      "mean_token_accuracy": 0.7954767346382141,
      "num_tokens": 236394557.0,
      "step": 6108
    },
    {
      "epoch": 0.8074279672217817,
      "grad_norm": 0.8149825062173731,
      "learning_rate": 1.9803717742671237e-06,
      "loss": 0.5561,
      "mean_token_accuracy": 0.8149340748786926,
      "num_tokens": 236460093.0,
      "step": 6109
    },
    {
      "epoch": 0.8075601374570447,
      "grad_norm": 0.8163774538941633,
      "learning_rate": 1.9790784326231888e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8062354922294617,
      "num_tokens": 236525629.0,
      "step": 6110
    },
    {
      "epoch": 0.8076923076923077,
      "grad_norm": 0.785676301584355,
      "learning_rate": 1.977785840509944e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8085551261901855,
      "num_tokens": 236591165.0,
      "step": 6111
    },
    {
      "epoch": 0.8078244779275707,
      "grad_norm": 0.8381568074296788,
      "learning_rate": 1.9764939982025553e-06,
      "loss": 0.5996,
      "mean_token_accuracy": 0.7990782856941223,
      "num_tokens": 236656701.0,
      "step": 6112
    },
    {
      "epoch": 0.8079566481628337,
      "grad_norm": 0.8541027808400465,
      "learning_rate": 1.97520290597603e-06,
      "loss": 0.5834,
      "mean_token_accuracy": 0.8055945634841919,
      "num_tokens": 236722237.0,
      "step": 6113
    },
    {
      "epoch": 0.8080888183980968,
      "grad_norm": 0.7941095082457298,
      "learning_rate": 1.9739125641052113e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 236787773.0,
      "step": 6114
    },
    {
      "epoch": 0.8082209886333598,
      "grad_norm": 0.8029022485769095,
      "learning_rate": 1.9726229728647904e-06,
      "loss": 0.5912,
      "mean_token_accuracy": 0.803274929523468,
      "num_tokens": 236853309.0,
      "step": 6115
    },
    {
      "epoch": 0.8083531588686228,
      "grad_norm": 0.7895562604124795,
      "learning_rate": 1.9713341325292916e-06,
      "loss": 0.5352,
      "mean_token_accuracy": 0.8210994005203247,
      "num_tokens": 236918845.0,
      "step": 6116
    },
    {
      "epoch": 0.8084853291038858,
      "grad_norm": 0.8003822438916585,
      "learning_rate": 1.970046043373082e-06,
      "loss": 0.6155,
      "mean_token_accuracy": 0.7920125722885132,
      "num_tokens": 236984381.0,
      "step": 6117
    },
    {
      "epoch": 0.8086174993391488,
      "grad_norm": 0.7877219463653282,
      "learning_rate": 1.9687587056703704e-06,
      "loss": 0.5608,
      "mean_token_accuracy": 0.8130417466163635,
      "num_tokens": 237049917.0,
      "step": 6118
    },
    {
      "epoch": 0.8087496695744119,
      "grad_norm": 0.7912939836057863,
      "learning_rate": 1.9674721196952044e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.808509349822998,
      "num_tokens": 237115453.0,
      "step": 6119
    },
    {
      "epoch": 0.8088818398096749,
      "grad_norm": 0.8477503193271869,
      "learning_rate": 1.966186285721469e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 237180989.0,
      "step": 6120
    },
    {
      "epoch": 0.8090140100449379,
      "grad_norm": 0.8204313658306193,
      "learning_rate": 1.9649012040228925e-06,
      "loss": 0.5464,
      "mean_token_accuracy": 0.8173757791519165,
      "num_tokens": 237246525.0,
      "step": 6121
    },
    {
      "epoch": 0.8091461802802009,
      "grad_norm": 0.8134223079534258,
      "learning_rate": 1.963616874873042e-06,
      "loss": 0.5735,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 237312061.0,
      "step": 6122
    },
    {
      "epoch": 0.8092783505154639,
      "grad_norm": 0.8208210236320045,
      "learning_rate": 1.9623332985453254e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8081125617027283,
      "num_tokens": 237377597.0,
      "step": 6123
    },
    {
      "epoch": 0.809410520750727,
      "grad_norm": 0.7557178169964012,
      "learning_rate": 1.9610504753129878e-06,
      "loss": 0.5364,
      "mean_token_accuracy": 0.8205958008766174,
      "num_tokens": 237443133.0,
      "step": 6124
    },
    {
      "epoch": 0.80954269098599,
      "grad_norm": 0.790236157604522,
      "learning_rate": 1.9597684054491163e-06,
      "loss": 0.5579,
      "mean_token_accuracy": 0.8149035573005676,
      "num_tokens": 237508669.0,
      "step": 6125
    },
    {
      "epoch": 0.809674861221253,
      "grad_norm": 0.8017022869040584,
      "learning_rate": 1.9584870892266356e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 237574205.0,
      "step": 6126
    },
    {
      "epoch": 0.809807031456516,
      "grad_norm": 0.7433403365425724,
      "learning_rate": 1.9572065269183127e-06,
      "loss": 0.5386,
      "mean_token_accuracy": 0.8204126358032227,
      "num_tokens": 237639741.0,
      "step": 6127
    },
    {
      "epoch": 0.809939201691779,
      "grad_norm": 0.795336040174671,
      "learning_rate": 1.955926718796753e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8057013750076294,
      "num_tokens": 237705277.0,
      "step": 6128
    },
    {
      "epoch": 0.810071371927042,
      "grad_norm": 0.7749244634116828,
      "learning_rate": 1.954647665134399e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8142015337944031,
      "num_tokens": 237770813.0,
      "step": 6129
    },
    {
      "epoch": 0.8102035421623051,
      "grad_norm": 0.7752726068322672,
      "learning_rate": 1.953369366203536e-06,
      "loss": 0.5549,
      "mean_token_accuracy": 0.811790406703949,
      "num_tokens": 237836349.0,
      "step": 6130
    },
    {
      "epoch": 0.8103357123975681,
      "grad_norm": 0.8954593027678532,
      "learning_rate": 1.9520918222762853e-06,
      "loss": 0.6612,
      "mean_token_accuracy": 0.779132604598999,
      "num_tokens": 237901885.0,
      "step": 6131
    },
    {
      "epoch": 0.8104678826328311,
      "grad_norm": 0.8165550367336516,
      "learning_rate": 1.950815033624613e-06,
      "loss": 0.6034,
      "mean_token_accuracy": 0.79860520362854,
      "num_tokens": 237967421.0,
      "step": 6132
    },
    {
      "epoch": 0.8106000528680941,
      "grad_norm": 0.8080000092173464,
      "learning_rate": 1.949539000520315e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.7999175786972046,
      "num_tokens": 238032957.0,
      "step": 6133
    },
    {
      "epoch": 0.8107322231033571,
      "grad_norm": 0.7880580963885903,
      "learning_rate": 1.9482637232350388e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8133927583694458,
      "num_tokens": 238098493.0,
      "step": 6134
    },
    {
      "epoch": 0.8108643933386201,
      "grad_norm": 0.8002537716493604,
      "learning_rate": 1.9469892020402592e-06,
      "loss": 0.5455,
      "mean_token_accuracy": 0.8202600479125977,
      "num_tokens": 238164029.0,
      "step": 6135
    },
    {
      "epoch": 0.8109965635738832,
      "grad_norm": 0.81049992904919,
      "learning_rate": 1.945715437207299e-06,
      "loss": 0.5625,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 238229565.0,
      "step": 6136
    },
    {
      "epoch": 0.8111287338091462,
      "grad_norm": 0.8285060478547461,
      "learning_rate": 1.9444424290073104e-06,
      "loss": 0.6126,
      "mean_token_accuracy": 0.7978726625442505,
      "num_tokens": 238295101.0,
      "step": 6137
    },
    {
      "epoch": 0.8112609040444092,
      "grad_norm": 0.8578788953977341,
      "learning_rate": 1.943170177711297e-06,
      "loss": 0.643,
      "mean_token_accuracy": 0.7873581051826477,
      "num_tokens": 238360637.0,
      "step": 6138
    },
    {
      "epoch": 0.8113930742796722,
      "grad_norm": 0.8353497253220507,
      "learning_rate": 1.9418986835900906e-06,
      "loss": 0.6282,
      "mean_token_accuracy": 0.7913716435432434,
      "num_tokens": 238426173.0,
      "step": 6139
    },
    {
      "epoch": 0.8115252445149352,
      "grad_norm": 0.8406162950063081,
      "learning_rate": 1.940627946914367e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8044805526733398,
      "num_tokens": 238491709.0,
      "step": 6140
    },
    {
      "epoch": 0.8116574147501983,
      "grad_norm": 0.8383963046469235,
      "learning_rate": 1.939357967954638e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8076547384262085,
      "num_tokens": 238557245.0,
      "step": 6141
    },
    {
      "epoch": 0.8117895849854613,
      "grad_norm": 0.8180861331563528,
      "learning_rate": 1.938088746981259e-06,
      "loss": 0.517,
      "mean_token_accuracy": 0.8259217143058777,
      "num_tokens": 238622781.0,
      "step": 6142
    },
    {
      "epoch": 0.8119217552207243,
      "grad_norm": 0.8241915596132532,
      "learning_rate": 1.9368202842644167e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 238688317.0,
      "step": 6143
    },
    {
      "epoch": 0.8120539254559873,
      "grad_norm": 0.7867833499679432,
      "learning_rate": 1.935552580074142e-06,
      "loss": 0.5426,
      "mean_token_accuracy": 0.8190849423408508,
      "num_tokens": 238753853.0,
      "step": 6144
    },
    {
      "epoch": 0.8121860956912503,
      "grad_norm": 0.789038998664016,
      "learning_rate": 1.934285634680304e-06,
      "loss": 0.5831,
      "mean_token_accuracy": 0.8091197609901428,
      "num_tokens": 238819389.0,
      "step": 6145
    },
    {
      "epoch": 0.8123182659265133,
      "grad_norm": 0.8720653972581653,
      "learning_rate": 1.9330194483526056e-06,
      "loss": 0.6052,
      "mean_token_accuracy": 0.7950952053070068,
      "num_tokens": 238884925.0,
      "step": 6146
    },
    {
      "epoch": 0.8124504361617764,
      "grad_norm": 0.8117381668439618,
      "learning_rate": 1.931754021360595e-06,
      "loss": 0.5468,
      "mean_token_accuracy": 0.8191918134689331,
      "num_tokens": 238950461.0,
      "step": 6147
    },
    {
      "epoch": 0.8125826063970394,
      "grad_norm": 0.7900167955376648,
      "learning_rate": 1.9304893539736536e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8118056654930115,
      "num_tokens": 239015997.0,
      "step": 6148
    },
    {
      "epoch": 0.8127147766323024,
      "grad_norm": 0.8209818725347569,
      "learning_rate": 1.9292254464610018e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8004669547080994,
      "num_tokens": 239081533.0,
      "step": 6149
    },
    {
      "epoch": 0.8128469468675654,
      "grad_norm": 0.7498498583823145,
      "learning_rate": 1.9279622990917004e-06,
      "loss": 0.5117,
      "mean_token_accuracy": 0.8279056549072266,
      "num_tokens": 239147069.0,
      "step": 6150
    },
    {
      "epoch": 0.8129791171028284,
      "grad_norm": 0.8127468797565872,
      "learning_rate": 1.926699912134648e-06,
      "loss": 0.556,
      "mean_token_accuracy": 0.8147509694099426,
      "num_tokens": 239212605.0,
      "step": 6151
    },
    {
      "epoch": 0.8131112873380915,
      "grad_norm": 0.8379793310506517,
      "learning_rate": 1.9254382858585773e-06,
      "loss": 0.6471,
      "mean_token_accuracy": 0.7839854955673218,
      "num_tokens": 239278141.0,
      "step": 6152
    },
    {
      "epoch": 0.8132434575733545,
      "grad_norm": 0.8105178242060411,
      "learning_rate": 1.924177420532065e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7943322062492371,
      "num_tokens": 239343677.0,
      "step": 6153
    },
    {
      "epoch": 0.8133756278086175,
      "grad_norm": 0.8322668119172965,
      "learning_rate": 1.922917316423522e-06,
      "loss": 0.5721,
      "mean_token_accuracy": 0.8083109259605408,
      "num_tokens": 239409213.0,
      "step": 6154
    },
    {
      "epoch": 0.8135077980438805,
      "grad_norm": 0.8175585558857564,
      "learning_rate": 1.921657973801199e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8152087926864624,
      "num_tokens": 239474749.0,
      "step": 6155
    },
    {
      "epoch": 0.8136399682791435,
      "grad_norm": 0.7574521190841212,
      "learning_rate": 1.9203993929331806e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8153766393661499,
      "num_tokens": 239540285.0,
      "step": 6156
    },
    {
      "epoch": 0.8137721385144066,
      "grad_norm": 0.778143433307058,
      "learning_rate": 1.919141574087397e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8090892434120178,
      "num_tokens": 239605821.0,
      "step": 6157
    },
    {
      "epoch": 0.8139043087496696,
      "grad_norm": 0.811179233635122,
      "learning_rate": 1.9178845175316084e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8071663975715637,
      "num_tokens": 239671357.0,
      "step": 6158
    },
    {
      "epoch": 0.8140364789849326,
      "grad_norm": 0.7607855355769771,
      "learning_rate": 1.9166282235334173e-06,
      "loss": 0.5138,
      "mean_token_accuracy": 0.8308204412460327,
      "num_tokens": 239736893.0,
      "step": 6159
    },
    {
      "epoch": 0.8141686492201956,
      "grad_norm": 0.7512037172509917,
      "learning_rate": 1.9153726923602613e-06,
      "loss": 0.5333,
      "mean_token_accuracy": 0.8236936926841736,
      "num_tokens": 239802429.0,
      "step": 6160
    },
    {
      "epoch": 0.8143008194554586,
      "grad_norm": 0.7734047559738425,
      "learning_rate": 1.914117924279419e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8062660098075867,
      "num_tokens": 239867965.0,
      "step": 6161
    },
    {
      "epoch": 0.8144329896907216,
      "grad_norm": 0.7679592156535701,
      "learning_rate": 1.9128639195580016e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8142626285552979,
      "num_tokens": 239933501.0,
      "step": 6162
    },
    {
      "epoch": 0.8145651599259847,
      "grad_norm": 0.8308063172830374,
      "learning_rate": 1.9116106784629616e-06,
      "loss": 0.603,
      "mean_token_accuracy": 0.7960108518600464,
      "num_tokens": 239999037.0,
      "step": 6163
    },
    {
      "epoch": 0.8146973301612477,
      "grad_norm": 0.7807698877768672,
      "learning_rate": 1.910358201261089e-06,
      "loss": 0.5427,
      "mean_token_accuracy": 0.8183677196502686,
      "num_tokens": 240064573.0,
      "step": 6164
    },
    {
      "epoch": 0.8148295003965107,
      "grad_norm": 0.8259775623478736,
      "learning_rate": 1.909106488219008e-06,
      "loss": 0.5566,
      "mean_token_accuracy": 0.8161396384239197,
      "num_tokens": 240130109.0,
      "step": 6165
    },
    {
      "epoch": 0.8149616706317737,
      "grad_norm": 0.757264268508731,
      "learning_rate": 1.9078555396031833e-06,
      "loss": 0.5001,
      "mean_token_accuracy": 0.832590639591217,
      "num_tokens": 240195645.0,
      "step": 6166
    },
    {
      "epoch": 0.8150938408670367,
      "grad_norm": 0.8904233721883763,
      "learning_rate": 1.9066053556799152e-06,
      "loss": 0.6119,
      "mean_token_accuracy": 0.8002228140830994,
      "num_tokens": 240261181.0,
      "step": 6167
    },
    {
      "epoch": 0.8152260111022998,
      "grad_norm": 0.729249088249973,
      "learning_rate": 1.905355936715344e-06,
      "loss": 0.5026,
      "mean_token_accuracy": 0.8328043222427368,
      "num_tokens": 240326717.0,
      "step": 6168
    },
    {
      "epoch": 0.8153581813375628,
      "grad_norm": 0.806761568791428,
      "learning_rate": 1.9041072829754402e-06,
      "loss": 0.6013,
      "mean_token_accuracy": 0.7998870611190796,
      "num_tokens": 240392253.0,
      "step": 6169
    },
    {
      "epoch": 0.8154903515728258,
      "grad_norm": 0.7746523729725217,
      "learning_rate": 1.902859394726022e-06,
      "loss": 0.5287,
      "mean_token_accuracy": 0.8241362571716309,
      "num_tokens": 240457789.0,
      "step": 6170
    },
    {
      "epoch": 0.8156225218080888,
      "grad_norm": 0.7400084441472237,
      "learning_rate": 1.9016122722327341e-06,
      "loss": 0.4973,
      "mean_token_accuracy": 0.83692467212677,
      "num_tokens": 240523325.0,
      "step": 6171
    },
    {
      "epoch": 0.8157546920433518,
      "grad_norm": 0.8495440628083303,
      "learning_rate": 1.9003659157610648e-06,
      "loss": 0.5916,
      "mean_token_accuracy": 0.8019624948501587,
      "num_tokens": 240588861.0,
      "step": 6172
    },
    {
      "epoch": 0.8158868622786148,
      "grad_norm": 0.8644948175601406,
      "learning_rate": 1.8991203255763368e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.7965297102928162,
      "num_tokens": 240654397.0,
      "step": 6173
    },
    {
      "epoch": 0.8160190325138779,
      "grad_norm": 0.7907001009715654,
      "learning_rate": 1.8978755019437116e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 240719933.0,
      "step": 6174
    },
    {
      "epoch": 0.8161512027491409,
      "grad_norm": 0.8023137039810632,
      "learning_rate": 1.896631445128183e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8126144409179688,
      "num_tokens": 240785469.0,
      "step": 6175
    },
    {
      "epoch": 0.8162833729844039,
      "grad_norm": 0.7834649496865499,
      "learning_rate": 1.8953881553945895e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8134843111038208,
      "num_tokens": 240851005.0,
      "step": 6176
    },
    {
      "epoch": 0.8164155432196669,
      "grad_norm": 0.8302382162320898,
      "learning_rate": 1.8941456330075975e-06,
      "loss": 0.5903,
      "mean_token_accuracy": 0.8016420602798462,
      "num_tokens": 240916541.0,
      "step": 6177
    },
    {
      "epoch": 0.8165477134549299,
      "grad_norm": 0.7988202275495875,
      "learning_rate": 1.8929038782317152e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.7990782856941223,
      "num_tokens": 240982077.0,
      "step": 6178
    },
    {
      "epoch": 0.816679883690193,
      "grad_norm": 0.7929969781369116,
      "learning_rate": 1.8916628913312862e-06,
      "loss": 0.5479,
      "mean_token_accuracy": 0.8191612958908081,
      "num_tokens": 241047613.0,
      "step": 6179
    },
    {
      "epoch": 0.816812053925456,
      "grad_norm": 0.7828332783329977,
      "learning_rate": 1.8904226725704928e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8127670884132385,
      "num_tokens": 241113149.0,
      "step": 6180
    },
    {
      "epoch": 0.816944224160719,
      "grad_norm": 0.8123919966742273,
      "learning_rate": 1.8891832222133483e-06,
      "loss": 0.5219,
      "mean_token_accuracy": 0.82602858543396,
      "num_tokens": 241178685.0,
      "step": 6181
    },
    {
      "epoch": 0.817076394395982,
      "grad_norm": 0.8088320207301137,
      "learning_rate": 1.8879445405237073e-06,
      "loss": 0.5686,
      "mean_token_accuracy": 0.8100964426994324,
      "num_tokens": 241244221.0,
      "step": 6182
    },
    {
      "epoch": 0.817208564631245,
      "grad_norm": 0.8454504647080631,
      "learning_rate": 1.886706627765261e-06,
      "loss": 0.6229,
      "mean_token_accuracy": 0.7949426174163818,
      "num_tokens": 241309757.0,
      "step": 6183
    },
    {
      "epoch": 0.817340734866508,
      "grad_norm": 0.7718808981516263,
      "learning_rate": 1.885469484201532e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8142321109771729,
      "num_tokens": 241375293.0,
      "step": 6184
    },
    {
      "epoch": 0.8174729051017711,
      "grad_norm": 0.7489233176024225,
      "learning_rate": 1.8842331100958832e-06,
      "loss": 0.5415,
      "mean_token_accuracy": 0.8194664716720581,
      "num_tokens": 241440829.0,
      "step": 6185
    },
    {
      "epoch": 0.8176050753370341,
      "grad_norm": 0.8074226991133295,
      "learning_rate": 1.8829975057115146e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8106763362884521,
      "num_tokens": 241506365.0,
      "step": 6186
    },
    {
      "epoch": 0.8177372455722971,
      "grad_norm": 0.7837966773764128,
      "learning_rate": 1.88176267131146e-06,
      "loss": 0.536,
      "mean_token_accuracy": 0.8230680227279663,
      "num_tokens": 241571901.0,
      "step": 6187
    },
    {
      "epoch": 0.8178694158075601,
      "grad_norm": 0.8304195931462667,
      "learning_rate": 1.8805286071585872e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8037174940109253,
      "num_tokens": 241637437.0,
      "step": 6188
    },
    {
      "epoch": 0.8180015860428231,
      "grad_norm": 0.7987285978271877,
      "learning_rate": 1.8792953135156072e-06,
      "loss": 0.5708,
      "mean_token_accuracy": 0.8081583380699158,
      "num_tokens": 241702973.0,
      "step": 6189
    },
    {
      "epoch": 0.8181337562780862,
      "grad_norm": 0.798643706642303,
      "learning_rate": 1.8780627906450588e-06,
      "loss": 0.5871,
      "mean_token_accuracy": 0.806800127029419,
      "num_tokens": 241768509.0,
      "step": 6190
    },
    {
      "epoch": 0.8182659265133492,
      "grad_norm": 0.8384545559492207,
      "learning_rate": 1.8768310388093217e-06,
      "loss": 0.5841,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 241834045.0,
      "step": 6191
    },
    {
      "epoch": 0.8183980967486122,
      "grad_norm": 0.7561514171031172,
      "learning_rate": 1.87560005827061e-06,
      "loss": 0.5523,
      "mean_token_accuracy": 0.8172231912612915,
      "num_tokens": 241899581.0,
      "step": 6192
    },
    {
      "epoch": 0.8185302669838752,
      "grad_norm": 0.7796466802405627,
      "learning_rate": 1.874369849290975e-06,
      "loss": 0.5291,
      "mean_token_accuracy": 0.8219844698905945,
      "num_tokens": 241965117.0,
      "step": 6193
    },
    {
      "epoch": 0.8186624372191382,
      "grad_norm": 0.800548904085319,
      "learning_rate": 1.8731404121322993e-06,
      "loss": 0.5385,
      "mean_token_accuracy": 0.817604660987854,
      "num_tokens": 242030653.0,
      "step": 6194
    },
    {
      "epoch": 0.8187946074544012,
      "grad_norm": 0.8523173416047355,
      "learning_rate": 1.8719117470563092e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.8083261847496033,
      "num_tokens": 242096189.0,
      "step": 6195
    },
    {
      "epoch": 0.8189267776896643,
      "grad_norm": 0.8023326594091836,
      "learning_rate": 1.8706838543245572e-06,
      "loss": 0.5844,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 242161725.0,
      "step": 6196
    },
    {
      "epoch": 0.8190589479249273,
      "grad_norm": 0.8273587926214198,
      "learning_rate": 1.8694567341984393e-06,
      "loss": 0.6332,
      "mean_token_accuracy": 0.7893877625465393,
      "num_tokens": 242227261.0,
      "step": 6197
    },
    {
      "epoch": 0.8191911181601903,
      "grad_norm": 0.8572986864658347,
      "learning_rate": 1.8682303869391798e-06,
      "loss": 0.5911,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 242292797.0,
      "step": 6198
    },
    {
      "epoch": 0.8193232883954533,
      "grad_norm": 0.8264420572061952,
      "learning_rate": 1.8670048128078477e-06,
      "loss": 0.5856,
      "mean_token_accuracy": 0.8043584227561951,
      "num_tokens": 242358333.0,
      "step": 6199
    },
    {
      "epoch": 0.8194554586307163,
      "grad_norm": 0.8421403400361683,
      "learning_rate": 1.8657800120653392e-06,
      "loss": 0.6361,
      "mean_token_accuracy": 0.7874343991279602,
      "num_tokens": 242423869.0,
      "step": 6200
    },
    {
      "epoch": 0.8195876288659794,
      "grad_norm": 0.8486335529471711,
      "learning_rate": 1.8645559849723876e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8056555986404419,
      "num_tokens": 242489405.0,
      "step": 6201
    },
    {
      "epoch": 0.8197197991012424,
      "grad_norm": 0.8247567096112312,
      "learning_rate": 1.863332731789566e-06,
      "loss": 0.608,
      "mean_token_accuracy": 0.7993529438972473,
      "num_tokens": 242554941.0,
      "step": 6202
    },
    {
      "epoch": 0.8198519693365054,
      "grad_norm": 0.8329503173007758,
      "learning_rate": 1.8621102527772767e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8132248520851135,
      "num_tokens": 242620477.0,
      "step": 6203
    },
    {
      "epoch": 0.8199841395717684,
      "grad_norm": 0.8806742412565841,
      "learning_rate": 1.8608885481957603e-06,
      "loss": 0.6699,
      "mean_token_accuracy": 0.7763093709945679,
      "num_tokens": 242686013.0,
      "step": 6204
    },
    {
      "epoch": 0.8201163098070314,
      "grad_norm": 0.8402069577912357,
      "learning_rate": 1.8596676183050932e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.8142168521881104,
      "num_tokens": 242751549.0,
      "step": 6205
    },
    {
      "epoch": 0.8202484800422944,
      "grad_norm": 0.7611531930926242,
      "learning_rate": 1.858447463365187e-06,
      "loss": 0.5262,
      "mean_token_accuracy": 0.8261964321136475,
      "num_tokens": 242817085.0,
      "step": 6206
    },
    {
      "epoch": 0.8203806502775575,
      "grad_norm": 0.8081335334820581,
      "learning_rate": 1.8572280836357828e-06,
      "loss": 0.577,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 242882621.0,
      "step": 6207
    },
    {
      "epoch": 0.8205128205128205,
      "grad_norm": 0.8093906662246889,
      "learning_rate": 1.8560094793764668e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8094707727432251,
      "num_tokens": 242948157.0,
      "step": 6208
    },
    {
      "epoch": 0.8206449907480835,
      "grad_norm": 0.8853689302129129,
      "learning_rate": 1.85479165084665e-06,
      "loss": 0.5343,
      "mean_token_accuracy": 0.8249908685684204,
      "num_tokens": 243013693.0,
      "step": 6209
    },
    {
      "epoch": 0.8207771609833465,
      "grad_norm": 0.8093448447972841,
      "learning_rate": 1.8535745983055852e-06,
      "loss": 0.551,
      "mean_token_accuracy": 0.8192223310470581,
      "num_tokens": 243079229.0,
      "step": 6210
    },
    {
      "epoch": 0.8209093312186095,
      "grad_norm": 0.8133221278763408,
      "learning_rate": 1.8523583220123549e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.813148558139801,
      "num_tokens": 243144765.0,
      "step": 6211
    },
    {
      "epoch": 0.8210415014538726,
      "grad_norm": 0.7488063931126551,
      "learning_rate": 1.8511428222258826e-06,
      "loss": 0.5139,
      "mean_token_accuracy": 0.8286839127540588,
      "num_tokens": 243210301.0,
      "step": 6212
    },
    {
      "epoch": 0.8211736716891356,
      "grad_norm": 0.8471402530599131,
      "learning_rate": 1.8499280992049202e-06,
      "loss": 0.5842,
      "mean_token_accuracy": 0.8072579503059387,
      "num_tokens": 243275837.0,
      "step": 6213
    },
    {
      "epoch": 0.8213058419243986,
      "grad_norm": 0.8374337123434832,
      "learning_rate": 1.8487141532080567e-06,
      "loss": 0.5527,
      "mean_token_accuracy": 0.8179098963737488,
      "num_tokens": 243341373.0,
      "step": 6214
    },
    {
      "epoch": 0.8214380121596616,
      "grad_norm": 0.7926686473094078,
      "learning_rate": 1.847500984493717e-06,
      "loss": 0.578,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 243406909.0,
      "step": 6215
    },
    {
      "epoch": 0.8215701823949246,
      "grad_norm": 0.9103354179309905,
      "learning_rate": 1.8462885933201596e-06,
      "loss": 0.6442,
      "mean_token_accuracy": 0.7832224369049072,
      "num_tokens": 243472445.0,
      "step": 6216
    },
    {
      "epoch": 0.8217023526301876,
      "grad_norm": 0.8018604053994626,
      "learning_rate": 1.8450769799454749e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.8134385347366333,
      "num_tokens": 243537981.0,
      "step": 6217
    },
    {
      "epoch": 0.8218345228654507,
      "grad_norm": 0.8722711862466161,
      "learning_rate": 1.843866144627594e-06,
      "loss": 0.6506,
      "mean_token_accuracy": 0.7829630374908447,
      "num_tokens": 243603517.0,
      "step": 6218
    },
    {
      "epoch": 0.8219666931007137,
      "grad_norm": 0.7671078537204737,
      "learning_rate": 1.8426560876242751e-06,
      "loss": 0.5566,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 243669053.0,
      "step": 6219
    },
    {
      "epoch": 0.8220988633359767,
      "grad_norm": 0.7855132463958779,
      "learning_rate": 1.8414468091931154e-06,
      "loss": 0.5521,
      "mean_token_accuracy": 0.8176657557487488,
      "num_tokens": 243734589.0,
      "step": 6220
    },
    {
      "epoch": 0.8222310335712397,
      "grad_norm": 0.8411408886707885,
      "learning_rate": 1.8402383095915466e-06,
      "loss": 0.5802,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 243800125.0,
      "step": 6221
    },
    {
      "epoch": 0.8223632038065027,
      "grad_norm": 0.8008213718540634,
      "learning_rate": 1.8390305890768295e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8122023940086365,
      "num_tokens": 243865661.0,
      "step": 6222
    },
    {
      "epoch": 0.8224953740417658,
      "grad_norm": 0.8254777570316891,
      "learning_rate": 1.8378236479060645e-06,
      "loss": 0.5873,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 243931197.0,
      "step": 6223
    },
    {
      "epoch": 0.8226275442770288,
      "grad_norm": 0.7682297930049226,
      "learning_rate": 1.8366174863361844e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.807669997215271,
      "num_tokens": 243996733.0,
      "step": 6224
    },
    {
      "epoch": 0.8227597145122918,
      "grad_norm": 0.7842445392698334,
      "learning_rate": 1.8354121046239566e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8034427762031555,
      "num_tokens": 244062269.0,
      "step": 6225
    },
    {
      "epoch": 0.8228918847475548,
      "grad_norm": 0.747298681171584,
      "learning_rate": 1.8342075030259797e-06,
      "loss": 0.5277,
      "mean_token_accuracy": 0.8230985403060913,
      "num_tokens": 244127805.0,
      "step": 6226
    },
    {
      "epoch": 0.8230240549828178,
      "grad_norm": 0.8524282838048105,
      "learning_rate": 1.8330036817986885e-06,
      "loss": 0.6039,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 244193341.0,
      "step": 6227
    },
    {
      "epoch": 0.8231562252180809,
      "grad_norm": 0.8326497059201796,
      "learning_rate": 1.831800641198353e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7972164750099182,
      "num_tokens": 244258877.0,
      "step": 6228
    },
    {
      "epoch": 0.8232883954533439,
      "grad_norm": 0.7406200018011989,
      "learning_rate": 1.8305983814810752e-06,
      "loss": 0.5557,
      "mean_token_accuracy": 0.8135453462600708,
      "num_tokens": 244324413.0,
      "step": 6229
    },
    {
      "epoch": 0.8234205656886069,
      "grad_norm": 0.7506797414835306,
      "learning_rate": 1.829396902902788e-06,
      "loss": 0.5048,
      "mean_token_accuracy": 0.8330942392349243,
      "num_tokens": 244389949.0,
      "step": 6230
    },
    {
      "epoch": 0.8235527359238699,
      "grad_norm": 0.8786726763573189,
      "learning_rate": 1.8281962057192657e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7962550520896912,
      "num_tokens": 244455485.0,
      "step": 6231
    },
    {
      "epoch": 0.8236849061591329,
      "grad_norm": 0.7960459428703934,
      "learning_rate": 1.8269962901861087e-06,
      "loss": 0.5483,
      "mean_token_accuracy": 0.818260908126831,
      "num_tokens": 244521021.0,
      "step": 6232
    },
    {
      "epoch": 0.8238170763943959,
      "grad_norm": 0.8529264284595908,
      "learning_rate": 1.8257971565587546e-06,
      "loss": 0.6242,
      "mean_token_accuracy": 0.7940422296524048,
      "num_tokens": 244586557.0,
      "step": 6233
    },
    {
      "epoch": 0.823949246629659,
      "grad_norm": 0.8272755896728482,
      "learning_rate": 1.8245988050924736e-06,
      "loss": 0.6093,
      "mean_token_accuracy": 0.797948956489563,
      "num_tokens": 244652093.0,
      "step": 6234
    },
    {
      "epoch": 0.824081416864922,
      "grad_norm": 0.7707003409219777,
      "learning_rate": 1.823401236042372e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8186271786689758,
      "num_tokens": 244717629.0,
      "step": 6235
    },
    {
      "epoch": 0.824213587100185,
      "grad_norm": 0.7026427607662196,
      "learning_rate": 1.822204449663383e-06,
      "loss": 0.5075,
      "mean_token_accuracy": 0.8310340642929077,
      "num_tokens": 244783165.0,
      "step": 6236
    },
    {
      "epoch": 0.824345757335448,
      "grad_norm": 0.8268828230577532,
      "learning_rate": 1.8210084462102812e-06,
      "loss": 0.5551,
      "mean_token_accuracy": 0.8148882985115051,
      "num_tokens": 244848701.0,
      "step": 6237
    },
    {
      "epoch": 0.824477927570711,
      "grad_norm": 0.7791742446471815,
      "learning_rate": 1.8198132259376694e-06,
      "loss": 0.5166,
      "mean_token_accuracy": 0.8264864087104797,
      "num_tokens": 244914237.0,
      "step": 6238
    },
    {
      "epoch": 0.824610097805974,
      "grad_norm": 0.7977667968161318,
      "learning_rate": 1.818618789099984e-06,
      "loss": 0.5903,
      "mean_token_accuracy": 0.8015199899673462,
      "num_tokens": 244979773.0,
      "step": 6239
    },
    {
      "epoch": 0.8247422680412371,
      "grad_norm": 0.8896327325005841,
      "learning_rate": 1.8174251359514988e-06,
      "loss": 0.6081,
      "mean_token_accuracy": 0.7966976165771484,
      "num_tokens": 245045309.0,
      "step": 6240
    },
    {
      "epoch": 0.8248744382765001,
      "grad_norm": 0.8330568103394576,
      "learning_rate": 1.816232266746314e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8013063073158264,
      "num_tokens": 245110845.0,
      "step": 6241
    },
    {
      "epoch": 0.8250066085117631,
      "grad_norm": 0.7833366036704643,
      "learning_rate": 1.8150401817383679e-06,
      "loss": 0.5532,
      "mean_token_accuracy": 0.8151324391365051,
      "num_tokens": 245176381.0,
      "step": 6242
    },
    {
      "epoch": 0.8251387787470261,
      "grad_norm": 0.8084083842148668,
      "learning_rate": 1.813848881181431e-06,
      "loss": 0.5328,
      "mean_token_accuracy": 0.8215877413749695,
      "num_tokens": 245241917.0,
      "step": 6243
    },
    {
      "epoch": 0.8252709489822891,
      "grad_norm": 0.776321509852152,
      "learning_rate": 1.812658365329107e-06,
      "loss": 0.5764,
      "mean_token_accuracy": 0.8078684210777283,
      "num_tokens": 245307453.0,
      "step": 6244
    },
    {
      "epoch": 0.8254031192175522,
      "grad_norm": 0.83065366169423,
      "learning_rate": 1.8114686344348297e-06,
      "loss": 0.5413,
      "mean_token_accuracy": 0.8213130235671997,
      "num_tokens": 245372989.0,
      "step": 6245
    },
    {
      "epoch": 0.8255352894528152,
      "grad_norm": 0.8726203196977618,
      "learning_rate": 1.8102796887518693e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7936301827430725,
      "num_tokens": 245438525.0,
      "step": 6246
    },
    {
      "epoch": 0.8256674596880782,
      "grad_norm": 0.763287714354175,
      "learning_rate": 1.8090915285333268e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8235411047935486,
      "num_tokens": 245504061.0,
      "step": 6247
    },
    {
      "epoch": 0.8257996299233412,
      "grad_norm": 0.7920364349636289,
      "learning_rate": 1.807904154032139e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.802282989025116,
      "num_tokens": 245569597.0,
      "step": 6248
    },
    {
      "epoch": 0.8259318001586042,
      "grad_norm": 0.7907229145324567,
      "learning_rate": 1.8067175655010688e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8112409710884094,
      "num_tokens": 245635133.0,
      "step": 6249
    },
    {
      "epoch": 0.8260639703938673,
      "grad_norm": 0.8377364191089725,
      "learning_rate": 1.805531763192721e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.7987425327301025,
      "num_tokens": 245700669.0,
      "step": 6250
    },
    {
      "epoch": 0.8261961406291303,
      "grad_norm": 0.888832935220518,
      "learning_rate": 1.804346747359525e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8010621666908264,
      "num_tokens": 245766205.0,
      "step": 6251
    },
    {
      "epoch": 0.8263283108643933,
      "grad_norm": 0.8380159006943808,
      "learning_rate": 1.8031625182537466e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.802191436290741,
      "num_tokens": 245831741.0,
      "step": 6252
    },
    {
      "epoch": 0.8264604810996563,
      "grad_norm": 0.8171001143991298,
      "learning_rate": 1.801979076127484e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 245897277.0,
      "step": 6253
    },
    {
      "epoch": 0.8265926513349193,
      "grad_norm": 0.8047217791694421,
      "learning_rate": 1.800796421232668e-06,
      "loss": 0.5481,
      "mean_token_accuracy": 0.8170858025550842,
      "num_tokens": 245962813.0,
      "step": 6254
    },
    {
      "epoch": 0.8267248215701823,
      "grad_norm": 0.8626769344220454,
      "learning_rate": 1.7996145538210568e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.7920736074447632,
      "num_tokens": 246028349.0,
      "step": 6255
    },
    {
      "epoch": 0.8268569918054454,
      "grad_norm": 0.8829517882134118,
      "learning_rate": 1.7984334741442521e-06,
      "loss": 0.5871,
      "mean_token_accuracy": 0.8009247779846191,
      "num_tokens": 246093885.0,
      "step": 6256
    },
    {
      "epoch": 0.8269891620407084,
      "grad_norm": 0.781183986526424,
      "learning_rate": 1.797253182453676e-06,
      "loss": 0.5958,
      "mean_token_accuracy": 0.8007111549377441,
      "num_tokens": 246159421.0,
      "step": 6257
    },
    {
      "epoch": 0.8271213322759714,
      "grad_norm": 0.8372070452289567,
      "learning_rate": 1.7960736790005906e-06,
      "loss": 0.6351,
      "mean_token_accuracy": 0.7900286912918091,
      "num_tokens": 246224957.0,
      "step": 6258
    },
    {
      "epoch": 0.8272535025112344,
      "grad_norm": 0.8252613079963614,
      "learning_rate": 1.794894964036086e-06,
      "loss": 0.6001,
      "mean_token_accuracy": 0.8012757897377014,
      "num_tokens": 246290493.0,
      "step": 6259
    },
    {
      "epoch": 0.8273856727464974,
      "grad_norm": 0.7968032128695964,
      "learning_rate": 1.793717037811086e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8061897158622742,
      "num_tokens": 246356029.0,
      "step": 6260
    },
    {
      "epoch": 0.8275178429817605,
      "grad_norm": 0.7808313006909106,
      "learning_rate": 1.7925399005763471e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.8181235790252686,
      "num_tokens": 246421565.0,
      "step": 6261
    },
    {
      "epoch": 0.8276500132170235,
      "grad_norm": 0.7815907191288494,
      "learning_rate": 1.7913635525824574e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8052130341529846,
      "num_tokens": 246487101.0,
      "step": 6262
    },
    {
      "epoch": 0.8277821834522865,
      "grad_norm": 0.8563367089030218,
      "learning_rate": 1.7901879940798378e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.7932944893836975,
      "num_tokens": 246552637.0,
      "step": 6263
    },
    {
      "epoch": 0.8279143536875495,
      "grad_norm": 0.8424349421575054,
      "learning_rate": 1.7890132253187376e-06,
      "loss": 0.5377,
      "mean_token_accuracy": 0.8202295303344727,
      "num_tokens": 246618173.0,
      "step": 6264
    },
    {
      "epoch": 0.8280465239228125,
      "grad_norm": 0.8199766489360545,
      "learning_rate": 1.7878392465492417e-06,
      "loss": 0.559,
      "mean_token_accuracy": 0.8150103688240051,
      "num_tokens": 246683709.0,
      "step": 6265
    },
    {
      "epoch": 0.8281786941580757,
      "grad_norm": 0.8203332473344246,
      "learning_rate": 1.7866660580212661e-06,
      "loss": 0.5556,
      "mean_token_accuracy": 0.8127365112304688,
      "num_tokens": 246749245.0,
      "step": 6266
    },
    {
      "epoch": 0.8283108643933387,
      "grad_norm": 0.7704943878915421,
      "learning_rate": 1.785493659984559e-06,
      "loss": 0.5517,
      "mean_token_accuracy": 0.8166890740394592,
      "num_tokens": 246814781.0,
      "step": 6267
    },
    {
      "epoch": 0.8284430346286017,
      "grad_norm": 0.7847722273534313,
      "learning_rate": 1.7843220526886962e-06,
      "loss": 0.5684,
      "mean_token_accuracy": 0.8119582533836365,
      "num_tokens": 246880317.0,
      "step": 6268
    },
    {
      "epoch": 0.8285752048638647,
      "grad_norm": 0.8424520431306315,
      "learning_rate": 1.7831512363830927e-06,
      "loss": 0.5323,
      "mean_token_accuracy": 0.8248534798622131,
      "num_tokens": 246945853.0,
      "step": 6269
    },
    {
      "epoch": 0.8287073750991277,
      "grad_norm": 0.7814140768472122,
      "learning_rate": 1.7819812113169879e-06,
      "loss": 0.4857,
      "mean_token_accuracy": 0.8363295197486877,
      "num_tokens": 247011389.0,
      "step": 6270
    },
    {
      "epoch": 0.8288395453343907,
      "grad_norm": 0.7775723399481036,
      "learning_rate": 1.7808119777394577e-06,
      "loss": 0.5493,
      "mean_token_accuracy": 0.8142931461334229,
      "num_tokens": 247076925.0,
      "step": 6271
    },
    {
      "epoch": 0.8289717155696538,
      "grad_norm": 0.8056334027547175,
      "learning_rate": 1.779643535899404e-06,
      "loss": 0.5685,
      "mean_token_accuracy": 0.8096233606338501,
      "num_tokens": 247142461.0,
      "step": 6272
    },
    {
      "epoch": 0.8291038858049168,
      "grad_norm": 0.8215025701143904,
      "learning_rate": 1.778475886045568e-06,
      "loss": 0.5828,
      "mean_token_accuracy": 0.8063728213310242,
      "num_tokens": 247207997.0,
      "step": 6273
    },
    {
      "epoch": 0.8292360560401798,
      "grad_norm": 0.8010380379755471,
      "learning_rate": 1.7773090284265154e-06,
      "loss": 0.5674,
      "mean_token_accuracy": 0.8118361830711365,
      "num_tokens": 247273533.0,
      "step": 6274
    },
    {
      "epoch": 0.8293682262754428,
      "grad_norm": 0.9381409304603304,
      "learning_rate": 1.7761429632906464e-06,
      "loss": 0.6303,
      "mean_token_accuracy": 0.7891435623168945,
      "num_tokens": 247339069.0,
      "step": 6275
    },
    {
      "epoch": 0.8295003965107058,
      "grad_norm": 0.8153013326336948,
      "learning_rate": 1.7749776908861916e-06,
      "loss": 0.5642,
      "mean_token_accuracy": 0.8116530179977417,
      "num_tokens": 247404605.0,
      "step": 6276
    },
    {
      "epoch": 0.8296325667459689,
      "grad_norm": 0.7707146469597049,
      "learning_rate": 1.773813211461215e-06,
      "loss": 0.5777,
      "mean_token_accuracy": 0.8084635734558105,
      "num_tokens": 247470141.0,
      "step": 6277
    },
    {
      "epoch": 0.8297647369812319,
      "grad_norm": 0.8458985433032392,
      "learning_rate": 1.7726495252636072e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.8071816563606262,
      "num_tokens": 247535677.0,
      "step": 6278
    },
    {
      "epoch": 0.8298969072164949,
      "grad_norm": 0.8574283009230711,
      "learning_rate": 1.7714866325410943e-06,
      "loss": 0.6235,
      "mean_token_accuracy": 0.7912648320198059,
      "num_tokens": 247601213.0,
      "step": 6279
    },
    {
      "epoch": 0.8300290774517579,
      "grad_norm": 0.8184593270640159,
      "learning_rate": 1.7703245335412311e-06,
      "loss": 0.5638,
      "mean_token_accuracy": 0.8132706880569458,
      "num_tokens": 247666749.0,
      "step": 6280
    },
    {
      "epoch": 0.8301612476870209,
      "grad_norm": 0.8410737912356592,
      "learning_rate": 1.7691632285114052e-06,
      "loss": 0.6336,
      "mean_token_accuracy": 0.7892351150512695,
      "num_tokens": 247732285.0,
      "step": 6281
    },
    {
      "epoch": 0.830293417922284,
      "grad_norm": 0.7973834252131583,
      "learning_rate": 1.7680027176988346e-06,
      "loss": 0.5234,
      "mean_token_accuracy": 0.8235105872154236,
      "num_tokens": 247797821.0,
      "step": 6282
    },
    {
      "epoch": 0.830425588157547,
      "grad_norm": 0.8381450218365769,
      "learning_rate": 1.7668430013505662e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8050909638404846,
      "num_tokens": 247863357.0,
      "step": 6283
    },
    {
      "epoch": 0.83055775839281,
      "grad_norm": 0.7859648477257121,
      "learning_rate": 1.7656840797134794e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.8171621561050415,
      "num_tokens": 247928893.0,
      "step": 6284
    },
    {
      "epoch": 0.830689928628073,
      "grad_norm": 0.8451759481211684,
      "learning_rate": 1.7645259530342852e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.808661937713623,
      "num_tokens": 247994429.0,
      "step": 6285
    },
    {
      "epoch": 0.830822098863336,
      "grad_norm": 0.78345892762568,
      "learning_rate": 1.7633686215595257e-06,
      "loss": 0.5268,
      "mean_token_accuracy": 0.8260438442230225,
      "num_tokens": 248059965.0,
      "step": 6286
    },
    {
      "epoch": 0.830954269098599,
      "grad_norm": 0.8459122821544637,
      "learning_rate": 1.7622120855355706e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7885026335716248,
      "num_tokens": 248125501.0,
      "step": 6287
    },
    {
      "epoch": 0.8310864393338621,
      "grad_norm": 0.8011127786563288,
      "learning_rate": 1.7610563452086233e-06,
      "loss": 0.5803,
      "mean_token_accuracy": 0.8074105978012085,
      "num_tokens": 248191037.0,
      "step": 6288
    },
    {
      "epoch": 0.8312186095691251,
      "grad_norm": 0.7729588188871527,
      "learning_rate": 1.7599014008247162e-06,
      "loss": 0.5298,
      "mean_token_accuracy": 0.8231290578842163,
      "num_tokens": 248256573.0,
      "step": 6289
    },
    {
      "epoch": 0.8313507798043881,
      "grad_norm": 0.7852754791924386,
      "learning_rate": 1.7587472526297142e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8070138096809387,
      "num_tokens": 248322109.0,
      "step": 6290
    },
    {
      "epoch": 0.8314829500396511,
      "grad_norm": 0.8631486596524248,
      "learning_rate": 1.7575939008693082e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7941032648086548,
      "num_tokens": 248387645.0,
      "step": 6291
    },
    {
      "epoch": 0.8316151202749141,
      "grad_norm": 0.79745505214407,
      "learning_rate": 1.7564413457890275e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.8210077881813049,
      "num_tokens": 248453181.0,
      "step": 6292
    },
    {
      "epoch": 0.8317472905101772,
      "grad_norm": 0.8391890887215997,
      "learning_rate": 1.7552895876342227e-06,
      "loss": 0.5699,
      "mean_token_accuracy": 0.8114699125289917,
      "num_tokens": 248518717.0,
      "step": 6293
    },
    {
      "epoch": 0.8318794607454402,
      "grad_norm": 0.7794890203797715,
      "learning_rate": 1.7541386266500815e-06,
      "loss": 0.5468,
      "mean_token_accuracy": 0.818444013595581,
      "num_tokens": 248584253.0,
      "step": 6294
    },
    {
      "epoch": 0.8320116309807032,
      "grad_norm": 0.7751266045086964,
      "learning_rate": 1.752988463081618e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8028781414031982,
      "num_tokens": 248649789.0,
      "step": 6295
    },
    {
      "epoch": 0.8321438012159662,
      "grad_norm": 0.8144050912660914,
      "learning_rate": 1.7518390971736805e-06,
      "loss": 0.512,
      "mean_token_accuracy": 0.8275851607322693,
      "num_tokens": 248715325.0,
      "step": 6296
    },
    {
      "epoch": 0.8322759714512292,
      "grad_norm": 0.7984505670997857,
      "learning_rate": 1.7506905291709417e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8116225004196167,
      "num_tokens": 248780861.0,
      "step": 6297
    },
    {
      "epoch": 0.8324081416864922,
      "grad_norm": 0.8965228320009322,
      "learning_rate": 1.7495427593179092e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.7954919934272766,
      "num_tokens": 248846397.0,
      "step": 6298
    },
    {
      "epoch": 0.8325403119217553,
      "grad_norm": 0.8384357257828954,
      "learning_rate": 1.7483957878589197e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.7940422296524048,
      "num_tokens": 248911933.0,
      "step": 6299
    },
    {
      "epoch": 0.8326724821570183,
      "grad_norm": 0.871961206869255,
      "learning_rate": 1.747249615038139e-06,
      "loss": 0.6452,
      "mean_token_accuracy": 0.7826425433158875,
      "num_tokens": 248977469.0,
      "step": 6300
    },
    {
      "epoch": 0.8328046523922813,
      "grad_norm": 0.7531098860572758,
      "learning_rate": 1.7461042410995644e-06,
      "loss": 0.5647,
      "mean_token_accuracy": 0.8119277358055115,
      "num_tokens": 249043005.0,
      "step": 6301
    },
    {
      "epoch": 0.8329368226275443,
      "grad_norm": 0.8507712141125047,
      "learning_rate": 1.7449596662870203e-06,
      "loss": 0.6092,
      "mean_token_accuracy": 0.7999480962753296,
      "num_tokens": 249108541.0,
      "step": 6302
    },
    {
      "epoch": 0.8330689928628073,
      "grad_norm": 0.8267474377806044,
      "learning_rate": 1.7438158908441649e-06,
      "loss": 0.6194,
      "mean_token_accuracy": 0.7936912178993225,
      "num_tokens": 249174077.0,
      "step": 6303
    },
    {
      "epoch": 0.8332011630980704,
      "grad_norm": 0.7234848335780548,
      "learning_rate": 1.7426729150144802e-06,
      "loss": 0.5304,
      "mean_token_accuracy": 0.8243193626403809,
      "num_tokens": 249239613.0,
      "step": 6304
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.8457660262760566,
      "learning_rate": 1.7415307390412871e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 249305149.0,
      "step": 6305
    },
    {
      "epoch": 0.8334655035685964,
      "grad_norm": 0.7722094997147979,
      "learning_rate": 1.740389363167727e-06,
      "loss": 0.5467,
      "mean_token_accuracy": 0.817268967628479,
      "num_tokens": 249370685.0,
      "step": 6306
    },
    {
      "epoch": 0.8335976738038594,
      "grad_norm": 0.7975420229808878,
      "learning_rate": 1.739248787636777e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.7961482405662537,
      "num_tokens": 249436221.0,
      "step": 6307
    },
    {
      "epoch": 0.8337298440391224,
      "grad_norm": 0.7610037736031919,
      "learning_rate": 1.738109012691241e-06,
      "loss": 0.5304,
      "mean_token_accuracy": 0.8240141868591309,
      "num_tokens": 249501757.0,
      "step": 6308
    },
    {
      "epoch": 0.8338620142743854,
      "grad_norm": 0.8015663390766887,
      "learning_rate": 1.7369700385737543e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.7985135912895203,
      "num_tokens": 249567293.0,
      "step": 6309
    },
    {
      "epoch": 0.8339941845096485,
      "grad_norm": 0.851944918997343,
      "learning_rate": 1.735831865526778e-06,
      "loss": 0.5645,
      "mean_token_accuracy": 0.8128281235694885,
      "num_tokens": 249632829.0,
      "step": 6310
    },
    {
      "epoch": 0.8341263547449115,
      "grad_norm": 0.7574611425354296,
      "learning_rate": 1.7346944937926102e-06,
      "loss": 0.5225,
      "mean_token_accuracy": 0.8247619271278381,
      "num_tokens": 249698365.0,
      "step": 6311
    },
    {
      "epoch": 0.8342585249801745,
      "grad_norm": 0.7582073310903296,
      "learning_rate": 1.7335579236133693e-06,
      "loss": 0.5278,
      "mean_token_accuracy": 0.8252655267715454,
      "num_tokens": 249763901.0,
      "step": 6312
    },
    {
      "epoch": 0.8343906952154375,
      "grad_norm": 0.8075408441829715,
      "learning_rate": 1.7324221552310083e-06,
      "loss": 0.53,
      "mean_token_accuracy": 0.8233426809310913,
      "num_tokens": 249829437.0,
      "step": 6313
    },
    {
      "epoch": 0.8345228654507005,
      "grad_norm": 0.741057961739002,
      "learning_rate": 1.7312871888873097e-06,
      "loss": 0.5087,
      "mean_token_accuracy": 0.8305457234382629,
      "num_tokens": 249894973.0,
      "step": 6314
    },
    {
      "epoch": 0.8346550356859636,
      "grad_norm": 0.8972969811202861,
      "learning_rate": 1.7301530248238844e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 249960509.0,
      "step": 6315
    },
    {
      "epoch": 0.8347872059212266,
      "grad_norm": 0.8174824346831185,
      "learning_rate": 1.7290196632821703e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8043736815452576,
      "num_tokens": 250026045.0,
      "step": 6316
    },
    {
      "epoch": 0.8349193761564896,
      "grad_norm": 0.7752425220560067,
      "learning_rate": 1.727887104503437e-06,
      "loss": 0.571,
      "mean_token_accuracy": 0.8095623254776001,
      "num_tokens": 250091581.0,
      "step": 6317
    },
    {
      "epoch": 0.8350515463917526,
      "grad_norm": 0.7466048981433032,
      "learning_rate": 1.7267553487287841e-06,
      "loss": 0.4825,
      "mean_token_accuracy": 0.8400378227233887,
      "num_tokens": 250157117.0,
      "step": 6318
    },
    {
      "epoch": 0.8351837166270156,
      "grad_norm": 0.8120133447981427,
      "learning_rate": 1.7256243961991381e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.7972012162208557,
      "num_tokens": 250222653.0,
      "step": 6319
    },
    {
      "epoch": 0.8353158868622786,
      "grad_norm": 0.7986243473213532,
      "learning_rate": 1.7244942471552539e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8134843111038208,
      "num_tokens": 250288189.0,
      "step": 6320
    },
    {
      "epoch": 0.8354480570975417,
      "grad_norm": 0.8105919863671986,
      "learning_rate": 1.7233649018377174e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8058539628982544,
      "num_tokens": 250353725.0,
      "step": 6321
    },
    {
      "epoch": 0.8355802273328047,
      "grad_norm": 0.7370437687667217,
      "learning_rate": 1.7222363604869446e-06,
      "loss": 0.5138,
      "mean_token_accuracy": 0.8309577703475952,
      "num_tokens": 250419261.0,
      "step": 6322
    },
    {
      "epoch": 0.8357123975680677,
      "grad_norm": 0.7848572616513801,
      "learning_rate": 1.7211086233431739e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 250484797.0,
      "step": 6323
    },
    {
      "epoch": 0.8358445678033307,
      "grad_norm": 0.7611940713934258,
      "learning_rate": 1.7199816906464826e-06,
      "loss": 0.5489,
      "mean_token_accuracy": 0.8167653679847717,
      "num_tokens": 250550333.0,
      "step": 6324
    },
    {
      "epoch": 0.8359767380385937,
      "grad_norm": 0.8831179238266678,
      "learning_rate": 1.7188555626367665e-06,
      "loss": 0.642,
      "mean_token_accuracy": 0.7882431745529175,
      "num_tokens": 250615869.0,
      "step": 6325
    },
    {
      "epoch": 0.8361089082738568,
      "grad_norm": 0.8244398278536895,
      "learning_rate": 1.7177302395537565e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.8008332252502441,
      "num_tokens": 250681405.0,
      "step": 6326
    },
    {
      "epoch": 0.8362410785091198,
      "grad_norm": 0.8200231414062327,
      "learning_rate": 1.7166057216370108e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8075326681137085,
      "num_tokens": 250746941.0,
      "step": 6327
    },
    {
      "epoch": 0.8363732487443828,
      "grad_norm": 0.797334003756221,
      "learning_rate": 1.7154820091259159e-06,
      "loss": 0.5604,
      "mean_token_accuracy": 0.812065064907074,
      "num_tokens": 250812477.0,
      "step": 6328
    },
    {
      "epoch": 0.8365054189796458,
      "grad_norm": 0.9064869006873526,
      "learning_rate": 1.7143591022596846e-06,
      "loss": 0.597,
      "mean_token_accuracy": 0.8018862009048462,
      "num_tokens": 250878013.0,
      "step": 6329
    },
    {
      "epoch": 0.8366375892149088,
      "grad_norm": 0.7805582960778721,
      "learning_rate": 1.713237001277364e-06,
      "loss": 0.5254,
      "mean_token_accuracy": 0.8254486918449402,
      "num_tokens": 250943549.0,
      "step": 6330
    },
    {
      "epoch": 0.8367697594501718,
      "grad_norm": 0.7822958961949028,
      "learning_rate": 1.7121157064178224e-06,
      "loss": 0.568,
      "mean_token_accuracy": 0.8130417466163635,
      "num_tokens": 251009085.0,
      "step": 6331
    },
    {
      "epoch": 0.8369019296854349,
      "grad_norm": 0.7779425885339815,
      "learning_rate": 1.7109952179197631e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.8093792200088501,
      "num_tokens": 251074621.0,
      "step": 6332
    },
    {
      "epoch": 0.8370340999206979,
      "grad_norm": 0.7253399279024325,
      "learning_rate": 1.7098755360217106e-06,
      "loss": 0.5087,
      "mean_token_accuracy": 0.8317665457725525,
      "num_tokens": 251140157.0,
      "step": 6333
    },
    {
      "epoch": 0.8371662701559609,
      "grad_norm": 0.8178126524545192,
      "learning_rate": 1.7087566609620272e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.8195427656173706,
      "num_tokens": 251205693.0,
      "step": 6334
    },
    {
      "epoch": 0.8372984403912239,
      "grad_norm": 0.7696718105861241,
      "learning_rate": 1.707638592978893e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8001312613487244,
      "num_tokens": 251271229.0,
      "step": 6335
    },
    {
      "epoch": 0.8374306106264869,
      "grad_norm": 0.8334687923882328,
      "learning_rate": 1.7065213323103247e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8142168521881104,
      "num_tokens": 251336765.0,
      "step": 6336
    },
    {
      "epoch": 0.83756278086175,
      "grad_norm": 0.7970216587152018,
      "learning_rate": 1.7054048791941624e-06,
      "loss": 0.5548,
      "mean_token_accuracy": 0.8160328269004822,
      "num_tokens": 251402301.0,
      "step": 6337
    },
    {
      "epoch": 0.837694951097013,
      "grad_norm": 0.7916688432310718,
      "learning_rate": 1.7042892338680766e-06,
      "loss": 0.538,
      "mean_token_accuracy": 0.8210077881813049,
      "num_tokens": 251467837.0,
      "step": 6338
    },
    {
      "epoch": 0.837827121332276,
      "grad_norm": 0.8315865011657492,
      "learning_rate": 1.7031743965695635e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.8146898746490479,
      "num_tokens": 251533373.0,
      "step": 6339
    },
    {
      "epoch": 0.837959291567539,
      "grad_norm": 0.7828317241125906,
      "learning_rate": 1.7020603675359488e-06,
      "loss": 0.6003,
      "mean_token_accuracy": 0.79903244972229,
      "num_tokens": 251598909.0,
      "step": 6340
    },
    {
      "epoch": 0.838091461802802,
      "grad_norm": 0.7143403788190262,
      "learning_rate": 1.7009471470043882e-06,
      "loss": 0.4928,
      "mean_token_accuracy": 0.8339335918426514,
      "num_tokens": 251664445.0,
      "step": 6341
    },
    {
      "epoch": 0.838223632038065,
      "grad_norm": 0.9079641649346915,
      "learning_rate": 1.6998347352118594e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7884415984153748,
      "num_tokens": 251729981.0,
      "step": 6342
    },
    {
      "epoch": 0.8383558022733281,
      "grad_norm": 0.8494559473080302,
      "learning_rate": 1.6987231323951754e-06,
      "loss": 0.5846,
      "mean_token_accuracy": 0.8048925399780273,
      "num_tokens": 251795517.0,
      "step": 6343
    },
    {
      "epoch": 0.8384879725085911,
      "grad_norm": 0.7488287976195823,
      "learning_rate": 1.6976123387909705e-06,
      "loss": 0.4931,
      "mean_token_accuracy": 0.8377792835235596,
      "num_tokens": 251861053.0,
      "step": 6344
    },
    {
      "epoch": 0.8386201427438541,
      "grad_norm": 0.846596708699531,
      "learning_rate": 1.6965023546357108e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8082956671714783,
      "num_tokens": 251926589.0,
      "step": 6345
    },
    {
      "epoch": 0.8387523129791171,
      "grad_norm": 0.7803238702677496,
      "learning_rate": 1.695393180165688e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.813057005405426,
      "num_tokens": 251992125.0,
      "step": 6346
    },
    {
      "epoch": 0.8388844832143801,
      "grad_norm": 0.8662241208510637,
      "learning_rate": 1.6942848156170244e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.7937980890274048,
      "num_tokens": 252057661.0,
      "step": 6347
    },
    {
      "epoch": 0.8390166534496432,
      "grad_norm": 0.8205003174584813,
      "learning_rate": 1.6931772612256648e-06,
      "loss": 0.5731,
      "mean_token_accuracy": 0.8071816563606262,
      "num_tokens": 252123197.0,
      "step": 6348
    },
    {
      "epoch": 0.8391488236849062,
      "grad_norm": 0.8264275020501992,
      "learning_rate": 1.6920705172273855e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.8040990233421326,
      "num_tokens": 252188733.0,
      "step": 6349
    },
    {
      "epoch": 0.8392809939201692,
      "grad_norm": 0.8651792470553208,
      "learning_rate": 1.6909645838577894e-06,
      "loss": 0.6396,
      "mean_token_accuracy": 0.7842754125595093,
      "num_tokens": 252254269.0,
      "step": 6350
    },
    {
      "epoch": 0.8394131641554322,
      "grad_norm": 0.7696212777598227,
      "learning_rate": 1.6898594613523068e-06,
      "loss": 0.5614,
      "mean_token_accuracy": 0.8128586411476135,
      "num_tokens": 252319805.0,
      "step": 6351
    },
    {
      "epoch": 0.8395453343906952,
      "grad_norm": 0.8446352042723128,
      "learning_rate": 1.6887551499461935e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.7999633550643921,
      "num_tokens": 252385341.0,
      "step": 6352
    },
    {
      "epoch": 0.8396775046259582,
      "grad_norm": 0.8766555462806156,
      "learning_rate": 1.6876516498745372e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8090434670448303,
      "num_tokens": 252450877.0,
      "step": 6353
    },
    {
      "epoch": 0.8398096748612213,
      "grad_norm": 0.8457940704894088,
      "learning_rate": 1.6865489613722482e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.812782347202301,
      "num_tokens": 252516413.0,
      "step": 6354
    },
    {
      "epoch": 0.8399418450964843,
      "grad_norm": 0.7527017322182157,
      "learning_rate": 1.6854470846740655e-06,
      "loss": 0.5506,
      "mean_token_accuracy": 0.8155444860458374,
      "num_tokens": 252581949.0,
      "step": 6355
    },
    {
      "epoch": 0.8400740153317473,
      "grad_norm": 0.7877442439135356,
      "learning_rate": 1.6843460200145567e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8149035573005676,
      "num_tokens": 252647485.0,
      "step": 6356
    },
    {
      "epoch": 0.8402061855670103,
      "grad_norm": 0.7691485018555413,
      "learning_rate": 1.6832457676281166e-06,
      "loss": 0.5534,
      "mean_token_accuracy": 0.8162007331848145,
      "num_tokens": 252713021.0,
      "step": 6357
    },
    {
      "epoch": 0.8403383558022733,
      "grad_norm": 0.7803075944507253,
      "learning_rate": 1.6821463277489624e-06,
      "loss": 0.5451,
      "mean_token_accuracy": 0.818291425704956,
      "num_tokens": 252778557.0,
      "step": 6358
    },
    {
      "epoch": 0.8404705260375364,
      "grad_norm": 0.8812257148192926,
      "learning_rate": 1.6810477006111448e-06,
      "loss": 0.6222,
      "mean_token_accuracy": 0.7930502891540527,
      "num_tokens": 252844093.0,
      "step": 6359
    },
    {
      "epoch": 0.8406026962727994,
      "grad_norm": 0.7445362371616105,
      "learning_rate": 1.6799498864485386e-06,
      "loss": 0.5357,
      "mean_token_accuracy": 0.8212519884109497,
      "num_tokens": 252909629.0,
      "step": 6360
    },
    {
      "epoch": 0.8407348665080624,
      "grad_norm": 0.751461480540124,
      "learning_rate": 1.6788528854948428e-06,
      "loss": 0.506,
      "mean_token_accuracy": 0.8328653573989868,
      "num_tokens": 252975165.0,
      "step": 6361
    },
    {
      "epoch": 0.8408670367433254,
      "grad_norm": 0.8434146874368318,
      "learning_rate": 1.6777566979835897e-06,
      "loss": 0.5622,
      "mean_token_accuracy": 0.8134232759475708,
      "num_tokens": 253040701.0,
      "step": 6362
    },
    {
      "epoch": 0.8409992069785884,
      "grad_norm": 0.8241186030525194,
      "learning_rate": 1.6766613241481313e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8093487024307251,
      "num_tokens": 253106237.0,
      "step": 6363
    },
    {
      "epoch": 0.8411313772138514,
      "grad_norm": 0.7979478378111361,
      "learning_rate": 1.6755667642216533e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8220149874687195,
      "num_tokens": 253171773.0,
      "step": 6364
    },
    {
      "epoch": 0.8412635474491145,
      "grad_norm": 0.8752016770531569,
      "learning_rate": 1.6744730184371605e-06,
      "loss": 0.6256,
      "mean_token_accuracy": 0.7937523126602173,
      "num_tokens": 253237309.0,
      "step": 6365
    },
    {
      "epoch": 0.8413957176843775,
      "grad_norm": 0.809992780646537,
      "learning_rate": 1.673380087027493e-06,
      "loss": 0.5422,
      "mean_token_accuracy": 0.8192528486251831,
      "num_tokens": 253302845.0,
      "step": 6366
    },
    {
      "epoch": 0.8415278879196405,
      "grad_norm": 0.7575134889111783,
      "learning_rate": 1.6722879702253098e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.8165669441223145,
      "num_tokens": 253368381.0,
      "step": 6367
    },
    {
      "epoch": 0.8416600581549035,
      "grad_norm": 0.7713355910402547,
      "learning_rate": 1.6711966682631003e-06,
      "loss": 0.5573,
      "mean_token_accuracy": 0.8116225004196167,
      "num_tokens": 253433917.0,
      "step": 6368
    },
    {
      "epoch": 0.8417922283901665,
      "grad_norm": 0.8508933078526428,
      "learning_rate": 1.670106181373181e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.7955225110054016,
      "num_tokens": 253499453.0,
      "step": 6369
    },
    {
      "epoch": 0.8419243986254296,
      "grad_norm": 0.7614197214549886,
      "learning_rate": 1.6690165097876941e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.8215572237968445,
      "num_tokens": 253564989.0,
      "step": 6370
    },
    {
      "epoch": 0.8420565688606926,
      "grad_norm": 0.8477114296183326,
      "learning_rate": 1.6679276537386053e-06,
      "loss": 0.6165,
      "mean_token_accuracy": 0.7936912178993225,
      "num_tokens": 253630525.0,
      "step": 6371
    },
    {
      "epoch": 0.8421887390959556,
      "grad_norm": 0.7666861960777254,
      "learning_rate": 1.666839613457713e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8124313354492188,
      "num_tokens": 253696061.0,
      "step": 6372
    },
    {
      "epoch": 0.8423209093312186,
      "grad_norm": 0.8414586021095871,
      "learning_rate": 1.6657523891766358e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7923025488853455,
      "num_tokens": 253761597.0,
      "step": 6373
    },
    {
      "epoch": 0.8424530795664816,
      "grad_norm": 0.8050143187674464,
      "learning_rate": 1.6646659811268206e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 253827133.0,
      "step": 6374
    },
    {
      "epoch": 0.8425852498017447,
      "grad_norm": 0.8629006606161239,
      "learning_rate": 1.663580389539543e-06,
      "loss": 0.6113,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 253892669.0,
      "step": 6375
    },
    {
      "epoch": 0.8427174200370077,
      "grad_norm": 0.7827455931532429,
      "learning_rate": 1.6624956146459026e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8112562298774719,
      "num_tokens": 253958205.0,
      "step": 6376
    },
    {
      "epoch": 0.8428495902722707,
      "grad_norm": 0.8313254362551526,
      "learning_rate": 1.661411656676823e-06,
      "loss": 0.5848,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 254023741.0,
      "step": 6377
    },
    {
      "epoch": 0.8429817605075337,
      "grad_norm": 0.7859581080313089,
      "learning_rate": 1.6603285158630578e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.8186119198799133,
      "num_tokens": 254089277.0,
      "step": 6378
    },
    {
      "epoch": 0.8431139307427967,
      "grad_norm": 0.80413597213941,
      "learning_rate": 1.6592461924351867e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8025271892547607,
      "num_tokens": 254154813.0,
      "step": 6379
    },
    {
      "epoch": 0.8432461009780597,
      "grad_norm": 0.8365980711775084,
      "learning_rate": 1.6581646866236107e-06,
      "loss": 0.5751,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 254220349.0,
      "step": 6380
    },
    {
      "epoch": 0.8433782712133228,
      "grad_norm": 0.9130554381791749,
      "learning_rate": 1.6570839986585607e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8097301721572876,
      "num_tokens": 254285885.0,
      "step": 6381
    },
    {
      "epoch": 0.8435104414485858,
      "grad_norm": 0.7941876269667589,
      "learning_rate": 1.6560041287700934e-06,
      "loss": 0.5817,
      "mean_token_accuracy": 0.8074411153793335,
      "num_tokens": 254351421.0,
      "step": 6382
    },
    {
      "epoch": 0.8436426116838488,
      "grad_norm": 0.8329902858108561,
      "learning_rate": 1.6549250771880915e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8039922118186951,
      "num_tokens": 254416957.0,
      "step": 6383
    },
    {
      "epoch": 0.8437747819191118,
      "grad_norm": 0.8318124665801473,
      "learning_rate": 1.653846844142259e-06,
      "loss": 0.6091,
      "mean_token_accuracy": 0.7975063920021057,
      "num_tokens": 254482493.0,
      "step": 6384
    },
    {
      "epoch": 0.8439069521543748,
      "grad_norm": 0.8030052196743239,
      "learning_rate": 1.6527694298621339e-06,
      "loss": 0.532,
      "mean_token_accuracy": 0.8215572237968445,
      "num_tokens": 254548029.0,
      "step": 6385
    },
    {
      "epoch": 0.8440391223896379,
      "grad_norm": 0.8297942280539146,
      "learning_rate": 1.651692834577071e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 254613565.0,
      "step": 6386
    },
    {
      "epoch": 0.8441712926249009,
      "grad_norm": 0.8214903826956622,
      "learning_rate": 1.6506170585162572e-06,
      "loss": 0.6051,
      "mean_token_accuracy": 0.7992919087409973,
      "num_tokens": 254679101.0,
      "step": 6387
    },
    {
      "epoch": 0.8443034628601639,
      "grad_norm": 0.7849232896410123,
      "learning_rate": 1.6495421019087026e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8168264031410217,
      "num_tokens": 254744637.0,
      "step": 6388
    },
    {
      "epoch": 0.8444356330954269,
      "grad_norm": 0.8833311703247952,
      "learning_rate": 1.6484679649832433e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.8009552955627441,
      "num_tokens": 254810173.0,
      "step": 6389
    },
    {
      "epoch": 0.8445678033306899,
      "grad_norm": 0.8417334842967468,
      "learning_rate": 1.6473946479685382e-06,
      "loss": 0.5943,
      "mean_token_accuracy": 0.8012452721595764,
      "num_tokens": 254875709.0,
      "step": 6390
    },
    {
      "epoch": 0.8446999735659529,
      "grad_norm": 0.7547160042649753,
      "learning_rate": 1.646322151093078e-06,
      "loss": 0.5456,
      "mean_token_accuracy": 0.818474531173706,
      "num_tokens": 254941245.0,
      "step": 6391
    },
    {
      "epoch": 0.844832143801216,
      "grad_norm": 0.8188059417651312,
      "learning_rate": 1.645250474585172e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8049536347389221,
      "num_tokens": 255006781.0,
      "step": 6392
    },
    {
      "epoch": 0.844964314036479,
      "grad_norm": 0.8824238999784171,
      "learning_rate": 1.6441796186729592e-06,
      "loss": 0.6266,
      "mean_token_accuracy": 0.7912342548370361,
      "num_tokens": 255072317.0,
      "step": 6393
    },
    {
      "epoch": 0.845096484271742,
      "grad_norm": 0.8034961450570635,
      "learning_rate": 1.6431095835844001e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8092113137245178,
      "num_tokens": 255137853.0,
      "step": 6394
    },
    {
      "epoch": 0.845228654507005,
      "grad_norm": 0.7779037073510824,
      "learning_rate": 1.6420403695472863e-06,
      "loss": 0.5644,
      "mean_token_accuracy": 0.8133622407913208,
      "num_tokens": 255203389.0,
      "step": 6395
    },
    {
      "epoch": 0.845360824742268,
      "grad_norm": 0.8379227560619175,
      "learning_rate": 1.6409719767892291e-06,
      "loss": 0.6423,
      "mean_token_accuracy": 0.7860456705093384,
      "num_tokens": 255268925.0,
      "step": 6396
    },
    {
      "epoch": 0.845492994977531,
      "grad_norm": 0.8358040711030829,
      "learning_rate": 1.6399044055376668e-06,
      "loss": 0.5731,
      "mean_token_accuracy": 0.8089976906776428,
      "num_tokens": 255334461.0,
      "step": 6397
    },
    {
      "epoch": 0.8456251652127941,
      "grad_norm": 0.7959315340631629,
      "learning_rate": 1.638837656019865e-06,
      "loss": 0.555,
      "mean_token_accuracy": 0.8161243796348572,
      "num_tokens": 255399997.0,
      "step": 6398
    },
    {
      "epoch": 0.8457573354480571,
      "grad_norm": 0.8001005478474402,
      "learning_rate": 1.6377717284629092e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.8023898005485535,
      "num_tokens": 255465533.0,
      "step": 6399
    },
    {
      "epoch": 0.8458895056833201,
      "grad_norm": 0.8495115941901491,
      "learning_rate": 1.636706623093715e-06,
      "loss": 0.5885,
      "mean_token_accuracy": 0.8059455752372742,
      "num_tokens": 255531069.0,
      "step": 6400
    },
    {
      "epoch": 0.8460216759185831,
      "grad_norm": 0.853985282881911,
      "learning_rate": 1.635642340139022e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8038395643234253,
      "num_tokens": 255596605.0,
      "step": 6401
    },
    {
      "epoch": 0.8461538461538461,
      "grad_norm": 0.8370166271312279,
      "learning_rate": 1.6345788798253924e-06,
      "loss": 0.5861,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 255662141.0,
      "step": 6402
    },
    {
      "epoch": 0.8462860163891092,
      "grad_norm": 0.7551560630624123,
      "learning_rate": 1.6335162423792145e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8104474544525146,
      "num_tokens": 255727677.0,
      "step": 6403
    },
    {
      "epoch": 0.8464181866243722,
      "grad_norm": 0.8198202259600147,
      "learning_rate": 1.632454428026703e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 255793213.0,
      "step": 6404
    },
    {
      "epoch": 0.8465503568596352,
      "grad_norm": 0.7773022003174018,
      "learning_rate": 1.631393436993895e-06,
      "loss": 0.5651,
      "mean_token_accuracy": 0.8122023940086365,
      "num_tokens": 255858749.0,
      "step": 6405
    },
    {
      "epoch": 0.8466825270948982,
      "grad_norm": 0.8416997474886609,
      "learning_rate": 1.6303332695066531e-06,
      "loss": 0.5812,
      "mean_token_accuracy": 0.8053267002105713,
      "num_tokens": 255919695.0,
      "step": 6406
    },
    {
      "epoch": 0.8468146973301612,
      "grad_norm": 0.8097574956172436,
      "learning_rate": 1.6292739257906654e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.8091350197792053,
      "num_tokens": 255985231.0,
      "step": 6407
    },
    {
      "epoch": 0.8469468675654243,
      "grad_norm": 0.779268369166679,
      "learning_rate": 1.6282154060714457e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 256050767.0,
      "step": 6408
    },
    {
      "epoch": 0.8470790378006873,
      "grad_norm": 0.7861018811120635,
      "learning_rate": 1.6271577105743268e-06,
      "loss": 0.5503,
      "mean_token_accuracy": 0.8132248520851135,
      "num_tokens": 256116303.0,
      "step": 6409
    },
    {
      "epoch": 0.8472112080359503,
      "grad_norm": 0.7564631615723539,
      "learning_rate": 1.6261008395244732e-06,
      "loss": 0.5011,
      "mean_token_accuracy": 0.8346660733222961,
      "num_tokens": 256181839.0,
      "step": 6410
    },
    {
      "epoch": 0.8473433782712133,
      "grad_norm": 0.8233592729133024,
      "learning_rate": 1.6250447931468694e-06,
      "loss": 0.541,
      "mean_token_accuracy": 0.8222439289093018,
      "num_tokens": 256247375.0,
      "step": 6411
    },
    {
      "epoch": 0.8474755485064763,
      "grad_norm": 0.8182503090728271,
      "learning_rate": 1.6239895716663267e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8118361830711365,
      "num_tokens": 256312911.0,
      "step": 6412
    },
    {
      "epoch": 0.8476077187417393,
      "grad_norm": 0.8634759663164472,
      "learning_rate": 1.6229351753074772e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 256378447.0,
      "step": 6413
    },
    {
      "epoch": 0.8477398889770024,
      "grad_norm": 0.7769220985069873,
      "learning_rate": 1.621881604294783e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8172231912612915,
      "num_tokens": 256443983.0,
      "step": 6414
    },
    {
      "epoch": 0.8478720592122654,
      "grad_norm": 1.028047156748289,
      "learning_rate": 1.6208288588525256e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8077160716056824,
      "num_tokens": 256502233.0,
      "step": 6415
    },
    {
      "epoch": 0.8480042294475284,
      "grad_norm": 0.7646500892898503,
      "learning_rate": 1.6197769392048124e-06,
      "loss": 0.5172,
      "mean_token_accuracy": 0.826990008354187,
      "num_tokens": 256567769.0,
      "step": 6416
    },
    {
      "epoch": 0.8481363996827914,
      "grad_norm": 0.7991598278196431,
      "learning_rate": 1.618725845575577e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8037174940109253,
      "num_tokens": 256633305.0,
      "step": 6417
    },
    {
      "epoch": 0.8482685699180544,
      "grad_norm": 0.8081178407431028,
      "learning_rate": 1.6176755781885732e-06,
      "loss": 0.5564,
      "mean_token_accuracy": 0.8141710162162781,
      "num_tokens": 256698841.0,
      "step": 6418
    },
    {
      "epoch": 0.8484007401533175,
      "grad_norm": 0.7816421927358598,
      "learning_rate": 1.6166261372673807e-06,
      "loss": 0.5556,
      "mean_token_accuracy": 0.8134690523147583,
      "num_tokens": 256764377.0,
      "step": 6419
    },
    {
      "epoch": 0.8485329103885805,
      "grad_norm": 0.859623624722691,
      "learning_rate": 1.6155775230354055e-06,
      "loss": 0.5927,
      "mean_token_accuracy": 0.8024813532829285,
      "num_tokens": 256829913.0,
      "step": 6420
    },
    {
      "epoch": 0.8486650806238435,
      "grad_norm": 0.8263900808945274,
      "learning_rate": 1.6145297357158751e-06,
      "loss": 0.567,
      "mean_token_accuracy": 0.8124008178710938,
      "num_tokens": 256895449.0,
      "step": 6421
    },
    {
      "epoch": 0.8487972508591065,
      "grad_norm": 0.8626172183856169,
      "learning_rate": 1.6134827755318399e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8047399520874023,
      "num_tokens": 256960985.0,
      "step": 6422
    },
    {
      "epoch": 0.8489294210943695,
      "grad_norm": 0.7791078918023644,
      "learning_rate": 1.6124366427061783e-06,
      "loss": 0.5442,
      "mean_token_accuracy": 0.8193444013595581,
      "num_tokens": 257026521.0,
      "step": 6423
    },
    {
      "epoch": 0.8490615913296325,
      "grad_norm": 0.7752728645473983,
      "learning_rate": 1.6113913374615887e-06,
      "loss": 0.5311,
      "mean_token_accuracy": 0.8240752220153809,
      "num_tokens": 257092057.0,
      "step": 6424
    },
    {
      "epoch": 0.8491937615648956,
      "grad_norm": 0.7690210366666553,
      "learning_rate": 1.6103468600205954e-06,
      "loss": 0.5556,
      "mean_token_accuracy": 0.817513108253479,
      "num_tokens": 257157593.0,
      "step": 6425
    },
    {
      "epoch": 0.8493259318001586,
      "grad_norm": 0.8270772752339123,
      "learning_rate": 1.609303210605544e-06,
      "loss": 0.556,
      "mean_token_accuracy": 0.8160328269004822,
      "num_tokens": 257223129.0,
      "step": 6426
    },
    {
      "epoch": 0.8494581020354216,
      "grad_norm": 0.7769231360800792,
      "learning_rate": 1.608260389438609e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8090434670448303,
      "num_tokens": 257288665.0,
      "step": 6427
    },
    {
      "epoch": 0.8495902722706846,
      "grad_norm": 0.803723700347437,
      "learning_rate": 1.6072183967417826e-06,
      "loss": 0.533,
      "mean_token_accuracy": 0.8212825059890747,
      "num_tokens": 257354201.0,
      "step": 6428
    },
    {
      "epoch": 0.8497224425059476,
      "grad_norm": 0.7907201622118613,
      "learning_rate": 1.6061772327368841e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.8108900189399719,
      "num_tokens": 257419737.0,
      "step": 6429
    },
    {
      "epoch": 0.8498546127412107,
      "grad_norm": 0.7539033189781478,
      "learning_rate": 1.6051368976455556e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 257485273.0,
      "step": 6430
    },
    {
      "epoch": 0.8499867829764737,
      "grad_norm": 0.8358826479611986,
      "learning_rate": 1.6040973916892629e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.802221953868866,
      "num_tokens": 257550809.0,
      "step": 6431
    },
    {
      "epoch": 0.8501189532117367,
      "grad_norm": 0.8545829057427884,
      "learning_rate": 1.6030587150892938e-06,
      "loss": 0.6313,
      "mean_token_accuracy": 0.7900286912918091,
      "num_tokens": 257616345.0,
      "step": 6432
    },
    {
      "epoch": 0.8502511234469997,
      "grad_norm": 0.7988415453386185,
      "learning_rate": 1.6020208680667637e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8123397827148438,
      "num_tokens": 257681881.0,
      "step": 6433
    },
    {
      "epoch": 0.8503832936822627,
      "grad_norm": 0.8146678467906948,
      "learning_rate": 1.6009838508426062e-06,
      "loss": 0.6013,
      "mean_token_accuracy": 0.8003754019737244,
      "num_tokens": 257747417.0,
      "step": 6434
    },
    {
      "epoch": 0.8505154639175257,
      "grad_norm": 0.8110034329459527,
      "learning_rate": 1.5999476636375807e-06,
      "loss": 0.5331,
      "mean_token_accuracy": 0.8209162354469299,
      "num_tokens": 257812953.0,
      "step": 6435
    },
    {
      "epoch": 0.8506476341527888,
      "grad_norm": 0.8111460725032998,
      "learning_rate": 1.5989123066722716e-06,
      "loss": 0.5446,
      "mean_token_accuracy": 0.8174062967300415,
      "num_tokens": 257878489.0,
      "step": 6436
    },
    {
      "epoch": 0.8507798043880518,
      "grad_norm": 0.8276283306502427,
      "learning_rate": 1.5978777801670828e-06,
      "loss": 0.6187,
      "mean_token_accuracy": 0.7948358058929443,
      "num_tokens": 257944025.0,
      "step": 6437
    },
    {
      "epoch": 0.8509119746233148,
      "grad_norm": 0.8943412839017596,
      "learning_rate": 1.596844084342244e-06,
      "loss": 0.6916,
      "mean_token_accuracy": 0.7694268226623535,
      "num_tokens": 258009561.0,
      "step": 6438
    },
    {
      "epoch": 0.8510441448585778,
      "grad_norm": 0.852998247378773,
      "learning_rate": 1.5958112194178074e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8003754019737244,
      "num_tokens": 258075097.0,
      "step": 6439
    },
    {
      "epoch": 0.8511763150938408,
      "grad_norm": 0.7918752847080406,
      "learning_rate": 1.59477918561365e-06,
      "loss": 0.5956,
      "mean_token_accuracy": 0.7996429204940796,
      "num_tokens": 258140633.0,
      "step": 6440
    },
    {
      "epoch": 0.8513084853291039,
      "grad_norm": 0.7835121667042735,
      "learning_rate": 1.5937479831494676e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8035649061203003,
      "num_tokens": 258206169.0,
      "step": 6441
    },
    {
      "epoch": 0.8514406555643669,
      "grad_norm": 0.8783220547207291,
      "learning_rate": 1.592717612244783e-06,
      "loss": 0.6436,
      "mean_token_accuracy": 0.7856336236000061,
      "num_tokens": 258271705.0,
      "step": 6442
    },
    {
      "epoch": 0.8515728257996299,
      "grad_norm": 0.745379627780492,
      "learning_rate": 1.5916880731189406e-06,
      "loss": 0.5297,
      "mean_token_accuracy": 0.8236631751060486,
      "num_tokens": 258337241.0,
      "step": 6443
    },
    {
      "epoch": 0.8517049960348929,
      "grad_norm": 0.7626342551527977,
      "learning_rate": 1.5906593659911085e-06,
      "loss": 0.5414,
      "mean_token_accuracy": 0.8216792941093445,
      "num_tokens": 258402777.0,
      "step": 6444
    },
    {
      "epoch": 0.8518371662701559,
      "grad_norm": 0.8504515334349826,
      "learning_rate": 1.5896314910802744e-06,
      "loss": 0.66,
      "mean_token_accuracy": 0.7825509905815125,
      "num_tokens": 258468313.0,
      "step": 6445
    },
    {
      "epoch": 0.851969336505419,
      "grad_norm": 0.8021236886744628,
      "learning_rate": 1.5886044486052548e-06,
      "loss": 0.535,
      "mean_token_accuracy": 0.8200311064720154,
      "num_tokens": 258533849.0,
      "step": 6446
    },
    {
      "epoch": 0.852101506740682,
      "grad_norm": 0.777345152746412,
      "learning_rate": 1.5875782387846842e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8107526302337646,
      "num_tokens": 258599385.0,
      "step": 6447
    },
    {
      "epoch": 0.852233676975945,
      "grad_norm": 0.7785553371412508,
      "learning_rate": 1.5865528618370197e-06,
      "loss": 0.5428,
      "mean_token_accuracy": 0.8194817304611206,
      "num_tokens": 258664921.0,
      "step": 6448
    },
    {
      "epoch": 0.852365847211208,
      "grad_norm": 0.8076174297644941,
      "learning_rate": 1.585528317980545e-06,
      "loss": 0.6121,
      "mean_token_accuracy": 0.7962855696678162,
      "num_tokens": 258730457.0,
      "step": 6449
    },
    {
      "epoch": 0.852498017446471,
      "grad_norm": 0.8001210224189984,
      "learning_rate": 1.5845046074333636e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.7997802495956421,
      "num_tokens": 258795993.0,
      "step": 6450
    },
    {
      "epoch": 0.852630187681734,
      "grad_norm": 0.7865512370254193,
      "learning_rate": 1.583481730413401e-06,
      "loss": 0.5494,
      "mean_token_accuracy": 0.816521167755127,
      "num_tokens": 258861529.0,
      "step": 6451
    },
    {
      "epoch": 0.8527623579169971,
      "grad_norm": 0.7751220417668337,
      "learning_rate": 1.5824596871384067e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8098828196525574,
      "num_tokens": 258927065.0,
      "step": 6452
    },
    {
      "epoch": 0.8528945281522601,
      "grad_norm": 0.7812786671502128,
      "learning_rate": 1.5814384778259526e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8163838386535645,
      "num_tokens": 258992601.0,
      "step": 6453
    },
    {
      "epoch": 0.8530266983875231,
      "grad_norm": 0.8114086725685176,
      "learning_rate": 1.5804181026934343e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8035801649093628,
      "num_tokens": 259058137.0,
      "step": 6454
    },
    {
      "epoch": 0.8531588686227861,
      "grad_norm": 0.7817832706910454,
      "learning_rate": 1.5793985619580655e-06,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8057929277420044,
      "num_tokens": 259123673.0,
      "step": 6455
    },
    {
      "epoch": 0.8532910388580491,
      "grad_norm": 0.7884670641247282,
      "learning_rate": 1.5783798558368868e-06,
      "loss": 0.513,
      "mean_token_accuracy": 0.8308204412460327,
      "num_tokens": 259189209.0,
      "step": 6456
    },
    {
      "epoch": 0.8534232090933122,
      "grad_norm": 0.8153530376771448,
      "learning_rate": 1.5773619845467596e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.8179861903190613,
      "num_tokens": 259254745.0,
      "step": 6457
    },
    {
      "epoch": 0.8535553793285752,
      "grad_norm": 0.8094983566674093,
      "learning_rate": 1.5763449483043667e-06,
      "loss": 0.559,
      "mean_token_accuracy": 0.8131027817726135,
      "num_tokens": 259320281.0,
      "step": 6458
    },
    {
      "epoch": 0.8536875495638382,
      "grad_norm": 0.7776318740106727,
      "learning_rate": 1.5753287473262152e-06,
      "loss": 0.5265,
      "mean_token_accuracy": 0.8253875970840454,
      "num_tokens": 259385817.0,
      "step": 6459
    },
    {
      "epoch": 0.8538197197991012,
      "grad_norm": 0.7454322710714507,
      "learning_rate": 1.5743133818286312e-06,
      "loss": 0.5239,
      "mean_token_accuracy": 0.8265474438667297,
      "num_tokens": 259451353.0,
      "step": 6460
    },
    {
      "epoch": 0.8539518900343642,
      "grad_norm": 0.780939007695054,
      "learning_rate": 1.5732988520277659e-06,
      "loss": 0.5586,
      "mean_token_accuracy": 0.8142626285552979,
      "num_tokens": 259516889.0,
      "step": 6461
    },
    {
      "epoch": 0.8540840602696272,
      "grad_norm": 0.8031506269442018,
      "learning_rate": 1.5722851581395912e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8045568466186523,
      "num_tokens": 259582425.0,
      "step": 6462
    },
    {
      "epoch": 0.8542162305048903,
      "grad_norm": 0.7737826591166892,
      "learning_rate": 1.5712723003799027e-06,
      "loss": 0.5784,
      "mean_token_accuracy": 0.8079294562339783,
      "num_tokens": 259647961.0,
      "step": 6463
    },
    {
      "epoch": 0.8543484007401533,
      "grad_norm": 0.7010808937907067,
      "learning_rate": 1.5702602789643137e-06,
      "loss": 0.5442,
      "mean_token_accuracy": 0.8174062967300415,
      "num_tokens": 259713497.0,
      "step": 6464
    },
    {
      "epoch": 0.8544805709754163,
      "grad_norm": 0.7702797767488535,
      "learning_rate": 1.5692490941082664e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8140336871147156,
      "num_tokens": 259779033.0,
      "step": 6465
    },
    {
      "epoch": 0.8546127412106793,
      "grad_norm": 0.8342236783143446,
      "learning_rate": 1.5682387460270174e-06,
      "loss": 0.529,
      "mean_token_accuracy": 0.8214656114578247,
      "num_tokens": 259844569.0,
      "step": 6466
    },
    {
      "epoch": 0.8547449114459423,
      "grad_norm": 0.8223000187222295,
      "learning_rate": 1.56722923493565e-06,
      "loss": 0.5271,
      "mean_token_accuracy": 0.8235868811607361,
      "num_tokens": 259910105.0,
      "step": 6467
    },
    {
      "epoch": 0.8548770816812054,
      "grad_norm": 0.8048209114970898,
      "learning_rate": 1.5662205610490683e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8065407276153564,
      "num_tokens": 259975641.0,
      "step": 6468
    },
    {
      "epoch": 0.8550092519164684,
      "grad_norm": 0.8463071724571498,
      "learning_rate": 1.565212724581999e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 260041177.0,
      "step": 6469
    },
    {
      "epoch": 0.8551414221517314,
      "grad_norm": 0.806136997716362,
      "learning_rate": 1.5642057257489867e-06,
      "loss": 0.5627,
      "mean_token_accuracy": 0.8133317232131958,
      "num_tokens": 260106713.0,
      "step": 6470
    },
    {
      "epoch": 0.8552735923869944,
      "grad_norm": 0.8941130453564531,
      "learning_rate": 1.5631995647644022e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.803061306476593,
      "num_tokens": 260172249.0,
      "step": 6471
    },
    {
      "epoch": 0.8554057626222574,
      "grad_norm": 0.7762455385366542,
      "learning_rate": 1.562194241842436e-06,
      "loss": 0.557,
      "mean_token_accuracy": 0.8151629567146301,
      "num_tokens": 260237785.0,
      "step": 6472
    },
    {
      "epoch": 0.8555379328575204,
      "grad_norm": 0.8331880567492473,
      "learning_rate": 1.5611897571971014e-06,
      "loss": 0.6161,
      "mean_token_accuracy": 0.7921651601791382,
      "num_tokens": 260303321.0,
      "step": 6473
    },
    {
      "epoch": 0.8556701030927835,
      "grad_norm": 0.8432385153147218,
      "learning_rate": 1.5601861110422297e-06,
      "loss": 0.5681,
      "mean_token_accuracy": 0.8135758638381958,
      "num_tokens": 260368857.0,
      "step": 6474
    },
    {
      "epoch": 0.8558022733280465,
      "grad_norm": 0.8407643529290255,
      "learning_rate": 1.559183303591477e-06,
      "loss": 0.5848,
      "mean_token_accuracy": 0.8061439394950867,
      "num_tokens": 260434393.0,
      "step": 6475
    },
    {
      "epoch": 0.8559344435633095,
      "grad_norm": 0.8282439746399861,
      "learning_rate": 1.558181335058322e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8109968304634094,
      "num_tokens": 260499929.0,
      "step": 6476
    },
    {
      "epoch": 0.8560666137985725,
      "grad_norm": 0.7771612685812679,
      "learning_rate": 1.5571802056560607e-06,
      "loss": 0.5612,
      "mean_token_accuracy": 0.8138810992240906,
      "num_tokens": 260565465.0,
      "step": 6477
    },
    {
      "epoch": 0.8561987840338355,
      "grad_norm": 0.7802309291005022,
      "learning_rate": 1.5561799155978146e-06,
      "loss": 0.5452,
      "mean_token_accuracy": 0.8176199197769165,
      "num_tokens": 260631001.0,
      "step": 6478
    },
    {
      "epoch": 0.8563309542690986,
      "grad_norm": 0.8337500529131768,
      "learning_rate": 1.5551804650965225e-06,
      "loss": 0.5327,
      "mean_token_accuracy": 0.8233731985092163,
      "num_tokens": 260696537.0,
      "step": 6479
    },
    {
      "epoch": 0.8564631245043616,
      "grad_norm": 0.9096897552266252,
      "learning_rate": 1.5541818543649472e-06,
      "loss": 0.5707,
      "mean_token_accuracy": 0.8103253841400146,
      "num_tokens": 260762073.0,
      "step": 6480
    },
    {
      "epoch": 0.8565952947396246,
      "grad_norm": 0.7997646125865785,
      "learning_rate": 1.5531840836156729e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.8153003454208374,
      "num_tokens": 260827609.0,
      "step": 6481
    },
    {
      "epoch": 0.8567274649748876,
      "grad_norm": 0.7969414617475254,
      "learning_rate": 1.5521871530611041e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.8069527745246887,
      "num_tokens": 260893145.0,
      "step": 6482
    },
    {
      "epoch": 0.8568596352101506,
      "grad_norm": 0.7809487384488794,
      "learning_rate": 1.5511910629134647e-06,
      "loss": 0.5446,
      "mean_token_accuracy": 0.8203821182250977,
      "num_tokens": 260958681.0,
      "step": 6483
    },
    {
      "epoch": 0.8569918054454136,
      "grad_norm": 0.7566809754144629,
      "learning_rate": 1.5501958133848036e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8088451027870178,
      "num_tokens": 261024217.0,
      "step": 6484
    },
    {
      "epoch": 0.8571239756806767,
      "grad_norm": 0.7993871866569255,
      "learning_rate": 1.5492014046869877e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 261089753.0,
      "step": 6485
    },
    {
      "epoch": 0.8572561459159397,
      "grad_norm": 0.7789282539370821,
      "learning_rate": 1.5482078370317066e-06,
      "loss": 0.544,
      "mean_token_accuracy": 0.8179709315299988,
      "num_tokens": 261155289.0,
      "step": 6486
    },
    {
      "epoch": 0.8573883161512027,
      "grad_norm": 0.8447928488476384,
      "learning_rate": 1.5472151106304677e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.7998565435409546,
      "num_tokens": 261220825.0,
      "step": 6487
    },
    {
      "epoch": 0.8575204863864657,
      "grad_norm": 0.8725788625729163,
      "learning_rate": 1.5462232256946058e-06,
      "loss": 0.6249,
      "mean_token_accuracy": 0.7938591241836548,
      "num_tokens": 261286361.0,
      "step": 6488
    },
    {
      "epoch": 0.8576526566217287,
      "grad_norm": 0.8293721508172746,
      "learning_rate": 1.545232182435269e-06,
      "loss": 0.5578,
      "mean_token_accuracy": 0.8116377592086792,
      "num_tokens": 261351897.0,
      "step": 6489
    },
    {
      "epoch": 0.8577848268569918,
      "grad_norm": 0.7969866080990624,
      "learning_rate": 1.5442419810634312e-06,
      "loss": 0.5431,
      "mean_token_accuracy": 0.8196954131126404,
      "num_tokens": 261417433.0,
      "step": 6490
    },
    {
      "epoch": 0.8579169970922548,
      "grad_norm": 0.8129950940840838,
      "learning_rate": 1.5432526217898852e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8017183542251587,
      "num_tokens": 261482969.0,
      "step": 6491
    },
    {
      "epoch": 0.8580491673275178,
      "grad_norm": 0.7984113499121684,
      "learning_rate": 1.5422641048252463e-06,
      "loss": 0.5641,
      "mean_token_accuracy": 0.8134843111038208,
      "num_tokens": 261548505.0,
      "step": 6492
    },
    {
      "epoch": 0.8581813375627808,
      "grad_norm": 0.7828405359302332,
      "learning_rate": 1.5412764303799466e-06,
      "loss": 0.5914,
      "mean_token_accuracy": 0.8015505075454712,
      "num_tokens": 261614041.0,
      "step": 6493
    },
    {
      "epoch": 0.8583135077980438,
      "grad_norm": 0.7562457659627169,
      "learning_rate": 1.5402895986642425e-06,
      "loss": 0.5767,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 261679577.0,
      "step": 6494
    },
    {
      "epoch": 0.8584456780333068,
      "grad_norm": 0.8166380183671341,
      "learning_rate": 1.5393036098882105e-06,
      "loss": 0.5437,
      "mean_token_accuracy": 0.8198937773704529,
      "num_tokens": 261745113.0,
      "step": 6495
    },
    {
      "epoch": 0.8585778482685699,
      "grad_norm": 0.8057139538678697,
      "learning_rate": 1.5383184642617461e-06,
      "loss": 0.5545,
      "mean_token_accuracy": 0.8140336871147156,
      "num_tokens": 261810649.0,
      "step": 6496
    },
    {
      "epoch": 0.8587100185038329,
      "grad_norm": 0.7612356193228419,
      "learning_rate": 1.5373341619945681e-06,
      "loss": 0.5646,
      "mean_token_accuracy": 0.8129196763038635,
      "num_tokens": 261876185.0,
      "step": 6497
    },
    {
      "epoch": 0.8588421887390959,
      "grad_norm": 0.7763669231542261,
      "learning_rate": 1.536350703296211e-06,
      "loss": 0.5296,
      "mean_token_accuracy": 0.8241209983825684,
      "num_tokens": 261941721.0,
      "step": 6498
    },
    {
      "epoch": 0.8589743589743589,
      "grad_norm": 0.7972682787675769,
      "learning_rate": 1.5353680883760358e-06,
      "loss": 0.555,
      "mean_token_accuracy": 0.8156207799911499,
      "num_tokens": 262007257.0,
      "step": 6499
    },
    {
      "epoch": 0.8591065292096219,
      "grad_norm": 0.7867039621741176,
      "learning_rate": 1.5343863174432169e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8089519143104553,
      "num_tokens": 262072793.0,
      "step": 6500
    },
    {
      "epoch": 0.859238699444885,
      "grad_norm": 0.8213490770295432,
      "learning_rate": 1.5334053907067563e-06,
      "loss": 0.5863,
      "mean_token_accuracy": 0.8027255535125732,
      "num_tokens": 262138329.0,
      "step": 6501
    },
    {
      "epoch": 0.859370869680148,
      "grad_norm": 0.8385776969937971,
      "learning_rate": 1.5324253083754711e-06,
      "loss": 0.6251,
      "mean_token_accuracy": 0.7913563847541809,
      "num_tokens": 262203865.0,
      "step": 6502
    },
    {
      "epoch": 0.8595030399154111,
      "grad_norm": 0.8298242304393808,
      "learning_rate": 1.531446070658001e-06,
      "loss": 0.6024,
      "mean_token_accuracy": 0.7982084155082703,
      "num_tokens": 262269401.0,
      "step": 6503
    },
    {
      "epoch": 0.8596352101506741,
      "grad_norm": 0.7992868579852459,
      "learning_rate": 1.5304676777628042e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8092113137245178,
      "num_tokens": 262334937.0,
      "step": 6504
    },
    {
      "epoch": 0.8597673803859371,
      "grad_norm": 0.8024458762228699,
      "learning_rate": 1.5294901298981624e-06,
      "loss": 0.5702,
      "mean_token_accuracy": 0.8099133372306824,
      "num_tokens": 262400473.0,
      "step": 6505
    },
    {
      "epoch": 0.8598995506212002,
      "grad_norm": 0.8049053341169194,
      "learning_rate": 1.528513427272172e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 262466009.0,
      "step": 6506
    },
    {
      "epoch": 0.8600317208564632,
      "grad_norm": 0.8058150442710469,
      "learning_rate": 1.5275375700927555e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8142473697662354,
      "num_tokens": 262531545.0,
      "step": 6507
    },
    {
      "epoch": 0.8601638910917262,
      "grad_norm": 0.9158599206020639,
      "learning_rate": 1.5265625585676508e-06,
      "loss": 0.6151,
      "mean_token_accuracy": 0.7993224263191223,
      "num_tokens": 262597081.0,
      "step": 6508
    },
    {
      "epoch": 0.8602960613269892,
      "grad_norm": 0.8416468924564843,
      "learning_rate": 1.525588392904418e-06,
      "loss": 0.5661,
      "mean_token_accuracy": 0.8125381469726562,
      "num_tokens": 262662617.0,
      "step": 6509
    },
    {
      "epoch": 0.8604282315622522,
      "grad_norm": 0.7500969752570453,
      "learning_rate": 1.5246150733104364e-06,
      "loss": 0.5178,
      "mean_token_accuracy": 0.8281192779541016,
      "num_tokens": 262728153.0,
      "step": 6510
    },
    {
      "epoch": 0.8605604017975153,
      "grad_norm": 0.7877633471401009,
      "learning_rate": 1.523642599992907e-06,
      "loss": 0.5892,
      "mean_token_accuracy": 0.8008179664611816,
      "num_tokens": 262793689.0,
      "step": 6511
    },
    {
      "epoch": 0.8606925720327783,
      "grad_norm": 0.8708914711441628,
      "learning_rate": 1.5226709731588459e-06,
      "loss": 0.6349,
      "mean_token_accuracy": 0.7906848788261414,
      "num_tokens": 262859225.0,
      "step": 6512
    },
    {
      "epoch": 0.8608247422680413,
      "grad_norm": 0.7639660364673077,
      "learning_rate": 1.5217001930150945e-06,
      "loss": 0.5602,
      "mean_token_accuracy": 0.8126754760742188,
      "num_tokens": 262924761.0,
      "step": 6513
    },
    {
      "epoch": 0.8609569125033043,
      "grad_norm": 0.8253443073225231,
      "learning_rate": 1.5207302597683113e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 262990297.0,
      "step": 6514
    },
    {
      "epoch": 0.8610890827385673,
      "grad_norm": 0.9034506486464982,
      "learning_rate": 1.5197611736249758e-06,
      "loss": 0.6713,
      "mean_token_accuracy": 0.7775607109069824,
      "num_tokens": 263055833.0,
      "step": 6515
    },
    {
      "epoch": 0.8612212529738303,
      "grad_norm": 0.7721483882765338,
      "learning_rate": 1.5187929347913835e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8045415878295898,
      "num_tokens": 263121369.0,
      "step": 6516
    },
    {
      "epoch": 0.8613534232090934,
      "grad_norm": 0.8223397061106715,
      "learning_rate": 1.517825543473654e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 263186905.0,
      "step": 6517
    },
    {
      "epoch": 0.8614855934443564,
      "grad_norm": 0.7430151769683621,
      "learning_rate": 1.516858999877725e-06,
      "loss": 0.5236,
      "mean_token_accuracy": 0.8245483040809631,
      "num_tokens": 263252441.0,
      "step": 6518
    },
    {
      "epoch": 0.8616177636796194,
      "grad_norm": 0.7425397980574664,
      "learning_rate": 1.5158933042093512e-06,
      "loss": 0.5224,
      "mean_token_accuracy": 0.8248077034950256,
      "num_tokens": 263317977.0,
      "step": 6519
    },
    {
      "epoch": 0.8617499339148824,
      "grad_norm": 0.7611263443594267,
      "learning_rate": 1.5149284566741133e-06,
      "loss": 0.5558,
      "mean_token_accuracy": 0.8147509694099426,
      "num_tokens": 263383513.0,
      "step": 6520
    },
    {
      "epoch": 0.8618821041501454,
      "grad_norm": 0.8422497150982801,
      "learning_rate": 1.5139644574774032e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8083414435386658,
      "num_tokens": 263449049.0,
      "step": 6521
    },
    {
      "epoch": 0.8620142743854085,
      "grad_norm": 0.8218721043230718,
      "learning_rate": 1.513001306824438e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8039769530296326,
      "num_tokens": 263514585.0,
      "step": 6522
    },
    {
      "epoch": 0.8621464446206715,
      "grad_norm": 0.8810764015105534,
      "learning_rate": 1.5120390049202512e-06,
      "loss": 0.6066,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 263580121.0,
      "step": 6523
    },
    {
      "epoch": 0.8622786148559345,
      "grad_norm": 0.7939679479875823,
      "learning_rate": 1.511077551969699e-06,
      "loss": 0.5674,
      "mean_token_accuracy": 0.8127976059913635,
      "num_tokens": 263645657.0,
      "step": 6524
    },
    {
      "epoch": 0.8624107850911975,
      "grad_norm": 0.7737827315951957,
      "learning_rate": 1.5101169481774522e-06,
      "loss": 0.5475,
      "mean_token_accuracy": 0.8148272633552551,
      "num_tokens": 263711193.0,
      "step": 6525
    },
    {
      "epoch": 0.8625429553264605,
      "grad_norm": 0.8235624643827733,
      "learning_rate": 1.5091571937480052e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8012147545814514,
      "num_tokens": 263776729.0,
      "step": 6526
    },
    {
      "epoch": 0.8626751255617235,
      "grad_norm": 0.8596772965294377,
      "learning_rate": 1.5081982888856684e-06,
      "loss": 0.6141,
      "mean_token_accuracy": 0.7953851819038391,
      "num_tokens": 263842265.0,
      "step": 6527
    },
    {
      "epoch": 0.8628072957969866,
      "grad_norm": 0.8347730737770209,
      "learning_rate": 1.507240233794573e-06,
      "loss": 0.6181,
      "mean_token_accuracy": 0.7958735227584839,
      "num_tokens": 263907801.0,
      "step": 6528
    },
    {
      "epoch": 0.8629394660322496,
      "grad_norm": 0.7904018562388484,
      "learning_rate": 1.506283028678669e-06,
      "loss": 0.5613,
      "mean_token_accuracy": 0.8140184283256531,
      "num_tokens": 263973337.0,
      "step": 6529
    },
    {
      "epoch": 0.8630716362675126,
      "grad_norm": 0.8179462382135037,
      "learning_rate": 1.5053266737417265e-06,
      "loss": 0.6078,
      "mean_token_accuracy": 0.798757791519165,
      "num_tokens": 264038873.0,
      "step": 6530
    },
    {
      "epoch": 0.8632038065027756,
      "grad_norm": 0.7960803158384995,
      "learning_rate": 1.5043711691873312e-06,
      "loss": 0.55,
      "mean_token_accuracy": 0.8157886862754822,
      "num_tokens": 264104409.0,
      "step": 6531
    },
    {
      "epoch": 0.8633359767380386,
      "grad_norm": 0.813783064612544,
      "learning_rate": 1.5034165152188913e-06,
      "loss": 0.532,
      "mean_token_accuracy": 0.821572482585907,
      "num_tokens": 264169945.0,
      "step": 6532
    },
    {
      "epoch": 0.8634681469733017,
      "grad_norm": 0.8771474833012244,
      "learning_rate": 1.5024627120396323e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8092418313026428,
      "num_tokens": 264235481.0,
      "step": 6533
    },
    {
      "epoch": 0.8636003172085647,
      "grad_norm": 0.8426803310751914,
      "learning_rate": 1.5015097598526008e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.7942864298820496,
      "num_tokens": 264301017.0,
      "step": 6534
    },
    {
      "epoch": 0.8637324874438277,
      "grad_norm": 0.8192995631656836,
      "learning_rate": 1.5005576588606583e-06,
      "loss": 0.5814,
      "mean_token_accuracy": 0.8055793046951294,
      "num_tokens": 264366553.0,
      "step": 6535
    },
    {
      "epoch": 0.8638646576790907,
      "grad_norm": 0.8023036220481021,
      "learning_rate": 1.4996064092664874e-06,
      "loss": 0.572,
      "mean_token_accuracy": 0.8095470666885376,
      "num_tokens": 264432089.0,
      "step": 6536
    },
    {
      "epoch": 0.8639968279143537,
      "grad_norm": 0.7647611449788689,
      "learning_rate": 1.4986560112725906e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8108289837837219,
      "num_tokens": 264497625.0,
      "step": 6537
    },
    {
      "epoch": 0.8641289981496167,
      "grad_norm": 0.8250602777913403,
      "learning_rate": 1.497706465081285e-06,
      "loss": 0.6027,
      "mean_token_accuracy": 0.802099883556366,
      "num_tokens": 264563161.0,
      "step": 6538
    },
    {
      "epoch": 0.8642611683848798,
      "grad_norm": 0.8177112427262179,
      "learning_rate": 1.4967577708947134e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8069985508918762,
      "num_tokens": 264628697.0,
      "step": 6539
    },
    {
      "epoch": 0.8643933386201428,
      "grad_norm": 0.8832913157460722,
      "learning_rate": 1.4958099289148298e-06,
      "loss": 0.5923,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 264694233.0,
      "step": 6540
    },
    {
      "epoch": 0.8645255088554058,
      "grad_norm": 0.7555602361409239,
      "learning_rate": 1.4948629393434105e-06,
      "loss": 0.4942,
      "mean_token_accuracy": 0.8366194367408752,
      "num_tokens": 264759769.0,
      "step": 6541
    },
    {
      "epoch": 0.8646576790906688,
      "grad_norm": 0.7223636183320865,
      "learning_rate": 1.4939168023820506e-06,
      "loss": 0.5059,
      "mean_token_accuracy": 0.8296605944633484,
      "num_tokens": 264825305.0,
      "step": 6542
    },
    {
      "epoch": 0.8647898493259318,
      "grad_norm": 0.8173851024999326,
      "learning_rate": 1.4929715182321628e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.8190086483955383,
      "num_tokens": 264890841.0,
      "step": 6543
    },
    {
      "epoch": 0.8649220195611949,
      "grad_norm": 0.7948092778431036,
      "learning_rate": 1.4920270870949773e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.808753490447998,
      "num_tokens": 264956377.0,
      "step": 6544
    },
    {
      "epoch": 0.8650541897964579,
      "grad_norm": 0.8627545761356333,
      "learning_rate": 1.4910835091715447e-06,
      "loss": 0.5918,
      "mean_token_accuracy": 0.8041142821311951,
      "num_tokens": 265021913.0,
      "step": 6545
    },
    {
      "epoch": 0.8651863600317209,
      "grad_norm": 0.8836711213368457,
      "learning_rate": 1.490140784662733e-06,
      "loss": 0.6018,
      "mean_token_accuracy": 0.7991698384284973,
      "num_tokens": 265087449.0,
      "step": 6546
    },
    {
      "epoch": 0.8653185302669839,
      "grad_norm": 0.8065548670852827,
      "learning_rate": 1.4891989137692292e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8047246932983398,
      "num_tokens": 265152985.0,
      "step": 6547
    },
    {
      "epoch": 0.8654507005022469,
      "grad_norm": 0.7731530436750083,
      "learning_rate": 1.4882578966915356e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.8067848682403564,
      "num_tokens": 265218521.0,
      "step": 6548
    },
    {
      "epoch": 0.86558287073751,
      "grad_norm": 0.7293036728763306,
      "learning_rate": 1.4873177336299782e-06,
      "loss": 0.4901,
      "mean_token_accuracy": 0.8343914151191711,
      "num_tokens": 265284057.0,
      "step": 6549
    },
    {
      "epoch": 0.865715040972773,
      "grad_norm": 0.81721920429129,
      "learning_rate": 1.4863784247846955e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8091807961463928,
      "num_tokens": 265349593.0,
      "step": 6550
    },
    {
      "epoch": 0.865847211208036,
      "grad_norm": 0.7627519913029733,
      "learning_rate": 1.4854399703556475e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.8187797665596008,
      "num_tokens": 265415129.0,
      "step": 6551
    },
    {
      "epoch": 0.865979381443299,
      "grad_norm": 0.8359453034461124,
      "learning_rate": 1.4845023705426125e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8051214814186096,
      "num_tokens": 265480665.0,
      "step": 6552
    },
    {
      "epoch": 0.866111551678562,
      "grad_norm": 0.8652784764774334,
      "learning_rate": 1.4835656255451858e-06,
      "loss": 0.6042,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 265546201.0,
      "step": 6553
    },
    {
      "epoch": 0.866243721913825,
      "grad_norm": 0.7618293088907018,
      "learning_rate": 1.4826297355627795e-06,
      "loss": 0.5452,
      "mean_token_accuracy": 0.8183372020721436,
      "num_tokens": 265611737.0,
      "step": 6554
    },
    {
      "epoch": 0.8663758921490881,
      "grad_norm": 0.8277837538284488,
      "learning_rate": 1.481694700794626e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.808356761932373,
      "num_tokens": 265677273.0,
      "step": 6555
    },
    {
      "epoch": 0.8665080623843511,
      "grad_norm": 0.8209859034779428,
      "learning_rate": 1.4807605214397752e-06,
      "loss": 0.5755,
      "mean_token_accuracy": 0.807822585105896,
      "num_tokens": 265742809.0,
      "step": 6556
    },
    {
      "epoch": 0.8666402326196141,
      "grad_norm": 0.8511824867010205,
      "learning_rate": 1.479827197697092e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8017183542251587,
      "num_tokens": 265808345.0,
      "step": 6557
    },
    {
      "epoch": 0.8667724028548771,
      "grad_norm": 0.8010774311962501,
      "learning_rate": 1.478894729765265e-06,
      "loss": 0.5617,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 265873881.0,
      "step": 6558
    },
    {
      "epoch": 0.8669045730901401,
      "grad_norm": 0.8422257730484674,
      "learning_rate": 1.4779631178427944e-06,
      "loss": 0.5887,
      "mean_token_accuracy": 0.8052282929420471,
      "num_tokens": 265939417.0,
      "step": 6559
    },
    {
      "epoch": 0.8670367433254031,
      "grad_norm": 0.8431322926522828,
      "learning_rate": 1.4770323621280024e-06,
      "loss": 0.5958,
      "mean_token_accuracy": 0.8010316491127014,
      "num_tokens": 266004953.0,
      "step": 6560
    },
    {
      "epoch": 0.8671689135606662,
      "grad_norm": 0.8021582750987519,
      "learning_rate": 1.476102462819026e-06,
      "loss": 0.5547,
      "mean_token_accuracy": 0.8147051930427551,
      "num_tokens": 266070489.0,
      "step": 6561
    },
    {
      "epoch": 0.8673010837959292,
      "grad_norm": 0.7598730961576724,
      "learning_rate": 1.4751734201138237e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.8105695247650146,
      "num_tokens": 266136025.0,
      "step": 6562
    },
    {
      "epoch": 0.8674332540311922,
      "grad_norm": 0.8346805156784197,
      "learning_rate": 1.4742452342101673e-06,
      "loss": 0.5944,
      "mean_token_accuracy": 0.8012910485267639,
      "num_tokens": 266201561.0,
      "step": 6563
    },
    {
      "epoch": 0.8675654242664552,
      "grad_norm": 0.8334554926059993,
      "learning_rate": 1.473317905305649e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.8186424374580383,
      "num_tokens": 266267097.0,
      "step": 6564
    },
    {
      "epoch": 0.8676975945017182,
      "grad_norm": 0.7785276430435131,
      "learning_rate": 1.4723914335976769e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8053656220436096,
      "num_tokens": 266332633.0,
      "step": 6565
    },
    {
      "epoch": 0.8678297647369813,
      "grad_norm": 0.7552597469798549,
      "learning_rate": 1.47146581928348e-06,
      "loss": 0.5439,
      "mean_token_accuracy": 0.8182151317596436,
      "num_tokens": 266398169.0,
      "step": 6566
    },
    {
      "epoch": 0.8679619349722443,
      "grad_norm": 0.7643374380481157,
      "learning_rate": 1.4705410625600978e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8151935338973999,
      "num_tokens": 266463705.0,
      "step": 6567
    },
    {
      "epoch": 0.8680941052075073,
      "grad_norm": 0.7955104891268239,
      "learning_rate": 1.4696171636243965e-06,
      "loss": 0.5418,
      "mean_token_accuracy": 0.8197259306907654,
      "num_tokens": 266529241.0,
      "step": 6568
    },
    {
      "epoch": 0.8682262754427703,
      "grad_norm": 0.8241679454032553,
      "learning_rate": 1.4686941226730516e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7900439500808716,
      "num_tokens": 266594777.0,
      "step": 6569
    },
    {
      "epoch": 0.8683584456780333,
      "grad_norm": 0.8758293336309075,
      "learning_rate": 1.4677719399025607e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 266660313.0,
      "step": 6570
    },
    {
      "epoch": 0.8684906159132963,
      "grad_norm": 0.8617464919179812,
      "learning_rate": 1.4668506155092366e-06,
      "loss": 0.6116,
      "mean_token_accuracy": 0.7943474650382996,
      "num_tokens": 266725849.0,
      "step": 6571
    },
    {
      "epoch": 0.8686227861485594,
      "grad_norm": 0.7668179506466292,
      "learning_rate": 1.4659301496892114e-06,
      "loss": 0.5417,
      "mean_token_accuracy": 0.8177115321159363,
      "num_tokens": 266791385.0,
      "step": 6572
    },
    {
      "epoch": 0.8687549563838224,
      "grad_norm": 0.7732843437172159,
      "learning_rate": 1.4650105426384317e-06,
      "loss": 0.5436,
      "mean_token_accuracy": 0.8161396384239197,
      "num_tokens": 266856921.0,
      "step": 6573
    },
    {
      "epoch": 0.8688871266190854,
      "grad_norm": 0.7741240329976211,
      "learning_rate": 1.4640917945526625e-06,
      "loss": 0.5514,
      "mean_token_accuracy": 0.818169355392456,
      "num_tokens": 266922457.0,
      "step": 6574
    },
    {
      "epoch": 0.8690192968543484,
      "grad_norm": 0.8065995444737314,
      "learning_rate": 1.4631739056274868e-06,
      "loss": 0.5611,
      "mean_token_accuracy": 0.8108595013618469,
      "num_tokens": 266987993.0,
      "step": 6575
    },
    {
      "epoch": 0.8691514670896114,
      "grad_norm": 0.7924616329740825,
      "learning_rate": 1.4622568760583036e-06,
      "loss": 0.5291,
      "mean_token_accuracy": 0.8242583274841309,
      "num_tokens": 267053529.0,
      "step": 6576
    },
    {
      "epoch": 0.8692836373248745,
      "grad_norm": 0.8205760705556145,
      "learning_rate": 1.4613407060403295e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8013063073158264,
      "num_tokens": 267119065.0,
      "step": 6577
    },
    {
      "epoch": 0.8694158075601375,
      "grad_norm": 0.7689311924912573,
      "learning_rate": 1.4604253957685978e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8178946375846863,
      "num_tokens": 267184601.0,
      "step": 6578
    },
    {
      "epoch": 0.8695479777954005,
      "grad_norm": 0.8634079783914436,
      "learning_rate": 1.45951094543796e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7899676561355591,
      "num_tokens": 267250137.0,
      "step": 6579
    },
    {
      "epoch": 0.8696801480306635,
      "grad_norm": 0.8690700759198122,
      "learning_rate": 1.4585973552430804e-06,
      "loss": 0.5698,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 267315673.0,
      "step": 6580
    },
    {
      "epoch": 0.8698123182659265,
      "grad_norm": 0.8574616312494692,
      "learning_rate": 1.4576846253784476e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7808417677879333,
      "num_tokens": 267381209.0,
      "step": 6581
    },
    {
      "epoch": 0.8699444885011896,
      "grad_norm": 0.791033016778154,
      "learning_rate": 1.4567727560383598e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.7981473803520203,
      "num_tokens": 267446745.0,
      "step": 6582
    },
    {
      "epoch": 0.8700766587364526,
      "grad_norm": 0.861769335514247,
      "learning_rate": 1.4558617474169356e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.797887921333313,
      "num_tokens": 267512281.0,
      "step": 6583
    },
    {
      "epoch": 0.8702088289717156,
      "grad_norm": 0.8622998001454932,
      "learning_rate": 1.4549515997081101e-06,
      "loss": 0.5999,
      "mean_token_accuracy": 0.8003296256065369,
      "num_tokens": 267577817.0,
      "step": 6584
    },
    {
      "epoch": 0.8703409992069786,
      "grad_norm": 0.9603714953809513,
      "learning_rate": 1.4540423131056352e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.7993987202644348,
      "num_tokens": 267643353.0,
      "step": 6585
    },
    {
      "epoch": 0.8704731694422416,
      "grad_norm": 0.7984680097496102,
      "learning_rate": 1.4531338878030759e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.816399097442627,
      "num_tokens": 267708889.0,
      "step": 6586
    },
    {
      "epoch": 0.8706053396775046,
      "grad_norm": 0.8635397794861196,
      "learning_rate": 1.4522263239938222e-06,
      "loss": 0.5955,
      "mean_token_accuracy": 0.798879861831665,
      "num_tokens": 267774425.0,
      "step": 6587
    },
    {
      "epoch": 0.8707375099127677,
      "grad_norm": 0.7630164676144512,
      "learning_rate": 1.4513196218710712e-06,
      "loss": 0.5368,
      "mean_token_accuracy": 0.8192223310470581,
      "num_tokens": 267839961.0,
      "step": 6588
    },
    {
      "epoch": 0.8708696801480307,
      "grad_norm": 0.8062074678269013,
      "learning_rate": 1.4504137816278435e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.8007721900939941,
      "num_tokens": 267905497.0,
      "step": 6589
    },
    {
      "epoch": 0.8710018503832937,
      "grad_norm": 0.7906116171523819,
      "learning_rate": 1.4495088034569712e-06,
      "loss": 0.5349,
      "mean_token_accuracy": 0.8210383057594299,
      "num_tokens": 267971033.0,
      "step": 6590
    },
    {
      "epoch": 0.8711340206185567,
      "grad_norm": 0.8676405919401048,
      "learning_rate": 1.4486046875511067e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.8103101253509521,
      "num_tokens": 268036569.0,
      "step": 6591
    },
    {
      "epoch": 0.8712661908538197,
      "grad_norm": 0.7799444100742132,
      "learning_rate": 1.4477014341027176e-06,
      "loss": 0.5308,
      "mean_token_accuracy": 0.8247619271278381,
      "num_tokens": 268102105.0,
      "step": 6592
    },
    {
      "epoch": 0.8713983610890828,
      "grad_norm": 0.8061497297449536,
      "learning_rate": 1.4467990433040866e-06,
      "loss": 0.6197,
      "mean_token_accuracy": 0.7953241467475891,
      "num_tokens": 268167641.0,
      "step": 6593
    },
    {
      "epoch": 0.8715305313243458,
      "grad_norm": 0.8100517386298802,
      "learning_rate": 1.4458975153473157e-06,
      "loss": 0.5587,
      "mean_token_accuracy": 0.8151782155036926,
      "num_tokens": 268233177.0,
      "step": 6594
    },
    {
      "epoch": 0.8716627015596088,
      "grad_norm": 0.809170501891993,
      "learning_rate": 1.4449968504243194e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8149035573005676,
      "num_tokens": 268298713.0,
      "step": 6595
    },
    {
      "epoch": 0.8717948717948718,
      "grad_norm": 0.8143001288777496,
      "learning_rate": 1.444097048726831e-06,
      "loss": 0.5671,
      "mean_token_accuracy": 0.8105237483978271,
      "num_tokens": 268364249.0,
      "step": 6596
    },
    {
      "epoch": 0.8719270420301348,
      "grad_norm": 0.8124714854023948,
      "learning_rate": 1.4431981104463998e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8059150576591492,
      "num_tokens": 268429785.0,
      "step": 6597
    },
    {
      "epoch": 0.8720592122653978,
      "grad_norm": 0.8721252285369316,
      "learning_rate": 1.4423000357743926e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7964076399803162,
      "num_tokens": 268495321.0,
      "step": 6598
    },
    {
      "epoch": 0.8721913825006609,
      "grad_norm": 0.8025793771713866,
      "learning_rate": 1.4414028249019865e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8073037266731262,
      "num_tokens": 268560857.0,
      "step": 6599
    },
    {
      "epoch": 0.8723235527359239,
      "grad_norm": 0.7443268694029903,
      "learning_rate": 1.4405064780201835e-06,
      "loss": 0.5149,
      "mean_token_accuracy": 0.8253570795059204,
      "num_tokens": 268626393.0,
      "step": 6600
    },
    {
      "epoch": 0.8724557229711869,
      "grad_norm": 0.7906849589560694,
      "learning_rate": 1.4396109953197945e-06,
      "loss": 0.5855,
      "mean_token_accuracy": 0.8045110702514648,
      "num_tokens": 268691929.0,
      "step": 6601
    },
    {
      "epoch": 0.8725878932064499,
      "grad_norm": 0.8650824591748039,
      "learning_rate": 1.43871637699145e-06,
      "loss": 0.6073,
      "mean_token_accuracy": 0.7973995804786682,
      "num_tokens": 268757465.0,
      "step": 6602
    },
    {
      "epoch": 0.8727200634417129,
      "grad_norm": 0.8216586791858299,
      "learning_rate": 1.4378226232255948e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.7960566282272339,
      "num_tokens": 268823001.0,
      "step": 6603
    },
    {
      "epoch": 0.872852233676976,
      "grad_norm": 0.8402364026631035,
      "learning_rate": 1.4369297342124918e-06,
      "loss": 0.5862,
      "mean_token_accuracy": 0.806525468826294,
      "num_tokens": 268888537.0,
      "step": 6604
    },
    {
      "epoch": 0.872984403912239,
      "grad_norm": 0.8236049200884591,
      "learning_rate": 1.4360377101422171e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8092570900917053,
      "num_tokens": 268954073.0,
      "step": 6605
    },
    {
      "epoch": 0.873116574147502,
      "grad_norm": 0.8296515399796852,
      "learning_rate": 1.4351465512046644e-06,
      "loss": 0.5916,
      "mean_token_accuracy": 0.803213894367218,
      "num_tokens": 269019609.0,
      "step": 6606
    },
    {
      "epoch": 0.873248744382765,
      "grad_norm": 0.8119084184063292,
      "learning_rate": 1.4342562575895432e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8060676455497742,
      "num_tokens": 269085145.0,
      "step": 6607
    },
    {
      "epoch": 0.873380914618028,
      "grad_norm": 0.8118379957770522,
      "learning_rate": 1.4333668294863784e-06,
      "loss": 0.5913,
      "mean_token_accuracy": 0.8012910485267639,
      "num_tokens": 269150681.0,
      "step": 6608
    },
    {
      "epoch": 0.873513084853291,
      "grad_norm": 0.7999326069871909,
      "learning_rate": 1.43247826708451e-06,
      "loss": 0.5122,
      "mean_token_accuracy": 0.8279514312744141,
      "num_tokens": 269216217.0,
      "step": 6609
    },
    {
      "epoch": 0.8736452550885541,
      "grad_norm": 0.7765060742636605,
      "learning_rate": 1.4315905705730947e-06,
      "loss": 0.5365,
      "mean_token_accuracy": 0.8235411047935486,
      "num_tokens": 269281753.0,
      "step": 6610
    },
    {
      "epoch": 0.8737774253238171,
      "grad_norm": 0.7814454949695459,
      "learning_rate": 1.430703740141105e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.812095582485199,
      "num_tokens": 269347289.0,
      "step": 6611
    },
    {
      "epoch": 0.8739095955590801,
      "grad_norm": 0.8257082171697214,
      "learning_rate": 1.4298177759773276e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.7964839339256287,
      "num_tokens": 269412825.0,
      "step": 6612
    },
    {
      "epoch": 0.8740417657943431,
      "grad_norm": 0.8083688537056856,
      "learning_rate": 1.4289326782703676e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.8017488718032837,
      "num_tokens": 269478361.0,
      "step": 6613
    },
    {
      "epoch": 0.8741739360296061,
      "grad_norm": 0.795198667442434,
      "learning_rate": 1.4280484472086418e-06,
      "loss": 0.5832,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 269543897.0,
      "step": 6614
    },
    {
      "epoch": 0.8743061062648692,
      "grad_norm": 0.846208950859376,
      "learning_rate": 1.4271650829803848e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.7841075658798218,
      "num_tokens": 269609433.0,
      "step": 6615
    },
    {
      "epoch": 0.8744382765001322,
      "grad_norm": 0.7856221634689429,
      "learning_rate": 1.426282585773648e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8194206953048706,
      "num_tokens": 269674969.0,
      "step": 6616
    },
    {
      "epoch": 0.8745704467353952,
      "grad_norm": 0.8022048149157275,
      "learning_rate": 1.4254009557762954e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8151324391365051,
      "num_tokens": 269740505.0,
      "step": 6617
    },
    {
      "epoch": 0.8747026169706582,
      "grad_norm": 0.766889538936138,
      "learning_rate": 1.4245201931760066e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8149798512458801,
      "num_tokens": 269806041.0,
      "step": 6618
    },
    {
      "epoch": 0.8748347872059212,
      "grad_norm": 0.8077952242207236,
      "learning_rate": 1.4236402981602807e-06,
      "loss": 0.5713,
      "mean_token_accuracy": 0.8089671730995178,
      "num_tokens": 269871577.0,
      "step": 6619
    },
    {
      "epoch": 0.8749669574411842,
      "grad_norm": 0.8548067921208027,
      "learning_rate": 1.4227612709164262e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7842601537704468,
      "num_tokens": 269937113.0,
      "step": 6620
    },
    {
      "epoch": 0.8750991276764473,
      "grad_norm": 0.8704265491427039,
      "learning_rate": 1.4218831116315706e-06,
      "loss": 0.599,
      "mean_token_accuracy": 0.7995513081550598,
      "num_tokens": 270002649.0,
      "step": 6621
    },
    {
      "epoch": 0.8752312979117103,
      "grad_norm": 0.7512248251182502,
      "learning_rate": 1.4210058204926547e-06,
      "loss": 0.5411,
      "mean_token_accuracy": 0.8199700713157654,
      "num_tokens": 270068185.0,
      "step": 6622
    },
    {
      "epoch": 0.8753634681469733,
      "grad_norm": 0.8601485895741318,
      "learning_rate": 1.4201293976864378e-06,
      "loss": 0.5748,
      "mean_token_accuracy": 0.8080210089683533,
      "num_tokens": 270133721.0,
      "step": 6623
    },
    {
      "epoch": 0.8754956383822363,
      "grad_norm": 0.8094324055777966,
      "learning_rate": 1.4192538433994896e-06,
      "loss": 0.6048,
      "mean_token_accuracy": 0.8001312613487244,
      "num_tokens": 270199257.0,
      "step": 6624
    },
    {
      "epoch": 0.8756278086174993,
      "grad_norm": 0.7604311319144385,
      "learning_rate": 1.4183791578181986e-06,
      "loss": 0.5531,
      "mean_token_accuracy": 0.8159412741661072,
      "num_tokens": 270264793.0,
      "step": 6625
    },
    {
      "epoch": 0.8757599788527624,
      "grad_norm": 0.8688435681204334,
      "learning_rate": 1.4175053411287661e-06,
      "loss": 0.5603,
      "mean_token_accuracy": 0.8117445707321167,
      "num_tokens": 270330329.0,
      "step": 6626
    },
    {
      "epoch": 0.8758921490880254,
      "grad_norm": 0.8111043144755401,
      "learning_rate": 1.4166323935172117e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 270395865.0,
      "step": 6627
    },
    {
      "epoch": 0.8760243193232884,
      "grad_norm": 0.7866808450683196,
      "learning_rate": 1.4157603151693653e-06,
      "loss": 0.5336,
      "mean_token_accuracy": 0.8243498802185059,
      "num_tokens": 270461401.0,
      "step": 6628
    },
    {
      "epoch": 0.8761564895585514,
      "grad_norm": 0.8289103308834377,
      "learning_rate": 1.4148891062708747e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8057471513748169,
      "num_tokens": 270526937.0,
      "step": 6629
    },
    {
      "epoch": 0.8762886597938144,
      "grad_norm": 0.8795492763389721,
      "learning_rate": 1.4140187670072022e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.7999023199081421,
      "num_tokens": 270592473.0,
      "step": 6630
    },
    {
      "epoch": 0.8764208300290774,
      "grad_norm": 0.8657272116663467,
      "learning_rate": 1.4131492975636255e-06,
      "loss": 0.5779,
      "mean_token_accuracy": 0.8056555986404419,
      "num_tokens": 270658009.0,
      "step": 6631
    },
    {
      "epoch": 0.8765530002643405,
      "grad_norm": 0.8022861935133521,
      "learning_rate": 1.4122806981252362e-06,
      "loss": 0.5418,
      "mean_token_accuracy": 0.818199872970581,
      "num_tokens": 270723545.0,
      "step": 6632
    },
    {
      "epoch": 0.8766851704996035,
      "grad_norm": 0.8043017870276415,
      "learning_rate": 1.411412968876941e-06,
      "loss": 0.5206,
      "mean_token_accuracy": 0.8252960443496704,
      "num_tokens": 270789081.0,
      "step": 6633
    },
    {
      "epoch": 0.8768173407348665,
      "grad_norm": 0.8129367397269824,
      "learning_rate": 1.4105461100034606e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8044958114624023,
      "num_tokens": 270854617.0,
      "step": 6634
    },
    {
      "epoch": 0.8769495109701295,
      "grad_norm": 0.7470400398678397,
      "learning_rate": 1.409680121689332e-06,
      "loss": 0.5276,
      "mean_token_accuracy": 0.8248687386512756,
      "num_tokens": 270920153.0,
      "step": 6635
    },
    {
      "epoch": 0.8770816812053925,
      "grad_norm": 0.7583655557824246,
      "learning_rate": 1.4088150041189065e-06,
      "loss": 0.5308,
      "mean_token_accuracy": 0.8247314095497131,
      "num_tokens": 270985689.0,
      "step": 6636
    },
    {
      "epoch": 0.8772138514406556,
      "grad_norm": 0.830370791538257,
      "learning_rate": 1.4079507574763477e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8070290684700012,
      "num_tokens": 271051225.0,
      "step": 6637
    },
    {
      "epoch": 0.8773460216759186,
      "grad_norm": 0.7931007547511931,
      "learning_rate": 1.407087381945637e-06,
      "loss": 0.5789,
      "mean_token_accuracy": 0.8068153858184814,
      "num_tokens": 271116761.0,
      "step": 6638
    },
    {
      "epoch": 0.8774781919111816,
      "grad_norm": 0.8155391067033279,
      "learning_rate": 1.406224877710569e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 271182297.0,
      "step": 6639
    },
    {
      "epoch": 0.8776103621464446,
      "grad_norm": 0.7770413395911244,
      "learning_rate": 1.4053632449547533e-06,
      "loss": 0.5377,
      "mean_token_accuracy": 0.821786105632782,
      "num_tokens": 271247833.0,
      "step": 6640
    },
    {
      "epoch": 0.8777425323817076,
      "grad_norm": 0.8241986988632913,
      "learning_rate": 1.404502483861611e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8062812685966492,
      "num_tokens": 271313369.0,
      "step": 6641
    },
    {
      "epoch": 0.8778747026169706,
      "grad_norm": 0.7863363418042457,
      "learning_rate": 1.4036425946143838e-06,
      "loss": 0.5765,
      "mean_token_accuracy": 0.8073037266731262,
      "num_tokens": 271378905.0,
      "step": 6642
    },
    {
      "epoch": 0.8780068728522337,
      "grad_norm": 0.8898305172378742,
      "learning_rate": 1.4027835773961217e-06,
      "loss": 0.6603,
      "mean_token_accuracy": 0.7797430157661438,
      "num_tokens": 271444441.0,
      "step": 6643
    },
    {
      "epoch": 0.8781390430874967,
      "grad_norm": 0.9253960993126582,
      "learning_rate": 1.401925432389693e-06,
      "loss": 0.6558,
      "mean_token_accuracy": 0.7806128859519958,
      "num_tokens": 271509977.0,
      "step": 6644
    },
    {
      "epoch": 0.8782712133227597,
      "grad_norm": 0.8338103951590464,
      "learning_rate": 1.4010681597777772e-06,
      "loss": 0.6106,
      "mean_token_accuracy": 0.7988646030426025,
      "num_tokens": 271575513.0,
      "step": 6645
    },
    {
      "epoch": 0.8784033835580227,
      "grad_norm": 0.8677291898814928,
      "learning_rate": 1.4002117597428715e-06,
      "loss": 0.6279,
      "mean_token_accuracy": 0.7895861268043518,
      "num_tokens": 271641049.0,
      "step": 6646
    },
    {
      "epoch": 0.8785355537932857,
      "grad_norm": 0.821047797139435,
      "learning_rate": 1.3993562324672843e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.8035954236984253,
      "num_tokens": 271706585.0,
      "step": 6647
    },
    {
      "epoch": 0.8786677240285488,
      "grad_norm": 0.7970723194166766,
      "learning_rate": 1.3985015781331396e-06,
      "loss": 0.5705,
      "mean_token_accuracy": 0.8094097375869751,
      "num_tokens": 271772121.0,
      "step": 6648
    },
    {
      "epoch": 0.8787998942638118,
      "grad_norm": 0.780294547025239,
      "learning_rate": 1.3976477969223762e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.8138658404350281,
      "num_tokens": 271837657.0,
      "step": 6649
    },
    {
      "epoch": 0.8789320644990748,
      "grad_norm": 0.7746377286520203,
      "learning_rate": 1.3967948890167462e-06,
      "loss": 0.5597,
      "mean_token_accuracy": 0.8137285113334656,
      "num_tokens": 271903193.0,
      "step": 6650
    },
    {
      "epoch": 0.8790642347343378,
      "grad_norm": 0.8269771452031334,
      "learning_rate": 1.3959428545978154e-06,
      "loss": 0.5737,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 271968729.0,
      "step": 6651
    },
    {
      "epoch": 0.8791964049696008,
      "grad_norm": 0.8523772266635262,
      "learning_rate": 1.395091693846964e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.8087992668151855,
      "num_tokens": 272034265.0,
      "step": 6652
    },
    {
      "epoch": 0.8793285752048638,
      "grad_norm": 0.816904840926288,
      "learning_rate": 1.3942414069453864e-06,
      "loss": 0.5696,
      "mean_token_accuracy": 0.8104779720306396,
      "num_tokens": 272099801.0,
      "step": 6653
    },
    {
      "epoch": 0.8794607454401269,
      "grad_norm": 0.8421263228435854,
      "learning_rate": 1.3933919940740915e-06,
      "loss": 0.5964,
      "mean_token_accuracy": 0.8015810251235962,
      "num_tokens": 272165337.0,
      "step": 6654
    },
    {
      "epoch": 0.8795929156753899,
      "grad_norm": 0.7533985020713411,
      "learning_rate": 1.392543455413902e-06,
      "loss": 0.5553,
      "mean_token_accuracy": 0.8148882985115051,
      "num_tokens": 272230873.0,
      "step": 6655
    },
    {
      "epoch": 0.8797250859106529,
      "grad_norm": 0.8398985643301846,
      "learning_rate": 1.3916957911454521e-06,
      "loss": 0.5732,
      "mean_token_accuracy": 0.8093028664588928,
      "num_tokens": 272296409.0,
      "step": 6656
    },
    {
      "epoch": 0.8798572561459159,
      "grad_norm": 0.7892573058993951,
      "learning_rate": 1.3908490014491937e-06,
      "loss": 0.5438,
      "mean_token_accuracy": 0.818596601486206,
      "num_tokens": 272361945.0,
      "step": 6657
    },
    {
      "epoch": 0.8799894263811789,
      "grad_norm": 0.8614358598754167,
      "learning_rate": 1.3900030865053896e-06,
      "loss": 0.5879,
      "mean_token_accuracy": 0.8028934001922607,
      "num_tokens": 272427481.0,
      "step": 6658
    },
    {
      "epoch": 0.880121596616442,
      "grad_norm": 0.7889267646608843,
      "learning_rate": 1.3891580464941188e-06,
      "loss": 0.5527,
      "mean_token_accuracy": 0.8180624842643738,
      "num_tokens": 272493017.0,
      "step": 6659
    },
    {
      "epoch": 0.880253766851705,
      "grad_norm": 0.7115253604638229,
      "learning_rate": 1.38831388159527e-06,
      "loss": 0.5013,
      "mean_token_accuracy": 0.8329263925552368,
      "num_tokens": 272558553.0,
      "step": 6660
    },
    {
      "epoch": 0.880385937086968,
      "grad_norm": 0.8062403646913461,
      "learning_rate": 1.3874705919885518e-06,
      "loss": 0.5633,
      "mean_token_accuracy": 0.8111341595649719,
      "num_tokens": 272624089.0,
      "step": 6661
    },
    {
      "epoch": 0.880518107322231,
      "grad_norm": 0.8438828871649597,
      "learning_rate": 1.38662817785348e-06,
      "loss": 0.6753,
      "mean_token_accuracy": 0.7764772176742554,
      "num_tokens": 272689625.0,
      "step": 6662
    },
    {
      "epoch": 0.880650277557494,
      "grad_norm": 0.8191957578208234,
      "learning_rate": 1.3857866393693884e-06,
      "loss": 0.5989,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 272755161.0,
      "step": 6663
    },
    {
      "epoch": 0.880782447792757,
      "grad_norm": 0.8121255327012489,
      "learning_rate": 1.3849459767154226e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8039311170578003,
      "num_tokens": 272820697.0,
      "step": 6664
    },
    {
      "epoch": 0.8809146180280201,
      "grad_norm": 0.774059211211643,
      "learning_rate": 1.3841061900705426e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8061134219169617,
      "num_tokens": 272886233.0,
      "step": 6665
    },
    {
      "epoch": 0.8810467882632831,
      "grad_norm": 0.7687712313409153,
      "learning_rate": 1.383267279613521e-06,
      "loss": 0.5425,
      "mean_token_accuracy": 0.8171926736831665,
      "num_tokens": 272951769.0,
      "step": 6666
    },
    {
      "epoch": 0.8811789584985461,
      "grad_norm": 0.8182489682436493,
      "learning_rate": 1.3824292455229437e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8068153858184814,
      "num_tokens": 273017305.0,
      "step": 6667
    },
    {
      "epoch": 0.8813111287338091,
      "grad_norm": 0.852666361672423,
      "learning_rate": 1.3815920879772116e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 273082841.0,
      "step": 6668
    },
    {
      "epoch": 0.8814432989690721,
      "grad_norm": 0.7605972761212771,
      "learning_rate": 1.3807558071545387e-06,
      "loss": 0.5197,
      "mean_token_accuracy": 0.8272188901901245,
      "num_tokens": 273148377.0,
      "step": 6669
    },
    {
      "epoch": 0.8815754692043352,
      "grad_norm": 0.8515598914366664,
      "learning_rate": 1.3799204032329503e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.7954919934272766,
      "num_tokens": 273213913.0,
      "step": 6670
    },
    {
      "epoch": 0.8817076394395982,
      "grad_norm": 0.8334627686453867,
      "learning_rate": 1.3790858763902864e-06,
      "loss": 0.5359,
      "mean_token_accuracy": 0.8221676349639893,
      "num_tokens": 273279449.0,
      "step": 6671
    },
    {
      "epoch": 0.8818398096748612,
      "grad_norm": 0.8193425994073227,
      "learning_rate": 1.3782522268042018e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8027560710906982,
      "num_tokens": 273344985.0,
      "step": 6672
    },
    {
      "epoch": 0.8819719799101242,
      "grad_norm": 0.8144460275204833,
      "learning_rate": 1.3774194546521614e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.816643238067627,
      "num_tokens": 273410521.0,
      "step": 6673
    },
    {
      "epoch": 0.8821041501453872,
      "grad_norm": 0.856466368071581,
      "learning_rate": 1.3765875601114465e-06,
      "loss": 0.5911,
      "mean_token_accuracy": 0.8041600584983826,
      "num_tokens": 273476057.0,
      "step": 6674
    },
    {
      "epoch": 0.8822363203806503,
      "grad_norm": 0.8535719191409519,
      "learning_rate": 1.3757565433591494e-06,
      "loss": 0.6123,
      "mean_token_accuracy": 0.7920278310775757,
      "num_tokens": 273541593.0,
      "step": 6675
    },
    {
      "epoch": 0.8823684906159133,
      "grad_norm": 0.7887608933014489,
      "learning_rate": 1.3749264045721754e-06,
      "loss": 0.5845,
      "mean_token_accuracy": 0.8063575625419617,
      "num_tokens": 273607129.0,
      "step": 6676
    },
    {
      "epoch": 0.8825006608511763,
      "grad_norm": 0.8348188477890944,
      "learning_rate": 1.3740971439272453e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 273672665.0,
      "step": 6677
    },
    {
      "epoch": 0.8826328310864393,
      "grad_norm": 0.7442086756011285,
      "learning_rate": 1.3732687616008908e-06,
      "loss": 0.5326,
      "mean_token_accuracy": 0.8211756944656372,
      "num_tokens": 273738201.0,
      "step": 6678
    },
    {
      "epoch": 0.8827650013217023,
      "grad_norm": 0.8236699747076112,
      "learning_rate": 1.3724412577694558e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 273803737.0,
      "step": 6679
    },
    {
      "epoch": 0.8828971715569653,
      "grad_norm": 0.7854539801630493,
      "learning_rate": 1.371614632609101e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8009552955627441,
      "num_tokens": 273869273.0,
      "step": 6680
    },
    {
      "epoch": 0.8830293417922284,
      "grad_norm": 0.8177064550844579,
      "learning_rate": 1.3707888862957958e-06,
      "loss": 0.5851,
      "mean_token_accuracy": 0.8051214814186096,
      "num_tokens": 273934809.0,
      "step": 6681
    },
    {
      "epoch": 0.8831615120274914,
      "grad_norm": 0.7921947213936137,
      "learning_rate": 1.369964019005326e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.8107984662055969,
      "num_tokens": 274000345.0,
      "step": 6682
    },
    {
      "epoch": 0.8832936822627544,
      "grad_norm": 0.7574843518147719,
      "learning_rate": 1.3691400309132856e-06,
      "loss": 0.542,
      "mean_token_accuracy": 0.8221523761749268,
      "num_tokens": 274065881.0,
      "step": 6683
    },
    {
      "epoch": 0.8834258524980174,
      "grad_norm": 0.8121935292206071,
      "learning_rate": 1.3683169221950887e-06,
      "loss": 0.5965,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 274131417.0,
      "step": 6684
    },
    {
      "epoch": 0.8835580227332804,
      "grad_norm": 0.8198574094703651,
      "learning_rate": 1.3674946930259545e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.8022982478141785,
      "num_tokens": 274196953.0,
      "step": 6685
    },
    {
      "epoch": 0.8836901929685435,
      "grad_norm": 0.8491650881308263,
      "learning_rate": 1.36667334358092e-06,
      "loss": 0.6213,
      "mean_token_accuracy": 0.7919210195541382,
      "num_tokens": 274262489.0,
      "step": 6686
    },
    {
      "epoch": 0.8838223632038065,
      "grad_norm": 0.7733986656742937,
      "learning_rate": 1.3658528740348326e-06,
      "loss": 0.5623,
      "mean_token_accuracy": 0.8139421343803406,
      "num_tokens": 274328025.0,
      "step": 6687
    },
    {
      "epoch": 0.8839545334390695,
      "grad_norm": 0.8152161708766587,
      "learning_rate": 1.365033284562354e-06,
      "loss": 0.561,
      "mean_token_accuracy": 0.8136674165725708,
      "num_tokens": 274393561.0,
      "step": 6688
    },
    {
      "epoch": 0.8840867036743325,
      "grad_norm": 0.856932144052673,
      "learning_rate": 1.364214575337957e-06,
      "loss": 0.612,
      "mean_token_accuracy": 0.7977505922317505,
      "num_tokens": 274459097.0,
      "step": 6689
    },
    {
      "epoch": 0.8842188739095955,
      "grad_norm": 0.7813415872171877,
      "learning_rate": 1.3633967465359283e-06,
      "loss": 0.5343,
      "mean_token_accuracy": 0.822686493396759,
      "num_tokens": 274524633.0,
      "step": 6690
    },
    {
      "epoch": 0.8843510441448585,
      "grad_norm": 0.8433572206530611,
      "learning_rate": 1.3625797983303654e-06,
      "loss": 0.5692,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 274590169.0,
      "step": 6691
    },
    {
      "epoch": 0.8844832143801216,
      "grad_norm": 0.8307412063259975,
      "learning_rate": 1.3617637308951808e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.8038700819015503,
      "num_tokens": 274655705.0,
      "step": 6692
    },
    {
      "epoch": 0.8846153846153846,
      "grad_norm": 0.7535018974644692,
      "learning_rate": 1.3609485444040985e-06,
      "loss": 0.5194,
      "mean_token_accuracy": 0.8255402445793152,
      "num_tokens": 274721241.0,
      "step": 6693
    },
    {
      "epoch": 0.8847475548506476,
      "grad_norm": 0.7989401683477798,
      "learning_rate": 1.360134239030653e-06,
      "loss": 0.5774,
      "mean_token_accuracy": 0.8089061379432678,
      "num_tokens": 274786777.0,
      "step": 6694
    },
    {
      "epoch": 0.8848797250859106,
      "grad_norm": 0.8149654238976991,
      "learning_rate": 1.359320814948194e-06,
      "loss": 0.5394,
      "mean_token_accuracy": 0.8196648955345154,
      "num_tokens": 274852313.0,
      "step": 6695
    },
    {
      "epoch": 0.8850118953211736,
      "grad_norm": 0.7802748951967379,
      "learning_rate": 1.3585082723298818e-06,
      "loss": 0.5275,
      "mean_token_accuracy": 0.8267458081245422,
      "num_tokens": 274917849.0,
      "step": 6696
    },
    {
      "epoch": 0.8851440655564367,
      "grad_norm": 0.8392312963922476,
      "learning_rate": 1.357696611348692e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.813118040561676,
      "num_tokens": 274983385.0,
      "step": 6697
    },
    {
      "epoch": 0.8852762357916997,
      "grad_norm": 0.8041592154785919,
      "learning_rate": 1.356885832177407e-06,
      "loss": 0.5893,
      "mean_token_accuracy": 0.8031070828437805,
      "num_tokens": 275048921.0,
      "step": 6698
    },
    {
      "epoch": 0.8854084060269627,
      "grad_norm": 0.7849080485680126,
      "learning_rate": 1.3560759349886268e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8062660098075867,
      "num_tokens": 275114457.0,
      "step": 6699
    },
    {
      "epoch": 0.8855405762622257,
      "grad_norm": 0.7386265374463364,
      "learning_rate": 1.3552669199547609e-06,
      "loss": 0.5341,
      "mean_token_accuracy": 0.8213587999343872,
      "num_tokens": 275179993.0,
      "step": 6700
    },
    {
      "epoch": 0.8856727464974887,
      "grad_norm": 0.7871786006359635,
      "learning_rate": 1.3544587872480329e-06,
      "loss": 0.5388,
      "mean_token_accuracy": 0.8230832815170288,
      "num_tokens": 275245529.0,
      "step": 6701
    },
    {
      "epoch": 0.8858049167327517,
      "grad_norm": 0.8465647035539471,
      "learning_rate": 1.3536515370404743e-06,
      "loss": 0.5954,
      "mean_token_accuracy": 0.8019014596939087,
      "num_tokens": 275311065.0,
      "step": 6702
    },
    {
      "epoch": 0.8859370869680148,
      "grad_norm": 0.7288240306801457,
      "learning_rate": 1.352845169503936e-06,
      "loss": 0.5188,
      "mean_token_accuracy": 0.8273409605026245,
      "num_tokens": 275376601.0,
      "step": 6703
    },
    {
      "epoch": 0.8860692572032778,
      "grad_norm": 0.8411456308438475,
      "learning_rate": 1.3520396848100742e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.7962397933006287,
      "num_tokens": 275442137.0,
      "step": 6704
    },
    {
      "epoch": 0.8862014274385408,
      "grad_norm": 0.7901617203675823,
      "learning_rate": 1.35123508313036e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8140947222709656,
      "num_tokens": 275507673.0,
      "step": 6705
    },
    {
      "epoch": 0.8863335976738038,
      "grad_norm": 0.7742865028661917,
      "learning_rate": 1.3504313646360765e-06,
      "loss": 0.5259,
      "mean_token_accuracy": 0.8250824213027954,
      "num_tokens": 275573209.0,
      "step": 6706
    },
    {
      "epoch": 0.8864657679090668,
      "grad_norm": 0.7972701900563657,
      "learning_rate": 1.3496285294983197e-06,
      "loss": 0.5424,
      "mean_token_accuracy": 0.818321943283081,
      "num_tokens": 275638745.0,
      "step": 6707
    },
    {
      "epoch": 0.8865979381443299,
      "grad_norm": 0.8365696731846739,
      "learning_rate": 1.3488265778879949e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.798009991645813,
      "num_tokens": 275704281.0,
      "step": 6708
    },
    {
      "epoch": 0.8867301083795929,
      "grad_norm": 0.778946371026722,
      "learning_rate": 1.348025509975821e-06,
      "loss": 0.5269,
      "mean_token_accuracy": 0.8239530920982361,
      "num_tokens": 275769817.0,
      "step": 6709
    },
    {
      "epoch": 0.8868622786148559,
      "grad_norm": 0.7662323471926378,
      "learning_rate": 1.3472253259323299e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8145220279693604,
      "num_tokens": 275835353.0,
      "step": 6710
    },
    {
      "epoch": 0.8869944488501189,
      "grad_norm": 0.7928860353366541,
      "learning_rate": 1.3464260259278628e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 275900889.0,
      "step": 6711
    },
    {
      "epoch": 0.8871266190853819,
      "grad_norm": 0.7643545459986039,
      "learning_rate": 1.3456276101325739e-06,
      "loss": 0.5336,
      "mean_token_accuracy": 0.8214808702468872,
      "num_tokens": 275966425.0,
      "step": 6712
    },
    {
      "epoch": 0.887258789320645,
      "grad_norm": 0.8321894290748038,
      "learning_rate": 1.3448300787164299e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.7959040403366089,
      "num_tokens": 276031961.0,
      "step": 6713
    },
    {
      "epoch": 0.887390959555908,
      "grad_norm": 0.8782099687456618,
      "learning_rate": 1.3440334318492096e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.797979474067688,
      "num_tokens": 276097497.0,
      "step": 6714
    },
    {
      "epoch": 0.887523129791171,
      "grad_norm": 0.8240277051297532,
      "learning_rate": 1.3432376697004993e-06,
      "loss": 0.5948,
      "mean_token_accuracy": 0.8004669547080994,
      "num_tokens": 276163033.0,
      "step": 6715
    },
    {
      "epoch": 0.887655300026434,
      "grad_norm": 0.7797553108541305,
      "learning_rate": 1.3424427924397038e-06,
      "loss": 0.5377,
      "mean_token_accuracy": 0.8201684951782227,
      "num_tokens": 276228569.0,
      "step": 6716
    },
    {
      "epoch": 0.887787470261697,
      "grad_norm": 0.8011716518925597,
      "learning_rate": 1.3416488002360333e-06,
      "loss": 0.566,
      "mean_token_accuracy": 0.8100506663322449,
      "num_tokens": 276294105.0,
      "step": 6717
    },
    {
      "epoch": 0.88791964049696,
      "grad_norm": 0.872688478728439,
      "learning_rate": 1.3408556932585137e-06,
      "loss": 0.6196,
      "mean_token_accuracy": 0.7947137355804443,
      "num_tokens": 276359641.0,
      "step": 6718
    },
    {
      "epoch": 0.8880518107322231,
      "grad_norm": 0.8154449593120722,
      "learning_rate": 1.34006347167598e-06,
      "loss": 0.6101,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 276425177.0,
      "step": 6719
    },
    {
      "epoch": 0.8881839809674861,
      "grad_norm": 0.7862169535554304,
      "learning_rate": 1.339272135657081e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8207483887672424,
      "num_tokens": 276490713.0,
      "step": 6720
    },
    {
      "epoch": 0.8883161512027491,
      "grad_norm": 0.7950908992852512,
      "learning_rate": 1.3384816853702728e-06,
      "loss": 0.5988,
      "mean_token_accuracy": 0.8019167184829712,
      "num_tokens": 276556249.0,
      "step": 6721
    },
    {
      "epoch": 0.8884483214380121,
      "grad_norm": 0.8355471927383276,
      "learning_rate": 1.337692120983829e-06,
      "loss": 0.6079,
      "mean_token_accuracy": 0.7968196868896484,
      "num_tokens": 276621785.0,
      "step": 6722
    },
    {
      "epoch": 0.8885804916732751,
      "grad_norm": 0.8680941179970556,
      "learning_rate": 1.336903442665829e-06,
      "loss": 0.6025,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 276687321.0,
      "step": 6723
    },
    {
      "epoch": 0.8887126619085381,
      "grad_norm": 0.8592270410547577,
      "learning_rate": 1.3361156505841669e-06,
      "loss": 0.5892,
      "mean_token_accuracy": 0.8044805526733398,
      "num_tokens": 276752857.0,
      "step": 6724
    },
    {
      "epoch": 0.8888448321438012,
      "grad_norm": 0.8426415948104806,
      "learning_rate": 1.3353287449065478e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 276818393.0,
      "step": 6725
    },
    {
      "epoch": 0.8889770023790642,
      "grad_norm": 0.7846265512702306,
      "learning_rate": 1.334542725800487e-06,
      "loss": 0.5478,
      "mean_token_accuracy": 0.8180624842643738,
      "num_tokens": 276883929.0,
      "step": 6726
    },
    {
      "epoch": 0.8891091726143272,
      "grad_norm": 0.7928220689130178,
      "learning_rate": 1.3337575934333106e-06,
      "loss": 0.5859,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 276949465.0,
      "step": 6727
    },
    {
      "epoch": 0.8892413428495902,
      "grad_norm": 0.8282714562305735,
      "learning_rate": 1.3329733479721579e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 277015001.0,
      "step": 6728
    },
    {
      "epoch": 0.8893735130848532,
      "grad_norm": 0.8158036141424535,
      "learning_rate": 1.3321899895839785e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7956293225288391,
      "num_tokens": 277080537.0,
      "step": 6729
    },
    {
      "epoch": 0.8895056833201163,
      "grad_norm": 0.8352651073801521,
      "learning_rate": 1.3314075184355327e-06,
      "loss": 0.6237,
      "mean_token_accuracy": 0.7923635840415955,
      "num_tokens": 277146073.0,
      "step": 6730
    },
    {
      "epoch": 0.8896378535553793,
      "grad_norm": 0.7783643556499371,
      "learning_rate": 1.3306259346933916e-06,
      "loss": 0.5276,
      "mean_token_accuracy": 0.8237699866294861,
      "num_tokens": 277211609.0,
      "step": 6731
    },
    {
      "epoch": 0.8897700237906423,
      "grad_norm": 0.8236029191102032,
      "learning_rate": 1.3298452385239387e-06,
      "loss": 0.6022,
      "mean_token_accuracy": 0.7991088032722473,
      "num_tokens": 277277145.0,
      "step": 6732
    },
    {
      "epoch": 0.8899021940259053,
      "grad_norm": 0.7790385585353721,
      "learning_rate": 1.3290654300933692e-06,
      "loss": 0.5704,
      "mean_token_accuracy": 0.8133927583694458,
      "num_tokens": 277342681.0,
      "step": 6733
    },
    {
      "epoch": 0.8900343642611683,
      "grad_norm": 0.7500414184297312,
      "learning_rate": 1.3282865095676856e-06,
      "loss": 0.5405,
      "mean_token_accuracy": 0.8206415772438049,
      "num_tokens": 277408217.0,
      "step": 6734
    },
    {
      "epoch": 0.8901665344964313,
      "grad_norm": 0.7965188449941685,
      "learning_rate": 1.3275084771127055e-06,
      "loss": 0.5973,
      "mean_token_accuracy": 0.8037480115890503,
      "num_tokens": 277473753.0,
      "step": 6735
    },
    {
      "epoch": 0.8902987047316944,
      "grad_norm": 0.7886316725631252,
      "learning_rate": 1.326731332894055e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8212672472000122,
      "num_tokens": 277539289.0,
      "step": 6736
    },
    {
      "epoch": 0.8904308749669574,
      "grad_norm": 0.8047331705590502,
      "learning_rate": 1.3259550770771722e-06,
      "loss": 0.56,
      "mean_token_accuracy": 0.8122787475585938,
      "num_tokens": 277604825.0,
      "step": 6737
    },
    {
      "epoch": 0.8905630452022204,
      "grad_norm": 0.8443217327243896,
      "learning_rate": 1.3251797098273058e-06,
      "loss": 0.5535,
      "mean_token_accuracy": 0.8150561451911926,
      "num_tokens": 277670361.0,
      "step": 6738
    },
    {
      "epoch": 0.8906952154374835,
      "grad_norm": 0.7728930361957397,
      "learning_rate": 1.3244052313095158e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8107984662055969,
      "num_tokens": 277735897.0,
      "step": 6739
    },
    {
      "epoch": 0.8908273856727466,
      "grad_norm": 0.8021845670885924,
      "learning_rate": 1.3236316416886704e-06,
      "loss": 0.5394,
      "mean_token_accuracy": 0.8190696835517883,
      "num_tokens": 277801433.0,
      "step": 6740
    },
    {
      "epoch": 0.8909595559080096,
      "grad_norm": 0.8003555686543574,
      "learning_rate": 1.3228589411294536e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8140794634819031,
      "num_tokens": 277866969.0,
      "step": 6741
    },
    {
      "epoch": 0.8910917261432726,
      "grad_norm": 0.7718074485893742,
      "learning_rate": 1.3220871297963556e-06,
      "loss": 0.5291,
      "mean_token_accuracy": 0.8233274221420288,
      "num_tokens": 277932505.0,
      "step": 6742
    },
    {
      "epoch": 0.8912238963785356,
      "grad_norm": 0.7730050590196396,
      "learning_rate": 1.3213162078536796e-06,
      "loss": 0.5416,
      "mean_token_accuracy": 0.8197411894798279,
      "num_tokens": 277998041.0,
      "step": 6743
    },
    {
      "epoch": 0.8913560666137986,
      "grad_norm": 0.8209179518909262,
      "learning_rate": 1.320546175465537e-06,
      "loss": 0.566,
      "mean_token_accuracy": 0.8121718764305115,
      "num_tokens": 278063577.0,
      "step": 6744
    },
    {
      "epoch": 0.8914882368490616,
      "grad_norm": 0.8140879577926332,
      "learning_rate": 1.3197770327958535e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.8164143562316895,
      "num_tokens": 278129113.0,
      "step": 6745
    },
    {
      "epoch": 0.8916204070843247,
      "grad_norm": 0.7628693369547634,
      "learning_rate": 1.319008780008363e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8113173246383667,
      "num_tokens": 278194649.0,
      "step": 6746
    },
    {
      "epoch": 0.8917525773195877,
      "grad_norm": 0.7759052842683635,
      "learning_rate": 1.3182414172666103e-06,
      "loss": 0.5154,
      "mean_token_accuracy": 0.8277987837791443,
      "num_tokens": 278260185.0,
      "step": 6747
    },
    {
      "epoch": 0.8918847475548507,
      "grad_norm": 0.8316373585788102,
      "learning_rate": 1.3174749447339513e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.8017183542251587,
      "num_tokens": 278325721.0,
      "step": 6748
    },
    {
      "epoch": 0.8920169177901137,
      "grad_norm": 0.7643772326803076,
      "learning_rate": 1.3167093625735522e-06,
      "loss": 0.5487,
      "mean_token_accuracy": 0.8161702156066895,
      "num_tokens": 278391257.0,
      "step": 6749
    },
    {
      "epoch": 0.8921490880253767,
      "grad_norm": 0.7573674130883938,
      "learning_rate": 1.3159446709483879e-06,
      "loss": 0.517,
      "mean_token_accuracy": 0.8252807855606079,
      "num_tokens": 278456793.0,
      "step": 6750
    },
    {
      "epoch": 0.8922812582606398,
      "grad_norm": 0.8155278868748413,
      "learning_rate": 1.3151808700212467e-06,
      "loss": 0.5526,
      "mean_token_accuracy": 0.8144609928131104,
      "num_tokens": 278522329.0,
      "step": 6751
    },
    {
      "epoch": 0.8924134284959028,
      "grad_norm": 0.7734767107084408,
      "learning_rate": 1.314417959954726e-06,
      "loss": 0.5728,
      "mean_token_accuracy": 0.8102642893791199,
      "num_tokens": 278587865.0,
      "step": 6752
    },
    {
      "epoch": 0.8925455987311658,
      "grad_norm": 0.8280724280465835,
      "learning_rate": 1.313655940911232e-06,
      "loss": 0.6187,
      "mean_token_accuracy": 0.7939049005508423,
      "num_tokens": 278653401.0,
      "step": 6753
    },
    {
      "epoch": 0.8926777689664288,
      "grad_norm": 0.7535102289389232,
      "learning_rate": 1.3128948130529848e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8083720207214355,
      "num_tokens": 278718937.0,
      "step": 6754
    },
    {
      "epoch": 0.8928099392016918,
      "grad_norm": 0.7880719413327635,
      "learning_rate": 1.3121345765420104e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8060523867607117,
      "num_tokens": 278784473.0,
      "step": 6755
    },
    {
      "epoch": 0.8929421094369548,
      "grad_norm": 0.7836352078871264,
      "learning_rate": 1.3113752315401498e-06,
      "loss": 0.581,
      "mean_token_accuracy": 0.8109815716743469,
      "num_tokens": 278850009.0,
      "step": 6756
    },
    {
      "epoch": 0.8930742796722179,
      "grad_norm": 0.7567699026474133,
      "learning_rate": 1.3106167782090482e-06,
      "loss": 0.5269,
      "mean_token_accuracy": 0.8246551156044006,
      "num_tokens": 278915545.0,
      "step": 6757
    },
    {
      "epoch": 0.8932064499074809,
      "grad_norm": 0.7881416191116927,
      "learning_rate": 1.3098592167101681e-06,
      "loss": 0.5786,
      "mean_token_accuracy": 0.8053808808326721,
      "num_tokens": 278981081.0,
      "step": 6758
    },
    {
      "epoch": 0.8933386201427439,
      "grad_norm": 0.8007051761578967,
      "learning_rate": 1.3091025472047763e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.8081278204917908,
      "num_tokens": 279046617.0,
      "step": 6759
    },
    {
      "epoch": 0.8934707903780069,
      "grad_norm": 0.8300383007257632,
      "learning_rate": 1.3083467698539523e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7921346426010132,
      "num_tokens": 279112153.0,
      "step": 6760
    },
    {
      "epoch": 0.8936029606132699,
      "grad_norm": 0.8185456750075275,
      "learning_rate": 1.3075918848185862e-06,
      "loss": 0.5589,
      "mean_token_accuracy": 0.8147204518318176,
      "num_tokens": 279177689.0,
      "step": 6761
    },
    {
      "epoch": 0.893735130848533,
      "grad_norm": 0.7702737211657521,
      "learning_rate": 1.3068378922593763e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8034886121749878,
      "num_tokens": 279243225.0,
      "step": 6762
    },
    {
      "epoch": 0.893867301083796,
      "grad_norm": 0.834690452855459,
      "learning_rate": 1.306084792336832e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8044652938842773,
      "num_tokens": 279308761.0,
      "step": 6763
    },
    {
      "epoch": 0.893999471319059,
      "grad_norm": 0.7604038915756673,
      "learning_rate": 1.305332585211273e-06,
      "loss": 0.5586,
      "mean_token_accuracy": 0.8132706880569458,
      "num_tokens": 279374297.0,
      "step": 6764
    },
    {
      "epoch": 0.894131641554322,
      "grad_norm": 0.7533035584146864,
      "learning_rate": 1.3045812710428284e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8145830631256104,
      "num_tokens": 279439833.0,
      "step": 6765
    },
    {
      "epoch": 0.894263811789585,
      "grad_norm": 0.7994833197054205,
      "learning_rate": 1.3038308499914371e-06,
      "loss": 0.5524,
      "mean_token_accuracy": 0.8169942498207092,
      "num_tokens": 279505369.0,
      "step": 6766
    },
    {
      "epoch": 0.894395982024848,
      "grad_norm": 0.7574140078610762,
      "learning_rate": 1.3030813222168483e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8186576962471008,
      "num_tokens": 279570905.0,
      "step": 6767
    },
    {
      "epoch": 0.8945281522601111,
      "grad_norm": 0.7974619127293463,
      "learning_rate": 1.3023326878786204e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.812751829624176,
      "num_tokens": 279636441.0,
      "step": 6768
    },
    {
      "epoch": 0.8946603224953741,
      "grad_norm": 0.8163658242434639,
      "learning_rate": 1.3015849471361223e-06,
      "loss": 0.5675,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 279701977.0,
      "step": 6769
    },
    {
      "epoch": 0.8947924927306371,
      "grad_norm": 0.7825376438499694,
      "learning_rate": 1.3008381001485321e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.817146897315979,
      "num_tokens": 279767513.0,
      "step": 6770
    },
    {
      "epoch": 0.8949246629659001,
      "grad_norm": 0.8691466990234269,
      "learning_rate": 1.300092147074839e-06,
      "loss": 0.6137,
      "mean_token_accuracy": 0.7954462170600891,
      "num_tokens": 279833049.0,
      "step": 6771
    },
    {
      "epoch": 0.8950568332011631,
      "grad_norm": 0.8365461763622939,
      "learning_rate": 1.299347088073839e-06,
      "loss": 0.5929,
      "mean_token_accuracy": 0.8046483993530273,
      "num_tokens": 279898585.0,
      "step": 6772
    },
    {
      "epoch": 0.8951890034364262,
      "grad_norm": 0.7845362802341194,
      "learning_rate": 1.2986029233041412e-06,
      "loss": 0.5274,
      "mean_token_accuracy": 0.8277530074119568,
      "num_tokens": 279964121.0,
      "step": 6773
    },
    {
      "epoch": 0.8953211736716892,
      "grad_norm": 0.795118433033234,
      "learning_rate": 1.297859652924162e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.7973232865333557,
      "num_tokens": 280029657.0,
      "step": 6774
    },
    {
      "epoch": 0.8954533439069522,
      "grad_norm": 0.74210877574433,
      "learning_rate": 1.297117277092129e-06,
      "loss": 0.5135,
      "mean_token_accuracy": 0.8288975954055786,
      "num_tokens": 280095193.0,
      "step": 6775
    },
    {
      "epoch": 0.8955855141422152,
      "grad_norm": 0.8341388688842262,
      "learning_rate": 1.2963757959660764e-06,
      "loss": 0.6171,
      "mean_token_accuracy": 0.7966823577880859,
      "num_tokens": 280160729.0,
      "step": 6776
    },
    {
      "epoch": 0.8957176843774782,
      "grad_norm": 0.7186267914265283,
      "learning_rate": 1.2956352097038527e-06,
      "loss": 0.4985,
      "mean_token_accuracy": 0.8337046504020691,
      "num_tokens": 280226265.0,
      "step": 6777
    },
    {
      "epoch": 0.8958498546127412,
      "grad_norm": 0.810975733796253,
      "learning_rate": 1.2948955184631116e-06,
      "loss": 0.5917,
      "mean_token_accuracy": 0.8059303164482117,
      "num_tokens": 280291801.0,
      "step": 6778
    },
    {
      "epoch": 0.8959820248480043,
      "grad_norm": 0.8008199005682216,
      "learning_rate": 1.2941567224013182e-06,
      "loss": 0.5751,
      "mean_token_accuracy": 0.808631420135498,
      "num_tokens": 280357337.0,
      "step": 6779
    },
    {
      "epoch": 0.8961141950832673,
      "grad_norm": 0.7244545236807256,
      "learning_rate": 1.2934188216757474e-06,
      "loss": 0.5033,
      "mean_token_accuracy": 0.8317665457725525,
      "num_tokens": 280422873.0,
      "step": 6780
    },
    {
      "epoch": 0.8962463653185303,
      "grad_norm": 0.8723628574091785,
      "learning_rate": 1.2926818164434823e-06,
      "loss": 0.6906,
      "mean_token_accuracy": 0.7740965485572815,
      "num_tokens": 280488409.0,
      "step": 6781
    },
    {
      "epoch": 0.8963785355537933,
      "grad_norm": 1.1650327319970584,
      "learning_rate": 1.2919457068614152e-06,
      "loss": 0.5583,
      "mean_token_accuracy": 0.8147662281990051,
      "num_tokens": 280553945.0,
      "step": 6782
    },
    {
      "epoch": 0.8965107057890563,
      "grad_norm": 0.8240585909880606,
      "learning_rate": 1.2912104930862505e-06,
      "loss": 0.559,
      "mean_token_accuracy": 0.8141099810600281,
      "num_tokens": 280619481.0,
      "step": 6783
    },
    {
      "epoch": 0.8966428760243194,
      "grad_norm": 0.7768288436979256,
      "learning_rate": 1.290476175274498e-06,
      "loss": 0.5365,
      "mean_token_accuracy": 0.8217403292655945,
      "num_tokens": 280685017.0,
      "step": 6784
    },
    {
      "epoch": 0.8967750462595824,
      "grad_norm": 0.7727366491815673,
      "learning_rate": 1.2897427535824788e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8165059089660645,
      "num_tokens": 280750553.0,
      "step": 6785
    },
    {
      "epoch": 0.8969072164948454,
      "grad_norm": 0.802528464660676,
      "learning_rate": 1.2890102281663243e-06,
      "loss": 0.548,
      "mean_token_accuracy": 0.8150408864021301,
      "num_tokens": 280816089.0,
      "step": 6786
    },
    {
      "epoch": 0.8970393867301084,
      "grad_norm": 0.7713981564961938,
      "learning_rate": 1.2882785991819727e-06,
      "loss": 0.5716,
      "mean_token_accuracy": 0.8110731244087219,
      "num_tokens": 280881625.0,
      "step": 6787
    },
    {
      "epoch": 0.8971715569653714,
      "grad_norm": 0.7364649973477226,
      "learning_rate": 1.2875478667851732e-06,
      "loss": 0.5262,
      "mean_token_accuracy": 0.8261353969573975,
      "num_tokens": 280947161.0,
      "step": 6788
    },
    {
      "epoch": 0.8973037272006344,
      "grad_norm": 0.7651025890420232,
      "learning_rate": 1.2868180311314824e-06,
      "loss": 0.5712,
      "mean_token_accuracy": 0.8090282082557678,
      "num_tokens": 281012697.0,
      "step": 6789
    },
    {
      "epoch": 0.8974358974358975,
      "grad_norm": 0.7756527419141382,
      "learning_rate": 1.2860890923762693e-06,
      "loss": 0.5332,
      "mean_token_accuracy": 0.8241515159606934,
      "num_tokens": 281078233.0,
      "step": 6790
    },
    {
      "epoch": 0.8975680676711605,
      "grad_norm": 0.8244098167649152,
      "learning_rate": 1.2853610506747074e-06,
      "loss": 0.6099,
      "mean_token_accuracy": 0.8006806373596191,
      "num_tokens": 281143769.0,
      "step": 6791
    },
    {
      "epoch": 0.8977002379064235,
      "grad_norm": 0.8184031011931584,
      "learning_rate": 1.2846339061817823e-06,
      "loss": 0.594,
      "mean_token_accuracy": 0.8019624948501587,
      "num_tokens": 281209305.0,
      "step": 6792
    },
    {
      "epoch": 0.8978324081416865,
      "grad_norm": 0.7934238416801649,
      "learning_rate": 1.2839076590522878e-06,
      "loss": 0.5571,
      "mean_token_accuracy": 0.8147814869880676,
      "num_tokens": 281274841.0,
      "step": 6793
    },
    {
      "epoch": 0.8979645783769495,
      "grad_norm": 0.7789987054095131,
      "learning_rate": 1.2831823094408283e-06,
      "loss": 0.5674,
      "mean_token_accuracy": 0.8110578656196594,
      "num_tokens": 281340377.0,
      "step": 6794
    },
    {
      "epoch": 0.8980967486122126,
      "grad_norm": 0.7590749402488082,
      "learning_rate": 1.2824578575018127e-06,
      "loss": 0.555,
      "mean_token_accuracy": 0.8125839233398438,
      "num_tokens": 281405913.0,
      "step": 6795
    },
    {
      "epoch": 0.8982289188474756,
      "grad_norm": 0.8324046233863449,
      "learning_rate": 1.2817343033894647e-06,
      "loss": 0.5997,
      "mean_token_accuracy": 0.798040509223938,
      "num_tokens": 281471449.0,
      "step": 6796
    },
    {
      "epoch": 0.8983610890827386,
      "grad_norm": 0.8031972266902873,
      "learning_rate": 1.281011647257812e-06,
      "loss": 0.5843,
      "mean_token_accuracy": 0.8044958114624023,
      "num_tokens": 281536985.0,
      "step": 6797
    },
    {
      "epoch": 0.8984932593180016,
      "grad_norm": 0.8258151017824366,
      "learning_rate": 1.2802898892606933e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8152545690536499,
      "num_tokens": 281602521.0,
      "step": 6798
    },
    {
      "epoch": 0.8986254295532646,
      "grad_norm": 0.7553948651091037,
      "learning_rate": 1.279569029551756e-06,
      "loss": 0.5345,
      "mean_token_accuracy": 0.8209467530250549,
      "num_tokens": 281668057.0,
      "step": 6799
    },
    {
      "epoch": 0.8987575997885277,
      "grad_norm": 0.7354855045983566,
      "learning_rate": 1.2788490682844562e-06,
      "loss": 0.5005,
      "mean_token_accuracy": 0.8325753808021545,
      "num_tokens": 281733593.0,
      "step": 6800
    },
    {
      "epoch": 0.8988897700237907,
      "grad_norm": 0.7949837655043474,
      "learning_rate": 1.2781300056120573e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8093181252479553,
      "num_tokens": 281799129.0,
      "step": 6801
    },
    {
      "epoch": 0.8990219402590537,
      "grad_norm": 0.7728113626740293,
      "learning_rate": 1.2774118416876359e-06,
      "loss": 0.5292,
      "mean_token_accuracy": 0.8242430686950684,
      "num_tokens": 281864665.0,
      "step": 6802
    },
    {
      "epoch": 0.8991541104943167,
      "grad_norm": 0.8549477579725306,
      "learning_rate": 1.2766945766640709e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.7888689041137695,
      "num_tokens": 281930201.0,
      "step": 6803
    },
    {
      "epoch": 0.8992862807295797,
      "grad_norm": 0.7889458919728869,
      "learning_rate": 1.2759782106940553e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 281995737.0,
      "step": 6804
    },
    {
      "epoch": 0.8994184509648427,
      "grad_norm": 0.8112526714361794,
      "learning_rate": 1.2752627439300866e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8051825165748596,
      "num_tokens": 282061273.0,
      "step": 6805
    },
    {
      "epoch": 0.8995506212001058,
      "grad_norm": 0.8050234790238661,
      "learning_rate": 1.2745481765244734e-06,
      "loss": 0.5484,
      "mean_token_accuracy": 0.8184897899627686,
      "num_tokens": 282126809.0,
      "step": 6806
    },
    {
      "epoch": 0.8996827914353688,
      "grad_norm": 0.8191589363438689,
      "learning_rate": 1.2738345086293324e-06,
      "loss": 0.565,
      "mean_token_accuracy": 0.8138353228569031,
      "num_tokens": 282192345.0,
      "step": 6807
    },
    {
      "epoch": 0.8998149616706318,
      "grad_norm": 0.8109415491169552,
      "learning_rate": 1.2731217403965887e-06,
      "loss": 0.5488,
      "mean_token_accuracy": 0.8156971335411072,
      "num_tokens": 282257881.0,
      "step": 6808
    },
    {
      "epoch": 0.8999471319058948,
      "grad_norm": 0.7916046251290391,
      "learning_rate": 1.2724098719779762e-06,
      "loss": 0.6167,
      "mean_token_accuracy": 0.7955988049507141,
      "num_tokens": 282323417.0,
      "step": 6809
    },
    {
      "epoch": 0.9000793021411578,
      "grad_norm": 0.8081840506347974,
      "learning_rate": 1.2716989035250353e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.8007416725158691,
      "num_tokens": 282388953.0,
      "step": 6810
    },
    {
      "epoch": 0.9002114723764209,
      "grad_norm": 0.808903284243127,
      "learning_rate": 1.2709888351891175e-06,
      "loss": 0.5746,
      "mean_token_accuracy": 0.8112104535102844,
      "num_tokens": 282454489.0,
      "step": 6811
    },
    {
      "epoch": 0.9003436426116839,
      "grad_norm": 0.7605412434976915,
      "learning_rate": 1.270279667121381e-06,
      "loss": 0.5528,
      "mean_token_accuracy": 0.8154376745223999,
      "num_tokens": 282520025.0,
      "step": 6812
    },
    {
      "epoch": 0.9004758128469469,
      "grad_norm": 0.7915810558610363,
      "learning_rate": 1.2695713994727943e-06,
      "loss": 0.5218,
      "mean_token_accuracy": 0.8248382210731506,
      "num_tokens": 282585561.0,
      "step": 6813
    },
    {
      "epoch": 0.9006079830822099,
      "grad_norm": 0.8553774299404842,
      "learning_rate": 1.2688640323941302e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8050146698951721,
      "num_tokens": 282651097.0,
      "step": 6814
    },
    {
      "epoch": 0.9007401533174729,
      "grad_norm": 0.7963916424478007,
      "learning_rate": 1.268157566035975e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8023592829704285,
      "num_tokens": 282716633.0,
      "step": 6815
    },
    {
      "epoch": 0.9008723235527359,
      "grad_norm": 0.813262483824224,
      "learning_rate": 1.267452000548719e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.8099285960197449,
      "num_tokens": 282782169.0,
      "step": 6816
    },
    {
      "epoch": 0.901004493787999,
      "grad_norm": 0.8205920690459463,
      "learning_rate": 1.2667473360825635e-06,
      "loss": 0.6168,
      "mean_token_accuracy": 0.7952936291694641,
      "num_tokens": 282847705.0,
      "step": 6817
    },
    {
      "epoch": 0.901136664023262,
      "grad_norm": 0.8095564263043036,
      "learning_rate": 1.2660435727875148e-06,
      "loss": 0.5822,
      "mean_token_accuracy": 0.807547926902771,
      "num_tokens": 282913241.0,
      "step": 6818
    },
    {
      "epoch": 0.901268834258525,
      "grad_norm": 0.7907839535129795,
      "learning_rate": 1.265340710813392e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8080362677574158,
      "num_tokens": 282978777.0,
      "step": 6819
    },
    {
      "epoch": 0.901401004493788,
      "grad_norm": 0.8387125828460538,
      "learning_rate": 1.2646387503098179e-06,
      "loss": 0.582,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 283044313.0,
      "step": 6820
    },
    {
      "epoch": 0.901533174729051,
      "grad_norm": 0.8178268110151647,
      "learning_rate": 1.263937691426226e-06,
      "loss": 0.5897,
      "mean_token_accuracy": 0.8035343885421753,
      "num_tokens": 283109849.0,
      "step": 6821
    },
    {
      "epoch": 0.901665344964314,
      "grad_norm": 0.8160139515781192,
      "learning_rate": 1.263237534311857e-06,
      "loss": 0.5805,
      "mean_token_accuracy": 0.8056708574295044,
      "num_tokens": 283175385.0,
      "step": 6822
    },
    {
      "epoch": 0.9017975151995771,
      "grad_norm": 0.804767050915747,
      "learning_rate": 1.2625382791157604e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8049688935279846,
      "num_tokens": 283240921.0,
      "step": 6823
    },
    {
      "epoch": 0.9019296854348401,
      "grad_norm": 0.7740885779539927,
      "learning_rate": 1.261839925986792e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8153613805770874,
      "num_tokens": 283306457.0,
      "step": 6824
    },
    {
      "epoch": 0.9020618556701031,
      "grad_norm": 0.8250288103026598,
      "learning_rate": 1.2611424750736164e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8055793046951294,
      "num_tokens": 283371993.0,
      "step": 6825
    },
    {
      "epoch": 0.9021940259053661,
      "grad_norm": 0.8054973461508083,
      "learning_rate": 1.260445926524707e-06,
      "loss": 0.5772,
      "mean_token_accuracy": 0.8071969151496887,
      "num_tokens": 283437529.0,
      "step": 6826
    },
    {
      "epoch": 0.9023261961406291,
      "grad_norm": 0.7801092864901829,
      "learning_rate": 1.2597502804883444e-06,
      "loss": 0.5784,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 283503065.0,
      "step": 6827
    },
    {
      "epoch": 0.9024583663758922,
      "grad_norm": 0.7891968191439803,
      "learning_rate": 1.2590555371126176e-06,
      "loss": 0.5523,
      "mean_token_accuracy": 0.8154681921005249,
      "num_tokens": 283568601.0,
      "step": 6828
    },
    {
      "epoch": 0.9025905366111552,
      "grad_norm": 0.822172135103826,
      "learning_rate": 1.2583616965454224e-06,
      "loss": 0.5665,
      "mean_token_accuracy": 0.8092418313026428,
      "num_tokens": 283634137.0,
      "step": 6829
    },
    {
      "epoch": 0.9027227068464182,
      "grad_norm": 0.7532899569114393,
      "learning_rate": 1.2576687589344622e-06,
      "loss": 0.5746,
      "mean_token_accuracy": 0.807517409324646,
      "num_tokens": 283699673.0,
      "step": 6830
    },
    {
      "epoch": 0.9028548770816812,
      "grad_norm": 0.8504760401013369,
      "learning_rate": 1.2569767244272498e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8065407276153564,
      "num_tokens": 283765209.0,
      "step": 6831
    },
    {
      "epoch": 0.9029870473169442,
      "grad_norm": 0.7679734173960521,
      "learning_rate": 1.2562855931711056e-06,
      "loss": 0.5348,
      "mean_token_accuracy": 0.8221828937530518,
      "num_tokens": 283830745.0,
      "step": 6832
    },
    {
      "epoch": 0.9031192175522073,
      "grad_norm": 0.8600442573836178,
      "learning_rate": 1.2555953653131556e-06,
      "loss": 0.634,
      "mean_token_accuracy": 0.7894793152809143,
      "num_tokens": 283896281.0,
      "step": 6833
    },
    {
      "epoch": 0.9032513877874703,
      "grad_norm": 0.8126090613958706,
      "learning_rate": 1.2549060410003359e-06,
      "loss": 0.5756,
      "mean_token_accuracy": 0.8092418313026428,
      "num_tokens": 283961817.0,
      "step": 6834
    },
    {
      "epoch": 0.9033835580227333,
      "grad_norm": 0.7810890125978344,
      "learning_rate": 1.2542176203793886e-06,
      "loss": 0.5824,
      "mean_token_accuracy": 0.8042668700218201,
      "num_tokens": 284027353.0,
      "step": 6835
    },
    {
      "epoch": 0.9035157282579963,
      "grad_norm": 0.7936101218006693,
      "learning_rate": 1.2535301035968645e-06,
      "loss": 0.5908,
      "mean_token_accuracy": 0.8024203181266785,
      "num_tokens": 284092889.0,
      "step": 6836
    },
    {
      "epoch": 0.9036478984932593,
      "grad_norm": 0.8026353267005358,
      "learning_rate": 1.2528434907991208e-06,
      "loss": 0.4934,
      "mean_token_accuracy": 0.832651674747467,
      "num_tokens": 284158425.0,
      "step": 6837
    },
    {
      "epoch": 0.9037800687285223,
      "grad_norm": 0.8220150126466291,
      "learning_rate": 1.252157782132325e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8044500350952148,
      "num_tokens": 284223961.0,
      "step": 6838
    },
    {
      "epoch": 0.9039122389637854,
      "grad_norm": 0.8341540467279804,
      "learning_rate": 1.2514729777424476e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8055335283279419,
      "num_tokens": 284289497.0,
      "step": 6839
    },
    {
      "epoch": 0.9040444091990484,
      "grad_norm": 0.7998110127116546,
      "learning_rate": 1.250789077775271e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8004822134971619,
      "num_tokens": 284355033.0,
      "step": 6840
    },
    {
      "epoch": 0.9041765794343114,
      "grad_norm": 0.781358280356795,
      "learning_rate": 1.250106082376382e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8196954131126404,
      "num_tokens": 284420569.0,
      "step": 6841
    },
    {
      "epoch": 0.9043087496695744,
      "grad_norm": 0.8025977585394751,
      "learning_rate": 1.2494239916911782e-06,
      "loss": 0.5555,
      "mean_token_accuracy": 0.8159260153770447,
      "num_tokens": 284486105.0,
      "step": 6842
    },
    {
      "epoch": 0.9044409199048374,
      "grad_norm": 0.7619348889127989,
      "learning_rate": 1.2487428058648593e-06,
      "loss": 0.5134,
      "mean_token_accuracy": 0.8290349245071411,
      "num_tokens": 284551641.0,
      "step": 6843
    },
    {
      "epoch": 0.9045730901401005,
      "grad_norm": 0.8283204725987695,
      "learning_rate": 1.2480625250424377e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8158649802207947,
      "num_tokens": 284617177.0,
      "step": 6844
    },
    {
      "epoch": 0.9047052603753635,
      "grad_norm": 0.7577779753999134,
      "learning_rate": 1.2473831493687305e-06,
      "loss": 0.5548,
      "mean_token_accuracy": 0.8151629567146301,
      "num_tokens": 284682713.0,
      "step": 6845
    },
    {
      "epoch": 0.9048374306106265,
      "grad_norm": 0.8356003648535887,
      "learning_rate": 1.2467046789883624e-06,
      "loss": 0.5719,
      "mean_token_accuracy": 0.8106915950775146,
      "num_tokens": 284748249.0,
      "step": 6846
    },
    {
      "epoch": 0.9049696008458895,
      "grad_norm": 0.7879883427403409,
      "learning_rate": 1.2460271140457662e-06,
      "loss": 0.5374,
      "mean_token_accuracy": 0.8205347061157227,
      "num_tokens": 284813785.0,
      "step": 6847
    },
    {
      "epoch": 0.9051017710811525,
      "grad_norm": 0.9179955349681811,
      "learning_rate": 1.2453504546851802e-06,
      "loss": 0.6273,
      "mean_token_accuracy": 0.792500913143158,
      "num_tokens": 284879321.0,
      "step": 6848
    },
    {
      "epoch": 0.9052339413164155,
      "grad_norm": 0.8072172357672476,
      "learning_rate": 1.2446747010506531e-06,
      "loss": 0.6107,
      "mean_token_accuracy": 0.798940896987915,
      "num_tokens": 284944857.0,
      "step": 6849
    },
    {
      "epoch": 0.9053661115516786,
      "grad_norm": 0.823188232851923,
      "learning_rate": 1.2439998532860355e-06,
      "loss": 0.5571,
      "mean_token_accuracy": 0.8136063814163208,
      "num_tokens": 285010393.0,
      "step": 6850
    },
    {
      "epoch": 0.9054982817869416,
      "grad_norm": 0.7809851125571159,
      "learning_rate": 1.2433259115349914e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8103253841400146,
      "num_tokens": 285075929.0,
      "step": 6851
    },
    {
      "epoch": 0.9056304520222046,
      "grad_norm": 0.8727771072416646,
      "learning_rate": 1.2426528759409874e-06,
      "loss": 0.6031,
      "mean_token_accuracy": 0.7993376851081848,
      "num_tokens": 285141465.0,
      "step": 6852
    },
    {
      "epoch": 0.9057626222574676,
      "grad_norm": 0.8138311203378642,
      "learning_rate": 1.2419807466472987e-06,
      "loss": 0.6166,
      "mean_token_accuracy": 0.7940880060195923,
      "num_tokens": 285207001.0,
      "step": 6853
    },
    {
      "epoch": 0.9058947924927306,
      "grad_norm": 0.8087730966628268,
      "learning_rate": 1.2413095237970089e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8088603615760803,
      "num_tokens": 285272537.0,
      "step": 6854
    },
    {
      "epoch": 0.9060269627279937,
      "grad_norm": 0.7995258990877939,
      "learning_rate": 1.2406392075330063e-06,
      "loss": 0.5553,
      "mean_token_accuracy": 0.812934935092926,
      "num_tokens": 285338073.0,
      "step": 6855
    },
    {
      "epoch": 0.9061591329632567,
      "grad_norm": 0.8296251429812587,
      "learning_rate": 1.2399697979979859e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8044652938842773,
      "num_tokens": 285403609.0,
      "step": 6856
    },
    {
      "epoch": 0.9062913031985197,
      "grad_norm": 0.826860678490439,
      "learning_rate": 1.2393012953344544e-06,
      "loss": 0.5626,
      "mean_token_accuracy": 0.8131332993507385,
      "num_tokens": 285469145.0,
      "step": 6857
    },
    {
      "epoch": 0.9064234734337827,
      "grad_norm": 0.7499961963190721,
      "learning_rate": 1.2386336996847192e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.8143846988677979,
      "num_tokens": 285534681.0,
      "step": 6858
    },
    {
      "epoch": 0.9065556436690457,
      "grad_norm": 0.7843757733293983,
      "learning_rate": 1.237967011190898e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8107068538665771,
      "num_tokens": 285600217.0,
      "step": 6859
    },
    {
      "epoch": 0.9066878139043087,
      "grad_norm": 0.7121056239369065,
      "learning_rate": 1.237301229994916e-06,
      "loss": 0.4805,
      "mean_token_accuracy": 0.84246426820755,
      "num_tokens": 285665753.0,
      "step": 6860
    },
    {
      "epoch": 0.9068199841395718,
      "grad_norm": 0.8014503594497385,
      "learning_rate": 1.2366363562385043e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8043126463890076,
      "num_tokens": 285731289.0,
      "step": 6861
    },
    {
      "epoch": 0.9069521543748348,
      "grad_norm": 0.8229142901583276,
      "learning_rate": 1.235972390063198e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.802252471446991,
      "num_tokens": 285796825.0,
      "step": 6862
    },
    {
      "epoch": 0.9070843246100978,
      "grad_norm": 0.8303840501767213,
      "learning_rate": 1.235309331610344e-06,
      "loss": 0.5672,
      "mean_token_accuracy": 0.8139726519584656,
      "num_tokens": 285862361.0,
      "step": 6863
    },
    {
      "epoch": 0.9072164948453608,
      "grad_norm": 0.8670589886678565,
      "learning_rate": 1.2346471810210928e-06,
      "loss": 0.6029,
      "mean_token_accuracy": 0.7997192144393921,
      "num_tokens": 285927897.0,
      "step": 6864
    },
    {
      "epoch": 0.9073486650806238,
      "grad_norm": 0.8177035674266558,
      "learning_rate": 1.2339859384364034e-06,
      "loss": 0.6259,
      "mean_token_accuracy": 0.7905933260917664,
      "num_tokens": 285993433.0,
      "step": 6865
    },
    {
      "epoch": 0.9074808353158869,
      "grad_norm": 0.8960091796279571,
      "learning_rate": 1.2333256039970392e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8048620223999023,
      "num_tokens": 286058969.0,
      "step": 6866
    },
    {
      "epoch": 0.9076130055511499,
      "grad_norm": 0.7482109642614382,
      "learning_rate": 1.2326661778435719e-06,
      "loss": 0.542,
      "mean_token_accuracy": 0.8195275068283081,
      "num_tokens": 286124505.0,
      "step": 6867
    },
    {
      "epoch": 0.9077451757864129,
      "grad_norm": 0.867468525107464,
      "learning_rate": 1.2320076601163805e-06,
      "loss": 0.6342,
      "mean_token_accuracy": 0.7886247038841248,
      "num_tokens": 286190041.0,
      "step": 6868
    },
    {
      "epoch": 0.9078773460216759,
      "grad_norm": 0.7981895962502873,
      "learning_rate": 1.2313500509556476e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8089061379432678,
      "num_tokens": 286255577.0,
      "step": 6869
    },
    {
      "epoch": 0.9080095162569389,
      "grad_norm": 0.8173694720405723,
      "learning_rate": 1.2306933505013676e-06,
      "loss": 0.6257,
      "mean_token_accuracy": 0.7920888662338257,
      "num_tokens": 286321113.0,
      "step": 6870
    },
    {
      "epoch": 0.908141686492202,
      "grad_norm": 0.8246822571554009,
      "learning_rate": 1.2300375588933355e-06,
      "loss": 0.5716,
      "mean_token_accuracy": 0.8081888556480408,
      "num_tokens": 286386649.0,
      "step": 6871
    },
    {
      "epoch": 0.908273856727465,
      "grad_norm": 0.7574289968392967,
      "learning_rate": 1.2293826762711571e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8171010613441467,
      "num_tokens": 286452185.0,
      "step": 6872
    },
    {
      "epoch": 0.908406026962728,
      "grad_norm": 0.8439915653019349,
      "learning_rate": 1.2287287027742425e-06,
      "loss": 0.6045,
      "mean_token_accuracy": 0.7990477085113525,
      "num_tokens": 286517721.0,
      "step": 6873
    },
    {
      "epoch": 0.908538197197991,
      "grad_norm": 0.7898704716352896,
      "learning_rate": 1.2280756385418104e-06,
      "loss": 0.5763,
      "mean_token_accuracy": 0.8085551261901855,
      "num_tokens": 286583257.0,
      "step": 6874
    },
    {
      "epoch": 0.908670367433254,
      "grad_norm": 0.7555693366805176,
      "learning_rate": 1.2274234837128818e-06,
      "loss": 0.5688,
      "mean_token_accuracy": 0.8124160766601562,
      "num_tokens": 286648793.0,
      "step": 6875
    },
    {
      "epoch": 0.908802537668517,
      "grad_norm": 0.8524820307864304,
      "learning_rate": 1.2267722384262898e-06,
      "loss": 0.5868,
      "mean_token_accuracy": 0.8036412000656128,
      "num_tokens": 286714329.0,
      "step": 6876
    },
    {
      "epoch": 0.9089347079037801,
      "grad_norm": 0.8047861115441365,
      "learning_rate": 1.226121902820669e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.8054572343826294,
      "num_tokens": 286779865.0,
      "step": 6877
    },
    {
      "epoch": 0.9090668781390431,
      "grad_norm": 0.7870391384062053,
      "learning_rate": 1.2254724770344638e-06,
      "loss": 0.5983,
      "mean_token_accuracy": 0.8002685904502869,
      "num_tokens": 286845401.0,
      "step": 6878
    },
    {
      "epoch": 0.9091990483743061,
      "grad_norm": 0.7966689695905197,
      "learning_rate": 1.2248239612059214e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8176199197769165,
      "num_tokens": 286910937.0,
      "step": 6879
    },
    {
      "epoch": 0.9093312186095691,
      "grad_norm": 0.8041607602689901,
      "learning_rate": 1.2241763554730996e-06,
      "loss": 0.5706,
      "mean_token_accuracy": 0.807608962059021,
      "num_tokens": 286976473.0,
      "step": 6880
    },
    {
      "epoch": 0.9094633888448321,
      "grad_norm": 0.746089789739891,
      "learning_rate": 1.2235296599738585e-06,
      "loss": 0.5153,
      "mean_token_accuracy": 0.8276919722557068,
      "num_tokens": 287042009.0,
      "step": 6881
    },
    {
      "epoch": 0.9095955590800952,
      "grad_norm": 0.8043671283600947,
      "learning_rate": 1.222883874845866e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8117445707321167,
      "num_tokens": 287107545.0,
      "step": 6882
    },
    {
      "epoch": 0.9097277293153582,
      "grad_norm": 0.8099156509100972,
      "learning_rate": 1.2222390002265971e-06,
      "loss": 0.576,
      "mean_token_accuracy": 0.8081735968589783,
      "num_tokens": 287173081.0,
      "step": 6883
    },
    {
      "epoch": 0.9098598995506212,
      "grad_norm": 0.7772649315852086,
      "learning_rate": 1.2215950362533324e-06,
      "loss": 0.5037,
      "mean_token_accuracy": 0.8310493230819702,
      "num_tokens": 287238617.0,
      "step": 6884
    },
    {
      "epoch": 0.9099920697858842,
      "grad_norm": 0.7910012633808419,
      "learning_rate": 1.2209519830631576e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8147967457771301,
      "num_tokens": 287304153.0,
      "step": 6885
    },
    {
      "epoch": 0.9101242400211472,
      "grad_norm": 0.8354243220717306,
      "learning_rate": 1.2203098407929644e-06,
      "loss": 0.5525,
      "mean_token_accuracy": 0.8152545690536499,
      "num_tokens": 287369689.0,
      "step": 6886
    },
    {
      "epoch": 0.9102564102564102,
      "grad_norm": 0.8461750718188311,
      "learning_rate": 1.2196686095794543e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8066627979278564,
      "num_tokens": 287435225.0,
      "step": 6887
    },
    {
      "epoch": 0.9103885804916733,
      "grad_norm": 0.738751819296413,
      "learning_rate": 1.2190282895591287e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8122634887695312,
      "num_tokens": 287500761.0,
      "step": 6888
    },
    {
      "epoch": 0.9105207507269363,
      "grad_norm": 0.7701208257767163,
      "learning_rate": 1.218388880868301e-06,
      "loss": 0.5268,
      "mean_token_accuracy": 0.8235868811607361,
      "num_tokens": 287566297.0,
      "step": 6889
    },
    {
      "epoch": 0.9106529209621993,
      "grad_norm": 0.8371793304414238,
      "learning_rate": 1.217750383643087e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7937980890274048,
      "num_tokens": 287631833.0,
      "step": 6890
    },
    {
      "epoch": 0.9107850911974623,
      "grad_norm": 0.8454838564269279,
      "learning_rate": 1.2171127980194087e-06,
      "loss": 0.6185,
      "mean_token_accuracy": 0.7929282188415527,
      "num_tokens": 287697369.0,
      "step": 6891
    },
    {
      "epoch": 0.9109172614327253,
      "grad_norm": 0.8946273617282117,
      "learning_rate": 1.2164761241329962e-06,
      "loss": 0.5914,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 287762905.0,
      "step": 6892
    },
    {
      "epoch": 0.9110494316679884,
      "grad_norm": 0.8177766842157445,
      "learning_rate": 1.2158403621193833e-06,
      "loss": 0.6117,
      "mean_token_accuracy": 0.7962092757225037,
      "num_tokens": 287828441.0,
      "step": 6893
    },
    {
      "epoch": 0.9111816019032514,
      "grad_norm": 0.7652724404828075,
      "learning_rate": 1.21520551211391e-06,
      "loss": 0.5089,
      "mean_token_accuracy": 0.8319802284240723,
      "num_tokens": 287893977.0,
      "step": 6894
    },
    {
      "epoch": 0.9113137721385144,
      "grad_norm": 0.7705577421371915,
      "learning_rate": 1.2145715742517236e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.8216182589530945,
      "num_tokens": 287959513.0,
      "step": 6895
    },
    {
      "epoch": 0.9114459423737774,
      "grad_norm": 0.883129253856394,
      "learning_rate": 1.213938548667775e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.7969112396240234,
      "num_tokens": 288025049.0,
      "step": 6896
    },
    {
      "epoch": 0.9115781126090404,
      "grad_norm": 0.8092287564898217,
      "learning_rate": 1.213306435496824e-06,
      "loss": 0.5789,
      "mean_token_accuracy": 0.8074105978012085,
      "num_tokens": 288090585.0,
      "step": 6897
    },
    {
      "epoch": 0.9117102828443034,
      "grad_norm": 0.7842003707378011,
      "learning_rate": 1.2126752348734318e-06,
      "loss": 0.5665,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 288156121.0,
      "step": 6898
    },
    {
      "epoch": 0.9118424530795665,
      "grad_norm": 0.7711198283643762,
      "learning_rate": 1.21204494693197e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.8191460371017456,
      "num_tokens": 288221657.0,
      "step": 6899
    },
    {
      "epoch": 0.9119746233148295,
      "grad_norm": 0.8640483466864699,
      "learning_rate": 1.2114155718066128e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.8008179664611816,
      "num_tokens": 288287193.0,
      "step": 6900
    },
    {
      "epoch": 0.9121067935500925,
      "grad_norm": 0.7916245159918175,
      "learning_rate": 1.2107871096313414e-06,
      "loss": 0.6011,
      "mean_token_accuracy": 0.7979642152786255,
      "num_tokens": 288352729.0,
      "step": 6901
    },
    {
      "epoch": 0.9122389637853555,
      "grad_norm": 0.8477646676588952,
      "learning_rate": 1.2101595605399417e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7863814234733582,
      "num_tokens": 288418265.0,
      "step": 6902
    },
    {
      "epoch": 0.9123711340206185,
      "grad_norm": 0.8810065430558699,
      "learning_rate": 1.2095329246660068e-06,
      "loss": 0.6649,
      "mean_token_accuracy": 0.7797277569770813,
      "num_tokens": 288483801.0,
      "step": 6903
    },
    {
      "epoch": 0.9125033042558816,
      "grad_norm": 0.794368219592678,
      "learning_rate": 1.2089072021429328e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.8231443166732788,
      "num_tokens": 288549337.0,
      "step": 6904
    },
    {
      "epoch": 0.9126354744911446,
      "grad_norm": 0.8002434995308597,
      "learning_rate": 1.2082823931039243e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8132554292678833,
      "num_tokens": 288614873.0,
      "step": 6905
    },
    {
      "epoch": 0.9127676447264076,
      "grad_norm": 0.7766543633345133,
      "learning_rate": 1.2076584976819903e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.8179709315299988,
      "num_tokens": 288680409.0,
      "step": 6906
    },
    {
      "epoch": 0.9128998149616706,
      "grad_norm": 0.7650654374179398,
      "learning_rate": 1.2070355160099435e-06,
      "loss": 0.5048,
      "mean_token_accuracy": 0.8328653573989868,
      "num_tokens": 288745945.0,
      "step": 6907
    },
    {
      "epoch": 0.9130319851969336,
      "grad_norm": 0.7979302859203596,
      "learning_rate": 1.206413448220405e-06,
      "loss": 0.5752,
      "mean_token_accuracy": 0.8098675608634949,
      "num_tokens": 288811481.0,
      "step": 6908
    },
    {
      "epoch": 0.9131641554321966,
      "grad_norm": 0.7701457537982913,
      "learning_rate": 1.2057922944457997e-06,
      "loss": 0.5616,
      "mean_token_accuracy": 0.8126602172851562,
      "num_tokens": 288877017.0,
      "step": 6909
    },
    {
      "epoch": 0.9132963256674597,
      "grad_norm": 0.8048838804535126,
      "learning_rate": 1.2051720548183594e-06,
      "loss": 0.5576,
      "mean_token_accuracy": 0.8133469820022583,
      "num_tokens": 288942553.0,
      "step": 6910
    },
    {
      "epoch": 0.9134284959027227,
      "grad_norm": 0.8355381346733409,
      "learning_rate": 1.204552729470117e-06,
      "loss": 0.5365,
      "mean_token_accuracy": 0.8201074600219727,
      "num_tokens": 289008089.0,
      "step": 6911
    },
    {
      "epoch": 0.9135606661379857,
      "grad_norm": 0.8609504276576709,
      "learning_rate": 1.203934318532918e-06,
      "loss": 0.6079,
      "mean_token_accuracy": 0.7950494289398193,
      "num_tokens": 289073625.0,
      "step": 6912
    },
    {
      "epoch": 0.9136928363732487,
      "grad_norm": 0.8522214414578345,
      "learning_rate": 1.2033168221384063e-06,
      "loss": 0.5926,
      "mean_token_accuracy": 0.8048162460327148,
      "num_tokens": 289139161.0,
      "step": 6913
    },
    {
      "epoch": 0.9138250066085117,
      "grad_norm": 0.8071768121787605,
      "learning_rate": 1.2027002404180346e-06,
      "loss": 0.5108,
      "mean_token_accuracy": 0.8314308524131775,
      "num_tokens": 289204697.0,
      "step": 6914
    },
    {
      "epoch": 0.9139571768437748,
      "grad_norm": 0.7979800271589292,
      "learning_rate": 1.2020845735030609e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8094707727432251,
      "num_tokens": 289270233.0,
      "step": 6915
    },
    {
      "epoch": 0.9140893470790378,
      "grad_norm": 0.8115840332251755,
      "learning_rate": 1.2014698215245482e-06,
      "loss": 0.5593,
      "mean_token_accuracy": 0.8150714039802551,
      "num_tokens": 289335769.0,
      "step": 6916
    },
    {
      "epoch": 0.9142215173143008,
      "grad_norm": 0.7523465618351749,
      "learning_rate": 1.200855984613362e-06,
      "loss": 0.5462,
      "mean_token_accuracy": 0.816643238067627,
      "num_tokens": 289401305.0,
      "step": 6917
    },
    {
      "epoch": 0.9143536875495638,
      "grad_norm": 0.8578546874697824,
      "learning_rate": 1.2002430629001784e-06,
      "loss": 0.5734,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 289466841.0,
      "step": 6918
    },
    {
      "epoch": 0.9144858577848268,
      "grad_norm": 0.7503591618673211,
      "learning_rate": 1.1996310565154737e-06,
      "loss": 0.5136,
      "mean_token_accuracy": 0.8310493230819702,
      "num_tokens": 289532377.0,
      "step": 6919
    },
    {
      "epoch": 0.9146180280200898,
      "grad_norm": 0.8743296505473898,
      "learning_rate": 1.1990199655895315e-06,
      "loss": 0.5595,
      "mean_token_accuracy": 0.8111705780029297,
      "num_tokens": 289593080.0,
      "step": 6920
    },
    {
      "epoch": 0.9147501982553529,
      "grad_norm": 0.8527721913331153,
      "learning_rate": 1.1984097902524412e-06,
      "loss": 0.6072,
      "mean_token_accuracy": 0.7969417572021484,
      "num_tokens": 289658616.0,
      "step": 6921
    },
    {
      "epoch": 0.9148823684906159,
      "grad_norm": 0.825317103164756,
      "learning_rate": 1.1978005306340963e-06,
      "loss": 0.6134,
      "mean_token_accuracy": 0.7959192991256714,
      "num_tokens": 289724152.0,
      "step": 6922
    },
    {
      "epoch": 0.9150145387258789,
      "grad_norm": 0.8376227032050024,
      "learning_rate": 1.1971921868641942e-06,
      "loss": 0.5863,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 289789688.0,
      "step": 6923
    },
    {
      "epoch": 0.9151467089611419,
      "grad_norm": 0.7259992268855976,
      "learning_rate": 1.1965847590722394e-06,
      "loss": 0.4908,
      "mean_token_accuracy": 0.8344066739082336,
      "num_tokens": 289855224.0,
      "step": 6924
    },
    {
      "epoch": 0.9152788791964049,
      "grad_norm": 0.766154668263769,
      "learning_rate": 1.195978247387541e-06,
      "loss": 0.5931,
      "mean_token_accuracy": 0.8026187419891357,
      "num_tokens": 289920760.0,
      "step": 6925
    },
    {
      "epoch": 0.915411049431668,
      "grad_norm": 0.7672394496327167,
      "learning_rate": 1.1953726519392118e-06,
      "loss": 0.5282,
      "mean_token_accuracy": 0.8223354816436768,
      "num_tokens": 289986296.0,
      "step": 6926
    },
    {
      "epoch": 0.915543219666931,
      "grad_norm": 0.8228213559137952,
      "learning_rate": 1.194767972856171e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.8039311170578003,
      "num_tokens": 290051832.0,
      "step": 6927
    },
    {
      "epoch": 0.915675389902194,
      "grad_norm": 0.87683610440394,
      "learning_rate": 1.1941642102671416e-06,
      "loss": 0.5503,
      "mean_token_accuracy": 0.8177115321159363,
      "num_tokens": 290117368.0,
      "step": 6928
    },
    {
      "epoch": 0.915807560137457,
      "grad_norm": 0.8493863723900991,
      "learning_rate": 1.1935613643006532e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8014131188392639,
      "num_tokens": 290182904.0,
      "step": 6929
    },
    {
      "epoch": 0.91593973037272,
      "grad_norm": 0.7865805473847921,
      "learning_rate": 1.1929594350850374e-06,
      "loss": 0.53,
      "mean_token_accuracy": 0.8250824213027954,
      "num_tokens": 290248440.0,
      "step": 6930
    },
    {
      "epoch": 0.916071900607983,
      "grad_norm": 0.7953805375408237,
      "learning_rate": 1.1923584227484345e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.8055487871170044,
      "num_tokens": 290313976.0,
      "step": 6931
    },
    {
      "epoch": 0.9162040708432461,
      "grad_norm": 0.7710442143838908,
      "learning_rate": 1.1917583274187853e-06,
      "loss": 0.5833,
      "mean_token_accuracy": 0.8064796924591064,
      "num_tokens": 290379512.0,
      "step": 6932
    },
    {
      "epoch": 0.9163362410785091,
      "grad_norm": 0.8655524588797561,
      "learning_rate": 1.1911591492238395e-06,
      "loss": 0.613,
      "mean_token_accuracy": 0.7968807220458984,
      "num_tokens": 290445048.0,
      "step": 6933
    },
    {
      "epoch": 0.9164684113137721,
      "grad_norm": 0.7947244043760002,
      "learning_rate": 1.1905608882911475e-06,
      "loss": 0.537,
      "mean_token_accuracy": 0.8205958008766174,
      "num_tokens": 290510584.0,
      "step": 6934
    },
    {
      "epoch": 0.9166005815490351,
      "grad_norm": 0.8219060488106654,
      "learning_rate": 1.1899635447480692e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8080667853355408,
      "num_tokens": 290576120.0,
      "step": 6935
    },
    {
      "epoch": 0.9167327517842981,
      "grad_norm": 0.804228960457871,
      "learning_rate": 1.1893671187217637e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8105542659759521,
      "num_tokens": 290641656.0,
      "step": 6936
    },
    {
      "epoch": 0.9168649220195612,
      "grad_norm": 0.821568736572767,
      "learning_rate": 1.1887716103392002e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8004974722862244,
      "num_tokens": 290707192.0,
      "step": 6937
    },
    {
      "epoch": 0.9169970922548242,
      "grad_norm": 0.8339118279373631,
      "learning_rate": 1.1881770197271489e-06,
      "loss": 0.5452,
      "mean_token_accuracy": 0.8194206953048706,
      "num_tokens": 290772728.0,
      "step": 6938
    },
    {
      "epoch": 0.9171292624900872,
      "grad_norm": 0.8725265637415364,
      "learning_rate": 1.1875833470121855e-06,
      "loss": 0.5995,
      "mean_token_accuracy": 0.8011689782142639,
      "num_tokens": 290838264.0,
      "step": 6939
    },
    {
      "epoch": 0.9172614327253502,
      "grad_norm": 0.7746412637698751,
      "learning_rate": 1.18699059232069e-06,
      "loss": 0.5497,
      "mean_token_accuracy": 0.8192528486251831,
      "num_tokens": 290903800.0,
      "step": 6940
    },
    {
      "epoch": 0.9173936029606132,
      "grad_norm": 0.8889086876453152,
      "learning_rate": 1.1863987557788491e-06,
      "loss": 0.6059,
      "mean_token_accuracy": 0.7991088032722473,
      "num_tokens": 290969336.0,
      "step": 6941
    },
    {
      "epoch": 0.9175257731958762,
      "grad_norm": 0.831051074689173,
      "learning_rate": 1.1858078375126518e-06,
      "loss": 0.5387,
      "mean_token_accuracy": 0.8209620118141174,
      "num_tokens": 291034872.0,
      "step": 6942
    },
    {
      "epoch": 0.9176579434311393,
      "grad_norm": 0.8125498303830377,
      "learning_rate": 1.1852178376478912e-06,
      "loss": 0.5191,
      "mean_token_accuracy": 0.8267000317573547,
      "num_tokens": 291100408.0,
      "step": 6943
    },
    {
      "epoch": 0.9177901136664023,
      "grad_norm": 0.7721709799425079,
      "learning_rate": 1.1846287563101676e-06,
      "loss": 0.5158,
      "mean_token_accuracy": 0.8288212418556213,
      "num_tokens": 291165944.0,
      "step": 6944
    },
    {
      "epoch": 0.9179222839016653,
      "grad_norm": 0.7802657641670389,
      "learning_rate": 1.1840405936248825e-06,
      "loss": 0.5429,
      "mean_token_accuracy": 0.8197869658470154,
      "num_tokens": 291231480.0,
      "step": 6945
    },
    {
      "epoch": 0.9180544541369283,
      "grad_norm": 0.8071589170578632,
      "learning_rate": 1.1834533497172449e-06,
      "loss": 0.5433,
      "mean_token_accuracy": 0.8187492489814758,
      "num_tokens": 291297016.0,
      "step": 6946
    },
    {
      "epoch": 0.9181866243721913,
      "grad_norm": 0.7652753400913389,
      "learning_rate": 1.182867024712266e-06,
      "loss": 0.5335,
      "mean_token_accuracy": 0.8218623995780945,
      "num_tokens": 291362552.0,
      "step": 6947
    },
    {
      "epoch": 0.9183187946074544,
      "grad_norm": 0.8423156077838234,
      "learning_rate": 1.1822816187347625e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8016268014907837,
      "num_tokens": 291428088.0,
      "step": 6948
    },
    {
      "epoch": 0.9184509648427174,
      "grad_norm": 0.7687441086101725,
      "learning_rate": 1.181697131909354e-06,
      "loss": 0.5373,
      "mean_token_accuracy": 0.8198632597923279,
      "num_tokens": 291493624.0,
      "step": 6949
    },
    {
      "epoch": 0.9185831350779804,
      "grad_norm": 0.8087586661446029,
      "learning_rate": 1.1811135643604674e-06,
      "loss": 0.5546,
      "mean_token_accuracy": 0.8146898746490479,
      "num_tokens": 291559160.0,
      "step": 6950
    },
    {
      "epoch": 0.9187153053132434,
      "grad_norm": 0.9376746290409456,
      "learning_rate": 1.1805309162123307e-06,
      "loss": 0.6848,
      "mean_token_accuracy": 0.7720363736152649,
      "num_tokens": 291624696.0,
      "step": 6951
    },
    {
      "epoch": 0.9188474755485064,
      "grad_norm": 0.7926765135659646,
      "learning_rate": 1.1799491875889775e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8066322803497314,
      "num_tokens": 291690232.0,
      "step": 6952
    },
    {
      "epoch": 0.9189796457837694,
      "grad_norm": 0.7822002050904273,
      "learning_rate": 1.1793683786142464e-06,
      "loss": 0.532,
      "mean_token_accuracy": 0.8201074600219727,
      "num_tokens": 291755768.0,
      "step": 6953
    },
    {
      "epoch": 0.9191118160190325,
      "grad_norm": 0.8312604707820546,
      "learning_rate": 1.1787884894117799e-06,
      "loss": 0.5561,
      "mean_token_accuracy": 0.8165974617004395,
      "num_tokens": 291821304.0,
      "step": 6954
    },
    {
      "epoch": 0.9192439862542955,
      "grad_norm": 0.7957631096678106,
      "learning_rate": 1.1782095201050234e-06,
      "loss": 0.5524,
      "mean_token_accuracy": 0.8179556727409363,
      "num_tokens": 291886840.0,
      "step": 6955
    },
    {
      "epoch": 0.9193761564895585,
      "grad_norm": 0.7957688725579634,
      "learning_rate": 1.1776314708172267e-06,
      "loss": 0.5537,
      "mean_token_accuracy": 0.8131638169288635,
      "num_tokens": 291952376.0,
      "step": 6956
    },
    {
      "epoch": 0.9195083267248215,
      "grad_norm": 0.8196299325102354,
      "learning_rate": 1.1770543416714458e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 292017912.0,
      "step": 6957
    },
    {
      "epoch": 0.9196404969600845,
      "grad_norm": 0.8008095644756126,
      "learning_rate": 1.1764781327905398e-06,
      "loss": 0.5469,
      "mean_token_accuracy": 0.8187339901924133,
      "num_tokens": 292083448.0,
      "step": 6958
    },
    {
      "epoch": 0.9197726671953476,
      "grad_norm": 0.84646051352696,
      "learning_rate": 1.1759028442971692e-06,
      "loss": 0.5898,
      "mean_token_accuracy": 0.8047857284545898,
      "num_tokens": 292148984.0,
      "step": 6959
    },
    {
      "epoch": 0.9199048374306106,
      "grad_norm": 0.8280520954151015,
      "learning_rate": 1.1753284763138034e-06,
      "loss": 0.5738,
      "mean_token_accuracy": 0.812187135219574,
      "num_tokens": 292214520.0,
      "step": 6960
    },
    {
      "epoch": 0.9200370076658736,
      "grad_norm": 0.796303204540926,
      "learning_rate": 1.1747550289627121e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8119277358055115,
      "num_tokens": 292280056.0,
      "step": 6961
    },
    {
      "epoch": 0.9201691779011366,
      "grad_norm": 0.8278292029998086,
      "learning_rate": 1.17418250236597e-06,
      "loss": 0.6096,
      "mean_token_accuracy": 0.7970943450927734,
      "num_tokens": 292345592.0,
      "step": 6962
    },
    {
      "epoch": 0.9203013481363996,
      "grad_norm": 0.7212981400528174,
      "learning_rate": 1.1736108966454577e-06,
      "loss": 0.5156,
      "mean_token_accuracy": 0.8286228775978088,
      "num_tokens": 292411128.0,
      "step": 6963
    },
    {
      "epoch": 0.9204335183716627,
      "grad_norm": 0.8193593350942555,
      "learning_rate": 1.1730402119228565e-06,
      "loss": 0.5395,
      "mean_token_accuracy": 0.818260908126831,
      "num_tokens": 292476664.0,
      "step": 6964
    },
    {
      "epoch": 0.9205656886069257,
      "grad_norm": 0.8140971294286744,
      "learning_rate": 1.1724704483196532e-06,
      "loss": 0.5943,
      "mean_token_accuracy": 0.8009705543518066,
      "num_tokens": 292542200.0,
      "step": 6965
    },
    {
      "epoch": 0.9206978588421887,
      "grad_norm": 0.8200899041468394,
      "learning_rate": 1.1719016059571396e-06,
      "loss": 0.5611,
      "mean_token_accuracy": 0.8137590289115906,
      "num_tokens": 292607736.0,
      "step": 6966
    },
    {
      "epoch": 0.9208300290774517,
      "grad_norm": 0.7723174714135206,
      "learning_rate": 1.1713336849564104e-06,
      "loss": 0.5438,
      "mean_token_accuracy": 0.818291425704956,
      "num_tokens": 292673272.0,
      "step": 6967
    },
    {
      "epoch": 0.9209621993127147,
      "grad_norm": 0.7502595633267325,
      "learning_rate": 1.170766685438363e-06,
      "loss": 0.5008,
      "mean_token_accuracy": 0.8337046504020691,
      "num_tokens": 292738808.0,
      "step": 6968
    },
    {
      "epoch": 0.9210943695479777,
      "grad_norm": 0.7638546649540577,
      "learning_rate": 1.1702006075237004e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.822747528553009,
      "num_tokens": 292804344.0,
      "step": 6969
    },
    {
      "epoch": 0.9212265397832408,
      "grad_norm": 0.7264783182474376,
      "learning_rate": 1.1696354513329284e-06,
      "loss": 0.5057,
      "mean_token_accuracy": 0.8309425115585327,
      "num_tokens": 292869880.0,
      "step": 6970
    },
    {
      "epoch": 0.9213587100185038,
      "grad_norm": 0.7808488316562704,
      "learning_rate": 1.1690712169863584e-06,
      "loss": 0.5716,
      "mean_token_accuracy": 0.8090739846229553,
      "num_tokens": 292935416.0,
      "step": 6971
    },
    {
      "epoch": 0.9214908802537668,
      "grad_norm": 0.8102452646813958,
      "learning_rate": 1.1685079046041018e-06,
      "loss": 0.579,
      "mean_token_accuracy": 0.8060066103935242,
      "num_tokens": 293000952.0,
      "step": 6972
    },
    {
      "epoch": 0.9216230504890298,
      "grad_norm": 0.7834230916421561,
      "learning_rate": 1.1679455143060785e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8092876076698303,
      "num_tokens": 293066488.0,
      "step": 6973
    },
    {
      "epoch": 0.9217552207242928,
      "grad_norm": 0.8175125482842281,
      "learning_rate": 1.1673840462120077e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.7979947328567505,
      "num_tokens": 293132024.0,
      "step": 6974
    },
    {
      "epoch": 0.921887390959556,
      "grad_norm": 0.7506375822884619,
      "learning_rate": 1.1668235004414146e-06,
      "loss": 0.5774,
      "mean_token_accuracy": 0.8077768087387085,
      "num_tokens": 293197560.0,
      "step": 6975
    },
    {
      "epoch": 0.922019561194819,
      "grad_norm": 0.8363614534323859,
      "learning_rate": 1.1662638771136283e-06,
      "loss": 0.6342,
      "mean_token_accuracy": 0.7867323756217957,
      "num_tokens": 293263096.0,
      "step": 6976
    },
    {
      "epoch": 0.922151731430082,
      "grad_norm": 0.7889835747186271,
      "learning_rate": 1.1657051763477814e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8042363524436951,
      "num_tokens": 293328632.0,
      "step": 6977
    },
    {
      "epoch": 0.922283901665345,
      "grad_norm": 0.8105708663672525,
      "learning_rate": 1.165147398262808e-06,
      "loss": 0.5874,
      "mean_token_accuracy": 0.8064186573028564,
      "num_tokens": 293394168.0,
      "step": 6978
    },
    {
      "epoch": 0.922416071900608,
      "grad_norm": 0.7512472224953757,
      "learning_rate": 1.1645905429774487e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8223659992218018,
      "num_tokens": 293459704.0,
      "step": 6979
    },
    {
      "epoch": 0.922548242135871,
      "grad_norm": 0.7901294032993794,
      "learning_rate": 1.1640346106102457e-06,
      "loss": 0.5233,
      "mean_token_accuracy": 0.8218929171562195,
      "num_tokens": 293525240.0,
      "step": 6980
    },
    {
      "epoch": 0.9226804123711341,
      "grad_norm": 0.7543773126646033,
      "learning_rate": 1.1634796012795458e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.817360520362854,
      "num_tokens": 293590776.0,
      "step": 6981
    },
    {
      "epoch": 0.9228125826063971,
      "grad_norm": 0.768921982462381,
      "learning_rate": 1.1629255151034992e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8189323544502258,
      "num_tokens": 293656312.0,
      "step": 6982
    },
    {
      "epoch": 0.9229447528416601,
      "grad_norm": 0.8025292444632043,
      "learning_rate": 1.1623723522000585e-06,
      "loss": 0.6098,
      "mean_token_accuracy": 0.7999480962753296,
      "num_tokens": 293721848.0,
      "step": 6983
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.7605384342804723,
      "learning_rate": 1.161820112686981e-06,
      "loss": 0.5852,
      "mean_token_accuracy": 0.8037022352218628,
      "num_tokens": 293787384.0,
      "step": 6984
    },
    {
      "epoch": 0.9232090933121861,
      "grad_norm": 0.8556047848195346,
      "learning_rate": 1.1612687966818265e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8040074706077576,
      "num_tokens": 293852920.0,
      "step": 6985
    },
    {
      "epoch": 0.9233412635474492,
      "grad_norm": 0.8060580553565084,
      "learning_rate": 1.1607184043019596e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8067543506622314,
      "num_tokens": 293918456.0,
      "step": 6986
    },
    {
      "epoch": 0.9234734337827122,
      "grad_norm": 0.7894311869037173,
      "learning_rate": 1.160168935664546e-06,
      "loss": 0.5798,
      "mean_token_accuracy": 0.8088297843933105,
      "num_tokens": 293983992.0,
      "step": 6987
    },
    {
      "epoch": 0.9236056040179752,
      "grad_norm": 0.7384493888875767,
      "learning_rate": 1.1596203908865573e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8122634887695312,
      "num_tokens": 294049528.0,
      "step": 6988
    },
    {
      "epoch": 0.9237377742532382,
      "grad_norm": 0.7414965738724107,
      "learning_rate": 1.1590727700847666e-06,
      "loss": 0.5227,
      "mean_token_accuracy": 0.8277377486228943,
      "num_tokens": 294115064.0,
      "step": 6989
    },
    {
      "epoch": 0.9238699444885012,
      "grad_norm": 0.7968397079495579,
      "learning_rate": 1.1585260733757513e-06,
      "loss": 0.6133,
      "mean_token_accuracy": 0.7956140637397766,
      "num_tokens": 294180600.0,
      "step": 6990
    },
    {
      "epoch": 0.9240021147237643,
      "grad_norm": 0.8899675086022268,
      "learning_rate": 1.157980300875891e-06,
      "loss": 0.6375,
      "mean_token_accuracy": 0.7900286912918091,
      "num_tokens": 294246136.0,
      "step": 6991
    },
    {
      "epoch": 0.9241342849590273,
      "grad_norm": 0.8437726064821701,
      "learning_rate": 1.1574354527013708e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7909748554229736,
      "num_tokens": 294311672.0,
      "step": 6992
    },
    {
      "epoch": 0.9242664551942903,
      "grad_norm": 0.7813236513563739,
      "learning_rate": 1.1568915289681755e-06,
      "loss": 0.538,
      "mean_token_accuracy": 0.8198937773704529,
      "num_tokens": 294377208.0,
      "step": 6993
    },
    {
      "epoch": 0.9243986254295533,
      "grad_norm": 0.8077817817144756,
      "learning_rate": 1.1563485297920963e-06,
      "loss": 0.573,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 294442744.0,
      "step": 6994
    },
    {
      "epoch": 0.9245307956648163,
      "grad_norm": 0.8866107535093434,
      "learning_rate": 1.1558064552887267e-06,
      "loss": 0.627,
      "mean_token_accuracy": 0.792256772518158,
      "num_tokens": 294508280.0,
      "step": 6995
    },
    {
      "epoch": 0.9246629659000793,
      "grad_norm": 0.7710076451194415,
      "learning_rate": 1.1552653055734627e-06,
      "loss": 0.5858,
      "mean_token_accuracy": 0.8055182695388794,
      "num_tokens": 294573816.0,
      "step": 6996
    },
    {
      "epoch": 0.9247951361353424,
      "grad_norm": 0.7915117252777665,
      "learning_rate": 1.1547250807615022e-06,
      "loss": 0.5655,
      "mean_token_accuracy": 0.8102337718009949,
      "num_tokens": 294639352.0,
      "step": 6997
    },
    {
      "epoch": 0.9249273063706054,
      "grad_norm": 0.7628539146382644,
      "learning_rate": 1.154185780967851e-06,
      "loss": 0.5315,
      "mean_token_accuracy": 0.8206415772438049,
      "num_tokens": 294704888.0,
      "step": 6998
    },
    {
      "epoch": 0.9250594766058684,
      "grad_norm": 0.764609411306798,
      "learning_rate": 1.1536474063073119e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8104779720306396,
      "num_tokens": 294770424.0,
      "step": 6999
    },
    {
      "epoch": 0.9251916468411314,
      "grad_norm": 0.8029767417339665,
      "learning_rate": 1.1531099568944953e-06,
      "loss": 0.5604,
      "mean_token_accuracy": 0.8137131929397583,
      "num_tokens": 294835960.0,
      "step": 7000
    },
    {
      "epoch": 0.9253238170763944,
      "grad_norm": 0.7582984528715253,
      "learning_rate": 1.1525734328438116e-06,
      "loss": 0.5368,
      "mean_token_accuracy": 0.8209467530250549,
      "num_tokens": 294901496.0,
      "step": 7001
    },
    {
      "epoch": 0.9254559873116575,
      "grad_norm": 0.7762084413832052,
      "learning_rate": 1.1520378342694765e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8101269602775574,
      "num_tokens": 294967032.0,
      "step": 7002
    },
    {
      "epoch": 0.9255881575469205,
      "grad_norm": 0.8905163697390528,
      "learning_rate": 1.1515031612855077e-06,
      "loss": 0.6355,
      "mean_token_accuracy": 0.7871291637420654,
      "num_tokens": 295032568.0,
      "step": 7003
    },
    {
      "epoch": 0.9257203277821835,
      "grad_norm": 0.8193926219611489,
      "learning_rate": 1.150969414005726e-06,
      "loss": 0.559,
      "mean_token_accuracy": 0.8114241361618042,
      "num_tokens": 295098104.0,
      "step": 7004
    },
    {
      "epoch": 0.9258524980174465,
      "grad_norm": 0.8078650963907992,
      "learning_rate": 1.150436592543755e-06,
      "loss": 0.6183,
      "mean_token_accuracy": 0.7959345579147339,
      "num_tokens": 295163640.0,
      "step": 7005
    },
    {
      "epoch": 0.9259846682527095,
      "grad_norm": 0.7646414742459172,
      "learning_rate": 1.1499046970130206e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 295229176.0,
      "step": 7006
    },
    {
      "epoch": 0.9261168384879725,
      "grad_norm": 0.8128199303902931,
      "learning_rate": 1.1493737275267527e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.806494951248169,
      "num_tokens": 295294712.0,
      "step": 7007
    },
    {
      "epoch": 0.9262490087232356,
      "grad_norm": 0.803744181752357,
      "learning_rate": 1.1488436841979842e-06,
      "loss": 0.5771,
      "mean_token_accuracy": 0.8078378438949585,
      "num_tokens": 295360248.0,
      "step": 7008
    },
    {
      "epoch": 0.9263811789584986,
      "grad_norm": 0.8439487649020755,
      "learning_rate": 1.1483145671395496e-06,
      "loss": 0.5986,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 295425784.0,
      "step": 7009
    },
    {
      "epoch": 0.9265133491937616,
      "grad_norm": 0.7453307751484396,
      "learning_rate": 1.1477863764640864e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8135911226272583,
      "num_tokens": 295491320.0,
      "step": 7010
    },
    {
      "epoch": 0.9266455194290246,
      "grad_norm": 0.8757362865894038,
      "learning_rate": 1.147259112284037e-06,
      "loss": 0.6158,
      "mean_token_accuracy": 0.7921499013900757,
      "num_tokens": 295556856.0,
      "step": 7011
    },
    {
      "epoch": 0.9267776896642876,
      "grad_norm": 0.7714776813453439,
      "learning_rate": 1.1467327747116433e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8013826012611389,
      "num_tokens": 295622392.0,
      "step": 7012
    },
    {
      "epoch": 0.9269098598995507,
      "grad_norm": 0.8266061166109235,
      "learning_rate": 1.1462073638589518e-06,
      "loss": 0.5644,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 295687928.0,
      "step": 7013
    },
    {
      "epoch": 0.9270420301348137,
      "grad_norm": 0.8329052526292713,
      "learning_rate": 1.1456828798378125e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8025577068328857,
      "num_tokens": 295753464.0,
      "step": 7014
    },
    {
      "epoch": 0.9271742003700767,
      "grad_norm": 0.8262741959406091,
      "learning_rate": 1.1451593227598765e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 295819000.0,
      "step": 7015
    },
    {
      "epoch": 0.9273063706053397,
      "grad_norm": 0.7707132388109045,
      "learning_rate": 1.144636692736598e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.812187135219574,
      "num_tokens": 295884536.0,
      "step": 7016
    },
    {
      "epoch": 0.9274385408406027,
      "grad_norm": 0.8296594237791242,
      "learning_rate": 1.1441149898792338e-06,
      "loss": 0.6107,
      "mean_token_accuracy": 0.7969417572021484,
      "num_tokens": 295950072.0,
      "step": 7017
    },
    {
      "epoch": 0.9275707110758658,
      "grad_norm": 0.9453535314627001,
      "learning_rate": 1.1435942142988444e-06,
      "loss": 0.6581,
      "mean_token_accuracy": 0.7813911437988281,
      "num_tokens": 296015608.0,
      "step": 7018
    },
    {
      "epoch": 0.9277028813111288,
      "grad_norm": 0.7633387254859867,
      "learning_rate": 1.1430743661062917e-06,
      "loss": 0.5232,
      "mean_token_accuracy": 0.8261353969573975,
      "num_tokens": 296081144.0,
      "step": 7019
    },
    {
      "epoch": 0.9278350515463918,
      "grad_norm": 0.7754974656330337,
      "learning_rate": 1.1425554454122398e-06,
      "loss": 0.5366,
      "mean_token_accuracy": 0.8210383057594299,
      "num_tokens": 296146680.0,
      "step": 7020
    },
    {
      "epoch": 0.9279672217816548,
      "grad_norm": 0.7748317619683958,
      "learning_rate": 1.1420374523271573e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8071816563606262,
      "num_tokens": 296212216.0,
      "step": 7021
    },
    {
      "epoch": 0.9280993920169178,
      "grad_norm": 0.7922880247304876,
      "learning_rate": 1.141520386961313e-06,
      "loss": 0.5813,
      "mean_token_accuracy": 0.8094707727432251,
      "num_tokens": 296277752.0,
      "step": 7022
    },
    {
      "epoch": 0.9282315622521808,
      "grad_norm": 0.7940873565073242,
      "learning_rate": 1.14100424942478e-06,
      "loss": 0.5509,
      "mean_token_accuracy": 0.8138810992240906,
      "num_tokens": 296343288.0,
      "step": 7023
    },
    {
      "epoch": 0.9283637324874439,
      "grad_norm": 0.7980071130505089,
      "learning_rate": 1.1404890398274333e-06,
      "loss": 0.5758,
      "mean_token_accuracy": 0.8062965273857117,
      "num_tokens": 296408824.0,
      "step": 7024
    },
    {
      "epoch": 0.9284959027227069,
      "grad_norm": 0.8246426954323888,
      "learning_rate": 1.1399747582789498e-06,
      "loss": 0.6284,
      "mean_token_accuracy": 0.7916920781135559,
      "num_tokens": 296474360.0,
      "step": 7025
    },
    {
      "epoch": 0.9286280729579699,
      "grad_norm": 0.745032062273785,
      "learning_rate": 1.1394614048888093e-06,
      "loss": 0.5539,
      "mean_token_accuracy": 0.8161243796348572,
      "num_tokens": 296539896.0,
      "step": 7026
    },
    {
      "epoch": 0.9287602431932329,
      "grad_norm": 0.8090056574600498,
      "learning_rate": 1.138948979766294e-06,
      "loss": 0.5403,
      "mean_token_accuracy": 0.818566083908081,
      "num_tokens": 296605432.0,
      "step": 7027
    },
    {
      "epoch": 0.9288924134284959,
      "grad_norm": 0.830200834681011,
      "learning_rate": 1.1384374830204894e-06,
      "loss": 0.608,
      "mean_token_accuracy": 0.7962703108787537,
      "num_tokens": 296670968.0,
      "step": 7028
    },
    {
      "epoch": 0.929024583663759,
      "grad_norm": 0.8377684856161204,
      "learning_rate": 1.1379269147602817e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.8000854849815369,
      "num_tokens": 296736504.0,
      "step": 7029
    },
    {
      "epoch": 0.929156753899022,
      "grad_norm": 0.7594657764320475,
      "learning_rate": 1.13741727509436e-06,
      "loss": 0.5428,
      "mean_token_accuracy": 0.8233579397201538,
      "num_tokens": 296802040.0,
      "step": 7030
    },
    {
      "epoch": 0.929288924134285,
      "grad_norm": 0.7853058607526489,
      "learning_rate": 1.1369085641312164e-06,
      "loss": 0.5585,
      "mean_token_accuracy": 0.8150408864021301,
      "num_tokens": 296867576.0,
      "step": 7031
    },
    {
      "epoch": 0.929421094369548,
      "grad_norm": 0.781091149072293,
      "learning_rate": 1.136400781979145e-06,
      "loss": 0.5566,
      "mean_token_accuracy": 0.816185474395752,
      "num_tokens": 296933112.0,
      "step": 7032
    },
    {
      "epoch": 0.929553264604811,
      "grad_norm": 0.7426876293889596,
      "learning_rate": 1.1358939287462405e-06,
      "loss": 0.538,
      "mean_token_accuracy": 0.8223202228546143,
      "num_tokens": 296998648.0,
      "step": 7033
    },
    {
      "epoch": 0.929685434840074,
      "grad_norm": 0.8624122511214783,
      "learning_rate": 1.1353880045404037e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8126754760742188,
      "num_tokens": 297064184.0,
      "step": 7034
    },
    {
      "epoch": 0.9298176050753371,
      "grad_norm": 0.7744898023702068,
      "learning_rate": 1.1348830094693342e-06,
      "loss": 0.5562,
      "mean_token_accuracy": 0.8129196763038635,
      "num_tokens": 297129720.0,
      "step": 7035
    },
    {
      "epoch": 0.9299497753106001,
      "grad_norm": 0.8798013386651967,
      "learning_rate": 1.1343789436405344e-06,
      "loss": 0.5939,
      "mean_token_accuracy": 0.8013978600502014,
      "num_tokens": 297195256.0,
      "step": 7036
    },
    {
      "epoch": 0.9300819455458631,
      "grad_norm": 0.8461807394963561,
      "learning_rate": 1.13387580716131e-06,
      "loss": 0.6268,
      "mean_token_accuracy": 0.7929129600524902,
      "num_tokens": 297260792.0,
      "step": 7037
    },
    {
      "epoch": 0.9302141157811261,
      "grad_norm": 0.7436138959042432,
      "learning_rate": 1.1333736001387687e-06,
      "loss": 0.5804,
      "mean_token_accuracy": 0.8065712451934814,
      "num_tokens": 297326328.0,
      "step": 7038
    },
    {
      "epoch": 0.9303462860163891,
      "grad_norm": 0.8180035937041076,
      "learning_rate": 1.1328723226798193e-06,
      "loss": 0.554,
      "mean_token_accuracy": 0.8148120045661926,
      "num_tokens": 297391864.0,
      "step": 7039
    },
    {
      "epoch": 0.9304784562516522,
      "grad_norm": 0.7994966736392031,
      "learning_rate": 1.1323719748911726e-06,
      "loss": 0.5919,
      "mean_token_accuracy": 0.8029544353485107,
      "num_tokens": 297457400.0,
      "step": 7040
    },
    {
      "epoch": 0.9306106264869152,
      "grad_norm": 0.7581603977710148,
      "learning_rate": 1.1318725568793435e-06,
      "loss": 0.5199,
      "mean_token_accuracy": 0.8273104429244995,
      "num_tokens": 297522936.0,
      "step": 7041
    },
    {
      "epoch": 0.9307427967221782,
      "grad_norm": 0.804282857736541,
      "learning_rate": 1.131374068750647e-06,
      "loss": 0.5968,
      "mean_token_accuracy": 0.8029696941375732,
      "num_tokens": 297588472.0,
      "step": 7042
    },
    {
      "epoch": 0.9308749669574412,
      "grad_norm": 0.7966061741435123,
      "learning_rate": 1.130876510611201e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.8175588846206665,
      "num_tokens": 297654008.0,
      "step": 7043
    },
    {
      "epoch": 0.9310071371927042,
      "grad_norm": 0.8407344914680729,
      "learning_rate": 1.1303798825669247e-06,
      "loss": 0.5781,
      "mean_token_accuracy": 0.8073342442512512,
      "num_tokens": 297719544.0,
      "step": 7044
    },
    {
      "epoch": 0.9311393074279672,
      "grad_norm": 0.8641916516199738,
      "learning_rate": 1.1298841847235408e-06,
      "loss": 0.5512,
      "mean_token_accuracy": 0.8123855590820312,
      "num_tokens": 297785080.0,
      "step": 7045
    },
    {
      "epoch": 0.9312714776632303,
      "grad_norm": 0.7974646370649043,
      "learning_rate": 1.129389417186572e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.817268967628479,
      "num_tokens": 297850616.0,
      "step": 7046
    },
    {
      "epoch": 0.9314036478984933,
      "grad_norm": 0.7949917249611836,
      "learning_rate": 1.1288955800613453e-06,
      "loss": 0.5987,
      "mean_token_accuracy": 0.7995513081550598,
      "num_tokens": 297916152.0,
      "step": 7047
    },
    {
      "epoch": 0.9315358181337563,
      "grad_norm": 0.8800818166989992,
      "learning_rate": 1.128402673452987e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8009247779846191,
      "num_tokens": 297981688.0,
      "step": 7048
    },
    {
      "epoch": 0.9316679883690193,
      "grad_norm": 0.8241692849178966,
      "learning_rate": 1.127910697466427e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8046636581420898,
      "num_tokens": 298047224.0,
      "step": 7049
    },
    {
      "epoch": 0.9318001586042823,
      "grad_norm": 0.877062822987858,
      "learning_rate": 1.127419652206397e-06,
      "loss": 0.6404,
      "mean_token_accuracy": 0.7878311276435852,
      "num_tokens": 298112760.0,
      "step": 7050
    },
    {
      "epoch": 0.9319323288395454,
      "grad_norm": 0.8310496396578412,
      "learning_rate": 1.1269295377774306e-06,
      "loss": 0.5992,
      "mean_token_accuracy": 0.7992613911628723,
      "num_tokens": 298178296.0,
      "step": 7051
    },
    {
      "epoch": 0.9320644990748084,
      "grad_norm": 0.7896354637578447,
      "learning_rate": 1.1264403542838615e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8154529333114624,
      "num_tokens": 298243832.0,
      "step": 7052
    },
    {
      "epoch": 0.9321966693100714,
      "grad_norm": 0.7633179601165756,
      "learning_rate": 1.1259521018298285e-06,
      "loss": 0.5534,
      "mean_token_accuracy": 0.8153613805770874,
      "num_tokens": 298309368.0,
      "step": 7053
    },
    {
      "epoch": 0.9323288395453344,
      "grad_norm": 0.8034528854706986,
      "learning_rate": 1.1254647805192693e-06,
      "loss": 0.6191,
      "mean_token_accuracy": 0.7944695353507996,
      "num_tokens": 298374904.0,
      "step": 7054
    },
    {
      "epoch": 0.9324610097805974,
      "grad_norm": 0.7940765827762244,
      "learning_rate": 1.1249783904559246e-06,
      "loss": 0.5573,
      "mean_token_accuracy": 0.812812864780426,
      "num_tokens": 298440440.0,
      "step": 7055
    },
    {
      "epoch": 0.9325931800158604,
      "grad_norm": 0.7966104754617602,
      "learning_rate": 1.1244929317433365e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8078684210777283,
      "num_tokens": 298505976.0,
      "step": 7056
    },
    {
      "epoch": 0.9327253502511235,
      "grad_norm": 0.7771638840211892,
      "learning_rate": 1.1240084044848497e-06,
      "loss": 0.5426,
      "mean_token_accuracy": 0.8202600479125977,
      "num_tokens": 298571512.0,
      "step": 7057
    },
    {
      "epoch": 0.9328575204863865,
      "grad_norm": 0.8542259946077844,
      "learning_rate": 1.123524808783609e-06,
      "loss": 0.6431,
      "mean_token_accuracy": 0.787983775138855,
      "num_tokens": 298637048.0,
      "step": 7058
    },
    {
      "epoch": 0.9329896907216495,
      "grad_norm": 0.7344732049080661,
      "learning_rate": 1.1230421447425619e-06,
      "loss": 0.4947,
      "mean_token_accuracy": 0.8331857919692993,
      "num_tokens": 298702584.0,
      "step": 7059
    },
    {
      "epoch": 0.9331218609569125,
      "grad_norm": 0.8051670550552028,
      "learning_rate": 1.1225604124644583e-06,
      "loss": 0.6044,
      "mean_token_accuracy": 0.7996429204940796,
      "num_tokens": 298768120.0,
      "step": 7060
    },
    {
      "epoch": 0.9332540311921755,
      "grad_norm": 0.7912919464993898,
      "learning_rate": 1.122079612051849e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.8178336024284363,
      "num_tokens": 298833656.0,
      "step": 7061
    },
    {
      "epoch": 0.9333862014274386,
      "grad_norm": 0.825484847103988,
      "learning_rate": 1.1215997436070855e-06,
      "loss": 0.6584,
      "mean_token_accuracy": 0.7797277569770813,
      "num_tokens": 298899192.0,
      "step": 7062
    },
    {
      "epoch": 0.9335183716627016,
      "grad_norm": 0.7998550261545294,
      "learning_rate": 1.1211208072323218e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 298964728.0,
      "step": 7063
    },
    {
      "epoch": 0.9336505418979646,
      "grad_norm": 0.7896927702310729,
      "learning_rate": 1.1206428030295147e-06,
      "loss": 0.5565,
      "mean_token_accuracy": 0.816277027130127,
      "num_tokens": 299030264.0,
      "step": 7064
    },
    {
      "epoch": 0.9337827121332276,
      "grad_norm": 0.8360950946356027,
      "learning_rate": 1.1201657311004193e-06,
      "loss": 0.5435,
      "mean_token_accuracy": 0.8206415772438049,
      "num_tokens": 299095800.0,
      "step": 7065
    },
    {
      "epoch": 0.9339148823684906,
      "grad_norm": 0.7934188569123068,
      "learning_rate": 1.1196895915465964e-06,
      "loss": 0.5634,
      "mean_token_accuracy": 0.8127976059913635,
      "num_tokens": 299161336.0,
      "step": 7066
    },
    {
      "epoch": 0.9340470526037536,
      "grad_norm": 0.7532025769129772,
      "learning_rate": 1.1192143844694048e-06,
      "loss": 0.505,
      "mean_token_accuracy": 0.8316749930381775,
      "num_tokens": 299226872.0,
      "step": 7067
    },
    {
      "epoch": 0.9341792228390167,
      "grad_norm": 0.7947979849664392,
      "learning_rate": 1.1187401099700064e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8082956671714783,
      "num_tokens": 299292408.0,
      "step": 7068
    },
    {
      "epoch": 0.9343113930742797,
      "grad_norm": 0.7710539424739746,
      "learning_rate": 1.1182667681493644e-06,
      "loss": 0.5165,
      "mean_token_accuracy": 0.8280582427978516,
      "num_tokens": 299357944.0,
      "step": 7069
    },
    {
      "epoch": 0.9344435633095427,
      "grad_norm": 0.7263514521458249,
      "learning_rate": 1.1177943591082437e-06,
      "loss": 0.5164,
      "mean_token_accuracy": 0.8274020552635193,
      "num_tokens": 299423480.0,
      "step": 7070
    },
    {
      "epoch": 0.9345757335448057,
      "grad_norm": 0.7953608526365825,
      "learning_rate": 1.1173228829472097e-06,
      "loss": 0.5337,
      "mean_token_accuracy": 0.8220913410186768,
      "num_tokens": 299489016.0,
      "step": 7071
    },
    {
      "epoch": 0.9347079037800687,
      "grad_norm": 0.7993581420108193,
      "learning_rate": 1.1168523397666312e-06,
      "loss": 0.5422,
      "mean_token_accuracy": 0.8202447891235352,
      "num_tokens": 299554552.0,
      "step": 7072
    },
    {
      "epoch": 0.9348400740153318,
      "grad_norm": 0.829206823870767,
      "learning_rate": 1.1163827296666748e-06,
      "loss": 0.576,
      "mean_token_accuracy": 0.8082956671714783,
      "num_tokens": 299620088.0,
      "step": 7073
    },
    {
      "epoch": 0.9349722442505948,
      "grad_norm": 0.8357506260178074,
      "learning_rate": 1.1159140527473127e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8009705543518066,
      "num_tokens": 299685624.0,
      "step": 7074
    },
    {
      "epoch": 0.9351044144858578,
      "grad_norm": 0.8520978602622795,
      "learning_rate": 1.1154463091083153e-06,
      "loss": 0.5955,
      "mean_token_accuracy": 0.8014283776283264,
      "num_tokens": 299751160.0,
      "step": 7075
    },
    {
      "epoch": 0.9352365847211208,
      "grad_norm": 0.8103885221088931,
      "learning_rate": 1.114979498849256e-06,
      "loss": 0.6128,
      "mean_token_accuracy": 0.7968044281005859,
      "num_tokens": 299816696.0,
      "step": 7076
    },
    {
      "epoch": 0.9353687549563838,
      "grad_norm": 0.8071414272632844,
      "learning_rate": 1.1145136220695087e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8069985508918762,
      "num_tokens": 299882232.0,
      "step": 7077
    },
    {
      "epoch": 0.9355009251916468,
      "grad_norm": 0.7885537718355052,
      "learning_rate": 1.1140486788682488e-06,
      "loss": 0.5624,
      "mean_token_accuracy": 0.8143236637115479,
      "num_tokens": 299947768.0,
      "step": 7078
    },
    {
      "epoch": 0.9356330954269099,
      "grad_norm": 0.8548867109140216,
      "learning_rate": 1.1135846693444534e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.7863508462905884,
      "num_tokens": 300013304.0,
      "step": 7079
    },
    {
      "epoch": 0.9357652656621729,
      "grad_norm": 0.8011636845720017,
      "learning_rate": 1.1131215935969004e-06,
      "loss": 0.6039,
      "mean_token_accuracy": 0.7999328374862671,
      "num_tokens": 300078840.0,
      "step": 7080
    },
    {
      "epoch": 0.9358974358974359,
      "grad_norm": 0.8388255261138939,
      "learning_rate": 1.1126594517241676e-06,
      "loss": 0.6006,
      "mean_token_accuracy": 0.8002075552940369,
      "num_tokens": 300144376.0,
      "step": 7081
    },
    {
      "epoch": 0.9360296061326989,
      "grad_norm": 0.819128397176786,
      "learning_rate": 1.1121982438246372e-06,
      "loss": 0.5522,
      "mean_token_accuracy": 0.8156818747520447,
      "num_tokens": 300209912.0,
      "step": 7082
    },
    {
      "epoch": 0.9361617763679619,
      "grad_norm": 0.8457042871176963,
      "learning_rate": 1.11173796999649e-06,
      "loss": 0.5925,
      "mean_token_accuracy": 0.8020846247673035,
      "num_tokens": 300275448.0,
      "step": 7083
    },
    {
      "epoch": 0.936293946603225,
      "grad_norm": 0.8153951990875739,
      "learning_rate": 1.1112786303377083e-06,
      "loss": 0.6155,
      "mean_token_accuracy": 0.7943627238273621,
      "num_tokens": 300340984.0,
      "step": 7084
    },
    {
      "epoch": 0.936426116838488,
      "grad_norm": 0.8583687262255704,
      "learning_rate": 1.110820224946077e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8112562298774719,
      "num_tokens": 300406520.0,
      "step": 7085
    },
    {
      "epoch": 0.936558287073751,
      "grad_norm": 0.772278803873643,
      "learning_rate": 1.1103627539191795e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.812751829624176,
      "num_tokens": 300472056.0,
      "step": 7086
    },
    {
      "epoch": 0.936690457309014,
      "grad_norm": 0.7817638540018631,
      "learning_rate": 1.109906217354403e-06,
      "loss": 0.5376,
      "mean_token_accuracy": 0.8189476132392883,
      "num_tokens": 300537592.0,
      "step": 7087
    },
    {
      "epoch": 0.936822627544277,
      "grad_norm": 0.7897924262419317,
      "learning_rate": 1.109450615348934e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.818321943283081,
      "num_tokens": 300603128.0,
      "step": 7088
    },
    {
      "epoch": 0.93695479777954,
      "grad_norm": 0.7918749518344356,
      "learning_rate": 1.108995947999762e-06,
      "loss": 0.5371,
      "mean_token_accuracy": 0.8207789063453674,
      "num_tokens": 300668664.0,
      "step": 7089
    },
    {
      "epoch": 0.9370869680148031,
      "grad_norm": 0.7534087473232283,
      "learning_rate": 1.1085422154036737e-06,
      "loss": 0.5586,
      "mean_token_accuracy": 0.8139421343803406,
      "num_tokens": 300734200.0,
      "step": 7090
    },
    {
      "epoch": 0.9372191382500661,
      "grad_norm": 0.753767598268375,
      "learning_rate": 1.1080894176572612e-06,
      "loss": 0.5566,
      "mean_token_accuracy": 0.8155444860458374,
      "num_tokens": 300799736.0,
      "step": 7091
    },
    {
      "epoch": 0.9373513084853291,
      "grad_norm": 0.8142514413263708,
      "learning_rate": 1.1076375548569153e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 300865272.0,
      "step": 7092
    },
    {
      "epoch": 0.9374834787205921,
      "grad_norm": 0.7622084249460754,
      "learning_rate": 1.1071866270988285e-06,
      "loss": 0.5107,
      "mean_token_accuracy": 0.8279056549072266,
      "num_tokens": 300930808.0,
      "step": 7093
    },
    {
      "epoch": 0.9376156489558551,
      "grad_norm": 0.8380691356160967,
      "learning_rate": 1.1067366344789925e-06,
      "loss": 0.5866,
      "mean_token_accuracy": 0.8037632703781128,
      "num_tokens": 300996344.0,
      "step": 7094
    },
    {
      "epoch": 0.9377478191911182,
      "grad_norm": 0.8191300393743052,
      "learning_rate": 1.1062875770932033e-06,
      "loss": 0.5674,
      "mean_token_accuracy": 0.8109052777290344,
      "num_tokens": 301061880.0,
      "step": 7095
    },
    {
      "epoch": 0.9378799894263812,
      "grad_norm": 0.8504970202734703,
      "learning_rate": 1.1058394550370545e-06,
      "loss": 0.5895,
      "mean_token_accuracy": 0.8037327527999878,
      "num_tokens": 301127416.0,
      "step": 7096
    },
    {
      "epoch": 0.9380121596616442,
      "grad_norm": 0.8419780213539783,
      "learning_rate": 1.1053922684059418e-06,
      "loss": 0.5759,
      "mean_token_accuracy": 0.808570384979248,
      "num_tokens": 301192952.0,
      "step": 7097
    },
    {
      "epoch": 0.9381443298969072,
      "grad_norm": 0.769096227317464,
      "learning_rate": 1.1049460172950624e-06,
      "loss": 0.5543,
      "mean_token_accuracy": 0.8148730397224426,
      "num_tokens": 301258488.0,
      "step": 7098
    },
    {
      "epoch": 0.9382765001321702,
      "grad_norm": 0.8021933450102215,
      "learning_rate": 1.1045007017994145e-06,
      "loss": 0.5984,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 301324024.0,
      "step": 7099
    },
    {
      "epoch": 0.9384086703674333,
      "grad_norm": 0.8454553386624349,
      "learning_rate": 1.1040563220137953e-06,
      "loss": 0.6271,
      "mean_token_accuracy": 0.7909290790557861,
      "num_tokens": 301389560.0,
      "step": 7100
    },
    {
      "epoch": 0.9385408406026963,
      "grad_norm": 0.851574884402662,
      "learning_rate": 1.1036128780328046e-06,
      "loss": 0.6535,
      "mean_token_accuracy": 0.7815895676612854,
      "num_tokens": 301455096.0,
      "step": 7101
    },
    {
      "epoch": 0.9386730108379593,
      "grad_norm": 0.8829561870239582,
      "learning_rate": 1.103170369950842e-06,
      "loss": 0.6347,
      "mean_token_accuracy": 0.7885636687278748,
      "num_tokens": 301520632.0,
      "step": 7102
    },
    {
      "epoch": 0.9388051810732223,
      "grad_norm": 0.761979239288848,
      "learning_rate": 1.1027287978621078e-06,
      "loss": 0.5154,
      "mean_token_accuracy": 0.8290654420852661,
      "num_tokens": 301586168.0,
      "step": 7103
    },
    {
      "epoch": 0.9389373513084853,
      "grad_norm": 0.8367780393112092,
      "learning_rate": 1.1022881618606055e-06,
      "loss": 0.5921,
      "mean_token_accuracy": 0.8037785291671753,
      "num_tokens": 301651704.0,
      "step": 7104
    },
    {
      "epoch": 0.9390695215437483,
      "grad_norm": 0.8360654874421868,
      "learning_rate": 1.1018484620401354e-06,
      "loss": 0.5637,
      "mean_token_accuracy": 0.8115309476852417,
      "num_tokens": 301717240.0,
      "step": 7105
    },
    {
      "epoch": 0.9392016917790114,
      "grad_norm": 0.9231456527386163,
      "learning_rate": 1.101409698494301e-06,
      "loss": 0.6624,
      "mean_token_accuracy": 0.7809790968894958,
      "num_tokens": 301782776.0,
      "step": 7106
    },
    {
      "epoch": 0.9393338620142744,
      "grad_norm": 0.7669935302261862,
      "learning_rate": 1.100971871316505e-06,
      "loss": 0.5536,
      "mean_token_accuracy": 0.8142778873443604,
      "num_tokens": 301848312.0,
      "step": 7107
    },
    {
      "epoch": 0.9394660322495374,
      "grad_norm": 0.8319773177501354,
      "learning_rate": 1.1005349805999538e-06,
      "loss": 0.595,
      "mean_token_accuracy": 0.8004211783409119,
      "num_tokens": 301913848.0,
      "step": 7108
    },
    {
      "epoch": 0.9395982024848004,
      "grad_norm": 0.8284599123039199,
      "learning_rate": 1.1000990264376502e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.7937675714492798,
      "num_tokens": 301979384.0,
      "step": 7109
    },
    {
      "epoch": 0.9397303727200634,
      "grad_norm": 0.8033292638021344,
      "learning_rate": 1.0996640089224006e-06,
      "loss": 0.5574,
      "mean_token_accuracy": 0.8130722641944885,
      "num_tokens": 302044920.0,
      "step": 7110
    },
    {
      "epoch": 0.9398625429553265,
      "grad_norm": 0.8938505945821996,
      "learning_rate": 1.0992299281468109e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.7808265089988708,
      "num_tokens": 302110456.0,
      "step": 7111
    },
    {
      "epoch": 0.9399947131905895,
      "grad_norm": 0.7901394136226219,
      "learning_rate": 1.098796784203289e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.7993529438972473,
      "num_tokens": 302175992.0,
      "step": 7112
    },
    {
      "epoch": 0.9401268834258525,
      "grad_norm": 0.8535152579836474,
      "learning_rate": 1.0983645771840398e-06,
      "loss": 0.5457,
      "mean_token_accuracy": 0.8171926736831665,
      "num_tokens": 302241528.0,
      "step": 7113
    },
    {
      "epoch": 0.9402590536611155,
      "grad_norm": 0.7996501088695888,
      "learning_rate": 1.0979333071810737e-06,
      "loss": 0.5422,
      "mean_token_accuracy": 0.8187950253486633,
      "num_tokens": 302307064.0,
      "step": 7114
    },
    {
      "epoch": 0.9403912238963785,
      "grad_norm": 0.810121208389307,
      "learning_rate": 1.0975029742861977e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8092265725135803,
      "num_tokens": 302372600.0,
      "step": 7115
    },
    {
      "epoch": 0.9405233941316415,
      "grad_norm": 0.7919660603545958,
      "learning_rate": 1.0970735785910212e-06,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8021151423454285,
      "num_tokens": 302438136.0,
      "step": 7116
    },
    {
      "epoch": 0.9406555643669046,
      "grad_norm": 0.8364862979370783,
      "learning_rate": 1.0966451201869527e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.812034547328949,
      "num_tokens": 302503672.0,
      "step": 7117
    },
    {
      "epoch": 0.9407877346021676,
      "grad_norm": 0.8092534546681746,
      "learning_rate": 1.0962175991652036e-06,
      "loss": 0.592,
      "mean_token_accuracy": 0.8042973875999451,
      "num_tokens": 302569208.0,
      "step": 7118
    },
    {
      "epoch": 0.9409199048374306,
      "grad_norm": 0.7360023208960117,
      "learning_rate": 1.0957910156167824e-06,
      "loss": 0.5225,
      "mean_token_accuracy": 0.8239378333091736,
      "num_tokens": 302634744.0,
      "step": 7119
    },
    {
      "epoch": 0.9410520750726936,
      "grad_norm": 0.8023453232815442,
      "learning_rate": 1.095365369632501e-06,
      "loss": 0.6061,
      "mean_token_accuracy": 0.8010621666908264,
      "num_tokens": 302700280.0,
      "step": 7120
    },
    {
      "epoch": 0.9411842453079566,
      "grad_norm": 0.8194290976444573,
      "learning_rate": 1.0949406613029704e-06,
      "loss": 0.5615,
      "mean_token_accuracy": 0.8092418313026428,
      "num_tokens": 302765816.0,
      "step": 7121
    },
    {
      "epoch": 0.9413164155432197,
      "grad_norm": 0.8148063018656114,
      "learning_rate": 1.094516890718602e-06,
      "loss": 0.5991,
      "mean_token_accuracy": 0.8026950359344482,
      "num_tokens": 302831352.0,
      "step": 7122
    },
    {
      "epoch": 0.9414485857784827,
      "grad_norm": 0.8561281370224005,
      "learning_rate": 1.0940940579696075e-06,
      "loss": 0.6684,
      "mean_token_accuracy": 0.7789189219474792,
      "num_tokens": 302896888.0,
      "step": 7123
    },
    {
      "epoch": 0.9415807560137457,
      "grad_norm": 0.8030498688471288,
      "learning_rate": 1.0936721631459992e-06,
      "loss": 0.5959,
      "mean_token_accuracy": 0.8011994957923889,
      "num_tokens": 302962424.0,
      "step": 7124
    },
    {
      "epoch": 0.9417129262490087,
      "grad_norm": 0.8076323614461741,
      "learning_rate": 1.0932512063375903e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.812965452671051,
      "num_tokens": 303027960.0,
      "step": 7125
    },
    {
      "epoch": 0.9418450964842717,
      "grad_norm": 0.8441109249019983,
      "learning_rate": 1.092831187633993e-06,
      "loss": 0.5946,
      "mean_token_accuracy": 0.8016878366470337,
      "num_tokens": 303093496.0,
      "step": 7126
    },
    {
      "epoch": 0.9419772667195347,
      "grad_norm": 0.81265822305372,
      "learning_rate": 1.0924121071246207e-06,
      "loss": 0.5806,
      "mean_token_accuracy": 0.8061744570732117,
      "num_tokens": 303159032.0,
      "step": 7127
    },
    {
      "epoch": 0.9421094369547978,
      "grad_norm": 0.781784224280926,
      "learning_rate": 1.0919939648986871e-06,
      "loss": 0.551,
      "mean_token_accuracy": 0.8189170956611633,
      "num_tokens": 303224568.0,
      "step": 7128
    },
    {
      "epoch": 0.9422416071900608,
      "grad_norm": 0.8108835052887886,
      "learning_rate": 1.091576761045206e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8081735968589783,
      "num_tokens": 303290104.0,
      "step": 7129
    },
    {
      "epoch": 0.9423737774253238,
      "grad_norm": 0.7837521668762236,
      "learning_rate": 1.091160495652991e-06,
      "loss": 0.5393,
      "mean_token_accuracy": 0.8193291425704956,
      "num_tokens": 303355640.0,
      "step": 7130
    },
    {
      "epoch": 0.9425059476605868,
      "grad_norm": 0.8178757517086058,
      "learning_rate": 1.090745168810657e-06,
      "loss": 0.5935,
      "mean_token_accuracy": 0.8016115427017212,
      "num_tokens": 303421176.0,
      "step": 7131
    },
    {
      "epoch": 0.9426381178958498,
      "grad_norm": 0.7545972255896549,
      "learning_rate": 1.0903307806066173e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8167348504066467,
      "num_tokens": 303486712.0,
      "step": 7132
    },
    {
      "epoch": 0.9427702881311129,
      "grad_norm": 0.8138037701968068,
      "learning_rate": 1.089917331129088e-06,
      "loss": 0.614,
      "mean_token_accuracy": 0.7918142080307007,
      "num_tokens": 303552248.0,
      "step": 7133
    },
    {
      "epoch": 0.9429024583663759,
      "grad_norm": 0.7675067896104419,
      "learning_rate": 1.0895048204660822e-06,
      "loss": 0.5359,
      "mean_token_accuracy": 0.8259064555168152,
      "num_tokens": 303617784.0,
      "step": 7134
    },
    {
      "epoch": 0.9430346286016389,
      "grad_norm": 0.7592528652977282,
      "learning_rate": 1.089093248705416e-06,
      "loss": 0.5242,
      "mean_token_accuracy": 0.8236631751060486,
      "num_tokens": 303683320.0,
      "step": 7135
    },
    {
      "epoch": 0.9431667988369019,
      "grad_norm": 0.7534002798145674,
      "learning_rate": 1.0886826159347034e-06,
      "loss": 0.5295,
      "mean_token_accuracy": 0.8232511281967163,
      "num_tokens": 303748856.0,
      "step": 7136
    },
    {
      "epoch": 0.9432989690721649,
      "grad_norm": 0.8377567085288697,
      "learning_rate": 1.0882729222413612e-06,
      "loss": 0.621,
      "mean_token_accuracy": 0.7946526408195496,
      "num_tokens": 303814392.0,
      "step": 7137
    },
    {
      "epoch": 0.943431139307428,
      "grad_norm": 0.7979552650314581,
      "learning_rate": 1.0878641677126032e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.8091350197792053,
      "num_tokens": 303879928.0,
      "step": 7138
    },
    {
      "epoch": 0.943563309542691,
      "grad_norm": 0.8287308367827896,
      "learning_rate": 1.0874563524354446e-06,
      "loss": 0.6115,
      "mean_token_accuracy": 0.7974453568458557,
      "num_tokens": 303945464.0,
      "step": 7139
    },
    {
      "epoch": 0.943695479777954,
      "grad_norm": 0.7938982157941094,
      "learning_rate": 1.087049476496702e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.806586503982544,
      "num_tokens": 304011000.0,
      "step": 7140
    },
    {
      "epoch": 0.943827650013217,
      "grad_norm": 0.8116935835542834,
      "learning_rate": 1.08664353998299e-06,
      "loss": 0.5749,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 304076536.0,
      "step": 7141
    },
    {
      "epoch": 0.94395982024848,
      "grad_norm": 0.7852552911734881,
      "learning_rate": 1.0862385429807239e-06,
      "loss": 0.6353,
      "mean_token_accuracy": 0.788945198059082,
      "num_tokens": 304142072.0,
      "step": 7142
    },
    {
      "epoch": 0.944091990483743,
      "grad_norm": 0.749069093131756,
      "learning_rate": 1.0858344855761193e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8124160766601562,
      "num_tokens": 304207608.0,
      "step": 7143
    },
    {
      "epoch": 0.9442241607190061,
      "grad_norm": 0.8321497219777867,
      "learning_rate": 1.0854313678551918e-06,
      "loss": 0.5745,
      "mean_token_accuracy": 0.808387279510498,
      "num_tokens": 304273144.0,
      "step": 7144
    },
    {
      "epoch": 0.9443563309542691,
      "grad_norm": 0.7831480468687252,
      "learning_rate": 1.085029189903756e-06,
      "loss": 0.531,
      "mean_token_accuracy": 0.8212672472000122,
      "num_tokens": 304338680.0,
      "step": 7145
    },
    {
      "epoch": 0.9444885011895321,
      "grad_norm": 0.8466265201269115,
      "learning_rate": 1.0846279518074285e-06,
      "loss": 0.5697,
      "mean_token_accuracy": 0.8095470666885376,
      "num_tokens": 304404216.0,
      "step": 7146
    },
    {
      "epoch": 0.9446206714247951,
      "grad_norm": 0.8569629972263518,
      "learning_rate": 1.0842276536516233e-06,
      "loss": 0.5886,
      "mean_token_accuracy": 0.8032901883125305,
      "num_tokens": 304469752.0,
      "step": 7147
    },
    {
      "epoch": 0.9447528416600581,
      "grad_norm": 0.7832543301764251,
      "learning_rate": 1.083828295521556e-06,
      "loss": 0.5855,
      "mean_token_accuracy": 0.8038090467453003,
      "num_tokens": 304535288.0,
      "step": 7148
    },
    {
      "epoch": 0.9448850118953211,
      "grad_norm": 0.9154501095518622,
      "learning_rate": 1.0834298775022411e-06,
      "loss": 0.5563,
      "mean_token_accuracy": 0.8154376745223999,
      "num_tokens": 304600824.0,
      "step": 7149
    },
    {
      "epoch": 0.9450171821305842,
      "grad_norm": 0.8797325351632891,
      "learning_rate": 1.0830323996784945e-06,
      "loss": 0.6217,
      "mean_token_accuracy": 0.7958124876022339,
      "num_tokens": 304666360.0,
      "step": 7150
    },
    {
      "epoch": 0.9451493523658472,
      "grad_norm": 0.7898808361606791,
      "learning_rate": 1.0826358621349303e-06,
      "loss": 0.5292,
      "mean_token_accuracy": 0.8239683508872986,
      "num_tokens": 304731896.0,
      "step": 7151
    },
    {
      "epoch": 0.9452815226011102,
      "grad_norm": 0.7414641385462925,
      "learning_rate": 1.082240264955963e-06,
      "loss": 0.539,
      "mean_token_accuracy": 0.8197411894798279,
      "num_tokens": 304797432.0,
      "step": 7152
    },
    {
      "epoch": 0.9454136928363732,
      "grad_norm": 0.8098585496711689,
      "learning_rate": 1.081845608225807e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.8073495030403137,
      "num_tokens": 304862968.0,
      "step": 7153
    },
    {
      "epoch": 0.9455458630716362,
      "grad_norm": 0.7879695617756665,
      "learning_rate": 1.0814518920284772e-06,
      "loss": 0.5729,
      "mean_token_accuracy": 0.807700514793396,
      "num_tokens": 304928504.0,
      "step": 7154
    },
    {
      "epoch": 0.9456780333068993,
      "grad_norm": 0.7767946470035727,
      "learning_rate": 1.0810591164477863e-06,
      "loss": 0.5715,
      "mean_token_accuracy": 0.8110426068305969,
      "num_tokens": 304994040.0,
      "step": 7155
    },
    {
      "epoch": 0.9458102035421623,
      "grad_norm": 0.8055602700006794,
      "learning_rate": 1.0806672815673485e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 305059576.0,
      "step": 7156
    },
    {
      "epoch": 0.9459423737774253,
      "grad_norm": 0.8045974253281368,
      "learning_rate": 1.080276387470578e-06,
      "loss": 0.58,
      "mean_token_accuracy": 0.8069222569465637,
      "num_tokens": 305125112.0,
      "step": 7157
    },
    {
      "epoch": 0.9460745440126883,
      "grad_norm": 0.7842571098971914,
      "learning_rate": 1.0798864342406871e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8107526302337646,
      "num_tokens": 305190648.0,
      "step": 7158
    },
    {
      "epoch": 0.9462067142479513,
      "grad_norm": 0.7847979877843767,
      "learning_rate": 1.0794974219606894e-06,
      "loss": 0.5688,
      "mean_token_accuracy": 0.8099896311759949,
      "num_tokens": 305256184.0,
      "step": 7159
    },
    {
      "epoch": 0.9463388844832143,
      "grad_norm": 0.82139270552041,
      "learning_rate": 1.0791093507133968e-06,
      "loss": 0.5953,
      "mean_token_accuracy": 0.8009552955627441,
      "num_tokens": 305321720.0,
      "step": 7160
    },
    {
      "epoch": 0.9464710547184774,
      "grad_norm": 0.8717469134943988,
      "learning_rate": 1.0787222205814215e-06,
      "loss": 0.648,
      "mean_token_accuracy": 0.7842906713485718,
      "num_tokens": 305387256.0,
      "step": 7161
    },
    {
      "epoch": 0.9466032249537404,
      "grad_norm": 0.7840829110718639,
      "learning_rate": 1.0783360316471764e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8013520836830139,
      "num_tokens": 305452792.0,
      "step": 7162
    },
    {
      "epoch": 0.9467353951890034,
      "grad_norm": 0.8067790442706806,
      "learning_rate": 1.0779507839928723e-06,
      "loss": 0.5633,
      "mean_token_accuracy": 0.8144915103912354,
      "num_tokens": 305518328.0,
      "step": 7163
    },
    {
      "epoch": 0.9468675654242664,
      "grad_norm": 0.8053798756482892,
      "learning_rate": 1.07756647770052e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.807761549949646,
      "num_tokens": 305583864.0,
      "step": 7164
    },
    {
      "epoch": 0.9469997356595294,
      "grad_norm": 0.8587375109847146,
      "learning_rate": 1.077183112851932e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.816582202911377,
      "num_tokens": 305649400.0,
      "step": 7165
    },
    {
      "epoch": 0.9471319058947925,
      "grad_norm": 0.8135741713428573,
      "learning_rate": 1.0768006895287168e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.806678056716919,
      "num_tokens": 305714936.0,
      "step": 7166
    },
    {
      "epoch": 0.9472640761300555,
      "grad_norm": 0.7541986263475444,
      "learning_rate": 1.0764192078122852e-06,
      "loss": 0.5142,
      "mean_token_accuracy": 0.8279666900634766,
      "num_tokens": 305780472.0,
      "step": 7167
    },
    {
      "epoch": 0.9473962463653185,
      "grad_norm": 0.8014140661885683,
      "learning_rate": 1.0760386677838463e-06,
      "loss": 0.5723,
      "mean_token_accuracy": 0.8062812685966492,
      "num_tokens": 305846008.0,
      "step": 7168
    },
    {
      "epoch": 0.9475284166005815,
      "grad_norm": 0.771821323841364,
      "learning_rate": 1.0756590695244095e-06,
      "loss": 0.5367,
      "mean_token_accuracy": 0.8209009766578674,
      "num_tokens": 305911544.0,
      "step": 7169
    },
    {
      "epoch": 0.9476605868358445,
      "grad_norm": 0.8017050124106969,
      "learning_rate": 1.0752804131147837e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8176962733268738,
      "num_tokens": 305977080.0,
      "step": 7170
    },
    {
      "epoch": 0.9477927570711076,
      "grad_norm": 0.7820269694103591,
      "learning_rate": 1.0749026986355757e-06,
      "loss": 0.5453,
      "mean_token_accuracy": 0.8161091208457947,
      "num_tokens": 306042616.0,
      "step": 7171
    },
    {
      "epoch": 0.9479249273063706,
      "grad_norm": 0.7735766260623581,
      "learning_rate": 1.0745259261671942e-06,
      "loss": 0.5277,
      "mean_token_accuracy": 0.822686493396759,
      "num_tokens": 306108152.0,
      "step": 7172
    },
    {
      "epoch": 0.9480570975416336,
      "grad_norm": 0.856686284952824,
      "learning_rate": 1.0741500957898459e-06,
      "loss": 0.6103,
      "mean_token_accuracy": 0.7965297102928162,
      "num_tokens": 306173688.0,
      "step": 7173
    },
    {
      "epoch": 0.9481892677768966,
      "grad_norm": 0.8568524163703741,
      "learning_rate": 1.0737752075835366e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.7938591241836548,
      "num_tokens": 306239224.0,
      "step": 7174
    },
    {
      "epoch": 0.9483214380121596,
      "grad_norm": 0.7750554383206639,
      "learning_rate": 1.0734012616280728e-06,
      "loss": 0.5538,
      "mean_token_accuracy": 0.8119887709617615,
      "num_tokens": 306304760.0,
      "step": 7175
    },
    {
      "epoch": 0.9484536082474226,
      "grad_norm": 0.8253173439809265,
      "learning_rate": 1.0730282580030596e-06,
      "loss": 0.6016,
      "mean_token_accuracy": 0.7996429204940796,
      "num_tokens": 306370296.0,
      "step": 7176
    },
    {
      "epoch": 0.9485857784826857,
      "grad_norm": 0.8489449661059439,
      "learning_rate": 1.0726561967879023e-06,
      "loss": 0.5743,
      "mean_token_accuracy": 0.8073495030403137,
      "num_tokens": 306435832.0,
      "step": 7177
    },
    {
      "epoch": 0.9487179487179487,
      "grad_norm": 0.8188558399299892,
      "learning_rate": 1.0722850780618046e-06,
      "loss": 0.5216,
      "mean_token_accuracy": 0.8234037160873413,
      "num_tokens": 306501368.0,
      "step": 7178
    },
    {
      "epoch": 0.9488501189532117,
      "grad_norm": 0.8297176132411352,
      "learning_rate": 1.0719149019037691e-06,
      "loss": 0.575,
      "mean_token_accuracy": 0.8080515265464783,
      "num_tokens": 306566904.0,
      "step": 7179
    },
    {
      "epoch": 0.9489822891884747,
      "grad_norm": 0.8952007704086856,
      "learning_rate": 1.0715456683925994e-06,
      "loss": 0.6059,
      "mean_token_accuracy": 0.7985593676567078,
      "num_tokens": 306632440.0,
      "step": 7180
    },
    {
      "epoch": 0.9491144594237377,
      "grad_norm": 0.7997820835952847,
      "learning_rate": 1.0711773776068972e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8051977753639221,
      "num_tokens": 306697976.0,
      "step": 7181
    },
    {
      "epoch": 0.9492466296590008,
      "grad_norm": 0.7213568897369379,
      "learning_rate": 1.0708100296250648e-06,
      "loss": 0.5143,
      "mean_token_accuracy": 0.8291875123977661,
      "num_tokens": 306763512.0,
      "step": 7182
    },
    {
      "epoch": 0.9493787998942638,
      "grad_norm": 0.8350259957031132,
      "learning_rate": 1.0704436245253019e-06,
      "loss": 0.5459,
      "mean_token_accuracy": 0.8174368143081665,
      "num_tokens": 306829048.0,
      "step": 7183
    },
    {
      "epoch": 0.9495109701295268,
      "grad_norm": 0.8217924381875641,
      "learning_rate": 1.0700781623856085e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.802374541759491,
      "num_tokens": 306894584.0,
      "step": 7184
    },
    {
      "epoch": 0.9496431403647898,
      "grad_norm": 0.8075948769881708,
      "learning_rate": 1.0697136432837844e-06,
      "loss": 0.5546,
      "mean_token_accuracy": 0.8159107565879822,
      "num_tokens": 306960120.0,
      "step": 7185
    },
    {
      "epoch": 0.9497753106000528,
      "grad_norm": 0.7986111394097148,
      "learning_rate": 1.0693500672974285e-06,
      "loss": 0.5409,
      "mean_token_accuracy": 0.8203210830688477,
      "num_tokens": 307025656.0,
      "step": 7186
    },
    {
      "epoch": 0.9499074808353158,
      "grad_norm": 0.8489627294990983,
      "learning_rate": 1.068987434503937e-06,
      "loss": 0.5599,
      "mean_token_accuracy": 0.812995970249176,
      "num_tokens": 307091192.0,
      "step": 7187
    },
    {
      "epoch": 0.9500396510705789,
      "grad_norm": 0.8555752984972091,
      "learning_rate": 1.0686257449805084e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.7982236742973328,
      "num_tokens": 307156728.0,
      "step": 7188
    },
    {
      "epoch": 0.9501718213058419,
      "grad_norm": 0.823499193222039,
      "learning_rate": 1.0682649988041382e-06,
      "loss": 0.5659,
      "mean_token_accuracy": 0.8102337718009949,
      "num_tokens": 307222264.0,
      "step": 7189
    },
    {
      "epoch": 0.9503039915411049,
      "grad_norm": 0.8503105195090451,
      "learning_rate": 1.0679051960516218e-06,
      "loss": 0.5639,
      "mean_token_accuracy": 0.812934935092926,
      "num_tokens": 307287800.0,
      "step": 7190
    },
    {
      "epoch": 0.9504361617763679,
      "grad_norm": 0.8582292954520863,
      "learning_rate": 1.0675463367995535e-06,
      "loss": 0.6036,
      "mean_token_accuracy": 0.7985746264457703,
      "num_tokens": 307353336.0,
      "step": 7191
    },
    {
      "epoch": 0.9505683320116309,
      "grad_norm": 0.8531947379878484,
      "learning_rate": 1.0671884211243274e-06,
      "loss": 0.6611,
      "mean_token_accuracy": 0.7800635099411011,
      "num_tokens": 307418872.0,
      "step": 7192
    },
    {
      "epoch": 0.950700502246894,
      "grad_norm": 0.7854665877896,
      "learning_rate": 1.0668314491021362e-06,
      "loss": 0.5441,
      "mean_token_accuracy": 0.8170705437660217,
      "num_tokens": 307484408.0,
      "step": 7193
    },
    {
      "epoch": 0.950832672482157,
      "grad_norm": 0.7893082515558175,
      "learning_rate": 1.0664754208089712e-06,
      "loss": 0.5554,
      "mean_token_accuracy": 0.8143999576568604,
      "num_tokens": 307549944.0,
      "step": 7194
    },
    {
      "epoch": 0.95096484271742,
      "grad_norm": 0.8623311866720893,
      "learning_rate": 1.0661203363206235e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.7986204624176025,
      "num_tokens": 307615480.0,
      "step": 7195
    },
    {
      "epoch": 0.951097012952683,
      "grad_norm": 0.7805446134812281,
      "learning_rate": 1.0657661957126841e-06,
      "loss": 0.5222,
      "mean_token_accuracy": 0.826059103012085,
      "num_tokens": 307681016.0,
      "step": 7196
    },
    {
      "epoch": 0.951229183187946,
      "grad_norm": 0.815340546796893,
      "learning_rate": 1.0654129990605413e-06,
      "loss": 0.6071,
      "mean_token_accuracy": 0.7983457446098328,
      "num_tokens": 307746552.0,
      "step": 7197
    },
    {
      "epoch": 0.951361353423209,
      "grad_norm": 0.7567909552726998,
      "learning_rate": 1.0650607464393834e-06,
      "loss": 0.5386,
      "mean_token_accuracy": 0.8187950253486633,
      "num_tokens": 307812088.0,
      "step": 7198
    },
    {
      "epoch": 0.9514935236584721,
      "grad_norm": 0.8204586378700031,
      "learning_rate": 1.0647094379241974e-06,
      "loss": 0.6002,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 307877624.0,
      "step": 7199
    },
    {
      "epoch": 0.9516256938937351,
      "grad_norm": 0.827344273472354,
      "learning_rate": 1.0643590735897706e-06,
      "loss": 0.5694,
      "mean_token_accuracy": 0.8084330558776855,
      "num_tokens": 307943160.0,
      "step": 7200
    },
    {
      "epoch": 0.9517578641289981,
      "grad_norm": 0.7728024039367389,
      "learning_rate": 1.064009653510687e-06,
      "loss": 0.5488,
      "mean_token_accuracy": 0.8179251551628113,
      "num_tokens": 308008696.0,
      "step": 7201
    },
    {
      "epoch": 0.9518900343642611,
      "grad_norm": 0.7991182106175605,
      "learning_rate": 1.0636611777613314e-06,
      "loss": 0.5448,
      "mean_token_accuracy": 0.8207789063453674,
      "num_tokens": 308074232.0,
      "step": 7202
    },
    {
      "epoch": 0.9520222045995241,
      "grad_norm": 0.7949338229873392,
      "learning_rate": 1.0633136464158868e-06,
      "loss": 0.5618,
      "mean_token_accuracy": 0.811942994594574,
      "num_tokens": 308139768.0,
      "step": 7203
    },
    {
      "epoch": 0.9521543748347872,
      "grad_norm": 0.8252516071840663,
      "learning_rate": 1.0629670595483364e-06,
      "loss": 0.5739,
      "mean_token_accuracy": 0.8107678890228271,
      "num_tokens": 308205304.0,
      "step": 7204
    },
    {
      "epoch": 0.9522865450700502,
      "grad_norm": 0.8167441499834638,
      "learning_rate": 1.0626214172324596e-06,
      "loss": 0.5712,
      "mean_token_accuracy": 0.8134690523147583,
      "num_tokens": 308270840.0,
      "step": 7205
    },
    {
      "epoch": 0.9524187153053132,
      "grad_norm": 0.8542372383787848,
      "learning_rate": 1.0622767195418374e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.812843382358551,
      "num_tokens": 308336376.0,
      "step": 7206
    },
    {
      "epoch": 0.9525508855405762,
      "grad_norm": 0.7898387301637548,
      "learning_rate": 1.061932966549849e-06,
      "loss": 0.5609,
      "mean_token_accuracy": 0.8134080171585083,
      "num_tokens": 308401912.0,
      "step": 7207
    },
    {
      "epoch": 0.9526830557758392,
      "grad_norm": 0.8010057301886838,
      "learning_rate": 1.0615901583296714e-06,
      "loss": 0.574,
      "mean_token_accuracy": 0.8111036419868469,
      "num_tokens": 308467448.0,
      "step": 7208
    },
    {
      "epoch": 0.9528152260111022,
      "grad_norm": 0.7723462113885547,
      "learning_rate": 1.061248294954282e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8165974617004395,
      "num_tokens": 308532984.0,
      "step": 7209
    },
    {
      "epoch": 0.9529473962463653,
      "grad_norm": 0.7785081323195818,
      "learning_rate": 1.0609073764964561e-06,
      "loss": 0.5458,
      "mean_token_accuracy": 0.8187950253486633,
      "num_tokens": 308598520.0,
      "step": 7210
    },
    {
      "epoch": 0.9530795664816283,
      "grad_norm": 0.7774771035417666,
      "learning_rate": 1.0605674030287683e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8249603509902954,
      "num_tokens": 308664056.0,
      "step": 7211
    },
    {
      "epoch": 0.9532117367168914,
      "grad_norm": 0.8507484750659461,
      "learning_rate": 1.0602283746235916e-06,
      "loss": 0.5556,
      "mean_token_accuracy": 0.8153308629989624,
      "num_tokens": 308729592.0,
      "step": 7212
    },
    {
      "epoch": 0.9533439069521544,
      "grad_norm": 0.8615236140996848,
      "learning_rate": 1.059890291353098e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8106153011322021,
      "num_tokens": 308795128.0,
      "step": 7213
    },
    {
      "epoch": 0.9534760771874174,
      "grad_norm": 0.8021506552111549,
      "learning_rate": 1.0595531532892588e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.803305447101593,
      "num_tokens": 308860664.0,
      "step": 7214
    },
    {
      "epoch": 0.9536082474226805,
      "grad_norm": 0.8013858726568993,
      "learning_rate": 1.0592169605038436e-06,
      "loss": 0.5724,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 308926200.0,
      "step": 7215
    },
    {
      "epoch": 0.9537404176579435,
      "grad_norm": 0.8158899826526281,
      "learning_rate": 1.0588817130684203e-06,
      "loss": 0.5756,
      "mean_token_accuracy": 0.8087687492370605,
      "num_tokens": 308991736.0,
      "step": 7216
    },
    {
      "epoch": 0.9538725878932065,
      "grad_norm": 0.7898380961852774,
      "learning_rate": 1.058547411054356e-06,
      "loss": 0.5529,
      "mean_token_accuracy": 0.816338062286377,
      "num_tokens": 309057272.0,
      "step": 7217
    },
    {
      "epoch": 0.9540047581284695,
      "grad_norm": 0.8495439289094308,
      "learning_rate": 1.0582140545328179e-06,
      "loss": 0.6057,
      "mean_token_accuracy": 0.8012452721595764,
      "num_tokens": 309122808.0,
      "step": 7218
    },
    {
      "epoch": 0.9541369283637325,
      "grad_norm": 0.8004933646952486,
      "learning_rate": 1.057881643574769e-06,
      "loss": 0.5375,
      "mean_token_accuracy": 0.8221981525421143,
      "num_tokens": 309188344.0,
      "step": 7219
    },
    {
      "epoch": 0.9542690985989956,
      "grad_norm": 0.8036742129518907,
      "learning_rate": 1.057550178250974e-06,
      "loss": 0.5875,
      "mean_token_accuracy": 0.8052130341529846,
      "num_tokens": 309253880.0,
      "step": 7220
    },
    {
      "epoch": 0.9544012688342586,
      "grad_norm": 0.7770973716074849,
      "learning_rate": 1.0572196586319943e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.7997344732284546,
      "num_tokens": 309319416.0,
      "step": 7221
    },
    {
      "epoch": 0.9545334390695216,
      "grad_norm": 0.740353128461022,
      "learning_rate": 1.0568900847881907e-06,
      "loss": 0.5313,
      "mean_token_accuracy": 0.8214961290359497,
      "num_tokens": 309384952.0,
      "step": 7222
    },
    {
      "epoch": 0.9546656093047846,
      "grad_norm": 0.8294490914885101,
      "learning_rate": 1.0565614567897222e-06,
      "loss": 0.5542,
      "mean_token_accuracy": 0.8201227188110352,
      "num_tokens": 309450488.0,
      "step": 7223
    },
    {
      "epoch": 0.9547977795400476,
      "grad_norm": 0.8262367461815735,
      "learning_rate": 1.0562337747065477e-06,
      "loss": 0.5933,
      "mean_token_accuracy": 0.8006653785705566,
      "num_tokens": 309516024.0,
      "step": 7224
    },
    {
      "epoch": 0.9549299497753106,
      "grad_norm": 0.8228425626423123,
      "learning_rate": 1.0559070386084234e-06,
      "loss": 0.6022,
      "mean_token_accuracy": 0.7982847094535828,
      "num_tokens": 309581560.0,
      "step": 7225
    },
    {
      "epoch": 0.9550621200105737,
      "grad_norm": 0.8070767438945846,
      "learning_rate": 1.0555812485649045e-06,
      "loss": 0.6071,
      "mean_token_accuracy": 0.7955682873725891,
      "num_tokens": 309647096.0,
      "step": 7226
    },
    {
      "epoch": 0.9551942902458367,
      "grad_norm": 0.7817015530573015,
      "learning_rate": 1.0552564046453446e-06,
      "loss": 0.5816,
      "mean_token_accuracy": 0.8043431639671326,
      "num_tokens": 309712632.0,
      "step": 7227
    },
    {
      "epoch": 0.9553264604810997,
      "grad_norm": 0.8427064435560495,
      "learning_rate": 1.0549325069188974e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8069069981575012,
      "num_tokens": 309778168.0,
      "step": 7228
    },
    {
      "epoch": 0.9554586307163627,
      "grad_norm": 0.7929390427023101,
      "learning_rate": 1.0546095554545122e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8030460476875305,
      "num_tokens": 309843704.0,
      "step": 7229
    },
    {
      "epoch": 0.9555908009516257,
      "grad_norm": 0.8475297622619041,
      "learning_rate": 1.0542875503209405e-06,
      "loss": 0.5998,
      "mean_token_accuracy": 0.7997955083847046,
      "num_tokens": 309909240.0,
      "step": 7230
    },
    {
      "epoch": 0.9557229711868888,
      "grad_norm": 0.8253509591194838,
      "learning_rate": 1.0539664915867286e-06,
      "loss": 0.6312,
      "mean_token_accuracy": 0.7884110808372498,
      "num_tokens": 309974776.0,
      "step": 7231
    },
    {
      "epoch": 0.9558551414221518,
      "grad_norm": 0.7486737175319219,
      "learning_rate": 1.053646379320225e-06,
      "loss": 0.5189,
      "mean_token_accuracy": 0.8257386088371277,
      "num_tokens": 310040312.0,
      "step": 7232
    },
    {
      "epoch": 0.9559873116574148,
      "grad_norm": 0.8030336249701185,
      "learning_rate": 1.0533272135895733e-06,
      "loss": 0.5466,
      "mean_token_accuracy": 0.8169942498207092,
      "num_tokens": 310105848.0,
      "step": 7233
    },
    {
      "epoch": 0.9561194818926778,
      "grad_norm": 0.823796429107081,
      "learning_rate": 1.0530089944627188e-06,
      "loss": 0.5254,
      "mean_token_accuracy": 0.8228543400764465,
      "num_tokens": 310171384.0,
      "step": 7234
    },
    {
      "epoch": 0.9562516521279408,
      "grad_norm": 0.7883382279945708,
      "learning_rate": 1.0526917220074024e-06,
      "loss": 0.5883,
      "mean_token_accuracy": 0.8028934001922607,
      "num_tokens": 310236920.0,
      "step": 7235
    },
    {
      "epoch": 0.9563838223632039,
      "grad_norm": 0.7944764255967303,
      "learning_rate": 1.0523753962911654e-06,
      "loss": 0.5801,
      "mean_token_accuracy": 0.8067238330841064,
      "num_tokens": 310302456.0,
      "step": 7236
    },
    {
      "epoch": 0.9565159925984669,
      "grad_norm": 0.850749476080457,
      "learning_rate": 1.052060017381347e-06,
      "loss": 0.6359,
      "mean_token_accuracy": 0.7881516218185425,
      "num_tokens": 310367992.0,
      "step": 7237
    },
    {
      "epoch": 0.9566481628337299,
      "grad_norm": 0.8717633766065295,
      "learning_rate": 1.0517455853450839e-06,
      "loss": 0.5957,
      "mean_token_accuracy": 0.8036106824874878,
      "num_tokens": 310433528.0,
      "step": 7238
    },
    {
      "epoch": 0.9567803330689929,
      "grad_norm": 0.8071020264974159,
      "learning_rate": 1.0514321002493133e-06,
      "loss": 0.5677,
      "mean_token_accuracy": 0.8101574778556824,
      "num_tokens": 310499064.0,
      "step": 7239
    },
    {
      "epoch": 0.9569125033042559,
      "grad_norm": 0.7946313037481042,
      "learning_rate": 1.0511195621607694e-06,
      "loss": 0.6124,
      "mean_token_accuracy": 0.7950799465179443,
      "num_tokens": 310564600.0,
      "step": 7240
    },
    {
      "epoch": 0.9570446735395189,
      "grad_norm": 0.7991192982098748,
      "learning_rate": 1.0508079711459846e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8102185130119324,
      "num_tokens": 310630136.0,
      "step": 7241
    },
    {
      "epoch": 0.957176843774782,
      "grad_norm": 0.8513967918341756,
      "learning_rate": 1.05049732727129e-06,
      "loss": 0.5497,
      "mean_token_accuracy": 0.8156360387802124,
      "num_tokens": 310695672.0,
      "step": 7242
    },
    {
      "epoch": 0.957309014010045,
      "grad_norm": 0.7603140288032364,
      "learning_rate": 1.0501876306028157e-06,
      "loss": 0.5447,
      "mean_token_accuracy": 0.817207932472229,
      "num_tokens": 310761208.0,
      "step": 7243
    },
    {
      "epoch": 0.957441184245308,
      "grad_norm": 0.804090700982706,
      "learning_rate": 1.04987888120649e-06,
      "loss": 0.5645,
      "mean_token_accuracy": 0.8096843957901001,
      "num_tokens": 310826744.0,
      "step": 7244
    },
    {
      "epoch": 0.957573354480571,
      "grad_norm": 0.8187610881972137,
      "learning_rate": 1.0495710791480375e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.7927908897399902,
      "num_tokens": 310892280.0,
      "step": 7245
    },
    {
      "epoch": 0.957705524715834,
      "grad_norm": 0.7901382998777142,
      "learning_rate": 1.0492642244929847e-06,
      "loss": 0.5572,
      "mean_token_accuracy": 0.8133927583694458,
      "num_tokens": 310957816.0,
      "step": 7246
    },
    {
      "epoch": 0.957837694951097,
      "grad_norm": 0.7984845040223862,
      "learning_rate": 1.048958317306654e-06,
      "loss": 0.5904,
      "mean_token_accuracy": 0.8008027076721191,
      "num_tokens": 311023352.0,
      "step": 7247
    },
    {
      "epoch": 0.9579698651863601,
      "grad_norm": 0.8070240433352851,
      "learning_rate": 1.0486533576541658e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 311088888.0,
      "step": 7248
    },
    {
      "epoch": 0.9581020354216231,
      "grad_norm": 0.8537878728822852,
      "learning_rate": 1.048349345600441e-06,
      "loss": 0.5512,
      "mean_token_accuracy": 0.8153461217880249,
      "num_tokens": 311154424.0,
      "step": 7249
    },
    {
      "epoch": 0.9582342056568861,
      "grad_norm": 0.7476355742946929,
      "learning_rate": 1.0480462812101965e-06,
      "loss": 0.5394,
      "mean_token_accuracy": 0.8190391659736633,
      "num_tokens": 311219960.0,
      "step": 7250
    },
    {
      "epoch": 0.9583663758921491,
      "grad_norm": 0.8334297938887655,
      "learning_rate": 1.0477441645479486e-06,
      "loss": 0.5499,
      "mean_token_accuracy": 0.8163533210754395,
      "num_tokens": 311285496.0,
      "step": 7251
    },
    {
      "epoch": 0.9584985461274121,
      "grad_norm": 0.7408316495340896,
      "learning_rate": 1.0474429956780119e-06,
      "loss": 0.523,
      "mean_token_accuracy": 0.8276614546775818,
      "num_tokens": 311351032.0,
      "step": 7252
    },
    {
      "epoch": 0.9586307163626752,
      "grad_norm": 0.8306851357637589,
      "learning_rate": 1.0471427746644985e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8042516112327576,
      "num_tokens": 311416568.0,
      "step": 7253
    },
    {
      "epoch": 0.9587628865979382,
      "grad_norm": 0.7470877445303716,
      "learning_rate": 1.046843501571319e-06,
      "loss": 0.5377,
      "mean_token_accuracy": 0.8220760822296143,
      "num_tokens": 311482104.0,
      "step": 7254
    },
    {
      "epoch": 0.9588950568332012,
      "grad_norm": 0.8257671666221463,
      "learning_rate": 1.0465451764621838e-06,
      "loss": 0.6068,
      "mean_token_accuracy": 0.7959345579147339,
      "num_tokens": 311547640.0,
      "step": 7255
    },
    {
      "epoch": 0.9590272270684642,
      "grad_norm": 0.7482372439814358,
      "learning_rate": 1.0462477994005982e-06,
      "loss": 0.5133,
      "mean_token_accuracy": 0.8284397721290588,
      "num_tokens": 311613176.0,
      "step": 7256
    },
    {
      "epoch": 0.9591593973037272,
      "grad_norm": 0.8049043961681738,
      "learning_rate": 1.045951370449869e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8028476238250732,
      "num_tokens": 311678712.0,
      "step": 7257
    },
    {
      "epoch": 0.9592915675389903,
      "grad_norm": 0.8366703543784668,
      "learning_rate": 1.0456558896730991e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.7964381575584412,
      "num_tokens": 311744248.0,
      "step": 7258
    },
    {
      "epoch": 0.9594237377742533,
      "grad_norm": 0.8425670117643449,
      "learning_rate": 1.0453613571331899e-06,
      "loss": 0.5881,
      "mean_token_accuracy": 0.8019167184829712,
      "num_tokens": 311809784.0,
      "step": 7259
    },
    {
      "epoch": 0.9595559080095163,
      "grad_norm": 0.7376509871850112,
      "learning_rate": 1.045067772892842e-06,
      "loss": 0.5107,
      "mean_token_accuracy": 0.8279972076416016,
      "num_tokens": 311875320.0,
      "step": 7260
    },
    {
      "epoch": 0.9596880782447793,
      "grad_norm": 0.779807209972782,
      "learning_rate": 1.044775137014553e-06,
      "loss": 0.5185,
      "mean_token_accuracy": 0.8263490200042725,
      "num_tokens": 311940856.0,
      "step": 7261
    },
    {
      "epoch": 0.9598202484800423,
      "grad_norm": 0.7500870742547895,
      "learning_rate": 1.0444834495606184e-06,
      "loss": 0.5517,
      "mean_token_accuracy": 0.813179075717926,
      "num_tokens": 312006392.0,
      "step": 7262
    },
    {
      "epoch": 0.9599524187153053,
      "grad_norm": 0.7969012994428025,
      "learning_rate": 1.0441927105931333e-06,
      "loss": 0.5621,
      "mean_token_accuracy": 0.8121413588523865,
      "num_tokens": 312071928.0,
      "step": 7263
    },
    {
      "epoch": 0.9600845889505684,
      "grad_norm": 0.7753274973589548,
      "learning_rate": 1.0439029201739895e-06,
      "loss": 0.5601,
      "mean_token_accuracy": 0.8116072416305542,
      "num_tokens": 312137464.0,
      "step": 7264
    },
    {
      "epoch": 0.9602167591858314,
      "grad_norm": 0.8241796490424338,
      "learning_rate": 1.0436140783648773e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.7885026335716248,
      "num_tokens": 312203000.0,
      "step": 7265
    },
    {
      "epoch": 0.9603489294210944,
      "grad_norm": 0.8223800992685033,
      "learning_rate": 1.0433261852272855e-06,
      "loss": 0.5663,
      "mean_token_accuracy": 0.8104321956634521,
      "num_tokens": 312268536.0,
      "step": 7266
    },
    {
      "epoch": 0.9604810996563574,
      "grad_norm": 0.747760873415913,
      "learning_rate": 1.0430392408225e-06,
      "loss": 0.5816,
      "mean_token_accuracy": 0.8043126463890076,
      "num_tokens": 312334072.0,
      "step": 7267
    },
    {
      "epoch": 0.9606132698916204,
      "grad_norm": 0.7784215411719527,
      "learning_rate": 1.0427532452116055e-06,
      "loss": 0.5854,
      "mean_token_accuracy": 0.8036564588546753,
      "num_tokens": 312399608.0,
      "step": 7268
    },
    {
      "epoch": 0.9607454401268835,
      "grad_norm": 0.820641037805614,
      "learning_rate": 1.0424681984554846e-06,
      "loss": 0.6104,
      "mean_token_accuracy": 0.798071026802063,
      "num_tokens": 312465144.0,
      "step": 7269
    },
    {
      "epoch": 0.9608776103621465,
      "grad_norm": 0.7980896653426995,
      "learning_rate": 1.0421841006148175e-06,
      "loss": 0.5388,
      "mean_token_accuracy": 0.8190239071846008,
      "num_tokens": 312530680.0,
      "step": 7270
    },
    {
      "epoch": 0.9610097805974095,
      "grad_norm": 0.7423003716703193,
      "learning_rate": 1.0419009517500831e-06,
      "loss": 0.5061,
      "mean_token_accuracy": 0.8293706774711609,
      "num_tokens": 312596216.0,
      "step": 7271
    },
    {
      "epoch": 0.9611419508326725,
      "grad_norm": 0.8539793025605933,
      "learning_rate": 1.0416187519215575e-06,
      "loss": 0.6382,
      "mean_token_accuracy": 0.7856793999671936,
      "num_tokens": 312661752.0,
      "step": 7272
    },
    {
      "epoch": 0.9612741210679355,
      "grad_norm": 0.8254485333002308,
      "learning_rate": 1.0413375011893153e-06,
      "loss": 0.604,
      "mean_token_accuracy": 0.7961634993553162,
      "num_tokens": 312727288.0,
      "step": 7273
    },
    {
      "epoch": 0.9614062913031985,
      "grad_norm": 0.7655892536670124,
      "learning_rate": 1.041057199613229e-06,
      "loss": 0.5799,
      "mean_token_accuracy": 0.8092876076698303,
      "num_tokens": 312792824.0,
      "step": 7274
    },
    {
      "epoch": 0.9615384615384616,
      "grad_norm": 0.8213730625093363,
      "learning_rate": 1.040777847252969e-06,
      "loss": 0.6131,
      "mean_token_accuracy": 0.7937675714492798,
      "num_tokens": 312858360.0,
      "step": 7275
    },
    {
      "epoch": 0.9616706317737246,
      "grad_norm": 0.7276296200573094,
      "learning_rate": 1.0404994441680034e-06,
      "loss": 0.5341,
      "mean_token_accuracy": 0.8214503526687622,
      "num_tokens": 312923896.0,
      "step": 7276
    },
    {
      "epoch": 0.9618028020089876,
      "grad_norm": 0.7804917930058415,
      "learning_rate": 1.040221990417598e-06,
      "loss": 0.5569,
      "mean_token_accuracy": 0.8125686645507812,
      "num_tokens": 312989432.0,
      "step": 7277
    },
    {
      "epoch": 0.9619349722442506,
      "grad_norm": 0.8375515809889811,
      "learning_rate": 1.0399454860608176e-06,
      "loss": 0.5778,
      "mean_token_accuracy": 0.806525468826294,
      "num_tokens": 313054968.0,
      "step": 7278
    },
    {
      "epoch": 0.9620671424795136,
      "grad_norm": 0.8087282869830145,
      "learning_rate": 1.0396699311565248e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8073647618293762,
      "num_tokens": 313120504.0,
      "step": 7279
    },
    {
      "epoch": 0.9621993127147767,
      "grad_norm": 0.8397849108793652,
      "learning_rate": 1.0393953257633777e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 313186040.0,
      "step": 7280
    },
    {
      "epoch": 0.9623314829500397,
      "grad_norm": 0.8289139608769361,
      "learning_rate": 1.0391216699398356e-06,
      "loss": 0.5568,
      "mean_token_accuracy": 0.8141099810600281,
      "num_tokens": 313251576.0,
      "step": 7281
    },
    {
      "epoch": 0.9624636531853027,
      "grad_norm": 0.7817303956701656,
      "learning_rate": 1.0388489637441531e-06,
      "loss": 0.5792,
      "mean_token_accuracy": 0.8071358799934387,
      "num_tokens": 313317112.0,
      "step": 7282
    },
    {
      "epoch": 0.9625958234205657,
      "grad_norm": 0.7832094649685192,
      "learning_rate": 1.0385772072343843e-06,
      "loss": 0.5761,
      "mean_token_accuracy": 0.8072274327278137,
      "num_tokens": 313382648.0,
      "step": 7283
    },
    {
      "epoch": 0.9627279936558287,
      "grad_norm": 0.7951426832993749,
      "learning_rate": 1.03830640046838e-06,
      "loss": 0.5495,
      "mean_token_accuracy": 0.8170247673988342,
      "num_tokens": 313448184.0,
      "step": 7284
    },
    {
      "epoch": 0.9628601638910917,
      "grad_norm": 0.7374738161271408,
      "learning_rate": 1.0380365435037904e-06,
      "loss": 0.5256,
      "mean_token_accuracy": 0.8253265619277954,
      "num_tokens": 313513720.0,
      "step": 7285
    },
    {
      "epoch": 0.9629923341263548,
      "grad_norm": 0.8001264783607893,
      "learning_rate": 1.0377676363980605e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8109510540962219,
      "num_tokens": 313579256.0,
      "step": 7286
    },
    {
      "epoch": 0.9631245043616178,
      "grad_norm": 0.7685833388566157,
      "learning_rate": 1.0374996792084366e-06,
      "loss": 0.5353,
      "mean_token_accuracy": 0.8195275068283081,
      "num_tokens": 313644792.0,
      "step": 7287
    },
    {
      "epoch": 0.9632566745968808,
      "grad_norm": 0.7731128043269057,
      "learning_rate": 1.037232671991961e-06,
      "loss": 0.4989,
      "mean_token_accuracy": 0.8337810039520264,
      "num_tokens": 313710328.0,
      "step": 7288
    },
    {
      "epoch": 0.9633888448321438,
      "grad_norm": 0.7912676912499821,
      "learning_rate": 1.0369666148054733e-06,
      "loss": 0.5346,
      "mean_token_accuracy": 0.8217708468437195,
      "num_tokens": 313775864.0,
      "step": 7289
    },
    {
      "epoch": 0.9635210150674068,
      "grad_norm": 0.7928314770685378,
      "learning_rate": 1.0367015077056121e-06,
      "loss": 0.5791,
      "mean_token_accuracy": 0.8060218691825867,
      "num_tokens": 313841400.0,
      "step": 7290
    },
    {
      "epoch": 0.9636531853026699,
      "grad_norm": 0.8533107779313345,
      "learning_rate": 1.0364373507488126e-06,
      "loss": 0.6402,
      "mean_token_accuracy": 0.7861677408218384,
      "num_tokens": 313906936.0,
      "step": 7291
    },
    {
      "epoch": 0.9637853555379329,
      "grad_norm": 0.7614310326197542,
      "learning_rate": 1.036174143991309e-06,
      "loss": 0.5222,
      "mean_token_accuracy": 0.8243498802185059,
      "num_tokens": 313972472.0,
      "step": 7292
    },
    {
      "epoch": 0.9639175257731959,
      "grad_norm": 0.7673228081809855,
      "learning_rate": 1.035911887489132e-06,
      "loss": 0.5838,
      "mean_token_accuracy": 0.8052893280982971,
      "num_tokens": 314038008.0,
      "step": 7293
    },
    {
      "epoch": 0.9640496960084589,
      "grad_norm": 0.8348429114066127,
      "learning_rate": 1.035650581298111e-06,
      "loss": 0.6064,
      "mean_token_accuracy": 0.7968196868896484,
      "num_tokens": 314103544.0,
      "step": 7294
    },
    {
      "epoch": 0.9641818662437219,
      "grad_norm": 0.8466657333756358,
      "learning_rate": 1.0353902254738722e-06,
      "loss": 0.6013,
      "mean_token_accuracy": 0.8007569313049316,
      "num_tokens": 314169080.0,
      "step": 7295
    },
    {
      "epoch": 0.964314036478985,
      "grad_norm": 0.7673890055567572,
      "learning_rate": 1.0351308200718399e-06,
      "loss": 0.5766,
      "mean_token_accuracy": 0.8060829043388367,
      "num_tokens": 314234616.0,
      "step": 7296
    },
    {
      "epoch": 0.964446206714248,
      "grad_norm": 0.781414312480242,
      "learning_rate": 1.0348723651472362e-06,
      "loss": 0.5876,
      "mean_token_accuracy": 0.803030788898468,
      "num_tokens": 314300152.0,
      "step": 7297
    },
    {
      "epoch": 0.964578376949511,
      "grad_norm": 0.7594253841381003,
      "learning_rate": 1.034614860755081e-06,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8015046715736389,
      "num_tokens": 314365688.0,
      "step": 7298
    },
    {
      "epoch": 0.964710547184774,
      "grad_norm": 0.7551021320895671,
      "learning_rate": 1.0343583069501911e-06,
      "loss": 0.5829,
      "mean_token_accuracy": 0.8051672577857971,
      "num_tokens": 314431224.0,
      "step": 7299
    },
    {
      "epoch": 0.964842717420037,
      "grad_norm": 0.7778992191898761,
      "learning_rate": 1.0341027037871824e-06,
      "loss": 0.5466,
      "mean_token_accuracy": 0.8157276511192322,
      "num_tokens": 314496760.0,
      "step": 7300
    },
    {
      "epoch": 0.9649748876553,
      "grad_norm": 0.7936692594332005,
      "learning_rate": 1.0338480513204663e-06,
      "loss": 0.5591,
      "mean_token_accuracy": 0.8163838386535645,
      "num_tokens": 314562296.0,
      "step": 7301
    },
    {
      "epoch": 0.9651070578905631,
      "grad_norm": 0.8081706472706276,
      "learning_rate": 1.0335943496042535e-06,
      "loss": 0.564,
      "mean_token_accuracy": 0.8131332993507385,
      "num_tokens": 314627832.0,
      "step": 7302
    },
    {
      "epoch": 0.9652392281258261,
      "grad_norm": 0.8178841820795072,
      "learning_rate": 1.0333415986925522e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8043889403343201,
      "num_tokens": 314693368.0,
      "step": 7303
    },
    {
      "epoch": 0.9653713983610891,
      "grad_norm": 0.8435152802724627,
      "learning_rate": 1.033089798639167e-06,
      "loss": 0.6261,
      "mean_token_accuracy": 0.7934165596961975,
      "num_tokens": 314758904.0,
      "step": 7304
    },
    {
      "epoch": 0.9655035685963521,
      "grad_norm": 0.7836206160305582,
      "learning_rate": 1.0328389494977018e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8120803236961365,
      "num_tokens": 314824440.0,
      "step": 7305
    },
    {
      "epoch": 0.9656357388316151,
      "grad_norm": 0.8022703704615924,
      "learning_rate": 1.0325890513215566e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8043279051780701,
      "num_tokens": 314889976.0,
      "step": 7306
    },
    {
      "epoch": 0.9657679090668781,
      "grad_norm": 0.8330367145249932,
      "learning_rate": 1.032340104163929e-06,
      "loss": 0.5637,
      "mean_token_accuracy": 0.8115462064743042,
      "num_tokens": 314955512.0,
      "step": 7307
    },
    {
      "epoch": 0.9659000793021412,
      "grad_norm": 0.8353252550706239,
      "learning_rate": 1.0320921080778159e-06,
      "loss": 0.5916,
      "mean_token_accuracy": 0.7996734380722046,
      "num_tokens": 315021048.0,
      "step": 7308
    },
    {
      "epoch": 0.9660322495374042,
      "grad_norm": 0.8477379286468503,
      "learning_rate": 1.031845063116009e-06,
      "loss": 0.5889,
      "mean_token_accuracy": 0.8046178817749023,
      "num_tokens": 315086584.0,
      "step": 7309
    },
    {
      "epoch": 0.9661644197726672,
      "grad_norm": 0.8235536500617505,
      "learning_rate": 1.0315989693311005e-06,
      "loss": 0.5653,
      "mean_token_accuracy": 0.808722972869873,
      "num_tokens": 315152120.0,
      "step": 7310
    },
    {
      "epoch": 0.9662965900079302,
      "grad_norm": 0.8095511197395496,
      "learning_rate": 1.0313538267754777e-06,
      "loss": 0.5906,
      "mean_token_accuracy": 0.802466094493866,
      "num_tokens": 315217656.0,
      "step": 7311
    },
    {
      "epoch": 0.9664287602431932,
      "grad_norm": 0.8011988699320693,
      "learning_rate": 1.0311096355013265e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8000702261924744,
      "num_tokens": 315283192.0,
      "step": 7312
    },
    {
      "epoch": 0.9665609304784563,
      "grad_norm": 0.8492845544903234,
      "learning_rate": 1.03086639556063e-06,
      "loss": 0.5736,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 315348728.0,
      "step": 7313
    },
    {
      "epoch": 0.9666931007137193,
      "grad_norm": 0.7719885341064912,
      "learning_rate": 1.0306241070051695e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8205194473266602,
      "num_tokens": 315414264.0,
      "step": 7314
    },
    {
      "epoch": 0.9668252709489823,
      "grad_norm": 0.7788439523300992,
      "learning_rate": 1.0303827698865224e-06,
      "loss": 0.5691,
      "mean_token_accuracy": 0.8122329115867615,
      "num_tokens": 315479800.0,
      "step": 7315
    },
    {
      "epoch": 0.9669574411842453,
      "grad_norm": 0.7986947282939442,
      "learning_rate": 1.0301423842560647e-06,
      "loss": 0.5565,
      "mean_token_accuracy": 0.8133622407913208,
      "num_tokens": 315545336.0,
      "step": 7316
    },
    {
      "epoch": 0.9670896114195083,
      "grad_norm": 0.7733149293446702,
      "learning_rate": 1.02990295016497e-06,
      "loss": 0.5408,
      "mean_token_accuracy": 0.8196801543235779,
      "num_tokens": 315610872.0,
      "step": 7317
    },
    {
      "epoch": 0.9672217816547714,
      "grad_norm": 0.7583436578471339,
      "learning_rate": 1.0296644676642081e-06,
      "loss": 0.5328,
      "mean_token_accuracy": 0.8212214708328247,
      "num_tokens": 315676408.0,
      "step": 7318
    },
    {
      "epoch": 0.9673539518900344,
      "grad_norm": 0.8362141231386014,
      "learning_rate": 1.0294269368045468e-06,
      "loss": 0.5323,
      "mean_token_accuracy": 0.8248839974403381,
      "num_tokens": 315741944.0,
      "step": 7319
    },
    {
      "epoch": 0.9674861221252974,
      "grad_norm": 0.8299385397789529,
      "learning_rate": 1.0291903576365523e-06,
      "loss": 0.5959,
      "mean_token_accuracy": 0.8014131188392639,
      "num_tokens": 315807480.0,
      "step": 7320
    },
    {
      "epoch": 0.9676182923605604,
      "grad_norm": 0.8294035199038629,
      "learning_rate": 1.0289547302105867e-06,
      "loss": 0.5293,
      "mean_token_accuracy": 0.8262879848480225,
      "num_tokens": 315873016.0,
      "step": 7321
    },
    {
      "epoch": 0.9677504625958234,
      "grad_norm": 0.8243431462607049,
      "learning_rate": 1.02872005457681e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.8008790016174316,
      "num_tokens": 315938552.0,
      "step": 7322
    },
    {
      "epoch": 0.9678826328310864,
      "grad_norm": 0.8077269438914599,
      "learning_rate": 1.0284863307851804e-06,
      "loss": 0.5413,
      "mean_token_accuracy": 0.8216487765312195,
      "num_tokens": 316004088.0,
      "step": 7323
    },
    {
      "epoch": 0.9680148030663495,
      "grad_norm": 0.8069664527654927,
      "learning_rate": 1.0282535588854527e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8106000423431396,
      "num_tokens": 316069624.0,
      "step": 7324
    },
    {
      "epoch": 0.9681469733016125,
      "grad_norm": 0.7956800962283077,
      "learning_rate": 1.0280217389271786e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8096081018447876,
      "num_tokens": 316135160.0,
      "step": 7325
    },
    {
      "epoch": 0.9682791435368755,
      "grad_norm": 0.8401924321036602,
      "learning_rate": 1.027790870959708e-06,
      "loss": 0.6391,
      "mean_token_accuracy": 0.7868544459342957,
      "num_tokens": 316200696.0,
      "step": 7326
    },
    {
      "epoch": 0.9684113137721385,
      "grad_norm": 0.7933033576624303,
      "learning_rate": 1.0275609550321881e-06,
      "loss": 0.5648,
      "mean_token_accuracy": 0.812126100063324,
      "num_tokens": 316266232.0,
      "step": 7327
    },
    {
      "epoch": 0.9685434840074015,
      "grad_norm": 0.80995750672725,
      "learning_rate": 1.0273319911935633e-06,
      "loss": 0.5888,
      "mean_token_accuracy": 0.8050299286842346,
      "num_tokens": 316331768.0,
      "step": 7328
    },
    {
      "epoch": 0.9686756542426646,
      "grad_norm": 0.8085455250062562,
      "learning_rate": 1.0271039794925749e-06,
      "loss": 0.5807,
      "mean_token_accuracy": 0.8048009872436523,
      "num_tokens": 316397304.0,
      "step": 7329
    },
    {
      "epoch": 0.9688078244779276,
      "grad_norm": 0.8460096098036942,
      "learning_rate": 1.0268769199777616e-06,
      "loss": 0.6211,
      "mean_token_accuracy": 0.7901507616043091,
      "num_tokens": 316462840.0,
      "step": 7330
    },
    {
      "epoch": 0.9689399947131906,
      "grad_norm": 0.7608254460511407,
      "learning_rate": 1.0266508126974602e-06,
      "loss": 0.517,
      "mean_token_accuracy": 0.8296148180961609,
      "num_tokens": 316528376.0,
      "step": 7331
    },
    {
      "epoch": 0.9690721649484536,
      "grad_norm": 0.7870395619055452,
      "learning_rate": 1.026425657699804e-06,
      "loss": 0.5769,
      "mean_token_accuracy": 0.8081125617027283,
      "num_tokens": 316593912.0,
      "step": 7332
    },
    {
      "epoch": 0.9692043351837166,
      "grad_norm": 0.803106007956432,
      "learning_rate": 1.0262014550327237e-06,
      "loss": 0.5974,
      "mean_token_accuracy": 0.8004211783409119,
      "num_tokens": 316659448.0,
      "step": 7333
    },
    {
      "epoch": 0.9693365054189796,
      "grad_norm": 0.8424998736119736,
      "learning_rate": 1.0259782047439477e-06,
      "loss": 0.6201,
      "mean_token_accuracy": 0.792348325252533,
      "num_tokens": 316724984.0,
      "step": 7334
    },
    {
      "epoch": 0.9694686756542427,
      "grad_norm": 0.7672872251833971,
      "learning_rate": 1.0257559068810008e-06,
      "loss": 0.5104,
      "mean_token_accuracy": 0.8311713933944702,
      "num_tokens": 316790520.0,
      "step": 7335
    },
    {
      "epoch": 0.9696008458895057,
      "grad_norm": 0.7869679177180339,
      "learning_rate": 1.0255345614912063e-06,
      "loss": 0.5451,
      "mean_token_accuracy": 0.8192833662033081,
      "num_tokens": 316856056.0,
      "step": 7336
    },
    {
      "epoch": 0.9697330161247687,
      "grad_norm": 0.7973451004427002,
      "learning_rate": 1.025314168621683e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8107678890228271,
      "num_tokens": 316921592.0,
      "step": 7337
    },
    {
      "epoch": 0.9698651863600317,
      "grad_norm": 0.7749296182624715,
      "learning_rate": 1.0250947283193482e-06,
      "loss": 0.5495,
      "mean_token_accuracy": 0.8143694400787354,
      "num_tokens": 316987128.0,
      "step": 7338
    },
    {
      "epoch": 0.9699973565952947,
      "grad_norm": 0.7222153928400741,
      "learning_rate": 1.0248762406309173e-06,
      "loss": 0.5131,
      "mean_token_accuracy": 0.8279361724853516,
      "num_tokens": 317052664.0,
      "step": 7339
    },
    {
      "epoch": 0.9701295268305578,
      "grad_norm": 0.7804601503556108,
      "learning_rate": 1.0246587056029004e-06,
      "loss": 0.5897,
      "mean_token_accuracy": 0.8033512234687805,
      "num_tokens": 317118200.0,
      "step": 7340
    },
    {
      "epoch": 0.9702616970658208,
      "grad_norm": 0.8250729982702499,
      "learning_rate": 1.0244421232816064e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8113631010055542,
      "num_tokens": 317183736.0,
      "step": 7341
    },
    {
      "epoch": 0.9703938673010838,
      "grad_norm": 0.855187356993962,
      "learning_rate": 1.0242264937131422e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7862898111343384,
      "num_tokens": 317249272.0,
      "step": 7342
    },
    {
      "epoch": 0.9705260375363468,
      "grad_norm": 0.7696385370612443,
      "learning_rate": 1.0240118169434094e-06,
      "loss": 0.5289,
      "mean_token_accuracy": 0.822655975818634,
      "num_tokens": 317314808.0,
      "step": 7343
    },
    {
      "epoch": 0.9706582077716098,
      "grad_norm": 0.7254475066785017,
      "learning_rate": 1.0237980930181094e-06,
      "loss": 0.5112,
      "mean_token_accuracy": 0.8312324285507202,
      "num_tokens": 317380344.0,
      "step": 7344
    },
    {
      "epoch": 0.9707903780068728,
      "grad_norm": 0.8489833859445624,
      "learning_rate": 1.0235853219827383e-06,
      "loss": 0.5942,
      "mean_token_accuracy": 0.8011079430580139,
      "num_tokens": 317445880.0,
      "step": 7345
    },
    {
      "epoch": 0.9709225482421359,
      "grad_norm": 0.808831306631279,
      "learning_rate": 1.023373503882592e-06,
      "loss": 0.5947,
      "mean_token_accuracy": 0.8001922965049744,
      "num_tokens": 317511416.0,
      "step": 7346
    },
    {
      "epoch": 0.9710547184773989,
      "grad_norm": 0.7704432846165499,
      "learning_rate": 1.0231626387627614e-06,
      "loss": 0.5322,
      "mean_token_accuracy": 0.8201990127563477,
      "num_tokens": 317576952.0,
      "step": 7347
    },
    {
      "epoch": 0.9711868887126619,
      "grad_norm": 0.796761412340538,
      "learning_rate": 1.0229527266681354e-06,
      "loss": 0.5972,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 317642488.0,
      "step": 7348
    },
    {
      "epoch": 0.9713190589479249,
      "grad_norm": 0.7801145886228,
      "learning_rate": 1.0227437676433995e-06,
      "loss": 0.5757,
      "mean_token_accuracy": 0.807700514793396,
      "num_tokens": 317708024.0,
      "step": 7349
    },
    {
      "epoch": 0.9714512291831879,
      "grad_norm": 0.8340106657855945,
      "learning_rate": 1.0225357617330375e-06,
      "loss": 0.5666,
      "mean_token_accuracy": 0.8115919828414917,
      "num_tokens": 317773560.0,
      "step": 7350
    },
    {
      "epoch": 0.971583399418451,
      "grad_norm": 0.8290762992178669,
      "learning_rate": 1.022328708981329e-06,
      "loss": 0.5635,
      "mean_token_accuracy": 0.8136979341506958,
      "num_tokens": 317839096.0,
      "step": 7351
    },
    {
      "epoch": 0.971715569653714,
      "grad_norm": 0.7826023530482715,
      "learning_rate": 1.0221226094323513e-06,
      "loss": 0.5528,
      "mean_token_accuracy": 0.816460132598877,
      "num_tokens": 317904632.0,
      "step": 7352
    },
    {
      "epoch": 0.971847739888977,
      "grad_norm": 0.7666135976697571,
      "learning_rate": 1.0219174631299783e-06,
      "loss": 0.5566,
      "mean_token_accuracy": 0.8157123923301697,
      "num_tokens": 317970168.0,
      "step": 7353
    },
    {
      "epoch": 0.97197991012424,
      "grad_norm": 0.8377836721626891,
      "learning_rate": 1.0217132701178826e-06,
      "loss": 0.5583,
      "mean_token_accuracy": 0.8173147439956665,
      "num_tokens": 318035704.0,
      "step": 7354
    },
    {
      "epoch": 0.972112080359503,
      "grad_norm": 0.8129502511754871,
      "learning_rate": 1.021510030439531e-06,
      "loss": 0.5739,
      "mean_token_accuracy": 0.8092265725135803,
      "num_tokens": 318101240.0,
      "step": 7355
    },
    {
      "epoch": 0.972244250594766,
      "grad_norm": 0.8098482990765985,
      "learning_rate": 1.02130774413819e-06,
      "loss": 0.5698,
      "mean_token_accuracy": 0.8114393949508667,
      "num_tokens": 318166776.0,
      "step": 7356
    },
    {
      "epoch": 0.9723764208300291,
      "grad_norm": 0.8172591439672289,
      "learning_rate": 1.0211064112569224e-06,
      "loss": 0.598,
      "mean_token_accuracy": 0.8014131188392639,
      "num_tokens": 318232312.0,
      "step": 7357
    },
    {
      "epoch": 0.9725085910652921,
      "grad_norm": 0.7782819959369548,
      "learning_rate": 1.0209060318385868e-06,
      "loss": 0.5658,
      "mean_token_accuracy": 0.8095470666885376,
      "num_tokens": 318297848.0,
      "step": 7358
    },
    {
      "epoch": 0.9726407613005551,
      "grad_norm": 0.7760579311379129,
      "learning_rate": 1.0207066059258402e-06,
      "loss": 0.5579,
      "mean_token_accuracy": 0.8142931461334229,
      "num_tokens": 318363384.0,
      "step": 7359
    },
    {
      "epoch": 0.9727729315358181,
      "grad_norm": 0.8028873248811177,
      "learning_rate": 1.020508133561136e-06,
      "loss": 0.5552,
      "mean_token_accuracy": 0.8176962733268738,
      "num_tokens": 318428920.0,
      "step": 7360
    },
    {
      "epoch": 0.9729051017710811,
      "grad_norm": 0.7906788419905566,
      "learning_rate": 1.0203106147867263e-06,
      "loss": 0.5827,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 318494456.0,
      "step": 7361
    },
    {
      "epoch": 0.9730372720063442,
      "grad_norm": 0.8456912505342385,
      "learning_rate": 1.0201140496446565e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8048467636108398,
      "num_tokens": 318559992.0,
      "step": 7362
    },
    {
      "epoch": 0.9731694422416072,
      "grad_norm": 0.7794951977715902,
      "learning_rate": 1.019918438176773e-06,
      "loss": 0.5509,
      "mean_token_accuracy": 0.8155292272567749,
      "num_tokens": 318625528.0,
      "step": 7363
    },
    {
      "epoch": 0.9733016124768702,
      "grad_norm": 0.7699977112468575,
      "learning_rate": 1.0197237804247157e-06,
      "loss": 0.5643,
      "mean_token_accuracy": 0.8157581686973572,
      "num_tokens": 318691064.0,
      "step": 7364
    },
    {
      "epoch": 0.9734337827121332,
      "grad_norm": 0.8127092253009432,
      "learning_rate": 1.0195300764299245e-06,
      "loss": 0.6094,
      "mean_token_accuracy": 0.798879861831665,
      "num_tokens": 318756600.0,
      "step": 7365
    },
    {
      "epoch": 0.9735659529473962,
      "grad_norm": 0.7883202841956097,
      "learning_rate": 1.019337326233635e-06,
      "loss": 0.5934,
      "mean_token_accuracy": 0.8024966716766357,
      "num_tokens": 318822136.0,
      "step": 7366
    },
    {
      "epoch": 0.9736981231826592,
      "grad_norm": 0.8327221085233262,
      "learning_rate": 1.019145529876879e-06,
      "loss": 0.5768,
      "mean_token_accuracy": 0.8049536347389221,
      "num_tokens": 318887672.0,
      "step": 7367
    },
    {
      "epoch": 0.9738302934179223,
      "grad_norm": 0.8219134239176741,
      "learning_rate": 1.0189546874004856e-06,
      "loss": 0.5793,
      "mean_token_accuracy": 0.8091655373573303,
      "num_tokens": 318953208.0,
      "step": 7368
    },
    {
      "epoch": 0.9739624636531853,
      "grad_norm": 0.7567670633084064,
      "learning_rate": 1.0187647988450825e-06,
      "loss": 0.529,
      "mean_token_accuracy": 0.8245940804481506,
      "num_tokens": 319018744.0,
      "step": 7369
    },
    {
      "epoch": 0.9740946338884483,
      "grad_norm": 0.8245800106765855,
      "learning_rate": 1.018575864251092e-06,
      "loss": 0.6046,
      "mean_token_accuracy": 0.7972164750099182,
      "num_tokens": 319084280.0,
      "step": 7370
    },
    {
      "epoch": 0.9742268041237113,
      "grad_norm": 0.7701820122842344,
      "learning_rate": 1.0183878836587348e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8062965273857117,
      "num_tokens": 319149816.0,
      "step": 7371
    },
    {
      "epoch": 0.9743589743589743,
      "grad_norm": 0.7715042346779899,
      "learning_rate": 1.0182008571080275e-06,
      "loss": 0.5281,
      "mean_token_accuracy": 0.8226712346076965,
      "num_tokens": 319215352.0,
      "step": 7372
    },
    {
      "epoch": 0.9744911445942374,
      "grad_norm": 0.7818943525624414,
      "learning_rate": 1.018014784638785e-06,
      "loss": 0.552,
      "mean_token_accuracy": 0.8148882985115051,
      "num_tokens": 319280888.0,
      "step": 7373
    },
    {
      "epoch": 0.9746233148295004,
      "grad_norm": 0.7734808095134393,
      "learning_rate": 1.0178296662906175e-06,
      "loss": 0.5657,
      "mean_token_accuracy": 0.8104474544525146,
      "num_tokens": 319346424.0,
      "step": 7374
    },
    {
      "epoch": 0.9747554850647634,
      "grad_norm": 0.8544050510162629,
      "learning_rate": 1.0176455021029326e-06,
      "loss": 0.5783,
      "mean_token_accuracy": 0.8050451874732971,
      "num_tokens": 319411960.0,
      "step": 7375
    },
    {
      "epoch": 0.9748876553000264,
      "grad_norm": 0.7419821335490772,
      "learning_rate": 1.017462292114936e-06,
      "loss": 0.5744,
      "mean_token_accuracy": 0.8102185130119324,
      "num_tokens": 319477496.0,
      "step": 7376
    },
    {
      "epoch": 0.9750198255352894,
      "grad_norm": 0.8158197872960884,
      "learning_rate": 1.0172800363656285e-06,
      "loss": 0.6008,
      "mean_token_accuracy": 0.802344024181366,
      "num_tokens": 319543032.0,
      "step": 7377
    },
    {
      "epoch": 0.9751519957705524,
      "grad_norm": 0.8258909280540617,
      "learning_rate": 1.017098734893809e-06,
      "loss": 0.5894,
      "mean_token_accuracy": 0.8051062226295471,
      "num_tokens": 319608568.0,
      "step": 7378
    },
    {
      "epoch": 0.9752841660058155,
      "grad_norm": 0.787527491541834,
      "learning_rate": 1.0169183877380726e-06,
      "loss": 0.6085,
      "mean_token_accuracy": 0.79884934425354,
      "num_tokens": 319674104.0,
      "step": 7379
    },
    {
      "epoch": 0.9754163362410785,
      "grad_norm": 0.8259116170664905,
      "learning_rate": 1.0167389949368112e-06,
      "loss": 0.5815,
      "mean_token_accuracy": 0.8072426915168762,
      "num_tokens": 319739640.0,
      "step": 7380
    },
    {
      "epoch": 0.9755485064763415,
      "grad_norm": 0.7502259584018148,
      "learning_rate": 1.0165605565282142e-06,
      "loss": 0.5515,
      "mean_token_accuracy": 0.8166890740394592,
      "num_tokens": 319805176.0,
      "step": 7381
    },
    {
      "epoch": 0.9756806767116045,
      "grad_norm": 0.7286758137695245,
      "learning_rate": 1.0163830725502673e-06,
      "loss": 0.5245,
      "mean_token_accuracy": 0.825937032699585,
      "num_tokens": 319870712.0,
      "step": 7382
    },
    {
      "epoch": 0.9758128469468675,
      "grad_norm": 0.8050310480319659,
      "learning_rate": 1.0162065430407531e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8005433082580566,
      "num_tokens": 319936248.0,
      "step": 7383
    },
    {
      "epoch": 0.9759450171821306,
      "grad_norm": 0.8442330291785238,
      "learning_rate": 1.0160309680372512e-06,
      "loss": 0.6283,
      "mean_token_accuracy": 0.7913563847541809,
      "num_tokens": 320001784.0,
      "step": 7384
    },
    {
      "epoch": 0.9760771874173936,
      "grad_norm": 0.7617173352087798,
      "learning_rate": 1.015856347577137e-06,
      "loss": 0.5687,
      "mean_token_accuracy": 0.8085246086120605,
      "num_tokens": 320067320.0,
      "step": 7385
    },
    {
      "epoch": 0.9762093576526566,
      "grad_norm": 0.729986310182902,
      "learning_rate": 1.015682681697585e-06,
      "loss": 0.542,
      "mean_token_accuracy": 0.8198174834251404,
      "num_tokens": 320132856.0,
      "step": 7386
    },
    {
      "epoch": 0.9763415278879196,
      "grad_norm": 0.7865458121821051,
      "learning_rate": 1.0155099704355634e-06,
      "loss": 0.5679,
      "mean_token_accuracy": 0.8111646771430969,
      "num_tokens": 320198392.0,
      "step": 7387
    },
    {
      "epoch": 0.9764736981231826,
      "grad_norm": 0.7915585518983124,
      "learning_rate": 1.0153382138278405e-06,
      "loss": 0.602,
      "mean_token_accuracy": 0.7989561557769775,
      "num_tokens": 320263928.0,
      "step": 7388
    },
    {
      "epoch": 0.9766058683584457,
      "grad_norm": 0.7715755154442595,
      "learning_rate": 1.0151674119109785e-06,
      "loss": 0.5702,
      "mean_token_accuracy": 0.8105084896087646,
      "num_tokens": 320329464.0,
      "step": 7389
    },
    {
      "epoch": 0.9767380385937087,
      "grad_norm": 0.8343267526001402,
      "learning_rate": 1.0149975647213382e-06,
      "loss": 0.5902,
      "mean_token_accuracy": 0.8066017627716064,
      "num_tokens": 320395000.0,
      "step": 7390
    },
    {
      "epoch": 0.9768702088289717,
      "grad_norm": 0.7770120220442425,
      "learning_rate": 1.0148286722950758e-06,
      "loss": 0.5312,
      "mean_token_accuracy": 0.8223507404327393,
      "num_tokens": 320460536.0,
      "step": 7391
    },
    {
      "epoch": 0.9770023790642347,
      "grad_norm": 0.8517157770628799,
      "learning_rate": 1.0146607346681456e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.7893572449684143,
      "num_tokens": 320526072.0,
      "step": 7392
    },
    {
      "epoch": 0.9771345492994977,
      "grad_norm": 0.8152362029731574,
      "learning_rate": 1.0144937518762982e-06,
      "loss": 0.5763,
      "mean_token_accuracy": 0.8054267168045044,
      "num_tokens": 320591608.0,
      "step": 7393
    },
    {
      "epoch": 0.9772667195347607,
      "grad_norm": 0.7657899392296796,
      "learning_rate": 1.01432772395508e-06,
      "loss": 0.5508,
      "mean_token_accuracy": 0.8160633444786072,
      "num_tokens": 320657144.0,
      "step": 7394
    },
    {
      "epoch": 0.9773988897700238,
      "grad_norm": 0.813177524135791,
      "learning_rate": 1.0141626509398356e-06,
      "loss": 0.6021,
      "mean_token_accuracy": 0.8000702261924744,
      "num_tokens": 320722680.0,
      "step": 7395
    },
    {
      "epoch": 0.9775310600052868,
      "grad_norm": 0.7944066630464662,
      "learning_rate": 1.0139985328657049e-06,
      "loss": 0.5479,
      "mean_token_accuracy": 0.8162922859191895,
      "num_tokens": 320788216.0,
      "step": 7396
    },
    {
      "epoch": 0.9776632302405498,
      "grad_norm": 0.7631640910718817,
      "learning_rate": 1.013835369767626e-06,
      "loss": 0.5527,
      "mean_token_accuracy": 0.8184287548065186,
      "num_tokens": 320853752.0,
      "step": 7397
    },
    {
      "epoch": 0.9777954004758128,
      "grad_norm": 0.8339421454883487,
      "learning_rate": 1.0136731616803323e-06,
      "loss": 0.5662,
      "mean_token_accuracy": 0.8098523020744324,
      "num_tokens": 320919288.0,
      "step": 7398
    },
    {
      "epoch": 0.9779275707110758,
      "grad_norm": 0.7750759279081983,
      "learning_rate": 1.0135119086383546e-06,
      "loss": 0.5511,
      "mean_token_accuracy": 0.8168721795082092,
      "num_tokens": 320984824.0,
      "step": 7399
    },
    {
      "epoch": 0.9780597409463389,
      "grad_norm": 0.86551878612326,
      "learning_rate": 1.0133516106760207e-06,
      "loss": 0.5977,
      "mean_token_accuracy": 0.8006196022033691,
      "num_tokens": 321050360.0,
      "step": 7400
    },
    {
      "epoch": 0.9781919111816019,
      "grad_norm": 0.7956942962384976,
      "learning_rate": 1.0131922678274545e-06,
      "loss": 0.5407,
      "mean_token_accuracy": 0.8188713192939758,
      "num_tokens": 321115896.0,
      "step": 7401
    },
    {
      "epoch": 0.9783240814168649,
      "grad_norm": 0.7663889657207524,
      "learning_rate": 1.0130338801265761e-06,
      "loss": 0.5218,
      "mean_token_accuracy": 0.8257843852043152,
      "num_tokens": 321181432.0,
      "step": 7402
    },
    {
      "epoch": 0.9784562516521279,
      "grad_norm": 0.8334986416056667,
      "learning_rate": 1.0128764476071037e-06,
      "loss": 0.547,
      "mean_token_accuracy": 0.8144152164459229,
      "num_tokens": 321246968.0,
      "step": 7403
    },
    {
      "epoch": 0.9785884218873909,
      "grad_norm": 0.7738271479789393,
      "learning_rate": 1.0127199703025516e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8093639612197876,
      "num_tokens": 321312504.0,
      "step": 7404
    },
    {
      "epoch": 0.9787205921226539,
      "grad_norm": 0.7820298279167553,
      "learning_rate": 1.01256444824623e-06,
      "loss": 0.5346,
      "mean_token_accuracy": 0.822900116443634,
      "num_tokens": 321378040.0,
      "step": 7405
    },
    {
      "epoch": 0.978852762357917,
      "grad_norm": 0.8696120785136425,
      "learning_rate": 1.0124098814712461e-06,
      "loss": 0.5809,
      "mean_token_accuracy": 0.8082193732261658,
      "num_tokens": 321443576.0,
      "step": 7406
    },
    {
      "epoch": 0.97898493259318,
      "grad_norm": 0.7251603849956483,
      "learning_rate": 1.0122562700105047e-06,
      "loss": 0.5267,
      "mean_token_accuracy": 0.8251739740371704,
      "num_tokens": 321509112.0,
      "step": 7407
    },
    {
      "epoch": 0.979117102828443,
      "grad_norm": 0.7738915037927889,
      "learning_rate": 1.0121036138967058e-06,
      "loss": 0.5255,
      "mean_token_accuracy": 0.8254181146621704,
      "num_tokens": 321574648.0,
      "step": 7408
    },
    {
      "epoch": 0.979249273063706,
      "grad_norm": 0.863155709039469,
      "learning_rate": 1.0119519131623476e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8062660098075867,
      "num_tokens": 321640184.0,
      "step": 7409
    },
    {
      "epoch": 0.979381443298969,
      "grad_norm": 0.8238574147757799,
      "learning_rate": 1.0118011678397225e-06,
      "loss": 0.5714,
      "mean_token_accuracy": 0.8084025382995605,
      "num_tokens": 321705720.0,
      "step": 7410
    },
    {
      "epoch": 0.979513613534232,
      "grad_norm": 0.7926110422702639,
      "learning_rate": 1.0116513779609224e-06,
      "loss": 0.583,
      "mean_token_accuracy": 0.8064491748809814,
      "num_tokens": 321771256.0,
      "step": 7411
    },
    {
      "epoch": 0.9796457837694951,
      "grad_norm": 0.8032864593445544,
      "learning_rate": 1.0115025435578339e-06,
      "loss": 0.5951,
      "mean_token_accuracy": 0.8010163307189941,
      "num_tokens": 321836792.0,
      "step": 7412
    },
    {
      "epoch": 0.9797779540047581,
      "grad_norm": 0.824422112418059,
      "learning_rate": 1.0113546646621412e-06,
      "loss": 0.5982,
      "mean_token_accuracy": 0.8001160025596619,
      "num_tokens": 321902328.0,
      "step": 7413
    },
    {
      "epoch": 0.9799101242400211,
      "grad_norm": 0.8527217586050228,
      "learning_rate": 1.0112077413053238e-06,
      "loss": 0.6312,
      "mean_token_accuracy": 0.7893419861793518,
      "num_tokens": 321967864.0,
      "step": 7414
    },
    {
      "epoch": 0.9800422944752841,
      "grad_norm": 0.8427600257007329,
      "learning_rate": 1.0110617735186585e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.7901049852371216,
      "num_tokens": 322033400.0,
      "step": 7415
    },
    {
      "epoch": 0.9801744647105471,
      "grad_norm": 0.7987774468600825,
      "learning_rate": 1.0109167613332205e-06,
      "loss": 0.5794,
      "mean_token_accuracy": 0.8072274327278137,
      "num_tokens": 322098936.0,
      "step": 7416
    },
    {
      "epoch": 0.9803066349458102,
      "grad_norm": 0.8210354063490841,
      "learning_rate": 1.0107727047798779e-06,
      "loss": 0.5638,
      "mean_token_accuracy": 0.8106610774993896,
      "num_tokens": 322164472.0,
      "step": 7417
    },
    {
      "epoch": 0.9804388051810732,
      "grad_norm": 0.7968173411111125,
      "learning_rate": 1.010629603889298e-06,
      "loss": 0.5435,
      "mean_token_accuracy": 0.8205499649047852,
      "num_tokens": 322230008.0,
      "step": 7418
    },
    {
      "epoch": 0.9805709754163362,
      "grad_norm": 0.8007878738556418,
      "learning_rate": 1.010487458691945e-06,
      "loss": 0.5881,
      "mean_token_accuracy": 0.8029239177703857,
      "num_tokens": 322295544.0,
      "step": 7419
    },
    {
      "epoch": 0.9807031456515992,
      "grad_norm": 0.876989077370773,
      "learning_rate": 1.010346269218077e-06,
      "loss": 0.658,
      "mean_token_accuracy": 0.7822457551956177,
      "num_tokens": 322361080.0,
      "step": 7420
    },
    {
      "epoch": 0.9808353158868622,
      "grad_norm": 0.7249785800416072,
      "learning_rate": 1.0102060354977511e-06,
      "loss": 0.5056,
      "mean_token_accuracy": 0.8298437595367432,
      "num_tokens": 322426616.0,
      "step": 7421
    },
    {
      "epoch": 0.9809674861221253,
      "grad_norm": 0.7914995736381182,
      "learning_rate": 1.0100667575608206e-06,
      "loss": 0.523,
      "mean_token_accuracy": 0.826059103012085,
      "num_tokens": 322492152.0,
      "step": 7422
    },
    {
      "epoch": 0.9810996563573883,
      "grad_norm": 0.8393996274733284,
      "learning_rate": 1.009928435436934e-06,
      "loss": 0.6032,
      "mean_token_accuracy": 0.7977811098098755,
      "num_tokens": 322557688.0,
      "step": 7423
    },
    {
      "epoch": 0.9812318265926513,
      "grad_norm": 0.776018028691492,
      "learning_rate": 1.0097910691555379e-06,
      "loss": 0.5473,
      "mean_token_accuracy": 0.8200311064720154,
      "num_tokens": 322623224.0,
      "step": 7424
    },
    {
      "epoch": 0.9813639968279143,
      "grad_norm": 0.7974245902595373,
      "learning_rate": 1.009654658745874e-06,
      "loss": 0.5396,
      "mean_token_accuracy": 0.8190544247627258,
      "num_tokens": 322688760.0,
      "step": 7425
    },
    {
      "epoch": 0.9814961670631773,
      "grad_norm": 0.8163953166220732,
      "learning_rate": 1.0095192042369816e-06,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8106915950775146,
      "num_tokens": 322754296.0,
      "step": 7426
    },
    {
      "epoch": 0.9816283372984403,
      "grad_norm": 0.8031543265189095,
      "learning_rate": 1.009384705657696e-06,
      "loss": 0.5649,
      "mean_token_accuracy": 0.8125534057617188,
      "num_tokens": 322819832.0,
      "step": 7427
    },
    {
      "epoch": 0.9817605075337034,
      "grad_norm": 0.7811103533548641,
      "learning_rate": 1.0092511630366496e-06,
      "loss": 0.5776,
      "mean_token_accuracy": 0.8074716329574585,
      "num_tokens": 322885368.0,
      "step": 7428
    },
    {
      "epoch": 0.9818926777689664,
      "grad_norm": 0.8027004021430237,
      "learning_rate": 1.0091185764022702e-06,
      "loss": 0.569,
      "mean_token_accuracy": 0.8125991821289062,
      "num_tokens": 322950904.0,
      "step": 7429
    },
    {
      "epoch": 0.9820248480042294,
      "grad_norm": 0.8272770064440735,
      "learning_rate": 1.0089869457827836e-06,
      "loss": 0.5963,
      "mean_token_accuracy": 0.8033207058906555,
      "num_tokens": 323016440.0,
      "step": 7430
    },
    {
      "epoch": 0.9821570182394924,
      "grad_norm": 0.8122939632446181,
      "learning_rate": 1.00885627120621e-06,
      "loss": 0.5553,
      "mean_token_accuracy": 0.8163789510726929,
      "num_tokens": 323081849.0,
      "step": 7431
    },
    {
      "epoch": 0.9822891884747554,
      "grad_norm": 0.8060170361474318,
      "learning_rate": 1.008726552700368e-06,
      "loss": 0.6094,
      "mean_token_accuracy": 0.7972012162208557,
      "num_tokens": 323147385.0,
      "step": 7432
    },
    {
      "epoch": 0.9824213587100185,
      "grad_norm": 0.836040987426292,
      "learning_rate": 1.0085977902928722e-06,
      "loss": 0.59,
      "mean_token_accuracy": 0.8025577068328857,
      "num_tokens": 323212921.0,
      "step": 7433
    },
    {
      "epoch": 0.9825535289452815,
      "grad_norm": 0.7422593914351392,
      "learning_rate": 1.008469984011133e-06,
      "loss": 0.5137,
      "mean_token_accuracy": 0.8286991715431213,
      "num_tokens": 323278457.0,
      "step": 7434
    },
    {
      "epoch": 0.9826856991805445,
      "grad_norm": 0.8149226790999526,
      "learning_rate": 1.0083431338823578e-06,
      "loss": 0.5491,
      "mean_token_accuracy": 0.8170705437660217,
      "num_tokens": 323343993.0,
      "step": 7435
    },
    {
      "epoch": 0.9828178694158075,
      "grad_norm": 0.7796869311100182,
      "learning_rate": 1.0082172399335507e-06,
      "loss": 0.5717,
      "mean_token_accuracy": 0.8063117861747742,
      "num_tokens": 323409529.0,
      "step": 7436
    },
    {
      "epoch": 0.9829500396510705,
      "grad_norm": 0.7846886732767729,
      "learning_rate": 1.0080923021915111e-06,
      "loss": 0.562,
      "mean_token_accuracy": 0.8106915950775146,
      "num_tokens": 323475065.0,
      "step": 7437
    },
    {
      "epoch": 0.9830822098863335,
      "grad_norm": 0.8917250002609042,
      "learning_rate": 1.007968320682836e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8030460476875305,
      "num_tokens": 323540601.0,
      "step": 7438
    },
    {
      "epoch": 0.9832143801215966,
      "grad_norm": 0.796409015124315,
      "learning_rate": 1.0078452954339189e-06,
      "loss": 0.5896,
      "mean_token_accuracy": 0.8038853406906128,
      "num_tokens": 323606137.0,
      "step": 7439
    },
    {
      "epoch": 0.9833465503568596,
      "grad_norm": 0.7929798861699933,
      "learning_rate": 1.0077232264709491e-06,
      "loss": 0.5847,
      "mean_token_accuracy": 0.8038395643234253,
      "num_tokens": 323671673.0,
      "step": 7440
    },
    {
      "epoch": 0.9834787205921226,
      "grad_norm": 0.7737050137629106,
      "learning_rate": 1.007602113819912e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.816551685333252,
      "num_tokens": 323737209.0,
      "step": 7441
    },
    {
      "epoch": 0.9836108908273856,
      "grad_norm": 0.8411581281398778,
      "learning_rate": 1.0074819575065905e-06,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8008487224578857,
      "num_tokens": 323799898.0,
      "step": 7442
    },
    {
      "epoch": 0.9837430610626486,
      "grad_norm": 0.7718070181049002,
      "learning_rate": 1.0073627575565629e-06,
      "loss": 0.5693,
      "mean_token_accuracy": 0.8100354075431824,
      "num_tokens": 323865434.0,
      "step": 7443
    },
    {
      "epoch": 0.9838752312979117,
      "grad_norm": 0.7540394980442272,
      "learning_rate": 1.0072445139952053e-06,
      "loss": 0.5476,
      "mean_token_accuracy": 0.8170552849769592,
      "num_tokens": 323930970.0,
      "step": 7444
    },
    {
      "epoch": 0.9840074015331747,
      "grad_norm": 0.7781439762783305,
      "learning_rate": 1.0071272268476887e-06,
      "loss": 0.5605,
      "mean_token_accuracy": 0.8132248520851135,
      "num_tokens": 323996506.0,
      "step": 7445
    },
    {
      "epoch": 0.9841395717684377,
      "grad_norm": 0.7606521617079162,
      "learning_rate": 1.0070108961389805e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8132859468460083,
      "num_tokens": 324062042.0,
      "step": 7446
    },
    {
      "epoch": 0.9842717420037007,
      "grad_norm": 0.7722046435101585,
      "learning_rate": 1.006895521893846e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8038853406906128,
      "num_tokens": 324127578.0,
      "step": 7447
    },
    {
      "epoch": 0.9844039122389638,
      "grad_norm": 0.8624713188320556,
      "learning_rate": 1.0067811041368455e-06,
      "loss": 0.5836,
      "mean_token_accuracy": 0.8079904913902283,
      "num_tokens": 324193114.0,
      "step": 7448
    },
    {
      "epoch": 0.9845360824742269,
      "grad_norm": 0.7868485407544017,
      "learning_rate": 1.0066676428923365e-06,
      "loss": 0.5853,
      "mean_token_accuracy": 0.8040532469749451,
      "num_tokens": 324258650.0,
      "step": 7449
    },
    {
      "epoch": 0.9846682527094899,
      "grad_norm": 0.7556059425852159,
      "learning_rate": 1.006555138184472e-06,
      "loss": 0.5492,
      "mean_token_accuracy": 0.8177420496940613,
      "num_tokens": 324324186.0,
      "step": 7450
    },
    {
      "epoch": 0.9848004229447529,
      "grad_norm": 0.7317357355057614,
      "learning_rate": 1.0064435900372025e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8233579397201538,
      "num_tokens": 324389722.0,
      "step": 7451
    },
    {
      "epoch": 0.9849325931800159,
      "grad_norm": 0.8009103486078728,
      "learning_rate": 1.0063329984742735e-06,
      "loss": 0.5735,
      "mean_token_accuracy": 0.8094860315322876,
      "num_tokens": 324455258.0,
      "step": 7452
    },
    {
      "epoch": 0.9850647634152789,
      "grad_norm": 0.7933462824657633,
      "learning_rate": 1.0062233635192286e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8089061379432678,
      "num_tokens": 324520794.0,
      "step": 7453
    },
    {
      "epoch": 0.985196933650542,
      "grad_norm": 0.7472376870290559,
      "learning_rate": 1.0061146851954063e-06,
      "loss": 0.5264,
      "mean_token_accuracy": 0.8222897052764893,
      "num_tokens": 324586330.0,
      "step": 7454
    },
    {
      "epoch": 0.985329103885805,
      "grad_norm": 0.783634167466546,
      "learning_rate": 1.0060069635259413e-06,
      "loss": 0.5548,
      "mean_token_accuracy": 0.8151782155036926,
      "num_tokens": 324651866.0,
      "step": 7455
    },
    {
      "epoch": 0.985461274121068,
      "grad_norm": 0.7788741159025527,
      "learning_rate": 1.0059001985337668e-06,
      "loss": 0.5154,
      "mean_token_accuracy": 0.827325701713562,
      "num_tokens": 324717402.0,
      "step": 7456
    },
    {
      "epoch": 0.985593444356331,
      "grad_norm": 0.7525583360613858,
      "learning_rate": 1.0057943902416093e-06,
      "loss": 0.5307,
      "mean_token_accuracy": 0.8246245980262756,
      "num_tokens": 324782938.0,
      "step": 7457
    },
    {
      "epoch": 0.985725614591594,
      "grad_norm": 0.8520012788826345,
      "learning_rate": 1.0056895386719946e-06,
      "loss": 0.5754,
      "mean_token_accuracy": 0.807731032371521,
      "num_tokens": 324848474.0,
      "step": 7458
    },
    {
      "epoch": 0.985857784826857,
      "grad_norm": 0.9028696235594964,
      "learning_rate": 1.0055856438472422e-06,
      "loss": 0.6607,
      "mean_token_accuracy": 0.7799108624458313,
      "num_tokens": 324914010.0,
      "step": 7459
    },
    {
      "epoch": 0.9859899550621201,
      "grad_norm": 0.776198318219249,
      "learning_rate": 1.0054827057894694e-06,
      "loss": 0.5419,
      "mean_token_accuracy": 0.8192528486251831,
      "num_tokens": 324979546.0,
      "step": 7460
    },
    {
      "epoch": 0.9861221252973831,
      "grad_norm": 0.7676229767853711,
      "learning_rate": 1.0053807245205904e-06,
      "loss": 0.529,
      "mean_token_accuracy": 0.8230832815170288,
      "num_tokens": 325045082.0,
      "step": 7461
    },
    {
      "epoch": 0.9862542955326461,
      "grad_norm": 0.7999773449873342,
      "learning_rate": 1.0052797000623134e-06,
      "loss": 0.5596,
      "mean_token_accuracy": 0.8129196763038635,
      "num_tokens": 325110618.0,
      "step": 7462
    },
    {
      "epoch": 0.9863864657679091,
      "grad_norm": 0.8487824504708735,
      "learning_rate": 1.0051796324361463e-06,
      "loss": 0.6004,
      "mean_token_accuracy": 0.7991850972175598,
      "num_tokens": 325176154.0,
      "step": 7463
    },
    {
      "epoch": 0.9865186360031721,
      "grad_norm": 0.8330151833443221,
      "learning_rate": 1.0050805216633893e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8055793046951294,
      "num_tokens": 325241690.0,
      "step": 7464
    },
    {
      "epoch": 0.9866508062384352,
      "grad_norm": 0.839449608161749,
      "learning_rate": 1.0049823677651426e-06,
      "loss": 0.5945,
      "mean_token_accuracy": 0.8017336130142212,
      "num_tokens": 325307226.0,
      "step": 7465
    },
    {
      "epoch": 0.9867829764736982,
      "grad_norm": 0.9131088534022356,
      "learning_rate": 1.004885170762301e-06,
      "loss": 0.6148,
      "mean_token_accuracy": 0.7963008284568787,
      "num_tokens": 325372762.0,
      "step": 7466
    },
    {
      "epoch": 0.9869151467089612,
      "grad_norm": 0.797349720479484,
      "learning_rate": 1.0047889306755545e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8042058348655701,
      "num_tokens": 325438298.0,
      "step": 7467
    },
    {
      "epoch": 0.9870473169442242,
      "grad_norm": 0.8004688051120843,
      "learning_rate": 1.0046936475253921e-06,
      "loss": 0.5839,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 325503834.0,
      "step": 7468
    },
    {
      "epoch": 0.9871794871794872,
      "grad_norm": 0.7757868954287298,
      "learning_rate": 1.004599321332097e-06,
      "loss": 0.5747,
      "mean_token_accuracy": 0.8088908791542053,
      "num_tokens": 325569370.0,
      "step": 7469
    },
    {
      "epoch": 0.9873116574147502,
      "grad_norm": 0.7817654214192876,
      "learning_rate": 1.0045059521157484e-06,
      "loss": 0.5462,
      "mean_token_accuracy": 0.8201837539672852,
      "num_tokens": 325634906.0,
      "step": 7470
    },
    {
      "epoch": 0.9874438276500133,
      "grad_norm": 0.8306022448335302,
      "learning_rate": 1.0044135398962241e-06,
      "loss": 0.5758,
      "mean_token_accuracy": 0.8084940910339355,
      "num_tokens": 325700442.0,
      "step": 7471
    },
    {
      "epoch": 0.9875759978852763,
      "grad_norm": 0.8158210142630151,
      "learning_rate": 1.0043220846931956e-06,
      "loss": 0.5733,
      "mean_token_accuracy": 0.8072884678840637,
      "num_tokens": 325765978.0,
      "step": 7472
    },
    {
      "epoch": 0.9877081681205393,
      "grad_norm": 0.8186964561695762,
      "learning_rate": 1.0042315865261323e-06,
      "loss": 0.5667,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 325831514.0,
      "step": 7473
    },
    {
      "epoch": 0.9878403383558023,
      "grad_norm": 0.861672391589617,
      "learning_rate": 1.0041420454142997e-06,
      "loss": 0.6276,
      "mean_token_accuracy": 0.7917225956916809,
      "num_tokens": 325897050.0,
      "step": 7474
    },
    {
      "epoch": 0.9879725085910653,
      "grad_norm": 0.7500499292759357,
      "learning_rate": 1.0040534613767589e-06,
      "loss": 0.4886,
      "mean_token_accuracy": 0.8347424268722534,
      "num_tokens": 325962586.0,
      "step": 7475
    },
    {
      "epoch": 0.9881046788263284,
      "grad_norm": 0.7781959704377319,
      "learning_rate": 1.0039658344323673e-06,
      "loss": 0.5582,
      "mean_token_accuracy": 0.8141710162162781,
      "num_tokens": 326028122.0,
      "step": 7476
    },
    {
      "epoch": 0.9882368490615914,
      "grad_norm": 0.8206143079822582,
      "learning_rate": 1.003879164599779e-06,
      "loss": 0.5835,
      "mean_token_accuracy": 0.8053045868873596,
      "num_tokens": 326093658.0,
      "step": 7477
    },
    {
      "epoch": 0.9883690192968544,
      "grad_norm": 0.8059839482223967,
      "learning_rate": 1.0037934518974444e-06,
      "loss": 0.5278,
      "mean_token_accuracy": 0.8230832815170288,
      "num_tokens": 326159194.0,
      "step": 7478
    },
    {
      "epoch": 0.9885011895321174,
      "grad_norm": 0.7307899608680346,
      "learning_rate": 1.0037086963436102e-06,
      "loss": 0.5056,
      "mean_token_accuracy": 0.8315224051475525,
      "num_tokens": 326224730.0,
      "step": 7479
    },
    {
      "epoch": 0.9886333597673804,
      "grad_norm": 0.803703464418621,
      "learning_rate": 1.0036248979563184e-06,
      "loss": 0.589,
      "mean_token_accuracy": 0.8038700819015503,
      "num_tokens": 326290266.0,
      "step": 7480
    },
    {
      "epoch": 0.9887655300026434,
      "grad_norm": 0.9048857531113742,
      "learning_rate": 1.0035420567534086e-06,
      "loss": 0.639,
      "mean_token_accuracy": 0.7865645289421082,
      "num_tokens": 326355802.0,
      "step": 7481
    },
    {
      "epoch": 0.9888977002379065,
      "grad_norm": 0.7195989690379259,
      "learning_rate": 1.003460172752515e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.818596601486206,
      "num_tokens": 326421338.0,
      "step": 7482
    },
    {
      "epoch": 0.9890298704731695,
      "grad_norm": 0.8708218152452586,
      "learning_rate": 1.0033792459710701e-06,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8008332252502441,
      "num_tokens": 326486874.0,
      "step": 7483
    },
    {
      "epoch": 0.9891620407084325,
      "grad_norm": 0.823493406916416,
      "learning_rate": 1.0032992764263014e-06,
      "loss": 0.5862,
      "mean_token_accuracy": 0.8042821288108826,
      "num_tokens": 326552410.0,
      "step": 7484
    },
    {
      "epoch": 0.9892942109436955,
      "grad_norm": 0.8348252132823442,
      "learning_rate": 1.003220264135232e-06,
      "loss": 0.6209,
      "mean_token_accuracy": 0.7907917499542236,
      "num_tokens": 326617946.0,
      "step": 7485
    },
    {
      "epoch": 0.9894263811789585,
      "grad_norm": 0.8542744347045491,
      "learning_rate": 1.003142209114682e-06,
      "loss": 0.5736,
      "mean_token_accuracy": 0.8045263290405273,
      "num_tokens": 326683482.0,
      "step": 7486
    },
    {
      "epoch": 0.9895585514142216,
      "grad_norm": 0.7377104433360273,
      "learning_rate": 1.0030651113812683e-06,
      "loss": 0.5493,
      "mean_token_accuracy": 0.8158039450645447,
      "num_tokens": 326749018.0,
      "step": 7487
    },
    {
      "epoch": 0.9896907216494846,
      "grad_norm": 0.7825057786057624,
      "learning_rate": 1.0029889709514035e-06,
      "loss": 0.5545,
      "mean_token_accuracy": 0.8159870505332947,
      "num_tokens": 326814554.0,
      "step": 7488
    },
    {
      "epoch": 0.9898228918847476,
      "grad_norm": 0.75877647698748,
      "learning_rate": 1.0029137878412959e-06,
      "loss": 0.5389,
      "mean_token_accuracy": 0.8192223310470581,
      "num_tokens": 326880090.0,
      "step": 7489
    },
    {
      "epoch": 0.9899550621200106,
      "grad_norm": 0.8002244365874476,
      "learning_rate": 1.00283956206695e-06,
      "loss": 0.5751,
      "mean_token_accuracy": 0.8054877519607544,
      "num_tokens": 326945626.0,
      "step": 7490
    },
    {
      "epoch": 0.9900872323552736,
      "grad_norm": 0.8208088015770476,
      "learning_rate": 1.0027662936441677e-06,
      "loss": 0.5966,
      "mean_token_accuracy": 0.8038243055343628,
      "num_tokens": 327011162.0,
      "step": 7491
    },
    {
      "epoch": 0.9902194025905366,
      "grad_norm": 0.7973440631405133,
      "learning_rate": 1.0026939825885457e-06,
      "loss": 0.5289,
      "mean_token_accuracy": 0.8211146593093872,
      "num_tokens": 327076698.0,
      "step": 7492
    },
    {
      "epoch": 0.9903515728257997,
      "grad_norm": 0.7805906591125252,
      "learning_rate": 1.0026226289154782e-06,
      "loss": 0.5628,
      "mean_token_accuracy": 0.8114393949508667,
      "num_tokens": 327142234.0,
      "step": 7493
    },
    {
      "epoch": 0.9904837430610627,
      "grad_norm": 0.7928008046415608,
      "learning_rate": 1.0025522326401546e-06,
      "loss": 0.5575,
      "mean_token_accuracy": 0.8132248520851135,
      "num_tokens": 327207770.0,
      "step": 7494
    },
    {
      "epoch": 0.9906159132963257,
      "grad_norm": 0.8252156734404471,
      "learning_rate": 1.0024827937775607e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.8001770377159119,
      "num_tokens": 327273306.0,
      "step": 7495
    },
    {
      "epoch": 0.9907480835315887,
      "grad_norm": 0.8565802615683288,
      "learning_rate": 1.002414312342478e-06,
      "loss": 0.5857,
      "mean_token_accuracy": 0.8053503632545471,
      "num_tokens": 327338842.0,
      "step": 7496
    },
    {
      "epoch": 0.9908802537668517,
      "grad_norm": 0.7589527070329312,
      "learning_rate": 1.002346788349486e-06,
      "loss": 0.5975,
      "mean_token_accuracy": 0.8010010719299316,
      "num_tokens": 327404378.0,
      "step": 7497
    },
    {
      "epoch": 0.9910124240021148,
      "grad_norm": 0.825285173293102,
      "learning_rate": 1.0022802218129586e-06,
      "loss": 0.5872,
      "mean_token_accuracy": 0.803213894367218,
      "num_tokens": 327469914.0,
      "step": 7498
    },
    {
      "epoch": 0.9911445942373778,
      "grad_norm": 0.8019071305943933,
      "learning_rate": 1.0022146127470659e-06,
      "loss": 0.5884,
      "mean_token_accuracy": 0.8032596707344055,
      "num_tokens": 327535450.0,
      "step": 7499
    },
    {
      "epoch": 0.9912767644726408,
      "grad_norm": 0.7762702393142433,
      "learning_rate": 1.0021499611657753e-06,
      "loss": 0.5177,
      "mean_token_accuracy": 0.827264666557312,
      "num_tokens": 327600986.0,
      "step": 7500
    },
    {
      "epoch": 0.9914089347079038,
      "grad_norm": 0.8255814039636664,
      "learning_rate": 1.00208626708285e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.7854962944984436,
      "num_tokens": 327666522.0,
      "step": 7501
    },
    {
      "epoch": 0.9915411049431668,
      "grad_norm": 0.8146525140131685,
      "learning_rate": 1.0020235305118482e-06,
      "loss": 0.5487,
      "mean_token_accuracy": 0.8148730397224426,
      "num_tokens": 327732058.0,
      "step": 7502
    },
    {
      "epoch": 0.9916732751784298,
      "grad_norm": 0.8029959679830432,
      "learning_rate": 1.0019617514661262e-06,
      "loss": 0.5622,
      "mean_token_accuracy": 0.8126907348632812,
      "num_tokens": 327797594.0,
      "step": 7503
    },
    {
      "epoch": 0.9918054454136929,
      "grad_norm": 0.8331156904442197,
      "learning_rate": 1.0019009299588345e-06,
      "loss": 0.6205,
      "mean_token_accuracy": 0.7954004406929016,
      "num_tokens": 327863130.0,
      "step": 7504
    },
    {
      "epoch": 0.9919376156489559,
      "grad_norm": 0.8280242046919091,
      "learning_rate": 1.0018410660029216e-06,
      "loss": 0.5664,
      "mean_token_accuracy": 0.8142015337944031,
      "num_tokens": 327928666.0,
      "step": 7505
    },
    {
      "epoch": 0.9920697858842189,
      "grad_norm": 0.7611749443741423,
      "learning_rate": 1.0017821596111314e-06,
      "loss": 0.5254,
      "mean_token_accuracy": 0.8260438442230225,
      "num_tokens": 327994202.0,
      "step": 7506
    },
    {
      "epoch": 0.9922019561194819,
      "grad_norm": 0.8126950994021803,
      "learning_rate": 1.0017242107960028e-06,
      "loss": 0.5651,
      "mean_token_accuracy": 0.8114088773727417,
      "num_tokens": 328059738.0,
      "step": 7507
    },
    {
      "epoch": 0.9923341263547449,
      "grad_norm": 0.8967144917871935,
      "learning_rate": 1.0016672195698724e-06,
      "loss": 0.6127,
      "mean_token_accuracy": 0.7955835461616516,
      "num_tokens": 328125274.0,
      "step": 7508
    },
    {
      "epoch": 0.992466296590008,
      "grad_norm": 0.7963915116771735,
      "learning_rate": 1.001611185944873e-06,
      "loss": 0.593,
      "mean_token_accuracy": 0.8024813532829285,
      "num_tokens": 328190810.0,
      "step": 7509
    },
    {
      "epoch": 0.992598466825271,
      "grad_norm": 0.7693230258327102,
      "learning_rate": 1.0015561099329318e-06,
      "loss": 0.5784,
      "mean_token_accuracy": 0.8059150576591492,
      "num_tokens": 328256346.0,
      "step": 7510
    },
    {
      "epoch": 0.992730637060534,
      "grad_norm": 0.7568047993293335,
      "learning_rate": 1.0015019915457749e-06,
      "loss": 0.5502,
      "mean_token_accuracy": 0.8155292272567749,
      "num_tokens": 328321882.0,
      "step": 7511
    },
    {
      "epoch": 0.992862807295797,
      "grad_norm": 0.8221296365197529,
      "learning_rate": 1.0014488307949213e-06,
      "loss": 0.6216,
      "mean_token_accuracy": 0.7941642999649048,
      "num_tokens": 328387418.0,
      "step": 7512
    },
    {
      "epoch": 0.99299497753106,
      "grad_norm": 0.801076759177788,
      "learning_rate": 1.0013966276916899e-06,
      "loss": 0.5727,
      "mean_token_accuracy": 0.8116835355758667,
      "num_tokens": 328452954.0,
      "step": 7513
    },
    {
      "epoch": 0.993127147766323,
      "grad_norm": 0.7586771320813769,
      "learning_rate": 1.0013453822471915e-06,
      "loss": 0.522,
      "mean_token_accuracy": 0.827203631401062,
      "num_tokens": 328518490.0,
      "step": 7514
    },
    {
      "epoch": 0.9932593180015861,
      "grad_norm": 0.7882611000322176,
      "learning_rate": 1.0012950944723355e-06,
      "loss": 0.5263,
      "mean_token_accuracy": 0.8251434564590454,
      "num_tokens": 328584026.0,
      "step": 7515
    },
    {
      "epoch": 0.9933914882368491,
      "grad_norm": 0.774819910484788,
      "learning_rate": 1.0012457643778288e-06,
      "loss": 0.5235,
      "mean_token_accuracy": 0.8256623148918152,
      "num_tokens": 328649562.0,
      "step": 7516
    },
    {
      "epoch": 0.9935236584721121,
      "grad_norm": 0.7982911940020694,
      "learning_rate": 1.0011973919741711e-06,
      "loss": 0.5865,
      "mean_token_accuracy": 0.806464433670044,
      "num_tokens": 328715098.0,
      "step": 7517
    },
    {
      "epoch": 0.9936558287073751,
      "grad_norm": 0.8196498370059717,
      "learning_rate": 1.0011499772716604e-06,
      "loss": 0.5819,
      "mean_token_accuracy": 0.8078836798667908,
      "num_tokens": 328780634.0,
      "step": 7518
    },
    {
      "epoch": 0.9937879989426381,
      "grad_norm": 0.7597777424828713,
      "learning_rate": 1.0011035202803905e-06,
      "loss": 0.5631,
      "mean_token_accuracy": 0.8122634887695312,
      "num_tokens": 328846170.0,
      "step": 7519
    },
    {
      "epoch": 0.9939201691779012,
      "grad_norm": 0.8375841140123327,
      "learning_rate": 1.0010580210102511e-06,
      "loss": 0.5722,
      "mean_token_accuracy": 0.8089671730995178,
      "num_tokens": 328911706.0,
      "step": 7520
    },
    {
      "epoch": 0.9940523394131642,
      "grad_norm": 0.7647924946619945,
      "learning_rate": 1.0010134794709271e-06,
      "loss": 0.5691,
      "mean_token_accuracy": 0.8109815716743469,
      "num_tokens": 328977242.0,
      "step": 7521
    },
    {
      "epoch": 0.9941845096484272,
      "grad_norm": 0.7574387700232109,
      "learning_rate": 1.0009698956719019e-06,
      "loss": 0.5459,
      "mean_token_accuracy": 0.8191765546798706,
      "num_tokens": 329042778.0,
      "step": 7522
    },
    {
      "epoch": 0.9943166798836902,
      "grad_norm": 0.8201984725089956,
      "learning_rate": 1.0009272696224531e-06,
      "loss": 0.58,
      "mean_token_accuracy": 0.8051825165748596,
      "num_tokens": 329108314.0,
      "step": 7523
    },
    {
      "epoch": 0.9944488501189532,
      "grad_norm": 0.8357053050436605,
      "learning_rate": 1.0008856013316545e-06,
      "loss": 0.6255,
      "mean_token_accuracy": 0.7899676561355591,
      "num_tokens": 329173850.0,
      "step": 7524
    },
    {
      "epoch": 0.9945810203542162,
      "grad_norm": 0.8112413931033001,
      "learning_rate": 1.0008448908083765e-06,
      "loss": 0.5915,
      "mean_token_accuracy": 0.8006653785705566,
      "num_tokens": 329239386.0,
      "step": 7525
    },
    {
      "epoch": 0.9947131905894793,
      "grad_norm": 0.8059223428459412,
      "learning_rate": 1.0008051380612854e-06,
      "loss": 0.5559,
      "mean_token_accuracy": 0.8142778873443604,
      "num_tokens": 329304922.0,
      "step": 7526
    },
    {
      "epoch": 0.9948453608247423,
      "grad_norm": 0.8436367995034788,
      "learning_rate": 1.0007663430988443e-06,
      "loss": 0.5698,
      "mean_token_accuracy": 0.808814525604248,
      "num_tokens": 329370458.0,
      "step": 7527
    },
    {
      "epoch": 0.9949775310600053,
      "grad_norm": 0.8762693798740134,
      "learning_rate": 1.0007285059293118e-06,
      "loss": 0.5869,
      "mean_token_accuracy": 0.8029391765594482,
      "num_tokens": 329435994.0,
      "step": 7528
    },
    {
      "epoch": 0.9951097012952683,
      "grad_norm": 0.8241062741339843,
      "learning_rate": 1.0006916265607419e-06,
      "loss": 0.6169,
      "mean_token_accuracy": 0.7963618636131287,
      "num_tokens": 329501530.0,
      "step": 7529
    },
    {
      "epoch": 0.9952418715305313,
      "grad_norm": 0.7902574319545217,
      "learning_rate": 1.000655705000986e-06,
      "loss": 0.5762,
      "mean_token_accuracy": 0.8077768087387085,
      "num_tokens": 329567066.0,
      "step": 7530
    },
    {
      "epoch": 0.9953740417657944,
      "grad_norm": 0.7649091827862938,
      "learning_rate": 1.0006207412576913e-06,
      "loss": 0.5642,
      "mean_token_accuracy": 0.8122329115867615,
      "num_tokens": 329632602.0,
      "step": 7531
    },
    {
      "epoch": 0.9955062120010574,
      "grad_norm": 0.8324651072646676,
      "learning_rate": 1.0005867353383e-06,
      "loss": 0.563,
      "mean_token_accuracy": 0.8115614652633667,
      "num_tokens": 329698138.0,
      "step": 7532
    },
    {
      "epoch": 0.9956383822363204,
      "grad_norm": 0.8408682729825473,
      "learning_rate": 1.000553687250052e-06,
      "loss": 0.6012,
      "mean_token_accuracy": 0.8007264137268066,
      "num_tokens": 329763674.0,
      "step": 7533
    },
    {
      "epoch": 0.9957705524715834,
      "grad_norm": 0.8391966664535103,
      "learning_rate": 1.0005215969999827e-06,
      "loss": 0.6192,
      "mean_token_accuracy": 0.7939964532852173,
      "num_tokens": 329829210.0,
      "step": 7534
    },
    {
      "epoch": 0.9959027227068464,
      "grad_norm": 0.8247844097987423,
      "learning_rate": 1.0004904645949224e-06,
      "loss": 0.5937,
      "mean_token_accuracy": 0.802405059337616,
      "num_tokens": 329894746.0,
      "step": 7535
    },
    {
      "epoch": 0.9960348929421095,
      "grad_norm": 0.7951091585234616,
      "learning_rate": 1.0004602900414995e-06,
      "loss": 0.6178,
      "mean_token_accuracy": 0.7933250069618225,
      "num_tokens": 329960282.0,
      "step": 7536
    },
    {
      "epoch": 0.9961670631773725,
      "grad_norm": 0.8077305257001686,
      "learning_rate": 1.0004310733461374e-06,
      "loss": 0.5802,
      "mean_token_accuracy": 0.8048315048217773,
      "num_tokens": 330025818.0,
      "step": 7537
    },
    {
      "epoch": 0.9962992334126355,
      "grad_norm": 0.8300092591807735,
      "learning_rate": 1.0004028145150554e-06,
      "loss": 0.572,
      "mean_token_accuracy": 0.8107831478118896,
      "num_tokens": 330091354.0,
      "step": 7538
    },
    {
      "epoch": 0.9964314036478985,
      "grad_norm": 0.7760246141150845,
      "learning_rate": 1.0003755135542691e-06,
      "loss": 0.5682,
      "mean_token_accuracy": 0.8107984662055969,
      "num_tokens": 330156890.0,
      "step": 7539
    },
    {
      "epoch": 0.9965635738831615,
      "grad_norm": 0.8515056937964701,
      "learning_rate": 1.000349170469591e-06,
      "loss": 0.6009,
      "mean_token_accuracy": 0.8026645183563232,
      "num_tokens": 330222426.0,
      "step": 7540
    },
    {
      "epoch": 0.9966957441184245,
      "grad_norm": 0.7526955789572701,
      "learning_rate": 1.0003237852666284e-06,
      "loss": 0.5272,
      "mean_token_accuracy": 0.8238767981529236,
      "num_tokens": 330287962.0,
      "step": 7541
    },
    {
      "epoch": 0.9968279143536876,
      "grad_norm": 0.7777333864874454,
      "learning_rate": 1.0002993579507852e-06,
      "loss": 0.5439,
      "mean_token_accuracy": 0.8178030848503113,
      "num_tokens": 330353498.0,
      "step": 7542
    },
    {
      "epoch": 0.9969600845889506,
      "grad_norm": 0.7185254422086322,
      "learning_rate": 1.000275888527262e-06,
      "loss": 0.5474,
      "mean_token_accuracy": 0.8172537088394165,
      "num_tokens": 330419034.0,
      "step": 7543
    },
    {
      "epoch": 0.9970922548242136,
      "grad_norm": 0.8089390728637225,
      "learning_rate": 1.0002533770010545e-06,
      "loss": 0.5625,
      "mean_token_accuracy": 0.8129501938819885,
      "num_tokens": 330484570.0,
      "step": 7544
    },
    {
      "epoch": 0.9972244250594766,
      "grad_norm": 0.7339071618290348,
      "learning_rate": 1.0002318233769556e-06,
      "loss": 0.5066,
      "mean_token_accuracy": 0.83162921667099,
      "num_tokens": 330550106.0,
      "step": 7545
    },
    {
      "epoch": 0.9973565952947396,
      "grad_norm": 0.7842428769781453,
      "learning_rate": 1.0002112276595525e-06,
      "loss": 0.5981,
      "mean_token_accuracy": 0.7996429204940796,
      "num_tokens": 330615642.0,
      "step": 7546
    },
    {
      "epoch": 0.9974887655300027,
      "grad_norm": 0.8178515686438265,
      "learning_rate": 1.0001915898532305e-06,
      "loss": 0.5668,
      "mean_token_accuracy": 0.8102032542228699,
      "num_tokens": 330681178.0,
      "step": 7547
    },
    {
      "epoch": 0.9976209357652657,
      "grad_norm": 0.7374322074182146,
      "learning_rate": 1.0001729099621693e-06,
      "loss": 0.538,
      "mean_token_accuracy": 0.8211146593093872,
      "num_tokens": 330746714.0,
      "step": 7548
    },
    {
      "epoch": 0.9977531060005287,
      "grad_norm": 0.910862847552687,
      "learning_rate": 1.0001551879903464e-06,
      "loss": 0.6263,
      "mean_token_accuracy": 0.7895098328590393,
      "num_tokens": 330812250.0,
      "step": 7549
    },
    {
      "epoch": 0.9978852762357917,
      "grad_norm": 0.7452000499805466,
      "learning_rate": 1.0001384239415338e-06,
      "loss": 0.5787,
      "mean_token_accuracy": 0.8087077140808105,
      "num_tokens": 330877786.0,
      "step": 7550
    },
    {
      "epoch": 0.9980174464710547,
      "grad_norm": 0.7981190723757702,
      "learning_rate": 1.0001226178193008e-06,
      "loss": 0.5252,
      "mean_token_accuracy": 0.8255249857902527,
      "num_tokens": 330943322.0,
      "step": 7551
    },
    {
      "epoch": 0.9981496167063177,
      "grad_norm": 0.7995280939001643,
      "learning_rate": 1.0001077696270116e-06,
      "loss": 0.5823,
      "mean_token_accuracy": 0.8069222569465637,
      "num_tokens": 331008858.0,
      "step": 7552
    },
    {
      "epoch": 0.9982817869415808,
      "grad_norm": 0.7774497793512188,
      "learning_rate": 1.0000938793678267e-06,
      "loss": 0.5415,
      "mean_token_accuracy": 0.8177420496940613,
      "num_tokens": 331074394.0,
      "step": 7553
    },
    {
      "epoch": 0.9984139571768438,
      "grad_norm": 0.7458645867370769,
      "learning_rate": 1.0000809470447043e-06,
      "loss": 0.5413,
      "mean_token_accuracy": 0.818444013595581,
      "num_tokens": 331139930.0,
      "step": 7554
    },
    {
      "epoch": 0.9985461274121068,
      "grad_norm": 0.8720539397836408,
      "learning_rate": 1.0000689726603967e-06,
      "loss": 0.6529,
      "mean_token_accuracy": 0.783924400806427,
      "num_tokens": 331205466.0,
      "step": 7555
    },
    {
      "epoch": 0.9986782976473698,
      "grad_norm": 0.8016954507274141,
      "learning_rate": 1.0000579562174528e-06,
      "loss": 0.5619,
      "mean_token_accuracy": 0.8106305599212646,
      "num_tokens": 331271002.0,
      "step": 7556
    },
    {
      "epoch": 0.9988104678826328,
      "grad_norm": 0.7985364895193362,
      "learning_rate": 1.0000478977182178e-06,
      "loss": 0.5466,
      "mean_token_accuracy": 0.817268967628479,
      "num_tokens": 331336538.0,
      "step": 7557
    },
    {
      "epoch": 0.9989426381178959,
      "grad_norm": 0.8361171922946252,
      "learning_rate": 1.0000387971648334e-06,
      "loss": 0.6263,
      "mean_token_accuracy": 0.7907611727714539,
      "num_tokens": 331402074.0,
      "step": 7558
    },
    {
      "epoch": 0.9990748083531589,
      "grad_norm": 0.8166200103494413,
      "learning_rate": 1.0000306545592368e-06,
      "loss": 0.5671,
      "mean_token_accuracy": 0.8097912073135376,
      "num_tokens": 331467610.0,
      "step": 7559
    },
    {
      "epoch": 0.9992069785884219,
      "grad_norm": 0.8142399334111575,
      "learning_rate": 1.000023469903161e-06,
      "loss": 0.6184,
      "mean_token_accuracy": 0.7934165596961975,
      "num_tokens": 331533146.0,
      "step": 7560
    },
    {
      "epoch": 0.9993391488236849,
      "grad_norm": 0.8197592729819727,
      "learning_rate": 1.0000172431981355e-06,
      "loss": 0.5746,
      "mean_token_accuracy": 0.807395339012146,
      "num_tokens": 331598682.0,
      "step": 7561
    },
    {
      "epoch": 0.9994713190589479,
      "grad_norm": 0.7797927646545476,
      "learning_rate": 1.0000119744454864e-06,
      "loss": 0.5215,
      "mean_token_accuracy": 0.8274173140525818,
      "num_tokens": 331664218.0,
      "step": 7562
    },
    {
      "epoch": 0.999603489294211,
      "grad_norm": 0.7574390451719882,
      "learning_rate": 1.0000076636463352e-06,
      "loss": 0.5426,
      "mean_token_accuracy": 0.8193291425704956,
      "num_tokens": 331729754.0,
      "step": 7563
    },
    {
      "epoch": 0.999735659529474,
      "grad_norm": 0.7804488810589181,
      "learning_rate": 1.0000043108015989e-06,
      "loss": 0.5742,
      "mean_token_accuracy": 0.8108289837837219,
      "num_tokens": 331795290.0,
      "step": 7564
    },
    {
      "epoch": 0.999867829764737,
      "grad_norm": 0.7823763271207023,
      "learning_rate": 1.0000019159119917e-06,
      "loss": 0.5652,
      "mean_token_accuracy": 0.8093792200088501,
      "num_tokens": 331860826.0,
      "step": 7565
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.7465338978368082,
      "learning_rate": 1.0000004789780234e-06,
      "loss": 0.5061,
      "mean_token_accuracy": 0.8289738893508911,
      "num_tokens": 331926362.0,
      "step": 7566
    },
    {
      "epoch": 1.0,
      "step": 7566,
      "total_flos": 376152465051648.0,
      "train_loss": 0.392165879506993,
      "train_runtime": 99618.8993,
      "train_samples_per_second": 0.608,
      "train_steps_per_second": 0.076
    }
  ],
  "logging_steps": 1,
  "max_steps": 7566,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 376152465051648.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}